PyPI - khoj - Versions diffs - 2.0.0b12__py3-none-any.whl → 2.0.0b13__py3-none-any.whl - Mend

khoj 2.0.0b12py3-none-any.whl → 2.0.0b13py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (199) hide show

khoj/routers/helpers.py CHANGED Viewed

@@ -1,6 +1,5 @@
 import asyncio
 import base64
-import concurrent.futures
 import fnmatch
 import hashlib
 import json
@@ -47,14 +46,12 @@ from khoj.database.adapters import (
     EntryAdapters,
     FileObjectAdapters,
     aget_user_by_email,
-    ais_user_subscribed,
     create_khoj_token,
     get_default_search_model,
     get_khoj_tokens,
     get_user_name,
     get_user_notion_config,
     get_user_subscription_state,
-    is_user_subscribed,
     run_with_process_lock,
 )
 from khoj.database.models import (
@@ -89,10 +86,6 @@ from khoj.processor.conversation.google.gemini_chat import (
     converse_gemini,
     gemini_send_message_to_model,
 )
-from khoj.processor.conversation.offline.chat_model import (
-    converse_offline,
-    send_message_to_model_offline,
-)
 from khoj.processor.conversation.openai.gpt import (
     converse_openai,
     send_message_to_model,
@@ -117,7 +110,6 @@ from khoj.search_filter.file_filter import FileFilter
 from khoj.search_filter.word_filter import WordFilter
 from khoj.search_type import text_search
 from khoj.utils import state
-from khoj.utils.config import OfflineChatProcessorModel
 from khoj.utils.helpers import (
     LRU,
     ConversationCommand,
@@ -165,17 +157,9 @@ def validate_chat_model(user: KhojUser):
 async def is_ready_to_chat(user: KhojUser):
     user_chat_model = await ConversationAdapters.aget_user_chat_model(user)
-    if user_chat_model == None:
+    if user_chat_model is None:
         user_chat_model = await ConversationAdapters.aget_default_chat_model(user)
-    if user_chat_model and user_chat_model.model_type == ChatModel.ModelType.OFFLINE:
-        chat_model_name = user_chat_model.name
-        max_tokens = user_chat_model.max_prompt_size
-        if state.offline_chat_processor_config is None:
-            logger.info("Loading Offline Chat Model...")
-            state.offline_chat_processor_config = OfflineChatProcessorModel(chat_model_name, max_tokens)
-        return True
     if (
         user_chat_model
         and (
@@ -231,7 +215,6 @@ def update_telemetry_state(
             telemetry_type=telemetry_type,
             api=api,
             client=client,
-            app_config=state.config.app,
             disable_telemetry_env=state.telemetry_disabled,
             properties=user_state,
         )
@@ -595,7 +578,7 @@ async def generate_online_subqueries(
             )
             return {q}
         return response
-    except Exception as e:
+    except Exception:
         logger.error(f"Invalid response for constructing online subqueries: {response}. Returning original query: {q}")
         return {q}
@@ -1186,8 +1169,8 @@ async def search_documents(
         agent_has_entries = await sync_to_async(EntryAdapters.agent_has_entries)(agent=agent)
     if (
-        not ConversationCommand.Notes in conversation_commands
-        and not ConversationCommand.Default in conversation_commands
+        ConversationCommand.Notes not in conversation_commands
+        and ConversationCommand.Default not in conversation_commands
         and not agent_has_entries
     ):
         yield compiled_references, inferred_queries, q
@@ -1281,6 +1264,7 @@ async def extract_questions(
     location_data: LocationData = None,
     query_images: Optional[List[str]] = None,
     query_files: str = None,
+    max_queries: int = 5,
     tracer: dict = {},
 ):
     """
@@ -1310,14 +1294,20 @@ async def extract_questions(
         location=location,
         username=username,
         personality_context=personality_context,
+        max_queries=max_queries,
     )
     prompt = prompts.extract_questions_user_message.format(text=query, chat_history=chat_history_str)
     class DocumentQueries(BaseModel):
-        """Choose searches to run on user documents."""
+        """Choose semantic search queries to run on user documents."""
-        queries: List[str] = Field(..., min_items=1, description="List of search queries to run on user documents.")
+        queries: List[str] = Field(
+            ...,
+            min_length=1,
+            max_length=max_queries,
+            description="List of semantic search queries to run on user documents.",
+        )
     raw_response = await send_message_to_model_wrapper(
         system_message=system_prompt,
@@ -1339,8 +1329,8 @@ async def extract_questions(
             logger.error(f"Invalid response for constructing subqueries: {response}")
             return [query]
         return queries
-    except:
-        logger.warning(f"LLM returned invalid JSON. Falling back to using user message as search query.")
+    except Exception:
+        logger.warning("LLM returned invalid JSON. Falling back to using user message as search query.")
         return [query]
@@ -1365,7 +1355,7 @@ async def execute_search(
         return results
     if q is None or q == "":
-        logger.warning(f"No query param (q) passed in API call to initiate search")
+        logger.warning("No query param (q) passed in API call to initiate search")
         return results
     # initialize variables
@@ -1378,7 +1368,7 @@ async def execute_search(
     if user:
         query_cache_key = f"{user_query}-{n}-{t}-{r}-{max_distance}-{dedupe}"
         if query_cache_key in state.query_cache[user.uuid]:
-            logger.debug(f"Return response from query cache")
+            logger.debug("Return response from query cache")
             return state.query_cache[user.uuid][query_cache_key]
     # Encode query with filter terms removed
@@ -1470,12 +1460,6 @@ async def send_message_to_model_wrapper(
     vision_available = chat_model.vision_enabled
     api_key = chat_model.ai_model_api.api_key
     api_base_url = chat_model.ai_model_api.api_base_url
-    loaded_model = None
-    if model_type == ChatModel.ModelType.OFFLINE:
-        if state.offline_chat_processor_config is None or state.offline_chat_processor_config.loaded_model is None:
-            state.offline_chat_processor_config = OfflineChatProcessorModel(chat_model_name, max_tokens)
-        loaded_model = state.offline_chat_processor_config.loaded_model
     truncated_messages = generate_chatml_messages_with_context(
         user_message=query,
@@ -1483,7 +1467,6 @@ async def send_message_to_model_wrapper(
         system_message=system_message,
         chat_history=chat_history,
         model_name=chat_model_name,
-        loaded_model=loaded_model,
         tokenizer_name=tokenizer,
         max_prompt_size=max_tokens,
         vision_enabled=vision_available,
@@ -1492,18 +1475,7 @@ async def send_message_to_model_wrapper(
         query_files=query_files,
     )
-    if model_type == ChatModel.ModelType.OFFLINE:
-        return send_message_to_model_offline(
-            messages=truncated_messages,
-            loaded_model=loaded_model,
-            model_name=chat_model_name,
-            max_prompt_size=max_tokens,
-            streaming=False,
-            response_type=response_type,
-            tracer=tracer,
-        )
-    elif model_type == ChatModel.ModelType.OPENAI:
+    if model_type == ChatModel.ModelType.OPENAI:
         return send_message_to_model(
             messages=truncated_messages,
             api_key=api_key,
@@ -1565,19 +1537,12 @@ def send_message_to_model_wrapper_sync(
     vision_available = chat_model.vision_enabled
     api_key = chat_model.ai_model_api.api_key
     api_base_url = chat_model.ai_model_api.api_base_url
-    loaded_model = None
-    if model_type == ChatModel.ModelType.OFFLINE:
-        if state.offline_chat_processor_config is None or state.offline_chat_processor_config.loaded_model is None:
-            state.offline_chat_processor_config = OfflineChatProcessorModel(chat_model_name, max_tokens)
-        loaded_model = state.offline_chat_processor_config.loaded_model
     truncated_messages = generate_chatml_messages_with_context(
         user_message=message,
         system_message=system_message,
         chat_history=chat_history,
         model_name=chat_model_name,
-        loaded_model=loaded_model,
         max_prompt_size=max_tokens,
         vision_enabled=vision_available,
         model_type=model_type,
@@ -1585,18 +1550,7 @@ def send_message_to_model_wrapper_sync(
         query_files=query_files,
     )
-    if model_type == ChatModel.ModelType.OFFLINE:
-        return send_message_to_model_offline(
-            messages=truncated_messages,
-            loaded_model=loaded_model,
-            model_name=chat_model_name,
-            max_prompt_size=max_tokens,
-            streaming=False,
-            response_type=response_type,
-            tracer=tracer,
-        )
-    elif model_type == ChatModel.ModelType.OPENAI:
+    if model_type == ChatModel.ModelType.OPENAI:
         return send_message_to_model(
             messages=truncated_messages,
             api_key=api_key,
@@ -1678,30 +1632,7 @@ async def agenerate_chat_response(
                 chat_model = vision_enabled_config
                 vision_available = True
-        if chat_model.model_type == "offline":
-            loaded_model = state.offline_chat_processor_config.loaded_model
-            chat_response_generator = converse_offline(
-                # Query
-                user_query=query_to_run,
-                # Context
-                references=compiled_references,
-                online_results=online_results,
-                generated_files=raw_generated_files,
-                generated_asset_results=generated_asset_results,
-                location_data=location_data,
-                user_name=user_name,
-                query_files=query_files,
-                chat_history=chat_history,
-                # Model
-                loaded_model=loaded_model,
-                model_name=chat_model.name,
-                max_prompt_size=chat_model.max_prompt_size,
-                tokenizer_name=chat_model.tokenizer,
-                agent=agent,
-                tracer=tracer,
-            )
-        elif chat_model.model_type == ChatModel.ModelType.OPENAI:
+        if chat_model.model_type == ChatModel.ModelType.OPENAI:
             openai_chat_config = chat_model.ai_model_api
             api_key = openai_chat_config.api_key
             chat_model_name = chat_model.name
@@ -1948,8 +1879,8 @@ class ApiUserRateLimiter:
         user: KhojUser = websocket.scope["user"].object
         subscribed = has_required_scope(websocket, ["premium"])
-        current_window = "today" if self.window == 60 * 60 * 24 else f"now"
-        next_window = "tomorrow" if self.window == 60 * 60 * 24 else f"in a bit"
+        current_window = "today" if self.window == 60 * 60 * 24 else "now"
+        next_window = "tomorrow" if self.window == 60 * 60 * 24 else "in a bit"
         common_message_prefix = f"I'm glad you're enjoying interacting with me! You've unfortunately exceeded your usage limit for {current_window}."
         # Remove requests outside of the time window
@@ -2292,7 +2223,7 @@ def should_notify(original_query: str, executed_query: str, ai_response: str, us
             should_notify_result = response["decision"] == "Yes"
             reason = response.get("reason", "unknown")
             logger.info(
-                f'Decided to {"not " if not should_notify_result else ""}notify user of automation response because of reason: {reason}.'
+                f"Decided to {'not ' if not should_notify_result else ''}notify user of automation response because of reason: {reason}."
             )
             return should_notify_result
         except Exception as e:
@@ -2386,7 +2317,7 @@ def scheduled_chat(
         response_map = raw_response.json()
         ai_response = response_map.get("response") or response_map.get("image")
         is_image = False
-        if type(ai_response) == dict:
+        if isinstance(ai_response, dict):
             is_image = ai_response.get("image") is not None
     else:
         ai_response = raw_response.text
@@ -2533,12 +2464,12 @@ async def aschedule_automation(
 def construct_automation_created_message(automation: Job, crontime: str, query_to_run: str, subject: str):
     # Display next run time in user timezone instead of UTC
-    schedule = f'{cron_descriptor.get_description(crontime)} {automation.next_run_time.strftime("%Z")}'
+    schedule = f"{cron_descriptor.get_description(crontime)} {automation.next_run_time.strftime('%Z')}"
     next_run_time = automation.next_run_time.strftime("%Y-%m-%d %I:%M %p %Z")
     # Remove /automated_task prefix from inferred_query
     unprefixed_query_to_run = re.sub(r"^\/automated_task\s*", "", query_to_run)
     # Create the automation response
-    automation_icon_url = f"/static/assets/icons/automation.svg"
+    automation_icon_url = "/static/assets/icons/automation.svg"
     return f"""
     ### ![]({automation_icon_url}) Created Automation
 - Subject: **{subject}**
@@ -2786,19 +2717,20 @@ def configure_content(
     t: Optional[state.SearchType] = state.SearchType.All,
 ) -> bool:
     success = True
-    if t == None:
+    if t is None:
         t = state.SearchType.All
     if t is not None and t in [type.value for type in state.SearchType]:
         t = state.SearchType(t)
-    if t is not None and not t.value in [type.value for type in state.SearchType]:
+    if t is not None and t.value not in [type.value for type in state.SearchType]:
         logger.warning(f"🚨 Invalid search type: {t}")
         return False
     search_type = t.value if t else None
-    no_documents = all([not files.get(file_type) for file_type in files])
+    # Check if client sent any documents of the supported types
+    no_client_sent_documents = all([not files.get(file_type) for file_type in files])
     if files is None:
         logger.warning(f"🚨 No files to process for {search_type} search.")
@@ -2872,7 +2804,8 @@ def configure_content(
         success = False
     try:
-        if no_documents:
+        # Run server side indexing of user Github docs if no client sent documents
+        if no_client_sent_documents:
             github_config = GithubConfig.objects.filter(user=user).prefetch_related("githubrepoconfig").first()
             if (
                 search_type == state.SearchType.All.value or search_type == state.SearchType.Github.value
@@ -2892,7 +2825,8 @@ def configure_content(
         success = False
     try:
-        if no_documents:
+        # Run server side indexing of user Notion docs if no client sent documents
+        if no_client_sent_documents:
             # Initialize Notion Search
             notion_config = NotionConfig.objects.filter(user=user).first()
             if (
@@ -3058,7 +2992,7 @@ async def grep_files(
             query += f" {' and '.join(context_info)}"
         if line_count > max_results:
             if lines_before or lines_after:
-                query += f" for"
+                query += " for"
             query += f" first {max_results} results"
         return query
@@ -3068,7 +3002,7 @@ async def grep_files(
     lines_after = lines_after or 0
     try:
-        regex = re.compile(regex_pattern, re.IGNORECASE)
+        regex = re.compile(regex_pattern, re.IGNORECASE | re.MULTILINE)
     except re.error as e:
         yield {
             "query": _generate_query(0, 0, path_prefix, regex_pattern, lines_before, lines_after),
@@ -3078,7 +3012,14 @@ async def grep_files(
         return
     try:
-        file_matches = await FileObjectAdapters.aget_file_objects_by_regex(user, regex_pattern, path_prefix)
+        # Make db pushdown filters more permissive by removing line anchors
+        # The precise line-anchored matching will be done in Python stage
+        db_pattern = regex_pattern
+        db_pattern = re.sub(r"\(\?\w*\)", "", db_pattern)  # Remove inline flags like (?i), (?m), (?im)
+        db_pattern = re.sub(r"^\^", "", db_pattern)  # Remove ^ at regex pattern start
+        db_pattern = re.sub(r"\$$", "", db_pattern)  # Remove $ at regex pattern end
+        file_matches = await FileObjectAdapters.aget_file_objects_by_regex(user, db_pattern, path_prefix)
         line_matches = []
         for file_object in file_matches:

khoj/routers/research.py CHANGED Viewed

@@ -15,7 +15,6 @@ from khoj.processor.conversation.utils import (
     ResearchIteration,
     ToolCall,
     construct_iteration_history,
-    construct_structured_message,
     construct_tool_chat_history,
     load_complex_json,
 )
@@ -24,7 +23,6 @@ from khoj.processor.tools.online_search import read_webpages_content, search_onl
 from khoj.processor.tools.run_code import run_code
 from khoj.routers.helpers import (
     ChatEvent,
-    generate_summary_from_files,
     get_message_from_queue,
     grep_files,
     list_files,
@@ -102,7 +100,7 @@ async def apick_next_tool(
         ConversationCommand.Notes.value: [tool.value for tool in document_research_tools],
         ConversationCommand.Webpage.value: [ConversationCommand.ReadWebpage.value],
         ConversationCommand.Online.value: [ConversationCommand.SearchWeb.value],
-        ConversationCommand.Code.value: [ConversationCommand.RunCode.value],
+        ConversationCommand.Code.value: [ConversationCommand.PythonCoder.value],
         ConversationCommand.Operator.value: [ConversationCommand.OperateComputer.value],
     }
     for input_tool, research_tools in input_tools_to_research_tools.items():
@@ -184,7 +182,7 @@ async def apick_next_tool(
         # TODO: Handle multiple tool calls.
         response_text = response.text
         parsed_response = [ToolCall(**item) for item in load_complex_json(response_text)][0]
-    except Exception as e:
+    except Exception:
         # Otherwise assume the model has decided to end the research run and respond to the user.
         parsed_response = ToolCall(name=ConversationCommand.Text, args={"response": response_text}, id=None)
@@ -199,7 +197,7 @@ async def apick_next_tool(
         if i.warning is None and isinstance(i.query, ToolCall)
     }
     if (parsed_response.name, dict_to_tuple(parsed_response.args)) in previous_tool_query_combinations:
-        warning = f"Repeated tool, query combination detected. Skipping iteration. Try something different."
+        warning = "Repeated tool, query combination detected. Skipping iteration. Try something different."
     # Only send client status updates if we'll execute this iteration and model has thoughts to share.
     elif send_status_func and not is_none_or_empty(response.thought):
         async for event in send_status_func(response.thought):
@@ -414,11 +412,13 @@ async def research(
                 this_iteration.warning = f"Error reading webpages: {e}"
                 logger.error(this_iteration.warning, exc_info=True)
-        elif this_iteration.query.name == ConversationCommand.RunCode:
+        elif this_iteration.query.name == ConversationCommand.PythonCoder:
             try:
                 async for result in run_code(
                     **this_iteration.query.args,
-                    conversation_history=construct_tool_chat_history(previous_iterations, ConversationCommand.RunCode),
+                    conversation_history=construct_tool_chat_history(
+                        previous_iterations, ConversationCommand.PythonCoder
+                    ),
                     context="",
                     location_data=location,
                     user=user,
@@ -435,7 +435,7 @@ async def research(
                         this_iteration.codeContext = code_results
                 async for result in send_status_func(f"**Ran code snippets**: {len(this_iteration.codeContext)}"):
                     yield result
-            except ValueError as e:
+            except (ValueError, TypeError) as e:
                 this_iteration.warning = f"Error running code: {e}"
                 logger.warning(this_iteration.warning, exc_info=True)

khoj/search_filter/base_filter.py CHANGED Viewed

@@ -4,12 +4,10 @@ from typing import List
 class BaseFilter(ABC):
     @abstractmethod
-    def get_filter_terms(self, query: str) -> List[str]:
-        ...
+    def get_filter_terms(self, query: str) -> List[str]: ...
     def can_filter(self, raw_query: str) -> bool:
         return len(self.get_filter_terms(raw_query)) > 0
     @abstractmethod
-    def defilter(self, query: str) -> str:
-        ...
+    def defilter(self, query: str) -> str: ...

khoj/search_type/text_search.py CHANGED Viewed

@@ -9,9 +9,8 @@ from asgiref.sync import sync_to_async
 from sentence_transformers import util
 from khoj.database.adapters import EntryAdapters, get_default_search_model
-from khoj.database.models import Agent
+from khoj.database.models import Agent, KhojUser
 from khoj.database.models import Entry as DbEntry
-from khoj.database.models import KhojUser
 from khoj.processor.content.text_to_entries import TextToEntries
 from khoj.utils import state
 from khoj.utils.helpers import get_absolute_path, timer

khoj/utils/cli.py CHANGED Viewed

@@ -1,36 +1,19 @@
 import argparse
 import logging
-import os
 import pathlib
 from importlib.metadata import version
 logger = logging.getLogger(__name__)
-from khoj.migrations.migrate_offline_chat_default_model import (
-    migrate_offline_chat_default_model,
-)
-from khoj.migrations.migrate_offline_chat_schema import migrate_offline_chat_schema
-from khoj.migrations.migrate_offline_model import migrate_offline_model
-from khoj.migrations.migrate_processor_config_openai import (
-    migrate_processor_conversation_schema,
-)
-from khoj.migrations.migrate_server_pg import migrate_server_pg
-from khoj.migrations.migrate_version import migrate_config_to_version
-from khoj.utils.helpers import is_env_var_true, resolve_absolute_path
-from khoj.utils.yaml import parse_config_from_file
 def cli(args=None):
     # Setup Argument Parser for the Commandline Interface
     parser = argparse.ArgumentParser(description="Start Khoj; An AI personal assistant for your Digital Brain")
     parser.add_argument(
-        "--config-file", default="~/.khoj/khoj.yml", type=pathlib.Path, help="YAML file to configure Khoj"
-    )
-    parser.add_argument(
-        "--regenerate",
-        action="store_true",
-        default=False,
-        help="Regenerate model embeddings from source files. Default: false",
+        "--log-file",
+        default="~/.khoj/khoj.log",
+        type=pathlib.Path,
+        help="File path for server logs. Default: ~/.khoj/khoj.log",
     )
     parser.add_argument("--verbose", "-v", action="count", default=0, help="Show verbose conversion logs. Default: 0")
     parser.add_argument("--host", type=str, default="127.0.0.1", help="Host address of the server. Default: 127.0.0.1")
@@ -43,14 +26,11 @@ def cli(args=None):
     parser.add_argument("--sslcert", type=str, help="Path to SSL certificate file")
     parser.add_argument("--sslkey", type=str, help="Path to SSL key file")
     parser.add_argument("--version", "-V", action="store_true", help="Print the installed Khoj version and exit")
-    parser.add_argument(
-        "--disable-chat-on-gpu", action="store_true", default=False, help="Disable using GPU for the offline chat model"
-    )
     parser.add_argument(
         "--anonymous-mode",
         action="store_true",
         default=False,
-        help="Run Khoj in anonymous mode. This does not require any login for connecting users.",
+        help="Run Khoj in single user mode with no login required. Useful for personal use or testing.",
     )
     parser.add_argument(
         "--non-interactive",
@@ -64,38 +44,10 @@ def cli(args=None):
     if len(remaining_args) > 0:
         logger.info(f"⚠️  Ignoring unknown commandline args: {remaining_args}")
-    # Set default values for arguments
-    args.chat_on_gpu = not args.disable_chat_on_gpu
     args.version_no = version("khoj")
     if args.version:
         # Show version of khoj installed and exit
         print(args.version_no)
         exit(0)
-    # Normalize config_file path to absolute path
-    args.config_file = resolve_absolute_path(args.config_file)
-    if not args.config_file.exists():
-        args.config = None
-    else:
-        args = run_migrations(args)
-        args.config = parse_config_from_file(args.config_file)
-        if is_env_var_true("KHOJ_TELEMETRY_DISABLE"):
-            args.config.app.should_log_telemetry = False
-    return args
-def run_migrations(args):
-    migrations = [
-        migrate_config_to_version,
-        migrate_processor_conversation_schema,
-        migrate_offline_model,
-        migrate_offline_chat_schema,
-        migrate_offline_chat_default_model,
-        migrate_server_pg,
-    ]
-    for migration in migrations:
-        args = migration(args)
     return args

khoj/utils/config.py CHANGED Viewed

@@ -1,22 +1,7 @@
 # System Packages
 from __future__ import annotations  # to avoid quoting type hints
-import logging
-from dataclasses import dataclass
 from enum import Enum
-from typing import TYPE_CHECKING, Any, List, Optional, Union
-import torch
-from khoj.processor.conversation.offline.utils import download_model
-logger = logging.getLogger(__name__)
-if TYPE_CHECKING:
-    from sentence_transformers import CrossEncoder
-    from khoj.utils.models import BaseEncoder
 class SearchType(str, Enum):
@@ -29,53 +14,3 @@ class SearchType(str, Enum):
     Notion = "notion"
     Plaintext = "plaintext"
     Docx = "docx"
-class ProcessorType(str, Enum):
-    Conversation = "conversation"
-@dataclass
-class TextContent:
-    enabled: bool
-@dataclass
-class ImageContent:
-    image_names: List[str]
-    image_embeddings: torch.Tensor
-    image_metadata_embeddings: torch.Tensor
-@dataclass
-class TextSearchModel:
-    bi_encoder: BaseEncoder
-    cross_encoder: Optional[CrossEncoder] = None
-    top_k: Optional[int] = 15
-@dataclass
-class ImageSearchModel:
-    image_encoder: BaseEncoder
-@dataclass
-class SearchModels:
-    text_search: Optional[TextSearchModel] = None
-@dataclass
-class OfflineChatProcessorConfig:
-    loaded_model: Union[Any, None] = None
-class OfflineChatProcessorModel:
-    def __init__(self, chat_model: str = "bartowski/Meta-Llama-3.1-8B-Instruct-GGUF", max_tokens: int = None):
-        self.chat_model = chat_model
-        self.loaded_model = None
-        try:
-            self.loaded_model = download_model(self.chat_model, max_tokens=max_tokens)
-        except ValueError as e:
-            self.loaded_model = None
-            logger.error(f"Error while loading offline chat model: {e}", exc_info=True)
-            raise e

khoj/utils/constants.py CHANGED Viewed

@@ -10,13 +10,6 @@ empty_escape_sequences = "\n|\r|\t| "
 app_env_filepath = "~/.khoj/env"
 telemetry_server = "https://khoj.beta.haletic.com/v1/telemetry"
 content_directory = "~/.khoj/content/"
-default_offline_chat_models = [
-    "bartowski/Meta-Llama-3.1-8B-Instruct-GGUF",
-    "bartowski/Llama-3.2-3B-Instruct-GGUF",
-    "bartowski/gemma-2-9b-it-GGUF",
-    "bartowski/gemma-2-2b-it-GGUF",
-    "bartowski/Qwen2.5-14B-Instruct-GGUF",
-]
 default_openai_chat_models = ["gpt-4o-mini", "gpt-4.1", "o3", "o4-mini"]
 default_gemini_chat_models = ["gemini-2.0-flash", "gemini-2.5-flash-preview-05-20", "gemini-2.5-pro-preview-06-05"]
 default_anthropic_chat_models = ["claude-sonnet-4-0", "claude-3-5-haiku-latest"]
@@ -47,6 +40,9 @@ model_to_cost: Dict[str, Dict[str, float]] = {
     "o3": {"input": 2.0, "output": 8.00},
     "o3-pro": {"input": 20.0, "output": 80.00},
     "o4-mini": {"input": 1.10, "output": 4.40},
+    "gpt-5-2025-08-07": {"input": 1.25, "output": 10.00, "cache_read": 0.125},
+    "gpt-5-mini-2025-08-07": {"input": 0.25, "output": 2.00, "cache_read": 0.025},
+    "gpt-5-nano-2025-08-07": {"input": 0.05, "output": 0.40, "cache_read": 0.005},
     # Gemini Pricing: https://ai.google.dev/pricing
     "gemini-1.5-flash": {"input": 0.075, "output": 0.30},
     "gemini-1.5-flash-002": {"input": 0.075, "output": 0.30},
@@ -75,4 +71,7 @@ model_to_cost: Dict[str, Dict[str, float]] = {
     "grok-3-latest": {"input": 3.0, "output": 15.0},
     "grok-3-mini": {"input": 0.30, "output": 0.50},
     "grok-3-mini-latest": {"input": 0.30, "output": 0.50},
+    # Groq pricing
+    "moonshotai/kimi-k2-instruct": {"input": 1.00, "output": 3.00},
+    "openai/gpt-oss-120b": {"input": 0.15, "output": 0.75},
 }

khoj 2.0.0b12__py3-none-any.whl → 2.0.0b13__py3-none-any.whl

khoj 2.0.0b12py3-none-any.whl → 2.0.0b13py3-none-any.whl