PyPI - khoj - Versions diffs - 1.27.2.dev130__py3-none-any.whl → 1.27.2.dev167__py3-none-any.whl - Mend

khoj 1.27.2.dev130py3-none-any.whl → 1.27.2.dev167py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (54) hide show

khoj/processor/conversation/utils.py CHANGED Viewed

@@ -1,9 +1,11 @@
 import base64
+import json
 import logging
 import math
 import mimetypes
 import os
 import queue
+import uuid
 from dataclasses import dataclass
 from datetime import datetime
 from enum import Enum
@@ -134,7 +136,11 @@ def construct_chat_history(conversation_history: dict, n: int = 4, agent_name="A
     for chat in conversation_history.get("chat", [])[-n:]:
         if chat["by"] == "khoj" and chat["intent"].get("type") in ["remember", "reminder", "summarize"]:
             chat_history += f"User: {chat['intent']['query']}\n"
-            chat_history += f"{agent_name}: {chat['message']}\n"
+            if chat["intent"].get("inferred-queries"):
+                chat_history += f'Khoj: {{"queries": {chat["intent"].get("inferred-queries")}}}\n'
+            chat_history += f"{agent_name}: {chat['message']}\n\n"
         elif chat["by"] == "khoj" and ("text-to-image" in chat["intent"].get("type")):
             chat_history += f"User: {chat['intent']['query']}\n"
             chat_history += f"{agent_name}: [generated image redacted for space]\n"
@@ -185,6 +191,7 @@ class ChatEvent(Enum):
     MESSAGE = "message"
     REFERENCES = "references"
     STATUS = "status"
+    METADATA = "metadata"
 def message_to_log(
@@ -232,12 +239,14 @@ def save_to_conversation_log(
     train_of_thought: List[Any] = [],
 ):
     user_message_time = user_message_time or datetime.now().strftime("%Y-%m-%d %H:%M:%S")
+    turn_id = tracer.get("mid") or str(uuid.uuid4())
     updated_conversation = message_to_log(
         user_message=q,
         chat_response=chat_response,
         user_message_metadata={
             "created": user_message_time,
             "images": query_images,
+            "turnId": turn_id,
         },
         khoj_message_metadata={
             "context": compiled_references,
@@ -246,6 +255,7 @@ def save_to_conversation_log(
             "codeContext": code_results,
             "automationId": automation_id,
             "trainOfThought": train_of_thought,
+            "turnId": turn_id,
         },
         conversation_log=meta_log.get("chat", []),
         train_of_thought=train_of_thought,
@@ -501,15 +511,12 @@ def commit_conversation_trace(
     Returns the path to the repository.
     """
     # Serialize session, system message and response to yaml
-    system_message_yaml = yaml.dump(system_message, allow_unicode=True, sort_keys=False, default_flow_style=False)
-    response_yaml = yaml.dump(response, allow_unicode=True, sort_keys=False, default_flow_style=False)
+    system_message_yaml = json.dumps(system_message, ensure_ascii=False, sort_keys=False)
+    response_yaml = json.dumps(response, ensure_ascii=False, sort_keys=False)
     formatted_session = [{"role": message.role, "content": message.content} for message in session]
-    session_yaml = yaml.dump(formatted_session, allow_unicode=True, sort_keys=False, default_flow_style=False)
+    session_yaml = json.dumps(formatted_session, ensure_ascii=False, sort_keys=False)
     query = (
-        yaml.dump(session[-1].content, allow_unicode=True, sort_keys=False, default_flow_style=False)
-        .strip()
-        .removeprefix("'")
-        .removesuffix("'")
+        json.dumps(session[-1].content, ensure_ascii=False, sort_keys=False).strip().removeprefix("'").removesuffix("'")
     )  # Extract serialized query from chat session
     # Extract chat metadata for session

khoj/processor/embeddings.py CHANGED Viewed

@@ -13,7 +13,7 @@ from tenacity import (
 )
 from torch import nn
-from khoj.utils.helpers import get_device, merge_dicts, timer
+from khoj.utils.helpers import fix_json_dict, get_device, merge_dicts, timer
 from khoj.utils.rawconfig import SearchResponse
 logger = logging.getLogger(__name__)
@@ -31,9 +31,9 @@ class EmbeddingsModel:
     ):
         default_query_encode_kwargs = {"show_progress_bar": False, "normalize_embeddings": True}
         default_docs_encode_kwargs = {"show_progress_bar": True, "normalize_embeddings": True}
-        self.query_encode_kwargs = merge_dicts(query_encode_kwargs, default_query_encode_kwargs)
-        self.docs_encode_kwargs = merge_dicts(docs_encode_kwargs, default_docs_encode_kwargs)
-        self.model_kwargs = merge_dicts(model_kwargs, {"device": get_device()})
+        self.query_encode_kwargs = merge_dicts(fix_json_dict(query_encode_kwargs), default_query_encode_kwargs)
+        self.docs_encode_kwargs = merge_dicts(fix_json_dict(docs_encode_kwargs), default_docs_encode_kwargs)
+        self.model_kwargs = merge_dicts(fix_json_dict(model_kwargs), {"device": get_device()})
         self.model_name = model_name
         self.inference_endpoint = embeddings_inference_endpoint
         self.api_key = embeddings_inference_endpoint_api_key

khoj/processor/tools/online_search.py CHANGED Viewed

@@ -54,6 +54,7 @@ OLOSTEP_QUERY_PARAMS = {
 }
 DEFAULT_MAX_WEBPAGES_TO_READ = 1
+MAX_WEBPAGES_TO_INFER = 10
 async def search_online(
@@ -157,13 +158,16 @@ async def read_webpages(
     query_images: List[str] = None,
     agent: Agent = None,
     tracer: dict = {},
+    max_webpages_to_read: int = DEFAULT_MAX_WEBPAGES_TO_READ,
 ):
     "Infer web pages to read from the query and extract relevant information from them"
     logger.info(f"Inferring web pages to read")
-    if send_status_func:
-        async for event in send_status_func(f"**Inferring web pages to read**"):
-            yield {ChatEvent.STATUS: event}
-    urls = await infer_webpage_urls(query, conversation_history, location, user, query_images)
+    urls = await infer_webpage_urls(
+        query, conversation_history, location, user, query_images, agent=agent, tracer=tracer
+    )
+    # Get the top 10 web pages to read
+    urls = urls[:max_webpages_to_read]
     logger.info(f"Reading web pages at: {urls}")
     if send_status_func:

khoj/routers/api_chat.py CHANGED Viewed

@@ -31,6 +31,7 @@ from khoj.processor.speech.text_to_speech import generate_text_to_speech
 from khoj.processor.tools.online_search import read_webpages, search_online
 from khoj.processor.tools.run_code import run_code
 from khoj.routers.api import extract_references_and_questions
+from khoj.routers.email import send_query_feedback
 from khoj.routers.helpers import (
     ApiImageRateLimiter,
     ApiUserRateLimiter,
@@ -38,13 +39,14 @@ from khoj.routers.helpers import (
     ChatRequestBody,
     CommonQueryParams,
     ConversationCommandRateLimiter,
+    DeleteMessageRequestBody,
+    FeedbackData,
     agenerate_chat_response,
     aget_relevant_information_sources,
     aget_relevant_output_modes,
     construct_automation_created_message,
     create_automation,
     extract_relevant_info,
-    extract_relevant_summary,
     generate_excalidraw_diagram,
     generate_summary_from_files,
     get_conversation_command,
@@ -75,16 +77,12 @@ from khoj.utils.rawconfig import FileFilterRequest, FilesFilterRequest, Location
 # Initialize Router
 logger = logging.getLogger(__name__)
 conversation_command_rate_limiter = ConversationCommandRateLimiter(
-    trial_rate_limit=100, subscribed_rate_limit=6000, slug="command"
+    trial_rate_limit=20, subscribed_rate_limit=75, slug="command"
 )
 api_chat = APIRouter()
-from pydantic import BaseModel
-from khoj.routers.email import send_query_feedback
 @api_chat.get("/conversation/file-filters/{conversation_id}", response_class=Response)
 @requires(["authenticated"])
@@ -146,12 +144,6 @@ def remove_file_filter(request: Request, filter: FileFilterRequest) -> Response:
     return Response(content=json.dumps(file_filters), media_type="application/json", status_code=200)
-class FeedbackData(BaseModel):
-    uquery: str
-    kquery: str
-    sentiment: str
 @api_chat.post("/feedback")
 @requires(["authenticated"])
 async def sendfeedback(request: Request, data: FeedbackData):
@@ -166,10 +158,10 @@ async def text_to_speech(
     common: CommonQueryParams,
     text: str,
     rate_limiter_per_minute=Depends(
-        ApiUserRateLimiter(requests=20, subscribed_requests=20, window=60, slug="chat_minute")
+        ApiUserRateLimiter(requests=30, subscribed_requests=30, window=60, slug="chat_minute")
     ),
     rate_limiter_per_day=Depends(
-        ApiUserRateLimiter(requests=50, subscribed_requests=300, window=60 * 60 * 24, slug="chat_day")
+        ApiUserRateLimiter(requests=100, subscribed_requests=600, window=60 * 60 * 24, slug="chat_day")
     ),
 ) -> Response:
     voice_model = await ConversationAdapters.aget_voice_model_config(request.user.object)
@@ -534,6 +526,19 @@ async def set_conversation_title(
     )
+@api_chat.delete("/conversation/message", response_class=Response)
+@requires(["authenticated"])
+def delete_message(request: Request, delete_request: DeleteMessageRequestBody) -> Response:
+    user = request.user.object
+    success = ConversationAdapters.delete_message_by_turn_id(
+        user, delete_request.conversation_id, delete_request.turn_id
+    )
+    if success:
+        return Response(content=json.dumps({"status": "ok"}), media_type="application/json", status_code=200)
+    else:
+        return Response(content=json.dumps({"status": "error", "message": "Message not found"}), status_code=404)
 @api_chat.post("")
 @requires(["authenticated"])
 async def chat(
@@ -541,10 +546,10 @@ async def chat(
     common: CommonQueryParams,
     body: ChatRequestBody,
     rate_limiter_per_minute=Depends(
-        ApiUserRateLimiter(requests=60, subscribed_requests=200, window=60, slug="chat_minute")
+        ApiUserRateLimiter(requests=20, subscribed_requests=20, window=60, slug="chat_minute")
     ),
     rate_limiter_per_day=Depends(
-        ApiUserRateLimiter(requests=600, subscribed_requests=6000, window=60 * 60 * 24, slug="chat_day")
+        ApiUserRateLimiter(requests=100, subscribed_requests=600, window=60 * 60 * 24, slug="chat_day")
     ),
     image_rate_limiter=Depends(ApiImageRateLimiter(max_images=10, max_combined_size_mb=20)),
 ):
@@ -555,6 +560,7 @@ async def chat(
     stream = body.stream
     title = body.title
     conversation_id = body.conversation_id
+    turn_id = str(body.turn_id or uuid.uuid4())
     city = body.city
     region = body.region
     country = body.country or get_country_name_from_timezone(body.timezone)
@@ -574,7 +580,7 @@ async def chat(
         nonlocal conversation_id
         tracer: dict = {
-            "mid": f"{uuid.uuid4()}",
+            "mid": turn_id,
             "cid": conversation_id,
             "uid": user.id,
             "khoj_version": state.khoj_version,
@@ -607,7 +613,7 @@ async def chat(
                 if event_type == ChatEvent.MESSAGE:
                     yield data
-                elif event_type == ChatEvent.REFERENCES or stream:
+                elif event_type == ChatEvent.REFERENCES or ChatEvent.METADATA or stream:
                     yield json.dumps({"type": event_type.value, "data": data}, ensure_ascii=False)
             except asyncio.CancelledError as e:
                 connection_alive = False
@@ -651,6 +657,11 @@ async def chat(
                 metadata=chat_metadata,
             )
+        if is_query_empty(q):
+            async for result in send_llm_response("Please ask your query to get started."):
+                yield result
+            return
         conversation_commands = [get_conversation_command(query=q, any_references=True)]
         conversation = await ConversationAdapters.aget_conversation_by_user(
@@ -666,6 +677,9 @@ async def chat(
             return
         conversation_id = conversation.id
+        async for event in send_event(ChatEvent.METADATA, {"conversationId": str(conversation_id), "turnId": turn_id}):
+            yield event
         agent: Agent | None = None
         default_agent = await AgentAdapters.aget_default_agent()
         if conversation.agent and conversation.agent != default_agent:
@@ -677,17 +691,11 @@ async def chat(
             agent = default_agent
         await is_ready_to_chat(user)
         user_name = await aget_user_name(user)
         location = None
         if city or region or country or country_code:
             location = LocationData(city=city, region=region, country=country, country_code=country_code)
-        if is_query_empty(q):
-            async for result in send_llm_response("Please ask your query to get started."):
-                yield result
-            return
         user_message_time = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
         meta_log = conversation.conversation_log
@@ -699,7 +707,6 @@ async def chat(
         ## Extract Document References
         compiled_references: List[Any] = []
         inferred_queries: List[Any] = []
-        defiltered_query = defilter_query(q)
         if conversation_commands == [ConversationCommand.Default] or is_automated_task:
             conversation_commands = await aget_relevant_information_sources(
@@ -730,6 +737,12 @@ async def chat(
             if mode not in conversation_commands:
                 conversation_commands.append(mode)
+        for cmd in conversation_commands:
+            await conversation_command_rate_limiter.update_and_check_if_valid(request, cmd)
+            q = q.replace(f"/{cmd.value}", "").strip()
+        defiltered_query = defilter_query(q)
         if conversation_commands == [ConversationCommand.Research]:
             async for research_result in execute_information_collection(
                 request=request,

khoj/routers/helpers.py CHANGED Viewed

@@ -478,6 +478,9 @@ async def infer_webpage_urls(
         valid_unique_urls = {str(url).strip() for url in urls["links"] if is_valid_url(url)}
         if is_none_or_empty(valid_unique_urls):
             raise ValueError(f"Invalid list of urls: {response}")
+        if len(valid_unique_urls) == 0:
+            logger.error(f"No valid URLs found in response: {response}")
+            return []
         return list(valid_unique_urls)
     except Exception:
         raise ValueError(f"Invalid list of urls: {response}")
@@ -1255,6 +1258,7 @@ class ChatRequestBody(BaseModel):
     stream: Optional[bool] = False
     title: Optional[str] = None
     conversation_id: Optional[str] = None
+    turn_id: Optional[str] = None
     city: Optional[str] = None
     region: Optional[str] = None
     country: Optional[str] = None
@@ -1264,6 +1268,17 @@ class ChatRequestBody(BaseModel):
     create_new: Optional[bool] = False
+class DeleteMessageRequestBody(BaseModel):
+    conversation_id: str
+    turn_id: str
+class FeedbackData(BaseModel):
+    uquery: str
+    kquery: str
+    sentiment: str
 class ApiUserRateLimiter:
     def __init__(self, requests: int, subscribed_requests: int, window: int, slug: str):
         self.requests = requests
@@ -1366,7 +1381,7 @@ class ConversationCommandRateLimiter:
         self.slug = slug
         self.trial_rate_limit = trial_rate_limit
         self.subscribed_rate_limit = subscribed_rate_limit
-        self.restricted_commands = [ConversationCommand.Online, ConversationCommand.Image]
+        self.restricted_commands = [ConversationCommand.Research]
     async def update_and_check_if_valid(self, request: Request, conversation_command: ConversationCommand):
         if state.billing_enabled is False:

khoj/routers/research.py CHANGED Viewed

@@ -1,12 +1,11 @@
 import json
 import logging
 from datetime import datetime
-from typing import Any, Callable, Dict, List, Optional
+from typing import Callable, Dict, List, Optional
 import yaml
 from fastapi import Request
-from khoj.database.adapters import ConversationAdapters, EntryAdapters
 from khoj.database.models import Agent, KhojUser
 from khoj.processor.conversation import prompts
 from khoj.processor.conversation.utils import (
@@ -191,18 +190,18 @@ async def execute_information_collection(
                     document_results = result[0]
                     this_iteration.context += document_results
-        if not is_none_or_empty(document_results):
-            try:
-                distinct_files = {d["file"] for d in document_results}
-                distinct_headings = set([d["compiled"].split("\n")[0] for d in document_results if "compiled" in d])
-                # Strip only leading # from headings
-                headings_str = "\n- " + "\n- ".join(distinct_headings).replace("#", "")
-                async for result in send_status_func(
-                    f"**Found {len(distinct_headings)} Notes Across {len(distinct_files)} Files**: {headings_str}"
-                ):
-                    yield result
-            except Exception as e:
-                logger.error(f"Error extracting document references: {e}", exc_info=True)
+            if not is_none_or_empty(document_results):
+                try:
+                    distinct_files = {d["file"] for d in document_results}
+                    distinct_headings = set([d["compiled"].split("\n")[0] for d in document_results if "compiled" in d])
+                    # Strip only leading # from headings
+                    headings_str = "\n- " + "\n- ".join(distinct_headings).replace("#", "")
+                    async for result in send_status_func(
+                        f"**Found {len(distinct_headings)} Notes Across {len(distinct_files)} Files**: {headings_str}"
+                    ):
+                        yield result
+                except Exception as e:
+                    logger.error(f"Error extracting document references: {e}", exc_info=True)
         elif this_iteration.tool == ConversationCommand.Online:
             async for result in search_online(
@@ -306,13 +305,13 @@ async def execute_information_collection(
         if document_results or online_results or code_results or summarize_files:
             results_data = f"**Results**:\n"
             if document_results:
-                results_data += f"**Document References**: {yaml.dump(document_results, allow_unicode=True, sort_keys=False, default_flow_style=False)}\n"
+                results_data += f"**Document References**:\n{yaml.dump(document_results, allow_unicode=True, sort_keys=False, default_flow_style=False)}\n"
             if online_results:
-                results_data += f"**Online Results**: {yaml.dump(online_results, allow_unicode=True, sort_keys=False, default_flow_style=False)}\n"
+                results_data += f"**Online Results**:\n{yaml.dump(online_results, allow_unicode=True, sort_keys=False, default_flow_style=False)}\n"
             if code_results:
-                results_data += f"**Code Results**: {yaml.dump(code_results, allow_unicode=True, sort_keys=False, default_flow_style=False)}\n"
+                results_data += f"**Code Results**:\n{yaml.dump(code_results, allow_unicode=True, sort_keys=False, default_flow_style=False)}\n"
             if summarize_files:
-                results_data += f"**Summarized Files**: {yaml.dump(summarize_files, allow_unicode=True, sort_keys=False, default_flow_style=False)}\n"
+                results_data += f"**Summarized Files**:\n{yaml.dump(summarize_files, allow_unicode=True, sort_keys=False, default_flow_style=False)}\n"
             # intermediate_result = await extract_relevant_info(this_iteration.query, results_data, agent)
             this_iteration.summarizedResult = results_data

khoj/utils/helpers.py CHANGED Viewed

@@ -101,6 +101,15 @@ def merge_dicts(priority_dict: dict, default_dict: dict):
     return merged_dict
+def fix_json_dict(json_dict: dict) -> dict:
+    for k, v in json_dict.items():
+        if v == "True" or v == "False":
+            json_dict[k] = v == "True"
+        if isinstance(v, dict):
+            json_dict[k] = fix_json_dict(v)
+    return json_dict
 def get_file_type(file_type: str, file_content: bytes) -> tuple[str, str]:
     "Get file type from file mime type"
@@ -359,9 +368,9 @@ tool_descriptions_for_llm = {
 function_calling_description_for_llm = {
     ConversationCommand.Notes: "To search the user's personal knowledge base. Especially helpful if the question expects context from the user's notes or documents.",
-    ConversationCommand.Online: "To search the internet for information. Provide all relevant context to ensure new searches, not previously run, are performed.",
-    ConversationCommand.Webpage: "To extract information from a webpage. Useful for more detailed research from the internet. Usually used when you know the webpage links to refer to. Share the webpage link and information to extract in your query.",
-    ConversationCommand.Code: "To run Python code in a Pyodide sandbox with no network access. Helpful when need to parse information, run complex calculations, create documents and charts for user. Matplotlib, bs4, pandas, numpy, etc. are available.",
+    ConversationCommand.Online: "To search the internet for information. Useful to get a quick, broad overview from the internet. Provide all relevant context to ensure new searches, not in previous iterations, are performed.",
+    ConversationCommand.Webpage: "To extract information from webpages. Useful for more detailed research from the internet. Usually used when you know the webpage links to refer to. Share the webpage links and information to extract in your query.",
+    ConversationCommand.Code: "To run Python code in a Pyodide sandbox with no network access. Helpful when need to parse information, run complex calculations, create charts for user. Matplotlib, bs4, pandas, numpy, etc. are available.",
 }
 mode_descriptions_for_llm = {

{khoj-1.27.2.dev130.dist-info → khoj-1.27.2.dev167.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: khoj
-Version: 1.27.2.dev130
+Version: 1.27.2.dev167
 Summary: Your Second Brain
 Project-URL: Homepage, https://khoj.dev
 Project-URL: Documentation, https://docs.khoj.dev
@@ -36,7 +36,7 @@ Requires-Dist: django==5.0.9
 Requires-Dist: docx2txt==0.8
 Requires-Dist: einops==0.8.0
 Requires-Dist: fastapi>=0.110.0
-Requires-Dist: google-generativeai==0.7.2
+Requires-Dist: google-generativeai==0.8.3
 Requires-Dist: httpx==0.25.0
 Requires-Dist: huggingface-hub>=0.22.2
 Requires-Dist: itsdangerous==2.1.2

khoj 1.27.2.dev130__py3-none-any.whl → 1.27.2.dev167__py3-none-any.whl

khoj 1.27.2.dev130py3-none-any.whl → 1.27.2.dev167py3-none-any.whl