PyPI - khoj - Versions diffs - 1.40.1.dev18__py3-none-any.whl → 1.40.1.dev27__py3-none-any.whl - Mend

khoj 1.40.1.dev18py3-none-any.whl → 1.40.1.dev27py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (65) hide show

khoj/processor/conversation/google/gemini_chat.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import logging
 from datetime import datetime, timedelta
-from typing import Dict, List, Optional
+from typing import AsyncGenerator, Dict, List, Optional
 import pyjson5
 from langchain.schema import ChatMessage
@@ -160,7 +160,7 @@ def gemini_send_message_to_model(
     )
-def converse_gemini(
+async def converse_gemini(
     references,
     user_query,
     online_results: Optional[Dict[str, Dict]] = None,
@@ -185,7 +185,7 @@ def converse_gemini(
     program_execution_context: List[str] = None,
     deepthought: Optional[bool] = False,
     tracer={},
-):
+) -> AsyncGenerator[str, None]:
     """
     Converse with user using Google's Gemini
     """
@@ -216,11 +216,17 @@ def converse_gemini(
     # Get Conversation Primer appropriate to Conversation Type
     if conversation_commands == [ConversationCommand.Notes] and is_none_or_empty(references):
-        completion_func(chat_response=prompts.no_notes_found.format())
-        return iter([prompts.no_notes_found.format()])
+        response = prompts.no_notes_found.format()
+        if completion_func:
+            await completion_func(chat_response=response)
+        yield response
+        return
     elif conversation_commands == [ConversationCommand.Online] and is_none_or_empty(online_results):
-        completion_func(chat_response=prompts.no_online_results_found.format())
-        return iter([prompts.no_online_results_found.format()])
+        response = prompts.no_online_results_found.format()
+        if completion_func:
+            await completion_func(chat_response=response)
+        yield response
+        return
     context_message = ""
     if not is_none_or_empty(references):
@@ -253,16 +259,20 @@ def converse_gemini(
     logger.debug(f"Conversation Context for Gemini: {messages_to_print(messages)}")
     # Get Response from Google AI
-    return gemini_chat_completion_with_backoff(
+    full_response = ""
+    async for chunk in gemini_chat_completion_with_backoff(
         messages=messages,
-        compiled_references=references,
-        online_results=online_results,
         model_name=model,
         temperature=temperature,
         api_key=api_key,
         api_base_url=api_base_url,
         system_prompt=system_prompt,
-        completion_func=completion_func,
         deepthought=deepthought,
         tracer=tracer,
-    )
+    ):
+        full_response += chunk
+        yield chunk
+    # Call completion_func once finish streaming and we have the full response
+    if completion_func:
+        await completion_func(chat_response=full_response)

khoj/processor/conversation/google/utils.py CHANGED Viewed

@@ -2,8 +2,8 @@ import logging
 import os
 import random
 from copy import deepcopy
-from threading import Thread
-from typing import Dict
+from time import perf_counter
+from typing import AsyncGenerator, AsyncIterator, Dict
 from google import genai
 from google.genai import errors as gerrors
@@ -19,14 +19,13 @@ from tenacity import (
 )
 from khoj.processor.conversation.utils import (
-    ThreadedGenerator,
     commit_conversation_trace,
     get_image_from_base64,
     get_image_from_url,
 )
 from khoj.utils.helpers import (
-    get_ai_api_info,
     get_chat_usage_metrics,
+    get_gemini_client,
     is_none_or_empty,
     is_promptrace_enabled,
 )
@@ -62,17 +61,6 @@ SAFETY_SETTINGS = [
 ]
-def get_gemini_client(api_key, api_base_url=None) -> genai.Client:
-    api_info = get_ai_api_info(api_key, api_base_url)
-    return genai.Client(
-        location=api_info.region,
-        project=api_info.project,
-        credentials=api_info.credentials,
-        api_key=api_info.api_key,
-        vertexai=api_info.api_key is None,
-    )
 @retry(
     wait=wait_random_exponential(min=1, max=10),
     stop=stop_after_attempt(2),
@@ -132,8 +120,8 @@ def gemini_completion_with_backoff(
         )
     # Aggregate cost of chat
-    input_tokens = response.usage_metadata.prompt_token_count if response else 0
-    output_tokens = response.usage_metadata.candidates_token_count if response else 0
+    input_tokens = response.usage_metadata.prompt_token_count or 0 if response else 0
+    output_tokens = response.usage_metadata.candidates_token_count or 0 if response else 0
     thought_tokens = response.usage_metadata.thoughts_token_count or 0 if response else 0
     tracer["usage"] = get_chat_usage_metrics(
         model_name, input_tokens, output_tokens, thought_tokens=thought_tokens, usage=tracer.get("usage")
@@ -154,52 +142,17 @@ def gemini_completion_with_backoff(
     before_sleep=before_sleep_log(logger, logging.DEBUG),
     reraise=True,
 )
-def gemini_chat_completion_with_backoff(
+async def gemini_chat_completion_with_backoff(
     messages,
-    compiled_references,
-    online_results,
     model_name,
     temperature,
     api_key,
     api_base_url,
     system_prompt,
-    completion_func=None,
     model_kwargs=None,
     deepthought=False,
     tracer: dict = {},
-):
-    g = ThreadedGenerator(compiled_references, online_results, completion_func=completion_func)
-    t = Thread(
-        target=gemini_llm_thread,
-        args=(
-            g,
-            messages,
-            system_prompt,
-            model_name,
-            temperature,
-            api_key,
-            api_base_url,
-            model_kwargs,
-            deepthought,
-            tracer,
-        ),
-    )
-    t.start()
-    return g
-def gemini_llm_thread(
-    g,
-    messages,
-    system_prompt,
-    model_name,
-    temperature,
-    api_key,
-    api_base_url=None,
-    model_kwargs=None,
-    deepthought=False,
-    tracer: dict = {},
-):
+) -> AsyncGenerator[str, None]:
     try:
         client = gemini_clients.get(api_key)
         if not client:
@@ -224,21 +177,32 @@ def gemini_llm_thread(
         )
         aggregated_response = ""
-        for chunk in client.models.generate_content_stream(
+        final_chunk = None
+        start_time = perf_counter()
+        chat_stream: AsyncIterator[gtypes.GenerateContentResponse] = await client.aio.models.generate_content_stream(
             model=model_name, config=config, contents=formatted_messages
-        ):
+        )
+        async for chunk in chat_stream:
+            # Log the time taken to start response
+            if final_chunk is None:
+                logger.info(f"First response took: {perf_counter() - start_time:.3f} seconds")
+            # Keep track of the last chunk for usage data
+            final_chunk = chunk
+            # Handle streamed response chunk
             message, stopped = handle_gemini_response(chunk.candidates, chunk.prompt_feedback)
             message = message or chunk.text
             aggregated_response += message
-            g.send(message)
+            yield message
             if stopped:
                 raise ValueError(message)
+        # Log the time taken to stream the entire response
+        logger.info(f"Chat streaming took: {perf_counter() - start_time:.3f} seconds")
         # Calculate cost of chat
-        input_tokens = chunk.usage_metadata.prompt_token_count
-        output_tokens = chunk.usage_metadata.candidates_token_count
-        thought_tokens = chunk.usage_metadata.thoughts_token_count or 0
+        input_tokens = final_chunk.usage_metadata.prompt_token_count or 0 if final_chunk else 0
+        output_tokens = final_chunk.usage_metadata.candidates_token_count or 0 if final_chunk else 0
+        thought_tokens = final_chunk.usage_metadata.thoughts_token_count or 0 if final_chunk else 0
         tracer["usage"] = get_chat_usage_metrics(
             model_name, input_tokens, output_tokens, thought_tokens=thought_tokens, usage=tracer.get("usage")
         )
@@ -254,9 +218,7 @@ def gemini_llm_thread(
             + f"Last Message by {messages[-1].role}: {messages[-1].content}"
         )
     except Exception as e:
-        logger.error(f"Error in gemini_llm_thread: {e}", exc_info=True)
-    finally:
-        g.close()
+        logger.error(f"Error in gemini_chat_completion_with_backoff stream: {e}", exc_info=True)
 def handle_gemini_response(

khoj/processor/conversation/offline/chat_model.py CHANGED Viewed

@@ -1,9 +1,10 @@
-import json
+import asyncio
 import logging
 import os
 from datetime import datetime, timedelta
 from threading import Thread
-from typing import Any, Dict, Iterator, List, Optional, Union
+from time import perf_counter
+from typing import Any, AsyncGenerator, Dict, List, Optional, Union
 import pyjson5
 from langchain.schema import ChatMessage
@@ -13,7 +14,6 @@ from khoj.database.models import Agent, ChatModel, KhojUser
 from khoj.processor.conversation import prompts
 from khoj.processor.conversation.offline.utils import download_model
 from khoj.processor.conversation.utils import (
-    ThreadedGenerator,
     clean_json,
     commit_conversation_trace,
     generate_chatml_messages_with_context,
@@ -147,7 +147,7 @@ def filter_questions(questions: List[str]):
     return list(filtered_questions)
-def converse_offline(
+async def converse_offline(
     user_query,
     references=[],
     online_results={},
@@ -167,9 +167,9 @@ def converse_offline(
     additional_context: List[str] = None,
     generated_asset_results: Dict[str, Dict] = {},
     tracer: dict = {},
-) -> Union[ThreadedGenerator, Iterator[str]]:
+) -> AsyncGenerator[str, None]:
     """
-    Converse with user using Llama
+    Converse with user using Llama (Async Version)
     """
     # Initialize Variables
     assert loaded_model is None or isinstance(loaded_model, Llama), "loaded_model must be of type Llama, if configured"
@@ -200,10 +200,17 @@ def converse_offline(
     # Get Conversation Primer appropriate to Conversation Type
     if conversation_commands == [ConversationCommand.Notes] and is_none_or_empty(references):
-        return iter([prompts.no_notes_found.format()])
+        response = prompts.no_notes_found.format()
+        if completion_func:
+            await completion_func(chat_response=response)
+        yield response
+        return
     elif conversation_commands == [ConversationCommand.Online] and is_none_or_empty(online_results):
-        completion_func(chat_response=prompts.no_online_results_found.format())
-        return iter([prompts.no_online_results_found.format()])
+        response = prompts.no_online_results_found.format()
+        if completion_func:
+            await completion_func(chat_response=response)
+        yield response
+        return
     context_message = ""
     if not is_none_or_empty(references):
@@ -240,33 +247,77 @@ def converse_offline(
     logger.debug(f"Conversation Context for {model_name}: {messages_to_print(messages)}")
-    g = ThreadedGenerator(references, online_results, completion_func=completion_func)
-    t = Thread(target=llm_thread, args=(g, messages, offline_chat_model, max_prompt_size, tracer))
-    t.start()
-    return g
-def llm_thread(g, messages: List[ChatMessage], model: Any, max_prompt_size: int = None, tracer: dict = {}):
+    # Use asyncio.Queue and a thread to bridge sync iterator
+    queue: asyncio.Queue = asyncio.Queue()
     stop_phrases = ["<s>", "INST]", "Notes:"]
-    aggregated_response = ""
-    state.chat_lock.acquire()
-    try:
-        response_iterator = send_message_to_model_offline(
-            messages, loaded_model=model, stop=stop_phrases, max_prompt_size=max_prompt_size, streaming=True
-        )
-        for response in response_iterator:
-            response_delta = response["choices"][0]["delta"].get("content", "")
-            aggregated_response += response_delta
-            g.send(response_delta)
-        # Save conversation trace
-        if is_promptrace_enabled():
-            commit_conversation_trace(messages, aggregated_response, tracer)
-    finally:
-        state.chat_lock.release()
-        g.close()
+    aggregated_response_container = {"response": ""}
+    def _sync_llm_thread():
+        """Synchronous function to run in a separate thread."""
+        aggregated_response = ""
+        start_time = perf_counter()
+        state.chat_lock.acquire()
+        try:
+            response_iterator = send_message_to_model_offline(
+                messages,
+                loaded_model=offline_chat_model,
+                stop=stop_phrases,
+                max_prompt_size=max_prompt_size,
+                streaming=True,
+                tracer=tracer,
+            )
+            for response in response_iterator:
+                response_delta = response["choices"][0]["delta"].get("content", "")
+                # Log the time taken to start response
+                if aggregated_response == "" and response_delta != "":
+                    logger.info(f"First response took: {perf_counter() - start_time:.3f} seconds")
+                # Handle response chunk
+                aggregated_response += response_delta
+                # Put chunk into the asyncio queue (non-blocking)
+                try:
+                    queue.put_nowait(response_delta)
+                except asyncio.QueueFull:
+                    # Should not happen with default queue size unless consumer is very slow
+                    logger.warning("Asyncio queue full during offline LLM streaming.")
+                    # Potentially block here or handle differently if needed
+                    asyncio.run(queue.put(response_delta))
+            # Log the time taken to stream the entire response
+            logger.info(f"Chat streaming took: {perf_counter() - start_time:.3f} seconds")
+            # Save conversation trace
+            tracer["chat_model"] = model_name
+            if is_promptrace_enabled():
+                commit_conversation_trace(messages, aggregated_response, tracer)
+        except Exception as e:
+            logger.error(f"Error in offline LLM thread: {e}", exc_info=True)
+        finally:
+            state.chat_lock.release()
+            # Signal end of stream
+            queue.put_nowait(None)
+            aggregated_response_container["response"] = aggregated_response
+    # Start the synchronous thread
+    thread = Thread(target=_sync_llm_thread)
+    thread.start()
+    # Asynchronously consume from the queue
+    while True:
+        chunk = await queue.get()
+        if chunk is None:  # End of stream signal
+            queue.task_done()
+            break
+        yield chunk
+        queue.task_done()
+    # Wait for the thread to finish (optional, ensures cleanup)
+    loop = asyncio.get_running_loop()
+    await loop.run_in_executor(None, thread.join)
+    # Call the completion function after streaming is done
+    if completion_func:
+        await completion_func(chat_response=aggregated_response_container["response"])
 def send_message_to_model_offline(

khoj/processor/conversation/openai/gpt.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import logging
 from datetime import datetime, timedelta
-from typing import Dict, List, Optional
+from typing import AsyncGenerator, Dict, List, Optional
 import pyjson5
 from langchain.schema import ChatMessage
@@ -162,7 +162,7 @@ def send_message_to_model(
     )
-def converse_openai(
+async def converse_openai(
     references,
     user_query,
     online_results: Optional[Dict[str, Dict]] = None,
@@ -187,7 +187,7 @@ def converse_openai(
     program_execution_context: List[str] = None,
     deepthought: Optional[bool] = False,
     tracer: dict = {},
-):
+) -> AsyncGenerator[str, None]:
     """
     Converse with user using OpenAI's ChatGPT
     """
@@ -217,11 +217,17 @@ def converse_openai(
     # Get Conversation Primer appropriate to Conversation Type
     if conversation_commands == [ConversationCommand.Notes] and is_none_or_empty(references):
-        completion_func(chat_response=prompts.no_notes_found.format())
-        return iter([prompts.no_notes_found.format()])
+        response = prompts.no_notes_found.format()
+        if completion_func:
+            await completion_func(chat_response=response)
+        yield response
+        return
     elif conversation_commands == [ConversationCommand.Online] and is_none_or_empty(online_results):
-        completion_func(chat_response=prompts.no_online_results_found.format())
-        return iter([prompts.no_online_results_found.format()])
+        response = prompts.no_online_results_found.format()
+        if completion_func:
+            await completion_func(chat_response=response)
+        yield response
+        return
     context_message = ""
     if not is_none_or_empty(references):
@@ -255,19 +261,23 @@ def converse_openai(
     logger.debug(f"Conversation Context for GPT: {messages_to_print(messages)}")
     # Get Response from GPT
-    return chat_completion_with_backoff(
+    full_response = ""
+    async for chunk in chat_completion_with_backoff(
         messages=messages,
-        compiled_references=references,
-        online_results=online_results,
         model_name=model,
         temperature=temperature,
         openai_api_key=api_key,
         api_base_url=api_base_url,
-        completion_func=completion_func,
         deepthought=deepthought,
         model_kwargs={"stop": ["Notes:\n["]},
         tracer=tracer,
-    )
+    ):
+        full_response += chunk
+        yield chunk
+    # Call completion_func once finish streaming and we have the full response
+    if completion_func:
+        await completion_func(chat_response=full_response)
 def clean_response_schema(schema: BaseModel | dict) -> dict:

khoj/processor/conversation/openai/utils.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import logging
 import os
-from threading import Thread
-from typing import Dict, List
+from time import perf_counter
+from typing import AsyncGenerator, Dict, List
 from urllib.parse import urlparse
 import openai
@@ -16,13 +16,10 @@ from tenacity import (
     wait_random_exponential,
 )
-from khoj.processor.conversation.utils import (
-    JsonSupport,
-    ThreadedGenerator,
-    commit_conversation_trace,
-)
+from khoj.processor.conversation.utils import JsonSupport, commit_conversation_trace
 from khoj.utils.helpers import (
     get_chat_usage_metrics,
+    get_openai_async_client,
     get_openai_client,
     is_promptrace_enabled,
 )
@@ -30,6 +27,7 @@ from khoj.utils.helpers import (
 logger = logging.getLogger(__name__)
 openai_clients: Dict[str, openai.OpenAI] = {}
+openai_async_clients: Dict[str, openai.AsyncOpenAI] = {}
 @retry(
@@ -124,45 +122,22 @@ def completion_with_backoff(
     before_sleep=before_sleep_log(logger, logging.DEBUG),
     reraise=True,
 )
-def chat_completion_with_backoff(
+async def chat_completion_with_backoff(
     messages,
-    compiled_references,
-    online_results,
     model_name,
     temperature,
     openai_api_key=None,
     api_base_url=None,
-    completion_func=None,
-    deepthought=False,
-    model_kwargs=None,
-    tracer: dict = {},
-):
-    g = ThreadedGenerator(compiled_references, online_results, completion_func=completion_func)
-    t = Thread(
-        target=llm_thread,
-        args=(g, messages, model_name, temperature, openai_api_key, api_base_url, deepthought, model_kwargs, tracer),
-    )
-    t.start()
-    return g
-def llm_thread(
-    g,
-    messages,
-    model_name: str,
-    temperature,
-    openai_api_key=None,
-    api_base_url=None,
     deepthought=False,
     model_kwargs: dict = {},
     tracer: dict = {},
-):
+) -> AsyncGenerator[str, None]:
     try:
         client_key = f"{openai_api_key}--{api_base_url}"
-        client = openai_clients.get(client_key)
+        client = openai_async_clients.get(client_key)
         if not client:
-            client = get_openai_client(openai_api_key, api_base_url)
-            openai_clients[client_key] = client
+            client = get_openai_async_client(openai_api_key, api_base_url)
+            openai_async_clients[client_key] = client
         formatted_messages = [{"role": message.role, "content": message.content} for message in messages]
@@ -181,9 +156,10 @@ def llm_thread(
                 ]
                 if len(system_messages) > 0:
                     first_system_message_index, first_system_message = system_messages[0]
+                    first_system_message_content = first_system_message["content"]
                     formatted_messages[first_system_message_index][
                         "content"
-                    ] = f"{first_system_message} Formatting re-enabled"
+                    ] = f"{first_system_message_content}\nFormatting re-enabled"
         elif is_twitter_reasoning_model(model_name, api_base_url):
             reasoning_effort = "high" if deepthought else "low"
             model_kwargs["reasoning_effort"] = reasoning_effort
@@ -206,53 +182,58 @@ def llm_thread(
         if os.getenv("KHOJ_LLM_SEED"):
             model_kwargs["seed"] = int(os.getenv("KHOJ_LLM_SEED"))
-        chat: ChatCompletion | openai.Stream[ChatCompletionChunk] = client.chat.completions.create(
-            messages=formatted_messages,
-            model=model_name,  # type: ignore
+        aggregated_response = ""
+        final_chunk = None
+        start_time = perf_counter()
+        chat_stream: openai.AsyncStream[ChatCompletionChunk] = await client.chat.completions.create(
+            messages=formatted_messages,  # type: ignore
+            model=model_name,
             stream=stream,
             temperature=temperature,
             timeout=20,
             **model_kwargs,
         )
-        aggregated_response = ""
-        if not stream:
-            chunk = chat
-            aggregated_response = chunk.choices[0].message.content
-            g.send(aggregated_response)
-        else:
-            for chunk in chat:
-                if len(chunk.choices) == 0:
-                    continue
-                delta_chunk = chunk.choices[0].delta
-                text_chunk = ""
-                if isinstance(delta_chunk, str):
-                    text_chunk = delta_chunk
-                elif delta_chunk.content:
-                    text_chunk = delta_chunk.content
-                if text_chunk:
-                    aggregated_response += text_chunk
-                    g.send(text_chunk)
-        # Calculate cost of chat
-        input_tokens = chunk.usage.prompt_tokens if hasattr(chunk, "usage") and chunk.usage else 0
-        output_tokens = chunk.usage.completion_tokens if hasattr(chunk, "usage") and chunk.usage else 0
-        cost = (
-            chunk.usage.model_extra.get("estimated_cost", 0) if hasattr(chunk, "usage") and chunk.usage else 0
-        )  # Estimated costs returned by DeepInfra API
-        tracer["usage"] = get_chat_usage_metrics(
-            model_name, input_tokens, output_tokens, usage=tracer.get("usage"), cost=cost
-        )
+        async for chunk in chat_stream:
+            # Log the time taken to start response
+            if final_chunk is None:
+                logger.info(f"First response took: {perf_counter() - start_time:.3f} seconds")
+            # Keep track of the last chunk for usage data
+            final_chunk = chunk
+            # Handle streamed response chunk
+            if len(chunk.choices) == 0:
+                continue
+            delta_chunk = chunk.choices[0].delta
+            text_chunk = ""
+            if isinstance(delta_chunk, str):
+                text_chunk = delta_chunk
+            elif delta_chunk and delta_chunk.content:
+                text_chunk = delta_chunk.content
+            if text_chunk:
+                aggregated_response += text_chunk
+                yield text_chunk
+        # Log the time taken to stream the entire response
+        logger.info(f"Chat streaming took: {perf_counter() - start_time:.3f} seconds")
+        # Calculate cost of chat after stream finishes
+        input_tokens, output_tokens, cost = 0, 0, 0
+        if final_chunk and hasattr(final_chunk, "usage") and final_chunk.usage:
+            input_tokens = final_chunk.usage.prompt_tokens
+            output_tokens = final_chunk.usage.completion_tokens
+            # Estimated costs returned by DeepInfra API
+            if final_chunk.usage.model_extra and "estimated_cost" in final_chunk.usage.model_extra:
+                cost = final_chunk.usage.model_extra.get("estimated_cost", 0)
         # Save conversation trace
         tracer["chat_model"] = model_name
         tracer["temperature"] = temperature
+        tracer["usage"] = get_chat_usage_metrics(
+            model_name, input_tokens, output_tokens, usage=tracer.get("usage"), cost=cost
+        )
         if is_promptrace_enabled():
             commit_conversation_trace(messages, aggregated_response, tracer)
     except Exception as e:
-        logger.error(f"Error in llm_thread: {e}", exc_info=True)
-    finally:
-        g.close()
+        logger.error(f"Error in chat_completion_with_backoff stream: {e}", exc_info=True)
 def get_openai_api_json_support(model_name: str, api_base_url: str = None) -> JsonSupport:

khoj 1.40.1.dev18__py3-none-any.whl → 1.40.1.dev27__py3-none-any.whl

khoj 1.40.1.dev18py3-none-any.whl → 1.40.1.dev27py3-none-any.whl