PyPI - realtimex-deeptutor - Versions diffs - 0.5.0.post1__py3-none-any.whl - Mend

realtimex-deeptutor 0.5.0.post1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (276) hide show

realtimex_deeptutor/__init__.py +67 -0
realtimex_deeptutor-0.5.0.post1.dist-info/METADATA +1612 -0
realtimex_deeptutor-0.5.0.post1.dist-info/RECORD +276 -0
realtimex_deeptutor-0.5.0.post1.dist-info/WHEEL +5 -0
realtimex_deeptutor-0.5.0.post1.dist-info/entry_points.txt +2 -0
realtimex_deeptutor-0.5.0.post1.dist-info/licenses/LICENSE +661 -0
realtimex_deeptutor-0.5.0.post1.dist-info/top_level.txt +2 -0
src/__init__.py +40 -0
src/agents/__init__.py +24 -0
src/agents/base_agent.py +657 -0
src/agents/chat/__init__.py +24 -0
src/agents/chat/chat_agent.py +435 -0
src/agents/chat/prompts/en/chat_agent.yaml +35 -0
src/agents/chat/prompts/zh/chat_agent.yaml +35 -0
src/agents/chat/session_manager.py +311 -0
src/agents/co_writer/__init__.py +0 -0
src/agents/co_writer/edit_agent.py +260 -0
src/agents/co_writer/narrator_agent.py +423 -0
src/agents/co_writer/prompts/en/edit_agent.yaml +113 -0
src/agents/co_writer/prompts/en/narrator_agent.yaml +88 -0
src/agents/co_writer/prompts/zh/edit_agent.yaml +113 -0
src/agents/co_writer/prompts/zh/narrator_agent.yaml +88 -0
src/agents/guide/__init__.py +16 -0
src/agents/guide/agents/__init__.py +11 -0
src/agents/guide/agents/chat_agent.py +104 -0
src/agents/guide/agents/interactive_agent.py +223 -0
src/agents/guide/agents/locate_agent.py +149 -0
src/agents/guide/agents/summary_agent.py +150 -0
src/agents/guide/guide_manager.py +500 -0
src/agents/guide/prompts/en/chat_agent.yaml +41 -0
src/agents/guide/prompts/en/interactive_agent.yaml +202 -0
src/agents/guide/prompts/en/locate_agent.yaml +68 -0
src/agents/guide/prompts/en/summary_agent.yaml +157 -0
src/agents/guide/prompts/zh/chat_agent.yaml +41 -0
src/agents/guide/prompts/zh/interactive_agent.yaml +626 -0
src/agents/guide/prompts/zh/locate_agent.yaml +68 -0
src/agents/guide/prompts/zh/summary_agent.yaml +157 -0
src/agents/ideagen/__init__.py +12 -0
src/agents/ideagen/idea_generation_workflow.py +426 -0
src/agents/ideagen/material_organizer_agent.py +173 -0
src/agents/ideagen/prompts/en/idea_generation.yaml +187 -0
src/agents/ideagen/prompts/en/material_organizer.yaml +69 -0
src/agents/ideagen/prompts/zh/idea_generation.yaml +187 -0
src/agents/ideagen/prompts/zh/material_organizer.yaml +69 -0
src/agents/question/__init__.py +24 -0
src/agents/question/agents/__init__.py +18 -0
src/agents/question/agents/generate_agent.py +381 -0
src/agents/question/agents/relevance_analyzer.py +207 -0
src/agents/question/agents/retrieve_agent.py +239 -0
src/agents/question/coordinator.py +718 -0
src/agents/question/example.py +109 -0
src/agents/question/prompts/en/coordinator.yaml +75 -0
src/agents/question/prompts/en/generate_agent.yaml +77 -0
src/agents/question/prompts/en/relevance_analyzer.yaml +41 -0
src/agents/question/prompts/en/retrieve_agent.yaml +32 -0
src/agents/question/prompts/zh/coordinator.yaml +75 -0
src/agents/question/prompts/zh/generate_agent.yaml +77 -0
src/agents/question/prompts/zh/relevance_analyzer.yaml +39 -0
src/agents/question/prompts/zh/retrieve_agent.yaml +30 -0
src/agents/research/agents/__init__.py +23 -0
src/agents/research/agents/decompose_agent.py +507 -0
src/agents/research/agents/manager_agent.py +228 -0
src/agents/research/agents/note_agent.py +180 -0
src/agents/research/agents/rephrase_agent.py +263 -0
src/agents/research/agents/reporting_agent.py +1333 -0
src/agents/research/agents/research_agent.py +714 -0
src/agents/research/data_structures.py +451 -0
src/agents/research/main.py +188 -0
src/agents/research/prompts/en/decompose_agent.yaml +89 -0
src/agents/research/prompts/en/manager_agent.yaml +24 -0
src/agents/research/prompts/en/note_agent.yaml +121 -0
src/agents/research/prompts/en/rephrase_agent.yaml +58 -0
src/agents/research/prompts/en/reporting_agent.yaml +380 -0
src/agents/research/prompts/en/research_agent.yaml +173 -0
src/agents/research/prompts/zh/decompose_agent.yaml +89 -0
src/agents/research/prompts/zh/manager_agent.yaml +24 -0
src/agents/research/prompts/zh/note_agent.yaml +121 -0
src/agents/research/prompts/zh/rephrase_agent.yaml +58 -0
src/agents/research/prompts/zh/reporting_agent.yaml +380 -0
src/agents/research/prompts/zh/research_agent.yaml +173 -0
src/agents/research/research_pipeline.py +1309 -0
src/agents/research/utils/__init__.py +60 -0
src/agents/research/utils/citation_manager.py +799 -0
src/agents/research/utils/json_utils.py +98 -0
src/agents/research/utils/token_tracker.py +297 -0
src/agents/solve/__init__.py +80 -0
src/agents/solve/analysis_loop/__init__.py +14 -0
src/agents/solve/analysis_loop/investigate_agent.py +414 -0
src/agents/solve/analysis_loop/note_agent.py +190 -0
src/agents/solve/main_solver.py +862 -0
src/agents/solve/memory/__init__.py +34 -0
src/agents/solve/memory/citation_memory.py +353 -0
src/agents/solve/memory/investigate_memory.py +226 -0
src/agents/solve/memory/solve_memory.py +340 -0
src/agents/solve/prompts/en/analysis_loop/investigate_agent.yaml +55 -0
src/agents/solve/prompts/en/analysis_loop/note_agent.yaml +54 -0
src/agents/solve/prompts/en/solve_loop/manager_agent.yaml +67 -0
src/agents/solve/prompts/en/solve_loop/precision_answer_agent.yaml +62 -0
src/agents/solve/prompts/en/solve_loop/response_agent.yaml +90 -0
src/agents/solve/prompts/en/solve_loop/solve_agent.yaml +75 -0
src/agents/solve/prompts/en/solve_loop/tool_agent.yaml +38 -0
src/agents/solve/prompts/zh/analysis_loop/investigate_agent.yaml +53 -0
src/agents/solve/prompts/zh/analysis_loop/note_agent.yaml +54 -0
src/agents/solve/prompts/zh/solve_loop/manager_agent.yaml +66 -0
src/agents/solve/prompts/zh/solve_loop/precision_answer_agent.yaml +62 -0
src/agents/solve/prompts/zh/solve_loop/response_agent.yaml +90 -0
src/agents/solve/prompts/zh/solve_loop/solve_agent.yaml +76 -0
src/agents/solve/prompts/zh/solve_loop/tool_agent.yaml +41 -0
src/agents/solve/solve_loop/__init__.py +22 -0
src/agents/solve/solve_loop/citation_manager.py +74 -0
src/agents/solve/solve_loop/manager_agent.py +274 -0
src/agents/solve/solve_loop/precision_answer_agent.py +96 -0
src/agents/solve/solve_loop/response_agent.py +301 -0
src/agents/solve/solve_loop/solve_agent.py +325 -0
src/agents/solve/solve_loop/tool_agent.py +470 -0
src/agents/solve/utils/__init__.py +64 -0
src/agents/solve/utils/config_validator.py +313 -0
src/agents/solve/utils/display_manager.py +223 -0
src/agents/solve/utils/error_handler.py +363 -0
src/agents/solve/utils/json_utils.py +98 -0
src/agents/solve/utils/performance_monitor.py +407 -0
src/agents/solve/utils/token_tracker.py +541 -0
src/api/__init__.py +0 -0
src/api/main.py +240 -0
src/api/routers/__init__.py +1 -0
src/api/routers/agent_config.py +69 -0
src/api/routers/chat.py +296 -0
src/api/routers/co_writer.py +337 -0
src/api/routers/config.py +627 -0
src/api/routers/dashboard.py +18 -0
src/api/routers/guide.py +337 -0
src/api/routers/ideagen.py +436 -0
src/api/routers/knowledge.py +821 -0
src/api/routers/notebook.py +247 -0
src/api/routers/question.py +537 -0
src/api/routers/research.py +394 -0
src/api/routers/settings.py +164 -0
src/api/routers/solve.py +305 -0
src/api/routers/system.py +252 -0
src/api/run_server.py +61 -0
src/api/utils/history.py +172 -0
src/api/utils/log_interceptor.py +21 -0
src/api/utils/notebook_manager.py +415 -0
src/api/utils/progress_broadcaster.py +72 -0
src/api/utils/task_id_manager.py +100 -0
src/config/__init__.py +0 -0
src/config/accessors.py +18 -0
src/config/constants.py +34 -0
src/config/defaults.py +18 -0
src/config/schema.py +38 -0
src/config/settings.py +50 -0
src/core/errors.py +62 -0
src/knowledge/__init__.py +23 -0
src/knowledge/add_documents.py +606 -0
src/knowledge/config.py +65 -0
src/knowledge/example_add_documents.py +236 -0
src/knowledge/extract_numbered_items.py +1039 -0
src/knowledge/initializer.py +621 -0
src/knowledge/kb.py +22 -0
src/knowledge/manager.py +782 -0
src/knowledge/progress_tracker.py +182 -0
src/knowledge/start_kb.py +535 -0
src/logging/__init__.py +103 -0
src/logging/adapters/__init__.py +17 -0
src/logging/adapters/lightrag.py +184 -0
src/logging/adapters/llamaindex.py +141 -0
src/logging/config.py +80 -0
src/logging/handlers/__init__.py +20 -0
src/logging/handlers/console.py +75 -0
src/logging/handlers/file.py +201 -0
src/logging/handlers/websocket.py +127 -0
src/logging/logger.py +709 -0
src/logging/stats/__init__.py +16 -0
src/logging/stats/llm_stats.py +179 -0
src/services/__init__.py +56 -0
src/services/config/__init__.py +61 -0
src/services/config/knowledge_base_config.py +210 -0
src/services/config/loader.py +260 -0
src/services/config/unified_config.py +603 -0
src/services/embedding/__init__.py +45 -0
src/services/embedding/adapters/__init__.py +22 -0
src/services/embedding/adapters/base.py +106 -0
src/services/embedding/adapters/cohere.py +127 -0
src/services/embedding/adapters/jina.py +99 -0
src/services/embedding/adapters/ollama.py +116 -0
src/services/embedding/adapters/openai_compatible.py +96 -0
src/services/embedding/client.py +159 -0
src/services/embedding/config.py +156 -0
src/services/embedding/provider.py +119 -0
src/services/llm/__init__.py +152 -0
src/services/llm/capabilities.py +313 -0
src/services/llm/client.py +302 -0
src/services/llm/cloud_provider.py +530 -0
src/services/llm/config.py +200 -0
src/services/llm/error_mapping.py +103 -0
src/services/llm/exceptions.py +152 -0
src/services/llm/factory.py +450 -0
src/services/llm/local_provider.py +347 -0
src/services/llm/providers/anthropic.py +95 -0
src/services/llm/providers/base_provider.py +93 -0
src/services/llm/providers/open_ai.py +83 -0
src/services/llm/registry.py +71 -0
src/services/llm/telemetry.py +40 -0
src/services/llm/types.py +27 -0
src/services/llm/utils.py +333 -0
src/services/prompt/__init__.py +25 -0
src/services/prompt/manager.py +206 -0
src/services/rag/__init__.py +64 -0
src/services/rag/components/__init__.py +29 -0
src/services/rag/components/base.py +59 -0
src/services/rag/components/chunkers/__init__.py +18 -0
src/services/rag/components/chunkers/base.py +34 -0
src/services/rag/components/chunkers/fixed.py +71 -0
src/services/rag/components/chunkers/numbered_item.py +94 -0
src/services/rag/components/chunkers/semantic.py +97 -0
src/services/rag/components/embedders/__init__.py +14 -0
src/services/rag/components/embedders/base.py +32 -0
src/services/rag/components/embedders/openai.py +63 -0
src/services/rag/components/indexers/__init__.py +18 -0
src/services/rag/components/indexers/base.py +35 -0
src/services/rag/components/indexers/graph.py +172 -0
src/services/rag/components/indexers/lightrag.py +156 -0
src/services/rag/components/indexers/vector.py +146 -0
src/services/rag/components/parsers/__init__.py +18 -0
src/services/rag/components/parsers/base.py +35 -0
src/services/rag/components/parsers/markdown.py +52 -0
src/services/rag/components/parsers/pdf.py +115 -0
src/services/rag/components/parsers/text.py +86 -0
src/services/rag/components/retrievers/__init__.py +18 -0
src/services/rag/components/retrievers/base.py +34 -0
src/services/rag/components/retrievers/dense.py +200 -0
src/services/rag/components/retrievers/hybrid.py +164 -0
src/services/rag/components/retrievers/lightrag.py +169 -0
src/services/rag/components/routing.py +286 -0
src/services/rag/factory.py +234 -0
src/services/rag/pipeline.py +215 -0
src/services/rag/pipelines/__init__.py +32 -0
src/services/rag/pipelines/academic.py +44 -0
src/services/rag/pipelines/lightrag.py +43 -0
src/services/rag/pipelines/llamaindex.py +313 -0
src/services/rag/pipelines/raganything.py +384 -0
src/services/rag/service.py +244 -0
src/services/rag/types.py +73 -0
src/services/search/__init__.py +284 -0
src/services/search/base.py +87 -0
src/services/search/consolidation.py +398 -0
src/services/search/providers/__init__.py +128 -0
src/services/search/providers/baidu.py +188 -0
src/services/search/providers/exa.py +194 -0
src/services/search/providers/jina.py +161 -0
src/services/search/providers/perplexity.py +153 -0
src/services/search/providers/serper.py +209 -0
src/services/search/providers/tavily.py +161 -0
src/services/search/types.py +114 -0
src/services/setup/__init__.py +34 -0
src/services/setup/init.py +285 -0
src/services/tts/__init__.py +16 -0
src/services/tts/config.py +99 -0
src/tools/__init__.py +91 -0
src/tools/code_executor.py +536 -0
src/tools/paper_search_tool.py +171 -0
src/tools/query_item_tool.py +310 -0
src/tools/question/__init__.py +15 -0
src/tools/question/exam_mimic.py +616 -0
src/tools/question/pdf_parser.py +211 -0
src/tools/question/question_extractor.py +397 -0
src/tools/rag_tool.py +173 -0
src/tools/tex_chunker.py +339 -0
src/tools/tex_downloader.py +253 -0
src/tools/web_search.py +71 -0
src/utils/config_manager.py +206 -0
src/utils/document_validator.py +168 -0
src/utils/error_rate_tracker.py +111 -0
src/utils/error_utils.py +82 -0
src/utils/json_parser.py +110 -0
src/utils/network/circuit_breaker.py +79 -0

src/services/llm/factory.py ADDED Viewed

@@ -0,0 +1,450 @@
+"""
+LLM Factory - Central Hub for LLM Calls
+=======================================
+This module serves as the central hub for all LLM calls in DeepTutor.
+It provides a unified interface for agents to call LLMs, routing requests
+to the appropriate provider (cloud or local) based on URL detection.
+Architecture:
+    Agents (ChatAgent, GuideAgent, etc.)
+              ↓
+         BaseAgent.call_llm() / stream_llm()
+              ↓
+         LLM Factory (this module)
+              ↓
+    ┌─────────┴─────────┐
+    ↓                   ↓
+CloudProvider      LocalProvider
+(cloud_provider)   (local_provider)
+              ↓                   ↓
+OpenAI/DeepSeek/etc    LM Studio/Ollama/etc
+Routing:
+- Automatically routes to local_provider for local URLs (localhost, 127.0.0.1, etc.)
+- Routes to cloud_provider for all other URLs
+Retry Mechanism:
+- Automatic retry with exponential backoff for transient errors
+- Configurable max_retries, retry_delay, and exponential_backoff
+- Only retries on retriable errors (timeout, rate limit, server errors)
+"""
+import asyncio
+from typing import Any, AsyncGenerator, Dict, List, Optional
+import tenacity
+from src.logging.logger import get_logger
+from . import cloud_provider, local_provider
+from .config import get_llm_config
+from .exceptions import (
+    LLMAPIError,
+    LLMAuthenticationError,
+    LLMRateLimitError,
+    LLMTimeoutError,
+)
+from .utils import is_local_llm_server
+# Initialize logger
+logger = get_logger("LLMFactory")
+# Default retry configuration
+DEFAULT_MAX_RETRIES = 3
+DEFAULT_RETRY_DELAY = 1.0  # seconds
+DEFAULT_EXPONENTIAL_BACKOFF = True
+def _is_retriable_error(error: Exception) -> bool:
+    """
+    Check if an error is retriable.
+    Retriable errors:
+    - Timeout errors
+    - Rate limit errors (429)
+    - Server errors (5xx)
+    - Network/connection errors
+    Non-retriable errors:
+    - Authentication errors (401)
+    - Bad request (400)
+    - Not found (404)
+    - Client errors (4xx except 429)
+    """
+    from aiohttp import ClientError
+    from requests.exceptions import RequestException
+    if isinstance(error, (asyncio.TimeoutError, ClientError, RequestException)):
+        return True
+    if isinstance(error, LLMTimeoutError):
+        return True
+    if isinstance(error, LLMRateLimitError):
+        return True
+    if isinstance(error, LLMAuthenticationError):
+        return False  # Don't retry auth errors
+    if isinstance(error, LLMAPIError):
+        status_code = error.status_code
+        if status_code:
+            # Retry on server errors (5xx) and rate limits (429)
+            if status_code >= 500 or status_code == 429:
+                return True
+            # Don't retry on client errors (4xx except 429)
+            if 400 <= status_code < 500:
+                return False
+        return True  # Retry by default for unknown API errors
+    # For other exceptions (network errors, etc.), retry
+    return True
+def _should_use_local(base_url: Optional[str]) -> bool:
+    """
+    Determine if we should use the local provider based on URL.
+    Args:
+        base_url: The base URL to check
+    Returns:
+        True if local provider should be used (localhost, 127.0.0.1, etc.)
+    """
+    return is_local_llm_server(base_url) if base_url else False
+async def complete(
+    prompt: str,
+    system_prompt: str = "You are a helpful assistant.",
+    model: Optional[str] = None,
+    api_key: Optional[str] = None,
+    base_url: Optional[str] = None,
+    api_version: Optional[str] = None,
+    binding: Optional[str] = None,
+    messages: Optional[List[Dict[str, str]]] = None,
+    max_retries: int = DEFAULT_MAX_RETRIES,
+    retry_delay: float = DEFAULT_RETRY_DELAY,
+    exponential_backoff: bool = DEFAULT_EXPONENTIAL_BACKOFF,
+    **kwargs,
+) -> str:
+    """
+    Unified LLM completion function with automatic retry.
+    Routes to cloud_provider or local_provider based on configuration.
+    Includes automatic retry with exponential backoff for transient errors.
+    Args:
+        prompt: The user prompt
+        system_prompt: System prompt for context
+        model: Model name (optional, uses effective config if not provided)
+        api_key: API key (optional)
+        base_url: Base URL for the API (optional)
+        api_version: API version for Azure OpenAI (optional)
+        binding: Provider binding type (optional)
+        messages: Pre-built messages array (optional)
+        max_retries: Maximum number of retry attempts (default: 3)
+        retry_delay: Initial delay between retries in seconds (default: 1.0)
+        exponential_backoff: Whether to use exponential backoff (default: True)
+        **kwargs: Additional parameters (temperature, max_tokens, etc.)
+    Returns:
+        str: The LLM response
+    """
+    # Get config if parameters not provided
+    if not model or not base_url:
+        config = get_llm_config()
+        model = model or config.model
+        api_key = api_key if api_key is not None else config.api_key
+        base_url = base_url or config.base_url
+        api_version = api_version or config.api_version
+        binding = binding or config.binding or "openai"
+    # Determine which provider to use
+    use_local = _should_use_local(base_url)
+    # Define helper to determine if a generic LLMAPIError is retriable
+    def _is_retriable_llm_api_error(exc: BaseException) -> bool:
+        """
+        Return True for LLMAPIError instances that represent retriable conditions.
+        We only retry on:
+          - HTTP 429 (rate limit), or
+          - HTTP 5xx server errors.
+        All other LLMAPIError instances (e.g., 4xx like 400, 401, 403, 404) are treated
+        as non-retriable to avoid unnecessary retries.
+        """
+        if not isinstance(exc, LLMAPIError):
+            return False
+        status_code = getattr(exc, "status_code", None)
+        if status_code is None:
+            # Do not retry when status code is unknown to avoid retrying non-transient errors
+            return False
+        if status_code == 429:
+            return True
+        if 500 <= status_code < 600:
+            return True
+        return False
+    # Define the actual completion function with tenacity retry
+    @tenacity.retry(
+        retry=(
+            tenacity.retry_if_exception_type(LLMRateLimitError)
+            | tenacity.retry_if_exception_type(LLMTimeoutError)
+            | tenacity.retry_if_exception(_is_retriable_llm_api_error)
+        ),
+        wait=tenacity.wait_exponential(multiplier=retry_delay, min=retry_delay, max=60),
+        stop=tenacity.stop_after_attempt(max_retries + 1),
+        before_sleep=lambda retry_state: logger.warning(
+            f"LLM call failed (attempt {retry_state.attempt_number}/{max_retries + 1}), "
+            f"retrying in {retry_state.upcoming_sleep:.1f}s... Error: {str(retry_state.outcome.exception())}"
+        ),
+    )
+    async def _do_complete(**call_kwargs):
+        try:
+            if use_local:
+                return await local_provider.complete(**call_kwargs)
+            else:
+                return await cloud_provider.complete(**call_kwargs)
+        except Exception as e:
+            # Map raw SDK exceptions to unified exceptions for retry logic
+            from .error_mapping import map_error
+            mapped_error = map_error(e, provider=call_kwargs.get("binding", "unknown"))
+            raise mapped_error from e
+    # Build call kwargs
+    call_kwargs = {
+        "prompt": prompt,
+        "system_prompt": system_prompt,
+        "model": model,
+        "api_key": api_key,
+        "base_url": base_url,
+        "messages": messages,
+        **kwargs,
+    }
+    # Add cloud-specific kwargs if not local
+    if not use_local:
+        call_kwargs["api_version"] = api_version
+        call_kwargs["binding"] = binding or "openai"
+    # Execute with retry (handled by tenacity decorator)
+    return await _do_complete(**call_kwargs)
+async def stream(
+    prompt: str,
+    system_prompt: str = "You are a helpful assistant.",
+    model: Optional[str] = None,
+    api_key: Optional[str] = None,
+    base_url: Optional[str] = None,
+    api_version: Optional[str] = None,
+    binding: Optional[str] = None,
+    messages: Optional[List[Dict[str, str]]] = None,
+    max_retries: int = DEFAULT_MAX_RETRIES,
+    retry_delay: float = DEFAULT_RETRY_DELAY,
+    exponential_backoff: bool = DEFAULT_EXPONENTIAL_BACKOFF,
+    **kwargs,
+) -> AsyncGenerator[str, None]:
+    """
+    Unified LLM streaming function with automatic retry.
+    Routes to cloud_provider or local_provider based on configuration.
+    Includes automatic retry with exponential backoff for connection errors.
+    Note: Retry only applies to initial connection errors. Once streaming
+    starts, errors during streaming will not be automatically retried.
+    Args:
+        prompt: The user prompt
+        system_prompt: System prompt for context
+        model: Model name (optional, uses effective config if not provided)
+        api_key: API key (optional)
+        base_url: Base URL for the API (optional)
+        api_version: API version for Azure OpenAI (optional)
+        binding: Provider binding type (optional)
+        messages: Pre-built messages array (optional)
+        max_retries: Maximum number of retry attempts (default: 3)
+        retry_delay: Initial delay between retries in seconds (default: 1.0)
+        exponential_backoff: Whether to use exponential backoff (default: True)
+        **kwargs: Additional parameters (temperature, max_tokens, etc.)
+    Yields:
+        str: Response chunks
+    """
+    # Get config if parameters not provided
+    if not model or not base_url:
+        config = get_llm_config()
+        model = model or config.model
+        api_key = api_key if api_key is not None else config.api_key
+        base_url = base_url or config.base_url
+        api_version = api_version or config.api_version
+        binding = binding or config.binding or "openai"
+    # Determine which provider to use
+    use_local = _should_use_local(base_url)
+    # Build call kwargs
+    call_kwargs = {
+        "prompt": prompt,
+        "system_prompt": system_prompt,
+        "model": model,
+        "api_key": api_key,
+        "base_url": base_url,
+        "messages": messages,
+        **kwargs,
+    }
+    # Add cloud-specific kwargs if not local
+    if not use_local:
+        call_kwargs["api_version"] = api_version
+        call_kwargs["binding"] = binding or "openai"
+    # Retry logic for streaming (retry on connection errors)
+    last_exception = None
+    delay = retry_delay
+    for attempt in range(max_retries + 1):
+        try:
+            # Route to appropriate provider
+            if use_local:
+                async for chunk in local_provider.stream(**call_kwargs):
+                    yield chunk
+            else:
+                async for chunk in cloud_provider.stream(**call_kwargs):
+                    yield chunk
+            # If we get here, streaming completed successfully
+            return
+        except Exception as e:
+            last_exception = e
+            # Check if we should retry
+            if attempt >= max_retries or not _is_retriable_error(e):
+                raise
+            # Calculate delay for next attempt
+            if exponential_backoff:
+                current_delay = delay * (2**attempt)
+            else:
+                current_delay = delay
+            # Special handling for rate limit errors with retry_after
+            if isinstance(e, LLMRateLimitError) and e.retry_after:
+                current_delay = max(current_delay, e.retry_after)
+            # Wait before retrying
+            await asyncio.sleep(current_delay)
+    # Should not reach here, but just in case
+    if last_exception:
+        raise last_exception
+async def fetch_models(
+    binding: str,
+    base_url: str,
+    api_key: Optional[str] = None,
+) -> List[str]:
+    """
+    Fetch available models from the provider.
+    Routes to cloud_provider or local_provider based on URL.
+    Args:
+        binding: Provider type (openai, ollama, etc.)
+        base_url: API endpoint URL
+        api_key: API key (optional for local providers)
+    Returns:
+        List of available model names
+    """
+    if is_local_llm_server(base_url):
+        return await local_provider.fetch_models(base_url, api_key)
+    else:
+        return await cloud_provider.fetch_models(base_url, api_key, binding)
+# API Provider Presets
+API_PROVIDER_PRESETS = {
+    "openai": {
+        "name": "OpenAI",
+        "base_url": "https://api.openai.com/v1",
+        "requires_key": True,
+        "models": ["gpt-4o", "gpt-4o-mini", "gpt-4-turbo", "gpt-3.5-turbo"],
+    },
+    "anthropic": {
+        "name": "Anthropic",
+        "base_url": "https://api.anthropic.com/v1",
+        "requires_key": True,
+        "binding": "anthropic",
+        "models": ["claude-3-5-sonnet-20241022", "claude-3-haiku-20240307"],
+    },
+    "deepseek": {
+        "name": "DeepSeek",
+        "base_url": "https://api.deepseek.com",
+        "requires_key": True,
+        "models": ["deepseek-chat", "deepseek-reasoner"],
+    },
+    "openrouter": {
+        "name": "OpenRouter",
+        "base_url": "https://openrouter.ai/api/v1",
+        "requires_key": True,
+        "models": [],  # Dynamic
+    },
+}
+# Local Provider Presets
+LOCAL_PROVIDER_PRESETS = {
+    "ollama": {
+        "name": "Ollama",
+        "base_url": "http://localhost:11434/v1",
+        "requires_key": False,
+        "default_key": "ollama",
+    },
+    "lm_studio": {
+        "name": "LM Studio",
+        "base_url": "http://localhost:1234/v1",
+        "requires_key": False,
+        "default_key": "lm-studio",
+    },
+    "vllm": {
+        "name": "vLLM",
+        "base_url": "http://localhost:8000/v1",
+        "requires_key": False,
+        "default_key": "vllm",
+    },
+    "llama_cpp": {
+        "name": "llama.cpp",
+        "base_url": "http://localhost:8080/v1",
+        "requires_key": False,
+        "default_key": "llama-cpp",
+    },
+}
+def get_provider_presets() -> Dict[str, Any]:
+    """
+    Get all provider presets for frontend display.
+    """
+    return {
+        "api": API_PROVIDER_PRESETS,
+        "local": LOCAL_PROVIDER_PRESETS,
+    }
+__all__ = [
+    "complete",
+    "stream",
+    "fetch_models",
+    "get_provider_presets",
+    "API_PROVIDER_PRESETS",
+    "LOCAL_PROVIDER_PRESETS",
+    # Retry configuration defaults
+    "DEFAULT_MAX_RETRIES",
+    "DEFAULT_RETRY_DELAY",
+    "DEFAULT_EXPONENTIAL_BACKOFF",
+]