PyPI - realtimex-deeptutor - Versions diffs - 0.5.0.post1__py3-none-any.whl - Mend

realtimex-deeptutor 0.5.0.post1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (276) hide show

realtimex_deeptutor/__init__.py +67 -0
realtimex_deeptutor-0.5.0.post1.dist-info/METADATA +1612 -0
realtimex_deeptutor-0.5.0.post1.dist-info/RECORD +276 -0
realtimex_deeptutor-0.5.0.post1.dist-info/WHEEL +5 -0
realtimex_deeptutor-0.5.0.post1.dist-info/entry_points.txt +2 -0
realtimex_deeptutor-0.5.0.post1.dist-info/licenses/LICENSE +661 -0
realtimex_deeptutor-0.5.0.post1.dist-info/top_level.txt +2 -0
src/__init__.py +40 -0
src/agents/__init__.py +24 -0
src/agents/base_agent.py +657 -0
src/agents/chat/__init__.py +24 -0
src/agents/chat/chat_agent.py +435 -0
src/agents/chat/prompts/en/chat_agent.yaml +35 -0
src/agents/chat/prompts/zh/chat_agent.yaml +35 -0
src/agents/chat/session_manager.py +311 -0
src/agents/co_writer/__init__.py +0 -0
src/agents/co_writer/edit_agent.py +260 -0
src/agents/co_writer/narrator_agent.py +423 -0
src/agents/co_writer/prompts/en/edit_agent.yaml +113 -0
src/agents/co_writer/prompts/en/narrator_agent.yaml +88 -0
src/agents/co_writer/prompts/zh/edit_agent.yaml +113 -0
src/agents/co_writer/prompts/zh/narrator_agent.yaml +88 -0
src/agents/guide/__init__.py +16 -0
src/agents/guide/agents/__init__.py +11 -0
src/agents/guide/agents/chat_agent.py +104 -0
src/agents/guide/agents/interactive_agent.py +223 -0
src/agents/guide/agents/locate_agent.py +149 -0
src/agents/guide/agents/summary_agent.py +150 -0
src/agents/guide/guide_manager.py +500 -0
src/agents/guide/prompts/en/chat_agent.yaml +41 -0
src/agents/guide/prompts/en/interactive_agent.yaml +202 -0
src/agents/guide/prompts/en/locate_agent.yaml +68 -0
src/agents/guide/prompts/en/summary_agent.yaml +157 -0
src/agents/guide/prompts/zh/chat_agent.yaml +41 -0
src/agents/guide/prompts/zh/interactive_agent.yaml +626 -0
src/agents/guide/prompts/zh/locate_agent.yaml +68 -0
src/agents/guide/prompts/zh/summary_agent.yaml +157 -0
src/agents/ideagen/__init__.py +12 -0
src/agents/ideagen/idea_generation_workflow.py +426 -0
src/agents/ideagen/material_organizer_agent.py +173 -0
src/agents/ideagen/prompts/en/idea_generation.yaml +187 -0
src/agents/ideagen/prompts/en/material_organizer.yaml +69 -0
src/agents/ideagen/prompts/zh/idea_generation.yaml +187 -0
src/agents/ideagen/prompts/zh/material_organizer.yaml +69 -0
src/agents/question/__init__.py +24 -0
src/agents/question/agents/__init__.py +18 -0
src/agents/question/agents/generate_agent.py +381 -0
src/agents/question/agents/relevance_analyzer.py +207 -0
src/agents/question/agents/retrieve_agent.py +239 -0
src/agents/question/coordinator.py +718 -0
src/agents/question/example.py +109 -0
src/agents/question/prompts/en/coordinator.yaml +75 -0
src/agents/question/prompts/en/generate_agent.yaml +77 -0
src/agents/question/prompts/en/relevance_analyzer.yaml +41 -0
src/agents/question/prompts/en/retrieve_agent.yaml +32 -0
src/agents/question/prompts/zh/coordinator.yaml +75 -0
src/agents/question/prompts/zh/generate_agent.yaml +77 -0
src/agents/question/prompts/zh/relevance_analyzer.yaml +39 -0
src/agents/question/prompts/zh/retrieve_agent.yaml +30 -0
src/agents/research/agents/__init__.py +23 -0
src/agents/research/agents/decompose_agent.py +507 -0
src/agents/research/agents/manager_agent.py +228 -0
src/agents/research/agents/note_agent.py +180 -0
src/agents/research/agents/rephrase_agent.py +263 -0
src/agents/research/agents/reporting_agent.py +1333 -0
src/agents/research/agents/research_agent.py +714 -0
src/agents/research/data_structures.py +451 -0
src/agents/research/main.py +188 -0
src/agents/research/prompts/en/decompose_agent.yaml +89 -0
src/agents/research/prompts/en/manager_agent.yaml +24 -0
src/agents/research/prompts/en/note_agent.yaml +121 -0
src/agents/research/prompts/en/rephrase_agent.yaml +58 -0
src/agents/research/prompts/en/reporting_agent.yaml +380 -0
src/agents/research/prompts/en/research_agent.yaml +173 -0
src/agents/research/prompts/zh/decompose_agent.yaml +89 -0
src/agents/research/prompts/zh/manager_agent.yaml +24 -0
src/agents/research/prompts/zh/note_agent.yaml +121 -0
src/agents/research/prompts/zh/rephrase_agent.yaml +58 -0
src/agents/research/prompts/zh/reporting_agent.yaml +380 -0
src/agents/research/prompts/zh/research_agent.yaml +173 -0
src/agents/research/research_pipeline.py +1309 -0
src/agents/research/utils/__init__.py +60 -0
src/agents/research/utils/citation_manager.py +799 -0
src/agents/research/utils/json_utils.py +98 -0
src/agents/research/utils/token_tracker.py +297 -0
src/agents/solve/__init__.py +80 -0
src/agents/solve/analysis_loop/__init__.py +14 -0
src/agents/solve/analysis_loop/investigate_agent.py +414 -0
src/agents/solve/analysis_loop/note_agent.py +190 -0
src/agents/solve/main_solver.py +862 -0
src/agents/solve/memory/__init__.py +34 -0
src/agents/solve/memory/citation_memory.py +353 -0
src/agents/solve/memory/investigate_memory.py +226 -0
src/agents/solve/memory/solve_memory.py +340 -0
src/agents/solve/prompts/en/analysis_loop/investigate_agent.yaml +55 -0
src/agents/solve/prompts/en/analysis_loop/note_agent.yaml +54 -0
src/agents/solve/prompts/en/solve_loop/manager_agent.yaml +67 -0
src/agents/solve/prompts/en/solve_loop/precision_answer_agent.yaml +62 -0
src/agents/solve/prompts/en/solve_loop/response_agent.yaml +90 -0
src/agents/solve/prompts/en/solve_loop/solve_agent.yaml +75 -0
src/agents/solve/prompts/en/solve_loop/tool_agent.yaml +38 -0
src/agents/solve/prompts/zh/analysis_loop/investigate_agent.yaml +53 -0
src/agents/solve/prompts/zh/analysis_loop/note_agent.yaml +54 -0
src/agents/solve/prompts/zh/solve_loop/manager_agent.yaml +66 -0
src/agents/solve/prompts/zh/solve_loop/precision_answer_agent.yaml +62 -0
src/agents/solve/prompts/zh/solve_loop/response_agent.yaml +90 -0
src/agents/solve/prompts/zh/solve_loop/solve_agent.yaml +76 -0
src/agents/solve/prompts/zh/solve_loop/tool_agent.yaml +41 -0
src/agents/solve/solve_loop/__init__.py +22 -0
src/agents/solve/solve_loop/citation_manager.py +74 -0
src/agents/solve/solve_loop/manager_agent.py +274 -0
src/agents/solve/solve_loop/precision_answer_agent.py +96 -0
src/agents/solve/solve_loop/response_agent.py +301 -0
src/agents/solve/solve_loop/solve_agent.py +325 -0
src/agents/solve/solve_loop/tool_agent.py +470 -0
src/agents/solve/utils/__init__.py +64 -0
src/agents/solve/utils/config_validator.py +313 -0
src/agents/solve/utils/display_manager.py +223 -0
src/agents/solve/utils/error_handler.py +363 -0
src/agents/solve/utils/json_utils.py +98 -0
src/agents/solve/utils/performance_monitor.py +407 -0
src/agents/solve/utils/token_tracker.py +541 -0
src/api/__init__.py +0 -0
src/api/main.py +240 -0
src/api/routers/__init__.py +1 -0
src/api/routers/agent_config.py +69 -0
src/api/routers/chat.py +296 -0
src/api/routers/co_writer.py +337 -0
src/api/routers/config.py +627 -0
src/api/routers/dashboard.py +18 -0
src/api/routers/guide.py +337 -0
src/api/routers/ideagen.py +436 -0
src/api/routers/knowledge.py +821 -0
src/api/routers/notebook.py +247 -0
src/api/routers/question.py +537 -0
src/api/routers/research.py +394 -0
src/api/routers/settings.py +164 -0
src/api/routers/solve.py +305 -0
src/api/routers/system.py +252 -0
src/api/run_server.py +61 -0
src/api/utils/history.py +172 -0
src/api/utils/log_interceptor.py +21 -0
src/api/utils/notebook_manager.py +415 -0
src/api/utils/progress_broadcaster.py +72 -0
src/api/utils/task_id_manager.py +100 -0
src/config/__init__.py +0 -0
src/config/accessors.py +18 -0
src/config/constants.py +34 -0
src/config/defaults.py +18 -0
src/config/schema.py +38 -0
src/config/settings.py +50 -0
src/core/errors.py +62 -0
src/knowledge/__init__.py +23 -0
src/knowledge/add_documents.py +606 -0
src/knowledge/config.py +65 -0
src/knowledge/example_add_documents.py +236 -0
src/knowledge/extract_numbered_items.py +1039 -0
src/knowledge/initializer.py +621 -0
src/knowledge/kb.py +22 -0
src/knowledge/manager.py +782 -0
src/knowledge/progress_tracker.py +182 -0
src/knowledge/start_kb.py +535 -0
src/logging/__init__.py +103 -0
src/logging/adapters/__init__.py +17 -0
src/logging/adapters/lightrag.py +184 -0
src/logging/adapters/llamaindex.py +141 -0
src/logging/config.py +80 -0
src/logging/handlers/__init__.py +20 -0
src/logging/handlers/console.py +75 -0
src/logging/handlers/file.py +201 -0
src/logging/handlers/websocket.py +127 -0
src/logging/logger.py +709 -0
src/logging/stats/__init__.py +16 -0
src/logging/stats/llm_stats.py +179 -0
src/services/__init__.py +56 -0
src/services/config/__init__.py +61 -0
src/services/config/knowledge_base_config.py +210 -0
src/services/config/loader.py +260 -0
src/services/config/unified_config.py +603 -0
src/services/embedding/__init__.py +45 -0
src/services/embedding/adapters/__init__.py +22 -0
src/services/embedding/adapters/base.py +106 -0
src/services/embedding/adapters/cohere.py +127 -0
src/services/embedding/adapters/jina.py +99 -0
src/services/embedding/adapters/ollama.py +116 -0
src/services/embedding/adapters/openai_compatible.py +96 -0
src/services/embedding/client.py +159 -0
src/services/embedding/config.py +156 -0
src/services/embedding/provider.py +119 -0
src/services/llm/__init__.py +152 -0
src/services/llm/capabilities.py +313 -0
src/services/llm/client.py +302 -0
src/services/llm/cloud_provider.py +530 -0
src/services/llm/config.py +200 -0
src/services/llm/error_mapping.py +103 -0
src/services/llm/exceptions.py +152 -0
src/services/llm/factory.py +450 -0
src/services/llm/local_provider.py +347 -0
src/services/llm/providers/anthropic.py +95 -0
src/services/llm/providers/base_provider.py +93 -0
src/services/llm/providers/open_ai.py +83 -0
src/services/llm/registry.py +71 -0
src/services/llm/telemetry.py +40 -0
src/services/llm/types.py +27 -0
src/services/llm/utils.py +333 -0
src/services/prompt/__init__.py +25 -0
src/services/prompt/manager.py +206 -0
src/services/rag/__init__.py +64 -0
src/services/rag/components/__init__.py +29 -0
src/services/rag/components/base.py +59 -0
src/services/rag/components/chunkers/__init__.py +18 -0
src/services/rag/components/chunkers/base.py +34 -0
src/services/rag/components/chunkers/fixed.py +71 -0
src/services/rag/components/chunkers/numbered_item.py +94 -0
src/services/rag/components/chunkers/semantic.py +97 -0
src/services/rag/components/embedders/__init__.py +14 -0
src/services/rag/components/embedders/base.py +32 -0
src/services/rag/components/embedders/openai.py +63 -0
src/services/rag/components/indexers/__init__.py +18 -0
src/services/rag/components/indexers/base.py +35 -0
src/services/rag/components/indexers/graph.py +172 -0
src/services/rag/components/indexers/lightrag.py +156 -0
src/services/rag/components/indexers/vector.py +146 -0
src/services/rag/components/parsers/__init__.py +18 -0
src/services/rag/components/parsers/base.py +35 -0
src/services/rag/components/parsers/markdown.py +52 -0
src/services/rag/components/parsers/pdf.py +115 -0
src/services/rag/components/parsers/text.py +86 -0
src/services/rag/components/retrievers/__init__.py +18 -0
src/services/rag/components/retrievers/base.py +34 -0
src/services/rag/components/retrievers/dense.py +200 -0
src/services/rag/components/retrievers/hybrid.py +164 -0
src/services/rag/components/retrievers/lightrag.py +169 -0
src/services/rag/components/routing.py +286 -0
src/services/rag/factory.py +234 -0
src/services/rag/pipeline.py +215 -0
src/services/rag/pipelines/__init__.py +32 -0
src/services/rag/pipelines/academic.py +44 -0
src/services/rag/pipelines/lightrag.py +43 -0
src/services/rag/pipelines/llamaindex.py +313 -0
src/services/rag/pipelines/raganything.py +384 -0
src/services/rag/service.py +244 -0
src/services/rag/types.py +73 -0
src/services/search/__init__.py +284 -0
src/services/search/base.py +87 -0
src/services/search/consolidation.py +398 -0
src/services/search/providers/__init__.py +128 -0
src/services/search/providers/baidu.py +188 -0
src/services/search/providers/exa.py +194 -0
src/services/search/providers/jina.py +161 -0
src/services/search/providers/perplexity.py +153 -0
src/services/search/providers/serper.py +209 -0
src/services/search/providers/tavily.py +161 -0
src/services/search/types.py +114 -0
src/services/setup/__init__.py +34 -0
src/services/setup/init.py +285 -0
src/services/tts/__init__.py +16 -0
src/services/tts/config.py +99 -0
src/tools/__init__.py +91 -0
src/tools/code_executor.py +536 -0
src/tools/paper_search_tool.py +171 -0
src/tools/query_item_tool.py +310 -0
src/tools/question/__init__.py +15 -0
src/tools/question/exam_mimic.py +616 -0
src/tools/question/pdf_parser.py +211 -0
src/tools/question/question_extractor.py +397 -0
src/tools/rag_tool.py +173 -0
src/tools/tex_chunker.py +339 -0
src/tools/tex_downloader.py +253 -0
src/tools/web_search.py +71 -0
src/utils/config_manager.py +206 -0
src/utils/document_validator.py +168 -0
src/utils/error_rate_tracker.py +111 -0
src/utils/error_utils.py +82 -0
src/utils/json_parser.py +110 -0
src/utils/network/circuit_breaker.py +79 -0

src/services/rag/components/indexers/graph.py ADDED Viewed

@@ -0,0 +1,172 @@
+"""
+Graph Indexer
+=============
+Knowledge graph indexer using LightRAG.
+"""
+from pathlib import Path
+import sys
+from typing import Dict, List, Optional
+from ...types import Document
+from ..base import BaseComponent
+class GraphIndexer(BaseComponent):
+    """
+    Knowledge graph indexer using LightRAG.
+    Builds a knowledge graph from documents for graph-based retrieval.
+    """
+    name = "graph_indexer"
+    _instances: Dict[str, any] = {}  # Cache RAG instances
+    def __init__(self, kb_base_dir: Optional[str] = None):
+        """
+        Initialize graph indexer.
+        Args:
+            kb_base_dir: Base directory for knowledge bases
+        """
+        super().__init__()
+        self.kb_base_dir = kb_base_dir or str(
+            Path(__file__).resolve().parent.parent.parent.parent.parent.parent
+            / "data"
+            / "knowledge_bases"
+        )
+    def _get_rag_instance(self, kb_name: str):
+        """Get or create a RAGAnything instance."""
+        working_dir = str(Path(self.kb_base_dir) / kb_name / "rag_storage")
+        if working_dir in self._instances:
+            return self._instances[working_dir]
+        # Add RAG-Anything path
+        project_root = Path(__file__).resolve().parent.parent.parent.parent.parent.parent
+        raganything_path = project_root.parent / "raganything" / "RAG-Anything"
+        if raganything_path.exists() and str(raganything_path) not in sys.path:
+            sys.path.insert(0, str(raganything_path))
+        try:
+            from openai import AsyncOpenAI
+            from raganything import RAGAnything, RAGAnythingConfig
+            from src.services.embedding import get_embedding_client
+            from src.services.llm import get_llm_client
+            llm_client = get_llm_client()
+            embed_client = get_embedding_client()
+            # Create AsyncOpenAI client directly
+            openai_client = AsyncOpenAI(
+                api_key=llm_client.config.api_key,
+                base_url=llm_client.config.base_url,
+            )
+            # LLM function using services (ASYNC - LightRAG expects async functions)
+            async def llm_model_func(prompt, system_prompt=None, history_messages=None, **kwargs):
+                """Custom async LLM function that bypasses LightRAG's openai_complete_if_cache."""
+                if history_messages is None:
+                    history_messages = []
+                # Build messages
+                messages = []
+                if system_prompt:
+                    messages.append({"role": "system", "content": system_prompt})
+                messages.extend(history_messages)
+                messages.append({"role": "user", "content": prompt})
+                # Whitelist only valid OpenAI parameters
+                valid_params = {
+                    "temperature",
+                    "top_p",
+                    "n",
+                    "stream",
+                    "stop",
+                    "max_tokens",
+                    "presence_penalty",
+                    "frequency_penalty",
+                    "logit_bias",
+                    "user",
+                    "seed",
+                }
+                clean_kwargs = {k: v for k, v in kwargs.items() if k in valid_params}
+                # Call OpenAI API directly (async)
+                response = await openai_client.chat.completions.create(
+                    model=llm_client.config.model,
+                    messages=messages,
+                    **clean_kwargs,
+                )
+                return response.choices[0].message.content
+            config = RAGAnythingConfig(
+                working_dir=working_dir,
+                enable_image_processing=True,
+                enable_table_processing=True,
+                enable_equation_processing=True,
+            )
+            rag = RAGAnything(
+                config=config,
+                llm_model_func=llm_model_func,
+                embedding_func=embed_client.get_embedding_func(),
+            )
+            self._instances[working_dir] = rag
+            return rag
+        except ImportError as e:
+            self.logger.error(f"Failed to import RAG-Anything: {e}")
+            raise
+    async def process(self, kb_name: str, documents: List[Document], **kwargs) -> bool:
+        """
+        Build knowledge graph from documents.
+        Args:
+            kb_name: Knowledge base name
+            documents: List of documents to index
+            **kwargs: Additional arguments
+        Returns:
+            True if successful
+        """
+        self.logger.info(f"Building knowledge graph for {kb_name}...")
+        from src.logging.adapters import LightRAGLogContext
+        # Use log forwarding context
+        with LightRAGLogContext(scene="indexer"):
+            rag = self._get_rag_instance(kb_name)
+            await rag._ensure_lightrag_initialized()
+            for doc in documents:
+                if doc.content:
+                    # Write content to temporary file
+                    import os
+                    import tempfile
+                    tmp_path = None
+                    try:
+                        with tempfile.NamedTemporaryFile(
+                            mode="w", encoding="utf-8", suffix=".txt", delete=False
+                        ) as tmp_file:
+                            tmp_file.write(doc.content)
+                            tmp_path = tmp_file.name
+                        # Use RAGAnything API
+                        working_dir = str(Path(self.kb_base_dir) / kb_name / "rag_storage")
+                        output_dir = os.path.join(working_dir, "output")
+                        os.makedirs(output_dir, exist_ok=True)
+                        await rag.process_document_complete(tmp_path, output_dir)
+                    finally:
+                        if tmp_path and os.path.exists(tmp_path):
+                            os.unlink(tmp_path)
+        self.logger.info("Knowledge graph built successfully")
+        return True

src/services/rag/components/indexers/lightrag.py ADDED Viewed

@@ -0,0 +1,156 @@
+"""
+LightRAG Indexer
+================
+Pure LightRAG indexer (text-only, no multimodal processing).
+"""
+from pathlib import Path
+import sys
+from typing import Dict, List, Optional
+from ...types import Document
+from ..base import BaseComponent
+class LightRAGIndexer(BaseComponent):
+    """
+    Pure LightRAG knowledge graph indexer (text-only).
+    Uses LightRAG library directly without multimodal processing.
+    Faster than RAGAnything for text-only documents.
+    """
+    name = "lightrag_indexer"
+    _instances: Dict[str, any] = {}  # Cache LightRAG instances
+    def __init__(self, kb_base_dir: Optional[str] = None):
+        """
+        Initialize LightRAG indexer.
+        Args:
+            kb_base_dir: Base directory for knowledge bases
+        """
+        super().__init__()
+        self.kb_base_dir = kb_base_dir or str(
+            Path(__file__).resolve().parent.parent.parent.parent.parent.parent
+            / "data"
+            / "knowledge_bases"
+        )
+    def _get_lightrag_instance(self, kb_name: str):
+        """Get or create a LightRAG instance (text-only)."""
+        working_dir = str(Path(self.kb_base_dir) / kb_name / "rag_storage")
+        if working_dir in self._instances:
+            return self._instances[working_dir]
+        # Add LightRAG path
+        project_root = Path(__file__).resolve().parent.parent.parent.parent.parent.parent
+        raganything_path = project_root.parent / "raganything" / "RAG-Anything"
+        if raganything_path.exists() and str(raganything_path) not in sys.path:
+            sys.path.insert(0, str(raganything_path))
+        try:
+            from lightrag import LightRAG
+            from openai import AsyncOpenAI
+            from src.services.embedding import get_embedding_client
+            from src.services.llm import get_llm_client
+            llm_client = get_llm_client()
+            embed_client = get_embedding_client()
+            # Create AsyncOpenAI client directly
+            openai_client = AsyncOpenAI(
+                api_key=llm_client.config.api_key,
+                base_url=llm_client.config.base_url,
+            )
+            # LLM function using services (ASYNC - LightRAG expects async functions)
+            async def llm_model_func(prompt, system_prompt=None, history_messages=None, **kwargs):
+                """Custom async LLM function that bypasses LightRAG's openai_complete_if_cache."""
+                if history_messages is None:
+                    history_messages = []
+                # Build messages
+                messages = []
+                if system_prompt:
+                    messages.append({"role": "system", "content": system_prompt})
+                messages.extend(history_messages)
+                messages.append({"role": "user", "content": prompt})
+                # Whitelist only valid OpenAI parameters
+                valid_params = {
+                    "temperature",
+                    "top_p",
+                    "n",
+                    "stream",
+                    "stop",
+                    "max_tokens",
+                    "presence_penalty",
+                    "frequency_penalty",
+                    "logit_bias",
+                    "user",
+                    "seed",
+                }
+                clean_kwargs = {k: v for k, v in kwargs.items() if k in valid_params}
+                # Call OpenAI API directly (async)
+                response = await openai_client.chat.completions.create(
+                    model=llm_client.config.model,
+                    messages=messages,
+                    **clean_kwargs,
+                )
+                return response.choices[0].message.content
+            # Create pure LightRAG instance (no multimodal)
+            rag = LightRAG(
+                working_dir=working_dir,
+                llm_model_func=llm_model_func,
+                embedding_func=embed_client.get_embedding_func(),  # Use proper EmbeddingFunc object
+            )
+            self._instances[working_dir] = rag
+            return rag
+        except ImportError as e:
+            self.logger.error(f"Failed to import LightRAG: {e}")
+            raise
+    async def process(self, kb_name: str, documents: List[Document], **kwargs) -> bool:
+        """
+        Build knowledge graph from documents (text-only).
+        Args:
+            kb_name: Knowledge base name
+            documents: List of documents to index
+            **kwargs: Additional arguments
+        Returns:
+            True if successful
+        """
+        self.logger.info(f"Building knowledge graph for {kb_name} (text-only)...")
+        from src.logging.adapters import LightRAGLogContext
+        # Use log forwarding context
+        with LightRAGLogContext(scene="LightRAG-Indexer"):
+            rag = self._get_lightrag_instance(kb_name)
+            # Initialize storages (required for LightRAG)
+            await rag.initialize_storages()
+            # Initialize pipeline status (required for document processing)
+            from lightrag.kg.shared_storage import initialize_pipeline_status
+            await initialize_pipeline_status()
+            for doc in documents:
+                if doc.content:
+                    # Use direct LightRAG insert (text-only, fast)
+                    await rag.ainsert(doc.content)
+        self.logger.info("Knowledge graph built successfully (text-only)")
+        return True

src/services/rag/components/indexers/vector.py ADDED Viewed

@@ -0,0 +1,146 @@
+"""
+Vector Indexer
+==============
+Vector-based indexer using dense embeddings with FAISS.
+Provides fast similarity search for RAG retrieval.
+"""
+import json
+from pathlib import Path
+import pickle
+from typing import List, Optional
+import numpy as np
+from ...types import Document
+from ..base import BaseComponent
+class VectorIndexer(BaseComponent):
+    """
+    Vector indexer using FAISS for fast similarity search.
+    Creates and stores vector embeddings for efficient retrieval.
+    Falls back to simple vector storage if FAISS is not available.
+    """
+    name = "vector_indexer"
+    def __init__(self, kb_base_dir: Optional[str] = None):
+        """
+        Initialize vector indexer.
+        Args:
+            kb_base_dir: Base directory for knowledge bases
+        """
+        super().__init__()
+        self.kb_base_dir = kb_base_dir or str(
+            Path(__file__).resolve().parent.parent.parent.parent.parent.parent
+            / "data"
+            / "knowledge_bases"
+        )
+        # Try to import FAISS, fallback to simple storage if not available
+        self.use_faiss = False
+        try:
+            import faiss
+            self.faiss = faiss
+            self.use_faiss = True
+            self.logger.info("Using FAISS for vector indexing")
+        except ImportError:
+            self.logger.warning("FAISS not available, using simple vector storage")
+    async def process(self, kb_name: str, documents: List[Document], **kwargs) -> bool:
+        """
+        Index documents using vector embeddings.
+        Creates FAISS index for fast similarity search or falls back to
+        simple JSON storage if FAISS is unavailable.
+        Args:
+            kb_name: Knowledge base name
+            documents: List of documents to index
+            **kwargs: Additional arguments
+        Returns:
+            True if successful
+        """
+        self.logger.info(f"Indexing {len(documents)} documents into vector store for {kb_name}")
+        # Collect all chunks with embeddings
+        all_chunks = []
+        for doc in documents:
+            for chunk in doc.chunks:
+                # Check if embedding exists (handles numpy arrays and lists)
+                if chunk.embedding is not None and len(chunk.embedding) > 0:
+                    all_chunks.append(chunk)
+        if not all_chunks:
+            self.logger.warning("No chunks with embeddings to index")
+            return False
+        self.logger.info(f"Indexing {len(all_chunks)} chunks")
+        # Create vector store directory
+        kb_dir = Path(self.kb_base_dir) / kb_name / "vector_store"
+        kb_dir.mkdir(parents=True, exist_ok=True)
+        # Convert embeddings to numpy array
+        embeddings = np.array(
+            [
+                chunk.embedding if isinstance(chunk.embedding, list) else chunk.embedding.tolist()
+                for chunk in all_chunks
+            ],
+            dtype=np.float32,
+        )
+        # Store metadata separately
+        metadata = []
+        for i, chunk in enumerate(all_chunks):
+            metadata.append(
+                {
+                    "id": i,
+                    "content": chunk.content,
+                    "type": chunk.chunk_type,
+                    "metadata": chunk.metadata,
+                }
+            )
+        # Save metadata
+        with open(kb_dir / "metadata.json", "w", encoding="utf-8") as f:
+            json.dump(metadata, f, ensure_ascii=False, indent=2)
+        if self.use_faiss:
+            # Create FAISS index for inner product (cosine similarity with normalized vectors)
+            dimension = embeddings.shape[1]
+            index = self.faiss.IndexFlatIP(dimension)  # Inner product for cosine similarity
+            # Normalize vectors for cosine similarity (inner product of normalized vectors = cosine similarity)
+            self.faiss.normalize_L2(embeddings)
+            # Add vectors to index
+            index.add(embeddings)
+            # Save FAISS index
+            self.faiss.write_index(index, str(kb_dir / "index.faiss"))
+            self.logger.info(f"FAISS index saved with {index.ntotal} vectors")
+        else:
+            # Simple storage: save embeddings as pickle
+            with open(kb_dir / "embeddings.pkl", "wb") as f:
+                pickle.dump(embeddings, f)
+            self.logger.info(f"Embeddings saved for {len(all_chunks)} chunks")
+        # Save index info
+        info = {
+            "num_chunks": len(all_chunks),
+            "num_documents": len(documents),
+            "embedding_dim": embeddings.shape[1],
+            "use_faiss": self.use_faiss,
+        }
+        with open(kb_dir / "info.json", "w", encoding="utf-8") as f:
+            json.dump(info, f, indent=2)
+        self.logger.info(f"Vector index saved to {kb_dir}")
+        return True

src/services/rag/components/parsers/__init__.py ADDED Viewed

@@ -0,0 +1,18 @@
+"""
+Document Parsers
+================
+Parsers for extracting content from various document formats.
+"""
+from .base import BaseParser
+from .markdown import MarkdownParser
+from .pdf import PDFParser
+from .text import TextParser
+__all__ = [
+    "BaseParser",
+    "PDFParser",
+    "MarkdownParser",
+    "TextParser",
+]

src/services/rag/components/parsers/base.py ADDED Viewed

@@ -0,0 +1,35 @@
+"""
+Base Parser
+===========
+Base class for document parsers.
+"""
+from pathlib import Path
+from typing import Union
+from ...types import Document
+from ..base import BaseComponent
+class BaseParser(BaseComponent):
+    """
+    Base class for document parsers.
+    Parsers convert raw files into Document objects.
+    """
+    name = "base_parser"
+    async def process(self, file_path: Union[str, Path], **kwargs) -> Document:
+        """
+        Parse a file into a Document.
+        Args:
+            file_path: Path to the file to parse
+            **kwargs: Additional arguments
+        Returns:
+            Parsed Document
+        """
+        raise NotImplementedError("Subclasses must implement process()")

src/services/rag/components/parsers/markdown.py ADDED Viewed

@@ -0,0 +1,52 @@
+"""
+Markdown Parser
+===============
+Parser for Markdown documents.
+"""
+from pathlib import Path
+from typing import Union
+from ...types import Document
+from ..base import BaseComponent
+class MarkdownParser(BaseComponent):
+    """
+    Markdown parser.
+    Parses Markdown files into Document objects.
+    """
+    name = "markdown_parser"
+    async def process(self, file_path: Union[str, Path], **kwargs) -> Document:
+        """
+        Parse a Markdown file into a Document.
+        Args:
+            file_path: Path to the Markdown file
+            **kwargs: Additional arguments
+        Returns:
+            Parsed Document
+        """
+        file_path = Path(file_path)
+        if not file_path.exists():
+            raise FileNotFoundError(f"Markdown file not found: {file_path}")
+        self.logger.info(f"Parsing Markdown: {file_path.name}")
+        with open(file_path, "r", encoding="utf-8") as f:
+            content = f.read()
+        return Document(
+            content=content,
+            file_path=str(file_path),
+            metadata={
+                "filename": file_path.name,
+                "parser": self.name,
+            },
+        )

src/services/rag/components/parsers/pdf.py ADDED Viewed

@@ -0,0 +1,115 @@
+"""
+PDF Parser
+==========
+Parser for PDF documents using MinerU/RAG-Anything.
+"""
+import json
+from pathlib import Path
+from typing import Optional, Union
+from ...types import Document
+from ..base import BaseComponent
+class PDFParser(BaseComponent):
+    """
+    PDF parser using MinerU for extraction.
+    Can use RAG-Anything's MinerU integration or standalone MinerU.
+    """
+    name = "pdf_parser"
+    def __init__(self, use_mineru: bool = True, output_dir: Optional[str] = None):
+        """
+        Initialize PDF parser.
+        Args:
+            use_mineru: Whether to use MinerU for parsing
+            output_dir: Directory to store parsed output
+        """
+        super().__init__()
+        self.use_mineru = use_mineru
+        self.output_dir = output_dir
+    async def process(self, file_path: Union[str, Path], **kwargs) -> Document:
+        """
+        Parse a PDF file into a Document.
+        Args:
+            file_path: Path to the PDF file
+            **kwargs: Additional arguments
+        Returns:
+            Parsed Document with content and content_items
+        """
+        file_path = Path(file_path)
+        if not file_path.exists():
+            raise FileNotFoundError(f"PDF file not found: {file_path}")
+        self.logger.info(f"Parsing PDF: {file_path.name}")
+        # Check for existing parsed content
+        output_dir = Path(kwargs.get("output_dir", self.output_dir or file_path.parent))
+        content_list_file = output_dir / f"{file_path.stem}.json"
+        content_items = []
+        content = ""
+        if content_list_file.exists():
+            # Load existing parsed content
+            self.logger.info(f"Loading existing parsed content from {content_list_file}")
+            with open(content_list_file, "r", encoding="utf-8") as f:
+                content_items = json.load(f)
+            # Extract text content
+            content = self._extract_text_from_content_items(content_items)
+        else:
+            # Parse PDF (placeholder - actual MinerU parsing would happen here)
+            self.logger.warning(
+                "No pre-parsed content found. Use RAGAnythingPipeline for full PDF parsing."
+            )
+            # Basic text extraction fallback
+            content = await self._basic_pdf_extract(file_path)
+        return Document(
+            content=content,
+            file_path=str(file_path),
+            content_items=content_items,
+            metadata={
+                "filename": file_path.name,
+                "parser": self.name,
+            },
+        )
+    def _extract_text_from_content_items(self, content_items: list) -> str:
+        """Extract plain text from MinerU content items."""
+        texts = []
+        for item in content_items:
+            if isinstance(item, dict):
+                if "text" in item:
+                    texts.append(item["text"])
+                elif "content" in item:
+                    texts.append(item["content"])
+        return "\n\n".join(texts)
+    async def _basic_pdf_extract(self, file_path: Path) -> str:
+        """Basic PDF text extraction fallback."""
+        try:
+            import fitz  # PyMuPDF
+            doc = fitz.open(file_path)
+            texts = []
+            for page in doc:
+                texts.append(page.get_text())
+            doc.close()
+            return "\n\n".join(texts)
+        except ImportError:
+            self.logger.warning("PyMuPDF not installed. Cannot extract PDF text.")
+            return ""
+        except Exception as e:
+            self.logger.error(f"Failed to extract PDF text: {e}")
+            return ""