PyPI - realtimex-deeptutor - Versions diffs - 0.5.0.post1__py3-none-any.whl - Mend

realtimex-deeptutor 0.5.0.post1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (276) hide show

realtimex_deeptutor/__init__.py +67 -0
realtimex_deeptutor-0.5.0.post1.dist-info/METADATA +1612 -0
realtimex_deeptutor-0.5.0.post1.dist-info/RECORD +276 -0
realtimex_deeptutor-0.5.0.post1.dist-info/WHEEL +5 -0
realtimex_deeptutor-0.5.0.post1.dist-info/entry_points.txt +2 -0
realtimex_deeptutor-0.5.0.post1.dist-info/licenses/LICENSE +661 -0
realtimex_deeptutor-0.5.0.post1.dist-info/top_level.txt +2 -0
src/__init__.py +40 -0
src/agents/__init__.py +24 -0
src/agents/base_agent.py +657 -0
src/agents/chat/__init__.py +24 -0
src/agents/chat/chat_agent.py +435 -0
src/agents/chat/prompts/en/chat_agent.yaml +35 -0
src/agents/chat/prompts/zh/chat_agent.yaml +35 -0
src/agents/chat/session_manager.py +311 -0
src/agents/co_writer/__init__.py +0 -0
src/agents/co_writer/edit_agent.py +260 -0
src/agents/co_writer/narrator_agent.py +423 -0
src/agents/co_writer/prompts/en/edit_agent.yaml +113 -0
src/agents/co_writer/prompts/en/narrator_agent.yaml +88 -0
src/agents/co_writer/prompts/zh/edit_agent.yaml +113 -0
src/agents/co_writer/prompts/zh/narrator_agent.yaml +88 -0
src/agents/guide/__init__.py +16 -0
src/agents/guide/agents/__init__.py +11 -0
src/agents/guide/agents/chat_agent.py +104 -0
src/agents/guide/agents/interactive_agent.py +223 -0
src/agents/guide/agents/locate_agent.py +149 -0
src/agents/guide/agents/summary_agent.py +150 -0
src/agents/guide/guide_manager.py +500 -0
src/agents/guide/prompts/en/chat_agent.yaml +41 -0
src/agents/guide/prompts/en/interactive_agent.yaml +202 -0
src/agents/guide/prompts/en/locate_agent.yaml +68 -0
src/agents/guide/prompts/en/summary_agent.yaml +157 -0
src/agents/guide/prompts/zh/chat_agent.yaml +41 -0
src/agents/guide/prompts/zh/interactive_agent.yaml +626 -0
src/agents/guide/prompts/zh/locate_agent.yaml +68 -0
src/agents/guide/prompts/zh/summary_agent.yaml +157 -0
src/agents/ideagen/__init__.py +12 -0
src/agents/ideagen/idea_generation_workflow.py +426 -0
src/agents/ideagen/material_organizer_agent.py +173 -0
src/agents/ideagen/prompts/en/idea_generation.yaml +187 -0
src/agents/ideagen/prompts/en/material_organizer.yaml +69 -0
src/agents/ideagen/prompts/zh/idea_generation.yaml +187 -0
src/agents/ideagen/prompts/zh/material_organizer.yaml +69 -0
src/agents/question/__init__.py +24 -0
src/agents/question/agents/__init__.py +18 -0
src/agents/question/agents/generate_agent.py +381 -0
src/agents/question/agents/relevance_analyzer.py +207 -0
src/agents/question/agents/retrieve_agent.py +239 -0
src/agents/question/coordinator.py +718 -0
src/agents/question/example.py +109 -0
src/agents/question/prompts/en/coordinator.yaml +75 -0
src/agents/question/prompts/en/generate_agent.yaml +77 -0
src/agents/question/prompts/en/relevance_analyzer.yaml +41 -0
src/agents/question/prompts/en/retrieve_agent.yaml +32 -0
src/agents/question/prompts/zh/coordinator.yaml +75 -0
src/agents/question/prompts/zh/generate_agent.yaml +77 -0
src/agents/question/prompts/zh/relevance_analyzer.yaml +39 -0
src/agents/question/prompts/zh/retrieve_agent.yaml +30 -0
src/agents/research/agents/__init__.py +23 -0
src/agents/research/agents/decompose_agent.py +507 -0
src/agents/research/agents/manager_agent.py +228 -0
src/agents/research/agents/note_agent.py +180 -0
src/agents/research/agents/rephrase_agent.py +263 -0
src/agents/research/agents/reporting_agent.py +1333 -0
src/agents/research/agents/research_agent.py +714 -0
src/agents/research/data_structures.py +451 -0
src/agents/research/main.py +188 -0
src/agents/research/prompts/en/decompose_agent.yaml +89 -0
src/agents/research/prompts/en/manager_agent.yaml +24 -0
src/agents/research/prompts/en/note_agent.yaml +121 -0
src/agents/research/prompts/en/rephrase_agent.yaml +58 -0
src/agents/research/prompts/en/reporting_agent.yaml +380 -0
src/agents/research/prompts/en/research_agent.yaml +173 -0
src/agents/research/prompts/zh/decompose_agent.yaml +89 -0
src/agents/research/prompts/zh/manager_agent.yaml +24 -0
src/agents/research/prompts/zh/note_agent.yaml +121 -0
src/agents/research/prompts/zh/rephrase_agent.yaml +58 -0
src/agents/research/prompts/zh/reporting_agent.yaml +380 -0
src/agents/research/prompts/zh/research_agent.yaml +173 -0
src/agents/research/research_pipeline.py +1309 -0
src/agents/research/utils/__init__.py +60 -0
src/agents/research/utils/citation_manager.py +799 -0
src/agents/research/utils/json_utils.py +98 -0
src/agents/research/utils/token_tracker.py +297 -0
src/agents/solve/__init__.py +80 -0
src/agents/solve/analysis_loop/__init__.py +14 -0
src/agents/solve/analysis_loop/investigate_agent.py +414 -0
src/agents/solve/analysis_loop/note_agent.py +190 -0
src/agents/solve/main_solver.py +862 -0
src/agents/solve/memory/__init__.py +34 -0
src/agents/solve/memory/citation_memory.py +353 -0
src/agents/solve/memory/investigate_memory.py +226 -0
src/agents/solve/memory/solve_memory.py +340 -0
src/agents/solve/prompts/en/analysis_loop/investigate_agent.yaml +55 -0
src/agents/solve/prompts/en/analysis_loop/note_agent.yaml +54 -0
src/agents/solve/prompts/en/solve_loop/manager_agent.yaml +67 -0
src/agents/solve/prompts/en/solve_loop/precision_answer_agent.yaml +62 -0
src/agents/solve/prompts/en/solve_loop/response_agent.yaml +90 -0
src/agents/solve/prompts/en/solve_loop/solve_agent.yaml +75 -0
src/agents/solve/prompts/en/solve_loop/tool_agent.yaml +38 -0
src/agents/solve/prompts/zh/analysis_loop/investigate_agent.yaml +53 -0
src/agents/solve/prompts/zh/analysis_loop/note_agent.yaml +54 -0
src/agents/solve/prompts/zh/solve_loop/manager_agent.yaml +66 -0
src/agents/solve/prompts/zh/solve_loop/precision_answer_agent.yaml +62 -0
src/agents/solve/prompts/zh/solve_loop/response_agent.yaml +90 -0
src/agents/solve/prompts/zh/solve_loop/solve_agent.yaml +76 -0
src/agents/solve/prompts/zh/solve_loop/tool_agent.yaml +41 -0
src/agents/solve/solve_loop/__init__.py +22 -0
src/agents/solve/solve_loop/citation_manager.py +74 -0
src/agents/solve/solve_loop/manager_agent.py +274 -0
src/agents/solve/solve_loop/precision_answer_agent.py +96 -0
src/agents/solve/solve_loop/response_agent.py +301 -0
src/agents/solve/solve_loop/solve_agent.py +325 -0
src/agents/solve/solve_loop/tool_agent.py +470 -0
src/agents/solve/utils/__init__.py +64 -0
src/agents/solve/utils/config_validator.py +313 -0
src/agents/solve/utils/display_manager.py +223 -0
src/agents/solve/utils/error_handler.py +363 -0
src/agents/solve/utils/json_utils.py +98 -0
src/agents/solve/utils/performance_monitor.py +407 -0
src/agents/solve/utils/token_tracker.py +541 -0
src/api/__init__.py +0 -0
src/api/main.py +240 -0
src/api/routers/__init__.py +1 -0
src/api/routers/agent_config.py +69 -0
src/api/routers/chat.py +296 -0
src/api/routers/co_writer.py +337 -0
src/api/routers/config.py +627 -0
src/api/routers/dashboard.py +18 -0
src/api/routers/guide.py +337 -0
src/api/routers/ideagen.py +436 -0
src/api/routers/knowledge.py +821 -0
src/api/routers/notebook.py +247 -0
src/api/routers/question.py +537 -0
src/api/routers/research.py +394 -0
src/api/routers/settings.py +164 -0
src/api/routers/solve.py +305 -0
src/api/routers/system.py +252 -0
src/api/run_server.py +61 -0
src/api/utils/history.py +172 -0
src/api/utils/log_interceptor.py +21 -0
src/api/utils/notebook_manager.py +415 -0
src/api/utils/progress_broadcaster.py +72 -0
src/api/utils/task_id_manager.py +100 -0
src/config/__init__.py +0 -0
src/config/accessors.py +18 -0
src/config/constants.py +34 -0
src/config/defaults.py +18 -0
src/config/schema.py +38 -0
src/config/settings.py +50 -0
src/core/errors.py +62 -0
src/knowledge/__init__.py +23 -0
src/knowledge/add_documents.py +606 -0
src/knowledge/config.py +65 -0
src/knowledge/example_add_documents.py +236 -0
src/knowledge/extract_numbered_items.py +1039 -0
src/knowledge/initializer.py +621 -0
src/knowledge/kb.py +22 -0
src/knowledge/manager.py +782 -0
src/knowledge/progress_tracker.py +182 -0
src/knowledge/start_kb.py +535 -0
src/logging/__init__.py +103 -0
src/logging/adapters/__init__.py +17 -0
src/logging/adapters/lightrag.py +184 -0
src/logging/adapters/llamaindex.py +141 -0
src/logging/config.py +80 -0
src/logging/handlers/__init__.py +20 -0
src/logging/handlers/console.py +75 -0
src/logging/handlers/file.py +201 -0
src/logging/handlers/websocket.py +127 -0
src/logging/logger.py +709 -0
src/logging/stats/__init__.py +16 -0
src/logging/stats/llm_stats.py +179 -0
src/services/__init__.py +56 -0
src/services/config/__init__.py +61 -0
src/services/config/knowledge_base_config.py +210 -0
src/services/config/loader.py +260 -0
src/services/config/unified_config.py +603 -0
src/services/embedding/__init__.py +45 -0
src/services/embedding/adapters/__init__.py +22 -0
src/services/embedding/adapters/base.py +106 -0
src/services/embedding/adapters/cohere.py +127 -0
src/services/embedding/adapters/jina.py +99 -0
src/services/embedding/adapters/ollama.py +116 -0
src/services/embedding/adapters/openai_compatible.py +96 -0
src/services/embedding/client.py +159 -0
src/services/embedding/config.py +156 -0
src/services/embedding/provider.py +119 -0
src/services/llm/__init__.py +152 -0
src/services/llm/capabilities.py +313 -0
src/services/llm/client.py +302 -0
src/services/llm/cloud_provider.py +530 -0
src/services/llm/config.py +200 -0
src/services/llm/error_mapping.py +103 -0
src/services/llm/exceptions.py +152 -0
src/services/llm/factory.py +450 -0
src/services/llm/local_provider.py +347 -0
src/services/llm/providers/anthropic.py +95 -0
src/services/llm/providers/base_provider.py +93 -0
src/services/llm/providers/open_ai.py +83 -0
src/services/llm/registry.py +71 -0
src/services/llm/telemetry.py +40 -0
src/services/llm/types.py +27 -0
src/services/llm/utils.py +333 -0
src/services/prompt/__init__.py +25 -0
src/services/prompt/manager.py +206 -0
src/services/rag/__init__.py +64 -0
src/services/rag/components/__init__.py +29 -0
src/services/rag/components/base.py +59 -0
src/services/rag/components/chunkers/__init__.py +18 -0
src/services/rag/components/chunkers/base.py +34 -0
src/services/rag/components/chunkers/fixed.py +71 -0
src/services/rag/components/chunkers/numbered_item.py +94 -0
src/services/rag/components/chunkers/semantic.py +97 -0
src/services/rag/components/embedders/__init__.py +14 -0
src/services/rag/components/embedders/base.py +32 -0
src/services/rag/components/embedders/openai.py +63 -0
src/services/rag/components/indexers/__init__.py +18 -0
src/services/rag/components/indexers/base.py +35 -0
src/services/rag/components/indexers/graph.py +172 -0
src/services/rag/components/indexers/lightrag.py +156 -0
src/services/rag/components/indexers/vector.py +146 -0
src/services/rag/components/parsers/__init__.py +18 -0
src/services/rag/components/parsers/base.py +35 -0
src/services/rag/components/parsers/markdown.py +52 -0
src/services/rag/components/parsers/pdf.py +115 -0
src/services/rag/components/parsers/text.py +86 -0
src/services/rag/components/retrievers/__init__.py +18 -0
src/services/rag/components/retrievers/base.py +34 -0
src/services/rag/components/retrievers/dense.py +200 -0
src/services/rag/components/retrievers/hybrid.py +164 -0
src/services/rag/components/retrievers/lightrag.py +169 -0
src/services/rag/components/routing.py +286 -0
src/services/rag/factory.py +234 -0
src/services/rag/pipeline.py +215 -0
src/services/rag/pipelines/__init__.py +32 -0
src/services/rag/pipelines/academic.py +44 -0
src/services/rag/pipelines/lightrag.py +43 -0
src/services/rag/pipelines/llamaindex.py +313 -0
src/services/rag/pipelines/raganything.py +384 -0
src/services/rag/service.py +244 -0
src/services/rag/types.py +73 -0
src/services/search/__init__.py +284 -0
src/services/search/base.py +87 -0
src/services/search/consolidation.py +398 -0
src/services/search/providers/__init__.py +128 -0
src/services/search/providers/baidu.py +188 -0
src/services/search/providers/exa.py +194 -0
src/services/search/providers/jina.py +161 -0
src/services/search/providers/perplexity.py +153 -0
src/services/search/providers/serper.py +209 -0
src/services/search/providers/tavily.py +161 -0
src/services/search/types.py +114 -0
src/services/setup/__init__.py +34 -0
src/services/setup/init.py +285 -0
src/services/tts/__init__.py +16 -0
src/services/tts/config.py +99 -0
src/tools/__init__.py +91 -0
src/tools/code_executor.py +536 -0
src/tools/paper_search_tool.py +171 -0
src/tools/query_item_tool.py +310 -0
src/tools/question/__init__.py +15 -0
src/tools/question/exam_mimic.py +616 -0
src/tools/question/pdf_parser.py +211 -0
src/tools/question/question_extractor.py +397 -0
src/tools/rag_tool.py +173 -0
src/tools/tex_chunker.py +339 -0
src/tools/tex_downloader.py +253 -0
src/tools/web_search.py +71 -0
src/utils/config_manager.py +206 -0
src/utils/document_validator.py +168 -0
src/utils/error_rate_tracker.py +111 -0
src/utils/error_utils.py +82 -0
src/utils/json_parser.py +110 -0
src/utils/network/circuit_breaker.py +79 -0

src/knowledge/initializer.py ADDED Viewed

@@ -0,0 +1,621 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+"""
+Knowledge Base Initialization Script
+This script initializes a new knowledge base from given documents:
+1. Creates directory structure
+2. Processes documents using RAG-Anything
+3. Builds knowledge graph database
+4. Extracts images and content lists
+"""
+import argparse
+import asyncio
+from datetime import datetime
+import json
+import os
+from pathlib import Path
+import shutil
+from src.logging import get_logger
+from src.services.embedding import get_embedding_config
+from src.services.llm import get_llm_config
+from src.services.rag.service import RAGService
+logger = get_logger("KnowledgeInit")
+# Import numbered items extraction functionality
+from src.knowledge.extract_numbered_items import process_content_list
+from src.knowledge.progress_tracker import ProgressStage, ProgressTracker
+class KnowledgeBaseInitializer:
+    """Knowledge base initializer"""
+    def __init__(
+        self,
+        kb_name: str,
+        base_dir="./data/knowledge_bases",
+        api_key: str | None = None,
+        base_url: str | None = None,
+        progress_tracker: ProgressTracker | None = None,
+        rag_provider: str | None = None,
+    ):
+        self.kb_name = kb_name
+        self.base_dir = Path(base_dir)
+        self.kb_dir = self.base_dir / kb_name
+        # Directory structure
+        self.raw_dir = self.kb_dir / "raw"
+        self.images_dir = self.kb_dir / "images"
+        self.rag_storage_dir = self.kb_dir / "rag_storage"
+        self.content_list_dir = self.kb_dir / "content_list"
+        self.api_key = api_key
+        self.base_url = base_url
+        self.embedding_cfg = get_embedding_config()
+        self.progress_tracker = progress_tracker or ProgressTracker(kb_name, self.base_dir)
+        self.rag_provider = rag_provider
+    def _register_to_config(self):
+        """Register KB to kb_config.json (only knowledge_bases list, no default)."""
+        config_file = self.base_dir / "kb_config.json"
+        if config_file.exists():
+            try:
+                with open(config_file, encoding="utf-8") as f:
+                    config = json.load(f)
+            except Exception as e:
+                logger.warning(f"Failed to read config: {e}, creating new")
+                config = {"knowledge_bases": {}}
+        else:
+            config = {"knowledge_bases": {}}
+        if "knowledge_bases" not in config:
+            config["knowledge_bases"] = {}
+        # Remove old "default" field if exists (migration)
+        if "default" in config:
+            del config["default"]
+        if self.kb_name not in config.get("knowledge_bases", {}):
+            config["knowledge_bases"][self.kb_name] = {
+                "path": self.kb_name,
+                "description": f"Knowledge base: {self.kb_name}",
+            }
+            try:
+                with open(config_file, "w", encoding="utf-8") as f:
+                    json.dump(config, indent=2, ensure_ascii=False, fp=f)
+                logger.info("  ✓ Registered to kb_config.json")
+            except Exception as e:
+                logger.warning(f"Failed to update config: {e}")
+        else:
+            logger.info("  ✓ Already registered in kb_config.json")
+    def _update_metadata_with_provider(self, provider: str):
+        """Update metadata.json and centralized config with the RAG provider used."""
+        metadata_file = self.kb_dir / "metadata.json"
+        try:
+            if metadata_file.exists():
+                with open(metadata_file, encoding="utf-8") as f:
+                    metadata = json.load(f)
+            else:
+                metadata = {}
+            metadata["rag_provider"] = provider
+            metadata["last_updated"] = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
+            with open(metadata_file, "w", encoding="utf-8") as f:
+                json.dump(metadata, indent=2, ensure_ascii=False, fp=f)
+            logger.info(f"  ✓ Updated metadata with RAG provider: {provider}")
+            # Also save to centralized config file
+            try:
+                from src.services.config import get_kb_config_service
+                kb_config_service = get_kb_config_service()
+                kb_config_service.set_rag_provider(self.kb_name, provider)
+                logger.info("  ✓ Saved RAG provider to centralized config")
+            except Exception as config_err:
+                logger.warning(f"Failed to save to centralized config: {config_err}")
+        except Exception as e:
+            logger.warning(f"Failed to update metadata with provider: {e}")
+    def create_directory_structure(self):
+        """Create knowledge base directory structure"""
+        logger.info(f"Creating directory structure for knowledge base: {self.kb_name}")
+        for dir_path in [
+            self.raw_dir,
+            self.images_dir,
+            self.rag_storage_dir,
+            self.content_list_dir,
+        ]:
+            dir_path.mkdir(parents=True, exist_ok=True)
+            logger.info(f"  ✓ Created: {dir_path}")
+        # Create metadata file
+        metadata = {
+            "name": self.kb_name,
+            "created_at": datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
+            "description": f"Knowledge base: {self.kb_name}",
+            "version": "1.0",
+            "rag_provider": None,  # Will be set during document processing
+        }
+        metadata_file = self.kb_dir / "metadata.json"
+        with open(metadata_file, "w", encoding="utf-8") as f:
+            json.dump(metadata, indent=2, ensure_ascii=False, fp=f)
+        logger.info(f"  ✓ Created metadata file: {metadata_file}")
+        # Automatically register to kb_config.json
+        self._register_to_config()
+    def copy_documents(self, source_files: list[str]):
+        """Copy documents to raw directory"""
+        logger.info(f"Copying {len(source_files)} documents to {self.raw_dir}")
+        copied_files = []
+        for source in source_files:
+            source_path = Path(source)
+            if not source_path.exists():
+                logger.warning(f"  ⚠ Source file not found: {source}")
+                continue
+            dest_path = self.raw_dir / source_path.name
+            shutil.copy2(source_path, dest_path)
+            copied_files.append(str(dest_path))
+            logger.info(f"  ✓ Copied: {source_path.name}")
+        return copied_files
+    async def process_documents(self):
+        """Process documents using RAGService with dynamic provider selection"""
+        # Use the provider passed during initialization, or fallback to env var
+        provider = self.rag_provider or os.getenv("RAG_PROVIDER", "lightrag")
+        logger.info(f"Processing documents with RAG provider: {provider}")
+        self.progress_tracker.update(
+            ProgressStage.PROCESSING_DOCUMENTS,
+            f"Starting to process documents with {provider} provider...",
+            current=0,
+            total=0,
+        )
+        # Get all documents in raw directory
+        doc_files = []
+        for ext in ["*.pdf", "*.docx", "*.doc", "*.txt", "*.md"]:
+            doc_files.extend(list(self.raw_dir.glob(ext)))
+        if not doc_files:
+            logger.warning("No documents found to process")
+            self.progress_tracker.update(
+                ProgressStage.ERROR, "No documents found to process", error="No documents found"
+            )
+            return
+        logger.info(f"Found {len(doc_files)} document(s) to process")
+        self.progress_tracker.update(
+            ProgressStage.PROCESSING_DOCUMENTS,
+            f"Found {len(doc_files)} documents, starting to process...",
+            current=0,
+            total=len(doc_files),
+        )
+        # Initialize RAGService with the selected provider
+        rag_service = RAGService(
+            kb_base_dir=str(
+                self.base_dir
+            ),  # Base directory for all KBs (e.g., data/knowledge_bases)
+            provider=provider,
+        )
+        # Convert Path objects to strings for file paths
+        file_paths = [str(doc_file) for doc_file in doc_files]
+        try:
+            # Process all documents using the RAGService
+            success = await rag_service.initialize(
+                kb_name=self.kb_name,
+                file_paths=file_paths,
+                extract_numbered_items=True,  # Enable numbered items extraction
+            )
+            if success:
+                logger.info("✓ Document processing completed!")
+                # Update metadata with the RAG provider used
+                self._update_metadata_with_provider(provider)
+                self.progress_tracker.update(
+                    ProgressStage.PROCESSING_DOCUMENTS,
+                    "Documents processed successfully",
+                    current=len(doc_files),
+                    total=len(doc_files),
+                )
+            else:
+                logger.error("Document processing failed")
+                self.progress_tracker.update(
+                    ProgressStage.ERROR,
+                    "Document processing failed",
+                    error="RAG pipeline returned failure",
+                )
+        except asyncio.TimeoutError:
+            error_msg = "Processing timeout (>10 minutes)"
+            logger.error("✗ Timeout processing documents")
+            logger.error("Possible causes: Large files, slow embedding API, network issues")
+            self.progress_tracker.update(
+                ProgressStage.ERROR,
+                "Timeout processing documents",
+                error=error_msg,
+            )
+        except Exception as e:
+            error_msg = str(e)
+            logger.error(f"✗ Error processing documents: {error_msg}")
+            import traceback
+            logger.error(traceback.format_exc())
+            self.progress_tracker.update(
+                ProgressStage.ERROR,
+                "Failed to process documents",
+                error=error_msg,
+            )
+        # Fix structure: flatten nested content_list directories (for RAGAnything compatibility)
+        await self.fix_structure()
+        # Display statistics
+        await self.display_statistics_generic()
+    async def fix_structure(self):
+        """
+        Fix the nested structure created by process_document_complete.
+        Flattens content_list directories and moves images to the correct location.
+        """
+        logger.info("\nFixing directory structure...")
+        # Find nested content lists
+        content_list_moves = []
+        for doc_dir in self.content_list_dir.glob("*"):
+            if not doc_dir.is_dir():
+                continue
+            auto_dir = doc_dir / "auto"
+            if not auto_dir.exists():
+                continue
+            # Find the _content_list.json file
+            for json_file in auto_dir.glob("*_content_list.json"):
+                target_file = self.content_list_dir / f"{doc_dir.name}.json"
+                content_list_moves.append((json_file, target_file))
+        # Move content list files
+        for source, target in content_list_moves:
+            try:
+                shutil.copy2(source, target)
+                logger.info(f"  ✓ Moved: {source.name} -> {target.name}")
+            except Exception as e:
+                logger.error(f"  ✗ Error moving {source.name}: {e!s}")
+        # Find and move nested images
+        for doc_dir in self.content_list_dir.glob("*"):
+            if not doc_dir.is_dir():
+                continue
+            auto_dir = doc_dir / "auto"
+            if not auto_dir.exists():
+                continue
+            images_dir = auto_dir / "images"
+            if images_dir.exists() and images_dir.is_dir():
+                image_count = 0
+                # Ensure target directory exists
+                self.images_dir.mkdir(parents=True, exist_ok=True)
+                for img_file in images_dir.glob("*"):
+                    if img_file.is_file() and img_file.exists():
+                        target_img = self.images_dir / img_file.name
+                        if not target_img.exists():
+                            try:
+                                # Ensure source file exists
+                                if not img_file.exists():
+                                    logger.warning(f"  ⚠ Source image not found: {img_file}")
+                                    continue
+                                shutil.copy2(img_file, target_img)
+                                image_count += 1
+                            except FileNotFoundError:
+                                logger.error(
+                                    f"  ✗ Error moving image {img_file.name}: Source file not found: {img_file}"
+                                )
+                            except Exception as e:
+                                logger.error(f"  ✗ Error moving image {img_file.name}: {e!s}")
+                if image_count > 0:
+                    logger.info(f"  ✓ Moved {image_count} images from {doc_dir.name}/auto/images/")
+        # Clean up nested directories
+        for doc_dir in self.content_list_dir.glob("*"):
+            if doc_dir.is_dir():
+                try:
+                    shutil.rmtree(doc_dir)
+                    logger.info(f"  ✓ Cleaned up: {doc_dir.name}/")
+                except Exception as e:
+                    logger.error(f"  ✗ Error removing {doc_dir.name}: {e!s}")
+        logger.info("✓ Structure fixed!")
+    def extract_numbered_items(self, batch_size: int = 20):
+        """
+        Extract numbered items from knowledge base (Definition, Proposition, Equation, Figure, etc.)
+        Args:
+            batch_size: Number of items to process per batch
+        """
+        logger.info("\n" + "=" * 60)
+        logger.info("🔍 Starting to extract numbered items...")
+        logger.info("=" * 60 + "\n")
+        self.progress_tracker.update(
+            ProgressStage.EXTRACTING_ITEMS,
+            "Starting to extract numbered items...",
+            current=0,
+            total=0,
+        )
+        # Get LLM config for credentials
+        llm_cfg = get_llm_config()
+        api_key = self.api_key or llm_cfg.api_key
+        base_url = self.base_url or llm_cfg.base_url
+        output_file = self.kb_dir / "numbered_items.json"
+        content_list_files = sorted(self.content_list_dir.glob("*.json"))
+        if not content_list_files:
+            logger.warning("No content_list files found, skipping numbered items extraction")
+            return
+        logger.info(f"Found {len(content_list_files)} content_list files")
+        self.progress_tracker.update(
+            ProgressStage.EXTRACTING_ITEMS,
+            f"Found {len(content_list_files)} files, starting extraction...",
+            current=0,
+            total=len(content_list_files),
+        )
+        try:
+            # Process all content_list files
+            for idx, content_list_file in enumerate(content_list_files, 1):
+                logger.info(
+                    f"\nProcessing file [{idx}/{len(content_list_files)}]: {content_list_file.name}"
+                )
+                self.progress_tracker.update(
+                    ProgressStage.EXTRACTING_ITEMS,
+                    f"Extracting: {content_list_file.name}",
+                    current=idx,
+                    total=len(content_list_files),
+                    file_name=content_list_file.name,
+                )
+                # First file doesn't merge (creates new file), subsequent files merge into existing results
+                merge = idx > 1
+                process_content_list(
+                    content_list_file=content_list_file,
+                    output_file=output_file,
+                    api_key=api_key,
+                    base_url=base_url,
+                    batch_size=batch_size,
+                    merge=merge,
+                )
+            logger.info(f"\n{'=' * 60}")
+            logger.info("✓ Numbered items extraction completed!")
+            logger.info(f"Output file: {output_file}")
+            logger.info(f"{'=' * 60}\n")
+            self.progress_tracker.update(
+                ProgressStage.COMPLETED,
+                "Knowledge base initialization completed!",
+                current=len(content_list_files),
+                total=len(content_list_files),
+            )
+        except Exception as e:
+            error_msg = str(e)
+            logger.error(f"\n✗ Numbered items extraction failed: {error_msg}")
+            import traceback
+            traceback.print_exc()
+            self.progress_tracker.update(
+                ProgressStage.ERROR, "Numbered items extraction failed", error=error_msg
+            )
+    async def display_statistics(self, rag):
+        """Display knowledge base statistics (legacy - for RAGAnything)"""
+        await self.display_statistics_generic()
+    async def display_statistics_generic(self):
+        """Display knowledge base statistics (provider-agnostic)"""
+        logger.info("\n" + "=" * 50)
+        logger.info("Knowledge Base Statistics")
+        logger.info("=" * 50)
+        # Count files
+        raw_files = list(self.raw_dir.glob("*"))
+        image_files = list(self.images_dir.glob("*"))
+        content_files = list(self.content_list_dir.glob("*.json"))
+        logger.info(f"Raw documents: {len(raw_files)}")
+        logger.info(f"Extracted images: {len(image_files)}")
+        logger.info(f"Content lists: {len(content_files)}")
+        # Read provider from metadata instead of env var
+        provider = self.rag_provider or os.getenv("RAG_PROVIDER", "lightrag")
+        # Try to read from metadata.json if available
+        metadata_file = self.kb_dir / "metadata.json"
+        if metadata_file.exists():
+            try:
+                with open(metadata_file, encoding="utf-8") as f:
+                    metadata = json.load(f)
+                    if "rag_provider" in metadata and metadata["rag_provider"]:
+                        provider = metadata["rag_provider"]
+            except Exception:
+                pass
+        # RAGAnything/LightRAG format
+        entities_file = self.rag_storage_dir / "kv_store_full_entities.json"
+        relations_file = self.rag_storage_dir / "kv_store_full_relations.json"
+        chunks_file = self.rag_storage_dir / "kv_store_text_chunks.json"
+        # LlamaIndex format
+        vector_store_dir = self.base_dir / self.kb_name / "vector_store"
+        try:
+            if entities_file.exists():
+                with open(entities_file, encoding="utf-8") as f:
+                    entities = json.load(f)
+                    logger.info(f"Knowledge entities: {len(entities)}")
+            if relations_file.exists():
+                with open(relations_file, encoding="utf-8") as f:
+                    relations = json.load(f)
+                    logger.info(f"Knowledge relations: {len(relations)}")
+            if chunks_file.exists():
+                with open(chunks_file, encoding="utf-8") as f:
+                    chunks = json.load(f)
+                    logger.info(f"Text chunks: {len(chunks)}")
+            if vector_store_dir.exists():
+                metadata_file = vector_store_dir / "metadata.json"
+                if metadata_file.exists():
+                    with open(metadata_file, encoding="utf-8") as f:
+                        metadata = json.load(f)
+                        logger.info(f"Vector embeddings: {metadata.get('num_embeddings', 0)}")
+                        logger.info(f"Embedding dimension: {metadata.get('dimension', 0)}")
+        except Exception as e:
+            logger.warning(f"Could not retrieve statistics: {e!s}")
+        logger.info(f"Provider used: {provider}")
+        logger.info("=" * 50)
+async def main():
+    """Main function"""
+    parser = argparse.ArgumentParser(
+        description="Initialize a new knowledge base from documents",
+        formatter_class=argparse.RawDescriptionHelpFormatter,
+        epilog="""
+Example usage:
+  # Initialize new knowledge base from documents (with auto extraction)
+  python init_knowledge_base.py my_kb --docs document1.pdf document2.pdf
+  # Initialize from a directory
+  python init_knowledge_base.py my_kb --docs-dir ./my_documents/
+  # Initialize without numbered items extraction
+  python init_knowledge_base.py my_kb --docs document.pdf --skip-extract
+  # Adjust batch size for extraction (for large knowledge bases)
+  python init_knowledge_base.py my_kb --docs document.pdf --batch-size 30
+        """,
+    )
+    parser.add_argument("name", help="Knowledge base name")
+    parser.add_argument("--docs", nargs="+", help="Document files to process")
+    parser.add_argument("--docs-dir", help="Directory containing documents to process")
+    parser.add_argument(
+        "--base-dir",
+        default="./knowledge_bases",
+        help="Base directory for knowledge bases (default: ./knowledge_bases)",
+    )
+    parser.add_argument("--api-key", default=os.getenv("LLM_API_KEY"), help="OpenAI API key")
+    parser.add_argument("--base-url", default=os.getenv("LLM_HOST"), help="API base URL")
+    parser.add_argument(
+        "--skip-processing",
+        action="store_true",
+        help="Skip document processing (only create structure)",
+    )
+    parser.add_argument(
+        "--skip-extract",
+        action="store_true",
+        help="Skip numbered items extraction after initialization",
+    )
+    parser.add_argument(
+        "--batch-size",
+        type=int,
+        default=20,
+        help="Batch size for numbered items extraction (default: 20)",
+    )
+    args = parser.parse_args()
+    # Check API key
+    if not args.skip_processing and not args.api_key:
+        logger.error("Error: OpenAI API key required")
+        logger.error("Set LLM_API_KEY environment variable or use --api-key option")
+        return
+    # Collect document files
+    doc_files = []
+    if args.docs:
+        doc_files.extend(args.docs)
+    if args.docs_dir:
+        docs_dir = Path(args.docs_dir)
+        if docs_dir.exists() and docs_dir.is_dir():
+            for ext in ["*.pdf", "*.docx", "*.doc", "*.txt", "*.md"]:
+                doc_files.extend([str(f) for f in docs_dir.glob(ext)])
+        else:
+            logger.error(f"Error: Documents directory not found: {args.docs_dir}")
+            return
+    if not args.skip_processing and not doc_files:
+        logger.error("Error: No documents specified")
+        logger.error("Use --docs or --docs-dir to specify documents")
+        return
+    # Initialize knowledge base
+    logger.info(f"\n{'=' * 60}")
+    logger.info(f"Initializing Knowledge Base: {args.name}")
+    logger.info(f"{'=' * 60}\n")
+    initializer = KnowledgeBaseInitializer(
+        kb_name=args.name, base_dir=args.base_dir, api_key=args.api_key, base_url=args.base_url
+    )
+    # Create directory structure
+    initializer.create_directory_structure()
+    # Copy documents
+    if doc_files:
+        copied_files = initializer.copy_documents(doc_files)
+        logger.info(f"\nCopied {len(copied_files)} file(s) to raw directory")
+    # Process documents
+    if not args.skip_processing:
+        await initializer.process_documents()
+    else:
+        logger.info("\nSkipping document processing (--skip-processing specified)")
+    # Extract numbered items (automatically after processing)
+    if not args.skip_processing and not args.skip_extract:
+        initializer.extract_numbered_items(batch_size=args.batch_size)
+    elif args.skip_extract:
+        logger.info("\nSkipping numbered items extraction (--skip-extract specified)")
+    logger.info(f"\n{'=' * 60}")
+    logger.info(f"✓ Knowledge base '{args.name}' initialized successfully!")
+    logger.info(f"Location: {initializer.kb_dir}")
+    logger.info(f"{'=' * 60}\n")
+if __name__ == "__main__":
+    # Logging configuration already completed during module import, no need to configure again here
+    asyncio.run(main())

src/knowledge/kb.py ADDED Viewed

@@ -0,0 +1,22 @@
+#!/usr/bin/env python
+"""
+Knowledge Base Management Tool - Standalone Entry Script
+Can be run directly: python knowledge_init/kb.py [command]
+"""
+from pathlib import Path
+import sys
+# Ensure project root is in sys.path
+project_root = Path(__file__).parent.parent.parent
+if str(project_root) not in sys.path:
+    sys.path.insert(0, str(project_root))
+# Import main function from startup script
+from src.knowledge.manager import KnowledgeBaseManager as KnowledgeBase
+from src.knowledge.start_kb import main
+__all__ = ["KnowledgeBase"]
+if __name__ == "__main__":
+    main()