PyPI - realtimex-deeptutor - Versions diffs - 0.5.0.post1__py3-none-any.whl - Mend

realtimex-deeptutor 0.5.0.post1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (276) hide show

realtimex_deeptutor/__init__.py +67 -0
realtimex_deeptutor-0.5.0.post1.dist-info/METADATA +1612 -0
realtimex_deeptutor-0.5.0.post1.dist-info/RECORD +276 -0
realtimex_deeptutor-0.5.0.post1.dist-info/WHEEL +5 -0
realtimex_deeptutor-0.5.0.post1.dist-info/entry_points.txt +2 -0
realtimex_deeptutor-0.5.0.post1.dist-info/licenses/LICENSE +661 -0
realtimex_deeptutor-0.5.0.post1.dist-info/top_level.txt +2 -0
src/__init__.py +40 -0
src/agents/__init__.py +24 -0
src/agents/base_agent.py +657 -0
src/agents/chat/__init__.py +24 -0
src/agents/chat/chat_agent.py +435 -0
src/agents/chat/prompts/en/chat_agent.yaml +35 -0
src/agents/chat/prompts/zh/chat_agent.yaml +35 -0
src/agents/chat/session_manager.py +311 -0
src/agents/co_writer/__init__.py +0 -0
src/agents/co_writer/edit_agent.py +260 -0
src/agents/co_writer/narrator_agent.py +423 -0
src/agents/co_writer/prompts/en/edit_agent.yaml +113 -0
src/agents/co_writer/prompts/en/narrator_agent.yaml +88 -0
src/agents/co_writer/prompts/zh/edit_agent.yaml +113 -0
src/agents/co_writer/prompts/zh/narrator_agent.yaml +88 -0
src/agents/guide/__init__.py +16 -0
src/agents/guide/agents/__init__.py +11 -0
src/agents/guide/agents/chat_agent.py +104 -0
src/agents/guide/agents/interactive_agent.py +223 -0
src/agents/guide/agents/locate_agent.py +149 -0
src/agents/guide/agents/summary_agent.py +150 -0
src/agents/guide/guide_manager.py +500 -0
src/agents/guide/prompts/en/chat_agent.yaml +41 -0
src/agents/guide/prompts/en/interactive_agent.yaml +202 -0
src/agents/guide/prompts/en/locate_agent.yaml +68 -0
src/agents/guide/prompts/en/summary_agent.yaml +157 -0
src/agents/guide/prompts/zh/chat_agent.yaml +41 -0
src/agents/guide/prompts/zh/interactive_agent.yaml +626 -0
src/agents/guide/prompts/zh/locate_agent.yaml +68 -0
src/agents/guide/prompts/zh/summary_agent.yaml +157 -0
src/agents/ideagen/__init__.py +12 -0
src/agents/ideagen/idea_generation_workflow.py +426 -0
src/agents/ideagen/material_organizer_agent.py +173 -0
src/agents/ideagen/prompts/en/idea_generation.yaml +187 -0
src/agents/ideagen/prompts/en/material_organizer.yaml +69 -0
src/agents/ideagen/prompts/zh/idea_generation.yaml +187 -0
src/agents/ideagen/prompts/zh/material_organizer.yaml +69 -0
src/agents/question/__init__.py +24 -0
src/agents/question/agents/__init__.py +18 -0
src/agents/question/agents/generate_agent.py +381 -0
src/agents/question/agents/relevance_analyzer.py +207 -0
src/agents/question/agents/retrieve_agent.py +239 -0
src/agents/question/coordinator.py +718 -0
src/agents/question/example.py +109 -0
src/agents/question/prompts/en/coordinator.yaml +75 -0
src/agents/question/prompts/en/generate_agent.yaml +77 -0
src/agents/question/prompts/en/relevance_analyzer.yaml +41 -0
src/agents/question/prompts/en/retrieve_agent.yaml +32 -0
src/agents/question/prompts/zh/coordinator.yaml +75 -0
src/agents/question/prompts/zh/generate_agent.yaml +77 -0
src/agents/question/prompts/zh/relevance_analyzer.yaml +39 -0
src/agents/question/prompts/zh/retrieve_agent.yaml +30 -0
src/agents/research/agents/__init__.py +23 -0
src/agents/research/agents/decompose_agent.py +507 -0
src/agents/research/agents/manager_agent.py +228 -0
src/agents/research/agents/note_agent.py +180 -0
src/agents/research/agents/rephrase_agent.py +263 -0
src/agents/research/agents/reporting_agent.py +1333 -0
src/agents/research/agents/research_agent.py +714 -0
src/agents/research/data_structures.py +451 -0
src/agents/research/main.py +188 -0
src/agents/research/prompts/en/decompose_agent.yaml +89 -0
src/agents/research/prompts/en/manager_agent.yaml +24 -0
src/agents/research/prompts/en/note_agent.yaml +121 -0
src/agents/research/prompts/en/rephrase_agent.yaml +58 -0
src/agents/research/prompts/en/reporting_agent.yaml +380 -0
src/agents/research/prompts/en/research_agent.yaml +173 -0
src/agents/research/prompts/zh/decompose_agent.yaml +89 -0
src/agents/research/prompts/zh/manager_agent.yaml +24 -0
src/agents/research/prompts/zh/note_agent.yaml +121 -0
src/agents/research/prompts/zh/rephrase_agent.yaml +58 -0
src/agents/research/prompts/zh/reporting_agent.yaml +380 -0
src/agents/research/prompts/zh/research_agent.yaml +173 -0
src/agents/research/research_pipeline.py +1309 -0
src/agents/research/utils/__init__.py +60 -0
src/agents/research/utils/citation_manager.py +799 -0
src/agents/research/utils/json_utils.py +98 -0
src/agents/research/utils/token_tracker.py +297 -0
src/agents/solve/__init__.py +80 -0
src/agents/solve/analysis_loop/__init__.py +14 -0
src/agents/solve/analysis_loop/investigate_agent.py +414 -0
src/agents/solve/analysis_loop/note_agent.py +190 -0
src/agents/solve/main_solver.py +862 -0
src/agents/solve/memory/__init__.py +34 -0
src/agents/solve/memory/citation_memory.py +353 -0
src/agents/solve/memory/investigate_memory.py +226 -0
src/agents/solve/memory/solve_memory.py +340 -0
src/agents/solve/prompts/en/analysis_loop/investigate_agent.yaml +55 -0
src/agents/solve/prompts/en/analysis_loop/note_agent.yaml +54 -0
src/agents/solve/prompts/en/solve_loop/manager_agent.yaml +67 -0
src/agents/solve/prompts/en/solve_loop/precision_answer_agent.yaml +62 -0
src/agents/solve/prompts/en/solve_loop/response_agent.yaml +90 -0
src/agents/solve/prompts/en/solve_loop/solve_agent.yaml +75 -0
src/agents/solve/prompts/en/solve_loop/tool_agent.yaml +38 -0
src/agents/solve/prompts/zh/analysis_loop/investigate_agent.yaml +53 -0
src/agents/solve/prompts/zh/analysis_loop/note_agent.yaml +54 -0
src/agents/solve/prompts/zh/solve_loop/manager_agent.yaml +66 -0
src/agents/solve/prompts/zh/solve_loop/precision_answer_agent.yaml +62 -0
src/agents/solve/prompts/zh/solve_loop/response_agent.yaml +90 -0
src/agents/solve/prompts/zh/solve_loop/solve_agent.yaml +76 -0
src/agents/solve/prompts/zh/solve_loop/tool_agent.yaml +41 -0
src/agents/solve/solve_loop/__init__.py +22 -0
src/agents/solve/solve_loop/citation_manager.py +74 -0
src/agents/solve/solve_loop/manager_agent.py +274 -0
src/agents/solve/solve_loop/precision_answer_agent.py +96 -0
src/agents/solve/solve_loop/response_agent.py +301 -0
src/agents/solve/solve_loop/solve_agent.py +325 -0
src/agents/solve/solve_loop/tool_agent.py +470 -0
src/agents/solve/utils/__init__.py +64 -0
src/agents/solve/utils/config_validator.py +313 -0
src/agents/solve/utils/display_manager.py +223 -0
src/agents/solve/utils/error_handler.py +363 -0
src/agents/solve/utils/json_utils.py +98 -0
src/agents/solve/utils/performance_monitor.py +407 -0
src/agents/solve/utils/token_tracker.py +541 -0
src/api/__init__.py +0 -0
src/api/main.py +240 -0
src/api/routers/__init__.py +1 -0
src/api/routers/agent_config.py +69 -0
src/api/routers/chat.py +296 -0
src/api/routers/co_writer.py +337 -0
src/api/routers/config.py +627 -0
src/api/routers/dashboard.py +18 -0
src/api/routers/guide.py +337 -0
src/api/routers/ideagen.py +436 -0
src/api/routers/knowledge.py +821 -0
src/api/routers/notebook.py +247 -0
src/api/routers/question.py +537 -0
src/api/routers/research.py +394 -0
src/api/routers/settings.py +164 -0
src/api/routers/solve.py +305 -0
src/api/routers/system.py +252 -0
src/api/run_server.py +61 -0
src/api/utils/history.py +172 -0
src/api/utils/log_interceptor.py +21 -0
src/api/utils/notebook_manager.py +415 -0
src/api/utils/progress_broadcaster.py +72 -0
src/api/utils/task_id_manager.py +100 -0
src/config/__init__.py +0 -0
src/config/accessors.py +18 -0
src/config/constants.py +34 -0
src/config/defaults.py +18 -0
src/config/schema.py +38 -0
src/config/settings.py +50 -0
src/core/errors.py +62 -0
src/knowledge/__init__.py +23 -0
src/knowledge/add_documents.py +606 -0
src/knowledge/config.py +65 -0
src/knowledge/example_add_documents.py +236 -0
src/knowledge/extract_numbered_items.py +1039 -0
src/knowledge/initializer.py +621 -0
src/knowledge/kb.py +22 -0
src/knowledge/manager.py +782 -0
src/knowledge/progress_tracker.py +182 -0
src/knowledge/start_kb.py +535 -0
src/logging/__init__.py +103 -0
src/logging/adapters/__init__.py +17 -0
src/logging/adapters/lightrag.py +184 -0
src/logging/adapters/llamaindex.py +141 -0
src/logging/config.py +80 -0
src/logging/handlers/__init__.py +20 -0
src/logging/handlers/console.py +75 -0
src/logging/handlers/file.py +201 -0
src/logging/handlers/websocket.py +127 -0
src/logging/logger.py +709 -0
src/logging/stats/__init__.py +16 -0
src/logging/stats/llm_stats.py +179 -0
src/services/__init__.py +56 -0
src/services/config/__init__.py +61 -0
src/services/config/knowledge_base_config.py +210 -0
src/services/config/loader.py +260 -0
src/services/config/unified_config.py +603 -0
src/services/embedding/__init__.py +45 -0
src/services/embedding/adapters/__init__.py +22 -0
src/services/embedding/adapters/base.py +106 -0
src/services/embedding/adapters/cohere.py +127 -0
src/services/embedding/adapters/jina.py +99 -0
src/services/embedding/adapters/ollama.py +116 -0
src/services/embedding/adapters/openai_compatible.py +96 -0
src/services/embedding/client.py +159 -0
src/services/embedding/config.py +156 -0
src/services/embedding/provider.py +119 -0
src/services/llm/__init__.py +152 -0
src/services/llm/capabilities.py +313 -0
src/services/llm/client.py +302 -0
src/services/llm/cloud_provider.py +530 -0
src/services/llm/config.py +200 -0
src/services/llm/error_mapping.py +103 -0
src/services/llm/exceptions.py +152 -0
src/services/llm/factory.py +450 -0
src/services/llm/local_provider.py +347 -0
src/services/llm/providers/anthropic.py +95 -0
src/services/llm/providers/base_provider.py +93 -0
src/services/llm/providers/open_ai.py +83 -0
src/services/llm/registry.py +71 -0
src/services/llm/telemetry.py +40 -0
src/services/llm/types.py +27 -0
src/services/llm/utils.py +333 -0
src/services/prompt/__init__.py +25 -0
src/services/prompt/manager.py +206 -0
src/services/rag/__init__.py +64 -0
src/services/rag/components/__init__.py +29 -0
src/services/rag/components/base.py +59 -0
src/services/rag/components/chunkers/__init__.py +18 -0
src/services/rag/components/chunkers/base.py +34 -0
src/services/rag/components/chunkers/fixed.py +71 -0
src/services/rag/components/chunkers/numbered_item.py +94 -0
src/services/rag/components/chunkers/semantic.py +97 -0
src/services/rag/components/embedders/__init__.py +14 -0
src/services/rag/components/embedders/base.py +32 -0
src/services/rag/components/embedders/openai.py +63 -0
src/services/rag/components/indexers/__init__.py +18 -0
src/services/rag/components/indexers/base.py +35 -0
src/services/rag/components/indexers/graph.py +172 -0
src/services/rag/components/indexers/lightrag.py +156 -0
src/services/rag/components/indexers/vector.py +146 -0
src/services/rag/components/parsers/__init__.py +18 -0
src/services/rag/components/parsers/base.py +35 -0
src/services/rag/components/parsers/markdown.py +52 -0
src/services/rag/components/parsers/pdf.py +115 -0
src/services/rag/components/parsers/text.py +86 -0
src/services/rag/components/retrievers/__init__.py +18 -0
src/services/rag/components/retrievers/base.py +34 -0
src/services/rag/components/retrievers/dense.py +200 -0
src/services/rag/components/retrievers/hybrid.py +164 -0
src/services/rag/components/retrievers/lightrag.py +169 -0
src/services/rag/components/routing.py +286 -0
src/services/rag/factory.py +234 -0
src/services/rag/pipeline.py +215 -0
src/services/rag/pipelines/__init__.py +32 -0
src/services/rag/pipelines/academic.py +44 -0
src/services/rag/pipelines/lightrag.py +43 -0
src/services/rag/pipelines/llamaindex.py +313 -0
src/services/rag/pipelines/raganything.py +384 -0
src/services/rag/service.py +244 -0
src/services/rag/types.py +73 -0
src/services/search/__init__.py +284 -0
src/services/search/base.py +87 -0
src/services/search/consolidation.py +398 -0
src/services/search/providers/__init__.py +128 -0
src/services/search/providers/baidu.py +188 -0
src/services/search/providers/exa.py +194 -0
src/services/search/providers/jina.py +161 -0
src/services/search/providers/perplexity.py +153 -0
src/services/search/providers/serper.py +209 -0
src/services/search/providers/tavily.py +161 -0
src/services/search/types.py +114 -0
src/services/setup/__init__.py +34 -0
src/services/setup/init.py +285 -0
src/services/tts/__init__.py +16 -0
src/services/tts/config.py +99 -0
src/tools/__init__.py +91 -0
src/tools/code_executor.py +536 -0
src/tools/paper_search_tool.py +171 -0
src/tools/query_item_tool.py +310 -0
src/tools/question/__init__.py +15 -0
src/tools/question/exam_mimic.py +616 -0
src/tools/question/pdf_parser.py +211 -0
src/tools/question/question_extractor.py +397 -0
src/tools/rag_tool.py +173 -0
src/tools/tex_chunker.py +339 -0
src/tools/tex_downloader.py +253 -0
src/tools/web_search.py +71 -0
src/utils/config_manager.py +206 -0
src/utils/document_validator.py +168 -0
src/utils/error_rate_tracker.py +111 -0
src/utils/error_utils.py +82 -0
src/utils/json_parser.py +110 -0
src/utils/network/circuit_breaker.py +79 -0

src/knowledge/start_kb.py ADDED Viewed

@@ -0,0 +1,535 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+"""
+Knowledge Base Management Startup Script - Unified Entry Point
+Provides knowledge base initialization, management, querying, and other functions
+"""
+import argparse
+import asyncio
+from pathlib import Path
+import sys
+# Set paths - compatible with both direct execution and module import
+try:
+    from .config import KNOWLEDGE_BASES_DIR, get_env_config, setup_paths
+    setup_paths()
+    from .extract_numbered_items import process_content_list
+    from .initializer import KnowledgeBaseInitializer
+    from .manager import KnowledgeBaseManager
+except ImportError:
+    # If relative import fails, means this file is run directly
+    # Add parent directory to path
+    sys.path.insert(0, str(Path(__file__).parent.parent.parent))
+    from src.knowledge.config import KNOWLEDGE_BASES_DIR, get_env_config, setup_paths
+    setup_paths()
+    from src.knowledge.extract_numbered_items import process_content_list
+    from src.knowledge.initializer import KnowledgeBaseInitializer
+    from src.knowledge.manager import KnowledgeBaseManager
+def list_knowledge_bases():
+    """List all knowledge bases"""
+    manager = KnowledgeBaseManager(str(KNOWLEDGE_BASES_DIR))
+    kb_list = manager.list_knowledge_bases()
+    default_kb = manager.get_default()
+    print("\n" + "=" * 60)
+    print("📚 Available Knowledge Bases")
+    print("=" * 60)
+    if not kb_list:
+        print("  ⚠️  No knowledge bases yet")
+        print("\nTip: Use 'init' command to create a new knowledge base")
+    else:
+        for kb_name in kb_list:
+            default_marker = " ★(default)" if kb_name == default_kb else ""
+            print(f"  • {kb_name}{default_marker}")
+            # Display statistics
+            try:
+                info = manager.get_info(kb_name)
+                stats = info.get("statistics", {})
+                print(f"    - Documents: {stats.get('raw_documents', 0)} files")
+                print(f"    - Images: {stats.get('images', 0)} files")
+                print(
+                    f"    - RAG: {'Initialized' if stats.get('rag_initialized') else 'Not initialized'}"
+                )
+            except:
+                pass
+    print("=" * 60 + "\n")
+def show_kb_info(kb_name=None):
+    """Display detailed knowledge base information"""
+    manager = KnowledgeBaseManager(str(KNOWLEDGE_BASES_DIR))
+    try:
+        info = manager.get_info(kb_name)
+        print("\n" + "=" * 60)
+        print(f"📖 Knowledge Base Info: {info['name']}")
+        print("=" * 60)
+        print(f"Path: {info['path']}")
+        print(f"Default: {'Yes' if info['is_default'] else 'No'}")
+        if info.get("metadata"):
+            print("\n[Metadata]")
+            for key, value in info["metadata"].items():
+                print(f"  {key}: {value}")
+        print("\n[Statistics]")
+        stats = info["statistics"]
+        print(f"  Raw Documents: {stats['raw_documents']} files")
+        print(f"  Extracted Images: {stats['images']} files")
+        print(f"  Content Lists: {stats['content_lists']} files")
+        print(f"  RAG Status: {'Initialized' if stats['rag_initialized'] else 'Not initialized'}")
+        if "rag" in stats:
+            print("\n[RAG Statistics]")
+            for key, value in stats["rag"].items():
+                print(f"  {key}: {value}")
+        print("=" * 60 + "\n")
+    except Exception as e:
+        print(f"✗ Error: {e!s}\n")
+def set_default_kb(kb_name):
+    """Set default knowledge base"""
+    manager = KnowledgeBaseManager(str(KNOWLEDGE_BASES_DIR))
+    try:
+        manager.set_default(kb_name)
+        print(f"✓ Set '{kb_name}' as default knowledge base\n")
+    except Exception as e:
+        print(f"✗ Error: {e!s}\n")
+async def init_knowledge_base(args):
+    """Initialize new knowledge base"""
+    # Get API configuration
+    env_config = get_env_config()
+    api_key = args.api_key or env_config["api_key"]
+    base_url = args.base_url or env_config["base_url"]
+    if not api_key and not args.skip_processing:
+        print("✗ Error: API Key not set")
+        print("Please set environment variable LLM_API_KEY or use --api-key parameter\n")
+        return
+    # Collect document files
+    doc_files = []
+    if args.docs:
+        doc_files.extend(args.docs)
+    if args.docs_dir:
+        docs_dir = Path(args.docs_dir)
+        if docs_dir.exists() and docs_dir.is_dir():
+            for ext in ["*.pdf", "*.docx", "*.doc", "*.txt", "*.md"]:
+                doc_files.extend([str(f) for f in docs_dir.glob(ext)])
+        else:
+            print(f"✗ Error: Document directory does not exist: {args.docs_dir}\n")
+            return
+    if not args.skip_processing and not doc_files:
+        print("✗ Error: No documents specified")
+        print("Use --docs or --docs-dir to specify documents\n")
+        return
+    # Initialize knowledge base
+    print("\n" + "=" * 60)
+    print(f"🚀 Initializing knowledge base: {args.name}")
+    print("=" * 60 + "\n")
+    initializer = KnowledgeBaseInitializer(
+        kb_name=args.name, base_dir=str(KNOWLEDGE_BASES_DIR), api_key=api_key, base_url=base_url
+    )
+    # Create directory structure
+    initializer.create_directory_structure()
+    # Copy documents
+    if doc_files:
+        copied_files = initializer.copy_documents(doc_files)
+        print(f"✓ Copied {len(copied_files)} files\n")
+    # Process documents
+    if not args.skip_processing:
+        await initializer.process_documents()
+    else:
+        print("⏭️  Skipping document processing\n")
+    # Extract numbered items
+    if not args.skip_processing and not args.skip_extract:
+        initializer.extract_numbered_items(batch_size=args.batch_size)
+    elif args.skip_extract:
+        print("⏭️  Skipping numbered items extraction\n")
+    print("\n" + "=" * 60)
+    print(f"✓ Knowledge base '{args.name}' initialization complete!")
+    print(f"Location: {initializer.kb_dir}")
+    print("=" * 60 + "\n")
+def extract_items(args):
+    """Extract numbered items"""
+    # Get API configuration
+    env_config = get_env_config()
+    api_key = args.api_key or env_config["api_key"]
+    base_url = args.base_url or env_config["base_url"]
+    if not api_key:
+        print("✗ Error: API Key not set")
+        print("Please set environment variable LLM_API_KEY or use --api-key parameter\n")
+        return
+    # Build paths
+    kb_dir = KNOWLEDGE_BASES_DIR / args.kb
+    content_list_dir = kb_dir / "content_list"
+    if not content_list_dir.exists():
+        print(f"✗ Error: content_list directory does not exist: {content_list_dir}\n")
+        return
+    # Get files to process
+    if args.content_file:
+        content_list_files = [content_list_dir / args.content_file]
+        if not content_list_files[0].exists():
+            print(f"✗ Error: content_list file does not exist: {content_list_files[0]}\n")
+            return
+    else:
+        content_list_files = sorted(content_list_dir.glob("*.json"))
+        if not content_list_files:
+            print(f"✗ Error: No JSON files found in {content_list_dir}\n")
+            return
+        if args.debug:
+            print("⚠️  Debug mode: Only processing first file\n")
+            content_list_files = content_list_files[:1]
+    output_file = kb_dir / "numbered_items.json"
+    print("\n" + "=" * 60)
+    print(f"🔍 Extracting numbered items: {args.kb}")
+    print("=" * 60)
+    print(f"File count: {len(content_list_files)}")
+    print(f"Batch size: {args.batch_size}")
+    print(f"Max concurrent: {args.max_concurrent}")
+    print("=" * 60 + "\n")
+    try:
+        for idx, content_list_file in enumerate(content_list_files, 1):
+            print(f"\nProcessing file [{idx}/{len(content_list_files)}]: {content_list_file.name}")
+            process_content_list(
+                content_list_file,
+                output_file,
+                api_key,
+                base_url,
+                args.batch_size,
+                merge=(idx > 1),  # Auto-merge after first file
+            )
+        print("\n" + "=" * 60)
+        print("✓ Extraction complete!")
+        print(f"Output file: {output_file}")
+        print("=" * 60 + "\n")
+    except Exception as e:
+        print(f"\n✗ Extraction failed: {e}\n")
+def delete_knowledge_base(args):
+    """Delete knowledge base"""
+    manager = KnowledgeBaseManager(str(KNOWLEDGE_BASES_DIR))
+    try:
+        success = manager.delete_knowledge_base(args.name, confirm=args.force)
+        if success:
+            print(f"\n✓ Deleted knowledge base '{args.name}'\n")
+    except Exception as e:
+        print(f"\n✗ Error: {e}\n")
+def clean_rag_storage(args):
+    """Clean RAG storage"""
+    manager = KnowledgeBaseManager(str(KNOWLEDGE_BASES_DIR))
+    print("\n" + "=" * 60)
+    print("🧹 Cleaning RAG storage")
+    print("=" * 60 + "\n")
+    try:
+        manager.clean_rag_storage(args.name, backup=not args.no_backup)
+        print("\n" + "=" * 60)
+        print("✓ RAG storage cleaned!")
+        print("💡 Tip: Use 'add_documents.py' to reprocess documents to rebuild RAG")
+        print("=" * 60 + "\n")
+    except Exception as e:
+        print(f"\n✗ Error: {e}\n")
+async def refresh_knowledge_base(args):
+    """Refresh knowledge base (reprocess all documents)"""
+    manager = KnowledgeBaseManager(str(KNOWLEDGE_BASES_DIR))
+    # Get API configuration
+    env_config = get_env_config()
+    api_key = args.api_key or env_config["api_key"]
+    base_url = args.base_url or env_config["base_url"]
+    if not api_key:
+        print("✗ Error: API Key not set")
+        print("Please set environment variable LLM_API_KEY or use --api-key parameter\n")
+        return
+    try:
+        kb_name = args.name
+        kb_dir = manager.get_knowledge_base_path(kb_name)
+        raw_dir = kb_dir / "raw"
+        if not raw_dir.exists() or not list(raw_dir.glob("*")):
+            print(f"✗ Error: No raw documents found in knowledge base '{kb_name}'\n")
+            return
+        print("\n" + "=" * 60)
+        print(f"🔄 Refreshing knowledge base: {kb_name}")
+        print("=" * 60)
+        print(f"Path: {kb_dir}")
+        print("=" * 60 + "\n")
+        # Step 1: Clean RAG storage
+        print("Step 1/3: Cleaning RAG storage...")
+        manager.clean_rag_storage(kb_name, backup=not args.no_backup)
+        # Step 2: Clean content_list and images (optional)
+        if args.full:
+            print("\nStep 2/3: Cleaning extracted content and images...")
+            content_list_dir = kb_dir / "content_list"
+            images_dir = kb_dir / "images"
+            if content_list_dir.exists():
+                import shutil
+                shutil.rmtree(content_list_dir)
+                content_list_dir.mkdir(parents=True, exist_ok=True)
+                print("  ✓ Cleaned content_list")
+            if images_dir.exists():
+                import shutil
+                shutil.rmtree(images_dir)
+                images_dir.mkdir(parents=True, exist_ok=True)
+                print("  ✓ Cleaned images")
+        else:
+            print("\nStep 2/3: Skipping content cleanup (use --full for complete refresh)")
+        # Step 3: Reprocess all documents
+        print("\nStep 3/3: Reprocessing documents...")
+        from src.knowledge.initializer import KnowledgeBaseInitializer
+        initializer = KnowledgeBaseInitializer(
+            kb_name=kb_name, base_dir=str(KNOWLEDGE_BASES_DIR), api_key=api_key, base_url=base_url
+        )
+        # Reprocess documents
+        await initializer.process_documents()
+        # Extract numbered items
+        if not args.skip_extract:
+            print("\nExtracting numbered items...")
+            initializer.extract_numbered_items(batch_size=args.batch_size)
+        print("\n" + "=" * 60)
+        print(f"✓ Knowledge base '{kb_name}' refresh complete!")
+        print("=" * 60 + "\n")
+    except Exception as e:
+        print(f"\n✗ Refresh failed: {e}\n")
+        raise
+def main():
+    """Main function"""
+    parser = argparse.ArgumentParser(
+        description="Knowledge Base Management Tool",
+        formatter_class=argparse.RawDescriptionHelpFormatter,
+        epilog="""
+Usage Examples:
+  [Recommended: Directly run kb.py]
+  python knowledge_init/kb.py list
+  python knowledge_init/kb.py info ai_textbook
+  python knowledge_init/kb.py set-default math2211
+  python knowledge_init/kb.py init my_kb --docs document.pdf
+  python knowledge_init/kb.py init my_course --docs-dir ./materials/
+  python knowledge_init/kb.py extract --kb ai_textbook
+  python knowledge_init/kb.py extract --kb ai_textbook --debug
+  [New: Delete and Refresh Features]
+  python knowledge_init/kb.py delete old_kb             # Delete knowledge base (requires confirmation)
+  python knowledge_init/kb.py delete old_kb --force     # Force delete (skip confirmation)
+  python knowledge_init/kb.py clean-rag C2-test         # Clean RAG storage (fix corrupted graph data)
+  python knowledge_init/kb.py refresh ai_textbook       # Refresh knowledge base (reprocess all documents)
+  python knowledge_init/kb.py refresh ai_textbook --full # Full refresh
+  [Method 2: Run as module]
+  python -m knowledge_init.start_kb list
+  python -m knowledge_init.start_kb init my_kb --docs document.pdf
+  python -m knowledge_init.start_kb clean-rag C2-test
+  [Important] All commands must be run from project root directory (DeepTutor/)!
+        """,
+    )
+    subparsers = parser.add_subparsers(dest="command", help="Command")
+    # list command
+    subparsers.add_parser("list", help="List all knowledge bases")
+    # info command
+    info_parser = subparsers.add_parser("info", help="Show knowledge base information")
+    info_parser.add_argument(
+        "name",
+        nargs="?",
+        help="Knowledge base name (optional, default shows default knowledge base)",
+    )
+    # set-default command
+    default_parser = subparsers.add_parser("set-default", help="Set default knowledge base")
+    default_parser.add_argument("name", help="Knowledge base name")
+    # init command
+    init_parser = subparsers.add_parser("init", help="Initialize new knowledge base")
+    init_parser.add_argument("name", help="Knowledge base name")
+    init_parser.add_argument("--docs", nargs="+", help="Document file list")
+    init_parser.add_argument("--docs-dir", help="Document directory")
+    init_parser.add_argument("--api-key", help="OpenAI API Key")
+    init_parser.add_argument("--base-url", help="API Base URL")
+    init_parser.add_argument(
+        "--skip-processing", action="store_true", help="Skip document processing"
+    )
+    init_parser.add_argument(
+        "--skip-extract", action="store_true", help="Skip numbered items extraction"
+    )
+    init_parser.add_argument("--batch-size", type=int, default=20, help="Batch size (default 20)")
+    # extract command
+    extract_parser = subparsers.add_parser("extract", help="Extract numbered items")
+    extract_parser.add_argument("--kb", required=True, help="Knowledge base name")
+    extract_parser.add_argument("--content-file", help="Specify content_list file (optional)")
+    extract_parser.add_argument(
+        "--batch-size", type=int, default=20, help="Batch size (default 20)"
+    )
+    extract_parser.add_argument(
+        "--max-concurrent", type=int, default=5, help="Max concurrent tasks (default 5)"
+    )
+    extract_parser.add_argument(
+        "--debug", action="store_true", help="Debug mode (only process first file)"
+    )
+    extract_parser.add_argument("--api-key", help="OpenAI API Key")
+    extract_parser.add_argument("--base-url", help="API Base URL")
+    # delete command
+    delete_parser = subparsers.add_parser("delete", help="Delete knowledge base")
+    delete_parser.add_argument("name", help="Knowledge base name")
+    delete_parser.add_argument("--force", action="store_true", help="Skip confirmation (dangerous)")
+    # clean-rag command
+    clean_parser = subparsers.add_parser(
+        "clean-rag", help="Clean RAG storage (fix corrupted graph data)"
+    )
+    clean_parser.add_argument(
+        "name",
+        nargs="?",
+        help="Knowledge base name (optional, default uses default knowledge base)",
+    )
+    clean_parser.add_argument(
+        "--no-backup", action="store_true", help="No backup (not recommended)"
+    )
+    # refresh command
+    refresh_parser = subparsers.add_parser(
+        "refresh", help="Refresh knowledge base (reprocess all documents)"
+    )
+    refresh_parser.add_argument("name", help="Knowledge base name")
+    refresh_parser.add_argument(
+        "--full", action="store_true", help="Full refresh (clean all extracted content)"
+    )
+    refresh_parser.add_argument(
+        "--no-backup", action="store_true", help="No backup for RAG storage"
+    )
+    refresh_parser.add_argument(
+        "--skip-extract", action="store_true", help="Skip numbered items extraction"
+    )
+    refresh_parser.add_argument(
+        "--batch-size", type=int, default=20, help="Batch size (default 20)"
+    )
+    refresh_parser.add_argument("--api-key", help="OpenAI API Key")
+    refresh_parser.add_argument("--base-url", help="API Base URL")
+    args = parser.parse_args()
+    # Windows console UTF-8 support
+    if sys.platform == "win32":
+        import io
+        sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding="utf-8")
+    # Execute command
+    if args.command == "list":
+        list_knowledge_bases()
+    elif args.command == "info":
+        show_kb_info(args.name)
+    elif args.command == "set-default":
+        set_default_kb(args.name)
+    elif args.command == "init":
+        try:
+            asyncio.run(init_knowledge_base(args))
+        except (KeyboardInterrupt, SystemExit):
+            print("\n\n⚠️  Operation cancelled")
+        except IndexError as e:
+            # Ignore IndexError during asyncio cleanup (doesn't affect functionality)
+            if "pop from an empty deque" not in str(e):
+                raise
+        except Exception as e:
+            print(f"\n✗ Error: {e}")
+            raise
+    elif args.command == "extract":
+        extract_items(args)
+    elif args.command == "delete":
+        delete_knowledge_base(args)
+    elif args.command == "clean-rag":
+        clean_rag_storage(args)
+    elif args.command == "refresh":
+        try:
+            asyncio.run(refresh_knowledge_base(args))
+        except (KeyboardInterrupt, SystemExit):
+            print("\n\n⚠️  Operation cancelled")
+        except IndexError as e:
+            # Ignore IndexError during asyncio cleanup
+            if "pop from an empty deque" not in str(e):
+                raise
+        except Exception as e:
+            print(f"\n✗ Error: {e}")
+            raise
+    else:
+        parser.print_help()
+if __name__ == "__main__":
+    main()

src/logging/__init__.py ADDED Viewed

@@ -0,0 +1,103 @@
+"""
+Unified Logging System for DeepTutor
+=====================================
+A clean, consistent logging system with:
+- Unified format: [Module] Symbol Message
+- English-only output
+- File output to data/user/logs/
+- WebSocket streaming support
+- Color-coded console output
+- LLM usage statistics tracking
+- External library log forwarding (LightRAG, LlamaIndex)
+Usage:
+    from src.logging import get_logger, LLMStats
+    logger = get_logger("Solver")
+    logger.info("Processing started")
+    logger.success("Task completed in 2.3s")
+    logger.error("Something went wrong")
+    # Track LLM usage
+    stats = LLMStats("Solver")
+    stats.add_call(model="gpt-4o", prompt_tokens=100, completion_tokens=50)
+    stats.print_summary()
+"""
+# Core logging
+# Adapters for external libraries
+from .adapters import (
+    LightRAGLogContext,
+    LightRAGLogForwarder,
+    LlamaIndexLogContext,
+    LlamaIndexLogForwarder,
+    get_lightrag_forwarding_config,
+)
+# Configuration
+from .config import (
+    LoggingConfig,
+    get_default_log_dir,
+    load_logging_config,
+)
+# Handlers
+from .handlers import (
+    ConsoleHandler,
+    FileHandler,
+    JSONFileHandler,
+    LogInterceptor,
+    RotatingFileHandler,
+    WebSocketLogHandler,
+)
+from .logger import (
+    ConsoleFormatter,
+    FileFormatter,
+    Logger,
+    LogLevel,
+    get_logger,
+    reset_logger,
+)
+# Statistics tracking
+from .stats import (
+    MODEL_PRICING,
+    LLMCall,
+    LLMStats,
+    estimate_tokens,
+    get_pricing,
+)
+__all__ = [
+    # Core
+    "Logger",
+    "LogLevel",
+    "get_logger",
+    "reset_logger",
+    "ConsoleFormatter",
+    "FileFormatter",
+    # Handlers
+    "ConsoleHandler",
+    "FileHandler",
+    "JSONFileHandler",
+    "RotatingFileHandler",
+    "WebSocketLogHandler",
+    "LogInterceptor",
+    # Adapters
+    "LightRAGLogContext",
+    "LightRAGLogForwarder",
+    "get_lightrag_forwarding_config",
+    "LlamaIndexLogContext",
+    "LlamaIndexLogForwarder",
+    # Stats
+    "LLMStats",
+    "LLMCall",
+    "get_pricing",
+    "estimate_tokens",
+    "MODEL_PRICING",
+    # Config
+    "LoggingConfig",
+    "load_logging_config",
+    "get_default_log_dir",
+]

src/logging/adapters/__init__.py ADDED Viewed

@@ -0,0 +1,17 @@
+"""
+Log Adapters
+============
+Adapters for forwarding logs from external libraries to the unified logging system.
+"""
+from .lightrag import LightRAGLogContext, LightRAGLogForwarder, get_lightrag_forwarding_config
+from .llamaindex import LlamaIndexLogContext, LlamaIndexLogForwarder
+__all__ = [
+    "LightRAGLogContext",
+    "LightRAGLogForwarder",
+    "get_lightrag_forwarding_config",
+    "LlamaIndexLogContext",
+    "LlamaIndexLogForwarder",
+]