PyPI - local-deep-research - Versions diffs - 0.1.0__py3-none-any.whl - Mend

local-deep-research 0.1.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (56) hide show

local_deep_research/__init__.py +24 -0
local_deep_research/citation_handler.py +113 -0
local_deep_research/config.py +166 -0
local_deep_research/defaults/__init__.py +44 -0
local_deep_research/defaults/llm_config.py +269 -0
local_deep_research/defaults/local_collections.toml +47 -0
local_deep_research/defaults/main.toml +57 -0
local_deep_research/defaults/search_engines.toml +244 -0
local_deep_research/local_collections.py +141 -0
local_deep_research/main.py +113 -0
local_deep_research/report_generator.py +206 -0
local_deep_research/search_system.py +241 -0
local_deep_research/utilties/__init__.py +0 -0
local_deep_research/utilties/enums.py +9 -0
local_deep_research/utilties/llm_utils.py +116 -0
local_deep_research/utilties/search_utilities.py +115 -0
local_deep_research/utilties/setup_utils.py +6 -0
local_deep_research/web/__init__.py +2 -0
local_deep_research/web/app.py +1209 -0
local_deep_research/web/static/css/styles.css +1008 -0
local_deep_research/web/static/js/app.js +2078 -0
local_deep_research/web/templates/api_keys_config.html +82 -0
local_deep_research/web/templates/collections_config.html +90 -0
local_deep_research/web/templates/index.html +312 -0
local_deep_research/web/templates/llm_config.html +120 -0
local_deep_research/web/templates/main_config.html +89 -0
local_deep_research/web/templates/search_engines_config.html +154 -0
local_deep_research/web/templates/settings.html +519 -0
local_deep_research/web/templates/settings_dashboard.html +207 -0
local_deep_research/web_search_engines/__init__.py +0 -0
local_deep_research/web_search_engines/engines/__init__.py +0 -0
local_deep_research/web_search_engines/engines/full_search.py +128 -0
local_deep_research/web_search_engines/engines/meta_search_engine.py +274 -0
local_deep_research/web_search_engines/engines/search_engine_arxiv.py +367 -0
local_deep_research/web_search_engines/engines/search_engine_brave.py +245 -0
local_deep_research/web_search_engines/engines/search_engine_ddg.py +123 -0
local_deep_research/web_search_engines/engines/search_engine_github.py +663 -0
local_deep_research/web_search_engines/engines/search_engine_google_pse.py +283 -0
local_deep_research/web_search_engines/engines/search_engine_guardian.py +337 -0
local_deep_research/web_search_engines/engines/search_engine_local.py +901 -0
local_deep_research/web_search_engines/engines/search_engine_local_all.py +153 -0
local_deep_research/web_search_engines/engines/search_engine_medrxiv.py +623 -0
local_deep_research/web_search_engines/engines/search_engine_pubmed.py +992 -0
local_deep_research/web_search_engines/engines/search_engine_serpapi.py +230 -0
local_deep_research/web_search_engines/engines/search_engine_wayback.py +474 -0
local_deep_research/web_search_engines/engines/search_engine_wikipedia.py +242 -0
local_deep_research/web_search_engines/full_search.py +254 -0
local_deep_research/web_search_engines/search_engine_base.py +197 -0
local_deep_research/web_search_engines/search_engine_factory.py +233 -0
local_deep_research/web_search_engines/search_engines_config.py +54 -0
local_deep_research-0.1.0.dist-info/LICENSE +21 -0
local_deep_research-0.1.0.dist-info/METADATA +328 -0
local_deep_research-0.1.0.dist-info/RECORD +56 -0
local_deep_research-0.1.0.dist-info/WHEEL +5 -0
local_deep_research-0.1.0.dist-info/entry_points.txt +3 -0
local_deep_research-0.1.0.dist-info/top_level.txt +1 -0

local_deep_research/web/templates/settings_dashboard.html ADDED Viewed

@@ -0,0 +1,207 @@
+<!DOCTYPE html>
+<html lang="en">
+<head>
+    <meta charset="UTF-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1.0">
+    <title>Deep Research System - Settings</title>
+    <link rel="stylesheet" href="{{ url_for('research.serve_static', path='css/styles.css') }}">
+    <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.0.0-beta3/css/all.min.css">
+    <link rel="icon" type="image/png" href="{{ url_for('static', filename='favicon.ico') }}">
+    <style>
+        .settings-cards {
+            display: grid;
+            grid-template-columns: repeat(auto-fill, minmax(300px, 1fr));
+            gap: 1.5rem;
+            margin-top: 1.5rem;
+        }
+        .settings-card {
+            display: flex;
+            flex-direction: column;
+            height: 100%;
+        }
+        .settings-card .card-content {
+            display: flex;
+            flex-direction: column;
+            flex: 1;
+        }
+        .settings-icon {
+            font-size: 2rem;
+            color: var(--accent-primary);
+            margin-bottom: 1rem;
+            text-align: center;
+        }
+        .settings-title {
+            font-size: 1.25rem;
+            font-weight: 600;
+            margin-bottom: 0.75rem;
+            color: var(--text-primary);
+        }
+        .settings-description {
+            color: var(--text-secondary);
+            margin-bottom: 1.5rem;
+            flex: 1;
+        }
+        .card-actions {
+            margin-top: auto;
+            text-align: center;
+        }
+    </style>
+</head>
+<body>
+    <div class="app-container">
+        <!-- Sidebar -->
+        <aside class="sidebar">
+            <div class="sidebar-header">
+                <h2 id="logo-link" style="cursor: pointer;"><i class="fas fa-atom"></i> Deep Research</h2>
+            </div>
+            <nav class="sidebar-nav">
+                <ul>
+                    <li data-page="new-research"><i class="fas fa-search"></i> <a href="{{ url_for('research.index') }}">New Research</a></li>
+                    <li data-page="history"><i class="fas fa-history"></i> <a href="{{ url_for('research.index') }}#history">History</a></li>
+                    <li class="active" data-page="settings"><i class="fas fa-cog"></i> Settings</li>
+                </ul>
+            </nav>
+            <div class="sidebar-footer">
+                <p>v0.1.0 | <i class="fas fa-brain"></i></p>
+            </div>
+        </aside>
+        <!-- Main Content -->
+        <main class="main-content">
+            <div class="page active" id="settings">
+                <div class="page-header">
+                    <h1>Settings</h1>
+                </div>
+                {% with messages = get_flashed_messages(with_categories=true) %}
+                    {% if messages %}
+                        {% for category, message in messages %}
+                            <div class="alert alert-{{ category }}">
+                                {{ message }}
+                            </div>
+                        {% endfor %}
+                    {% endif %}
+                {% endwith %}
+                <div class="settings-cards">
+                    <!-- Main Configuration Card -->
+                    <div class="card settings-card">
+                        <div class="card-content">
+                            <div class="settings-icon">
+                                <i class="fas fa-search"></i>
+                            </div>
+                            <h3 class="settings-title">Search Settings</h3>
+                            <p class="settings-description">
+                                Configure search parameters, results limits, general behavior, and output settings for the research system.
+                            </p>
+                            <div class="card-actions">
+                                <a href="{{ url_for('research.main_config_page') }}" class="btn btn-primary">
+                                    <i class="fas fa-cog"></i> Configure
+                                </a>
+                            </div>
+                        </div>
+                    </div>
+                    <!-- LLM Configuration Card -->
+                    <div class="card settings-card">
+                        <div class="card-content">
+                            <div class="settings-icon">
+                                <i class="fas fa-brain"></i>
+                            </div>
+                            <h3 class="settings-title">Language Model Settings</h3>
+                            <p class="settings-description">
+                                Set up the language models used for research, including model selection, parameters, and API settings.
+                            </p>
+                            <div class="card-actions">
+                                <a href="{{ url_for('research.llm_config_page') }}" class="btn btn-primary">
+                                    <i class="fas fa-code"></i> Edit Configuration
+                                </a>
+                            </div>
+                        </div>
+                    </div>
+                    <!-- Local Collections Card -->
+                    <div class="card settings-card">
+                        <div class="card-content">
+                            <div class="settings-icon">
+                                <i class="fas fa-folder"></i>
+                            </div>
+                            <h3 class="settings-title">Local Document Collections</h3>
+                            <p class="settings-description">
+                                Configure local document collections to search through your own files, papers, and research materials.
+                            </p>
+                            <div class="card-actions">
+                                <a href="{{ url_for('research.collections_config_page') }}" class="btn btn-primary">
+                                    <i class="fas fa-code"></i> Edit Configuration
+                                </a>
+                            </div>
+                        </div>
+                    </div>
+                    <div class="card settings-card">
+                        <div class="card-content">
+                            <div class="settings-icon">
+                                <i class="fas fa-key"></i>
+                            </div>
+                            <h3 class="settings-title">API Keys</h3>
+                            <p class="settings-description">
+                                Configure API keys for external services like OpenAI, Anthropic, and search providers.
+                            </p>
+                            <div class="card-actions">
+                                <a href="{{ url_for('research.api_keys_config_page') }}" class="btn btn-primary">
+                                    <i class="fas fa-cog"></i> Configure
+                                </a>
+                            </div>
+                        </div>
+                    </div>
+                    <div class="card settings-card">
+                        <div class="card-content">
+                            <div class="settings-icon">
+                                <i class="fas fa-search-plus"></i>
+                            </div>
+                            <h3 class="settings-title">Search Engines Settings</h3>
+                            <p class="settings-description">
+                                Configure search engines, their parameters, and specify which search engines to use for different types of queries.
+                            </p>
+                            <div class="card-actions">
+                                <a href="{{ url_for('research.search_engines_config_page') }}" class="btn btn-primary">
+                                    <i class="fas fa-cog"></i> Configure
+                                </a>
+                            </div>
+                        </div>
+                    </div>
+                </div>
+            </div>
+        </main>
+    </div>
+    <!-- Mobile Tab Bar -->
+    <nav class="mobile-tab-bar">
+        <ul>
+            <li data-page="new-research">
+                <a href="{{ url_for('research.index') }}">
+                    <i class="fas fa-search"></i>
+                    <span>Research</span>
+                </a>
+            </li>
+            <li data-page="history">
+                <a href="{{ url_for('research.index') }}#history">
+                    <i class="fas fa-history"></i>
+                    <span>History</span>
+                </a>
+            </li>
+            <li class="active" data-page="settings">
+                <i class="fas fa-cog"></i>
+                <span>Settings</span>
+            </li>
+        </ul>
+    </nav>
+    <script>
+        // Make the logo clickable to go back to home
+        document.getElementById('logo-link').addEventListener('click', function() {
+            window.location.href = "{{ url_for('research.index') }}";
+        });
+    </script>
+</body>
+</html>

local_deep_research/web_search_engines/__init__.py ADDED Viewed

File without changes

local_deep_research/web_search_engines/engines/__init__.py ADDED Viewed

File without changes

local_deep_research/web_search_engines/engines/full_search.py ADDED Viewed

@@ -0,0 +1,128 @@
+import justext
+from langchain_community.document_loaders import AsyncChromiumLoader
+from langchain_community.document_transformers import BeautifulSoupTransformer
+from langchain_core.language_models import BaseLLM
+from typing import List, Dict
+import json, os
+from .utilties.search_utilities import remove_think_tags
+from datetime import datetime
+from local_deep_research import config
+class FullSearchResults:
+    def __init__(
+        self,
+        llm: BaseLLM,  # Add LLM parameter
+        web_search: list,
+        output_format: str = "list",
+        language: str = "English",
+        max_results: int = 10,
+        region: str = "wt-wt",
+        time: str = "y",
+        safesearch: str = "Moderate"
+    ):
+        self.llm = llm
+        self.output_format = output_format
+        self.language = language
+        self.max_results = max_results
+        self.region = region
+        self.time = time
+        self.safesearch = safesearch
+        self.web_search =web_search
+        os.environ["USER_AGENT"] = "Local Deep Research/1.0"
+        self.bs_transformer = BeautifulSoupTransformer()
+        self.tags_to_extract = ["p", "div", "span"]
+    def check_urls(self, results: List[Dict], query: str) -> List[Dict]:
+        if not results:
+            return results
+        now = datetime.now()
+        current_time = now.strftime("%Y-%m-%d")
+        prompt = f"""ONLY Return a JSON array. The response contains no letters. Evaluate these URLs for:
+            1. Timeliness (today: {current_time})
+            2. Factual accuracy (cross-reference major claims)
+            3. Source reliability (prefer official company websites, established news outlets)
+            4. Direct relevance to query: {query}
+            URLs to evaluate:
+            {results}
+            Return a JSON array of indices (0-based) for sources that meet ALL criteria.
+            ONLY Return a JSON array of indices (0-based) and nothing else. No letters.
+            Example response: \n[0, 2, 4]\n\n"""
+        try:
+            # Get LLM's evaluation
+            response = self.llm.invoke(prompt)
+            # print(response)
+            good_indices = json.loads(remove_think_tags(response.content))
+            # Return only the results with good URLs
+            return [r for i, r in enumerate(results) if i in good_indices]
+        except Exception as e:
+            print(f"URL filtering error: {e}")
+            return []
+    def remove_boilerplate(self, html: str) -> str:
+        if not html or not html.strip():
+            return ""
+        paragraphs = justext.justext(html, justext.get_stoplist(self.language))
+        cleaned = "\n".join([p.text for p in paragraphs if not p.is_boilerplate])
+        return cleaned
+    def run(self, query: str):
+        nr_full_text = 0
+        # Step 1: Get search results from DuckDuckGo
+        search_results = self.web_search.invoke(query)
+        #print(type(search_results))
+        if not isinstance(search_results, list):
+            raise ValueError("Expected the search results in list format.")
+        # Step 2: Filter URLs using LLM
+        if config.QUALITY_CHECK_DDG_URLS:
+            filtered_results = self.check_urls(search_results, query)
+        else:
+            filtered_results = search_results
+        # Extract URLs from filtered results
+        urls = [result.get("link") for result in filtered_results if result.get("link")]
+        print(urls)
+        if not urls:
+            print("\n === NO VALID LINKS ===\n")
+            return []
+        # Step 3: Download the full HTML pages for filtered URLs
+        loader = AsyncChromiumLoader(urls)
+        html_docs = loader.load()
+        # Step 4: Process the HTML using BeautifulSoupTransformer
+        full_docs = self.bs_transformer.transform_documents(
+            html_docs, tags_to_extract=self.tags_to_extract
+        )
+        # Step 5: Remove boilerplate from each document
+        url_to_content = {}
+        for doc in full_docs:
+            nr_full_text = nr_full_text + 1
+            source = doc.metadata.get("source")
+            if source:
+                cleaned_text = self.remove_boilerplate(doc.page_content)
+                url_to_content[source] = cleaned_text
+        # Attach the cleaned full content to each filtered result
+        for result in filtered_results:
+            link = result.get("link")
+            result["full_content"] = url_to_content.get(link, None)
+        print("FULL SEARCH WITH FILTERED URLS")
+        print("Full text retrieved: ", nr_full_text)
+        return filtered_results
+    def invoke(self, query: str):
+        return self.run(query)
+    def __call__(self, query: str):
+        return self.invoke(query)

local_deep_research/web_search_engines/engines/meta_search_engine.py ADDED Viewed

@@ -0,0 +1,274 @@
+import logging
+import os
+from typing import Dict, List, Any, Optional
+from local_deep_research.web_search_engines.search_engine_base import BaseSearchEngine
+from local_deep_research.web_search_engines.search_engines_config import SEARCH_ENGINES
+from local_deep_research.web_search_engines.search_engine_factory import create_search_engine
+from local_deep_research.web_search_engines.engines.search_engine_wikipedia import WikipediaSearchEngine
+from local_deep_research import config
+# Setup logging
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+class MetaSearchEngine(BaseSearchEngine):
+    """
+    LLM-powered meta search engine that intelligently selects and uses
+    the appropriate search engines based on query analysis
+    """
+    def __init__(self,
+                 llm,
+                 max_results: int = 10,
+                 use_api_key_services: bool = True,
+                 max_engines_to_try: int = 3,
+                 max_filtered_results: Optional[int] = None,
+                 **kwargs):
+        """
+        Initialize the meta search engine.
+        Args:
+            llm: Language model instance for query classification and relevance filtering
+            max_results: Maximum number of search results to return
+            use_api_key_services: Whether to include services that require API keys
+            max_engines_to_try: Maximum number of engines to try before giving up
+            max_filtered_results: Maximum number of results to keep after filtering
+            **kwargs: Additional parameters (ignored but accepted for compatibility)
+        """
+        # Initialize the BaseSearchEngine with the LLM and max_filtered_results
+        super().__init__(llm=llm, max_filtered_results=max_filtered_results)
+        self.max_results = max_results
+        self.use_api_key_services = use_api_key_services
+        self.max_engines_to_try = max_engines_to_try
+        # Cache for engine instances
+        self.engine_cache = {}
+        # Get available engines (excluding 'meta' and 'auto')
+        self.available_engines = self._get_available_engines()
+        logger.info(f"Meta Search Engine initialized with {len(self.available_engines)} available engines: {', '.join(self.available_engines)}")
+        # Create a fallback engine in case everything else fails
+        self.fallback_engine = WikipediaSearchEngine(
+            max_results=max_results,
+            llm=llm,
+            max_filtered_results=max_filtered_results
+        )
+    def _get_available_engines(self) -> List[str]:
+        """Get list of available engines, excluding 'meta' and 'auto'"""
+        # Filter out 'meta' and 'auto' and check API key availability
+        available = []
+        for name, config in SEARCH_ENGINES.items():
+            if name in ["meta", "auto"]:
+                continue
+            if config.get("requires_api_key", False) and not self.use_api_key_services:
+                continue
+            if config.get("requires_api_key", False):
+                api_key_env = config.get("api_key_env")
+                api_key = os.getenv(api_key_env) if api_key_env else None
+                if not api_key:
+                    continue
+            available.append(name)
+        # Make sure we have at least one engine available
+        if not available and "wikipedia" in SEARCH_ENGINES:
+            available.append("wikipedia")
+        return available
+    def analyze_query(self, query: str) -> List[str]:
+        """
+        Use the LLM to analyze the query and return a ranked list of
+        recommended search engines to try
+        """
+        if not self.available_engines:
+            logger.warning("No search engines available")
+            return []
+        # Create engine descriptions for the prompt
+        engine_descriptions = "\n".join([
+            f"- {name.upper()}: Good for {', '.join(SEARCH_ENGINES[name]['strengths'][:3])}. "
+            f"Weaknesses: {', '.join(SEARCH_ENGINES[name]['weaknesses'][:2])}. "
+            f"Reliability: {SEARCH_ENGINES[name]['reliability']*100:.0f}%"
+            for name in self.available_engines
+        ])
+        prompt = f"""Analyze this search query and rank the available search engines in order of most to least appropriate for answering it.
+Query: "{query}"
+Available search engines:
+{engine_descriptions}
+Consider:
+1. The nature of the query (factual, academic, product-related, news, etc.)
+2. The strengths and weaknesses of each engine
+3. The reliability of each engine
+Return ONLY a comma-separated list of search engine names in your recommended order. Example: "wikipedia,arxiv,duckduckgo"
+Do not include any engines that are not listed above. Only return the comma-separated list, nothing else."""
+        # Get response from LLM
+        try:
+            response = self.llm.invoke(prompt)
+            content = response.content.strip()
+            # Parse the response into a list of engine names
+            engine_names = [name.strip().lower() for name in content.split(',')]
+            # Filter out any invalid engine names
+            valid_engines = [name for name in engine_names if name in self.available_engines]
+            # If no valid engines were returned, use default order based on reliability
+            if not valid_engines:
+                valid_engines = sorted(
+                    self.available_engines,
+                    key=lambda x: SEARCH_ENGINES[x]["reliability"],
+                    reverse=True
+                )
+            return valid_engines
+        except Exception as e:
+            logger.error(f"Error analyzing query with LLM: {str(e)}")
+            # Fall back to reliability-based ordering
+            return sorted(
+                self.available_engines,
+                key=lambda x: SEARCH_ENGINES[x]["reliability"],
+                reverse=True
+            )
+    def _get_previews(self, query: str) -> List[Dict[str, Any]]:
+        """
+        Get preview information by selecting the best search engine for this query.
+        Args:
+            query: The search query
+        Returns:
+            List of preview dictionaries
+        """
+        # Get ranked list of engines for this query
+        ranked_engines = self.analyze_query(query)
+        if not ranked_engines:
+            logger.warning("No suitable search engines found for query, using fallback engine")
+            return self.fallback_engine._get_previews(query)
+        # Limit the number of engines to try
+        engines_to_try = ranked_engines[:self.max_engines_to_try]
+        logger.info(f"Search plan created. Will try these engines in order: {', '.join(engines_to_try)}")
+        all_errors = []
+        # Try each engine in order
+        for engine_name in engines_to_try:
+            logger.info(f"Trying search engine: {engine_name}")
+            # Get or create the engine instance
+            engine = self._get_engine_instance(engine_name)
+            if not engine:
+                logger.warning(f"Failed to initialize {engine_name}, skipping")
+                all_errors.append(f"Failed to initialize {engine_name}")
+                continue
+            try:
+                # Get previews from this engine
+                previews = engine._get_previews(query)
+                # If search was successful, return results
+                if previews and len(previews) > 0:
+                    logger.info(f"Successfully got {len(previews)} preview results from {engine_name}")
+                    # Store selected engine for later use
+                    self._selected_engine = engine
+                    self._selected_engine_name = engine_name
+                    return previews
+                logger.info(f"{engine_name} returned no previews")
+                all_errors.append(f"{engine_name} returned no previews")
+            except Exception as e:
+                error_msg = f"Error getting previews from {engine_name}: {str(e)}"
+                logger.error(error_msg)
+                all_errors.append(error_msg)
+        # If we reach here, all engines failed, use fallback
+        logger.warning(f"All engines failed or returned no preview results: {', '.join(all_errors)}")
+        logger.info("Using fallback Wikipedia engine for previews")
+        self._selected_engine = self.fallback_engine
+        self._selected_engine_name = "wikipedia"
+        return self.fallback_engine._get_previews(query)
+    def _get_full_content(self, relevant_items: List[Dict[str, Any]]) -> List[Dict[str, Any]]:
+        """
+        Get full content using the engine that provided the previews.
+        Args:
+            relevant_items: List of relevant preview dictionaries
+        Returns:
+            List of result dictionaries with full content
+        """
+        # Check if we should get full content
+        if hasattr(config, 'SEARCH_SNIPPETS_ONLY') and config.SEARCH_SNIPPETS_ONLY:
+            logger.info("Snippet-only mode, skipping full content retrieval")
+            return relevant_items
+        logger.info("Getting full content for relevant items")
+        # Use the selected engine to get full content
+        if hasattr(self, '_selected_engine'):
+            try:
+                logger.info(f"Using {self._selected_engine_name} to get full content")
+                return self._selected_engine._get_full_content(relevant_items)
+            except Exception as e:
+                logger.error(f"Error getting full content from {self._selected_engine_name}: {str(e)}")
+                # Fall back to returning relevant items without full content
+                return relevant_items
+        else:
+            logger.warning("No engine was selected during preview phase, returning relevant items as-is")
+            return relevant_items
+    def _get_engine_instance(self, engine_name: str) -> Optional[BaseSearchEngine]:
+        """Get or create an instance of the specified search engine"""
+        # Return cached instance if available
+        if engine_name in self.engine_cache:
+            return self.engine_cache[engine_name]
+        # Create a new instance
+        engine = None
+        try:
+            # Only pass parameters that all engines accept
+            common_params = {
+                "llm": self.llm,
+                "max_results": self.max_results
+            }
+            # Add max_filtered_results if specified
+            if self.max_filtered_results is not None:
+                common_params["max_filtered_results"] = self.max_filtered_results
+            engine = create_search_engine(
+                engine_name,
+                **common_params
+            )
+        except Exception as e:
+            logger.error(f"Error creating engine instance for {engine_name}: {str(e)}")
+            return None
+        if engine:
+            # Cache the instance
+            self.engine_cache[engine_name] = engine
+        return engine
+    def invoke(self, query: str) -> List[Dict[str, Any]]:
+        """Compatibility method for LangChain tools"""
+        return self.run(query)