PyPI - aiagents4pharma - Versions diffs - 1.43.0__py3-none-any.whl → 1.45.0__py3-none-any.whl - Mend

aiagents4pharma 1.43.0py3-none-any.whl → 1.45.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (290) hide show

aiagents4pharma/talk2scholars/tools/paper_download/utils/base_paper_downloader.py CHANGED Viewed

@@ -8,7 +8,7 @@ import logging
 import re
 import tempfile
 from abc import ABC, abstractmethod
-from typing import Any, Dict, List, Optional, Tuple
+from typing import Any
 import requests
@@ -58,8 +58,8 @@ class BasePaperDownloader(ABC):
     @abstractmethod
     def extract_paper_metadata(
-        self, metadata: Any, identifier: str, pdf_result: Optional[Tuple[str, str]]
-    ) -> Dict[str, Any]:
+        self, metadata: Any, identifier: str, pdf_result: tuple[str, str] | None
+    ) -> dict[str, Any]:
         """
         Extract and structure metadata into standardized format.
@@ -89,9 +89,7 @@ class BasePaperDownloader(ABC):
         raise NotImplementedError
     # Common methods shared by all services
-    def download_pdf_to_temp(
-        self, pdf_url: str, identifier: str
-    ) -> Optional[Tuple[str, str]]:
+    def download_pdf_to_temp(self, pdf_url: str, identifier: str) -> tuple[str, str] | None:
         """
         Download PDF from URL to a temporary file.
@@ -103,9 +101,7 @@ class BasePaperDownloader(ABC):
             Tuple of (temp_file_path, filename) or None if failed
         """
         if not pdf_url:
-            logger.info(
-                "No PDF URL available for %s %s", self.get_identifier_name(), identifier
-            )
+            logger.info("No PDF URL available for %s %s", self.get_identifier_name(), identifier)
             return None
         try:
@@ -141,14 +137,11 @@ class BasePaperDownloader(ABC):
             if "filename=" in content_disposition:
                 try:
                     filename_match = re.search(
                         r'filename[*]?=(?:"([^"]+)"|([^;]+))', content_disposition
                     )
                     if filename_match:
-                        extracted_filename = filename_match.group(
-                            1
-                        ) or filename_match.group(2)
+                        extracted_filename = filename_match.group(1) or filename_match.group(2)
                         extracted_filename = extracted_filename.strip().strip('"')
                         if extracted_filename and extracted_filename.endswith(".pdf"):
                             filename = extracted_filename
@@ -189,7 +182,7 @@ class BasePaperDownloader(ABC):
         return snippet
-    def create_error_entry(self, identifier: str, error_msg: str) -> Dict[str, Any]:
+    def create_error_entry(self, identifier: str, error_msg: str) -> dict[str, Any]:
         """
         Create standardized error entry for failed paper processing.
@@ -215,7 +208,7 @@ class BasePaperDownloader(ABC):
             # Service-specific identifier field will be added by subclasses
         }
-    def build_summary(self, article_data: Dict[str, Any]) -> str:
+    def build_summary(self, article_data: dict[str, Any]) -> str:
         """
         Build a summary string for up to three papers with snippets.
@@ -226,7 +219,7 @@ class BasePaperDownloader(ABC):
             Formatted summary string
         """
         top = list(article_data.values())[:3]
-        lines: List[str] = []
+        lines: list[str] = []
         downloaded_count = sum(
             1
             for paper in article_data.values()
@@ -240,7 +233,7 @@ class BasePaperDownloader(ABC):
             snippet = self.get_snippet(paper.get("Abstract", ""))
             # Build paper line with service-specific identifier info
-            line = f"{idx+1}. {title}"
+            line = f"{idx + 1}. {title}"
             line += self._get_paper_identifier_info(paper)
             line += f"\n   Access: {access_type}"
@@ -264,7 +257,7 @@ class BasePaperDownloader(ABC):
         )
     @abstractmethod
-    def _get_paper_identifier_info(self, paper: Dict[str, Any]) -> str:
+    def _get_paper_identifier_info(self, paper: dict[str, Any]) -> str:
         """
         Get service-specific identifier info for paper summary.
@@ -276,7 +269,7 @@ class BasePaperDownloader(ABC):
         """
         raise NotImplementedError
-    def process_identifiers(self, identifiers: List[str]) -> Dict[str, Any]:
+    def process_identifiers(self, identifiers: list[str]) -> dict[str, Any]:
         """
         Main processing loop for downloading papers.
@@ -293,7 +286,7 @@ class BasePaperDownloader(ABC):
             identifiers,
         )
-        article_data: Dict[str, Any] = {}
+        article_data: dict[str, Any] = {}
         for identifier in identifiers:
             logger.info("Processing %s: %s", self.get_identifier_name(), identifier)
@@ -332,7 +325,7 @@ class BasePaperDownloader(ABC):
         return article_data
     @abstractmethod
-    def _add_service_identifier(self, entry: Dict[str, Any], identifier: str) -> None:
+    def _add_service_identifier(self, entry: dict[str, Any], identifier: str) -> None:
         """
         Add service-specific identifier field to entry.

aiagents4pharma/talk2scholars/tools/paper_download/utils/biorxiv_downloader.py CHANGED Viewed

@@ -6,7 +6,7 @@ BioRxiv paper downloader implementation.
 import logging
 import re
 import tempfile
-from typing import Any, Dict, Optional, Tuple
+from typing import Any
 import cloudscraper
 import requests
@@ -43,9 +43,7 @@ class BiorxivDownloader(BasePaperDownloader):
         # CloudScraper specific settings
         self.cf_clearance_timeout = getattr(config, "cf_clearance_timeout", 30)
         self.session_reuse = getattr(config, "session_reuse", True)
-        self.browser_config_type = getattr(config, "browser_config", {}).get(
-            "type", "custom"
-        )
+        self.browser_config_type = getattr(config, "browser_config", {}).get("type", "custom")
         # Initialize shared CloudScraper session if enabled
         self._scraper = None
@@ -55,7 +53,7 @@ class BiorxivDownloader(BasePaperDownloader):
                 delay=self.cf_clearance_timeout,
             )
-    def fetch_metadata(self, identifier: str) -> Dict[str, Any]:
+    def fetch_metadata(self, identifier: str) -> dict[str, Any]:
         """
         Fetch paper metadata from bioRxiv API.
@@ -88,7 +86,7 @@ class BiorxivDownloader(BasePaperDownloader):
         return paper_data
-    def construct_pdf_url(self, metadata: Dict[str, Any], identifier: str) -> str:
+    def construct_pdf_url(self, metadata: dict[str, Any], identifier: str) -> str:
         """
         Construct PDF URL from bioRxiv metadata and DOI.
@@ -111,9 +109,7 @@ class BiorxivDownloader(BasePaperDownloader):
         return pdf_url
-    def download_pdf_to_temp(
-        self, pdf_url: str, identifier: str
-    ) -> Optional[Tuple[str, str]]:
+    def download_pdf_to_temp(self, pdf_url: str, identifier: str) -> tuple[str, str] | None:
         """
         Override base method to use CloudScraper for bioRxiv PDF downloads.
         Includes landing page visit to handle CloudFlare protection.
@@ -188,9 +184,7 @@ class BiorxivDownloader(BasePaperDownloader):
                     r'filename[*]?=(?:"([^"]+)"|([^;]+))', content_disposition
                 )
                 if filename_match:
-                    extracted_filename = filename_match.group(
-                        1
-                    ) or filename_match.group(2)
+                    extracted_filename = filename_match.group(1) or filename_match.group(2)
                     extracted_filename = extracted_filename.strip().strip('"')
                     if extracted_filename and extracted_filename.endswith(".pdf"):
                         filename = extracted_filename
@@ -202,10 +196,10 @@ class BiorxivDownloader(BasePaperDownloader):
     def extract_paper_metadata(
         self,
-        metadata: Dict[str, Any],
+        metadata: dict[str, Any],
         identifier: str,
-        pdf_result: Optional[Tuple[str, str]],
-    ) -> Dict[str, Any]:
+        pdf_result: tuple[str, str] | None,
+    ) -> dict[str, Any]:
         """
         Extract structured metadata from bioRxiv API response.
@@ -234,9 +228,7 @@ class BiorxivDownloader(BasePaperDownloader):
             **pdf_metadata,
         }
-    def _extract_basic_metadata(
-        self, paper: Dict[str, Any], identifier: str
-    ) -> Dict[str, Any]:
+    def _extract_basic_metadata(self, paper: dict[str, Any], identifier: str) -> dict[str, Any]:
         """Extract basic metadata from paper data."""
         # Extract basic fields
         title = paper.get("title", "N/A").strip()
@@ -267,8 +259,8 @@ class BiorxivDownloader(BasePaperDownloader):
         return [author.strip() for author in authors_str.split(";") if author.strip()]
     def _extract_pdf_metadata(
-        self, pdf_result: Optional[Tuple[str, str]], identifier: str
-    ) -> Dict[str, Any]:
+        self, pdf_result: tuple[str, str] | None, identifier: str
+    ) -> dict[str, Any]:
         """Extract PDF-related metadata."""
         if pdf_result:
             temp_file_path, filename = pdf_result
@@ -301,7 +293,7 @@ class BiorxivDownloader(BasePaperDownloader):
         # Sanitize DOI for filename use
         return f"{identifier.replace('/', '_').replace('.', '_')}.pdf"
-    def _get_paper_identifier_info(self, paper: Dict[str, Any]) -> str:
+    def _get_paper_identifier_info(self, paper: dict[str, Any]) -> str:
         """Get bioRxiv-specific identifier info for paper summary."""
         doi = paper.get("DOI", "N/A")
         pub_date = paper.get("Publication Date", "N/A")
@@ -313,7 +305,7 @@ class BiorxivDownloader(BasePaperDownloader):
         return info
-    def _add_service_identifier(self, entry: Dict[str, Any], identifier: str) -> None:
+    def _add_service_identifier(self, entry: dict[str, Any], identifier: str) -> None:
         """Add DOI and bioRxiv-specific fields to entry."""
         entry["DOI"] = identifier
         entry["Category"] = "N/A"

aiagents4pharma/talk2scholars/tools/paper_download/utils/medrxiv_downloader.py CHANGED Viewed

@@ -4,7 +4,7 @@ MedRxiv paper downloader implementation.
 """
 import logging
-from typing import Any, Dict, Optional, Tuple
+from typing import Any
 import requests
@@ -27,7 +27,7 @@ class MedrxivDownloader(BasePaperDownloader):
         )
         self.default_version = getattr(config, "default_version", "1")
-    def fetch_metadata(self, identifier: str) -> Dict[str, Any]:
+    def fetch_metadata(self, identifier: str) -> dict[str, Any]:
         """
         Fetch paper metadata from medRxiv API.
@@ -54,7 +54,7 @@ class MedrxivDownloader(BasePaperDownloader):
         return paper_data
-    def construct_pdf_url(self, metadata: Dict[str, Any], identifier: str) -> str:
+    def construct_pdf_url(self, metadata: dict[str, Any], identifier: str) -> str:
         """
         Construct PDF URL from medRxiv metadata and DOI.
@@ -79,10 +79,10 @@ class MedrxivDownloader(BasePaperDownloader):
     def extract_paper_metadata(
         self,
-        metadata: Dict[str, Any],
+        metadata: dict[str, Any],
         identifier: str,
-        pdf_result: Optional[Tuple[str, str]],
-    ) -> Dict[str, Any]:
+        pdf_result: tuple[str, str] | None,
+    ) -> dict[str, Any]:
         """
         Extract structured metadata from medRxiv API response.
@@ -111,9 +111,7 @@ class MedrxivDownloader(BasePaperDownloader):
             **pdf_metadata,
         }
-    def _extract_basic_metadata(
-        self, paper: Dict[str, Any], identifier: str
-    ) -> Dict[str, Any]:
+    def _extract_basic_metadata(self, paper: dict[str, Any], identifier: str) -> dict[str, Any]:
         """Extract basic metadata from paper data."""
         # Extract basic fields
         title = paper.get("title", "N/A").strip()
@@ -144,8 +142,8 @@ class MedrxivDownloader(BasePaperDownloader):
         return [author.strip() for author in authors_str.split(";") if author.strip()]
     def _extract_pdf_metadata(
-        self, pdf_result: Optional[Tuple[str, str]], identifier: str
-    ) -> Dict[str, Any]:
+        self, pdf_result: tuple[str, str] | None, identifier: str
+    ) -> dict[str, Any]:
         """Extract PDF-related metadata."""
         if pdf_result:
             temp_file_path, filename = pdf_result
@@ -178,7 +176,7 @@ class MedrxivDownloader(BasePaperDownloader):
         # Sanitize DOI for filename use
         return f"{identifier.replace('/', '_').replace('.', '_')}.pdf"
-    def _get_paper_identifier_info(self, paper: Dict[str, Any]) -> str:
+    def _get_paper_identifier_info(self, paper: dict[str, Any]) -> str:
         """Get medRxiv-specific identifier info for paper summary."""
         doi = paper.get("DOI", "N/A")
         pub_date = paper.get("Publication Date", "N/A")
@@ -190,7 +188,7 @@ class MedrxivDownloader(BasePaperDownloader):
         return info
-    def _add_service_identifier(self, entry: Dict[str, Any], identifier: str) -> None:
+    def _add_service_identifier(self, entry: dict[str, Any], identifier: str) -> None:
         """Add DOI and medRxiv-specific fields to entry."""
         entry["DOI"] = identifier
         entry["Category"] = "N/A"

aiagents4pharma/talk2scholars/tools/paper_download/utils/pubmed_downloader.py CHANGED Viewed

@@ -5,7 +5,7 @@ PubMed paper downloader implementation.
 import logging
 import xml.etree.ElementTree as ET
-from typing import Any, Dict, Optional, Tuple, cast
+from typing import Any, cast
 import requests
 from bs4 import BeautifulSoup, Tag
@@ -37,7 +37,7 @@ class PubmedDownloader(BasePaperDownloader):
         self.pdf_meta_name = getattr(config, "pdf_meta_name", "citation_pdf_url")
         self.default_error_code = getattr(config, "default_error_code", "unknown")
-    def fetch_metadata(self, identifier: str) -> Dict[str, Any]:
+    def fetch_metadata(self, identifier: str) -> dict[str, Any]:
         """
         Fetch paper metadata from PubMed ID Converter API.
@@ -52,9 +52,7 @@ class PubmedDownloader(BasePaperDownloader):
             RuntimeError: If no records found in response
         """
         query_url = f"{self.id_converter_url}?ids={identifier}&format={self.id_converter_format}"
-        logger.info(
-            "Fetching metadata from ID converter for PMID %s: %s", identifier, query_url
-        )
+        logger.info("Fetching metadata from ID converter for PMID %s: %s", identifier, query_url)
         response = requests.get(query_url, timeout=self.request_timeout)
         response.raise_for_status()
@@ -67,7 +65,7 @@ class PubmedDownloader(BasePaperDownloader):
         return result
-    def construct_pdf_url(self, metadata: Dict[str, Any], identifier: str) -> str:
+    def construct_pdf_url(self, metadata: dict[str, Any], identifier: str) -> str:
         """
         Construct PDF URL using multiple fallback strategies.
@@ -145,18 +143,14 @@ class PubmedDownloader(BasePaperDownloader):
             if error_elem is not None:
                 error_code = error_elem.get("code", self.default_error_code)
                 error_text = error_elem.text or "unknown error"
-                logger.info(
-                    "OA API error for PMCID %s: %s - %s", pmcid, error_code, error_text
-                )
+                logger.info("OA API error for PMCID %s: %s - %s", pmcid, error_code, error_text)
                 return ""
             # Look for PDF link
             pdf_link = root.find(".//link[@format='pdf']")
             if pdf_link is not None:
                 pdf_url = pdf_link.get("href", "")
-                logger.info(
-                    "Found PDF URL from OA API for PMCID %s: %s", pmcid, pdf_url
-                )
+                logger.info("Found PDF URL from OA API for PMCID %s: %s", pmcid, pdf_url)
                 # Convert FTP links to HTTPS for download compatibility
                 if pdf_url.startswith(self.ftp_base_url):
@@ -188,15 +182,11 @@ class PubmedDownloader(BasePaperDownloader):
     def _try_pmc_page_scraping(self, pmcid: str) -> str:
         """Try scraping PMC page for PDF meta tag."""
         pmc_page_url = f"{self.pmc_page_base_url}/{pmcid}/"
-        logger.info(
-            "Scraping PMC page for PDF meta tag for %s: %s", pmcid, pmc_page_url
-        )
+        logger.info("Scraping PMC page for PDF meta tag for %s: %s", pmcid, pmc_page_url)
         try:
             headers = {"User-Agent": self.user_agent}
-            response = requests.get(
-                pmc_page_url, headers=headers, timeout=self.request_timeout
-            )
+            response = requests.get(pmc_page_url, headers=headers, timeout=self.request_timeout)
             response.raise_for_status()
             soup = BeautifulSoup(response.content, "html.parser")
@@ -238,10 +228,10 @@ class PubmedDownloader(BasePaperDownloader):
     def extract_paper_metadata(
         self,
-        metadata: Dict[str, Any],
+        metadata: dict[str, Any],
         identifier: str,
-        pdf_result: Optional[Tuple[str, str]],
-    ) -> Dict[str, Any]:
+        pdf_result: tuple[str, str] | None,
+    ) -> dict[str, Any]:
         """
         Extract structured metadata from PubMed ID converter response.
@@ -310,15 +300,11 @@ class PubmedDownloader(BasePaperDownloader):
     def get_snippet(self, abstract: str) -> str:
         """Override to handle PubMed-specific abstract placeholder."""
-        if (
-            not abstract
-            or abstract == "N/A"
-            or abstract == "Abstract available in PubMed"
-        ):
+        if not abstract or abstract == "N/A" or abstract == "Abstract available in PubMed":
             return ""
         return super().get_snippet(abstract)
-    def _get_paper_identifier_info(self, paper: Dict[str, Any]) -> str:
+    def _get_paper_identifier_info(self, paper: dict[str, Any]) -> str:
         """Get PubMed-specific identifier info for paper summary."""
         pmid = paper.get("PMID", "N/A")
         pmcid = paper.get("PMCID", "N/A")
@@ -329,7 +315,7 @@ class PubmedDownloader(BasePaperDownloader):
         return info
-    def _add_service_identifier(self, entry: Dict[str, Any], identifier: str) -> None:
+    def _add_service_identifier(self, entry: dict[str, Any], identifier: str) -> None:
         """Add PMID and PubMed-specific fields to entry."""
         entry["PMID"] = identifier
         entry["PMCID"] = "N/A"

aiagents4pharma/talk2scholars/tools/pdf/question_and_answer.py CHANGED Viewed

@@ -25,11 +25,11 @@ from langgraph.prebuilt import InjectedState
 from langgraph.types import Command
 from pydantic import BaseModel, Field
+from .utils.answer_formatter import format_answer
 from .utils.generate_answer import load_hydra_config
-from .utils.tool_helper import QAToolHelper
 from .utils.paper_loader import load_all_papers
 from .utils.rag_pipeline import retrieve_and_rerank_chunks
-from .utils.answer_formatter import format_answer
+from .utils.tool_helper import QAToolHelper
 # Helper for managing state, vectorstore, reranking, and formatting
 helper = QAToolHelper()
@@ -56,9 +56,7 @@ class QuestionAndAnswerInput(BaseModel):
         - llm_model: chat/LLM instance for answer generation.
     """
-    question: str = Field(
-        description="User question for generating a PDF-based answer."
-    )
+    question: str = Field(description="User question for generating a PDF-based answer.")
     tool_call_id: Annotated[str, InjectedToolCallId]
     state: Annotated[dict, InjectedState]
@@ -133,9 +131,7 @@ def question_and_answer(
     )
     # Retrieve and rerank chunks in one step
-    reranked_chunks = retrieve_and_rerank_chunks(
-        vs, question, config, call_id, helper.has_gpu
-    )
+    reranked_chunks = retrieve_and_rerank_chunks(vs, question, config, call_id, helper.has_gpu)
     if not reranked_chunks:
         msg = f"No relevant chunks found for question: '{question}'"

aiagents4pharma/talk2scholars/tools/pdf/utils/__init__.py CHANGED Viewed

@@ -2,20 +2,22 @@
 Utility modules for the PDF question_and_answer tool.
 """
-from . import answer_formatter
-from . import batch_processor
-from . import collection_manager
-from . import generate_answer
-from . import get_vectorstore
-from . import gpu_detection
-from . import nvidia_nim_reranker
-from . import paper_loader
-from . import rag_pipeline
-from . import retrieve_chunks
-from . import singleton_manager
-from . import tool_helper
-from . import vector_normalization
-from . import vector_store
+from . import (
+    answer_formatter,
+    batch_processor,
+    collection_manager,
+    generate_answer,
+    get_vectorstore,
+    gpu_detection,
+    nvidia_nim_reranker,
+    paper_loader,
+    rag_pipeline,
+    retrieve_chunks,
+    singleton_manager,
+    tool_helper,
+    vector_normalization,
+    vector_store,
+)
 __all__ = [
     "answer_formatter",

aiagents4pharma/talk2scholars/tools/pdf/utils/answer_formatter.py CHANGED Viewed

@@ -3,7 +3,7 @@ Format the final answer text with source attributions and hardware info.
 """
 import logging
-from typing import Any, Dict, List
+from typing import Any
 from .generate_answer import generate_answer
@@ -12,9 +12,9 @@ logger = logging.getLogger(__name__)
 def format_answer(
     question: str,
-    chunks: List[Any],
+    chunks: list[Any],
     llm: Any,
-    articles: Dict[str, Any],
+    articles: dict[str, Any],
     config: Any,
     **kwargs: Any,
 ) -> str:
@@ -27,7 +27,7 @@ def format_answer(
     answer = result.get("output_text", "No answer generated.")
     # Get unique paper titles for source attribution
-    titles: Dict[str, str] = {}
+    titles: dict[str, str] = {}
     for pid in result.get("papers_used", []):
         if pid in articles:
             titles[pid] = articles[pid].get("Title", "Unknown paper")

aiagents4pharma/talk2scholars/tools/pdf/utils/batch_processor.py CHANGED Viewed

@@ -5,7 +5,7 @@ Batch processing utilities for adding multiple papers to vector store.
 import concurrent.futures
 import logging
 import time
-from typing import Any, Dict, List, Set, Tuple
+from typing import Any
 from langchain_core.documents import Document
@@ -15,11 +15,11 @@ logger = logging.getLogger(__name__)
 def add_papers_batch(
-    papers_to_add: List[Tuple[str, str, Dict[str, Any]]],
+    papers_to_add: list[tuple[str, str, dict[str, Any]]],
     vector_store: Any,
-    loaded_papers: Set[str],
-    paper_metadata: Dict[str, Dict[str, Any]],
-    documents: Dict[str, Document],
+    loaded_papers: set[str],
+    paper_metadata: dict[str, dict[str, Any]],
+    documents: dict[str, Document],
     **kwargs: Any,
 ) -> None:
     """
@@ -43,9 +43,7 @@ def add_papers_batch(
         logger.info("No papers to add")
         return
-    to_process = [
-        (pid, url, md) for pid, url, md in papers_to_add if pid not in loaded_papers
-    ]
+    to_process = [(pid, url, md) for pid, url, md in papers_to_add if pid not in loaded_papers]
     if not to_process:
         logger.info("Skipping %d already-loaded papers", len(papers_to_add))
         logger.info("All %d papers are already loaded", len(papers_to_add))
@@ -91,16 +89,16 @@ def add_papers_batch(
 def _parallel_load_and_split(
-    papers: List[Tuple[str, str, Dict[str, Any]]],
+    papers: list[tuple[str, str, dict[str, Any]]],
     config: Any,
-    metadata_fields: List[str],
-    documents: Dict[str, Document],
+    metadata_fields: list[str],
+    documents: dict[str, Document],
     max_workers: int,
-) -> Tuple[List[Document], List[str], List[str]]:
+) -> tuple[list[Document], list[str], list[str]]:
     """Load & split PDFs in parallel, preserving original logic."""
-    all_chunks: List[Document] = []
-    all_ids: List[str] = []
-    success: List[str] = []
+    all_chunks: list[Document] = []
+    all_ids: list[str] = []
+    success: list[str] = []
     with concurrent.futures.ThreadPoolExecutor(max_workers=max_workers) as executor:
         futures = {
@@ -138,8 +136,8 @@ def _parallel_load_and_split(
 def _batch_embed(
-    chunks: List[Document],
-    ids: List[str],
+    chunks: list[Document],
+    ids: list[str],
     store: Any,
     batch_size: int,
     has_gpu: bool,

aiagents4pharma/talk2scholars/tools/pdf/utils/collection_manager.py CHANGED Viewed

@@ -5,7 +5,7 @@ Collection Manager for Milvus
 import logging
 import os
 import threading
-from typing import Any, Dict
+from typing import Any
 from pymilvus import (
     Collection,
@@ -28,7 +28,7 @@ _cache_lock = threading.Lock()
 def ensure_collection_exists(
-    collection_name: str, config: Any, index_params: Dict[str, Any], has_gpu: bool
+    collection_name: str, config: Any, index_params: dict[str, Any], has_gpu: bool
 ) -> Collection:
     """Ensure the Milvus collection exists before trying to sync or add documents."""

aiagents4pharma/talk2scholars/tools/pdf/utils/document_processor.py CHANGED Viewed

@@ -3,7 +3,7 @@ Document processing utilities for loading and splitting PDFs.
 """
 import logging
-from typing import Any, Dict, List
+from typing import Any
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_community.document_loaders import PyPDFLoader
@@ -15,10 +15,10 @@ logger = logging.getLogger(__name__)
 def load_and_split_pdf(
     paper_id: str,
     pdf_url: str,
-    paper_metadata: Dict[str, Any],
+    paper_metadata: dict[str, Any],
     config: Any,
     **kwargs: Any,
-) -> List[Document]:
+) -> list[Document]:
     """
     Load a PDF and split it into chunks.
@@ -35,8 +35,8 @@ def load_and_split_pdf(
     Returns:
         A list of Document chunks, each with updated metadata.
     """
-    metadata_fields: List[str] = kwargs["metadata_fields"]
-    documents_dict: Dict[str, Document] = kwargs["documents_dict"]
+    metadata_fields: list[str] = kwargs["metadata_fields"]
+    documents_dict: dict[str, Document] = kwargs["documents_dict"]
     logger.info("Loading PDF for paper %s from %s", paper_id, pdf_url)

aiagents4pharma 1.43.0__py3-none-any.whl → 1.45.0__py3-none-any.whl

aiagents4pharma 1.43.0py3-none-any.whl → 1.45.0py3-none-any.whl