PyPI - kreuzberg - Versions diffs - 3.11.4__py3-none-any.whl → 3.13.1__py3-none-any.whl - Mend

kreuzberg 3.11.4py3-none-any.whl → 3.13.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (51) hide show

kreuzberg/__init__.py +14 -13
kreuzberg/__main__.py +0 -2
kreuzberg/_api/main.py +119 -9
kreuzberg/_chunker.py +0 -15
kreuzberg/_config.py +212 -292
kreuzberg/_document_classification.py +20 -47
kreuzberg/_entity_extraction.py +1 -122
kreuzberg/_extractors/_base.py +4 -71
kreuzberg/_extractors/_email.py +1 -15
kreuzberg/_extractors/_html.py +9 -12
kreuzberg/_extractors/_image.py +1 -25
kreuzberg/_extractors/_pandoc.py +10 -147
kreuzberg/_extractors/_pdf.py +38 -94
kreuzberg/_extractors/_presentation.py +0 -99
kreuzberg/_extractors/_spread_sheet.py +13 -55
kreuzberg/_extractors/_structured.py +1 -4
kreuzberg/_gmft.py +14 -199
kreuzberg/_language_detection.py +1 -36
kreuzberg/_mcp/__init__.py +0 -2
kreuzberg/_mcp/server.py +3 -10
kreuzberg/_mime_types.py +1 -19
kreuzberg/_ocr/_base.py +4 -76
kreuzberg/_ocr/_easyocr.py +124 -186
kreuzberg/_ocr/_paddleocr.py +154 -224
kreuzberg/_ocr/_table_extractor.py +184 -0
kreuzberg/_ocr/_tesseract.py +797 -361
kreuzberg/_playa.py +5 -31
kreuzberg/_registry.py +0 -36
kreuzberg/_types.py +588 -93
kreuzberg/_utils/_cache.py +84 -138
kreuzberg/_utils/_device.py +0 -74
kreuzberg/_utils/_document_cache.py +0 -75
kreuzberg/_utils/_errors.py +0 -50
kreuzberg/_utils/_ocr_cache.py +136 -0
kreuzberg/_utils/_pdf_lock.py +0 -16
kreuzberg/_utils/_process_pool.py +17 -64
kreuzberg/_utils/_quality.py +0 -60
kreuzberg/_utils/_ref.py +32 -0
kreuzberg/_utils/_serialization.py +0 -30
kreuzberg/_utils/_string.py +9 -59
kreuzberg/_utils/_sync.py +0 -77
kreuzberg/_utils/_table.py +49 -101
kreuzberg/_utils/_tmp.py +0 -9
kreuzberg/cli.py +54 -74
kreuzberg/extraction.py +39 -32
{kreuzberg-3.11.4.dist-info → kreuzberg-3.13.1.dist-info}/METADATA +19 -15
kreuzberg-3.13.1.dist-info/RECORD +57 -0
kreuzberg-3.11.4.dist-info/RECORD +0 -54
{kreuzberg-3.11.4.dist-info → kreuzberg-3.13.1.dist-info}/WHEEL +0 -0
{kreuzberg-3.11.4.dist-info → kreuzberg-3.13.1.dist-info}/entry_points.txt +0 -0
{kreuzberg-3.11.4.dist-info → kreuzberg-3.13.1.dist-info}/licenses/LICENSE +0 -0

kreuzberg/_playa.py CHANGED Viewed

@@ -1,6 +1,6 @@
 from __future__ import annotations
-from datetime import datetime
+from datetime import datetime, timezone
 from typing import TYPE_CHECKING, Any, cast
 from playa import asobj, parse
@@ -25,18 +25,6 @@ BOM_CHAR = "\ufeff"
 async def extract_pdf_metadata(pdf_content: bytes, password: str = "") -> Metadata:
-    """Extract metadata from a PDF document.
-    Args:
-        pdf_content: The bytes of the PDF document.
-        password: Password for encrypted PDF files.
-    Raises:
-        ParsingError: If the PDF metadata could not be extracted.
-    Returns:
-        A dictionary of metadata extracted from the PDF.
-    """
     try:
         document = parse(pdf_content, max_workers=1, password=password)
         metadata: Metadata = {}
@@ -115,7 +103,6 @@ def _extract_keyword_metadata(pdf_info: dict[str, Any], result: Metadata) -> Non
     if keywords := pdf_info.get("keywords"):
         if isinstance(keywords, (str, bytes)):
             kw_str = decode_text(keywords)
-            # Combine multiple operations into a single comprehension
             result["keywords"] = [k.strip() for part in kw_str.replace(";", ",").split(",") if (k := part.strip())]
         elif isinstance(keywords, list):
             result["keywords"] = [decode_text(k) for k in keywords]
@@ -144,8 +131,10 @@ def _parse_date_string(date_str: str) -> str:
             second = date_str[12:14]
             time_part = f"T{hour}:{minute}:{second}"
         if time_part:
-            return datetime.strptime(f"{year}-{month}-{day}{time_part}", "%Y-%m-%dT%H:%M:%S").isoformat()  # noqa: DTZ007
-        return datetime.strptime(f"{year}-{month}-{day}", "%Y-%m-%d").isoformat()  # noqa: DTZ007
+            dt = datetime.strptime(f"{year}-{month}-{day}{time_part}", "%Y-%m-%dT%H:%M:%S").replace(tzinfo=timezone.utc)
+            return dt.isoformat()
+        dt = datetime.strptime(f"{year}-{month}-{day}", "%Y-%m-%d").replace(tzinfo=timezone.utc)
+        return dt.isoformat()
     return date_str
@@ -246,7 +235,6 @@ def _collect_document_permissions(document: Document) -> list[str]:
 def _extract_structure_information(document: Document, result: Metadata) -> None:
-    """Extract language and subtitle from document structure."""
     if document.structure:
         languages = set()
         subtitle = None
@@ -279,20 +267,6 @@ def _extract_structure_information(document: Document, result: Metadata) -> None
 def extract_pdf_metadata_sync(pdf_content: bytes, password: str = "") -> Metadata:
-    """Synchronous version of extract_pdf_metadata.
-    Extract metadata from a PDF document without using async/await.
-    Args:
-        pdf_content: The bytes of the PDF document.
-        password: Password for encrypted PDF files.
-    Raises:
-        ParsingError: If the PDF metadata could not be extracted.
-    Returns:
-        A dictionary of metadata extracted from the PDF.
-    """
     try:
         document = parse(pdf_content, max_workers=1, password=password)
         metadata: Metadata = {}

kreuzberg/_registry.py CHANGED Viewed

@@ -28,14 +28,6 @@ if TYPE_CHECKING:
 class ExtractorRegistry:
-    """Manages extractors for different MIME types and their configurations.
-    This class provides functionality to register, unregister, and retrieve
-    extractors based on MIME types. It supports both synchronous and asynchronous
-    operations for managing extractors. A default set of extractors is also
-    maintained alongside user-registered extractors.
-    """
     _default_extractors: ClassVar[list[type[Extractor]]] = [
         PDFExtractor,
         OfficeDocumentExtractor,
@@ -59,15 +51,6 @@ class ExtractorRegistry:
     @classmethod
     @lru_cache
     def get_extractor(cls, mime_type: str | None, config: ExtractionConfig) -> Extractor | None:
-        """Gets the extractor for the mimetype.
-        Args:
-            mime_type: The mime type of the content.
-            config: Extraction options object, defaults to the default object.
-        Returns:
-            The extractor
-        """
         extractors: list[type[Extractor]] = [
             *cls._registered_extractors,
             *cls._default_extractors,
@@ -81,30 +64,11 @@ class ExtractorRegistry:
     @classmethod
     def add_extractor(cls, extractor: type[Extractor]) -> None:
-        """Add an extractor to the registry.
-        Note:
-            Extractors are tried in the order they are added: first added, first tried.
-        Args:
-            extractor: The extractor to add.
-        Returns:
-            None
-        """
         cls._registered_extractors.append(extractor)
         cls.get_extractor.cache_clear()
     @classmethod
     def remove_extractor(cls, extractor: type[Extractor]) -> None:
-        """Remove an extractor from the registry.
-        Args:
-            extractor: The extractor to remove.
-        Returns:
-            None
-        """
         try:
             cls._registered_extractors.remove(extractor)
             cls.get_extractor.cache_clear()

kreuzberg 3.11.4__py3-none-any.whl → 3.13.1__py3-none-any.whl

kreuzberg 3.11.4py3-none-any.whl → 3.13.1py3-none-any.whl