PyPI - paddleocr-haystack - Versions diffs - 0.1.0__tar.gz → 1.1.0__tar.gz - Mend

paddleocr-haystack 0.1.0tar.gz → 1.1.0tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (15) hide show

paddleocr_haystack-1.1.0/CHANGELOG.md ADDED Viewed

@@ -0,0 +1,20 @@
+# Changelog
+## [integrations/paddleocr-v1.0.0] - 2026-01-12
+### 🧹 Chores
+- Make fmt command more forgiving (#2671)
+- [**breaking**] Paddleocr - drop Python 3.9 and use X|Y typing (#2714)
+### 🌀 Miscellaneous
+- Feat: Add 'Client-Platform' header for server processing for PaddleOCR (#2657)
+## [integrations/paddleocr-v0.1.0] - 2025-12-10
+### 🚀 Features
+- Add PaddleOCR-VL document converter (#2567)
+<!-- generated by git-cliff -->

{paddleocr_haystack-0.1.0 → paddleocr_haystack-1.1.0}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: paddleocr-haystack
-Version: 0.1.0
+Version: 1.1.0
 Summary: An integration of PaddleOCR with Haystack
 Project-URL: Documentation, https://github.com/haystack-core-integrations/tree/main/integrations/paddleocr#readme
 Project-URL: Issues, https://github.com/haystack-core-integrations/issues
@@ -10,16 +10,15 @@ License-Expression: Apache-2.0
 License-File: LICENSE.txt
 Classifier: Development Status :: 4 - Beta
 Classifier: Programming Language :: Python
-Classifier: Programming Language :: Python :: 3.9
 Classifier: Programming Language :: Python :: 3.10
 Classifier: Programming Language :: Python :: 3.11
 Classifier: Programming Language :: Python :: 3.12
 Classifier: Programming Language :: Python :: Implementation :: CPython
 Classifier: Programming Language :: Python :: Implementation :: PyPy
-Requires-Python: >=3.9
-Requires-Dist: haystack-ai>=2.19.0
-Requires-Dist: paddleocr>=3.3.2
-Requires-Dist: paddlex[serving]>=3.3.10
+Requires-Python: >=3.10
+Requires-Dist: haystack-ai>=2.22.0
+Requires-Dist: paddleocr>=3.4.0
+Requires-Dist: paddlex[serving]>=3.4.0
 Requires-Dist: requests>=2.25.0
 Description-Content-Type: text/markdown

{paddleocr_haystack-0.1.0 → paddleocr_haystack-1.1.0}/pyproject.toml RENAMED Viewed

@@ -7,7 +7,7 @@ name = "paddleocr-haystack"
 dynamic = ["version"]
 description = 'An integration of PaddleOCR with Haystack'
 readme = "README.md"
-requires-python = ">=3.9"
+requires-python = ">=3.10"
 license = "Apache-2.0"
 keywords = []
 authors = [
@@ -16,7 +16,6 @@ authors = [
 classifiers = [
   "Development Status :: 4 - Beta",
   "Programming Language :: Python",
-  "Programming Language :: Python :: 3.9",
   "Programming Language :: Python :: 3.10",
   "Programming Language :: Python :: 3.11",
   "Programming Language :: Python :: 3.12",
@@ -24,9 +23,9 @@ classifiers = [
   "Programming Language :: Python :: Implementation :: PyPy",
 ]
 dependencies = [
-  "haystack-ai>=2.19.0",
-  "paddleocr>=3.3.2",
-  "paddlex[serving]>=3.3.10",
+  "haystack-ai>=2.22.0",
+  "paddleocr>=3.4.0",
+  "paddlex[serving]>=3.4.0",
   "requests>=2.25.0",
 ]
@@ -52,7 +51,7 @@ dependencies = ["haystack-pydoc-tools", "ruff"]
 [tool.hatch.envs.default.scripts]
 docs = ["pydoc-markdown pydoc/config_docusaurus.yml"]
-fmt = "ruff check --fix {args} && ruff format {args}"
+fmt = "ruff check --fix {args}; ruff format {args}"
 fmt-check = "ruff check {args} && ruff format --check {args}"
 [tool.hatch.envs.test]
@@ -80,7 +79,6 @@ check_untyped_defs = true
 disallow_incomplete_defs = true
 [tool.ruff]
-target-version = "py39"
 line-length = 120
 [tool.ruff.lint]
@@ -127,10 +125,6 @@ ignore = [
   "B008",
   "S101",
 ]
-unfixable = [
-  # Don't touch unused imports
-  "F401",
-]
 [tool.ruff.lint.isort]
 known-first-party = ["haystack_integrations"]

{paddleocr_haystack-0.1.0 → paddleocr_haystack-1.1.0}/src/haystack_integrations/components/converters/paddleocr/paddleocr_vl_document_converter.py RENAMED Viewed

@@ -3,7 +3,7 @@
 # SPDX-License-Identifier: Apache-2.0
 import base64
 from pathlib import Path
-from typing import Any, Literal, Optional, Union
+from typing import Any, Literal
 import requests
 from haystack import Document, component, default_from_dict, default_to_dict, logging
@@ -24,7 +24,7 @@ from paddlex.inference.serving.schemas.shared.ocr import FileType  # type: ignor
 logger = logging.getLogger(__name__)
-FileTypeInput = Union[Literal["pdf", "image"], None]
+FileTypeInput = Literal["pdf", "image"] | None
 # Supported image file extensions
 _IMAGE_EXTENSIONS = {
@@ -41,9 +41,9 @@ _PDF_EXTENSIONS = {".pdf"}
 def _infer_file_type_from_source(
-    source: Union[str, Path, ByteStream],
-    mime_type: Optional[str] = None,
-) -> Optional[FileType]:
+    source: str | Path | ByteStream,
+    mime_type: str | None = None,
+) -> FileType | None:
     """
     Infer file type from file extension or MIME type.
@@ -56,7 +56,7 @@ def _infer_file_type_from_source(
         determined.
     """
     # Try to get extension from file path
-    file_path: Optional[str] = None
+    file_path: str | None = None
     # Check if source is a file path
     if isinstance(source, (str, Path)):
@@ -86,7 +86,7 @@ def _infer_file_type_from_source(
     return None
-def _normalize_file_type(file_type: Optional[FileTypeInput]) -> Optional[FileType]:
+def _normalize_file_type(file_type: FileTypeInput) -> FileType | None:
     """
     Normalize file type input to the numeric format expected by the API.
@@ -145,36 +145,45 @@ class PaddleOCRVLDocumentConverter:
         *,
         api_url: str,
         access_token: Secret = Secret.from_env_var("AISTUDIO_ACCESS_TOKEN"),
-        file_type: Optional[FileTypeInput] = None,
-        use_doc_orientation_classify: Optional[bool] = None,
-        use_doc_unwarping: Optional[bool] = None,
-        use_layout_detection: Optional[bool] = None,
-        use_chart_recognition: Optional[bool] = None,
-        layout_threshold: Optional[Union[float, dict]] = None,
-        layout_nms: Optional[bool] = None,
-        layout_unclip_ratio: Optional[Union[float, tuple[float, float], dict]] = None,
-        layout_merge_bboxes_mode: Optional[Union[str, dict]] = None,
-        prompt_label: Optional[str] = None,
-        format_block_content: Optional[bool] = None,
-        repetition_penalty: Optional[float] = None,
-        temperature: Optional[float] = None,
-        top_p: Optional[float] = None,
-        min_pixels: Optional[int] = None,
-        max_pixels: Optional[int] = None,
-        prettify_markdown: Optional[bool] = None,
-        show_formula_number: Optional[bool] = None,
-        visualize: Optional[bool] = None,
-        additional_params: Optional[dict[str, Any]] = None,
+        file_type: FileTypeInput = None,
+        use_doc_orientation_classify: bool | None = False,
+        use_doc_unwarping: bool | None = False,
+        use_layout_detection: bool | None = None,
+        use_chart_recognition: bool | None = None,
+        use_seal_recognition: bool | None = None,
+        use_ocr_for_image_block: bool | None = None,
+        layout_threshold: float | dict | None = None,
+        layout_nms: bool | None = None,
+        layout_unclip_ratio: float | tuple[float, float] | dict | None = None,
+        layout_merge_bboxes_mode: str | dict | None = None,
+        layout_shape_mode: str | None = None,
+        prompt_label: str | None = None,
+        format_block_content: bool | None = None,
+        repetition_penalty: float | None = None,
+        temperature: float | None = None,
+        top_p: float | None = None,
+        min_pixels: int | None = None,
+        max_pixels: int | None = None,
+        max_new_tokens: int | None = None,
+        merge_layout_blocks: bool | None = None,
+        markdown_ignore_labels: list[str] | None = None,
+        vlm_extra_args: dict | None = None,
+        prettify_markdown: bool | None = None,
+        show_formula_number: bool | None = None,
+        restructure_pages: bool | None = None,
+        merge_tables: bool | None = None,
+        relevel_titles: bool | None = None,
+        visualize: bool | None = None,
+        additional_params: dict[str, Any] | None = None,
     ):
         """
         Create a `PaddleOCRVLDocumentConverter` component.
         :param api_url:
             API URL. To obtain the API URL, visit the [PaddleOCR official
-            website](https://aistudio.baidu.com/paddleocr/task), click the
-            **API** button in the upper-left corner, choose the example code
-            for **Large Model document parsing(PaddleOCR-VL)**, and copy the
-            `API_URL`.
+            website](https://aistudio.baidu.com/paddleocr), click the
+            **API** button, choose the example code for PaddleOCR-VL, and copy
+            the `API_URL`.
         :param access_token:
             AI Studio access token. You can obtain it from [this
             page](https://aistudio.baidu.com/account/accessToken).
@@ -193,6 +202,10 @@ class PaddleOCRVLDocumentConverter:
             Whether to enable the layout detection function.
         :param use_chart_recognition:
             Whether to enable the chart recognition function.
+        :param use_seal_recognition:
+            Whether to enable the seal recognition function.
+        :param use_ocr_for_image_block:
+            Whether to recognize text in image blocks.
         :param layout_threshold:
             Layout detection threshold. Can be a float or a dict with
             page-specific thresholds.
@@ -204,9 +217,11 @@ class PaddleOCRVLDocumentConverter:
             dict with page-specific values.
         :param layout_merge_bboxes_mode:
             Layout merge bounding boxes mode. Can be a string or a dict.
+        :param layout_shape_mode:
+            Layout shape mode.
         :param prompt_label:
             Prompt type for the VLM. Possible values are "ocr", "formula",
-            "table", and "chart".
+            "table", "chart", "seal", and "spotting".
         :param format_block_content:
             Whether to format block content.
         :param repetition_penalty:
@@ -219,10 +234,25 @@ class PaddleOCRVLDocumentConverter:
             Minimum number of pixels allowed during VLM preprocessing.
         :param max_pixels:
             Maximum number of pixels allowed during VLM preprocessing.
+        :param max_new_tokens:
+            Maximum number of tokens generated by the VLM.
+        :param merge_layout_blocks:
+            Whether to merge the layout detection boxes for cross-column or
+            staggered top and bottom columns.
+        :param markdown_ignore_labels:
+            Layout labels that need to be ignored in Markdown.
+        :param vlm_extra_args:
+            Additional configuration parameters for the VLM.
         :param prettify_markdown:
             Whether to prettify the output Markdown text.
         :param show_formula_number:
             Whether to include formula numbers in the output markdown text.
+        :param restructure_pages:
+            Whether to restructure results across multiple pages.
+        :param merge_tables:
+            Whether to merge tables across pages.
+        :param relevel_titles:
+            Whether to relevel titles.
         :param visualize:
             Whether to return visualization results.
         :param additional_params:
@@ -235,10 +265,13 @@ class PaddleOCRVLDocumentConverter:
         self.use_doc_unwarping = use_doc_unwarping
         self.use_layout_detection = use_layout_detection
         self.use_chart_recognition = use_chart_recognition
+        self.use_seal_recognition = use_seal_recognition
+        self.use_ocr_for_image_block = use_ocr_for_image_block
         self.layout_threshold = layout_threshold
         self.layout_nms = layout_nms
         self.layout_unclip_ratio = layout_unclip_ratio
         self.layout_merge_bboxes_mode = layout_merge_bboxes_mode
+        self.layout_shape_mode = layout_shape_mode
         self.prompt_label = prompt_label
         self.format_block_content = format_block_content
         self.repetition_penalty = repetition_penalty
@@ -246,8 +279,15 @@ class PaddleOCRVLDocumentConverter:
         self.top_p = top_p
         self.min_pixels = min_pixels
         self.max_pixels = max_pixels
+        self.max_new_tokens = max_new_tokens
+        self.merge_layout_blocks = merge_layout_blocks
+        self.markdown_ignore_labels = markdown_ignore_labels
+        self.vlm_extra_args = vlm_extra_args
         self.prettify_markdown = prettify_markdown
         self.show_formula_number = show_formula_number
+        self.restructure_pages = restructure_pages
+        self.merge_tables = merge_tables
+        self.relevel_titles = relevel_titles
         self.visualize = visualize
         self.additional_params = additional_params
@@ -267,10 +307,13 @@ class PaddleOCRVLDocumentConverter:
             use_doc_unwarping=self.use_doc_unwarping,
             use_layout_detection=self.use_layout_detection,
             use_chart_recognition=self.use_chart_recognition,
+            use_seal_recognition=self.use_seal_recognition,
+            use_ocr_for_image_block=self.use_ocr_for_image_block,
             layout_threshold=self.layout_threshold,
             layout_nms=self.layout_nms,
             layout_unclip_ratio=self.layout_unclip_ratio,
             layout_merge_bboxes_mode=self.layout_merge_bboxes_mode,
+            layout_shape_mode=self.layout_shape_mode,
             prompt_label=self.prompt_label,
             format_block_content=self.format_block_content,
             repetition_penalty=self.repetition_penalty,
@@ -278,8 +321,15 @@ class PaddleOCRVLDocumentConverter:
             top_p=self.top_p,
             min_pixels=self.min_pixels,
             max_pixels=self.max_pixels,
+            max_new_tokens=self.max_new_tokens,
+            merge_layout_blocks=self.merge_layout_blocks,
+            markdown_ignore_labels=self.markdown_ignore_labels,
+            vlm_extra_args=self.vlm_extra_args,
             prettify_markdown=self.prettify_markdown,
             show_formula_number=self.show_formula_number,
+            restructure_pages=self.restructure_pages,
+            merge_tables=self.merge_tables,
+            relevel_titles=self.relevel_titles,
             visualize=self.visualize,
             additional_params=self.additional_params,
         )
@@ -331,6 +381,10 @@ class PaddleOCRVLDocumentConverter:
             request_data["useLayoutDetection"] = self.use_layout_detection
         if self.use_chart_recognition is not None:
             request_data["useChartRecognition"] = self.use_chart_recognition
+        if self.use_seal_recognition is not None:
+            request_data["useSealRecognition"] = self.use_seal_recognition
+        if self.use_ocr_for_image_block is not None:
+            request_data["useOcrForImageBlock"] = self.use_ocr_for_image_block
         if self.layout_threshold is not None:
             request_data["layoutThreshold"] = self.layout_threshold
         if self.layout_nms is not None:
@@ -339,6 +393,8 @@ class PaddleOCRVLDocumentConverter:
             request_data["layoutUnclipRatio"] = self.layout_unclip_ratio
         if self.layout_merge_bboxes_mode is not None:
             request_data["layoutMergeBboxesMode"] = self.layout_merge_bboxes_mode
+        if self.layout_shape_mode is not None:
+            request_data["layoutShapeMode"] = self.layout_shape_mode
         if self.prompt_label is not None:
             request_data["promptLabel"] = self.prompt_label
         if self.format_block_content is not None:
@@ -353,10 +409,24 @@ class PaddleOCRVLDocumentConverter:
             request_data["minPixels"] = self.min_pixels
         if self.max_pixels is not None:
             request_data["maxPixels"] = self.max_pixels
+        if self.max_new_tokens is not None:
+            request_data["maxNewTokens"] = self.max_new_tokens
+        if self.merge_layout_blocks is not None:
+            request_data["mergeLayoutBlocks"] = self.merge_layout_blocks
+        if self.markdown_ignore_labels is not None:
+            request_data["markdownIgnoreLabels"] = self.markdown_ignore_labels
+        if self.vlm_extra_args is not None:
+            request_data["vlmExtraArgs"] = self.vlm_extra_args
         if self.prettify_markdown is not None:
             request_data["prettifyMarkdown"] = self.prettify_markdown
         if self.show_formula_number is not None:
             request_data["showFormulaNumber"] = self.show_formula_number
+        if self.restructure_pages is not None:
+            request_data["restructurePages"] = self.restructure_pages
+        if self.merge_tables is not None:
+            request_data["mergeTables"] = self.merge_tables
+        if self.relevel_titles is not None:
+            request_data["relevelTitles"] = self.relevel_titles
         if self.visualize is not None:
             request_data["visualize"] = self.visualize
         if self.additional_params is not None:
@@ -372,7 +442,7 @@ class PaddleOCRVLDocumentConverter:
         # Prepare headers with authentication
         access_token_value = self.access_token.resolve_value() if self.access_token else None
-        headers = {"Content-Type": "application/json"}
+        headers = {"Content-Type": "application/json", "Client-Platform": "haystack"}
         if access_token_value:
             headers["Authorization"] = f"token {access_token_value}"
@@ -421,8 +491,8 @@ class PaddleOCRVLDocumentConverter:
     @component.output_types(documents=list[Document], raw_paddleocr_responses=list[dict[str, Any]])
     def run(
         self,
-        sources: list[Union[str, Path, ByteStream]],
-        meta: Optional[Union[dict[str, Any], list[dict[str, Any]]]] = None,
+        sources: list[str | Path | ByteStream],
+        meta: dict[str, Any] | list[dict[str, Any]] | None = None,
     ) -> dict[str, Any]:
         """
         Convert image or PDF files to Documents.
@@ -448,7 +518,7 @@ class PaddleOCRVLDocumentConverter:
         meta_list = normalize_metadata(meta, sources_count=len(sources))
-        for source, metadata in zip(sources, meta_list):
+        for source, metadata in zip(sources, meta_list, strict=True):
             try:
                 bytestream = get_bytestream_from_source(source)
             except Exception as e:

{paddleocr_haystack-0.1.0 → paddleocr_haystack-1.1.0}/tests/test_paddleocr_vl_document_converter.py RENAMED Viewed

@@ -42,8 +42,8 @@ class TestPaddleOCRVLDocumentConverter:
         assert converter.access_token == Secret.from_env_var("AISTUDIO_ACCESS_TOKEN")
         assert converter.api_url == "http://test-api-url.com"
         assert converter.file_type is None
-        assert converter.use_doc_orientation_classify is None
-        assert converter.use_doc_unwarping is None
+        assert converter.use_doc_orientation_classify is False
+        assert converter.use_doc_unwarping is False
         assert converter.use_layout_detection is None
         assert converter.use_chart_recognition is None
         assert converter.layout_threshold is None
@@ -126,14 +126,17 @@ class TestPaddleOCRVLDocumentConverter:
                     "type": "env_var",
                 },
                 "file_type": None,
-                "use_doc_orientation_classify": None,
-                "use_doc_unwarping": None,
+                "use_doc_orientation_classify": False,
+                "use_doc_unwarping": False,
                 "use_layout_detection": None,
                 "use_chart_recognition": None,
+                "use_seal_recognition": None,
+                "use_ocr_for_image_block": None,
                 "layout_threshold": None,
                 "layout_nms": None,
                 "layout_unclip_ratio": None,
                 "layout_merge_bboxes_mode": None,
+                "layout_shape_mode": None,
                 "prompt_label": None,
                 "format_block_content": None,
                 "repetition_penalty": None,
@@ -141,8 +144,15 @@ class TestPaddleOCRVLDocumentConverter:
                 "top_p": None,
                 "min_pixels": None,
                 "max_pixels": None,
+                "max_new_tokens": None,
+                "merge_layout_blocks": None,
+                "markdown_ignore_labels": None,
+                "vlm_extra_args": None,
                 "prettify_markdown": None,
                 "show_formula_number": None,
+                "restructure_pages": None,
+                "merge_tables": None,
+                "relevel_titles": None,
                 "visualize": None,
                 "additional_params": None,
             },
@@ -158,10 +168,13 @@ class TestPaddleOCRVLDocumentConverter:
             use_doc_unwarping=False,
             use_layout_detection=True,
             use_chart_recognition=False,
+            use_seal_recognition=None,
+            use_ocr_for_image_block=None,
             layout_threshold=0.7,
             layout_nms=False,
             layout_unclip_ratio=2.0,
             layout_merge_bboxes_mode="separate",
+            layout_shape_mode=None,
             prompt_label="formula",
             format_block_content=False,
             repetition_penalty=1.2,
@@ -169,8 +182,15 @@ class TestPaddleOCRVLDocumentConverter:
             top_p=0.95,
             min_pixels=200,
             max_pixels=2000,
+            max_new_tokens=None,
+            merge_layout_blocks=None,
+            markdown_ignore_labels=None,
+            vlm_extra_args=None,
             prettify_markdown=True,
             show_formula_number=True,
+            restructure_pages=None,
+            merge_tables=None,
+            relevel_titles=None,
             visualize=False,
             additional_params={},
         )
@@ -190,10 +210,13 @@ class TestPaddleOCRVLDocumentConverter:
                 "use_doc_unwarping": False,
                 "use_layout_detection": True,
                 "use_chart_recognition": False,
+                "use_seal_recognition": None,
+                "use_ocr_for_image_block": None,
                 "layout_threshold": 0.7,
                 "layout_nms": False,
                 "layout_unclip_ratio": 2.0,
                 "layout_merge_bboxes_mode": "separate",
+                "layout_shape_mode": None,
                 "prompt_label": "formula",
                 "format_block_content": False,
                 "repetition_penalty": 1.2,
@@ -201,8 +224,15 @@ class TestPaddleOCRVLDocumentConverter:
                 "top_p": 0.95,
                 "min_pixels": 200,
                 "max_pixels": 2000,
+                "max_new_tokens": None,
+                "merge_layout_blocks": None,
+                "markdown_ignore_labels": None,
+                "vlm_extra_args": None,
                 "prettify_markdown": True,
                 "show_formula_number": True,
+                "restructure_pages": None,
+                "merge_tables": None,
+                "relevel_titles": None,
                 "visualize": False,
                 "additional_params": {},
             },