PyPI - doc-page-extractor - Versions diffs - 0.2.2__tar.gz → 0.2.4__tar.gz - Mend

doc-page-extractor 0.2.2tar.gz → 0.2.4tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of doc-page-extractor might be problematic. Click here for more details.

Files changed (52) hide show

{doc_page_extractor-0.2.2 → doc_page_extractor-0.2.4}/PKG-INFO RENAMED Viewed

@@ -1,30 +1,37 @@
-Metadata-Version: 2.4
+Metadata-Version: 2.3
 Name: doc-page-extractor
-Version: 0.2.2
-Summary: doc page extractor can identify text and format in images and return structured data.
-Home-page: https://github.com/Moskize91/doc-page-extractor
+Version: 0.2.4
+Summary:
+License: AGPL-3.0
 Author: Tao Zeyu
 Author-email: i@taozeyu.com
+Maintainer: Tao Zeyu
+Maintainer-email: i@taozeyu.com
+Requires-Python: >=3.10,<3.13
+Classifier: Development Status :: 2 - Pre-Alpha
+Classifier: Intended Audience :: Developers
+Classifier: License :: OSI Approved :: GNU Affero General Public License v3
+Classifier: Programming Language :: Python
+Classifier: Programming Language :: Python :: 3
+Classifier: Programming Language :: Python :: 3.10
+Classifier: Programming Language :: Python :: 3.11
+Classifier: Programming Language :: Python :: 3.12
+Provides-Extra: cpu
+Provides-Extra: cuda
+Requires-Dist: accelerate (>=1.6.0,<2.0)
+Requires-Dist: doclayout_yolo (>=0.0.3)
+Requires-Dist: huggingface_hub (>=0.33.0,<1.0)
+Requires-Dist: numpy (>=1.24.0,<2.0)
+Requires-Dist: onnxruntime (==1.21.0) ; extra == "cpu"
+Requires-Dist: onnxruntime-gpu (==1.21.0) ; extra == "cuda"
+Requires-Dist: opencv-python (>=4.10.0,<5.0)
+Requires-Dist: pillow (>=10.3,<11.0)
+Requires-Dist: pix2tex (>=0.1.4,<=0.2.0)
+Requires-Dist: pyclipper (>=1.2.0,<2.0)
+Requires-Dist: shapely (>=2.0.0,<3.0)
+Requires-Dist: transformers (>=4.42.4,<=4.47)
+Project-URL: Repository, https://github.com/moskize91/doc-page-extractor
 Description-Content-Type: text/markdown
-License-File: LICENSE
-Requires-Dist: opencv-python<5.0,>=4.10.0
-Requires-Dist: pillow<11.0,>=10.3
-Requires-Dist: pyclipper<2.0,>=1.2.0
-Requires-Dist: numpy<2.0,>=1.24.0
-Requires-Dist: shapely<3.0,>=2.0.0
-Requires-Dist: transformers<=4.47,>=4.42.4
-Requires-Dist: doclayout_yolo>=0.0.3
-Requires-Dist: pix2tex<=0.2.0,>=0.1.4
-Requires-Dist: accelerate<2.0,>=1.6.0
-Requires-Dist: huggingface_hub<1.0,>=0.30.2
-Dynamic: author
-Dynamic: author-email
-Dynamic: description
-Dynamic: description-content-type
-Dynamic: home-page
-Dynamic: license-file
-Dynamic: requires-dist
-Dynamic: summary
 # doc page extractor
@@ -37,21 +44,17 @@ doc page extractor can identify text and format in images and return structured
 ## Installation
 ```shell
-pip install doc-page-extractor
-```
-```shell
-pip install onnxruntime==1.21.0
+pip install doc-page-extractor[cpu]
 ```
 ## Using CUDA
 Please refer to the introduction of [PyTorch](https://pytorch.org/get-started/locally/) and select the appropriate command to install according to your operating system.
-In addition, replace the command to install `onnxruntime` in the previous article with the following:
+The installation mentioned above uses the following command.
 ```shell
-pip install onnxruntime-gpu==1.21.0
+pip install doc-page-extractor[cuda]
 ```
 ## Example

{doc_page_extractor-0.2.2 → doc_page_extractor-0.2.4}/README.md RENAMED Viewed

@@ -9,21 +9,17 @@ doc page extractor can identify text and format in images and return structured
 ## Installation
 ```shell
-pip install doc-page-extractor
-```
-```shell
-pip install onnxruntime==1.21.0
+pip install doc-page-extractor[cpu]
 ```
 ## Using CUDA
 Please refer to the introduction of [PyTorch](https://pytorch.org/get-started/locally/) and select the appropriate command to install according to your operating system.
-In addition, replace the command to install `onnxruntime` in the previous article with the following:
+The installation mentioned above uses the following command.
 ```shell
-pip install onnxruntime-gpu==1.21.0
+pip install doc-page-extractor[cuda]
 ```
 ## Example

{doc_page_extractor-0.2.2 → doc_page_extractor-0.2.4}/doc_page_extractor/clipper.py RENAMED Viewed

@@ -13,12 +13,12 @@ def clip(
     wrapped_width: float = 0.0,
     wrapped_height: float = 0.0,
   ) -> Image:
-  image: Image
+  image: Image | None
   if extracted_result.adjusted_image is None:
     image = extracted_result.extracted_image
   else:
     image = extracted_result.adjusted_image
+  assert image is not None, "Image must not be None"
   return clip_from_image(
     image, layout.rect,
     wrapped_width, wrapped_height,
@@ -91,7 +91,7 @@ def _size_and_wrapper(rect: Rectangle):
   return width, height, max_width, max_height
-def _to_pillow_matrix(matrix: np.array):
+def _to_pillow_matrix(matrix):
   return (
     matrix[0][0], matrix[0][1], matrix[0][2],
     matrix[1][0], matrix[1][1], matrix[1][2],

{doc_page_extractor-0.2.2 → doc_page_extractor-0.2.4}/doc_page_extractor/extractor.py RENAMED Viewed

@@ -1,7 +1,7 @@
 import torch
 from os import PathLike
-from typing import Literal, Generator
+from typing import cast, Any, Literal, Generator
 from PIL.Image import Image
 from doclayout_yolo import YOLOv10
@@ -99,7 +99,7 @@ class DocExtractor:
     # about source parameter to see:
     # https://github.com/opendatalab/DocLayout-YOLO/blob/7c4be36bc61f11b67cf4a44ee47f3c41e9800a91/doclayout_yolo/data/build.py#L157-L175
     det_res = self._get_yolo().predict(
-      source=source,
+      source=cast(Any, source),
       imgsz=1024,
       conf=0.2,
       device=self._device    # Device to use (e.g., "cuda" or "cpu")
@@ -180,7 +180,7 @@ class DocExtractor:
   def _find_matched_layout(self, fragment: OCRFragment, layouts: list[Layout]) -> Layout | None:
     fragment_area = fragment.rect.area
-    primary_layouts: list[(Layout, float)] = []
+    primary_layouts: list[tuple[Layout, float]] = []
     if fragment_area == 0.0:
       return None

{doc_page_extractor-0.2.2 → doc_page_extractor-0.2.4}/doc_page_extractor/layout_order.py RENAMED Viewed

@@ -88,7 +88,7 @@ class LayoutOrder:
     y_scale = layoutreader_size / float(height)
     for bbox in bbox_list:
-      x0, y0, x1, y1 = self._squeeze(bbox.value, width, height)
+      x0, y0, x1, y1 = self._squeeze(bbox, width, height)
       x0 = round(x0 * x_scale)
       y0 = round(y0 * y_scale)
       x1 = round(x1 * x_scale)
@@ -223,8 +223,8 @@ class LayoutOrder:
       mid2 = sorted_numbers[n // 2]
       return float((mid1 + mid2) / 2)
-  def _squeeze(self, bbox: _BBox, width: int, height: int) -> _BBox:
-    x0, y0, x1, y1 = bbox
+  def _squeeze(self, bbox: _BBox, width: int, height: int) -> tuple[float, float, float, float]:
+    x0, y0, x1, y1 = bbox.value
     x0 = self._squeeze_value(x0, width)
     x1 = self._squeeze_value(x1, width)
     y0 = self._squeeze_value(y0, height)

{doc_page_extractor-0.2.2 → doc_page_extractor-0.2.4}/doc_page_extractor/layoutreader.py RENAMED Viewed

@@ -64,7 +64,7 @@ class DataCollator:
     return ret
-def boxes2inputs(boxes: List[List[int]]) -> Dict[str, torch.Tensor]:
+def boxes2inputs(boxes: List[List[float]]) -> Dict[str, torch.Tensor]:
   bbox = [[0, 0, 0, 0]] + boxes + [[0, 0, 0, 0]]
   input_ids = [CLS_TOKEN_ID] + [UNK_TOKEN_ID] * len(boxes) + [EOS_TOKEN_ID]
   attention_mask = [1] + [1] * len(boxes) + [1]

{doc_page_extractor-0.2.2 → doc_page_extractor-0.2.4}/doc_page_extractor/model.py RENAMED Viewed

@@ -1,26 +1,30 @@
 from os import PathLike
-from typing import runtime_checkable, Protocol
+from time import sleep
+from typing import cast, runtime_checkable, Protocol
 from pathlib import Path
 from threading import Lock
 from huggingface_hub import hf_hub_download, snapshot_download, try_to_load_from_cache
+_RETRY_TIMES = 6
+_RETRY_SLEEP = 3.5
 @runtime_checkable
 class Model(Protocol):
   def get_onnx_ocr_path(self) -> Path:
-    pass
+    raise NotImplementedError()
   def get_yolo_path(self) -> Path:
-    pass
+    raise NotImplementedError()
   def get_layoutreader_path(self) -> Path:
-    pass
+    raise NotImplementedError()
   def get_struct_eqtable_path(self) -> Path:
-    pass
+    raise NotImplementedError()
   def get_latex_path(self) -> Path:
-    pass
+    raise NotImplementedError()
 class HuggingfaceModel(Model):
   def __init__(self, model_cache_dir: PathLike):
@@ -96,19 +100,34 @@ class HuggingfaceModel(Model):
             model_path = model_path.parent
       else:
-        if is_snapshot:
-          model_path = snapshot_download(
-            cache_dir=self._model_cache_dir,
-            repo_id=repo_id,
-            repo_type=repo_type,
-          )
-        else:
-          model_path = hf_hub_download(
-            cache_dir=self._model_cache_dir,
-            repo_id=repo_id,
-            repo_type=repo_type,
-            filename=filename,
-          )
-        model_path = Path(model_path)
+        # https://github.com/huggingface/huggingface_hub/issues/1542#issuecomment-1630465844
+        latest_error: ConnectionError | None = None
+        for i in range(_RETRY_TIMES + 1):
+          if latest_error is not None:
+            print(f"Retrying to download {repo_id} model, attempt {i + 1}/{_RETRY_TIMES}...")
+            sleep(_RETRY_SLEEP)
+          try:
+            if is_snapshot:
+              model_path = snapshot_download(
+                cache_dir=self._model_cache_dir,
+                repo_id=repo_id,
+                repo_type=repo_type,
+                resume_download=True,
+              )
+            else:
+              model_path = hf_hub_download(
+                cache_dir=self._model_cache_dir,
+                repo_id=repo_id,
+                repo_type=repo_type,
+                filename=filename,
+                resume_download=True,
+              )
+            latest_error = None
+          except ConnectionError as err:
+            latest_error = err
+        if latest_error is not None:
+          raise latest_error
+        model_path = Path(cast(PathLike, model_path))
       return model_path

{doc_page_extractor-0.2.2 → doc_page_extractor-0.2.4}/doc_page_extractor/ocr.py RENAMED Viewed

@@ -2,7 +2,7 @@ import numpy as np
 import cv2
 import os
-from typing import Literal, Generator
+from typing import cast, Any, Iterable, Literal, Generator
 from dataclasses import dataclass
 from .onnxocr import TextSystem
 from .types import OCRFragment
@@ -80,7 +80,10 @@ class OCR:
     image = self._preprocess_image(image)
     dt_boxes, rec_res = text_system(image)
-    for box, res in zip(dt_boxes, rec_res):
+    for box, res in zip(
+      cast(Iterable[Any], dt_boxes),
+      cast(Iterable[Any], rec_res),
+    ):
       yield box.tolist(), res
   def _get_text_system(self) -> TextSystem:
@@ -123,8 +126,8 @@ class OCR:
       model_paths.append(str(model_dir / file_name))
     return model_paths
-  def _preprocess_image(self, image: np.ndarray) -> np.ndarray:
-    image = self._alpha_to_color(image, (255, 255, 255))
+  def _preprocess_image(self, np_image: np.ndarray) -> np.ndarray:
+    image = self._alpha_to_color(np_image, (255, 255, 255))
     # image = cv2.bitwise_not(image) # inv
     # image = self._binarize_img(image) # bin
     image = cv2.normalize(
@@ -148,7 +151,7 @@ class OCR:
       image = gpu_frame.download()
     elif cv2.ocl.haveOpenCL():
       cv2.ocl.setUseOpenCL(True)
-      gpu_frame = cv2.UMat(image)
+      gpu_frame = cv2.UMat(cast(Any, image))
       image = cv2.fastNlMeansDenoisingColored(
         src=gpu_frame,
         dst=None,

{doc_page_extractor-0.2.2 → doc_page_extractor-0.2.4}/doc_page_extractor/ocr_corrector.py RENAMED Viewed

@@ -1,6 +1,6 @@
 import numpy as np
-from typing import Iterable
+from typing import cast, Iterable
 from shapely.geometry import Polygon
 from PIL.Image import new, Image, Resampling
 from .types import Layout, OCRFragment
@@ -90,13 +90,13 @@ def _match_fragments(
   ) -> tuple[list[tuple[OCRFragment, OCRFragment]], list[OCRFragment]]:
   zone_polygon = Polygon(zone_rect)
-  fragments2: list[OCRFragment] = list(fragments2)
+  fragments2 = list(fragments2)
   matched_fragments: list[tuple[OCRFragment, OCRFragment]] = []
   not_matched_fragments: list[OCRFragment] = []
   for fragment1 in fragments1:
     polygon1 = Polygon(fragment1.rect)
-    polygon1 = zone_polygon.intersection(polygon1)
+    polygon1 = cast(Polygon, zone_polygon.intersection(polygon1))
     if polygon1.is_empty:
       continue

{doc_page_extractor-0.2.2 → doc_page_extractor-0.2.4}/doc_page_extractor/overlap.py RENAMED Viewed

@@ -1,4 +1,4 @@
-from typing import Generator
+from typing import cast, Generator
 from shapely.geometry import Polygon
 from .types import Layout, OCRFragment
 from .rectangle import Rectangle
@@ -92,7 +92,7 @@ def merge_fragments_as_line(origin_fragments: list[OCRFragment]) -> list[OCRFrag
       continue
     fragments.append(OCRFragment(
-      order=min_order,
+      order=round(min_order),
       text=" ".join(texts),
       rank=text_rate_weights / proto_texts_len,
       rect=Rectangle(
@@ -141,7 +141,7 @@ def _split_fragments_into_groups(fragments: list[OCRFragment]) -> Generator[list
 # they are very sensitive to changes in height because they are very thin and long.
 # In order to make it equally sensitive to length and width, the ratio of area is not used.
 def overlap_rate(polygon1: Polygon, polygon2: Polygon) -> float:
-  intersection: Polygon = polygon1.intersection(polygon2)
+  intersection = cast(Polygon, polygon1.intersection(polygon2))
   if intersection.is_empty:
     return 0.0
   else:

{doc_page_extractor-0.2.2 → doc_page_extractor-0.2.4}/doc_page_extractor/plot.py RENAMED Viewed

@@ -1,4 +1,4 @@
-from typing import Iterable
+from typing import cast, Iterable
 from PIL import ImageDraw
 from PIL.ImageFont import load_default, FreeTypeFont
 from PIL.Image import Image
@@ -9,8 +9,8 @@ _FRAGMENT_COLOR = (0x49, 0xCF, 0xCB) # Light Green
 _Color = tuple[int, int, int]
 def plot(image: Image, layouts: Iterable[Layout]) -> None:
-  layout_font = load_default(size=35)
-  fragment_font = load_default(size=25)
+  layout_font = cast(FreeTypeFont, load_default(size=35))
+  fragment_font = cast(FreeTypeFont, load_default(size=25))
   draw = ImageDraw.Draw(image, mode="RGBA")
   def _draw_number(position: Point, number: int, font: FreeTypeFont, bold: bool, color: _Color) -> None:
@@ -88,4 +88,6 @@ def _layout_color(layout: Layout) -> _Color:
   elif cls == LayoutClass.ISOLATE_FORMULA:
     return (0xFA, 0x38, 0x27) # Red
   elif cls == LayoutClass.FORMULA_CAPTION:
-    return (0xFF, 0x9D, 0x24) # Orange
+    return (0xFF, 0x9D, 0x24) # Orange
+  else:
+    return (0x00, 0x00, 0x00)

{doc_page_extractor-0.2.2 → doc_page_extractor-0.2.4}/doc_page_extractor/raw_optimizer.py RENAMED Viewed

@@ -3,7 +3,7 @@ import numpy as np
 from dataclasses import dataclass
 from PIL.Image import Image
 from math import pi
-from .types import OCRFragment, Layout
+from .types import Layout, OCRFragment
 from .rotation import calculate_rotation, RotationAdjuster
 from .rectangle import Rectangle

{doc_page_extractor-0.2.2 → doc_page_extractor-0.2.4}/doc_page_extractor/table.py RENAMED Viewed

@@ -48,7 +48,7 @@ class Table:
       from .struct_eqtable import build_model
       model_path = self._model.get_struct_eqtable_path()
       table_model = build_model(
-        model_ckpt=model_path,
+        model_ckpt=str(model_path),
         max_new_tokens=1024,
         max_time=30,
         lmdeploy=False,

{doc_page_extractor-0.2.2 → doc_page_extractor-0.2.4}/doc_page_extractor/types.py RENAMED Viewed

@@ -50,12 +50,12 @@ class PlainLayout(BaseLayout):
 @dataclass
 class TableLayout(BaseLayout):
   parsed: tuple[str, TableLayoutParsedFormat] | None
-  cls: LayoutClass.TABLE
+  cls: Literal[LayoutClass.TABLE]
 @dataclass
 class FormulaLayout(BaseLayout):
   latex: str | None
-  cls: LayoutClass.ISOLATE_FORMULA
+  cls: Literal[LayoutClass.ISOLATE_FORMULA]
 Layout = PlainLayout | TableLayout | FormulaLayout

{doc_page_extractor-0.2.2 → doc_page_extractor-0.2.4}/doc_page_extractor/utils.py RENAMED Viewed

@@ -12,7 +12,7 @@ def ensure_dir(path: str) -> str:
   return path
 def is_space_text(text: str) -> bool:
-  return re.match(r"^\s*$", text)
+  return bool(re.match(r"^\s*$", text))
 def expand_image(image: Image, percent: float):
   width, height = image.size

doc_page_extractor-0.2.4/pyproject.toml ADDED Viewed

@@ -0,0 +1,59 @@
+[project]
+name = "doc-page-extractor"
+version = "0.2.4"
+description = ""
+authors = [
+    {name = "Tao Zeyu",email = "i@taozeyu.com"}
+]
+maintainers = [
+    {name = "Tao Zeyu", email = "i@taozeyu.com"}
+]
+license = {text = "AGPL-3.0"}
+readme = "README.md"
+requires-python = ">=3.10,<3.13"
+[build-system]
+requires = ["poetry-core>=2.0.0,<3.0.0"]
+build-backend = "poetry.core.masonry.api"
+[tool.poetry]
+license = "AGPL-3.0"
+readme = "README.md"
+repository = "https://github.com/moskize91/doc-page-extractor"
+packages = [
+    {include = "doc_page_extractor" }
+]
+include = ["doc_page_extractor/struct_eqtable/**/*.py"]
+classifiers=[
+    "Development Status :: 2 - Pre-Alpha",
+    "Intended Audience :: Developers",
+    "License :: OSI Approved :: GNU Affero General Public License v3",
+    "Programming Language :: Python",
+    "Programming Language :: Python :: 3.10",
+]
+[tool.poetry.dependencies]
+opencv-python = ">=4.10.0,<5.0"
+pillow = ">=10.3,<11.0"
+pyclipper = ">=1.2.0,<2.0"
+numpy = ">=1.24.0,<2.0"
+shapely = ">=2.0.0,<3.0"
+transformers = ">=4.42.4,<=4.47"
+doclayout_yolo = ">=0.0.3"
+pix2tex = ">=0.1.4,<=0.2.0"
+accelerate = ">=1.6.0,<2.0"
+huggingface_hub = ">=0.33.0,<1.0"
+onnxruntime = { version = "1.21.0", optional = true }
+onnxruntime-gpu = { version = "1.21.0", optional = true }
+[tool.poetry.extras]
+cpu = ["onnxruntime"]
+cuda = ["onnxruntime-gpu"]
+[tool.poetry.group.dev.dependencies]
+pylint = "^3.3.7"
+[tool.poetry.build]
+generate-setup-file = false
+script = "scripts/prebuild.py"

doc_page_extractor-0.2.4/scripts/prebuild.py ADDED Viewed

@@ -0,0 +1,8 @@
+from subprocess import run
+from pathlib import Path
+def prebuild(setup_kwargs):
+  shell_path = Path(__file__).parent / "sync-struct-eqtable.sh"
+  run(["bash", str(shell_path)], check=True)
+  return setup_kwargs

doc_page_extractor-0.2.2/doc_page_extractor.egg-info/PKG-INFO DELETED Viewed

@@ -1,85 +0,0 @@
-Metadata-Version: 2.4
-Name: doc-page-extractor
-Version: 0.2.2
-Summary: doc page extractor can identify text and format in images and return structured data.
-Home-page: https://github.com/Moskize91/doc-page-extractor
-Author: Tao Zeyu
-Author-email: i@taozeyu.com
-Description-Content-Type: text/markdown
-License-File: LICENSE
-Requires-Dist: opencv-python<5.0,>=4.10.0
-Requires-Dist: pillow<11.0,>=10.3
-Requires-Dist: pyclipper<2.0,>=1.2.0
-Requires-Dist: numpy<2.0,>=1.24.0
-Requires-Dist: shapely<3.0,>=2.0.0
-Requires-Dist: transformers<=4.47,>=4.42.4
-Requires-Dist: doclayout_yolo>=0.0.3
-Requires-Dist: pix2tex<=0.2.0,>=0.1.4
-Requires-Dist: accelerate<2.0,>=1.6.0
-Requires-Dist: huggingface_hub<1.0,>=0.30.2
-Dynamic: author
-Dynamic: author-email
-Dynamic: description
-Dynamic: description-content-type
-Dynamic: home-page
-Dynamic: license-file
-Dynamic: requires-dist
-Dynamic: summary
-# doc page extractor
-English | [中文](./README_zh-CN.md)
-## Introduction
-doc page extractor can identify text and format in images and return structured data.
-## Installation
-```shell
-pip install doc-page-extractor
-```
-```shell
-pip install onnxruntime==1.21.0
-```
-## Using CUDA
-Please refer to the introduction of [PyTorch](https://pytorch.org/get-started/locally/) and select the appropriate command to install according to your operating system.
-In addition, replace the command to install `onnxruntime` in the previous article with the following:
-```shell
-pip install onnxruntime-gpu==1.21.0
-```
-## Example
-```python
-from PIL import Image
-from doc_page_extractor import DocExtractor
-extractor = DocExtractor(
-  model_dir_path=model_path, # Folder address where AI model is downloaded and installed
-  device="cpu", # If you want to use CUDA, please change to device="cuda".
-)
-with Image.open("/path/to/your/image.png") as image:
-  result = extractor.extract(
-  image=image,
-  lang="ch", # Language of image text
-)
-for layout in result.layouts:
-  for fragment in layout.fragments:
-    print(fragment.rect, fragment.text)
-```
-## Acknowledgements
-The code of `doc_page_extractor/onnxocr` in this repo comes from [OnnxOCR](https://github.com/jingsongliujing/OnnxOCR).
-- [DocLayout-YOLO](https://github.com/opendatalab/DocLayout-YOLO)
-- [OnnxOCR](https://github.com/jingsongliujing/OnnxOCR)
-- [layoutreader](https://github.com/ppaanngggg/layoutreader)
-- [StructEqTable](https://github.com/Alpha-Innovator/StructEqTable-Deploy)
-- [LaTeX-OCR](https://github.com/lukas-blecher/LaTeX-OCR)

doc_page_extractor-0.2.2/doc_page_extractor.egg-info/SOURCES.txt DELETED Viewed

@@ -1,48 +0,0 @@
-LICENSE
-README.md
-setup.py
-doc_page_extractor/__init__.py
-doc_page_extractor/clipper.py
-doc_page_extractor/downloader.py
-doc_page_extractor/extractor.py
-doc_page_extractor/latex.py
-doc_page_extractor/layout_order.py
-doc_page_extractor/layoutreader.py
-doc_page_extractor/model.py
-doc_page_extractor/ocr.py
-doc_page_extractor/ocr_corrector.py
-doc_page_extractor/overlap.py
-doc_page_extractor/plot.py
-doc_page_extractor/raw_optimizer.py
-doc_page_extractor/rectangle.py
-doc_page_extractor/rotation.py
-doc_page_extractor/table.py
-doc_page_extractor/types.py
-doc_page_extractor/utils.py
-doc_page_extractor.egg-info/PKG-INFO
-doc_page_extractor.egg-info/SOURCES.txt
-doc_page_extractor.egg-info/dependency_links.txt
-doc_page_extractor.egg-info/requires.txt
-doc_page_extractor.egg-info/top_level.txt
-doc_page_extractor/onnxocr/__init__.py
-doc_page_extractor/onnxocr/cls_postprocess.py
-doc_page_extractor/onnxocr/db_postprocess.py
-doc_page_extractor/onnxocr/imaug.py
-doc_page_extractor/onnxocr/operators.py
-doc_page_extractor/onnxocr/predict_base.py
-doc_page_extractor/onnxocr/predict_cls.py
-doc_page_extractor/onnxocr/predict_det.py
-doc_page_extractor/onnxocr/predict_rec.py
-doc_page_extractor/onnxocr/predict_system.py
-doc_page_extractor/onnxocr/rec_postprocess.py
-doc_page_extractor/onnxocr/utils.py
-doc_page_extractor/struct_eqtable/__init__.py
-doc_page_extractor/struct_eqtable/internvl/__init__.py
-doc_page_extractor/struct_eqtable/internvl/conversation.py
-doc_page_extractor/struct_eqtable/internvl/internvl.py
-doc_page_extractor/struct_eqtable/internvl/internvl_lmdeploy.py
-doc_page_extractor/struct_eqtable/pix2s/__init__.py
-doc_page_extractor/struct_eqtable/pix2s/pix2s.py
-doc_page_extractor/struct_eqtable/pix2s/pix2s_trt.py
-tests/__init__.py
-tests/test_history_bus.py

doc_page_extractor-0.2.2/doc_page_extractor.egg-info/dependency_links.txt DELETED Viewed

	@@ -1 +0,0 @@
1	-

doc_page_extractor-0.2.2/doc_page_extractor.egg-info/requires.txt DELETED Viewed

@@ -1,10 +0,0 @@
-opencv-python<5.0,>=4.10.0
-pillow<11.0,>=10.3
-pyclipper<2.0,>=1.2.0
-numpy<2.0,>=1.24.0
-shapely<3.0,>=2.0.0
-transformers<=4.47,>=4.42.4
-doclayout_yolo>=0.0.3
-pix2tex<=0.2.0,>=0.1.4
-accelerate<2.0,>=1.6.0
-huggingface_hub<1.0,>=0.30.2

doc_page_extractor-0.2.2/doc_page_extractor.egg-info/top_level.txt DELETED Viewed

	@@ -1,2 +0,0 @@
1	- doc_page_extractor
2	- tests

doc_page_extractor-0.2.2/setup.cfg DELETED Viewed

@@ -1,4 +0,0 @@
-[egg_info]
-tag_build =
-tag_date = 0

doc_page_extractor-0.2.2/setup.py DELETED Viewed

@@ -1,28 +0,0 @@
-from setuptools import setup, find_packages
-if "doc_page_extractor.struct_eqtable" not in find_packages():
-  raise RuntimeError("struct_eqtable not found. Please download struct_eqtable first.")
-setup(
-  name="doc-page-extractor",
-  version="0.2.2",
-  author="Tao Zeyu",
-  author_email="i@taozeyu.com",
-  url="https://github.com/Moskize91/doc-page-extractor",
-  description="doc page extractor can identify text and format in images and return structured data.",
-  packages=find_packages(),
-  long_description=open("./README.md", encoding="utf8").read(),
-  long_description_content_type="text/markdown",
-  install_requires=[
-    "opencv-python>=4.10.0,<5.0",
-    "pillow>=10.3,<11.0",
-    "pyclipper>=1.2.0,<2.0",
-    "numpy>=1.24.0,<2.0",
-    "shapely>=2.0.0,<3.0",
-    "transformers>=4.42.4,<=4.47",
-    "doclayout_yolo>=0.0.3",
-    "pix2tex>=0.1.4,<=0.2.0",
-    "accelerate>=1.6.0,<2.0",
-    "huggingface_hub>=0.30.2,<1.0",
-  ],
-)

doc_page_extractor-0.2.2/tests/__init__.py DELETED Viewed

File without changes

doc_page_extractor-0.2.2/tests/test_history_bus.py DELETED Viewed

@@ -1,55 +0,0 @@
-import os
-import unittest
-from PIL import Image
-from doc_page_extractor import DocExtractor, Layout, LayoutClass
-class TestGroup(unittest.TestCase):
-  def test_history_bugs(self):
-    model_path = os.path.join(self._project_path(), "model")
-    image_path = os.path.join(self._project_path(), "tests", "images", "figure.png")
-    os.makedirs(model_path, exist_ok=True)
-    extractor = DocExtractor(model_path, "cpu")
-    layouts: list[tuple[LayoutClass, list[str]]]
-    with Image.open(image_path) as image:
-      result = extractor.extract(image, extract_formula=False)
-      layouts = [self._format_Layout(layout) for layout in result.layouts]
-    self.assertEqual(layouts, [
-      (LayoutClass.PLAIN_TEXT, [
-        "口的11.8%①。这既是江南农业落后的反映，又是它的原因。当战国以",
-        "后黄河流域因铁器牛耕的普及获得基本的开发，农区联结成一大片的",
-        "时候，南方农业开发始终没有突破星点状或斑块状分布的格局。由于",
-        "地旷人稀，耕作相当粗放，许多水田采取火耕水瓣的方式，旱田则多",
-        "行刀耕火种②。司马迁在《史记·货殖列传》中说：“总之，楚越之",
-        "地，地厂人希，饭稻囊鱼，或火耕而水瓣，果隋（蕨）赢（螺）蛤，",
-        "不待贾而足，地势饶食，无饥谨之患，以故皆偷生，无积聚而多",
-        "贫。”这种概括虽然未免太突出了南方经济的落后面，有一定片面性，",
-        "但大体还是反映了实际情形的。战国秦汉时期，南方与黄河流域农业",
-        "的差距显然拉大了。",
-      ]),
-      (LayoutClass.FIGURE, []),
-      (LayoutClass.FIGURE_CAPTION, [
-        "西晋陶水田犁耙模型（广东连县出土）"
-      ]),
-      (LayoutClass.FIGURE, []),
-      (LayoutClass.FIGURE_CAPTION, [
-        "南朝陶耙田模型 （广西苍梧倒水出土）"
-      ]),
-      (LayoutClass.PLAIN_TEXT, [
-        "①据赵文林、谢淑君：《中国人口史》（人民出版社1988年）有关资料统计。",
-        "②《盐铁论·通有》：“荆扬…………伐木而树谷，焚莱而播粟，火耕而水。”"
-      ]),
-      (LayoutClass.ABANDON, [
-        "136"
-      ]),
-    ])
-  def _format_Layout(self, layout: Layout) -> tuple[LayoutClass, list[str]]:
-    return layout.cls, [f.text.strip() for f in layout.fragments]
-  def _project_path(self) -> str:
-    return os.path.abspath(os.path.join(__file__, "..", ".."))