PyPI - doc-page-extractor - Versions diffs - 0.1.0__tar.gz → 0.1.1__tar.gz - Mend

doc-page-extractor 0.1.0tar.gz → 0.1.1tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of doc-page-extractor might be problematic. Click here for more details.

Files changed (49) hide show

{doc_page_extractor-0.1.0 → doc_page_extractor-0.1.1}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: doc-page-extractor
-Version: 0.1.0
+Version: 0.1.1
 Summary: doc page extractor can identify text and format in images and return structured data.
 Home-page: https://github.com/Moskize91/doc-page-extractor
 Author: Tao Zeyu

{doc_page_extractor-0.1.0 → doc_page_extractor-0.1.1}/doc_page_extractor/extractor.py RENAMED Viewed

@@ -116,12 +116,13 @@ class DocExtractor:
         lb=(x1, y2),
         rb=(x2, y2),
       )
-      if cls == LayoutClass.TABLE:
-        yield TableLayout(cls=cls, rect=rect, fragments=[], parsed=None)
-      elif cls == LayoutClass.ISOLATE_FORMULA:
-        yield FormulaLayout(cls=cls, rect=rect, fragments=[], latex=None)
-      else:
-        yield PlainLayout(cls=cls, rect=rect, fragments=[])
+      if rect.is_valid:
+        if cls == LayoutClass.TABLE:
+          yield TableLayout(cls=cls, rect=rect, fragments=[], parsed=None)
+        elif cls == LayoutClass.ISOLATE_FORMULA:
+          yield FormulaLayout(cls=cls, rect=rect, fragments=[], latex=None)
+        else:
+          yield PlainLayout(cls=cls, rect=rect, fragments=[])
   def _layouts_matched_by_fragments(self, fragments: list[OCRFragment], layouts: list[Layout]):
     layouts_group = self._split_layouts_by_group(layouts)

{doc_page_extractor-0.1.0 → doc_page_extractor-0.1.1}/doc_page_extractor/ocr.py RENAMED Viewed

@@ -69,7 +69,7 @@ class OCR:
         rb=(box[2][0], box[2][1]),
         lb=(box[3][0], box[3][1]),
       )
-      if rect.area == 0.0:
+      if not rect.is_valid or rect.area == 0.0:
         continue
       yield OCRFragment(

{doc_page_extractor-0.1.0 → doc_page_extractor-0.1.1}/doc_page_extractor/rectangle.py RENAMED Viewed

@@ -19,6 +19,10 @@ class Rectangle:
     yield self.rb
     yield self.rt
+  @property
+  def is_valid(self) -> bool:
+    return Polygon(self).is_valid
   @property
   def segments(self) -> Generator[tuple[Point, Point], None, None]:
     yield (self.lt, self.lb)
@@ -60,6 +64,8 @@ class Rectangle:
 def intersection_area(rect1: Rectangle, rect2: Rectangle) -> float:
   poly1 = Polygon(rect1)
   poly2 = Polygon(rect2)
+  if not poly1.is_valid or not poly2.is_valid:
+    return 0.0
   intersection = poly1.intersection(poly2)
   if intersection.is_empty:
     return 0.0

{doc_page_extractor-0.1.0 → doc_page_extractor-0.1.1}/doc_page_extractor.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: doc-page-extractor
-Version: 0.1.0
+Version: 0.1.1
 Summary: doc page extractor can identify text and format in images and return structured data.
 Home-page: https://github.com/Moskize91/doc-page-extractor
 Author: Tao Zeyu

{doc_page_extractor-0.1.0 → doc_page_extractor-0.1.1}/setup.py RENAMED Viewed

@@ -5,7 +5,7 @@ if "doc_page_extractor.struct_eqtable" not in find_packages():
 setup(
   name="doc-page-extractor",
-  version="0.1.0",
+  version="0.1.1",
   author="Tao Zeyu",
   author_email="i@taozeyu.com",
   url="https://github.com/Moskize91/doc-page-extractor",