PyPI - natural-pdf - Versions diffs - 0.1.33__py3-none-any.whl → 0.1.35__py3-none-any.whl - Mend

natural-pdf 0.1.33py3-none-any.whl → 0.1.35py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (77) hide show

natural_pdf/analyzers/__init__.py +2 -2
natural_pdf/analyzers/guides.py +751 -607
natural_pdf/analyzers/layout/base.py +53 -6
natural_pdf/analyzers/layout/layout_analyzer.py +3 -1
natural_pdf/analyzers/layout/layout_manager.py +18 -14
natural_pdf/analyzers/layout/layout_options.py +1 -0
natural_pdf/analyzers/layout/paddle.py +102 -64
natural_pdf/analyzers/layout/table_structure_utils.py +3 -1
natural_pdf/analyzers/layout/yolo.py +2 -6
natural_pdf/analyzers/shape_detection_mixin.py +15 -6
natural_pdf/classification/manager.py +92 -77
natural_pdf/classification/mixin.py +49 -5
natural_pdf/classification/results.py +1 -1
natural_pdf/cli.py +7 -3
natural_pdf/collections/pdf_collection.py +96 -101
natural_pdf/core/element_manager.py +131 -45
natural_pdf/core/highlighting_service.py +5 -6
natural_pdf/core/page.py +120 -23
natural_pdf/core/pdf.py +477 -75
natural_pdf/describe/__init__.py +18 -12
natural_pdf/describe/base.py +179 -172
natural_pdf/describe/elements.py +155 -155
natural_pdf/describe/mixin.py +27 -19
natural_pdf/describe/summary.py +44 -55
natural_pdf/elements/base.py +134 -18
natural_pdf/elements/collections.py +90 -18
natural_pdf/elements/image.py +2 -1
natural_pdf/elements/line.py +0 -31
natural_pdf/elements/rect.py +0 -14
natural_pdf/elements/region.py +222 -108
natural_pdf/elements/text.py +18 -12
natural_pdf/exporters/__init__.py +4 -1
natural_pdf/exporters/original_pdf.py +12 -4
natural_pdf/extraction/mixin.py +66 -10
natural_pdf/extraction/result.py +1 -1
natural_pdf/flows/flow.py +63 -4
natural_pdf/flows/region.py +4 -4
natural_pdf/ocr/engine.py +83 -2
natural_pdf/ocr/engine_paddle.py +5 -5
natural_pdf/ocr/ocr_factory.py +2 -1
natural_pdf/ocr/ocr_manager.py +24 -13
natural_pdf/ocr/ocr_options.py +3 -10
natural_pdf/qa/document_qa.py +21 -8
natural_pdf/qa/qa_result.py +3 -7
natural_pdf/search/__init__.py +3 -2
natural_pdf/search/lancedb_search_service.py +5 -6
natural_pdf/search/numpy_search_service.py +5 -2
natural_pdf/selectors/parser.py +51 -6
natural_pdf/tables/__init__.py +2 -2
natural_pdf/tables/result.py +7 -6
natural_pdf/utils/bidi_mirror.py +2 -1
natural_pdf/utils/reading_order.py +3 -2
natural_pdf/utils/visualization.py +3 -3
natural_pdf/widgets/viewer.py +0 -1
{natural_pdf-0.1.33.dist-info → natural_pdf-0.1.35.dist-info}/METADATA +1 -1
natural_pdf-0.1.35.dist-info/RECORD +121 -0
optimization/memory_comparison.py +73 -58
optimization/pdf_analyzer.py +141 -96
optimization/performance_analysis.py +111 -110
optimization/test_cleanup_methods.py +47 -36
optimization/test_memory_fix.py +40 -39
tools/bad_pdf_eval/__init__.py +0 -1
tools/bad_pdf_eval/analyser.py +35 -18
tools/bad_pdf_eval/collate_summaries.py +22 -18
tools/bad_pdf_eval/compile_attempts_markdown.py +127 -0
tools/bad_pdf_eval/eval_suite.py +21 -9
tools/bad_pdf_eval/evaluate_quality.py +198 -0
tools/bad_pdf_eval/export_enrichment_csv.py +12 -8
tools/bad_pdf_eval/llm_enrich.py +71 -39
tools/bad_pdf_eval/llm_enrich_with_retry.py +289 -0
tools/bad_pdf_eval/reporter.py +1 -1
tools/bad_pdf_eval/utils.py +7 -4
natural_pdf-0.1.33.dist-info/RECORD +0 -118
{natural_pdf-0.1.33.dist-info → natural_pdf-0.1.35.dist-info}/WHEEL +0 -0
{natural_pdf-0.1.33.dist-info → natural_pdf-0.1.35.dist-info}/entry_points.txt +0 -0
{natural_pdf-0.1.33.dist-info → natural_pdf-0.1.35.dist-info}/licenses/LICENSE +0 -0
{natural_pdf-0.1.33.dist-info → natural_pdf-0.1.35.dist-info}/top_level.txt +0 -0

optimization/memory_comparison.py CHANGED Viewed

@@ -10,10 +10,11 @@ This script compares memory usage before and after the optimization by:
 import gc
 import os
-import psutil
 import sys
 from pathlib import Path
+import psutil
 import natural_pdf as npdf
@@ -22,9 +23,9 @@ def get_detailed_memory_info():
     process = psutil.Process()
     memory_info = process.memory_info()
     return {
-        'rss_mb': memory_info.rss / 1024 / 1024,
-        'vms_mb': memory_info.vms / 1024 / 1024,
-        'python_objects': len(gc.get_objects())
+        "rss_mb": memory_info.rss / 1024 / 1024,
+        "vms_mb": memory_info.vms / 1024 / 1024,
+        "python_objects": len(gc.get_objects()),
     }
@@ -32,77 +33,83 @@ def analyze_character_storage(page):
     """Analyze how characters are stored in the page"""
     # Force element loading
     text_elements = page.find_all("text")
     total_char_indices = 0
     total_char_dicts = 0
     total_chars_in_words = 0
     memory_efficient_words = 0
     legacy_words = 0
     for element in text_elements:
-        if hasattr(element, '_char_indices') and element._char_indices:
+        if hasattr(element, "_char_indices") and element._char_indices:
             memory_efficient_words += 1
             total_char_indices += len(element._char_indices)
             total_chars_in_words += len(element._char_indices)
-        if hasattr(element, '_char_dicts') and element._char_dicts:
+        if hasattr(element, "_char_dicts") and element._char_dicts:
             total_char_dicts += len(element._char_dicts)
-            if not (hasattr(element, '_char_indices') and element._char_indices):
+            if not (hasattr(element, "_char_indices") and element._char_indices):
                 legacy_words += 1
                 total_chars_in_words += len(element._char_dicts)
     # Get individual character elements
     char_elements = []
-    if hasattr(page, '_element_mgr'):
-        char_elements = page._element_mgr.get_elements('chars')
+    if hasattr(page, "_element_mgr"):
+        char_elements = page._element_mgr.get_elements("chars")
     return {
-        'total_words': len(text_elements),
-        'memory_efficient_words': memory_efficient_words,
-        'legacy_words': legacy_words,
-        'total_char_elements': len(char_elements),
-        'total_char_indices': total_char_indices,
-        'total_char_dicts': total_char_dicts,
-        'total_chars_in_words': total_chars_in_words,
-        'estimated_duplication_ratio': total_char_dicts / max(len(char_elements), 1)
+        "total_words": len(text_elements),
+        "memory_efficient_words": memory_efficient_words,
+        "legacy_words": legacy_words,
+        "total_char_elements": len(char_elements),
+        "total_char_indices": total_char_indices,
+        "total_char_dicts": total_char_dicts,
+        "total_chars_in_words": total_chars_in_words,
+        "estimated_duplication_ratio": total_char_dicts / max(len(char_elements), 1),
     }
 def test_memory_optimization():
     """Test the memory optimization with a real PDF"""
     # Test with the practice PDF
     test_pdf = Path("pdfs/01-practice.pdf")
     if not test_pdf.exists():
         print(f"Test PDF not found: {test_pdf}")
         return
     print("=" * 60)
     print("MEMORY OPTIMIZATION ANALYSIS")
     print("=" * 60)
     # Baseline memory
     gc.collect()
     baseline_memory = get_detailed_memory_info()
-    print(f"Baseline memory: {baseline_memory['rss_mb']:.2f} MB RSS, {baseline_memory['python_objects']:,} objects")
+    print(
+        f"Baseline memory: {baseline_memory['rss_mb']:.2f} MB RSS, {baseline_memory['python_objects']:,} objects"
+    )
     # Load PDF
     pdf = npdf.PDF(str(test_pdf))
     page = pdf.pages[0]
     post_load_memory = get_detailed_memory_info()
-    print(f"After PDF load: {post_load_memory['rss_mb']:.2f} MB RSS, {post_load_memory['python_objects']:,} objects")
+    print(
+        f"After PDF load: {post_load_memory['rss_mb']:.2f} MB RSS, {post_load_memory['python_objects']:,} objects"
+    )
     # Analyze character storage
     storage_analysis = analyze_character_storage(page)
     final_memory = get_detailed_memory_info()
-    print(f"After element load: {final_memory['rss_mb']:.2f} MB RSS, {final_memory['python_objects']:,} objects")
+    print(
+        f"After element load: {final_memory['rss_mb']:.2f} MB RSS, {final_memory['python_objects']:,} objects"
+    )
     print("\n" + "=" * 40)
     print("CHARACTER STORAGE ANALYSIS")
     print("=" * 40)
     print(f"Total words: {storage_analysis['total_words']}")
     print(f"Memory-efficient words: {storage_analysis['memory_efficient_words']}")
     print(f"Legacy words: {storage_analysis['legacy_words']}")
@@ -110,63 +117,71 @@ def test_memory_optimization():
     print(f"Character indices used: {storage_analysis['total_char_indices']}")
     print(f"Character dicts stored: {storage_analysis['total_char_dicts']}")
     print(f"Characters referenced by words: {storage_analysis['total_chars_in_words']}")
     # Calculate optimization metrics
-    duplication_ratio = storage_analysis['estimated_duplication_ratio']
-    optimization_percentage = storage_analysis['memory_efficient_words'] / max(storage_analysis['total_words'], 1) * 100
+    duplication_ratio = storage_analysis["estimated_duplication_ratio"]
+    optimization_percentage = (
+        storage_analysis["memory_efficient_words"] / max(storage_analysis["total_words"], 1) * 100
+    )
     print(f"\nOptimization metrics:")
     print(f"- Duplication ratio: {duplication_ratio:.2f}x")
     print(f"- Words using optimization: {optimization_percentage:.1f}%")
     # Memory savings estimation
-    memory_used = final_memory['rss_mb'] - baseline_memory['rss_mb']
-    chars_total = storage_analysis['total_char_elements']
+    memory_used = final_memory["rss_mb"] - baseline_memory["rss_mb"]
+    chars_total = storage_analysis["total_char_elements"]
     if chars_total > 0:
         memory_per_char = memory_used / chars_total * 1024  # KB per char
         print(f"- Memory per character: {memory_per_char:.2f} KB")
         # Estimate savings from eliminating _char_dicts duplication
-        duplicated_chars = storage_analysis['total_char_dicts']
+        duplicated_chars = storage_analysis["total_char_dicts"]
         if duplicated_chars > 0:
             estimated_wasted_memory = duplicated_chars * memory_per_char / 1024  # MB
             print(f"- Estimated memory saved by optimization: {estimated_wasted_memory:.2f} MB")
-            print(f"- Memory efficiency improvement: {estimated_wasted_memory / memory_used * 100:.1f}%")
+            print(
+                f"- Memory efficiency improvement: {estimated_wasted_memory / memory_used * 100:.1f}%"
+            )
     print(f"\nTotal memory used for page processing: {memory_used:.2f} MB")
     # Test functionality
     print("\n" + "=" * 40)
     print("FUNCTIONALITY VERIFICATION")
     print("=" * 40)
     # Test character access
     test_elements = page.find_all("text")[:3]
     for i, element in enumerate(test_elements):
         print(f"\nWord {i+1}: '{element.text[:30]}{'...' if len(element.text) > 30 else ''}'")
-        if hasattr(element, '_char_indices') and element._char_indices:
+        if hasattr(element, "_char_indices") and element._char_indices:
             chars = element.chars
-            print(f"  - Uses character indices: {len(element._char_indices)} indices -> {len(chars)} chars")
+            print(
+                f"  - Uses character indices: {len(element._char_indices)} indices -> {len(chars)} chars"
+            )
             print(f"  - Memory optimization: ACTIVE")
             # Verify character access works
             if chars:
                 first_char = chars[0]
-                print(f"  - First char: '{first_char.text}' at ({first_char.x0:.1f}, {first_char.top:.1f})")
-        elif hasattr(element, '_char_dicts') and element._char_dicts:
+                print(
+                    f"  - First char: '{first_char.text}' at ({first_char.x0:.1f}, {first_char.top:.1f})"
+                )
+        elif hasattr(element, "_char_dicts") and element._char_dicts:
             print(f"  - Uses character dicts: {len(element._char_dicts)} dicts")
             print(f"  - Memory optimization: LEGACY MODE")
         else:
             print(f"  - No character data available")
     print("\n" + "=" * 60)
     print("✅ MEMORY OPTIMIZATION ANALYSIS COMPLETE")
     print("=" * 60)
 if __name__ == "__main__":
-    test_memory_optimization()
+    test_memory_optimization()

natural-pdf 0.1.33__py3-none-any.whl → 0.1.35__py3-none-any.whl

natural-pdf 0.1.33py3-none-any.whl → 0.1.35py3-none-any.whl