PyPI - docid - Versions diffs - 0.1.3__py3-none-any.whl → 0.1.4__py3-none-any.whl - Mend

docid 0.1.3py3-none-any.whl → 0.1.4py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

{docid-0.1.3.dist-info → docid-0.1.4.dist-info}/METADATA +1 -1
docid-0.1.4.dist-info/RECORD +14 -0
exef_docid/__init__.py +3 -3
exef_docid/cli.py +5 -5
exef_docid/cli_universal.py +1 -1
exef_docid/document_id.py +10 -10
exef_docid/ocr_processor.py +3 -7
exef_docid/pipeline.py +8 -8
docid-0.1.3.dist-info/RECORD +0 -14
{docid-0.1.3.dist-info → docid-0.1.4.dist-info}/WHEEL +0 -0
{docid-0.1.3.dist-info → docid-0.1.4.dist-info}/entry_points.txt +0 -0
{docid-0.1.3.dist-info → docid-0.1.4.dist-info}/top_level.txt +0 -0

{docid-0.1.3.dist-info → docid-0.1.4.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: docid
-Version: 0.1.3
+Version: 0.1.4
 Summary: Deterministyczny generator identyfikatorów dokumentów z OCR
 Home-page: https://github.com/softreck/docid
 Author: Softreck

docid-0.1.4.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,14 @@
+exef_docid/__init__.py,sha256=CWtcc96kZjLBpVjFbg-bL2yPKsR132AgoF8SX6y5Lrk,2886
+exef_docid/cli.py,sha256=G8beRYj8ImzCvZPrHnIZkxORygCdsIE3O2_bHpJio5o,11109
+exef_docid/cli_universal.py,sha256=HlvLyYKtp3VBx0CEilSGoMDu912zUfo-1BGDzWyehJA,21649
+exef_docid/document_id.py,sha256=2sX4YTKGuazXdkNfBtj0buJMdwopcMk7UTSjr3oJOtQ,23490
+exef_docid/document_id_universal.py,sha256=M66ZjxtufVfxUQkQI4su2Ph3JGy0HEaO4U-8Osv_beQ,13873
+exef_docid/ocr_processor.py,sha256=eFD8m_LsKgUkFngGL_xAseeriBHhHj9ORVWScpxyP5A,19138
+exef_docid/pipeline.py,sha256=_UGjY9bImW__uJakUqLJztLSRPYi3IYZclR09dI3f4o,15435
+exef_docid/extractors/__init__.py,sha256=a2AS9aExd-EpOBp5eO3ZaUOmd0tP5sMSJ3QdVERrTAE,360
+exef_docid/extractors/base.py,sha256=l_8L2irgxOhm5MwM9URCA1IkKTzq0hl5pTSB8EWp_c0,17910
+docid-0.1.4.dist-info/METADATA,sha256=nYBvs7EC3iyhKSPPTREYAwVgn81HcnU7cSL4gbB0Gj4,16206
+docid-0.1.4.dist-info/WHEEL,sha256=wUyA8OaulRlbfwMtmQsvNngGrxQHAvkKcvRmdizlJi0,92
+docid-0.1.4.dist-info/entry_points.txt,sha256=P85wntY_GMh6lwhXTMsWV2QwCLCgIRe1sbIpGoDxrQE,94
+docid-0.1.4.dist-info/top_level.txt,sha256=wEXHg0mYQhhmZ0R3yymDasZhXfI7S0RpTxJ-hmdZ6Ww,11
+docid-0.1.4.dist-info/RECORD,,

exef_docid/__init__.py CHANGED Viewed

@@ -1,5 +1,5 @@
 """
-EXEF Document ID Generator
+DOC Document ID Generator
 Deterministyczny generator identyfikatorów dokumentów z OCR.
 Generuje zawsze ten sam ID dla tego samego dokumentu,
@@ -10,14 +10,14 @@ Przykład użycia:
     # Pełne przetwarzanie
     result = process_document("faktura.pdf")
-    print(result.document_id)      # EXEF-FV-A7B3C9D2E1F04856
+    print(result.document_id)      # DOC-FV-A7B3C9D2E1F04856
     print(result.extraction.issuer_nip)  # 5213017228
     # Tylko ID
     doc_id = get_document_id("paragon.jpg")
     # Weryfikacja
-    is_same = verify_document_id("skan.png", "EXEF-FV-A7B3C9D2E1F04856")
+    is_same = verify_document_id("skan.png", "DOC-FV-A7B3C9D2E1F04856")
 Wymagania:
     pip install paddleocr paddlepaddle pdf2image pillow

exef_docid/cli.py CHANGED Viewed

@@ -1,6 +1,6 @@
 #!/usr/bin/env python3
 """
-CLI dla EXEF Document ID Generator.
+CLI dla DOC Document ID Generator.
 Użycie:
     # Przetwórz pojedynczy plik
@@ -13,7 +13,7 @@ Użycie:
     docid batch ./dokumenty/ --output results.json
     # Weryfikacja ID
-    docid verify faktura.pdf EXEF-FV-A7B3C9D2E1F04856
+    docid verify faktura.pdf DOC-FV-A7B3C9D2E1F04856
     # Tylko OCR (bez generowania ID)
     docid ocr skan.jpg
@@ -267,7 +267,7 @@ def cmd_generate_id(args):
 def main():
     parser = argparse.ArgumentParser(
-        description='EXEF Document ID Generator - deterministyczne ID dokumentów z OCR',
+        description='DOC Document ID Generator - deterministyczne ID dokumentów z OCR',
         formatter_class=argparse.RawDescriptionHelpFormatter,
     )
     parser.add_argument('--version', action='version', version='docid 0.1.0')
@@ -279,7 +279,7 @@ def main():
     common.add_argument('--engine', choices=['paddle', 'tesseract'], default='paddle',
                        help='Silnik OCR (domyślnie: paddle)')
     common.add_argument('--lang', default='pl', help='Język dokumentów')
-    common.add_argument('--prefix', default='EXEF', help='Prefiks ID')
+    common.add_argument('--prefix', default='DOC', help='Prefiks ID')
     common.add_argument('--gpu', action='store_true', help='Użyj GPU')
     common.add_argument('-v', '--verbose', action='store_true', help='Więcej szczegółów')
@@ -324,7 +324,7 @@ def main():
     p_gen.add_argument('--number', help='Numer dokumentu')
     p_gen.add_argument('--date', help='Data (YYYY-MM-DD)')
     p_gen.add_argument('--amount', help='Kwota brutto')
-    p_gen.add_argument('--prefix', default='EXEF', help='Prefiks ID')
+    p_gen.add_argument('--prefix', default='DOC', help='Prefiks ID')
     p_gen.set_defaults(func=cmd_generate_id)
     args = parser.parse_args()

exef_docid/cli_universal.py CHANGED Viewed

@@ -431,7 +431,7 @@ def main():
     """Main CLI entry point"""
     parser = argparse.ArgumentParser(
         prog='docid',
-        description='EXEF Document ID Generator - CLI'
+        description='DOC Document ID Generator - CLI'
     )
     parser.add_argument('--version', action='version', version='%(prog)s 0.1.0')

exef_docid/document_id.py CHANGED Viewed

@@ -14,8 +14,8 @@ from decimal import ROUND_HALF_UP, Decimal
 from enum import Enum
 from typing import Optional, Union
-# Namespace UUID dla EXEF (RFC 4122 UUID v5)
-EXEF_NAMESPACE = uuid.UUID('a1b2c3d4-e5f6-7890-abcd-ef1234567890')
+# Namespace UUID dla DOC (RFC 4122 UUID v5)
+DOC_NAMESPACE = uuid.UUID('a1b2c3d4-e5f6-7890-abcd-ef1234567890')
 class DocumentType(Enum):
@@ -207,10 +207,10 @@ class DocumentIDGenerator:
     niezależnie od formatu źródłowego dokumentu.
     """
-    def __init__(self, prefix: str = "EXEF"):
+    def __init__(self, prefix: str = "DOC"):
         """
         Args:
-            prefix: Prefiks identyfikatora (domyślnie EXEF)
+            prefix: Prefiks identyfikatora (domyślnie DOC)
         """
         self.prefix = prefix
@@ -229,7 +229,7 @@ class DocumentIDGenerator:
         >>> gen = DocumentIDGenerator()
         >>> gen.generate_invoice_id("5213017228", "FV/2025/00142", "2025-01-15", 1230.00)
-        'EXEF-FV-A7B3C9D2E1F04856'
+        'DOC-FV-A7B3C9D2E1F04856'
         """
         canonical = CanonicalData(
             document_type=DocumentType.INVOICE,
@@ -265,7 +265,7 @@ class DocumentIDGenerator:
         >>> gen = DocumentIDGenerator()
         >>> gen.generate_receipt_id("5213017228", "2025-01-15", 45.99)
-        'EXEF-PAR-...'
+        'DOC-PAR-...'
         """
         parts = [
             NIPValidator.normalize(seller_nip),
@@ -649,7 +649,7 @@ class DocumentIDGenerator:
         Generuje finalny identyfikator z danych kanonicznych.
         Format: {PREFIX}-{TYPE}-{HASH16}
-        Przykład: EXEF-FV-A7B3C9D2E1F04856
+        Przykład: DOC-FV-A7B3C9D2E1F04856
         """
         # SHA256 z canonical string
         hash_bytes = hashlib.sha256(canonical.canonical_string.encode('utf-8')).digest()
@@ -662,7 +662,7 @@ class DocumentIDGenerator:
         Weryfikuje czy ID odpowiada danym kanonicznym.
         >>> gen = DocumentIDGenerator()
-        >>> gen.verify_id("EXEF-FV-A7B3C9D2E1F04856", "5213017228|FV/2025/00142|2025-01-15|1230.00")
+        >>> gen.verify_id("DOC-FV-A7B3C9D2E1F04856", "5213017228|FV/2025/00142|2025-01-15|1230.00")
         True
         """
         hash_bytes = hashlib.sha256(canonical_string.encode('utf-8')).digest()
@@ -679,8 +679,8 @@ class DocumentIDGenerator:
         """
         Parsuje identyfikator dokumentu.
-        >>> DocumentIDGenerator.parse_id("EXEF-FV-A7B3C9D2E1F04856")
-        {'prefix': 'EXEF', 'type': 'FV', 'hash': 'A7B3C9D2E1F04856',
+        >>> DocumentIDGenerator.parse_id("DOC-FV-A7B3C9D2E1F04856")
+        {'prefix': 'DOC', 'type': 'FV', 'hash': 'A7B3C9D2E1F04856',
          'document_type': <DocumentType.INVOICE>}
         """
         parts = document_id.split('-')

exef_docid/ocr_processor.py CHANGED Viewed

@@ -195,12 +195,8 @@ class PaddleOCRProcessor(BaseOCRProcessor):
                 self._ocr = PaddleOCR(
                     use_angle_cls=True,
                     lang=lang,
-                    use_gpu=self.use_gpu,
                     det_model_dir=self._det_model_dir,
                     rec_model_dir=self._rec_model_dir,
-                    # Optymalizacje CPU
-                    enable_mkldnn=True,
-                    cpu_threads=4,
                 )
             except ImportError:
                 raise ImportError(
@@ -216,7 +212,7 @@ class PaddleOCRProcessor(BaseOCRProcessor):
         self._init_ocr()
         image_path = str(image_path)
-        result = self._ocr.ocr(image_path, cls=True)
+        result = self._ocr.ocr(image_path)
         lines = []
         full_text_parts = []
@@ -439,8 +435,8 @@ class OCRProcessor:
     def __init__(
         self,
-        preferred_engine: OCREngine = OCREngine.PADDLE,
-        fallback_engine: OCREngine = OCREngine.TESSERACT,
+        preferred_engine: OCREngine = OCREngine.TESSERACT,
+        fallback_engine: OCREngine = OCREngine.PADDLE,
         lang: str = 'pl',
         use_gpu: bool = False,
     ):

exef_docid/pipeline.py CHANGED Viewed

@@ -97,20 +97,20 @@ class DocumentPipeline:
     Przykład użycia:
         pipeline = DocumentPipeline()
         result = pipeline.process("faktura.pdf")
-        print(result.document_id)  # EXEF-FV-A7B3C9D2E1F04856
+        print(result.document_id)  # DOC-FV-A7B3C9D2E1F04856
     """
     def __init__(
         self,
-        ocr_engine: OCREngine = OCREngine.PADDLE,
-        id_prefix: str = "EXEF",
+        ocr_engine: OCREngine = OCREngine.TESSERACT,
+        id_prefix: str = "DOC",
         lang: str = "pl",
         use_gpu: bool = False,
     ):
         """
         Args:
             ocr_engine: Silnik OCR (PADDLE lub TESSERACT)
-            id_prefix: Prefiks identyfikatorów (domyślnie EXEF)
+            id_prefix: Prefiks identyfikatorów (domyślnie DOC)
             lang: Język dokumentów (pl, en)
             use_gpu: Czy używać GPU (domyślnie False dla CPU)
         """
@@ -390,7 +390,7 @@ class DocumentPipeline:
 _default_pipeline: Optional[DocumentPipeline] = None
-def get_pipeline(ocr_engine: OCREngine = OCREngine.PADDLE) -> DocumentPipeline:
+def get_pipeline(ocr_engine: OCREngine = OCREngine.TESSERACT) -> DocumentPipeline:
     """Zwraca domyślny pipeline (lazy init)."""
     global _default_pipeline
     if _default_pipeline is None or _default_pipeline.ocr.preferred_engine != ocr_engine:
@@ -398,7 +398,7 @@ def get_pipeline(ocr_engine: OCREngine = OCREngine.PADDLE) -> DocumentPipeline:
     return _default_pipeline
-def process_document(file_path: Union[str, Path], ocr_engine: OCREngine = OCREngine.PADDLE, use_ocr: bool = True) -> ProcessedDocument:
+def process_document(file_path: Union[str, Path], ocr_engine: OCREngine = OCREngine.TESSERACT, use_ocr: bool = True) -> ProcessedDocument:
     """
     Przetwarza dokument i zwraca wynik z ID.
@@ -416,7 +416,7 @@ def get_document_id(file_path: Union[str, Path]) -> str:
     Przykład:
         doc_id = get_document_id("faktura.pdf")
-        print(doc_id)  # EXEF-FV-A7B3C9D2E1F04856
+        print(doc_id)  # DOC-FV-A7B3C9D2E1F04856
     """
     return get_pipeline().process(file_path).document_id
@@ -426,6 +426,6 @@ def verify_document_id(file_path: Union[str, Path], expected_id: str) -> bool:
     Weryfikuje czy dokument ma oczekiwany ID.
     Przykład:
-        is_valid = verify_document_id("skan.jpg", "EXEF-FV-A7B3C9D2E1F04856")
+        is_valid = verify_document_id("skan.jpg", "DOC-FV-A7B3C9D2E1F04856")
     """
     return get_pipeline().verify_document(file_path, expected_id)

docid-0.1.3.dist-info/RECORD DELETED Viewed

@@ -1,14 +0,0 @@
-exef_docid/__init__.py,sha256=fhG2gmFD4ZCOFNW6G_QZ-i-SQ5GDHKrTp8DWuMDBVOc,2889
-exef_docid/cli.py,sha256=-04_ykTVBvlYN5-AnMH-OLVjoFADawJ5QzGWR_6NazI,11114
-exef_docid/cli_universal.py,sha256=bcupHuuLG4ep_Rh9gTqQizuR9cQCAO7bNY6cWqzelg4,21650
-exef_docid/document_id.py,sha256=lE9raTmmFa7xEnSfJPuNPM8yOlvixC5uF5gFO5S7GHU,23500
-exef_docid/document_id_universal.py,sha256=M66ZjxtufVfxUQkQI4su2Ph3JGy0HEaO4U-8Osv_beQ,13873
-exef_docid/ocr_processor.py,sha256=Ooy7X_EKd3wQUz4fNmD-oGIKYLauylrXAxQ9IfssmaI,19305
-exef_docid/pipeline.py,sha256=-o-sPCqYEwzsA2R6llkKv61EbcQ8F2KhJVSuJus7tWU,15431
-exef_docid/extractors/__init__.py,sha256=a2AS9aExd-EpOBp5eO3ZaUOmd0tP5sMSJ3QdVERrTAE,360
-exef_docid/extractors/base.py,sha256=l_8L2irgxOhm5MwM9URCA1IkKTzq0hl5pTSB8EWp_c0,17910
-docid-0.1.3.dist-info/METADATA,sha256=gtoHdagrVWN2Eu_Ii9DUWTgkRYrFQs_cxRWcf4w3t14,16206
-docid-0.1.3.dist-info/WHEEL,sha256=wUyA8OaulRlbfwMtmQsvNngGrxQHAvkKcvRmdizlJi0,92
-docid-0.1.3.dist-info/entry_points.txt,sha256=P85wntY_GMh6lwhXTMsWV2QwCLCgIRe1sbIpGoDxrQE,94
-docid-0.1.3.dist-info/top_level.txt,sha256=wEXHg0mYQhhmZ0R3yymDasZhXfI7S0RpTxJ-hmdZ6Ww,11
-docid-0.1.3.dist-info/RECORD,,

{docid-0.1.3.dist-info → docid-0.1.4.dist-info}/WHEEL RENAMED Viewed

File without changes

{docid-0.1.3.dist-info → docid-0.1.4.dist-info}/entry_points.txt RENAMED Viewed

File without changes

{docid-0.1.3.dist-info → docid-0.1.4.dist-info}/top_level.txt RENAMED Viewed

File without changes

docid 0.1.3__py3-none-any.whl → 0.1.4__py3-none-any.whl

docid 0.1.3py3-none-any.whl → 0.1.4py3-none-any.whl