PyPI - data-science-document-ai - Versions diffs - 1.42.0__tar.gz → 1.42.2__tar.gz - Mend

@@ -138,36 +138,7 @@ def update_recipient_and_vendor(aggregated_data, is_recipient_forto):
 def process_partner_invoice(params, aggregated_data, document_type_code):
     """Process the partner invoice data."""
-    # Post process containerNumber.
-    # TODO: Remove this block of code after migrating to LLM completely and update the placeholder in the prompt library
-    if "containerNumber" in aggregated_data and isinstance(
-        aggregated_data["containerNumber"], dict
-    ):
-        container_number = aggregated_data.get("containerNumber", {}).get(
-            "formattedValue", None
-        )
-        if container_number:
-            aggregated_data["containerNumber"] = (
-                [
-                    {
-                        "documentValue": aggregated_data.get("containerNumber", {}).get(
-                            "documentValue", ""
-                        ),
-                        "formattedValue": ctr_number,
-                    }
-                    for ctr_number in container_number
-                ]
-                if isinstance(container_number, list)
-                else [
-                    {
-                        "documentValue": aggregated_data.get("containerNumber", {}).get(
-                            "documentValue", ""
-                        ),
-                        "formattedValue": container_number,
-                    }
-                ]
-            )
+    # Post process bundeskasse invoices
     if document_type_code == "bundeskasse":
         post_process_bundeskasse(aggregated_data)
         return
@@ -197,9 +168,13 @@ def process_partner_invoice(params, aggregated_data, document_type_code):
                 params,
             )
+            # Add page number for the consistency
+            line_item["itemCode"]["page"] = line_item["lineItemDescription"]["page"]
         if reverse_charge:
             # Distribute reverseChargeSentence to all line items
             line_item["reverseChargeSentence"] = reverse_charge
+            line_item["reverseChargeSentence"]["page"] = reverse_charge["page"]
 def compute_score(args):

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: data-science-document-ai
-Version: 1.42.0
+Version: 1.42.2
 Summary: "Document AI repo for data science"
 Author: Naomi Nguyen
 Author-email: naomi.nguyen@forto.com

@@ -1,6 +1,6 @@
 [tool.poetry]
 name = "data-science-document-ai"
-version = "1.42.0"
+version = "1.42.2"
 description = "\"Document AI repo for data science\""
 authors = ["Naomi Nguyen <naomi.nguyen@forto.com>", "Kumar Rajendrababu <kumar.rajendrababu@forto.com>", "Igor Tonko <igor.tonko@forto.com>", "Osman Demirel <osman.demirel@forto.com>"]
 packages = [

@@ -20,7 +20,8 @@ async def extract_data_from_sheet(
     params, sheet_name, sheet, response_schema, doc_type=None
 ):
     logger.info(f"Processing sheet: {sheet_name}")
-    excel_content = pd.DataFrame(sheet.values)
+    excel_content = pd.DataFrame(sheet.values).dropna(how="all", axis=1)
     # Convert to Markdown format for the LLM model
     worksheet = (
         "This is from a excel. Pay attention to the cell position:\n"

@@ -11,8 +11,6 @@ from pathlib import Path
 from google.cloud import bigquery, storage
-from src.constants import project_parameters
 def get_gcp_labels(**extra_labels):
     """Generate standardized GCP labels for cost tracking.
@@ -23,12 +21,34 @@ def get_gcp_labels(**extra_labels):
     Returns:
         dict: Labels dictionary with keys normalized (lowercase, hyphens, max 63 chars)
     """
+    project_name = os.getenv("PROJECT_NAME")
+    # If not set, detect once and cache it
+    if not project_name:
+        # Try pyproject.toml first
+        try:
+            import toml
+            pyproject_path = Path(__file__).parent.parent / "pyproject.toml"
+            if pyproject_path.exists():
+                config = toml.load(pyproject_path)
+                project_name = config.get("tool", {}).get("poetry", {}).get("name")
+        except Exception:
+            pass
+        # Fallback to unknown
+        if not project_name:
+            project_name = "unknown"
+        # Cache it
+        os.environ["PROJECT_NAME"] = project_name
     labels = {
-        "ds-project-name": project_parameters["project_name"],
+        "ds-project-name": project_name.lower(),
         "ds-env": os.getenv("CLUSTER", "local").lower(),
     }
-    # Add any extra labels passed in
+    # Add any extra labels
     labels.update({k.lower(): str(v).lower() for k, v in extra_labels.items()})
     return labels

data-science-document-ai 1.42.0__tar.gz → 1.42.2__tar.gz

data-science-document-ai 1.42.0tar.gz → 1.42.2tar.gz