PyPI - retab - Versions diffs - 0.0.40__py3-none-any.whl → 0.0.42__py3-none-any.whl - Mend

retab 0.0.40py3-none-any.whl → 0.0.42py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (53) hide show

retab/client.py +5 -5
retab/resources/consensus/completions.py +1 -1
retab/resources/consensus/completions_stream.py +5 -5
retab/resources/consensus/responses.py +1 -1
retab/resources/consensus/responses_stream.py +2 -2
retab/resources/documents/client.py +12 -11
retab/resources/documents/extractions.py +4 -4
retab/resources/evals.py +1 -1
retab/resources/evaluations/documents.py +1 -1
retab/resources/jsonlUtils.py +4 -4
retab/resources/processors/automations/endpoints.py +9 -5
retab/resources/processors/automations/links.py +2 -2
retab/resources/processors/automations/logs.py +2 -2
retab/resources/processors/automations/mailboxes.py +43 -32
retab/resources/processors/automations/outlook.py +25 -7
retab/resources/processors/automations/tests.py +8 -2
retab/resources/processors/client.py +25 -16
retab/resources/prompt_optimization.py +1 -1
retab/resources/schemas.py +3 -3
retab/types/automations/mailboxes.py +1 -1
retab/types/completions.py +1 -1
retab/types/documents/create_messages.py +4 -4
retab/types/documents/extractions.py +3 -3
retab/types/documents/parse.py +3 -1
retab/types/evals.py +2 -2
retab/types/evaluations/iterations.py +2 -2
retab/types/evaluations/model.py +2 -2
retab/types/extractions.py +34 -9
retab/types/jobs/prompt_optimization.py +1 -1
retab/types/logs.py +3 -3
retab/types/schemas/object.py +4 -4
retab/types/schemas/templates.py +1 -1
retab/utils/__init__.py +0 -0
retab/utils/_model_cards/anthropic.yaml +59 -0
retab/utils/_model_cards/auto.yaml +43 -0
retab/utils/_model_cards/gemini.yaml +117 -0
retab/utils/_model_cards/openai.yaml +301 -0
retab/utils/_model_cards/xai.yaml +28 -0
retab/utils/ai_models.py +138 -0
retab/utils/benchmarking.py +484 -0
retab/utils/chat.py +327 -0
retab/utils/display.py +440 -0
retab/utils/json_schema.py +2156 -0
retab/utils/mime.py +165 -0
retab/utils/responses.py +169 -0
retab/utils/stream_context_managers.py +52 -0
retab/utils/usage/__init__.py +0 -0
retab/utils/usage/usage.py +301 -0
retab-0.0.42.dist-info/METADATA +119 -0
{retab-0.0.40.dist-info → retab-0.0.42.dist-info}/RECORD +52 -36
retab-0.0.40.dist-info/METADATA +0 -418
{retab-0.0.40.dist-info → retab-0.0.42.dist-info}/WHEEL +0 -0
{retab-0.0.40.dist-info → retab-0.0.42.dist-info}/top_level.txt +0 -0

retab/resources/processors/automations/outlook.py CHANGED Viewed

@@ -3,7 +3,13 @@ from typing import Any, Literal, List
 from pydantic_core import PydanticUndefined
 from ...._resource import AsyncAPIResource, SyncAPIResource
-from ....types.automations.outlook import FetchParams, ListOutlooks, MatchParams, Outlook, UpdateOutlookRequest
+from ....types.automations.outlook import (
+    FetchParams,
+    ListOutlooks,
+    MatchParams,
+    Outlook,
+    UpdateOutlookRequest,
+)
 from ....types.standards import PreparedRequest
@@ -38,10 +44,15 @@ class OutlooksMixin:
             match_params=match_params,
             fetch_params=fetch_params,
         )
-        return PreparedRequest(method="POST", url=self.outlooks_base_url, data=outlook_data.model_dump(mode="json"))
+        return PreparedRequest(
+            method="POST",
+            url=self.outlooks_base_url,
+            data=outlook_data.model_dump(mode="json"),
+        )
     def prepare_list(
         self,
+        processor_id: str,
         before: str | None = None,
         after: str | None = None,
         limit: int = 10,
@@ -50,6 +61,7 @@ class OutlooksMixin:
         webhook_url: str | None = None,
     ) -> PreparedRequest:
         params = {
+            "processor_id": processor_id,
             "before": before,
             "after": after,
             "limit": limit,
@@ -92,7 +104,11 @@ class OutlooksMixin:
             fetch_params=fetch_params,
         )
-        return PreparedRequest(method="PUT", url=f"{self.outlooks_base_url}/{outlook_id}", data=update_outlook_request.model_dump(mode="json"))
+        return PreparedRequest(
+            method="PUT",
+            url=f"{self.outlooks_base_url}/{outlook_id}",
+            data=update_outlook_request.model_dump(mode="json"),
+        )
     def prepare_delete(self, outlook_id: str) -> PreparedRequest:
         return PreparedRequest(method="DELETE", url=f"{self.outlooks_base_url}/{outlook_id}")
@@ -149,12 +165,13 @@ class Outlooks(SyncAPIResource, OutlooksMixin):
         )
         response = self._client._prepared_request(request)
-        print(f"Outlook plugin created. Url: https://www.retab.dev/dashboard/processors/automations/{response['id']}")
+        print(f"Outlook plugin created. Url: https://www.retab.com/dashboard/processors/automations/{response['id']}")
         return Outlook.model_validate(response)
     def list(
         self,
+        processor_id: str,
         before: str | None = None,
         after: str | None = None,
         limit: int = 10,
@@ -174,7 +191,7 @@ class Outlooks(SyncAPIResource, OutlooksMixin):
         Returns:
             List[Outlook]: List of outlook plugin configurations
         """
-        request = self.prepare_list(before, after, limit, order, name, webhook_url)
+        request = self.prepare_list(processor_id, before, after, limit, order, name, webhook_url)
         response = self._client._prepared_request(request)
         return ListOutlooks.model_validate(response)
@@ -280,11 +297,12 @@ class AsyncOutlooks(AsyncAPIResource, OutlooksMixin):
             fetch_params=fetch_params,
         )
         response = await self._client._prepared_request(request)
-        print(f"Outlook plugin created. Url: https://www.retab.dev/dashboard/processors/automations/{response['id']}")
+        print(f"Outlook plugin created. Url: https://www.retab.com/dashboard/processors/automations/{response['id']}")
         return Outlook.model_validate(response)
     async def list(
         self,
+        processor_id: str,
         before: str | None = None,
         after: str | None = None,
         limit: int = 10,
@@ -292,7 +310,7 @@ class AsyncOutlooks(AsyncAPIResource, OutlooksMixin):
         name: str | None = None,
         webhook_url: str | None = None,
     ) -> ListOutlooks:
-        request = self.prepare_list(before, after, limit, order, name, webhook_url)
+        request = self.prepare_list(processor_id, before, after, limit, order, name, webhook_url)
         response = await self._client._prepared_request(request)
         return ListOutlooks.model_validate(response)

retab/resources/processors/automations/tests.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import json
+import base64
 from io import IOBase
 from pathlib import Path
@@ -6,7 +7,7 @@ from PIL.Image import Image
 from pydantic import HttpUrl
 from ...._resource import AsyncAPIResource, SyncAPIResource
-from ...._utils.mime import prepare_mime_document
+from ....utils.mime import prepare_mime_document
 from ....types.logs import AutomationLog
 from ....types.mime import MIMEData
 from ....types.standards import PreparedRequest
@@ -15,7 +16,12 @@ from ....types.standards import PreparedRequest
 class TestsMixin:
     def prepare_upload(self, automation_id: str, document: Path | str | IOBase | HttpUrl | Image | MIMEData) -> PreparedRequest:
         mime_document = prepare_mime_document(document)
-        return PreparedRequest(method="POST", url=f"/v1/processors/automations/tests/upload/{automation_id}", data={"document": mime_document.model_dump(mode="json")})
+        # Convert MIME document to file upload format (similar to processors client)
+        files = {"file": (mime_document.filename, base64.b64decode(mime_document.content), mime_document.mime_type)}
+        # Send as multipart form data with file upload
+        return PreparedRequest(method="POST", url=f"/v1/processors/automations/tests/upload/{automation_id}", files=files)
     def prepare_webhook(self, automation_id: str) -> PreparedRequest:
         return PreparedRequest(method="POST", url=f"/v1/processors/automations/tests/webhook/{automation_id}", data=None)

retab/resources/processors/client.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import base64
 from io import IOBase
 from pathlib import Path
-from typing import Any, Dict, List, Literal
+from typing import Any, List, Literal
 import PIL.Image
 from openai.types.chat.chat_completion_reasoning_effort import ChatCompletionReasoningEffort
@@ -9,8 +9,9 @@ from pydantic import BaseModel, HttpUrl
 from pydantic_core import PydanticUndefined
 from ..._resource import AsyncAPIResource, SyncAPIResource
-from ..._utils.ai_models import assert_valid_model_extraction
-from ..._utils.mime import MIMEData, prepare_mime_document
+from ...utils.ai_models import assert_valid_model_extraction
+from ...utils.json_schema import load_json_schema
+from ...utils.mime import MIMEData, prepare_mime_document
 from ...types.browser_canvas import BrowserCanvas
 from ...types.documents.extractions import RetabParsedChatCompletion
 from ...types.logs import ProcessorConfig, UpdateProcessorRequest
@@ -31,7 +32,7 @@ class ProcessorsMixin:
     def prepare_create(
         self,
         name: str,
-        json_schema: dict[str, Any],
+        json_schema: dict[str, Any] | Path | str,
         modality: Modality = "native",
         model: str = "gpt-4o-mini",
         temperature: float = PydanticUndefined,  # type: ignore[assignment]
@@ -42,9 +43,12 @@ class ProcessorsMixin:
     ) -> PreparedRequest:
         assert_valid_model_extraction(model)
+        # Load the JSON schema from file path, string, or dict
+        loaded_schema = load_json_schema(json_schema)
         processor_config = ProcessorConfig(
             name=name,
-            json_schema=json_schema,
+            json_schema=loaded_schema,
             modality=modality,
             model=model,
             temperature=temperature,
@@ -104,7 +108,7 @@ class ProcessorsMixin:
         image_resolution_dpi: int | None = None,
         browser_canvas: BrowserCanvas | None = None,
         model: str | None = None,
-        json_schema: dict[str, Any] | None = None,
+        json_schema: dict[str, Any] | Path | str | None = None,
         temperature: float | None = None,
         reasoning_effort: ChatCompletionReasoningEffort | None = None,
         n_consensus: int | None = None,
@@ -112,13 +116,18 @@ class ProcessorsMixin:
         if model is not None:
             assert_valid_model_extraction(model)
+        # Load the JSON schema from file path, string, or dict if provided
+        loaded_schema = None
+        if json_schema is not None:
+            loaded_schema = load_json_schema(json_schema)
         update_request = UpdateProcessorRequest(
             name=name,
             modality=modality,
             image_resolution_dpi=image_resolution_dpi,
             browser_canvas=browser_canvas,
             model=model,
-            json_schema=json_schema,
+            json_schema=loaded_schema,
             temperature=temperature,
             reasoning_effort=reasoning_effort,
             n_consensus=n_consensus,
@@ -203,7 +212,7 @@ class Processors(SyncAPIResource, ProcessorsMixin):
     def create(
         self,
         name: str,
-        json_schema: Dict[str, Any],
+        json_schema: dict[str, Any] | Path | str,
         modality: Modality = "native",
         model: str = "gpt-4o-mini",
         temperature: float = PydanticUndefined,  # type: ignore[assignment]
@@ -216,7 +225,7 @@ class Processors(SyncAPIResource, ProcessorsMixin):
         Args:
             name: Name of the processor
-            json_schema: JSON schema for the processor
+            json_schema: JSON schema for the processor. Can be a dictionary, file path (Path or str), or JSON string.
             image_resolution_dpi: Optional image resolution DPI
             browser_canvas: Optional browser canvas size
             modality: Processing modality (currently only "native" supported)
@@ -239,7 +248,7 @@ class Processors(SyncAPIResource, ProcessorsMixin):
             n_consensus=n_consensus,
         )
         response = self._client._prepared_request(request)
-        print(f"Processor ID: {response['id']}. Processor available at https://www.retab.dev/dashboard/processors/{response['id']}")
+        print(f"Processor ID: {response['id']}. Processor available at https://www.retab.com/dashboard/processors/{response['id']}")
         return ProcessorConfig.model_validate(response)
     def list(
@@ -295,7 +304,7 @@ class Processors(SyncAPIResource, ProcessorsMixin):
         image_resolution_dpi: int | None = None,
         browser_canvas: BrowserCanvas | None = None,
         model: str | None = None,
-        json_schema: dict[str, Any] | None = None,
+        json_schema: dict[str, Any] | Path | str | None = None,
         temperature: float | None = None,
         reasoning_effort: ChatCompletionReasoningEffort | None = None,
         n_consensus: int | None = None,
@@ -309,7 +318,7 @@ class Processors(SyncAPIResource, ProcessorsMixin):
             image_resolution_dpi: New image resolution DPI
             browser_canvas: New browser canvas size
             model: New AI model
-            json_schema: New JSON schema for the processor
+            json_schema: New JSON schema for the processor. Can be a dictionary, file path (Path or str), or JSON string.
             temperature: New temperature setting
             reasoning_effort: The effort level for the model to reason about the input data.
             n_consensus: New number of consensus required
@@ -378,7 +387,7 @@ class AsyncProcessors(AsyncAPIResource, ProcessorsMixin):
     async def create(
         self,
         name: str,
-        json_schema: Dict[str, Any],
+        json_schema: dict[str, Any] | Path | str,
         modality: Modality = "native",
         model: str = "gpt-4o-mini",
         temperature: float = PydanticUndefined,  # type: ignore[assignment]
@@ -399,7 +408,7 @@ class AsyncProcessors(AsyncAPIResource, ProcessorsMixin):
             n_consensus=n_consensus,
         )
         response = await self._client._prepared_request(request)
-        print(f"Processor ID: {response['id']}. Processor available at https://www.retab.dev/dashboard/processors/{response['id']}")
+        print(f"Processor ID: {response['id']}. Processor available at https://www.retab.com/dashboard/processors/{response['id']}")
         return ProcessorConfig.model_validate(response)
@@ -432,7 +441,7 @@ class AsyncProcessors(AsyncAPIResource, ProcessorsMixin):
         image_resolution_dpi: int | None = None,
         browser_canvas: BrowserCanvas | None = None,
         model: str | None = None,
-        json_schema: dict[str, Any] | None = None,
+        json_schema: dict[str, Any] | Path | str | None = None,
         temperature: float | None = None,
         reasoning_effort: ChatCompletionReasoningEffort | None = None,
         n_consensus: int | None = None,
@@ -446,7 +455,7 @@ class AsyncProcessors(AsyncAPIResource, ProcessorsMixin):
             image_resolution_dpi: New image resolution DPI
             browser_canvas: New browser canvas size
             model: New AI model
-            json_schema: New JSON schema for the processor
+            json_schema: New JSON schema for the processor. Can be a dictionary, file path (Path or str), or JSON string.
             temperature: New temperature setting
             reasoning_effort: The effort level for the model to reason about the input data.
             n_consensus: New number of consensus required

retab/resources/prompt_optimization.py CHANGED Viewed

@@ -3,7 +3,7 @@
 # import json
 # from .._resource import SyncAPIResource, AsyncAPIResource
-# from .._utils.json_schema import load_json_schema
+# from ..utils.json_schema import load_json_schema
 # from ..types.jobs import JobResponse
 # from ..types.jobs.prompt_optimization import PromptOptimizationObject, PromptOptimizationProps, PromptOptimizationJobInputData, PromptOptimizationJob

retab/resources/schemas.py CHANGED Viewed

@@ -7,9 +7,9 @@ from openai.types.chat.chat_completion_reasoning_effort import ChatCompletionRea
 from pydantic import BaseModel
 from .._resource import AsyncAPIResource, SyncAPIResource
-from .._utils.ai_models import assert_valid_model_schema_generation
-from .._utils.json_schema import load_json_schema
-from .._utils.mime import prepare_mime_document_list
+from ..utils.ai_models import assert_valid_model_schema_generation
+from ..utils.json_schema import load_json_schema
+from ..utils.mime import prepare_mime_document_list
 from ..types.mime import MIMEData
 from ..types.modalities import Modality
 from ..types.schemas.enhance import EnhanceSchemaConfig, EnhanceSchemaConfigDict, EnhanceSchemaRequest

retab/types/automations/mailboxes.py CHANGED Viewed

@@ -17,7 +17,7 @@ class Mailbox(AutomationConfig):
     def object(self) -> str:
         return "automation.mailbox"
-    EMAIL_PATTERN: ClassVar[str] = f".*@{os.getenv('EMAIL_DOMAIN', 'mailbox.retab.dev')}$"
+    EMAIL_PATTERN: ClassVar[str] = f".*@{os.getenv('EMAIL_DOMAIN', 'mailbox.retab.com')}$"
     id: str = Field(default_factory=lambda: "mb_" + nanoid.generate(), description="Unique identifier for the mailbox")
     # Email Specific config

retab/types/completions.py CHANGED Viewed

@@ -7,7 +7,7 @@ from openai.types.shared_params.reasoning import Reasoning
 from openai.types.shared_params.response_format_json_schema import ResponseFormatJSONSchema
 from pydantic import BaseModel, ConfigDict, Field
-from .._utils.ai_models import get_provider_for_model
+from ..utils.ai_models import get_provider_for_model
 from .ai_models import AIProvider
 from .chat import ChatCompletionRetabMessage

retab/types/documents/create_messages.py CHANGED Viewed

@@ -10,10 +10,10 @@ from openai.types.chat.chat_completion_message_param import ChatCompletionMessag
 from openai.types.responses.response_input_param import ResponseInputItemParam
 from pydantic import BaseModel, Field, computed_field
-from ..._utils.chat import convert_to_anthropic_format, convert_to_google_genai_format, str_messages
-from ..._utils.chat import convert_to_openai_format as convert_to_openai_completions_api_format
-from ..._utils.display import count_image_tokens, count_text_tokens
-from ..._utils.responses import convert_to_openai_format as convert_to_openai_responses_api_format
+from ...utils.chat import convert_to_anthropic_format, convert_to_google_genai_format, str_messages
+from ...utils.chat import convert_to_openai_format as convert_to_openai_completions_api_format
+from ...utils.display import count_image_tokens, count_text_tokens
+from ...utils.responses import convert_to_openai_format as convert_to_openai_responses_api_format
 from ..chat import ChatCompletionRetabMessage
 from ..mime import MIMEData
 from ..modalities import Modality

retab/types/documents/extractions.py CHANGED Viewed

@@ -15,7 +15,7 @@ from openai.types.responses.response import Response
 from openai.types.responses.response_input_param import ResponseInputItemParam
 from pydantic import BaseModel, ConfigDict, Field, ValidationInfo, computed_field, field_validator, model_validator
-from ..._utils.usage.usage import CostBreakdown, compute_cost_from_model, compute_cost_from_model_with_breakdown
+from ...utils.usage.usage import CostBreakdown, compute_cost_from_model, compute_cost_from_model_with_breakdown
 from ..ai_models import Amount
 from ..chat import ChatCompletionRetabMessage
 from ..mime import MIMEData
@@ -91,7 +91,7 @@ class FieldLocation(BaseModel):
     quote: str = Field(..., description="The quote of the field (verbatim from the document)")
     file_id: str | None = Field(default=None, description="The ID of the file")
     page: int | None = Field(default=None, description="The page number of the field (1-indexed)")
-    bboxes_normalized: list[tuple[float, float, float, float]] | None = Field(default=None, description="The normalized bounding boxes of the field")
+    bbox_normalized: tuple[float, float, float, float] | None = Field(default=None, description="The normalized bounding box of the field")
     score: float | None = Field(default=None, description="The score of the field")
     match_level: Literal["token", "line", "block"] | None = Field(default=None, description="The level of the match (token, line, block)")
@@ -99,7 +99,7 @@ class FieldLocation(BaseModel):
 class RetabParsedChoice(ParsedChoice):
     # Adaptable ParsedChoice that allows None for the finish_reason
     finish_reason: Literal["stop", "length", "tool_calls", "content_filter", "function_call"] | None = None  # type: ignore
-    field_locations: dict[str, list[FieldLocation]] | None = Field(default=None, description="The locations of the fields in the document, if available")
+    field_locations: dict[str, FieldLocation] | None = Field(default=None, description="The locations of the fields in the document, if available")
     key_mapping: dict[str, Optional[str]] | None = Field(default=None, description="Mapping of consensus keys to original model keys")

retab/types/documents/parse.py CHANGED Viewed

@@ -3,6 +3,7 @@ from pydantic import BaseModel, Field
 from ..mime import MIMEData, BaseMIMEData
 from ..browser_canvas import BrowserCanvas
+from ..ai_models import LLMModel
 TableParsingFormat = Literal["markdown", "yaml", "html", "json"]
@@ -18,7 +19,7 @@ class ParseRequest(BaseModel):
     """Request model for document parsing."""
     document: MIMEData = Field(..., description="Document to parse")
-    fast_mode: bool = Field(default=False, description="Use fast mode for parsing (may reduce quality)")
+    model: LLMModel = Field(default="gemini-2.5-flash", description="Model to use for parsing")
     table_parsing_format: TableParsingFormat = Field(default="html", description="Format for parsing tables")
     image_resolution_dpi: int = Field(default=72, description="DPI for image processing")
     browser_canvas: BrowserCanvas = Field(default="A4", description="Canvas size for document rendering")
@@ -30,3 +31,4 @@ class ParseResult(BaseModel):
     document: BaseMIMEData = Field(..., description="Processed document metadata")
     usage: RetabUsage = Field(..., description="Processing usage information")
     pages: list[str] = Field(..., description="Text content of each page")
+    text: str = Field(..., description="Text content of the document")

retab/types/evals.py CHANGED Viewed

@@ -6,8 +6,8 @@ from typing import Any, List, Literal, Optional
 import nanoid  # type: ignore
 from pydantic import BaseModel, Field, computed_field
-from .._utils.json_schema import clean_schema, compute_schema_data_id
-from .._utils.mime import generate_blake2b_hash_from_string
+from ..utils.json_schema import clean_schema, compute_schema_data_id
+from ..utils.mime import generate_blake2b_hash_from_string
 from .ai_models import Amount
 from .inference_settings import InferenceSettings
 from .mime import MIMEData

retab/types/evaluations/iterations.py CHANGED Viewed

@@ -6,8 +6,8 @@ from typing import Any, Optional, Self
 import nanoid  # type: ignore
 from pydantic import BaseModel, Field, computed_field, model_validator
-from ..._utils.json_schema import clean_schema
-from ..._utils.mime import generate_blake2b_hash_from_string
+from ...utils.json_schema import clean_schema
+from ...utils.mime import generate_blake2b_hash_from_string
 from ..inference_settings import InferenceSettings
 from ..metrics import MetricResult
 from ..predictions import PredictionData

retab/types/evaluations/model.py CHANGED Viewed

@@ -5,8 +5,8 @@ from typing import Any, Optional
 import nanoid  # type: ignore
 from pydantic import BaseModel, Field, computed_field
-from ..._utils.json_schema import compute_schema_data_id
-from ..._utils.mime import generate_blake2b_hash_from_string
+from ...utils.json_schema import compute_schema_data_id
+from ...utils.mime import generate_blake2b_hash_from_string
 from ..inference_settings import InferenceSettings
 from .documents import EvaluationDocument
 from .iterations import Iteration

retab/types/extractions.py CHANGED Viewed

@@ -3,13 +3,19 @@ from typing import Any, Literal, Optional
 import nanoid  # type: ignore
 from openai.types.chat import ChatCompletion
-from openai.types.chat.chat_completion_reasoning_effort import ChatCompletionReasoningEffort
+from openai.types.chat.chat_completion_reasoning_effort import (
+    ChatCompletionReasoningEffort,
+)
 from pydantic import BaseModel, Field, computed_field, model_validator
 from retab.types.chat import ChatCompletionRetabMessage
 from retab.types.documents.extractions import RetabParsedChatCompletion
-from .._utils.usage.usage import CostBreakdown, compute_cost_from_model, compute_cost_from_model_with_breakdown
+from ..utils.usage.usage import (
+    CostBreakdown,
+    compute_cost_from_model,
+    compute_cost_from_model_with_breakdown,
+)
 from .ai_models import Amount
 from .modalities import Modality
@@ -17,9 +23,18 @@ ValidationsState = Literal["pending", "validated", "invalid"]
 class ExtractionSource(BaseModel):
-    type: Literal["api", "annotation", "processor", "automation.link", "automation.mailbox", "automation.cron", "automation.outlook", "automation.endpoint", "schema.extract"] = (
-        Field(description="Type of extraction")
-    )
+    type: Literal[
+        "api",
+        "annotation",
+        "processor",
+        "automation",
+        "automation.link",
+        "automation.mailbox",
+        "automation.cron",
+        "automation.outlook",
+        "automation.endpoint",
+        "schema.extract",
+    ] = Field(description="Type of extraction")
     id: str | None = Field(default=None, description="ID the trigger of the extraction")
@@ -34,7 +49,10 @@ class ExtractionTimingStep(BaseModel):
 class Extraction(BaseModel):
-    id: str = Field(default_factory=lambda: "extr_" + nanoid.generate(), description="Unique identifier of the analysis")
+    id: str = Field(
+        default_factory=lambda: "extr_" + nanoid.generate(),
+        description="Unique identifier of the analysis",
+    )
     messages: list[ChatCompletionRetabMessage] = Field(default_factory=list)
     messages_gcs: str = Field(..., description="GCS path to the messages")
     file_gcs_paths: list[str] = Field(..., description="GCS paths to the files")
@@ -51,16 +69,23 @@ class Extraction(BaseModel):
     source: ExtractionSource = Field(..., description="Source of the extraction")
     image_resolution_dpi: int = Field(default=96, description="Resolution of the image sent to the LLM")
     browser_canvas: BrowserCanvas = Field(
-        default="A4", description="Sets the size of the browser canvas for rendering documents in browser-based processing. Choose a size that matches the document type."
+        default="A4",
+        description="Sets the size of the browser canvas for rendering documents in browser-based processing. Choose a size that matches the document type.",
     )
     modality: Modality = Field(default="native", description="Modality of the extraction")
-    reasoning_effort: Optional[ChatCompletionReasoningEffort] = Field(default=None, description="The effort level for the model to reason about the input data.")
+    reasoning_effort: Optional[ChatCompletionReasoningEffort] = Field(
+        default=None,
+        description="The effort level for the model to reason about the input data.",
+    )
     timings: list[ExtractionTimingStep] = Field(default_factory=list, description="Timings of the extraction")
     # Infered from the schema
     schema_id: str = Field(..., description="Version of the schema used for the analysis")
     schema_data_id: str = Field(..., description="Version of the schema data used for the analysis")
-    created_at: datetime.datetime = Field(default_factory=lambda: datetime.datetime.now(datetime.timezone.utc), description="Timestamp of the creation of the extraction object")
+    created_at: datetime.datetime = Field(
+        default_factory=lambda: datetime.datetime.now(datetime.timezone.utc),
+        description="Timestamp of the creation of the extraction object",
+    )
     request_at: datetime.datetime | None = Field(default=None, description="Timestamp of the extraction request if provided.")
     organization_id: str = Field(..., description="Organization ID of the user or application")
     validation_state: Optional[ValidationsState] = Field(default=None, description="Validation state of the extraction")

retab/types/jobs/prompt_optimization.py CHANGED Viewed

@@ -1,7 +1,7 @@
 # from typing import Literal, Any
 # from pydantic import BaseModel, computed_field
 # from ..mime import MIMEData
-# from ..._utils.benchmarking import ExtractionAnalysis
+# from ...utils.benchmarking import ExtractionAnalysis
 # MAX_CONCURRENCY = 15

retab/types/logs.py CHANGED Viewed

@@ -7,9 +7,9 @@ from openai.types.chat.chat_completion import ChatCompletion
 from openai.types.chat.chat_completion_reasoning_effort import ChatCompletionReasoningEffort
 from pydantic import BaseModel, EmailStr, Field, HttpUrl, computed_field, field_validator
-from .._utils.json_schema import compute_schema_data_id
-from .._utils.mime import generate_blake2b_hash_from_string
-from .._utils.usage.usage import CostBreakdown, compute_cost_from_model, compute_cost_from_model_with_breakdown
+from ..utils.json_schema import compute_schema_data_id
+from ..utils.mime import generate_blake2b_hash_from_string
+from ..utils.usage.usage import CostBreakdown, compute_cost_from_model, compute_cost_from_model_with_breakdown
 from .ai_models import Amount
 from .documents.extractions import RetabParsedChatCompletion
 from .mime import BaseMIMEData

retab/types/schemas/object.py CHANGED Viewed

@@ -10,9 +10,9 @@ from openai.types.chat.chat_completion_message_param import ChatCompletionMessag
 from openai.types.responses.response_input_param import ResponseInputItemParam
 from pydantic import BaseModel, Field, PrivateAttr, computed_field, model_validator
-from ..._utils.chat import convert_to_anthropic_format, convert_to_google_genai_format
-from ..._utils.chat import convert_to_openai_format as convert_to_openai_completions_api_format
-from ..._utils.json_schema import (
+from ...utils.chat import convert_to_anthropic_format, convert_to_google_genai_format
+from ...utils.chat import convert_to_openai_format as convert_to_openai_completions_api_format
+from ...utils.json_schema import (
     convert_basemodel_to_partial_basemodel,
     convert_json_schema_to_basemodel,
     create_reasoning_schema,
@@ -25,7 +25,7 @@ from ..._utils.json_schema import (
     load_json_schema,
     schema_to_ts_type,
 )
-from ..._utils.responses import convert_to_openai_format as convert_to_openai_responses_api_format
+from ...utils.responses import convert_to_openai_format as convert_to_openai_responses_api_format
 from ...types.standards import StreamingBaseModel
 from ..chat import ChatCompletionRetabMessage

retab/types/schemas/templates.py CHANGED Viewed

@@ -4,7 +4,7 @@ from typing import Any, Literal, Optional
 import nanoid  # type: ignore
 from pydantic import BaseModel, Field, PrivateAttr, computed_field
-from ..._utils.json_schema import generate_schema_data_id, generate_schema_id
+from ...utils.json_schema import generate_schema_data_id, generate_schema_id
 from ...types.mime import MIMEData

retab/utils/__init__.py ADDED Viewed

File without changes

retab/utils/_model_cards/anthropic.yaml ADDED Viewed

@@ -0,0 +1,59 @@
+- model: "claude-3-5-sonnet-latest"
+  pricing:
+    text:
+      prompt: 3.00
+      cached_discount: 0.5
+      completion: 15.00
+    audio: null
+  capabilities:
+    modalities: ["text", "image"]
+    endpoints: ["chat_completions"]
+    features: ["streaming", "function_calling"]
+  permissions:
+    show_in_free_picker: true
+    show_in_paid_picker: true
+- model: "claude-3-5-sonnet-20241022"
+  inherits: "claude-3-5-sonnet-latest"
+  permissions:
+    show_in_free_picker: false
+    show_in_paid_picker: false
+- model: "claude-3-opus-20240229"
+  pricing:
+    text:
+      prompt: 15.00
+      cached_discount: 0.5
+      completion: 75.00
+    audio: null
+  capabilities:
+    modalities: ["text", "image"]
+    endpoints: ["chat_completions"]
+    features: ["streaming", "function_calling"]
+  permissions:
+    show_in_free_picker: true
+    show_in_paid_picker: true
+- model: "claude-3-sonnet-20240229"
+  pricing:
+    text:
+      prompt: 3.00
+      cached_discount: 0.5
+      completion: 15.00
+    audio: null
+  capabilities:
+    modalities: ["text", "image"]
+    endpoints: ["chat_completions"]
+    features: ["streaming", "function_calling"]
+- model: "claude-3-haiku-20240307"
+  pricing:
+    text:
+      prompt: 0.25
+      cached_discount: 0.5
+      completion: 1.25
+    audio: null
+  capabilities:
+    modalities: ["text", "image"]
+    endpoints: ["chat_completions"]
+    features: ["streaming", "function_calling"]

retab 0.0.40__py3-none-any.whl → 0.0.42__py3-none-any.whl

retab 0.0.40py3-none-any.whl → 0.0.42py3-none-any.whl