PyPI - doctra - Versions diffs - 0.4.3__py3-none-any.whl → 0.5.1__py3-none-any.whl - Mend

doctra 0.4.3py3-none-any.whl → 0.5.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (16) hide show

doctra/cli/main.py +10 -23
doctra/cli/utils.py +7 -6
doctra/engines/vlm/provider.py +272 -86
doctra/engines/vlm/service.py +1 -1
doctra/parsers/structured_pdf_parser.py +8 -5
doctra/ui/enhanced_parser_ui.py +2 -2
doctra/ui/full_parse_ui.py +2 -2
doctra/ui/tables_charts_ui.py +2 -2
doctra/ui/ui_helpers.py +5 -4
doctra/version.py +1 -1
{doctra-0.4.3.dist-info → doctra-0.5.1.dist-info}/METADATA +4 -3
{doctra-0.4.3.dist-info → doctra-0.5.1.dist-info}/RECORD +16 -16
{doctra-0.4.3.dist-info → doctra-0.5.1.dist-info}/WHEEL +0 -0
{doctra-0.4.3.dist-info → doctra-0.5.1.dist-info}/entry_points.txt +0 -0
{doctra-0.4.3.dist-info → doctra-0.5.1.dist-info}/licenses/LICENSE +0 -0
{doctra-0.4.3.dist-info → doctra-0.5.1.dist-info}/top_level.txt +0 -0

doctra/cli/main.py CHANGED Viewed

@@ -28,6 +28,7 @@ except ImportError:
 # Import additional modules
 from doctra.engines.layout.paddle_layout import PaddleLayoutEngine
+from doctra.cli.utils import validate_vlm_config, handle_keyboard_interrupt
 from doctra.engines.image_restoration import DocResEngine
@@ -85,7 +86,7 @@ def vlm_options(func):
     """
     func = click.option('--use-vlm/--no-vlm', default=False,
                         help='Use Vision Language Model for table/chart extraction')(func)
-    func = click.option('--vlm-provider', type=click.Choice(['gemini', 'openai']), default='gemini',
+    func = click.option('--vlm-provider', type=click.Choice(['gemini', 'openai', 'anthropic', 'openrouter', 'ollama']), default='gemini',
                         help='VLM provider to use (default: gemini)')(func)
     func = click.option('--vlm-model', type=str, default=None,
                         help='Model name to use (defaults to provider-specific defaults)')(func)
@@ -141,23 +142,6 @@ def ocr_options(func):
     return func
-def validate_vlm_config(use_vlm: bool, vlm_api_key: Optional[str]) -> None:
-    """
-    Validate VLM configuration and exit with error if invalid.
-    Checks if VLM is enabled but no API key is provided, and exits
-    with an appropriate error message if the configuration is invalid.
-    :param use_vlm: Whether VLM processing is enabled
-    :param vlm_api_key: The VLM API key (can be None if VLM is disabled)
-    :return: None
-    :raises SystemExit: If VLM is enabled but no API key is provided
-    """
-    if use_vlm and not vlm_api_key:
-        click.echo("❌ Error: VLM API key is required when using --use-vlm", err=True)
-        click.echo("   Set the VLM_API_KEY environment variable or use --vlm-api-key", err=True)
-        click.echo("   Example: export VLM_API_KEY=your_api_key", err=True)
-        sys.exit(1)
 @cli.command()
@@ -212,7 +196,7 @@ def parse(pdf_path: Path, output_dir: Optional[Path], use_vlm: bool,
     :param verbose: Whether to enable verbose output
     :return: None
     """
-    validate_vlm_config(use_vlm, vlm_api_key)
+    validate_vlm_config(use_vlm, vlm_api_key, vlm_provider)
     if verbose:
         click.echo(f"🔍 Starting full PDF parsing...")
@@ -350,7 +334,7 @@ def enhance(pdf_path: Path, output_dir: Optional[Path], restoration_task: str,
     :param verbose: Whether to enable verbose output
     :return: None
     """
-    validate_vlm_config(use_vlm, vlm_api_key)
+    validate_vlm_config(use_vlm, vlm_api_key, vlm_provider)
     if verbose:
         click.echo(f"🔍 Starting enhanced PDF parsing with DocRes...")
@@ -488,7 +472,7 @@ def charts(pdf_path: Path, output_dir: Path, use_vlm: bool, vlm_provider: str,
     :param verbose: Whether to enable verbose output
     :return: None
     """
-    validate_vlm_config(use_vlm, vlm_api_key)
+    validate_vlm_config(use_vlm, vlm_api_key, vlm_provider)
     if verbose:
         click.echo(f"📊 Starting chart extraction...")
@@ -564,7 +548,7 @@ def tables(pdf_path: Path, output_dir: Path, use_vlm: bool, vlm_provider: str,
     :param verbose: Whether to enable verbose output
     :return: None
     """
-    validate_vlm_config(use_vlm, vlm_api_key)
+    validate_vlm_config(use_vlm, vlm_api_key, vlm_provider)
     if verbose:
         click.echo(f"📋 Starting table extraction...")
@@ -642,7 +626,7 @@ def both(pdf_path: Path, output_dir: Path, use_vlm: bool, vlm_provider: str,
     :param verbose: Whether to enable verbose output
     :return: None
     """
-    validate_vlm_config(use_vlm, vlm_api_key)
+    validate_vlm_config(use_vlm, vlm_api_key, vlm_provider)
     if verbose:
         click.echo(f"📊📋 Starting chart and table extraction...")
@@ -972,6 +956,9 @@ def info():
     click.echo("\nVLM Providers:")
     click.echo("  • Gemini (Google) - gemini-2.5-pro, gemini-2.5-flash, gemini-2.5-flash-lite, gemini-2.0-flash")
     click.echo("  • OpenAI - gpt-5, gpt-5-mini, gpt-4.1, gpt-4.1-mini, gpt-4o")
+    click.echo("  • Anthropic - claude-opus-4-1, claude-3.5-sonnet, claude-3-haiku")
+    click.echo("  • OpenRouter - x-ai/grok-4, meta-llama/llama-3.1-405b-instruct")
+    click.echo("  • Ollama (Local) - llava:latest, gemma3:latest, llama3.2-vision:latest")
     # Available layout models
     click.echo("\nLayout Detection Models:")

doctra/cli/utils.py CHANGED Viewed

@@ -13,20 +13,21 @@ from pathlib import Path
 from doctra.utils.progress import create_beautiful_progress_bar, create_notebook_friendly_bar
-def validate_vlm_config(use_vlm: bool, vlm_api_key: Optional[str]) -> None:
+def validate_vlm_config(use_vlm: bool, vlm_api_key: Optional[str], vlm_provider: str = "gemini") -> None:
     """
     Validate VLM configuration and exit with error if invalid.
-    Checks if VLM is enabled but no API key is provided, and exits
+    Checks if VLM is enabled but no API key is provided (except for Ollama), and exits
     with an appropriate error message if the configuration is invalid.
     :param use_vlm: Whether VLM processing is enabled
-    :param vlm_api_key: The VLM API key (can be None if VLM is disabled)
+    :param vlm_api_key: The VLM API key (can be None if VLM is disabled or using Ollama)
+    :param vlm_provider: VLM provider name (default: "gemini")
     :return: None
-    :raises SystemExit: If VLM is enabled but no API key is provided
+    :raises SystemExit: If VLM is enabled but no API key is provided (except for Ollama)
     """
-    if use_vlm and not vlm_api_key:
-        click.echo("❌ Error: VLM API key is required when using --use-vlm", err=True)
+    if use_vlm and vlm_provider != "ollama" and not vlm_api_key:
+        click.echo("❌ Error: VLM API key is required when using --use-vlm (except for Ollama)", err=True)
         click.echo("   Set the VLM_API_KEY environment variable or use --vlm-api-key", err=True)
         click.echo("   Example: export VLM_API_KEY=your_api_key", err=True)
         sys.exit(1)

doctra/engines/vlm/provider.py CHANGED Viewed

@@ -1,86 +1,272 @@
-from __future__ import annotations
-# --- keep these imports to match your snippet style ---
-import io
-import PIL
-import openai
-import outlines
-from pydantic import BaseModel
-from google.genai import Client
-from outlines.inputs import Image
-from anthropic import Anthropic
-# ------------------------------------------------------
-def make_model(
-    vlm_provider: str | None = "gemini",
-    vlm_model: str | None = None,
-    *,
-    api_key: str | None = None,
-):
-    """
-    Build a callable Outlines model for VLM processing.
-    Creates an Outlines model instance configured for Gemini, OpenAI, Anthropic, or OpenRouter
-    providers. Only one backend is active at a time, with Gemini as the default.
-    :param vlm_provider: VLM provider to use ("gemini", "openai", or "anthropic", default: "gemini")
-    :param vlm_model: Model name to use (defaults to provider-specific defaults)
-    :param api_key: API key for the VLM provider (required for all providers)
-    :return: Configured Outlines model instance
-    :raises ValueError: If provider is unsupported or API key is missing
-    """
-    vlm_provider = (vlm_provider or "gemini").lower()
-    # Set default models if not provided
-    if vlm_model is None:
-        if vlm_provider == "gemini":
-            vlm_model = "gemini-2.5-pro"
-        elif vlm_provider == "openai":
-            vlm_model = "gpt-5"
-        elif vlm_provider == "anthropic":
-            vlm_model = "claude-opus-4-1"
-        elif vlm_provider == "openrouter":
-            vlm_model = "x-ai/grok-4"
-    if vlm_provider == "gemini":
-        if not api_key:
-            raise ValueError("Gemini provider requires api_key to be passed to make_model(...).")
-        # Create the model (exactly like your snippet)
-        return outlines.from_gemini(
-            Client(api_key=api_key),
-            vlm_model,
-        )
-    if vlm_provider == "openai":
-        if not api_key:
-            raise ValueError("OpenAI provider requires api_key to be passed to make_model(...).")
-        # this part is for the openai models (exactly like your snippet)
-        return outlines.from_openai(
-            openai.OpenAI(api_key=api_key),
-            vlm_model,
-        )
-    if vlm_provider == "anthropic":
-        if not api_key:
-            raise ValueError("Anthropic provider requires api_key to be passed to make_model(...).")
-        # Create the Anthropic client and model (exactly like your snippet)
-        client = Anthropic(api_key=api_key)
-        return outlines.from_anthropic(
-            client,
-            vlm_model,
-        )
-    if vlm_provider == "openrouter":
-        if not api_key:
-            raise ValueError("OpenRouter provider requires api_key to be passed to make_model(...).")
-        # Create the Anthropic client and model (exactly like your snippet)
-        client = openai.OpenAI(
-            base_url="https://openrouter.ai/api/v1",
-            api_key=api_key,
-        )
-        return outlines.from_openai(
-            client,
-            vlm_model
-        )
-    raise ValueError(f"Unsupported provider: {vlm_provider}. Use 'gemini', 'openai', or 'anthropic'.")
+from __future__ import annotations
+# --- keep these imports to match your snippet style ---
+import io
+import os
+import PIL
+import openai
+import outlines
+from pydantic import BaseModel
+from google.genai import Client
+from outlines.inputs import Image
+from anthropic import Anthropic
+import ollama
+# ------------------------------------------------------
+def make_model(
+    vlm_provider: str | None = "gemini",
+    vlm_model: str | None = None,
+    *,
+    api_key: str | None = None,
+):
+    """
+    Build a callable Outlines model for VLM processing.
+    Creates an Outlines model instance configured for Gemini, OpenAI, Anthropic, OpenRouter, Qianfan, or Ollama
+    providers. Only one backend is active at a time, with Gemini as the default.
+    :param vlm_provider: VLM provider to use ("gemini", "openai", "anthropic", "openrouter", "qianfan", or "ollama", default: "gemini")
+    :param vlm_model: Model name to use (defaults to provider-specific defaults)
+    :param api_key: API key for the VLM provider (required for all providers except Ollama)
+    :return: Configured Outlines model instance
+    :raises ValueError: If provider is unsupported or API key is missing
+    """
+    vlm_provider = (vlm_provider or "gemini").lower()
+    # Set default models if not provided
+    if vlm_model is None:
+        if vlm_provider == "gemini":
+            vlm_model = "gemini-2.5-pro"
+        elif vlm_provider == "openai":
+            vlm_model = "gpt-5"
+        elif vlm_provider == "anthropic":
+            vlm_model = "claude-opus-4-1"
+        elif vlm_provider == "openrouter":
+            vlm_model = "x-ai/grok-4"
+        elif vlm_provider == "qianfan":
+            vlm_model = "ernie-4.5-turbo-vl-32k"
+        elif vlm_provider == "ollama":
+            vlm_model = "llava:latest"
+    if vlm_provider == "gemini":
+        if not api_key:
+            raise ValueError("Gemini provider requires api_key to be passed to make_model(...).")
+        # Create the model (exactly like your snippet)
+        return outlines.from_gemini(
+            Client(api_key=api_key),
+            vlm_model,
+        )
+    if vlm_provider == "openai":
+        if not api_key:
+            raise ValueError("OpenAI provider requires api_key to be passed to make_model(...).")
+        # this part is for the openai models (exactly like your snippet)
+        return outlines.from_openai(
+            openai.OpenAI(api_key=api_key),
+            vlm_model,
+        )
+    if vlm_provider == "anthropic":
+        if not api_key:
+            raise ValueError("Anthropic provider requires api_key to be passed to make_model(...).")
+        # Create the Anthropic client and model (exactly like your snippet)
+        client = Anthropic(api_key=api_key)
+        return outlines.from_anthropic(
+            client,
+            vlm_model,
+        )
+    if vlm_provider == "openrouter":
+        if not api_key:
+            raise ValueError("OpenRouter provider requires api_key to be passed to make_model(...).")
+        # Create the Anthropic client and model (exactly like your snippet)
+        client = openai.OpenAI(
+            base_url="https://openrouter.ai/api/v1",
+            api_key=api_key,
+        )
+        return outlines.from_openai(
+            client,
+            vlm_model
+        )
+    if vlm_provider == "qianfan":
+        if not api_key:
+            raise ValueError("Qianfan provider requires api_key to be passed to make_model(...).")
+        # Create the Qianfan client with OpenAI-compatible interface
+        client = openai.OpenAI(
+            base_url="https://qianfan.baidubce.com/v2",
+            api_key=api_key,
+        )
+        return outlines.from_openai(
+            client,
+            vlm_model
+        )
+    if vlm_provider == "ollama":
+        # Ollama doesn't use Outlines, so we return a custom wrapper
+        return OllamaModelWrapper(vlm_model)
+    raise ValueError(f"Unsupported provider: {vlm_provider}. Use 'gemini', 'openai', 'anthropic', 'openrouter', 'qianfan', or 'ollama'.")
+class OllamaModelWrapper:
+    """
+    Wrapper class to make Ollama compatible with the Outlines interface.
+    This class provides a callable interface that matches the Outlines model
+    signature, allowing Ollama to be used as a drop-in replacement for other
+    VLM providers in the Doctra framework.
+    """
+    def __init__(self, model_name: str):
+        """
+        Initialize the Ollama model wrapper.
+        :param model_name: Name of the Ollama model to use (e.g., "llava:latest", "gemma3:latest")
+        """
+        self.model_name = model_name
+    def __call__(self, prompt, schema):
+        """
+        Call the Ollama model with the given prompt and schema.
+        :param prompt: List containing [text_prompt, Image] - the text prompt and PIL Image
+        :param schema: Pydantic model class for structured output
+        :return: Structured data object matching the provided schema
+        """
+        if not isinstance(prompt, list) or len(prompt) != 2:
+            raise ValueError("Prompt must be a list with [text, image] format")
+        text_prompt, image = prompt
+        # Convert Image object to bytes for Ollama
+        # The Image object from Outlines might be a PIL Image or a different type
+        try:
+            # Try to get the PIL Image from the Outlines Image object
+            if hasattr(image, 'image'):
+                pil_image = image.image
+            elif hasattr(image, '_image'):
+                pil_image = image._image
+            else:
+                pil_image = image
+            # Convert to bytes
+            img_buffer = io.BytesIO()
+            pil_image.save(img_buffer, format='JPEG')
+            img_bytes = img_buffer.getvalue()
+        except Exception as e:
+            # Try alternative approach - save the image directly to a file
+            import tempfile
+            with tempfile.NamedTemporaryFile(suffix='.jpg', delete=False) as tmp_file:
+                try:
+                    if hasattr(image, 'image'):
+                        image.image.save(tmp_file.name, format='JPEG')
+                    else:
+                        image.save(tmp_file.name, format='JPEG')
+                    with open(tmp_file.name, 'rb') as f:
+                        img_bytes = f.read()
+                    os.unlink(tmp_file.name)
+                except Exception as e2:
+                    raise
+        # Save image to temporary file for Ollama
+        import tempfile
+        with tempfile.NamedTemporaryFile(suffix='.jpg', delete=False) as tmp_file:
+            tmp_file.write(img_bytes)
+            tmp_path = tmp_file.name
+        try:
+            # Call Ollama with the image and prompt
+            response = ollama.chat(
+                messages=[{
+                    "role": "user",
+                    "content": text_prompt,
+                    "images": [tmp_path],
+                }],
+                model=self.model_name,
+                format=schema.model_json_schema(),  # Use Pydantic schema for structured output
+            )
+            # Handle different response formats
+            if 'message' in response and 'content' in response['message']:
+                content = response['message']['content']
+            elif 'response' in response:
+                content = response['response']
+            else:
+                content = str(response)
+            # Try to parse as JSON
+            try:
+                result = schema.model_validate_json(content)
+                return result
+            except Exception as json_error:
+                # Try to extract data manually from text response
+                return self._extract_from_text_response(content, schema)
+        except Exception as e:
+            # Return a default structure to prevent crashes
+            return schema(
+                title="Extraction Failed",
+                description="Failed to extract data from image",
+                headers=["Error"],
+                rows=[["Could not process image"]]
+            )
+        finally:
+            # Clean up temporary file
+            import os
+            try:
+                os.unlink(tmp_path)
+            except:
+                pass
+    def _extract_from_text_response(self, content: str, schema):
+        """
+        Extract structured data from text response when JSON parsing fails.
+        :param content: Text response from Ollama
+        :param schema: Pydantic schema class
+        :return: Structured data object
+        """
+        try:
+            # Try to find JSON in the response
+            import re
+            import json
+            # Look for JSON-like content
+            json_match = re.search(r'\{.*\}', content, re.DOTALL)
+            if json_match:
+                json_str = json_match.group()
+                return schema.model_validate_json(json_str)
+            # If no JSON found, create a basic structure
+            lines = content.split('\n')
+            title = "Extracted Data"
+            description = content[:300] if len(content) > 300 else content
+            # Try to extract headers and rows from text
+            headers = ["Column 1", "Column 2"]  # Default headers
+            rows = [["Data 1", "Data 2"]]  # Default row
+            # Look for table-like patterns
+            for line in lines:
+                if '|' in line and len(line.split('|')) > 2:
+                    # This looks like a table row
+                    cells = [cell.strip() for cell in line.split('|') if cell.strip()]
+                    if len(cells) > 1:
+                        rows.append(cells)
+            return schema(
+                title=title,
+                description=description,
+                headers=headers,
+                rows=rows
+            )
+        except Exception as e:
+            # Return minimal structure
+            return schema(
+                title="Text Extraction",
+                description=content[:300] if len(content) > 300 else content,
+                headers=["Content"],
+                rows=[[content[:100]]]
+            )

doctra/engines/vlm/service.py CHANGED Viewed

@@ -32,7 +32,7 @@ class VLMStructuredExtractor:
         """
         Initialize the VLMStructuredExtractor with provider configuration.
-        :param vlm_provider: VLM provider to use ("gemini", "openai", "anthropic", or "openrouter", default: "gemini")
+        :param vlm_provider: VLM provider to use ("gemini", "openai", "anthropic", "openrouter", "qianfan", or "ollama", default: "gemini")
         :param vlm_model: Model name to use (defaults to provider-specific defaults)
         :param api_key: API key for the VLM provider (required for all providers)
         """

doctra/parsers/structured_pdf_parser.py CHANGED Viewed

@@ -88,11 +88,14 @@ class StructuredPDFParser:
         self.use_vlm = use_vlm
         self.vlm = None
         if self.use_vlm:
-            self.vlm = VLMStructuredExtractor(
-                vlm_provider=vlm_provider,
-                vlm_model=vlm_model,
-                api_key=vlm_api_key,
-            )
+            try:
+                self.vlm = VLMStructuredExtractor(
+                    vlm_provider=vlm_provider,
+                    vlm_model=vlm_model,
+                    api_key=vlm_api_key,
+                )
+            except Exception as e:
+                self.vlm = None
     def parse(self, pdf_path: str) -> None:
         """

doctra/ui/enhanced_parser_ui.py CHANGED Viewed

@@ -65,7 +65,7 @@ def run_enhanced_parse(
     # Validate VLM configuration if VLM is enabled
     if use_vlm:
-        vlm_error = validate_vlm_config(use_vlm, vlm_api_key)
+        vlm_error = validate_vlm_config(use_vlm, vlm_api_key, vlm_provider)
         if vlm_error:
             return (vlm_error, None, [], "", None, None, "")
@@ -358,7 +358,7 @@ def create_enhanced_parser_tab() -> Tuple[gr.Tab, dict]:
         # VLM settings
         with gr.Row():
             use_vlm_enhanced = gr.Checkbox(label="Use VLM (optional)", value=False)
-            vlm_provider_enhanced = gr.Dropdown(["gemini", "openai", "anthropic", "openrouter"], value="gemini", label="VLM Provider")
+            vlm_provider_enhanced = gr.Dropdown(["gemini", "openai", "anthropic", "openrouter", "ollama"], value="gemini", label="VLM Provider")
             vlm_api_key_enhanced = gr.Textbox(type="password", label="VLM API Key", placeholder="Optional if VLM disabled")
         # Advanced settings accordion

doctra/ui/full_parse_ui.py CHANGED Viewed

@@ -60,7 +60,7 @@ def run_full_parse(
         return ("No file provided.", None, [], [], "")
     # Validate VLM configuration
-    vlm_error = validate_vlm_config(use_vlm, vlm_api_key)
+    vlm_error = validate_vlm_config(use_vlm, vlm_api_key, vlm_provider)
     if vlm_error:
         return (vlm_error, None, [], [], "")
@@ -429,7 +429,7 @@ def create_full_parse_tab() -> Tuple[gr.Tab, dict]:
         with gr.Row():
             pdf = gr.File(file_types=[".pdf"], label="PDF")
             use_vlm = gr.Checkbox(label="Use VLM (optional)", value=False)
-            vlm_provider = gr.Dropdown(["gemini", "openai", "anthropic", "openrouter"], value="gemini", label="VLM Provider")
+            vlm_provider = gr.Dropdown(["gemini", "openai", "anthropic", "openrouter", "ollama"], value="gemini", label="VLM Provider")
             vlm_api_key = gr.Textbox(type="password", label="VLM API Key", placeholder="Optional if VLM disabled")
         # Advanced settings accordion

doctra/ui/tables_charts_ui.py CHANGED Viewed

@@ -48,7 +48,7 @@ def run_extract(
         return ("No file provided.", "", [], [], "")
     # Validate VLM configuration
-    vlm_error = validate_vlm_config(use_vlm, vlm_api_key)
+    vlm_error = validate_vlm_config(use_vlm, vlm_api_key, vlm_provider)
     if vlm_error:
         return (vlm_error, "", [], [], "")
@@ -334,7 +334,7 @@ def create_tables_charts_tab() -> Tuple[gr.Tab, dict]:
             pdf_e = gr.File(file_types=[".pdf"], label="PDF")
             target = gr.Dropdown(["tables", "charts", "both"], value="both", label="Target")
             use_vlm_e = gr.Checkbox(label="Use VLM (optional)", value=False)
-            vlm_provider_e = gr.Dropdown(["gemini", "openai", "anthropic", "openrouter"], value="gemini", label="VLM Provider")
+            vlm_provider_e = gr.Dropdown(["gemini", "openai", "anthropic", "openrouter", "ollama"], value="gemini", label="VLM Provider")
             vlm_api_key_e = gr.Textbox(type="password", label="VLM API Key", placeholder="Optional if VLM disabled")
         # Advanced settings accordion

doctra/ui/ui_helpers.py CHANGED Viewed

@@ -261,21 +261,22 @@ def parse_markdown_by_pages(md_content: str) -> List[Dict[str, Any]]:
     return pages
-def validate_vlm_config(use_vlm: bool, vlm_api_key: str) -> Optional[str]:
+def validate_vlm_config(use_vlm: bool, vlm_api_key: str, vlm_provider: str = "gemini") -> Optional[str]:
     """
     Validate VLM configuration parameters.
     Args:
         use_vlm: Whether VLM is enabled
         vlm_api_key: API key for VLM provider
+        vlm_provider: VLM provider name (default: "gemini")
     Returns:
         Error message if validation fails, None if valid
     """
-    if use_vlm and not vlm_api_key:
-        return "❌ Error: VLM API key is required when using VLM"
+    if use_vlm and vlm_provider != "ollama" and not vlm_api_key:
+        return "❌ Error: VLM API key is required when using VLM (except for Ollama)"
-    if use_vlm and vlm_api_key:
+    if use_vlm and vlm_api_key and vlm_provider != "ollama":
         # Basic API key validation
         if len(vlm_api_key.strip()) < 10:
             return "❌ Error: VLM API key appears to be too short or invalid"

doctra/version.py CHANGED Viewed

@@ -1,2 +1,2 @@
 """Version information for Doctra."""
-__version__ = '0.4.3'
+__version__ = '0.5.1'

{doctra-0.4.3.dist-info → doctra-0.5.1.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: doctra
-Version: 0.4.3
+Version: 0.5.1
 Summary: Parse, extract, and analyze documents with ease
 Home-page: https://github.com/AdemBoukhris457/Doctra
 Author: Adem Boukhris
@@ -267,6 +267,7 @@ Dynamic: requires-python
 [![stars](https://img.shields.io/github/stars/AdemBoukhris457/Doctra.svg)](https://github.com/AdemBoukhris457/Doctra)
 [![forks](https://img.shields.io/github/forks/AdemBoukhris457/Doctra.svg)](https://github.com/AdemBoukhris457/Doctra)
 [![PyPI version](https://img.shields.io/pypi/v/doctra)](https://pypi.org/project/doctra/)
+[![Documentation](https://img.shields.io/badge/documentation-available-success)](https://ademboukhris457.github.io/Doctra/index.html)
 </div>
 ## 📋 Table of Contents
@@ -361,7 +362,7 @@ parser = StructuredPDFParser()
 # Parser with VLM for structured data extraction
 parser = StructuredPDFParser(
     use_vlm=True,
-    vlm_provider="openai",  # or "gemini" or "anthropic" or "openrouter"
+    vlm_provider="openai",  # or "gemini", "anthropic", "openrouter", "qianfan", "ollama"
     vlm_api_key="your_api_key_here"
 )
@@ -916,7 +917,7 @@ parser.display_pages_with_boxes("document.pdf")
 ### 🤖 VLM Integration
 - Vision Language Model support for structured data extraction
-- Multiple provider options (OpenAI, Gemini, Anthropic, OpenRouter)
+- Multiple provider options (OpenAI, Gemini, Anthropic, OpenRouter, Qianfan, Ollama)
 - Automatic conversion of charts and tables to structured formats
 ### 📊 Multiple Output Formats

{doctra-0.4.3.dist-info → doctra-0.5.1.dist-info}/RECORD RENAMED Viewed

@@ -1,8 +1,8 @@
 doctra/__init__.py,sha256=rNLCyODOpaPb_TTP6qmQnuWZJW9JPXrxg1IfKnvb1No,773
-doctra/version.py,sha256=UtaT-N7wXotEga348278k_4dwz6xpN5W57ulX1lo5vU,62
+doctra/version.py,sha256=b0vGLL2RHYHeqdwkHTZmk2FRb1-xEhcO1auAArG969s,62
 doctra/cli/__init__.py,sha256=4PTujjYRShOOUlZ7PwuWckShPWLC4v4CYIhJpzgyv1k,911
-doctra/cli/main.py,sha256=_gvG8bm-Mn1tIEw6eJUgqz9dYEo9klXGiJDJzjqgPyo,43503
-doctra/cli/utils.py,sha256=w3Bxyzczcbl_cs1Cea8C3ehv7dkGl_wecprYZXrcGhk,11772
+doctra/cli/main.py,sha256=UhWTatY3qIeutZzVo9syLG2srbs8MZuGaLo5tk9xC_M,43108
+doctra/cli/utils.py,sha256=GKSSGi-JjNXufNekqCysSev7St1t32caYMduy0Tq96s,11971
 doctra/engines/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 doctra/engines/image_restoration/__init__.py,sha256=vzcN6Rw7_U-5jIK2pdo2NlgqdLdXDShigrOGM7QLNEE,263
 doctra/engines/image_restoration/docres_engine.py,sha256=wbo-FWEb6_Twq5KqzjPgGQwcAuFD98uBAiQBEY8vN2A,21592
@@ -15,8 +15,8 @@ doctra/engines/ocr/path_resolver.py,sha256=2_7Nsekt3dCDU3oVsgdr62iMrlAhbGNfYwgh4
 doctra/engines/ocr/pytesseract_engine.py,sha256=Imz2uwju6himkBiS8CH7DLxBRe-LtmMYZiOdb_6PoQw,2911
 doctra/engines/vlm/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 doctra/engines/vlm/outlines_types.py,sha256=fQK6ru7XiXHaa8JPpaTTBaTk_zQ93ZyhFp4SyAnUdVU,1337
-doctra/engines/vlm/provider.py,sha256=aE8Eo1U-8XqAimakNlT0-T4etIyCV8rZ3DwxdqbFeTc,3131
-doctra/engines/vlm/service.py,sha256=nygxMe7uTq6Bv70ycBPL59F2a0ESp1Hix4j833p6rUM,4343
+doctra/engines/vlm/provider.py,sha256=QMr-gcbhyXgTQOHPIjIrmsLTNfkbDR69I3uR5Z2QVU0,10521
+doctra/engines/vlm/service.py,sha256=8o3JbNEkAFLNxSyu3KW7srI25PSLY-epzNZquKTxgcU,4364
 doctra/exporters/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 doctra/exporters/excel_writer.py,sha256=rwyqlH73P7z413BELovQY_pS6IMkkqHEho6mbPrJ2Sk,11857
 doctra/exporters/html_writer.py,sha256=zJPoMiFF9lx9fHpdqk0y8diNNeQVC68wNvUInX918fY,46017
@@ -26,7 +26,7 @@ doctra/exporters/markdown_writer.py,sha256=L7EjF2MB8jYX7XkZ3a3NeeEC8gnb0qzRPTzIN
 doctra/parsers/__init__.py,sha256=8M6LVzcWGpuTIK_1SMXML3ll7zK1CTHXGI5qXvqdm-A,206
 doctra/parsers/enhanced_pdf_parser.py,sha256=TG4uM_dK80-69y1C99HhSoVInHGwTb-sGJtmHBpZuMY,23756
 doctra/parsers/layout_order.py,sha256=W6b-T11H907RZ2FaZwNvnYhmvH11rpUzxC5yLkdf28k,640
-doctra/parsers/structured_pdf_parser.py,sha256=RSduGt7L5HcoB7JE7zbAjlkvEMk2XQnQhHHD8p7QjQ4,22284
+doctra/parsers/structured_pdf_parser.py,sha256=3jPulhR0agnhP1r9j48WvH53-NZVMhePAmNLzy-_fes,22391
 doctra/parsers/table_chart_extractor.py,sha256=ZD0l2V_8HBdHOAIhMIujfnd5ai3gXsSLL67VMVu3F8A,13905
 doctra/third_party/docres/inference.py,sha256=krD5EQDiqki-5uTMqqHYivhL38sfSOhYgaihI751070,13576
 doctra/third_party/docres/utils.py,sha256=N0ZVmOTB3wsinFlYu5hT84C4_MhWGdc98T8LTG-S9dA,14566
@@ -52,10 +52,10 @@ doctra/ui/__init__.py,sha256=XzOOKeGSBnUREuDQiCIWds1asFSa2nypFQTJXwclROA,85
 doctra/ui/app.py,sha256=I9pX-U3VASGs4kfL6Tv3nDH2tlU4kSv5WrnsNDfYTbQ,2305
 doctra/ui/docres_ui.py,sha256=QMTsNUdw2NGlHK-mYwB-j5i2QXEndYv8Zvc8213jXVA,13034
 doctra/ui/docres_wrapper.py,sha256=BjcY5Xik9UBFPzPL-ONT2GIpTeRrYUXXzuDEq1QE28Q,4498
-doctra/ui/enhanced_parser_ui.py,sha256=OVPwv9yErjg1lL-dEVH5KWrc7YqEP7QmFa80WPhaCX0,20754
-doctra/ui/full_parse_ui.py,sha256=19EsprqeegZAj24KhAWKvyR1hW8HC3nE_f4UFpY-dfQ,18597
-doctra/ui/tables_charts_ui.py,sha256=x0YmERDyfkUruAbHqQ-Kc0_cDOuqf64l_fjBvVOULOI,16534
-doctra/ui/ui_helpers.py,sha256=LthpitCrZOpjXcQvpctyNaDz3T26V06TpAy3r_ChLhY,15584
+doctra/ui/enhanced_parser_ui.py,sha256=oImlFfpjLGs3CpOIUIx_o-1fK7ddUhUCOYW4NUiuJrA,20778
+doctra/ui/full_parse_ui.py,sha256=h-bckQq9FRbVA00l4VQXnzdLgNIrIeAtVVdHkihTPjE,18621
+doctra/ui/tables_charts_ui.py,sha256=ZcRhTbi4iB0tBi3JC-Z3w6AN6dgUOWt9sV_-iJCkaFE,16558
+doctra/ui/ui_helpers.py,sha256=Wx36d5rbUdRXQg98w45DIxH0Hib0mTMEmv2cH3ejyGI,15753
 doctra/utils/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 doctra/utils/bbox.py,sha256=R2-95p0KiWvet3TH27TQVvCar7WJg6z0u3L21iEDF-A,674
 doctra/utils/constants.py,sha256=ZWOvNDrvETbQ_pxHiX7vUW4J5Oj8_qnov0QacUOBizI,189
@@ -66,9 +66,9 @@ doctra/utils/pdf_io.py,sha256=c8EY47Z1iqVtlLFHS_n0qGuXJ5ERFaMUd84ivXV0b9E,706
 doctra/utils/progress.py,sha256=BD9YZqYLZw6yohQnyUV3w9QsQuiIrXM_EqByOSSJsDU,11912
 doctra/utils/quiet.py,sha256=5XPS-1CtJ0sVk6qgSQctdhr_wR8mP1xoJLoUbmkXROA,387
 doctra/utils/structured_utils.py,sha256=vU84dsD8wIlTyMsA9hitorGH-eroQiVuWEpBTQBUT24,1478
-doctra-0.4.3.dist-info/licenses/LICENSE,sha256=HrhfyXIkWY2tGFK11kg7vPCqhgh5DcxleloqdhrpyMY,11558
-doctra-0.4.3.dist-info/METADATA,sha256=YoaPW5G3wdM9zNCb1M_FTM5JmDnUM4MqgS-aVMOBO-M,37033
-doctra-0.4.3.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
-doctra-0.4.3.dist-info/entry_points.txt,sha256=4G2RHamA0llCiIXaQQm8EDkVK9JNGKbI7uDnXVFgIaY,47
-doctra-0.4.3.dist-info/top_level.txt,sha256=jI7E8jHci2gP9y0GYaWxlg9jG0O5n3FjHJJPLXDXMds,7
-doctra-0.4.3.dist-info/RECORD,,
+doctra-0.5.1.dist-info/licenses/LICENSE,sha256=HrhfyXIkWY2tGFK11kg7vPCqhgh5DcxleloqdhrpyMY,11558
+doctra-0.5.1.dist-info/METADATA,sha256=IInFIxxklcgLQHTvStUSTkqQXwXGly0JbZOSpBQAu0A,37202
+doctra-0.5.1.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
+doctra-0.5.1.dist-info/entry_points.txt,sha256=4G2RHamA0llCiIXaQQm8EDkVK9JNGKbI7uDnXVFgIaY,47
+doctra-0.5.1.dist-info/top_level.txt,sha256=jI7E8jHci2gP9y0GYaWxlg9jG0O5n3FjHJJPLXDXMds,7
+doctra-0.5.1.dist-info/RECORD,,

{doctra-0.4.3.dist-info → doctra-0.5.1.dist-info}/WHEEL RENAMED Viewed

File without changes

{doctra-0.4.3.dist-info → doctra-0.5.1.dist-info}/entry_points.txt RENAMED Viewed

File without changes

{doctra-0.4.3.dist-info → doctra-0.5.1.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

{doctra-0.4.3.dist-info → doctra-0.5.1.dist-info}/top_level.txt RENAMED Viewed

File without changes

doctra 0.4.3__py3-none-any.whl → 0.5.1__py3-none-any.whl

doctra 0.4.3py3-none-any.whl → 0.5.1py3-none-any.whl