PyPI - chunkr-ai - Versions diffs - 0.0.5__tar.gz → 0.0.7__tar.gz - Mend

chunkr-ai 0.0.5tar.gz → 0.0.7tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (27) hide show

{chunkr_ai-0.0.5/src/chunkr_ai.egg-info → chunkr_ai-0.0.7}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.2
 Name: chunkr-ai
-Version: 0.0.5
+Version: 0.0.7
 Summary: Python client for Chunkr: open source document intelligence
 Author-email: Ishaan Kapoor <ishaan@lumina.sh>
 Project-URL: Homepage, https://chunkr.ai
@@ -9,6 +9,7 @@ License-File: LICENSE
 Requires-Dist: httpx>=0.28.1
 Requires-Dist: pillow>=11.1.0
 Requires-Dist: pydantic>=2.10.4
+Requires-Dist: pytest-asyncio>=0.25.2
 Requires-Dist: python-dotenv>=1.0.1
 Requires-Dist: requests>=2.32.3
 Provides-Extra: test

{chunkr_ai-0.0.5 → chunkr_ai-0.0.7}/pyproject.toml RENAMED Viewed

@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 [project]
 name = "chunkr-ai"
-version = "0.0.5"
+version = "0.0.7"
 authors = [{"name" = "Ishaan Kapoor", "email" = "ishaan@lumina.sh"}]
 description = "Python client for Chunkr: open source document intelligence"
 readme = "README.md"
@@ -14,6 +14,7 @@ dependencies = [
     "httpx>=0.28.1",
     "pillow>=11.1.0",
     "pydantic>=2.10.4",
+    "pytest-asyncio>=0.25.2",
     "python-dotenv>=1.0.1",
     "requests>=2.32.3",
 ]
@@ -23,3 +24,4 @@ test = [
     "pytest>=8.3.4",
     "pytest-xdist>=3.6.1",
 ]

chunkr_ai-0.0.7/src/chunkr_ai/api/base.py ADDED Viewed

@@ -0,0 +1,85 @@
+from .config import Configuration
+from .task import TaskResponse
+from .auth import HeadersMixin
+from abc import abstractmethod
+from dotenv import load_dotenv
+import os
+from pathlib import Path
+from PIL import Image
+from typing import BinaryIO, Union
+class ChunkrBase(HeadersMixin):
+    """Base class with shared functionality for Chunkr API clients."""
+    def __init__(self, url: str = None, api_key: str = None):
+        load_dotenv()
+        self.url = (
+            url or
+            os.getenv('CHUNKR_URL') or
+            'https://api.chunkr.ai'
+        )
+        self._api_key = (
+            api_key or
+            os.getenv('CHUNKR_API_KEY')
+        )
+        if not self._api_key:
+            raise ValueError("API key must be provided either directly, in .env file, or as CHUNKR_API_KEY environment variable. You can get an api key at: https://www.chunkr.ai")
+        self.url = self.url.rstrip("/")
+    @abstractmethod
+    def upload(self, file: Union[str, Path, BinaryIO, Image.Image], config: Configuration = None) -> TaskResponse:
+        """Upload a file and wait for processing to complete.
+        Must be implemented by subclasses.
+        """
+        pass
+    @abstractmethod
+    def update_task(self, task_id: str, config: Configuration) -> TaskResponse:
+        """Update a task by its ID.
+        Must be implemented by subclasses.
+        """
+        pass
+    @abstractmethod
+    def create_task(self, file: Union[str, Path, BinaryIO, Image.Image], config: Configuration = None) -> TaskResponse:
+        """Upload a file for processing and immediately return the task response.
+        Must be implemented by subclasses.
+        """
+        pass
+    @abstractmethod
+    def update_task(self, task_id: str, config: Configuration) -> TaskResponse:
+        """Update a task by its ID.
+        Must be implemented by subclasses.
+        """
+        pass
+    @abstractmethod
+    def get_task(self, task_id: str) -> TaskResponse:
+        """Get a task response by its ID.
+        Must be implemented by subclasses.
+        """
+        pass
+    @abstractmethod
+    def delete_task(self, task_id: str) -> None:
+        """Delete a task by its ID.
+        Must be implemented by subclasses.
+        """
+        pass
+    @abstractmethod
+    def cancel_task(self, task_id: str) -> None:
+        """Cancel a task by its ID.
+        Must be implemented by subclasses.
+        """
+        pass

{chunkr_ai-0.0.5 → chunkr_ai-0.0.7}/src/chunkr_ai/api/chunkr.py RENAMED Viewed

@@ -5,6 +5,7 @@ from pathlib import Path
 from PIL import Image
 import requests
 from typing import Union, BinaryIO
+from .misc import prepare_upload_data
 class Chunkr(ChunkrBase):
     """Chunkr API client"""
@@ -43,10 +44,23 @@ class Chunkr(ChunkrBase):
         Returns:
             TaskResponse: The completed task response
         """
-        task = self.start_upload(file, config)
+        task = self.create_task(file, config)
         return task.poll()
+    def update(self, task_id: str, config: Configuration) -> TaskResponse:
+        """Update a task by its ID and wait for processing to complete.
+        Args:
+            task_id: The ID of the task to update
+            config: Configuration options for processing. Optional.
-    def start_upload(self, file: Union[str, Path, BinaryIO, Image.Image], config: Configuration = None) -> TaskResponse:
+        Returns:
+            TaskResponse: The updated task response
+        """
+        task = self.update_task(task_id, config)
+        return task.poll()
+    def create_task(self, file: Union[str, Path, BinaryIO, Image.Image], config: Configuration = None) -> TaskResponse:
         """Upload a file for processing and immediately return the task response. It will not wait for processing to complete. To wait for the full processing to complete, use `task.poll()`
         Args:
@@ -80,16 +94,35 @@ class Chunkr(ChunkrBase):
         Returns:
             TaskResponse: The initial task response
         """
-        files, data = self._prepare_upload_data(file, config)
+        files= prepare_upload_data(file, config)
         r = self._session.post(
             f"{self.url}/api/v1/task",
             files=files,
-            data=data,
             headers=self._headers()
         )
         r.raise_for_status()
         return TaskResponse(**r.json()).with_client(self)
+    def update_task(self, task_id: str, config: Configuration) -> TaskResponse:
+        """Update a task by its ID.
+        Args:
+            task_id: The ID of the task to update
+            config: The new configuration to use
+        Returns:
+            TaskResponse: The updated task response
+        """
+        files = prepare_upload_data(None, config)
+        r = self._session.patch(
+            f"{self.url}/api/v1/task/{task_id}",
+            files=files,
+            headers=self._headers()
+        )
+        r.raise_for_status()
+        return TaskResponse(**r.json()).with_client(self)
     def get_task(self, task_id: str) -> TaskResponse:
         """Get a task response by its ID.
@@ -106,3 +139,29 @@ class Chunkr(ChunkrBase):
         r.raise_for_status()
         return TaskResponse(**r.json()).with_client(self)
+    def delete_task(self, task_id: str) -> None:
+        """Delete a task by its ID.
+        Args:
+            task_id: The ID of the task to delete
+        """
+        r = self._session.delete(
+            f"{self.url}/api/v1/task/{task_id}",
+            headers=self._headers()
+        )
+        r.raise_for_status()
+    def cancel_task(self, task_id: str) -> None:
+        """Cancel a task by its ID.
+        Args:
+            task_id: The ID of the task to cancel
+        """
+        r = self._session.get(
+            f"{self.url}/api/v1/task/{task_id}/cancel",
+            headers=self._headers()
+        )
+        r.raise_for_status()

{chunkr_ai-0.0.5 → chunkr_ai-0.0.7}/src/chunkr_ai/api/chunkr_async.py RENAMED Viewed

@@ -5,6 +5,7 @@ import httpx
 from pathlib import Path
 from PIL import Image
 from typing import Union, BinaryIO
+from .misc import prepare_upload_data
 class ChunkrAsync(ChunkrBase):
     """Asynchronous Chunkr API client"""
@@ -43,10 +44,23 @@ class ChunkrAsync(ChunkrBase):
         Returns:
             TaskResponse: The completed task response
         """
-        task = await self.start_upload(file, config)
+        task = await self.create_task(file, config)
         return await task.poll_async()
+    async def update(self, task_id: str, config: Configuration) -> TaskResponse:
+        """Update a task by its ID and wait for processing to complete.
+        Args:
+            task_id: The ID of the task to update
+            config: Configuration options for processing. Optional.
-    async def start_upload(self, file: Union[str, Path, BinaryIO, Image.Image], config: Configuration = None) -> TaskResponse:
+        Returns:
+            TaskResponse: The updated task response
+        """
+        task = await self.update_task(task_id, config)
+        return await task.poll_async()
+    async def create_task(self, file: Union[str, Path, BinaryIO, Image.Image], config: Configuration = None) -> TaskResponse:
         """Upload a file for processing and immediately return the task response. It will not wait for processing to complete. To wait for the full processing to complete, use `task.poll_async()`.
         Args:
@@ -80,16 +94,26 @@ class ChunkrAsync(ChunkrBase):
         Returns:
             TaskResponse: The initial task response
         """
-        files, data = self._prepare_upload_data(file, config)
+        files = prepare_upload_data(file, config)
         r = await self._client.post(
             f"{self.url}/api/v1/task",
             files=files,
-            json=config.model_dump() if config else {},
             headers=self._headers()
         )
         r.raise_for_status()
         return TaskResponse(**r.json()).with_client(self)
+    async def update_task(self, task_id: str, config: Configuration) -> TaskResponse:
+        files = prepare_upload_data(None, config)
+        r = await self._client.patch(
+            f"{self.url}/api/v1/task/{task_id}",
+            files=files,
+            headers=self._headers()
+        )
+        r.raise_for_status()
+        return TaskResponse(**r.json()).with_client(self)
     async def get_task(self, task_id: str) -> TaskResponse:
         r = await self._client.get(
             f"{self.url}/api/v1/task/{task_id}",
@@ -97,7 +121,22 @@ class ChunkrAsync(ChunkrBase):
         )
         r.raise_for_status()
         return TaskResponse(**r.json()).with_client(self)
+    async def delete_task(self, task_id: str) -> None:
+        r = await self._client.delete(
+            f"{self.url}/api/v1/task/{task_id}",
+            headers=self._headers()
+        )
+        r.raise_for_status()
+    async def cancel_task(self, task_id: str) -> None:
+        r = await self._client.get(
+            f"{self.url}/api/v1/task/{task_id}/cancel",
+            headers=self._headers()
+        )
+        r.raise_for_status()
     async def __aenter__(self):
         return self

{chunkr_ai-0.0.5 → chunkr_ai-0.0.7}/src/chunkr_ai/api/config.py RENAMED Viewed

@@ -1,4 +1,4 @@
-from pydantic import BaseModel, Field, model_validator
+from pydantic import BaseModel, Field, model_validator, ConfigDict
 from enum import Enum
 from typing import Optional, List, Dict
@@ -10,30 +10,30 @@ class CroppingStrategy(str, Enum):
     ALL = "All"
     AUTO = "Auto"
-class LlmConfig(BaseModel):
-    model: str
-    prompt: str
-    temperature: float = 0.0
 class GenerationConfig(BaseModel):
     html: Optional[GenerationStrategy] = None
-    llm: Optional[LlmConfig] = None
+    llm: Optional[str] = None
     markdown: Optional[GenerationStrategy] = None
     crop_image: Optional[CroppingStrategy] = None
 class SegmentProcessing(BaseModel):
-    title: Optional[GenerationConfig] = None
-    section_header: Optional[GenerationConfig] = None
-    text: Optional[GenerationConfig] = None
-    list_item: Optional[GenerationConfig] = None
-    table: Optional[GenerationConfig] = None
-    picture: Optional[GenerationConfig] = None
-    caption: Optional[GenerationConfig] = None
-    formula: Optional[GenerationConfig] = None
-    footnote: Optional[GenerationConfig] = None
-    page_header: Optional[GenerationConfig] = None
-    page_footer: Optional[GenerationConfig] = None
-    page: Optional[GenerationConfig] = None
+    model_config = ConfigDict(
+        populate_by_name=True,
+        alias_generator=str.title
+    )
+    title: Optional[GenerationConfig] = Field(default=None, alias="Title")
+    section_header: Optional[GenerationConfig] = Field(default=None, alias="SectionHeader")
+    text: Optional[GenerationConfig] = Field(default=None, alias="Text")
+    list_item: Optional[GenerationConfig] = Field(default=None, alias="ListItem")
+    table: Optional[GenerationConfig] = Field(default=None, alias="Table")
+    picture: Optional[GenerationConfig] = Field(default=None, alias="Picture")
+    caption: Optional[GenerationConfig] = Field(default=None, alias="Caption")
+    formula: Optional[GenerationConfig] = Field(default=None, alias="Formula")
+    footnote: Optional[GenerationConfig] = Field(default=None, alias="Footnote")
+    page_header: Optional[GenerationConfig] = Field(default=None, alias="PageHeader")
+    page_footer: Optional[GenerationConfig] = Field(default=None, alias="PageFooter")
+    page: Optional[GenerationConfig] = Field(default=None, alias="Page")
 class ChunkProcessing(BaseModel):
     target_length: Optional[int] = None

chunkr_ai-0.0.7/src/chunkr_ai/api/misc.py ADDED Viewed

@@ -0,0 +1,106 @@
+import io
+import json
+from pathlib import Path
+from PIL import Image
+import requests
+from typing import Union, Tuple, BinaryIO, Optional
+from .config import Configuration
+def prepare_file(
+    file: Union[str, Path, BinaryIO, Image.Image]
+) -> Tuple[str, BinaryIO]:
+    """Convert various file types into a tuple of (filename, file-like object)."""
+    # Handle URLs
+    if isinstance(file, str) and (file.startswith('http://') or file.startswith('https://')):
+        response = requests.get(file)
+        response.raise_for_status()
+        file_obj = io.BytesIO(response.content)
+        filename = Path(file.split('/')[-1]).name or 'downloaded_file'
+        return filename, file_obj
+    # Handle base64 strings
+    if isinstance(file, str) and ',' in file and ';base64,' in file:
+        try:
+            # Split header and data
+            header, base64_data = file.split(',', 1)
+            import base64
+            file_bytes = base64.b64decode(base64_data)
+            file_obj = io.BytesIO(file_bytes)
+            # Try to determine format from header
+            format = 'bin'
+            mime_type = header.split(':')[-1].split(';')[0].lower()
+            # Map MIME types to file extensions
+            mime_to_ext = {
+                'application/pdf': 'pdf',
+                'application/vnd.openxmlformats-officedocument.wordprocessingml.document': 'docx',
+                'application/msword': 'doc',
+                'application/vnd.openxmlformats-officedocument.presentationml.presentation': 'pptx',
+                'application/vnd.ms-powerpoint': 'ppt',
+                'application/vnd.openxmlformats-officedocument.spreadsheetml.sheet': 'xlsx',
+                'application/vnd.ms-excel': 'xls',
+                'image/jpeg': 'jpg',
+                'image/png': 'png',
+                'image/jpg': 'jpg'
+            }
+            if mime_type in mime_to_ext:
+                format = mime_to_ext[mime_type]
+            else:
+                raise ValueError(f"Unsupported MIME type: {mime_type}")
+            return f"file.{format}", file_obj
+        except Exception as e:
+            raise ValueError(f"Invalid base64 string: {str(e)}")
+    # Handle file paths
+    if isinstance(file, (str, Path)):
+        path = Path(file).resolve()
+        if not path.exists():
+            raise FileNotFoundError(f"File not found: {file}")
+        return path.name, open(path, 'rb')
+    # Handle PIL Images
+    if isinstance(file, Image.Image):
+        img_byte_arr = io.BytesIO()
+        format = file.format or 'PNG'
+        file.save(img_byte_arr, format=format)
+        img_byte_arr.seek(0)
+        return f"image.{format.lower()}", img_byte_arr
+    # Handle file-like objects
+    if hasattr(file, 'read') and hasattr(file, 'seek'):
+        # Try to get the filename from the file object if possible
+        name = getattr(file, 'name', 'document') if hasattr(file, 'name') else 'document'
+        return Path(name).name, file
+    raise TypeError(f"Unsupported file type: {type(file)}")
+def prepare_upload_data(
+    file: Optional[Union[str, Path, BinaryIO, Image.Image]] = None,
+    config: Optional[Configuration] = None
+) -> dict:
+    """Prepare files and data dictionaries for upload.
+    Args:
+        file: The file to upload
+        config: Optional configuration settings
+    Returns:
+        dict: (files dict) ready for upload
+    """
+    files = {}
+    if file:
+        filename, file_obj = prepare_file(file)
+        files = {"file": (filename, file_obj)}
+    if config:
+        config_dict = config.model_dump(mode="json", exclude_none=True)
+        for key, value in config_dict.items():
+            files[key] = (None, json.dumps(value), 'application/json')
+    return files

{chunkr_ai-0.0.5 → chunkr_ai-0.0.7}/src/chunkr_ai/api/task.py RENAMED Viewed

@@ -1,5 +1,6 @@
 from .protocol import ChunkrClientProtocol
 from .config import Configuration, OutputResponse
+from .misc import prepare_upload_data
 import asyncio
 from datetime import datetime
 from enum import Enum
@@ -12,6 +13,7 @@ class Status(str, Enum):
     PROCESSING = "Processing"
     SUCCEEDED = "Succeeded"
     FAILED = "Failed"
+    CANCELLED = "Cancelled"
 class TaskResponse(BaseModel):
     configuration: Configuration
@@ -24,6 +26,7 @@ class TaskResponse(BaseModel):
     output: Optional[OutputResponse]
     page_count: Optional[int]
     pdf_url: Optional[str]
+    started_at: Optional[datetime]
     status: Status
     task_id: str
     task_url: Optional[str]
@@ -57,8 +60,9 @@ class TaskResponse(BaseModel):
         while True:
             try:
                 r = await self._client._client.get(self.task_url, headers=self._client._headers())
-                await r.raise_for_status()
-                return await r.json()
+                r.raise_for_status()
+                response = r.json()
+                return response
             except (ConnectionError, TimeoutError) as _:
                 print("Connection error while polling the task, retrying...")
                 await asyncio.sleep(0.5)
@@ -77,7 +81,8 @@ class TaskResponse(BaseModel):
         """Poll the task for completion."""
         while True:
             response = self._poll_request_sync()
-            self.__dict__.update(response)
+            updated_task = TaskResponse(**response).with_client(self._client)
+            self.__dict__.update(updated_task.__dict__)
             if result := self._check_status():
                 return result
@@ -88,7 +93,8 @@ class TaskResponse(BaseModel):
         """Poll the task for completion asynchronously."""
         while True:
             response = await self._poll_request_async()
-            self.__dict__.update(response)
+            updated_task = TaskResponse(**response).with_client(self._client)
+            self.__dict__.update(updated_task.__dict__)
             if result := self._check_status():
                 return result
@@ -106,6 +112,56 @@ class TaskResponse(BaseModel):
                 if content:
                     parts.append(content)
         return "\n".join(parts)
+    def update(self, config: Configuration) -> 'TaskResponse':
+        files = prepare_upload_data(None, config)
+        r = self._client._session.patch(
+            f"{self.task_url}",
+            files=files,
+            headers=self._client._headers()
+        )
+        r.raise_for_status()
+        return TaskResponse(**r.json()).with_client(self._client)
+    async def update_async(self, config: Configuration) -> 'TaskResponse':
+        files = prepare_upload_data(None, config)
+        r = await self._client._client.patch(
+            f"{self.task_url}",
+            files=files,
+            headers=self._client._headers()
+        )
+        r.raise_for_status()
+        return TaskResponse(**r.json()).with_client(self._client)
+    def cancel(self):
+        r = self._client._session.get(
+            f"{self.task_url}/cancel",
+            headers=self._client._headers()
+        )
+        r.raise_for_status()
+        self.poll()
+    async def cancel_async(self):
+        r = await self._client._client.get(
+            f"{self.task_url}/cancel",
+            headers=self._client._headers()
+        )
+        r.raise_for_status()
+        await self.poll_async()
+    def delete(self):
+        r = self._client._session.delete(
+            f"{self.task_url}",
+            headers=self._client._headers()
+        )
+        r.raise_for_status()
+    async def delete_async(self):
+        r = await self._client._client.delete(
+            f"{self.task_url}",
+            headers=self._client._headers()
+        )
+        r.raise_for_status()
     def html(self) -> str:
         """Get full HTML for the task"""
@@ -117,15 +173,4 @@ class TaskResponse(BaseModel):
     def content(self) -> str:
         """Get full text for the task"""
-        return self._get_content("content")
-class TaskPayload(BaseModel):
-    current_configuration: Configuration
-    file_name: str
-    image_folder_location: str
-    input_location: str
-    output_location: str
-    pdf_location: str
-    previous_configuration: Optional[Configuration]
-    task_id: str
-    user_id: str
+        return self._get_content("content")

chunkr_ai-0.0.7/src/chunkr_ai/main.py ADDED Viewed

@@ -0,0 +1,12 @@
+from chunkr_ai.api.chunkr import Chunkr
+from chunkr_ai.models import Configuration
+from chunkr_ai.api.config import SegmentationStrategy, ChunkProcessing
+if __name__ == "__main__":
+    chunkr = Chunkr()
+    task = chunkr.update_task("556b4fe5-e3f7-48dc-9f56-0fb7fbacdb87", Configuration(
+        chunk_processing=ChunkProcessing(
+            target_length=1000
+        )
+    ))
+    print(task)

{chunkr_ai-0.0.5 → chunkr_ai-0.0.7}/src/chunkr_ai/models.py RENAMED Viewed

@@ -8,7 +8,6 @@ from .api.config import (
     GenerationStrategy,
     GenerationConfig,
     JsonSchema,
-    LlmConfig,
     Model,
     OCRResult,
     OcrStrategy,
@@ -20,7 +19,7 @@ from .api.config import (
     SegmentationStrategy,
 )
-from .api.task import TaskResponse, TaskPayload, Status
+from .api.task import TaskResponse, Status
 __all__ = [
     'BoundingBox',
@@ -43,6 +42,5 @@ __all__ = [
     'SegmentType',
     'SegmentationStrategy',
     'Status',
-    'TaskPayload',
     'TaskResponse'
 ]

{chunkr_ai-0.0.5 → chunkr_ai-0.0.7/src/chunkr_ai.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.2
 Name: chunkr-ai
-Version: 0.0.5
+Version: 0.0.7
 Summary: Python client for Chunkr: open source document intelligence
 Author-email: Ishaan Kapoor <ishaan@lumina.sh>
 Project-URL: Homepage, https://chunkr.ai
@@ -9,6 +9,7 @@ License-File: LICENSE
 Requires-Dist: httpx>=0.28.1
 Requires-Dist: pillow>=11.1.0
 Requires-Dist: pydantic>=2.10.4
+Requires-Dist: pytest-asyncio>=0.25.2
 Requires-Dist: python-dotenv>=1.0.1
 Requires-Dist: requests>=2.32.3
 Provides-Extra: test

{chunkr_ai-0.0.5 → chunkr_ai-0.0.7}/src/chunkr_ai.egg-info/SOURCES.txt RENAMED Viewed

@@ -16,6 +16,7 @@ src/chunkr_ai/api/base.py
 src/chunkr_ai/api/chunkr.py
 src/chunkr_ai/api/chunkr_async.py
 src/chunkr_ai/api/config.py
+src/chunkr_ai/api/misc.py
 src/chunkr_ai/api/protocol.py
 src/chunkr_ai/api/task.py
 tests/test_chunkr.py

{chunkr_ai-0.0.5 → chunkr_ai-0.0.7}/src/chunkr_ai.egg-info/requires.txt RENAMED Viewed

@@ -1,6 +1,7 @@
 httpx>=0.28.1
 pillow>=11.1.0
 pydantic>=2.10.4
+pytest-asyncio>=0.25.2
 python-dotenv>=1.0.1
 requests>=2.32.3

chunkr-ai 0.0.5__tar.gz → 0.0.7__tar.gz

chunkr-ai 0.0.5tar.gz → 0.0.7tar.gz