PyPI - kiln-ai - Versions diffs - 0.20.1__py3-none-any.whl → 0.22.0__py3-none-any.whl - Mend

kiln-ai 0.20.1py3-none-any.whl → 0.22.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of kiln-ai might be problematic. Click here for more details.

Files changed (133) hide show

kiln_ai/adapters/__init__.py +6 -0
kiln_ai/adapters/adapter_registry.py +43 -226
kiln_ai/adapters/chunkers/__init__.py +13 -0
kiln_ai/adapters/chunkers/base_chunker.py +42 -0
kiln_ai/adapters/chunkers/chunker_registry.py +16 -0
kiln_ai/adapters/chunkers/fixed_window_chunker.py +39 -0
kiln_ai/adapters/chunkers/helpers.py +23 -0
kiln_ai/adapters/chunkers/test_base_chunker.py +63 -0
kiln_ai/adapters/chunkers/test_chunker_registry.py +28 -0
kiln_ai/adapters/chunkers/test_fixed_window_chunker.py +346 -0
kiln_ai/adapters/chunkers/test_helpers.py +75 -0
kiln_ai/adapters/data_gen/test_data_gen_task.py +9 -3
kiln_ai/adapters/embedding/__init__.py +0 -0
kiln_ai/adapters/embedding/base_embedding_adapter.py +44 -0
kiln_ai/adapters/embedding/embedding_registry.py +32 -0
kiln_ai/adapters/embedding/litellm_embedding_adapter.py +199 -0
kiln_ai/adapters/embedding/test_base_embedding_adapter.py +283 -0
kiln_ai/adapters/embedding/test_embedding_registry.py +166 -0
kiln_ai/adapters/embedding/test_litellm_embedding_adapter.py +1149 -0
kiln_ai/adapters/eval/eval_runner.py +6 -2
kiln_ai/adapters/eval/test_base_eval.py +1 -3
kiln_ai/adapters/eval/test_g_eval.py +1 -1
kiln_ai/adapters/extractors/__init__.py +18 -0
kiln_ai/adapters/extractors/base_extractor.py +72 -0
kiln_ai/adapters/extractors/encoding.py +20 -0
kiln_ai/adapters/extractors/extractor_registry.py +44 -0
kiln_ai/adapters/extractors/extractor_runner.py +112 -0
kiln_ai/adapters/extractors/litellm_extractor.py +406 -0
kiln_ai/adapters/extractors/test_base_extractor.py +244 -0
kiln_ai/adapters/extractors/test_encoding.py +54 -0
kiln_ai/adapters/extractors/test_extractor_registry.py +181 -0
kiln_ai/adapters/extractors/test_extractor_runner.py +181 -0
kiln_ai/adapters/extractors/test_litellm_extractor.py +1290 -0
kiln_ai/adapters/fine_tune/test_dataset_formatter.py +2 -2
kiln_ai/adapters/fine_tune/test_fireworks_tinetune.py +2 -6
kiln_ai/adapters/fine_tune/test_together_finetune.py +2 -6
kiln_ai/adapters/ml_embedding_model_list.py +494 -0
kiln_ai/adapters/ml_model_list.py +876 -18
kiln_ai/adapters/model_adapters/litellm_adapter.py +40 -75
kiln_ai/adapters/model_adapters/test_litellm_adapter.py +79 -1
kiln_ai/adapters/model_adapters/test_litellm_adapter_tools.py +119 -5
kiln_ai/adapters/model_adapters/test_saving_adapter_results.py +9 -3
kiln_ai/adapters/model_adapters/test_structured_output.py +9 -10
kiln_ai/adapters/ollama_tools.py +69 -12
kiln_ai/adapters/provider_tools.py +190 -46
kiln_ai/adapters/rag/deduplication.py +49 -0
kiln_ai/adapters/rag/progress.py +252 -0
kiln_ai/adapters/rag/rag_runners.py +844 -0
kiln_ai/adapters/rag/test_deduplication.py +195 -0
kiln_ai/adapters/rag/test_progress.py +785 -0
kiln_ai/adapters/rag/test_rag_runners.py +2376 -0
kiln_ai/adapters/remote_config.py +80 -8
kiln_ai/adapters/test_adapter_registry.py +579 -86
kiln_ai/adapters/test_ml_embedding_model_list.py +239 -0
kiln_ai/adapters/test_ml_model_list.py +202 -0
kiln_ai/adapters/test_ollama_tools.py +340 -1
kiln_ai/adapters/test_prompt_builders.py +1 -1
kiln_ai/adapters/test_provider_tools.py +199 -8
kiln_ai/adapters/test_remote_config.py +551 -56
kiln_ai/adapters/vector_store/__init__.py +1 -0
kiln_ai/adapters/vector_store/base_vector_store_adapter.py +83 -0
kiln_ai/adapters/vector_store/lancedb_adapter.py +389 -0
kiln_ai/adapters/vector_store/test_base_vector_store.py +160 -0
kiln_ai/adapters/vector_store/test_lancedb_adapter.py +1841 -0
kiln_ai/adapters/vector_store/test_vector_store_registry.py +199 -0
kiln_ai/adapters/vector_store/vector_store_registry.py +33 -0
kiln_ai/datamodel/__init__.py +16 -13
kiln_ai/datamodel/basemodel.py +201 -4
kiln_ai/datamodel/chunk.py +158 -0
kiln_ai/datamodel/datamodel_enums.py +27 -0
kiln_ai/datamodel/embedding.py +64 -0
kiln_ai/datamodel/external_tool_server.py +206 -54
kiln_ai/datamodel/extraction.py +317 -0
kiln_ai/datamodel/project.py +33 -1
kiln_ai/datamodel/rag.py +79 -0
kiln_ai/datamodel/task.py +5 -0
kiln_ai/datamodel/task_output.py +41 -11
kiln_ai/datamodel/test_attachment.py +649 -0
kiln_ai/datamodel/test_basemodel.py +270 -14
kiln_ai/datamodel/test_chunk_models.py +317 -0
kiln_ai/datamodel/test_dataset_split.py +1 -1
kiln_ai/datamodel/test_datasource.py +50 -0
kiln_ai/datamodel/test_embedding_models.py +448 -0
kiln_ai/datamodel/test_eval_model.py +6 -6
kiln_ai/datamodel/test_external_tool_server.py +534 -152
kiln_ai/datamodel/test_extraction_chunk.py +206 -0
kiln_ai/datamodel/test_extraction_model.py +501 -0
kiln_ai/datamodel/test_rag.py +641 -0
kiln_ai/datamodel/test_task.py +35 -1
kiln_ai/datamodel/test_tool_id.py +187 -1
kiln_ai/datamodel/test_vector_store.py +320 -0
kiln_ai/datamodel/tool_id.py +58 -0
kiln_ai/datamodel/vector_store.py +141 -0
kiln_ai/tools/base_tool.py +12 -3
kiln_ai/tools/built_in_tools/math_tools.py +12 -4
kiln_ai/tools/kiln_task_tool.py +158 -0
kiln_ai/tools/mcp_server_tool.py +2 -2
kiln_ai/tools/mcp_session_manager.py +51 -22
kiln_ai/tools/rag_tools.py +164 -0
kiln_ai/tools/test_kiln_task_tool.py +527 -0
kiln_ai/tools/test_mcp_server_tool.py +4 -15
kiln_ai/tools/test_mcp_session_manager.py +187 -227
kiln_ai/tools/test_rag_tools.py +929 -0
kiln_ai/tools/test_tool_registry.py +290 -7
kiln_ai/tools/tool_registry.py +69 -16
kiln_ai/utils/__init__.py +3 -0
kiln_ai/utils/async_job_runner.py +62 -17
kiln_ai/utils/config.py +2 -2
kiln_ai/utils/env.py +15 -0
kiln_ai/utils/filesystem.py +14 -0
kiln_ai/utils/filesystem_cache.py +60 -0
kiln_ai/utils/litellm.py +94 -0
kiln_ai/utils/lock.py +100 -0
kiln_ai/utils/mime_type.py +38 -0
kiln_ai/utils/open_ai_types.py +19 -2
kiln_ai/utils/pdf_utils.py +59 -0
kiln_ai/utils/test_async_job_runner.py +151 -35
kiln_ai/utils/test_env.py +142 -0
kiln_ai/utils/test_filesystem_cache.py +316 -0
kiln_ai/utils/test_litellm.py +206 -0
kiln_ai/utils/test_lock.py +185 -0
kiln_ai/utils/test_mime_type.py +66 -0
kiln_ai/utils/test_open_ai_types.py +88 -12
kiln_ai/utils/test_pdf_utils.py +86 -0
kiln_ai/utils/test_uuid.py +111 -0
kiln_ai/utils/test_validation.py +524 -0
kiln_ai/utils/uuid.py +9 -0
kiln_ai/utils/validation.py +90 -0
{kiln_ai-0.20.1.dist-info → kiln_ai-0.22.0.dist-info}/METADATA +9 -1
kiln_ai-0.22.0.dist-info/RECORD +213 -0
kiln_ai-0.20.1.dist-info/RECORD +0 -138
{kiln_ai-0.20.1.dist-info → kiln_ai-0.22.0.dist-info}/WHEEL +0 -0
{kiln_ai-0.20.1.dist-info → kiln_ai-0.22.0.dist-info}/licenses/LICENSE.txt +0 -0

kiln_ai/adapters/extractors/litellm_extractor.py ADDED Viewed

@@ -0,0 +1,406 @@
+import asyncio
+import hashlib
+import logging
+from functools import cached_property
+from pathlib import Path
+from typing import Any, List
+import litellm
+from litellm.types.utils import Choices, ModelResponse
+from kiln_ai.adapters.extractors.base_extractor import (
+    BaseExtractor,
+    ExtractionInput,
+    ExtractionOutput,
+)
+from kiln_ai.adapters.extractors.encoding import to_base64_url
+from kiln_ai.adapters.ml_model_list import (
+    KilnModelProvider,
+    built_in_models_from_provider,
+)
+from kiln_ai.adapters.provider_tools import LiteLlmCoreConfig
+from kiln_ai.datamodel.datamodel_enums import ModelProviderName
+from kiln_ai.datamodel.extraction import ExtractorConfig, ExtractorType, Kind
+from kiln_ai.utils.filesystem_cache import FilesystemCache
+from kiln_ai.utils.litellm import get_litellm_provider_info
+from kiln_ai.utils.pdf_utils import convert_pdf_to_images, split_pdf_into_pages
+logger = logging.getLogger(__name__)
+MIME_TYPES_SUPPORTED = {
+    Kind.DOCUMENT: [
+        "application/pdf",
+        "text/plain",
+        "text/markdown",  # not officially listed, but works
+        "text/html",
+        "text/md",
+        "text/csv",
+    ],
+    Kind.IMAGE: [
+        "image/png",
+        "image/jpeg",
+        "image/jpg",
+    ],
+    Kind.VIDEO: [
+        "video/mp4",
+        "video/mov",  # the correct type is video/quicktime, but Google lists it as video/mov
+        "video/quicktime",
+    ],
+    Kind.AUDIO: [
+        "audio/wav",
+        "audio/mpeg",  # this is the official MP3 mimetype, audio/mp3 is often used but not correct
+        "audio/ogg",
+    ],
+}
+def encode_file_litellm_format(path: Path, mime_type: str) -> dict[str, Any]:
+    # There are different formats that LiteLLM supports, the docs are scattered
+    # and incomplete:
+    # - https://docs.litellm.ai/docs/completion/document_understanding#base64
+    # - https://docs.litellm.ai/docs/completion/vision#explicitly-specify-image-type
+    # this is the most generic format that seems to work for all / most mime types
+    if mime_type in [
+        "application/pdf",
+        "text/csv",
+        "text/html",
+        "text/markdown",
+        "text/plain",
+    ] or any(mime_type.startswith(m) for m in ["video/", "audio/"]):
+        file_bytes = path.read_bytes()
+        return {
+            "type": "file",
+            "file": {
+                "file_data": to_base64_url(mime_type, file_bytes),
+            },
+        }
+    # image has its own format (but also appears to work with the file format)
+    if mime_type.startswith("image/"):
+        image_bytes = path.read_bytes()
+        return {
+            "type": "image_url",
+            "image_url": {
+                "url": to_base64_url(mime_type, image_bytes),
+            },
+        }
+    raise ValueError(f"Unsupported MIME type: {mime_type} for {path}")
+class LitellmExtractor(BaseExtractor):
+    def __init__(
+        self,
+        extractor_config: ExtractorConfig,
+        litellm_core_config: LiteLlmCoreConfig,
+        filesystem_cache: FilesystemCache | None = None,
+        default_max_parallel_requests: int = 5,
+    ):
+        if extractor_config.extractor_type != ExtractorType.LITELLM:
+            raise ValueError(
+                f"LitellmExtractor must be initialized with a litellm extractor_type config. Got {extractor_config.extractor_type}"
+            )
+        prompt_document = extractor_config.prompt_document()
+        if prompt_document is None or prompt_document == "":
+            raise ValueError(
+                "properties.prompt_document is required for LitellmExtractor"
+            )
+        prompt_video = extractor_config.prompt_video()
+        if prompt_video is None or prompt_video == "":
+            raise ValueError("properties.prompt_video is required for LitellmExtractor")
+        prompt_audio = extractor_config.prompt_audio()
+        if prompt_audio is None or prompt_audio == "":
+            raise ValueError("properties.prompt_audio is required for LitellmExtractor")
+        prompt_image = extractor_config.prompt_image()
+        if prompt_image is None or prompt_image == "":
+            raise ValueError("properties.prompt_image is required for LitellmExtractor")
+        self.filesystem_cache = filesystem_cache
+        super().__init__(extractor_config)
+        self.prompt_for_kind = {
+            Kind.DOCUMENT: prompt_document,
+            Kind.VIDEO: prompt_video,
+            Kind.AUDIO: prompt_audio,
+            Kind.IMAGE: prompt_image,
+        }
+        self.litellm_core_config = litellm_core_config
+        self.default_max_parallel_requests = default_max_parallel_requests
+    def pdf_page_cache_key(self, pdf_path: Path, page_number: int) -> str:
+        """
+        Generate a cache key for a page of a PDF. The PDF path must be the full path to the PDF file,
+        not the path to the page - since page path is temporary and changes on each run.
+        """
+        if self.extractor_config.id is None:
+            raise ValueError("Extractor config ID is required for PDF page cache key")
+        raw_key = f"{pdf_path.resolve()}::{page_number}"
+        digest = hashlib.md5(raw_key.encode("utf-8")).hexdigest()
+        return f"{self.extractor_config.id}_{digest}"
+    async def get_page_content_from_cache(
+        self, pdf_path: Path, page_number: int
+    ) -> str | None:
+        if self.filesystem_cache is None:
+            return None
+        page_bytes = await self.filesystem_cache.get(
+            self.pdf_page_cache_key(pdf_path, page_number)
+        )
+        if page_bytes is not None:
+            logger.debug(f"Cache hit for page {page_number} of {pdf_path}")
+            try:
+                return page_bytes.decode("utf-8")
+            except UnicodeDecodeError:
+                logger.warning(
+                    "Cached bytes for page %s of %s are not valid UTF-8; treating as miss.",
+                    page_number,
+                    pdf_path,
+                    exc_info=True,
+                )
+        logger.debug(f"Cache miss for page {page_number} of {pdf_path}")
+        return None
+    async def convert_pdf_page_to_image_input(
+        self, page_path: Path, page_number: int
+    ) -> ExtractionInput:
+        image_paths = await convert_pdf_to_images(page_path, page_path.parent)
+        if len(image_paths) != 1:
+            raise ValueError(
+                f"Expected 1 image, got {len(image_paths)} for page {page_number} in {page_path}"
+            )
+        image_path = image_paths[0]
+        page_input = ExtractionInput(path=str(image_path), mime_type="image/png")
+        return page_input
+    async def _extract_single_pdf_page(
+        self,
+        pdf_path: Path,
+        page_path: Path,
+        prompt: str,
+        page_number: int,
+    ) -> str:
+        try:
+            if self.model_provider.multimodal_requires_pdf_as_image:
+                page_input = await self.convert_pdf_page_to_image_input(
+                    page_path, page_number
+                )
+            else:
+                page_input = ExtractionInput(
+                    path=str(page_path), mime_type="application/pdf"
+                )
+            completion_kwargs = self._build_completion_kwargs(prompt, page_input)
+            response = await litellm.acompletion(**completion_kwargs)
+        except Exception as e:
+            raise RuntimeError(
+                f"Error extracting page {page_number} in file {page_path}: {e}"
+            ) from e
+        if (
+            not isinstance(response, ModelResponse)
+            or not response.choices
+            or len(response.choices) == 0
+            or not isinstance(response.choices[0], Choices)
+        ):
+            raise RuntimeError(
+                f"Expected ModelResponse with Choices for page {page_number}, got {type(response)}."
+            )
+        if response.choices[0].message.content is None:
+            raise ValueError(
+                f"No text returned from LiteLLM when extracting page {page_number}"
+            )
+        content = response.choices[0].message.content
+        if self.filesystem_cache is not None:
+            # we don't want to fail the whole extraction just because cache write fails
+            # as that would block the whole flow
+            try:
+                logger.debug(f"Caching page {page_number} of {page_path} in cache")
+                await self.filesystem_cache.set(
+                    self.pdf_page_cache_key(pdf_path, page_number),
+                    content.encode("utf-8"),
+                )
+            except Exception:
+                logger.warning(
+                    "Failed to cache page %s of %s; continuing without cache.",
+                    page_number,
+                    page_path,
+                    exc_info=True,
+                )
+        return content
+    async def _extract_pdf_page_by_page(self, pdf_path: Path, prompt: str) -> str:
+        async with split_pdf_into_pages(pdf_path) as page_paths:
+            page_outcomes: List[str | Exception | None] = [None] * len(page_paths)
+            extract_page_jobs: list = []
+            page_indices_for_jobs: list = []  # Track which page index each job corresponds to
+            # we extract from each page individually and then combine the results
+            # this ensures the model stays focused on the current page and does not
+            # start summarizing the later pages
+            for i, page_path in enumerate(page_paths):
+                page_content = await self.get_page_content_from_cache(pdf_path, i)
+                if page_content is not None:
+                    page_outcomes[i] = page_content
+                    continue
+                extract_page_jobs.append(
+                    self._extract_single_pdf_page(
+                        pdf_path, page_path, prompt, page_number=i
+                    )
+                )
+                page_indices_for_jobs.append(i)
+                if (
+                    len(extract_page_jobs) >= self.max_parallel_requests_for_model
+                    or i == len(page_paths) - 1
+                ):
+                    extraction_results = await asyncio.gather(
+                        *extract_page_jobs, return_exceptions=True
+                    )
+                    for batch_i, extraction_result in enumerate(extraction_results):
+                        page_index = page_indices_for_jobs[batch_i]
+                        # we let it continue even if there is an error - the success results will be cached
+                        # and can be reused on the next run
+                        if isinstance(extraction_result, Exception):
+                            page_outcomes[page_index] = extraction_result
+                        elif isinstance(extraction_result, str):
+                            page_outcomes[page_index] = extraction_result
+                        else:
+                            raise ValueError(
+                                f"Unexpected type {type(extraction_result)} for page {page_index}"
+                            )
+                    extract_page_jobs.clear()
+                    page_indices_for_jobs.clear()
+        exceptions: list[tuple[int, Exception]] = [
+            (page_index, result)
+            for page_index, result in enumerate(page_outcomes)
+            if isinstance(result, Exception)
+        ]
+        if len(exceptions) > 0:
+            msg = f"Error extracting PDF {pdf_path}: "
+            for page_index, exception in exceptions:
+                msg += f"Page {page_index}: {exception}\n"
+            raise RuntimeError(msg)
+        return "\n\n".join(
+            [outcome for outcome in page_outcomes if isinstance(outcome, str)]
+        )
+    def _get_kind_from_mime_type(self, mime_type: str) -> Kind | None:
+        for kind, mime_types in MIME_TYPES_SUPPORTED.items():
+            if mime_type in mime_types:
+                return kind
+        return None
+    def _build_completion_kwargs(
+        self, prompt: str, extraction_input: ExtractionInput
+    ) -> dict[str, Any]:
+        completion_kwargs = {
+            "model": self.litellm_model_slug,
+            "messages": [
+                {
+                    "role": "user",
+                    "content": [
+                        {"type": "text", "text": prompt},
+                        encode_file_litellm_format(
+                            Path(extraction_input.path), extraction_input.mime_type
+                        ),
+                    ],
+                }
+            ],
+        }
+        if self.litellm_core_config.base_url:
+            completion_kwargs["base_url"] = self.litellm_core_config.base_url
+        if self.litellm_core_config.default_headers:
+            completion_kwargs["default_headers"] = (
+                self.litellm_core_config.default_headers
+            )
+        if self.litellm_core_config.additional_body_options:
+            completion_kwargs.update(self.litellm_core_config.additional_body_options)
+        return completion_kwargs
+    async def _extract(self, extraction_input: ExtractionInput) -> ExtractionOutput:
+        kind = self._get_kind_from_mime_type(extraction_input.mime_type)
+        if kind is None:
+            raise ValueError(
+                f"Unsupported MIME type: {extraction_input.mime_type} for {extraction_input.path}"
+            )
+        prompt = self.prompt_for_kind.get(kind)
+        if prompt is None:
+            raise ValueError(f"No prompt found for kind: {kind}")
+        # special handling for PDFs - process each page individually
+        if extraction_input.mime_type == "application/pdf":
+            content = await self._extract_pdf_page_by_page(
+                Path(extraction_input.path), prompt
+            )
+            return ExtractionOutput(
+                is_passthrough=False,
+                content=content,
+                content_format=self.extractor_config.output_format,
+            )
+        completion_kwargs = self._build_completion_kwargs(prompt, extraction_input)
+        response = await litellm.acompletion(**completion_kwargs)
+        if (
+            not isinstance(response, ModelResponse)
+            or not response.choices
+            or len(response.choices) == 0
+            or not isinstance(response.choices[0], Choices)
+        ):
+            raise RuntimeError(
+                f"Expected ModelResponse with Choices, got {type(response)}."
+            )
+        if response.choices[0].message.content is None:
+            raise ValueError("No text returned from LiteLLM when extracting document")
+        return ExtractionOutput(
+            is_passthrough=False,
+            content=response.choices[0].message.content,
+            content_format=self.extractor_config.output_format,
+        )
+    @cached_property
+    def model_provider(self) -> KilnModelProvider:
+        kiln_model_provider = built_in_models_from_provider(
+            ModelProviderName(self.extractor_config.model_provider_name),
+            self.extractor_config.model_name,
+        )
+        if kiln_model_provider is None:
+            raise ValueError(
+                f"Model provider {self.extractor_config.model_provider_name} not found in the list of built-in models"
+            )
+        return kiln_model_provider
+    @cached_property
+    def max_parallel_requests_for_model(self) -> int:
+        value = self.model_provider.max_parallel_requests
+        return value if value is not None else self.default_max_parallel_requests
+    @cached_property
+    def litellm_model_slug(self) -> str:
+        litellm_provider_name = get_litellm_provider_info(
+            self.model_provider,
+        )
+        return litellm_provider_name.litellm_model_id

kiln_ai/adapters/extractors/test_base_extractor.py ADDED Viewed

@@ -0,0 +1,244 @@
+from typing import Any
+from unittest.mock import patch
+import pytest
+from kiln_ai.adapters.extractors.base_extractor import (
+    BaseExtractor,
+    ExtractionInput,
+    ExtractionOutput,
+)
+from kiln_ai.datamodel.extraction import ExtractorConfig, ExtractorType, OutputFormat
+class MockBaseExtractor(BaseExtractor):
+    async def _extract(self, input: ExtractionInput) -> ExtractionOutput:
+        return ExtractionOutput(
+            is_passthrough=False,
+            content="mock concrete extractor output",
+            content_format=OutputFormat.MARKDOWN,
+        )
+@pytest.fixture
+def mock_litellm_properties():
+    return {
+        "prompt_document": "mock prompt for document",
+        "prompt_image": "mock prompt for image",
+        "prompt_video": "mock prompt for video",
+        "prompt_audio": "mock prompt for audio",
+    }
+@pytest.fixture
+def mock_extractor(mock_litellm_properties):
+    return MockBaseExtractor(
+        ExtractorConfig(
+            name="mock",
+            model_provider_name="gemini_api",
+            model_name="gemini-2.0-flash",
+            extractor_type=ExtractorType.LITELLM,
+            output_format=OutputFormat.MARKDOWN,
+            properties=mock_litellm_properties,
+        )
+    )
+def mock_extractor_with_passthroughs(
+    properties: dict[str, Any],
+    mimetypes: list[OutputFormat],
+    output_format: OutputFormat,
+):
+    return MockBaseExtractor(
+        ExtractorConfig(
+            name="mock",
+            model_provider_name="gemini_api",
+            model_name="gemini-2.0-flash",
+            extractor_type=ExtractorType.LITELLM,
+            passthrough_mimetypes=mimetypes,
+            output_format=output_format,
+            properties=properties,
+        )
+    )
+def test_should_passthrough(mock_litellm_properties):
+    extractor = mock_extractor_with_passthroughs(
+        mock_litellm_properties,
+        [OutputFormat.TEXT, OutputFormat.MARKDOWN],
+        OutputFormat.TEXT,
+    )
+    # should passthrough
+    assert extractor._should_passthrough("text/plain")
+    assert extractor._should_passthrough("text/markdown")
+    # should not passthrough
+    assert not extractor._should_passthrough("image/png")
+    assert not extractor._should_passthrough("application/pdf")
+    assert not extractor._should_passthrough("text/html")
+    assert not extractor._should_passthrough("image/jpeg")
+async def test_extract_passthrough(mock_litellm_properties):
+    """
+    Tests that when a file's MIME type is configured for passthrough, the extractor skips
+    the concrete extraction method and returns the file's contents directly with the
+    correct passthrough output format.
+    """
+    extractor = mock_extractor_with_passthroughs(
+        mock_litellm_properties,
+        [OutputFormat.TEXT, OutputFormat.MARKDOWN],
+        OutputFormat.TEXT,
+    )
+    with (
+        patch.object(
+            extractor,
+            "_extract",
+            return_value=ExtractionOutput(
+                is_passthrough=False,
+                content="mock concrete extractor output",
+                content_format=OutputFormat.TEXT,
+            ),
+        ) as mock_extract,
+        patch(
+            "pathlib.Path.read_text",
+            return_value=b"test content",
+        ),
+    ):
+        result = await extractor.extract(
+            ExtractionInput(
+                path="test.txt",
+                mime_type="text/plain",
+            )
+        )
+        # Verify _extract was not called
+        mock_extract.assert_not_called()
+        # Verify correct passthrough result
+        assert result.is_passthrough
+        assert result.content == "test content"
+        assert result.content_format == OutputFormat.TEXT
+@pytest.mark.parametrize(
+    "output_format",
+    [
+        "text/plain",
+        "text/markdown",
+    ],
+)
+async def test_extract_passthrough_output_format(
+    mock_litellm_properties, output_format
+):
+    extractor = mock_extractor_with_passthroughs(
+        mock_litellm_properties,
+        [OutputFormat.TEXT, OutputFormat.MARKDOWN],
+        output_format,
+    )
+    with (
+        patch.object(
+            extractor,
+            "_extract",
+            return_value=ExtractionOutput(
+                is_passthrough=False,
+                content="mock concrete extractor output",
+                content_format=output_format,
+            ),
+        ) as mock_extract,
+        patch(
+            "pathlib.Path.read_text",
+            return_value="test content",
+        ),
+    ):
+        result = await extractor.extract(
+            ExtractionInput(
+                path="test.txt",
+                mime_type="text/plain",
+            )
+        )
+        # Verify _extract was not called
+        mock_extract.assert_not_called()
+        # Verify correct passthrough result
+        assert result.is_passthrough
+        assert result.content == "test content"
+        assert result.content_format == output_format
+@pytest.mark.parametrize(
+    "path, mime_type, output_format",
+    [
+        ("test.mp3", "audio/mpeg", OutputFormat.TEXT),
+        ("test.png", "image/png", OutputFormat.TEXT),
+        ("test.pdf", "application/pdf", OutputFormat.TEXT),
+        ("test.txt", "text/plain", OutputFormat.MARKDOWN),
+        ("test.txt", "text/markdown", OutputFormat.MARKDOWN),
+        ("test.html", "text/html", OutputFormat.MARKDOWN),
+    ],
+)
+async def test_extract_non_passthrough(
+    mock_extractor, path: str, mime_type: str, output_format: OutputFormat
+):
+    with (
+        patch.object(
+            mock_extractor,
+            "_extract",
+            return_value=ExtractionOutput(
+                is_passthrough=False,
+                content="mock concrete extractor output",
+                content_format=output_format,
+            ),
+        ) as mock_extract,
+    ):
+        # first we call the base class extract method
+        result = await mock_extractor.extract(
+            ExtractionInput(
+                path=path,
+                mime_type=mime_type,
+            )
+        )
+        # then we call the subclass _extract method and add validated mime_type
+        mock_extract.assert_called_once_with(
+            ExtractionInput(
+                path=path,
+                mime_type=mime_type,
+            )
+        )
+        assert not result.is_passthrough
+        assert result.content == "mock concrete extractor output"
+        assert result.content_format == output_format
+async def test_default_output_format(mock_litellm_properties):
+    config = ExtractorConfig(
+        name="mock",
+        model_provider_name="gemini_api",
+        model_name="gemini-2.0-flash",
+        extractor_type=ExtractorType.LITELLM,
+        properties=mock_litellm_properties,
+    )
+    assert config.output_format == OutputFormat.MARKDOWN
+async def test_extract_failure_from_concrete_extractor(mock_extractor):
+    with patch.object(
+        mock_extractor,
+        "_extract",
+        side_effect=Exception("error from concrete extractor"),
+    ):
+        with pytest.raises(ValueError, match="error from concrete extractor"):
+            await mock_extractor.extract(
+                ExtractionInput(
+                    path="test.txt",
+                    mime_type="text/plain",
+                )
+            )
+async def test_output_format(mock_extractor):
+    assert mock_extractor.output_format() == OutputFormat.MARKDOWN

kiln_ai/adapters/extractors/test_encoding.py ADDED Viewed

@@ -0,0 +1,54 @@
+from pathlib import Path
+import pytest
+from conftest import MockFileFactoryMimeType
+from kiln_ai.adapters.extractors.encoding import from_base64_url, to_base64_url
+async def test_to_base64_url(mock_file_factory):
+    mock_file = mock_file_factory(MockFileFactoryMimeType.JPEG)
+    byte_data = Path(mock_file).read_bytes()
+    # encode the byte data
+    base64_url = to_base64_url("image/jpeg", byte_data)
+    assert base64_url.startswith("data:image/jpeg;base64,")
+    # decode the base64 url
+    assert from_base64_url(base64_url) == byte_data
+def test_from_base64_url_invalid_format_no_data_prefix():
+    """Test that from_base64_url raises ValueError when input doesn't start with 'data:'"""
+    with pytest.raises(ValueError, match="Invalid base64 URL format"):
+        from_base64_url("not-a-data-url")
+def test_from_base64_url_invalid_format_no_comma():
+    """Test that from_base64_url raises ValueError when input doesn't contain a comma"""
+    with pytest.raises(ValueError, match="Invalid base64 URL format"):
+        from_base64_url("data:image/jpeg;base64")
+def test_from_base64_url_invalid_parts():
+    """Test that from_base64_url raises ValueError when splitting by comma doesn't result in exactly 2 parts"""
+    with pytest.raises(ValueError, match="Invalid base64 URL format"):
+        from_base64_url("data:image/jpeg;base64,part1,part2")
+def test_from_base64_url_base64_decode_failure():
+    """Test that from_base64_url raises ValueError when base64 decoding fails"""
+    with pytest.raises(ValueError, match="Failed to decode base64 data"):
+        from_base64_url("data:image/jpeg;base64,invalid-base64-data!")
+def test_from_base64_url_valid_format():
+    """Test that from_base64_url works with valid base64 URL format"""
+    # Create a simple valid base64 URL
+    test_data = b"Hello, World!"
+    base64_encoded = "SGVsbG8sIFdvcmxkIQ=="
+    base64_url = f"data:text/plain;base64,{base64_encoded}"
+    result = from_base64_url(base64_url)
+    assert result == test_data

kiln-ai 0.20.1__py3-none-any.whl → 0.22.0__py3-none-any.whl

Potentially problematic release.

kiln-ai 0.20.1py3-none-any.whl → 0.22.0py3-none-any.whl