PyPI - kiln-ai - Versions diffs - 0.20.1__py3-none-any.whl → 0.22.0__py3-none-any.whl - Mend

kiln-ai 0.20.1py3-none-any.whl → 0.22.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of kiln-ai might be problematic. Click here for more details.

Files changed (133) hide show

kiln_ai/adapters/__init__.py +6 -0
kiln_ai/adapters/adapter_registry.py +43 -226
kiln_ai/adapters/chunkers/__init__.py +13 -0
kiln_ai/adapters/chunkers/base_chunker.py +42 -0
kiln_ai/adapters/chunkers/chunker_registry.py +16 -0
kiln_ai/adapters/chunkers/fixed_window_chunker.py +39 -0
kiln_ai/adapters/chunkers/helpers.py +23 -0
kiln_ai/adapters/chunkers/test_base_chunker.py +63 -0
kiln_ai/adapters/chunkers/test_chunker_registry.py +28 -0
kiln_ai/adapters/chunkers/test_fixed_window_chunker.py +346 -0
kiln_ai/adapters/chunkers/test_helpers.py +75 -0
kiln_ai/adapters/data_gen/test_data_gen_task.py +9 -3
kiln_ai/adapters/embedding/__init__.py +0 -0
kiln_ai/adapters/embedding/base_embedding_adapter.py +44 -0
kiln_ai/adapters/embedding/embedding_registry.py +32 -0
kiln_ai/adapters/embedding/litellm_embedding_adapter.py +199 -0
kiln_ai/adapters/embedding/test_base_embedding_adapter.py +283 -0
kiln_ai/adapters/embedding/test_embedding_registry.py +166 -0
kiln_ai/adapters/embedding/test_litellm_embedding_adapter.py +1149 -0
kiln_ai/adapters/eval/eval_runner.py +6 -2
kiln_ai/adapters/eval/test_base_eval.py +1 -3
kiln_ai/adapters/eval/test_g_eval.py +1 -1
kiln_ai/adapters/extractors/__init__.py +18 -0
kiln_ai/adapters/extractors/base_extractor.py +72 -0
kiln_ai/adapters/extractors/encoding.py +20 -0
kiln_ai/adapters/extractors/extractor_registry.py +44 -0
kiln_ai/adapters/extractors/extractor_runner.py +112 -0
kiln_ai/adapters/extractors/litellm_extractor.py +406 -0
kiln_ai/adapters/extractors/test_base_extractor.py +244 -0
kiln_ai/adapters/extractors/test_encoding.py +54 -0
kiln_ai/adapters/extractors/test_extractor_registry.py +181 -0
kiln_ai/adapters/extractors/test_extractor_runner.py +181 -0
kiln_ai/adapters/extractors/test_litellm_extractor.py +1290 -0
kiln_ai/adapters/fine_tune/test_dataset_formatter.py +2 -2
kiln_ai/adapters/fine_tune/test_fireworks_tinetune.py +2 -6
kiln_ai/adapters/fine_tune/test_together_finetune.py +2 -6
kiln_ai/adapters/ml_embedding_model_list.py +494 -0
kiln_ai/adapters/ml_model_list.py +876 -18
kiln_ai/adapters/model_adapters/litellm_adapter.py +40 -75
kiln_ai/adapters/model_adapters/test_litellm_adapter.py +79 -1
kiln_ai/adapters/model_adapters/test_litellm_adapter_tools.py +119 -5
kiln_ai/adapters/model_adapters/test_saving_adapter_results.py +9 -3
kiln_ai/adapters/model_adapters/test_structured_output.py +9 -10
kiln_ai/adapters/ollama_tools.py +69 -12
kiln_ai/adapters/provider_tools.py +190 -46
kiln_ai/adapters/rag/deduplication.py +49 -0
kiln_ai/adapters/rag/progress.py +252 -0
kiln_ai/adapters/rag/rag_runners.py +844 -0
kiln_ai/adapters/rag/test_deduplication.py +195 -0
kiln_ai/adapters/rag/test_progress.py +785 -0
kiln_ai/adapters/rag/test_rag_runners.py +2376 -0
kiln_ai/adapters/remote_config.py +80 -8
kiln_ai/adapters/test_adapter_registry.py +579 -86
kiln_ai/adapters/test_ml_embedding_model_list.py +239 -0
kiln_ai/adapters/test_ml_model_list.py +202 -0
kiln_ai/adapters/test_ollama_tools.py +340 -1
kiln_ai/adapters/test_prompt_builders.py +1 -1
kiln_ai/adapters/test_provider_tools.py +199 -8
kiln_ai/adapters/test_remote_config.py +551 -56
kiln_ai/adapters/vector_store/__init__.py +1 -0
kiln_ai/adapters/vector_store/base_vector_store_adapter.py +83 -0
kiln_ai/adapters/vector_store/lancedb_adapter.py +389 -0
kiln_ai/adapters/vector_store/test_base_vector_store.py +160 -0
kiln_ai/adapters/vector_store/test_lancedb_adapter.py +1841 -0
kiln_ai/adapters/vector_store/test_vector_store_registry.py +199 -0
kiln_ai/adapters/vector_store/vector_store_registry.py +33 -0
kiln_ai/datamodel/__init__.py +16 -13
kiln_ai/datamodel/basemodel.py +201 -4
kiln_ai/datamodel/chunk.py +158 -0
kiln_ai/datamodel/datamodel_enums.py +27 -0
kiln_ai/datamodel/embedding.py +64 -0
kiln_ai/datamodel/external_tool_server.py +206 -54
kiln_ai/datamodel/extraction.py +317 -0
kiln_ai/datamodel/project.py +33 -1
kiln_ai/datamodel/rag.py +79 -0
kiln_ai/datamodel/task.py +5 -0
kiln_ai/datamodel/task_output.py +41 -11
kiln_ai/datamodel/test_attachment.py +649 -0
kiln_ai/datamodel/test_basemodel.py +270 -14
kiln_ai/datamodel/test_chunk_models.py +317 -0
kiln_ai/datamodel/test_dataset_split.py +1 -1
kiln_ai/datamodel/test_datasource.py +50 -0
kiln_ai/datamodel/test_embedding_models.py +448 -0
kiln_ai/datamodel/test_eval_model.py +6 -6
kiln_ai/datamodel/test_external_tool_server.py +534 -152
kiln_ai/datamodel/test_extraction_chunk.py +206 -0
kiln_ai/datamodel/test_extraction_model.py +501 -0
kiln_ai/datamodel/test_rag.py +641 -0
kiln_ai/datamodel/test_task.py +35 -1
kiln_ai/datamodel/test_tool_id.py +187 -1
kiln_ai/datamodel/test_vector_store.py +320 -0
kiln_ai/datamodel/tool_id.py +58 -0
kiln_ai/datamodel/vector_store.py +141 -0
kiln_ai/tools/base_tool.py +12 -3
kiln_ai/tools/built_in_tools/math_tools.py +12 -4
kiln_ai/tools/kiln_task_tool.py +158 -0
kiln_ai/tools/mcp_server_tool.py +2 -2
kiln_ai/tools/mcp_session_manager.py +51 -22
kiln_ai/tools/rag_tools.py +164 -0
kiln_ai/tools/test_kiln_task_tool.py +527 -0
kiln_ai/tools/test_mcp_server_tool.py +4 -15
kiln_ai/tools/test_mcp_session_manager.py +187 -227
kiln_ai/tools/test_rag_tools.py +929 -0
kiln_ai/tools/test_tool_registry.py +290 -7
kiln_ai/tools/tool_registry.py +69 -16
kiln_ai/utils/__init__.py +3 -0
kiln_ai/utils/async_job_runner.py +62 -17
kiln_ai/utils/config.py +2 -2
kiln_ai/utils/env.py +15 -0
kiln_ai/utils/filesystem.py +14 -0
kiln_ai/utils/filesystem_cache.py +60 -0
kiln_ai/utils/litellm.py +94 -0
kiln_ai/utils/lock.py +100 -0
kiln_ai/utils/mime_type.py +38 -0
kiln_ai/utils/open_ai_types.py +19 -2
kiln_ai/utils/pdf_utils.py +59 -0
kiln_ai/utils/test_async_job_runner.py +151 -35
kiln_ai/utils/test_env.py +142 -0
kiln_ai/utils/test_filesystem_cache.py +316 -0
kiln_ai/utils/test_litellm.py +206 -0
kiln_ai/utils/test_lock.py +185 -0
kiln_ai/utils/test_mime_type.py +66 -0
kiln_ai/utils/test_open_ai_types.py +88 -12
kiln_ai/utils/test_pdf_utils.py +86 -0
kiln_ai/utils/test_uuid.py +111 -0
kiln_ai/utils/test_validation.py +524 -0
kiln_ai/utils/uuid.py +9 -0
kiln_ai/utils/validation.py +90 -0
{kiln_ai-0.20.1.dist-info → kiln_ai-0.22.0.dist-info}/METADATA +9 -1
kiln_ai-0.22.0.dist-info/RECORD +213 -0
kiln_ai-0.20.1.dist-info/RECORD +0 -138
{kiln_ai-0.20.1.dist-info → kiln_ai-0.22.0.dist-info}/WHEEL +0 -0
{kiln_ai-0.20.1.dist-info → kiln_ai-0.22.0.dist-info}/licenses/LICENSE.txt +0 -0

kiln_ai/adapters/eval/eval_runner.py CHANGED Viewed

@@ -160,8 +160,12 @@ class EvalRunner:
         """
         jobs = self.collect_tasks()
-        runner = AsyncJobRunner(concurrency=concurrency)
-        async for progress in runner.run(jobs, self.run_job):
+        runner = AsyncJobRunner(
+            concurrency=concurrency,
+            jobs=jobs,
+            run_job_fn=self.run_job,
+        )
+        async for progress in runner.run():
             yield progress
     async def run_job(self, job: EvalJob) -> bool:

kiln_ai/adapters/eval/test_base_eval.py CHANGED Viewed

@@ -307,9 +307,7 @@ async def test_run_method():
     evaluator = EvalTester(eval_config, run_config.run_config())
     # Run the evaluation
-    task_run, eval_scores, intermediate_outputs = await evaluator.run_task_and_eval(
-        "test input"
-    )
+    task_run, eval_scores, _ = await evaluator.run_task_and_eval("test input")
     # Verify task run was created
     assert task_run.input == "test input"

kiln_ai/adapters/eval/test_g_eval.py CHANGED Viewed

@@ -188,7 +188,7 @@ async def test_run_g_eval_e2e(
     g_eval = GEval(test_eval_config, test_run_config)
     # Run the evaluation
-    task_run, scores, intermediate_outputs = await g_eval.run_task_and_eval("chickens")
+    _, scores, intermediate_outputs = await g_eval.run_task_and_eval("chickens")
     # Verify the evaluation results
     assert isinstance(scores, dict)

kiln_ai/adapters/extractors/__init__.py ADDED Viewed

@@ -0,0 +1,18 @@
+"""
+File extractors for processing different document types.
+This package provides a framework for extracting content from files
+using different extraction methods.
+"""
+from . import base_extractor, extractor_registry, extractor_runner, litellm_extractor
+from .base_extractor import ExtractionInput, ExtractionOutput
+__all__ = [
+    "ExtractionInput",
+    "ExtractionOutput",
+    "base_extractor",
+    "extractor_registry",
+    "extractor_runner",
+    "litellm_extractor",
+]

kiln_ai/adapters/extractors/base_extractor.py ADDED Viewed

@@ -0,0 +1,72 @@
+import logging
+from abc import ABC, abstractmethod
+from pathlib import Path
+from pydantic import BaseModel, Field
+from kiln_ai.datamodel.extraction import ExtractorConfig, OutputFormat
+logger = logging.getLogger(__name__)
+class ExtractionInput(BaseModel):
+    path: Path | str = Field(description="The absolute path to the file to extract.")
+    mime_type: str = Field(description="The mime type of the file.")
+class ExtractionOutput(BaseModel):
+    """
+    The output of an extraction. This is the data that will be saved to the data store.
+    """
+    is_passthrough: bool = Field(
+        default=False, description="Whether the extractor returned the file as is."
+    )
+    content_format: OutputFormat = Field(
+        description="The format of the extracted data."
+    )
+    content: str = Field(description="The extracted data.")
+class BaseExtractor(ABC):
+    """
+    Base class for all extractors.
+    Should be subclassed by each extractor.
+    """
+    def __init__(self, extractor_config: ExtractorConfig):
+        self.extractor_config = extractor_config
+    @abstractmethod
+    async def _extract(self, extraction_input: ExtractionInput) -> ExtractionOutput:
+        pass
+    async def extract(
+        self,
+        extraction_input: ExtractionInput,
+    ) -> ExtractionOutput:
+        """
+        Extracts content from a file by delegating to the concrete extractor implementation.
+        """
+        try:
+            if self._should_passthrough(extraction_input.mime_type):
+                return ExtractionOutput(
+                    is_passthrough=True,
+                    content=Path(extraction_input.path).read_text(encoding="utf-8"),
+                    content_format=self.extractor_config.output_format,
+                )
+            return await self._extract(
+                extraction_input,
+            )
+        except Exception as e:
+            raise ValueError(f"Error extracting {extraction_input.path}: {e}") from e
+    def _should_passthrough(self, mime_type: str) -> bool:
+        return mime_type.lower() in {
+            mt.lower() for mt in self.extractor_config.passthrough_mimetypes
+        }
+    def output_format(self) -> OutputFormat:
+        return self.extractor_config.output_format

kiln_ai/adapters/extractors/encoding.py ADDED Viewed

@@ -0,0 +1,20 @@
+import base64
+def to_base64_url(mime_type: str, bytes: bytes) -> str:
+    base64_url = f"data:{mime_type};base64,{base64.b64encode(bytes).decode('utf-8')}"
+    return base64_url
+def from_base64_url(base64_url: str) -> bytes:
+    if not base64_url.startswith("data:") or "," not in base64_url:
+        raise ValueError("Invalid base64 URL format")
+    parts = base64_url.split(",")
+    if len(parts) != 2:
+        raise ValueError("Invalid base64 URL format")
+    try:
+        return base64.b64decode(parts[1])
+    except Exception as e:
+        raise ValueError(f"Failed to decode base64 data: {e}")

kiln_ai/adapters/extractors/extractor_registry.py ADDED Viewed

@@ -0,0 +1,44 @@
+from kiln_ai.adapters.extractors.base_extractor import BaseExtractor
+from kiln_ai.adapters.extractors.litellm_extractor import LitellmExtractor
+from kiln_ai.adapters.ml_model_list import ModelProviderName
+from kiln_ai.adapters.provider_tools import (
+    core_provider,
+    lite_llm_core_config_for_provider,
+)
+from kiln_ai.datamodel.extraction import ExtractorConfig, ExtractorType
+from kiln_ai.utils.exhaustive_error import raise_exhaustive_enum_error
+from kiln_ai.utils.filesystem_cache import FilesystemCache
+def extractor_adapter_from_type(
+    extractor_type: ExtractorType,
+    extractor_config: ExtractorConfig,
+    filesystem_cache: FilesystemCache | None = None,
+) -> BaseExtractor:
+    match extractor_type:
+        case ExtractorType.LITELLM:
+            try:
+                provider_enum = ModelProviderName(extractor_config.model_provider_name)
+            except ValueError:
+                raise ValueError(
+                    f"Unsupported model provider name: {extractor_config.model_provider_name}. "
+                )
+            core_provider_name = core_provider(
+                extractor_config.model_name, provider_enum
+            )
+            provider_config = lite_llm_core_config_for_provider(core_provider_name)
+            if provider_config is None:
+                raise ValueError(
+                    f"No configuration found for core provider: {core_provider_name.value}. "
+                )
+            return LitellmExtractor(
+                extractor_config,
+                provider_config,
+                filesystem_cache,
+            )
+        case _:
+            # type checking will catch missing cases
+            raise_exhaustive_enum_error(extractor_type)

kiln_ai/adapters/extractors/extractor_runner.py ADDED Viewed

@@ -0,0 +1,112 @@
+import logging
+from collections import defaultdict
+from dataclasses import dataclass
+from pathlib import Path
+from typing import AsyncGenerator, Dict, List, Set
+from kiln_ai.adapters.extractors.base_extractor import BaseExtractor, ExtractionInput
+from kiln_ai.adapters.extractors.extractor_registry import extractor_adapter_from_type
+from kiln_ai.datamodel.basemodel import ID_TYPE, KilnAttachmentModel
+from kiln_ai.datamodel.extraction import (
+    Document,
+    Extraction,
+    ExtractionSource,
+    ExtractorConfig,
+)
+from kiln_ai.utils.async_job_runner import AsyncJobRunner, Progress
+logger = logging.getLogger(__name__)
+@dataclass
+class ExtractorJob:
+    doc: Document
+    extractor_config: ExtractorConfig
+class ExtractorRunner:
+    def __init__(
+        self,
+        documents: List[Document],
+        extractor_configs: List[ExtractorConfig],
+    ):
+        if len(extractor_configs) == 0:
+            raise ValueError("Extractor runner requires at least one extractor config")
+        self.documents = documents
+        self.extractor_configs = extractor_configs
+    def collect_jobs(self) -> List[ExtractorJob]:
+        jobs = []
+        # we want to avoid re-running the same document for the same extractor config
+        already_extracted: Dict[ID_TYPE, Set[ID_TYPE]] = defaultdict(set)
+        for document in self.documents:
+            for extraction in document.extractions():
+                already_extracted[extraction.extractor_config_id].add(document.id)
+        for extractor_config in self.extractor_configs:
+            for document in self.documents:
+                if document.id not in already_extracted[extractor_config.id]:
+                    jobs.append(
+                        ExtractorJob(
+                            doc=document,
+                            extractor_config=extractor_config,
+                        )
+                    )
+        return jobs
+    async def run(self, concurrency: int = 25) -> AsyncGenerator[Progress, None]:
+        jobs = self.collect_jobs()
+        runner = AsyncJobRunner(
+            concurrency=concurrency,
+            jobs=jobs,
+            run_job_fn=self.run_job,
+        )
+        async for progress in runner.run():
+            yield progress
+    async def run_job(self, job: ExtractorJob) -> bool:
+        try:
+            extractor = extractor_adapter_from_type(
+                job.extractor_config.extractor_type,
+                job.extractor_config,
+            )
+            if not isinstance(extractor, BaseExtractor):
+                raise ValueError("Not able to create extractor from extractor config")
+            if job.doc.path is None:
+                raise ValueError("Document path is not set")
+            output = await extractor.extract(
+                extraction_input=ExtractionInput(
+                    path=Path(
+                        job.doc.original_file.attachment.resolve_path(
+                            job.doc.path.parent
+                        )
+                    ),
+                    mime_type=job.doc.original_file.mime_type,
+                )
+            )
+            extraction = Extraction(
+                parent=job.doc,
+                extractor_config_id=job.extractor_config.id,
+                output=KilnAttachmentModel.from_data(
+                    data=output.content,
+                    mime_type=output.content_format,
+                ),
+                source=ExtractionSource.PASSTHROUGH
+                if output.is_passthrough
+                else ExtractionSource.PROCESSED,
+            )
+            extraction.save_to_file()
+            return True
+        except Exception as e:
+            logger.error(
+                f"Error running extraction job for dataset item {job.doc.id}: {e}"
+            )
+            return False

kiln-ai 0.20.1__py3-none-any.whl → 0.22.0__py3-none-any.whl

Potentially problematic release.

kiln-ai 0.20.1py3-none-any.whl → 0.22.0py3-none-any.whl