PyPI - kiln-ai - Versions diffs - 0.8.1__py3-none-any.whl → 0.12.0__py3-none-any.whl - Mend

kiln-ai 0.8.1py3-none-any.whl → 0.12.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of kiln-ai might be problematic. Click here for more details.

Files changed (88) hide show

kiln_ai/adapters/__init__.py +7 -7
kiln_ai/adapters/adapter_registry.py +81 -10
kiln_ai/adapters/data_gen/data_gen_task.py +21 -3
kiln_ai/adapters/data_gen/test_data_gen_task.py +23 -3
kiln_ai/adapters/eval/base_eval.py +164 -0
kiln_ai/adapters/eval/eval_runner.py +267 -0
kiln_ai/adapters/eval/g_eval.py +367 -0
kiln_ai/adapters/eval/registry.py +16 -0
kiln_ai/adapters/eval/test_base_eval.py +324 -0
kiln_ai/adapters/eval/test_eval_runner.py +640 -0
kiln_ai/adapters/eval/test_g_eval.py +497 -0
kiln_ai/adapters/eval/test_g_eval_data.py +4 -0
kiln_ai/adapters/fine_tune/base_finetune.py +5 -1
kiln_ai/adapters/fine_tune/dataset_formatter.py +310 -65
kiln_ai/adapters/fine_tune/fireworks_finetune.py +47 -32
kiln_ai/adapters/fine_tune/openai_finetune.py +12 -11
kiln_ai/adapters/fine_tune/test_base_finetune.py +19 -0
kiln_ai/adapters/fine_tune/test_dataset_formatter.py +472 -129
kiln_ai/adapters/fine_tune/test_fireworks_tinetune.py +114 -22
kiln_ai/adapters/fine_tune/test_openai_finetune.py +125 -14
kiln_ai/adapters/ml_model_list.py +434 -93
kiln_ai/adapters/model_adapters/__init__.py +18 -0
kiln_ai/adapters/model_adapters/base_adapter.py +250 -0
kiln_ai/adapters/model_adapters/langchain_adapters.py +309 -0
kiln_ai/adapters/model_adapters/openai_compatible_config.py +10 -0
kiln_ai/adapters/model_adapters/openai_model_adapter.py +289 -0
kiln_ai/adapters/model_adapters/test_base_adapter.py +199 -0
kiln_ai/adapters/{test_langchain_adapter.py → model_adapters/test_langchain_adapter.py} +105 -97
kiln_ai/adapters/model_adapters/test_openai_model_adapter.py +216 -0
kiln_ai/adapters/{test_saving_adapter_results.py → model_adapters/test_saving_adapter_results.py} +80 -30
kiln_ai/adapters/{test_structured_output.py → model_adapters/test_structured_output.py} +125 -46
kiln_ai/adapters/ollama_tools.py +0 -1
kiln_ai/adapters/parsers/__init__.py +10 -0
kiln_ai/adapters/parsers/base_parser.py +12 -0
kiln_ai/adapters/parsers/json_parser.py +37 -0
kiln_ai/adapters/parsers/parser_registry.py +19 -0
kiln_ai/adapters/parsers/r1_parser.py +69 -0
kiln_ai/adapters/parsers/test_json_parser.py +81 -0
kiln_ai/adapters/parsers/test_parser_registry.py +32 -0
kiln_ai/adapters/parsers/test_r1_parser.py +144 -0
kiln_ai/adapters/prompt_builders.py +193 -49
kiln_ai/adapters/provider_tools.py +91 -36
kiln_ai/adapters/repair/repair_task.py +18 -19
kiln_ai/adapters/repair/test_repair_task.py +7 -7
kiln_ai/adapters/run_output.py +11 -0
kiln_ai/adapters/test_adapter_registry.py +177 -0
kiln_ai/adapters/test_generate_docs.py +69 -0
kiln_ai/adapters/test_ollama_tools.py +0 -1
kiln_ai/adapters/test_prompt_adaptors.py +25 -18
kiln_ai/adapters/test_prompt_builders.py +265 -44
kiln_ai/adapters/test_provider_tools.py +268 -46
kiln_ai/datamodel/__init__.py +51 -772
kiln_ai/datamodel/basemodel.py +31 -11
kiln_ai/datamodel/datamodel_enums.py +58 -0
kiln_ai/datamodel/dataset_filters.py +114 -0
kiln_ai/datamodel/dataset_split.py +170 -0
kiln_ai/datamodel/eval.py +298 -0
kiln_ai/datamodel/finetune.py +105 -0
kiln_ai/datamodel/json_schema.py +14 -3
kiln_ai/datamodel/model_cache.py +8 -3
kiln_ai/datamodel/project.py +23 -0
kiln_ai/datamodel/prompt.py +37 -0
kiln_ai/datamodel/prompt_id.py +83 -0
kiln_ai/datamodel/strict_mode.py +24 -0
kiln_ai/datamodel/task.py +181 -0
kiln_ai/datamodel/task_output.py +321 -0
kiln_ai/datamodel/task_run.py +164 -0
kiln_ai/datamodel/test_basemodel.py +80 -2
kiln_ai/datamodel/test_dataset_filters.py +71 -0
kiln_ai/datamodel/test_dataset_split.py +127 -6
kiln_ai/datamodel/test_datasource.py +3 -2
kiln_ai/datamodel/test_eval_model.py +635 -0
kiln_ai/datamodel/test_example_models.py +34 -17
kiln_ai/datamodel/test_json_schema.py +23 -0
kiln_ai/datamodel/test_model_cache.py +24 -0
kiln_ai/datamodel/test_model_perf.py +125 -0
kiln_ai/datamodel/test_models.py +131 -2
kiln_ai/datamodel/test_prompt_id.py +129 -0
kiln_ai/datamodel/test_task.py +159 -0
kiln_ai/utils/config.py +6 -1
kiln_ai/utils/exhaustive_error.py +6 -0
{kiln_ai-0.8.1.dist-info → kiln_ai-0.12.0.dist-info}/METADATA +45 -7
kiln_ai-0.12.0.dist-info/RECORD +100 -0
kiln_ai/adapters/base_adapter.py +0 -191
kiln_ai/adapters/langchain_adapters.py +0 -256
kiln_ai-0.8.1.dist-info/RECORD +0 -58
{kiln_ai-0.8.1.dist-info → kiln_ai-0.12.0.dist-info}/WHEEL +0 -0
{kiln_ai-0.8.1.dist-info → kiln_ai-0.12.0.dist-info}/licenses/LICENSE.txt +0 -0

kiln_ai/datamodel/test_basemodel.py CHANGED Viewed

@@ -6,12 +6,16 @@ from unittest.mock import MagicMock, patch
 import pytest
+from kiln_ai.adapters.model_adapters.base_adapter import BaseAdapter
+from kiln_ai.adapters.run_output import RunOutput
+from kiln_ai.datamodel import Task, TaskRun
 from kiln_ai.datamodel.basemodel import (
     KilnBaseModel,
     KilnParentedModel,
     string_to_valid_name,
 )
 from kiln_ai.datamodel.model_cache import ModelCache
+from kiln_ai.datamodel.task import RunConfig
 @pytest.fixture
@@ -356,7 +360,9 @@ def test_load_from_file_with_cache(test_base_file, tmp_model_cache):
     model = KilnBaseModel.load_from_file(test_base_file)
     # Check that the cache was checked and set
-    tmp_model_cache.get_model.assert_called_once_with(test_base_file, KilnBaseModel)
+    tmp_model_cache.get_model.assert_called_once_with(
+        test_base_file, KilnBaseModel, readonly=False
+    )
     tmp_model_cache.set_model.assert_called_once()
     # Ensure the model is correctly loaded
@@ -407,7 +413,9 @@ def test_load_from_file_with_cached_model(test_base_file, tmp_model_cache):
         model = KilnBaseModel.load_from_file(test_base_file)
         # Check that the cache was checked and the cached model was returned
-        tmp_model_cache.get_model.assert_called_once_with(test_base_file, KilnBaseModel)
+        tmp_model_cache.get_model.assert_called_once_with(
+            test_base_file, KilnBaseModel, readonly=False
+        )
         assert model is cached_model
         # Assert that open was not called (we used the cached model, not file)
@@ -469,3 +477,73 @@ def test_from_id_and_parent_path_without_parent():
     # Test with None parent_path
     not_found = DefaultParentedModel.from_id_and_parent_path("any-id", None)
     assert not_found is None
+class MockAdapter(BaseAdapter):
+    """Implementation of BaseAdapter for testing"""
+    async def _run(self, input):
+        return RunOutput(output="test output", intermediate_outputs=None)
+    def adapter_name(self) -> str:
+        return "test"
+@pytest.fixture
+def base_task():
+    return Task(name="test_task", instruction="test_instruction")
+@pytest.fixture
+def adapter(base_task):
+    return MockAdapter(
+        run_config=RunConfig(
+            task=base_task,
+            model_name="test_model",
+            model_provider_name="test_provider",
+            prompt_id="simple_prompt_builder",
+        ),
+    )
+async def test_invoke_parsing_flow(adapter):
+    # Mock dependencies
+    mock_provider = MagicMock()
+    mock_provider.parser = "test_parser"
+    mock_parser = MagicMock()
+    mock_parser.parse_output.return_value = RunOutput(
+        output="parsed test output", intermediate_outputs={"key": "value"}
+    )
+    mock_parser_class = MagicMock(return_value=mock_parser)
+    with (
+        patch.object(adapter, "model_provider", return_value=mock_provider),
+        patch(
+            "kiln_ai.adapters.model_adapters.base_adapter.model_parser_from_id",
+            return_value=mock_parser_class,
+        ),
+        patch("kiln_ai.adapters.model_adapters.base_adapter.Config") as mock_config,
+    ):
+        # Disable autosaving for this test
+        mock_config.shared.return_value.autosave_runs = False
+        mock_config.shared.return_value.user_id = "test_user_id"
+        # Execute
+        result = await adapter.invoke("test input")
+        # Verify parser was created correctly
+        mock_parser_class.assert_called_once_with(structured_output=False)
+        # Verify parsing occurred
+        mock_parser.parse_output.assert_called_once()
+        parsed_args = mock_parser.parse_output.call_args[1]
+        assert isinstance(parsed_args["original_output"], RunOutput)
+        assert parsed_args["original_output"].output == "test output"
+        # Verify result contains parsed output
+        assert isinstance(result, TaskRun)
+        assert result.output.output == "parsed test output"
+        assert result.intermediate_outputs == {"key": "value"}
+        assert result.input == "test input"

kiln_ai/datamodel/test_dataset_filters.py ADDED Viewed

@@ -0,0 +1,71 @@
+import pytest
+from pydantic import BaseModel
+from kiln_ai.datamodel.dataset_filters import (
+    AllDatasetFilter,
+    DatasetFilterId,
+    HighRatingDatasetFilter,
+    StaticDatasetFilters,
+    TagFilter,
+    ThinkingModelDatasetFilter,
+    ThinkingModelHighRatedFilter,
+    dataset_filter_from_id,
+)
+# Note: Many more filter tests in test_dataset_split.py
+def test_all_dataset_filter_from_id():
+    assert dataset_filter_from_id("all") == AllDatasetFilter
+def test_high_rating_dataset_filter_from_id():
+    assert dataset_filter_from_id("high_rating") == HighRatingDatasetFilter
+def test_thinking_model_dataset_filter_from_id():
+    assert dataset_filter_from_id("thinking_model") == ThinkingModelDatasetFilter
+def test_thinking_model_high_rated_dataset_filter_from_id():
+    assert (
+        dataset_filter_from_id("thinking_model_high_rated")
+        == ThinkingModelHighRatedFilter
+    )
+def test_all_static_dataset_filters():
+    for filter_id in StaticDatasetFilters:
+        assert dataset_filter_from_id(filter_id) is not None
+class ModelTester(BaseModel):
+    dsid: DatasetFilterId
+@pytest.mark.parametrize(
+    "tag,expected_error,expected_tag",
+    [
+        ("tag::test", False, "test"),
+        ("tag::other", False, "other"),
+        ("tag::", True, None),
+        ("tag", True, None),
+        ("", True, None),
+    ],
+)
+def test_tag_filter(tag, expected_error, expected_tag):
+    # Check our model validators
+    if expected_error:
+        with pytest.raises(ValueError):
+            ModelTester(dsid=tag)
+    else:
+        ModelTester(dsid=tag)
+    # Check the constructor
+    if expected_tag is None:
+        with pytest.raises(ValueError, match="Invalid dataset filter ID:"):
+            dataset_filter_from_id(tag)
+    else:
+        filter = dataset_filter_from_id(tag)
+        assert isinstance(filter, TagFilter)
+        assert filter.tag == expected_tag

kiln_ai/datamodel/test_dataset_split.py CHANGED Viewed

@@ -3,21 +3,28 @@ from pydantic import ValidationError
 # import datamodel first or we get circular import errors
 from kiln_ai.datamodel import (
-    AllDatasetFilter,
-    AllSplitDefinition,
     DatasetSplit,
     DatasetSplitDefinition,
     DataSource,
     DataSourceType,
-    HighRatingDatasetFilter,
     Task,
     TaskOutput,
     TaskOutputRating,
     TaskOutputRatingType,
     TaskRun,
+)
+from kiln_ai.datamodel.dataset_split import (
+    AllSplitDefinition,
     Train60Test20Val20SplitDefinition,
     Train80Test20SplitDefinition,
 )
+from kiln_ai.datamodel.test_dataset_filters import (
+    AllDatasetFilter,
+    HighRatingDatasetFilter,
+    TagFilter,
+    ThinkingModelDatasetFilter,
+    ThinkingModelHighRatedFilter,
+)
 @pytest.fixture
@@ -39,6 +46,7 @@ def sample_task_runs(sample_task):
     task_runs = []
     for i in range(10):
         rating = 5 if i < 6 else 1  # 6 high, 4 low ratings
+        tags = ["tag1"] if i < 6 else []
         task_run = TaskRun(
             parent=sample_task,
             input=f"input_{i}",
@@ -56,6 +64,7 @@ def sample_task_runs(sample_task):
                     value=rating, type=TaskOutputRatingType.five_star
                 ),
             ),
+            tags=tags,
         )
         task_run.save_to_file()
         task_runs.append(task_run)
@@ -131,10 +140,33 @@ def test_all_dataset_filter(task_run):
 def test_high_rating_dataset_filter(sample_task_runs):
+    num_high_quality = 0
+    num_low_quality = 0
     for task_run in sample_task_runs:
-        assert HighRatingDatasetFilter(task_run) is (
-            task_run.output.rating.is_high_quality()
+        if HighRatingDatasetFilter(task_run):
+            num_high_quality += 1
+            assert task_run.output.rating.is_high_quality() is True
+        else:
+            num_low_quality += 1
+            assert task_run.output.rating.is_high_quality() is False
+        # Test repaired output always considered high quality
+        task_run = task_run.model_copy(
+            update={
+                "repair_instructions": "repair instructions",
+                "repaired_output": TaskOutput(
+                    output="repaired output",
+                    source=DataSource(
+                        type=DataSourceType.human,
+                        properties={"created_by": "test-user"},
+                    ),
+                ),
+            }
         )
+        assert HighRatingDatasetFilter(task_run) is True
+    assert num_high_quality == 6
+    assert num_low_quality == 4
 @pytest.mark.parametrize(
@@ -173,9 +205,11 @@ def test_dataset_split_with_high_rating_filter(sample_task, sample_task_runs):
         "Split Name",
         sample_task,
         Train80Test20SplitDefinition,
-        filter=HighRatingDatasetFilter,
+        filter_id="high_rating",
     )
+    assert dataset.filter == "high_rating"
     # Check that only high-rated task runs are included
     all_ids = []
     for ids in dataset.split_contents.values():
@@ -232,3 +266,90 @@ def test_smaller_sample(sample_task, sample_task_runs):
     # Now we should have 0 missing runs. It's okay that dataset has newer data.
     assert dataset.missing_count() == 0
+@pytest.mark.parametrize(
+    "thinking_data,expected_result",
+    [
+        ({"reasoning": "Here's my answer"}, True),
+        ({"chain_of_thought": "Here's my answer"}, True),
+        ({"unknown": "Here's my answer"}, False),
+        ({}, False),
+        (None, False),
+    ],
+)
+def test_thinking_model_dataset_filter(
+    sample_task_runs, thinking_data, expected_result
+):
+    # Create a task run with thinking output
+    task_run = sample_task_runs[0].model_copy(
+        update={
+            "output": TaskOutput(
+                output="Let me think about this...\nHere's my answer",
+                source=DataSource(
+                    type=DataSourceType.human,
+                    properties={"created_by": "test-user"},
+                ),
+                rating=TaskOutputRating(value=5, type=TaskOutputRatingType.five_star),
+            ),
+            "intermediate_outputs": thinking_data,
+        }
+    )
+    assert ThinkingModelDatasetFilter(task_run) is expected_result
+@pytest.mark.parametrize(
+    "thinking_data,rating,expected_result",
+    [
+        ({"reasoning": "Here's my answer"}, 5, True),
+        ({"chain_of_thought": "Here's my answer"}, 5, True),
+        ({"unknown": "Here's my answer"}, 5, False),
+        ({}, 5, False),
+        (None, 5, False),
+        ({"reasoning": "Here's my answer"}, 1, False),
+        ({"chain_of_thought": "Here's my answer"}, 1, False),
+        ({"unknown": "Here's my answer"}, 1, False),
+        ({}, 1, False),
+        (None, 1, False),
+    ],
+)
+def test_thinking_model_dataset_filter_high_rated(
+    sample_task_runs, thinking_data, rating, expected_result
+):
+    # Create a task run with thinking output
+    task_run = sample_task_runs[0].model_copy(
+        update={
+            "output": TaskOutput(
+                output="Let me think about this...\nHere's my answer",
+                source=DataSource(
+                    type=DataSourceType.human,
+                    properties={"created_by": "test-user"},
+                ),
+                rating=TaskOutputRating(
+                    value=rating, type=TaskOutputRatingType.five_star
+                ),
+            ),
+            "intermediate_outputs": thinking_data,
+        }
+    )
+    assert ThinkingModelHighRatedFilter(task_run) is expected_result
+def test_tag_dataset_filter(sample_task_runs):
+    num_tagged = 0
+    num_untagged = 0
+    filter = TagFilter("tag1")
+    for task_run in sample_task_runs:
+        if "tag1" in task_run.tags:
+            num_tagged += 1
+            assert "tag1" in task_run.tags
+            assert filter(task_run) is True
+        else:
+            num_untagged += 1
+            assert "tag1" not in task_run.tags
+            assert filter(task_run) is False
+    assert num_tagged == 6
+    assert num_untagged == 4

kiln_ai/datamodel/test_datasource.py CHANGED Viewed

@@ -18,14 +18,14 @@ def test_valid_synthetic_data_source():
         properties={
             "model_name": "GPT-4",
             "model_provider": "OpenAI",
-            "prompt_builder_name": "completion",
+            "prompt_id": "simple_prompt_builder",
             "adapter_name": "langchain",
         },
     )
     assert data_source.type == DataSourceType.synthetic
     assert data_source.properties["model_name"] == "GPT-4"
     assert data_source.properties["model_provider"] == "OpenAI"
-    assert data_source.properties["prompt_builder_name"] == "completion"
+    assert data_source.properties["prompt_id"] == "simple_prompt_builder"
     assert data_source.properties["adapter_name"] == "langchain"
@@ -85,6 +85,7 @@ def test_prompt_type_optional_for_synthetic():
         },
     )
     assert "prompt_builder_name" not in data_source.properties
+    assert "prompt_id" not in data_source.properties
 def test_private_data_source_properties_not_serialized():

kiln-ai 0.8.1__py3-none-any.whl → 0.12.0__py3-none-any.whl

Potentially problematic release.

kiln-ai 0.8.1py3-none-any.whl → 0.12.0py3-none-any.whl