PyPI - kiln-ai - Versions diffs - 0.11.1__py3-none-any.whl → 0.13.0__py3-none-any.whl - Mend

kiln-ai 0.11.1py3-none-any.whl → 0.13.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of kiln-ai might be problematic. Click here for more details.

Files changed (80) hide show

kiln_ai/adapters/__init__.py +4 -0
kiln_ai/adapters/adapter_registry.py +163 -39
kiln_ai/adapters/data_gen/data_gen_task.py +18 -0
kiln_ai/adapters/eval/__init__.py +28 -0
kiln_ai/adapters/eval/base_eval.py +164 -0
kiln_ai/adapters/eval/eval_runner.py +270 -0
kiln_ai/adapters/eval/g_eval.py +368 -0
kiln_ai/adapters/eval/registry.py +16 -0
kiln_ai/adapters/eval/test_base_eval.py +325 -0
kiln_ai/adapters/eval/test_eval_runner.py +641 -0
kiln_ai/adapters/eval/test_g_eval.py +498 -0
kiln_ai/adapters/eval/test_g_eval_data.py +4 -0
kiln_ai/adapters/fine_tune/base_finetune.py +16 -2
kiln_ai/adapters/fine_tune/finetune_registry.py +2 -0
kiln_ai/adapters/fine_tune/test_dataset_formatter.py +4 -1
kiln_ai/adapters/fine_tune/test_fireworks_tinetune.py +1 -1
kiln_ai/adapters/fine_tune/test_openai_finetune.py +1 -1
kiln_ai/adapters/fine_tune/test_together_finetune.py +531 -0
kiln_ai/adapters/fine_tune/together_finetune.py +325 -0
kiln_ai/adapters/ml_model_list.py +758 -163
kiln_ai/adapters/model_adapters/__init__.py +2 -4
kiln_ai/adapters/model_adapters/base_adapter.py +61 -43
kiln_ai/adapters/model_adapters/litellm_adapter.py +391 -0
kiln_ai/adapters/model_adapters/litellm_config.py +13 -0
kiln_ai/adapters/model_adapters/test_base_adapter.py +22 -13
kiln_ai/adapters/model_adapters/test_litellm_adapter.py +407 -0
kiln_ai/adapters/model_adapters/test_saving_adapter_results.py +41 -19
kiln_ai/adapters/model_adapters/test_structured_output.py +59 -35
kiln_ai/adapters/ollama_tools.py +3 -3
kiln_ai/adapters/parsers/r1_parser.py +19 -14
kiln_ai/adapters/parsers/test_r1_parser.py +17 -5
kiln_ai/adapters/prompt_builders.py +80 -42
kiln_ai/adapters/provider_tools.py +50 -58
kiln_ai/adapters/repair/repair_task.py +9 -21
kiln_ai/adapters/repair/test_repair_task.py +6 -6
kiln_ai/adapters/run_output.py +3 -0
kiln_ai/adapters/test_adapter_registry.py +26 -29
kiln_ai/adapters/test_generate_docs.py +4 -4
kiln_ai/adapters/test_ollama_tools.py +0 -1
kiln_ai/adapters/test_prompt_adaptors.py +47 -33
kiln_ai/adapters/test_prompt_builders.py +91 -31
kiln_ai/adapters/test_provider_tools.py +26 -81
kiln_ai/datamodel/__init__.py +50 -952
kiln_ai/datamodel/basemodel.py +2 -0
kiln_ai/datamodel/datamodel_enums.py +60 -0
kiln_ai/datamodel/dataset_filters.py +114 -0
kiln_ai/datamodel/dataset_split.py +170 -0
kiln_ai/datamodel/eval.py +298 -0
kiln_ai/datamodel/finetune.py +105 -0
kiln_ai/datamodel/json_schema.py +7 -1
kiln_ai/datamodel/project.py +23 -0
kiln_ai/datamodel/prompt.py +37 -0
kiln_ai/datamodel/prompt_id.py +83 -0
kiln_ai/datamodel/strict_mode.py +24 -0
kiln_ai/datamodel/task.py +181 -0
kiln_ai/datamodel/task_output.py +328 -0
kiln_ai/datamodel/task_run.py +164 -0
kiln_ai/datamodel/test_basemodel.py +19 -11
kiln_ai/datamodel/test_dataset_filters.py +71 -0
kiln_ai/datamodel/test_dataset_split.py +32 -8
kiln_ai/datamodel/test_datasource.py +22 -2
kiln_ai/datamodel/test_eval_model.py +635 -0
kiln_ai/datamodel/test_example_models.py +9 -13
kiln_ai/datamodel/test_json_schema.py +23 -0
kiln_ai/datamodel/test_models.py +2 -2
kiln_ai/datamodel/test_prompt_id.py +129 -0
kiln_ai/datamodel/test_task.py +159 -0
kiln_ai/utils/config.py +43 -1
kiln_ai/utils/dataset_import.py +232 -0
kiln_ai/utils/test_dataset_import.py +596 -0
{kiln_ai-0.11.1.dist-info → kiln_ai-0.13.0.dist-info}/METADATA +86 -6
kiln_ai-0.13.0.dist-info/RECORD +103 -0
kiln_ai/adapters/model_adapters/langchain_adapters.py +0 -302
kiln_ai/adapters/model_adapters/openai_compatible_config.py +0 -11
kiln_ai/adapters/model_adapters/openai_model_adapter.py +0 -246
kiln_ai/adapters/model_adapters/test_langchain_adapter.py +0 -350
kiln_ai/adapters/model_adapters/test_openai_model_adapter.py +0 -225
kiln_ai-0.11.1.dist-info/RECORD +0 -76
{kiln_ai-0.11.1.dist-info → kiln_ai-0.13.0.dist-info}/WHEEL +0 -0
{kiln_ai-0.11.1.dist-info → kiln_ai-0.13.0.dist-info}/licenses/LICENSE.txt +0 -0

kiln_ai/adapters/eval/test_base_eval.py ADDED Viewed

@@ -0,0 +1,325 @@
+import json
+import pytest
+from kiln_ai.adapters.eval.base_eval import BaseEval
+from kiln_ai.datamodel import BasePrompt, DataSource, DataSourceType
+from kiln_ai.datamodel.eval import Eval, EvalConfig, EvalOutputScore
+from kiln_ai.datamodel.task import (
+    RunConfigProperties,
+    Task,
+    TaskOutputRatingType,
+    TaskRequirement,
+    TaskRunConfig,
+)
+def test_score_schema_five_star():
+    # Create an eval with a five-star score
+    eval = Eval(
+        name="Test Eval",
+        eval_set_filter_id="tag::tag1",
+        eval_configs_filter_id="tag::tag2",
+        output_scores=[
+            EvalOutputScore(
+                name="Quality Score",
+                instruction="Rate the quality",
+                type=TaskOutputRatingType.five_star,
+            ),
+            EvalOutputScore(
+                name="Overall Rating",
+                instruction="The overall rating for the task output",
+                type=TaskOutputRatingType.five_star,
+            ),
+        ],
+    )
+    schema_str = BaseEval.build_score_schema(eval)
+    schema = json.loads(schema_str)
+    # Check basic schema structure
+    assert schema["type"] == "object"
+    assert schema["required"] == ["quality_score", "overall_rating"]
+    # Check score property, and that it's an enum of 1-5
+    score_prop = schema["properties"]["quality_score"]
+    assert score_prop["enum"] == [1, 2, 3, 4, 5]
+    assert "Quality Score" in score_prop["title"]
+    assert "Rate the quality" in score_prop["description"]
+    assert "between 1 and 5" in score_prop["description"]
+    # Check overall rating property, and that it's an enum of 1-5
+    assert "overall_rating" in schema["properties"]
+    overall = schema["properties"]["overall_rating"]
+    assert overall["enum"] == [1, 2, 3, 4, 5]
+    assert "Overall Rating" in overall["title"]
+    assert "The overall rating for the task output" in overall["description"]
+    assert "between 1 and 5" in overall["description"]
+def test_score_schema_five_star_float():
+    # Create an eval with a five-star score
+    eval = Eval(
+        name="Test Eval",
+        eval_set_filter_id="tag::tag1",
+        eval_configs_filter_id="tag::tag2",
+        output_scores=[
+            EvalOutputScore(
+                name="Quality Score",
+                instruction="Rate the quality",
+                type=TaskOutputRatingType.five_star,
+            ),
+            EvalOutputScore(
+                name="Overall Rating",
+                instruction="The overall rating for the task output",
+                type=TaskOutputRatingType.five_star,
+            ),
+        ],
+    )
+    schema_str = BaseEval.build_score_schema(eval, allow_float_scores=True)
+    schema = json.loads(schema_str)
+    # Check basic schema structure
+    assert schema["type"] == "object"
+    assert schema["required"] == ["quality_score", "overall_rating"]
+    # Check score property
+    score_prop = schema["properties"]["quality_score"]
+    assert score_prop["type"] == "number"
+    assert score_prop["minimum"] == 1
+    assert score_prop["maximum"] == 5
+    assert "Quality Score" in score_prop["title"]
+    assert "Rate the quality" in score_prop["description"]
+    assert "between 1 and 5" in score_prop["description"]
+    # Check overall rating property
+    assert "overall_rating" in schema["properties"]
+    overall = schema["properties"]["overall_rating"]
+    assert overall["type"] == "number"
+    assert overall["minimum"] == 1
+    assert overall["maximum"] == 5
+    assert "Overall Rating" in overall["title"]
+    assert "The overall rating for the task output" in overall["description"]
+    assert "between 1 and 5" in overall["description"]
+def test_score_schema_pass_fail():
+    eval = Eval(
+        name="Test Eval",
+        eval_set_filter_id="tag::tag1",
+        eval_configs_filter_id="tag::tag2",
+        output_scores=[
+            EvalOutputScore(
+                name="Pass Fail Test",
+                instruction="Check if it passes",
+                type=TaskOutputRatingType.pass_fail,
+            ),
+            EvalOutputScore(
+                name="Overall Rating",
+                instruction="The overall rating for the task output",
+                type=TaskOutputRatingType.five_star,
+            ),
+        ],
+    )
+    schema_str = BaseEval.build_score_schema(eval)
+    schema = json.loads(schema_str)
+    score_prop = schema["properties"]["pass_fail_test"]
+    assert score_prop["enum"] == ["pass", "fail"]
+    assert "Pass Fail Test" in score_prop["title"]
+    assert "Check if it passes" in score_prop["description"]
+    assert "'pass' or 'fail'" in score_prop["description"]
+    assert schema["properties"]["overall_rating"] is not None
+    # Now check that we can allow float scores with the proper float structure
+    schema_str = BaseEval.build_score_schema(eval, allow_float_scores=True)
+    schema = json.loads(schema_str)
+    score_prop = schema["properties"]["pass_fail_test"]
+    assert score_prop["type"] == "number"
+    assert score_prop["minimum"] == 0
+    assert score_prop["maximum"] == 1
+    assert (
+        "between 0 and 1, with 0 being a failure and 1 being a pass"
+        in score_prop["description"]
+    )
+def test_score_schema_pass_fail_critical():
+    eval = Eval(
+        name="Test Eval",
+        eval_set_filter_id="tag::tag1",
+        eval_configs_filter_id="tag::tag2",
+        output_scores=[
+            EvalOutputScore(
+                name="Critical Test",
+                instruction="Check for critical issues",
+                type=TaskOutputRatingType.pass_fail_critical,
+            ),
+            EvalOutputScore(
+                name="Overall Rating",
+                instruction="The overall rating for the task output",
+                type=TaskOutputRatingType.five_star,
+            ),
+        ],
+    )
+    schema_str = BaseEval.build_score_schema(eval)
+    schema = json.loads(schema_str)
+    score_prop = schema["properties"]["critical_test"]
+    assert "enum" in score_prop
+    assert score_prop["enum"] == ["pass", "fail", "critical"]
+    assert "'pass', 'fail', or 'critical'" in score_prop["description"]
+    assert schema["properties"]["overall_rating"] is not None
+    # Now check that we can allow float scores with the proper float structure
+    schema_str = BaseEval.build_score_schema(eval, allow_float_scores=True)
+    schema = json.loads(schema_str)
+    score_prop = schema["properties"]["critical_test"]
+    assert score_prop["type"] == "number"
+    assert score_prop["minimum"] == -1
+    assert score_prop["maximum"] == 1
+    assert "between -1 and 1, with 1 being a pass" in score_prop["description"]
+def test_score_schema_multiple_scores():
+    eval = Eval(
+        name="Test Eval",
+        eval_set_filter_id="tag::tag1",
+        eval_configs_filter_id="tag::tag2",
+        output_scores=[
+            EvalOutputScore(
+                name="Quality",
+                instruction="Rate quality",
+                type=TaskOutputRatingType.five_star,
+            ),
+            EvalOutputScore(
+                name="Pass Check",
+                instruction="Basic pass check",
+                type=TaskOutputRatingType.pass_fail,
+            ),
+            EvalOutputScore(
+                name="Security",
+                instruction="Check security",
+                type=TaskOutputRatingType.pass_fail_critical,
+            ),
+            EvalOutputScore(
+                name="Overall Rating",
+                instruction="The overall rating for the task output",
+                type=TaskOutputRatingType.five_star,
+            ),
+        ],
+    )
+    schema_str = BaseEval.build_score_schema(eval)
+    schema = json.loads(schema_str)
+    # Verify order is maintained
+    assert list(schema["properties"].keys()) == [
+        "quality",
+        "pass_check",
+        "security",
+        "overall_rating",
+    ]
+def test_score_schema_no_scores():
+    # This should raise an error since at least one score is required
+    with pytest.raises(ValueError, match="output_scores are required"):
+        eval = Eval(
+            name="Test Eval",
+            eval_set_filter_id="tag::tag1",
+            eval_configs_filter_id="tag::tag2",
+            output_scores=[],
+        )
+        BaseEval.build_score_schema(eval)
+class EvalTester(BaseEval):
+    """Test implementation of BaseEval"""
+    async def run_eval(self, task_run):
+        return {"overall_rating": 5, "quality": 4}
+@pytest.mark.paid
+@pytest.mark.asyncio
+async def test_run_method():
+    task = Task(
+        name="Test Task",
+        instruction="Test instruction",
+        requirements=[
+            TaskRequirement(
+                name="Quality",
+                instruction="Rate quality",
+                type=TaskOutputRatingType.five_star,
+            ),
+        ],
+    )
+    eval_config = EvalConfig(
+        name="Test Eval Config",
+        model=DataSource(
+            type=DataSourceType.synthetic,
+            properties={
+                "model_name": "gpt-4o",
+                "model_provider": "openai",
+                "adapter_name": "test",
+            },
+        ),
+        parent=Eval(
+            name="Test Eval",
+            parent=task,
+            eval_set_filter_id="all",
+            eval_configs_filter_id="all",
+            output_scores=[
+                EvalOutputScore(
+                    name="Quality",
+                    instruction="Rate quality",
+                    type=TaskOutputRatingType.five_star,
+                ),
+                EvalOutputScore(
+                    name="Overall Rating",
+                    instruction="The overall rating for the task output",
+                    type=TaskOutputRatingType.five_star,
+                ),
+            ],
+        ),
+        prompt=BasePrompt(
+            name="Test Prompt",
+            prompt="Test prompt",
+        ),
+        properties={"eval_steps": ["test_step"]},
+    )
+    run_config = TaskRunConfig(
+        name="Test Run Config",
+        run_config_properties=RunConfigProperties(
+            model_name="llama_3_1_8b",
+            model_provider_name="groq",
+            prompt_id="simple_prompt_builder",
+        ),
+        parent=task,
+    )
+    evaluator = EvalTester(eval_config, run_config.run_config())
+    # Run the evaluation
+    task_run, eval_scores = await evaluator.run("test input")
+    # Verify task run was created
+    assert task_run.input == "test input"
+    assert isinstance(task_run.output.output, str)
+    # Verify eval scores match schema and contain expected values
+    assert eval_scores["overall_rating"] == 5
+    assert eval_scores["quality"] == 4
+    # Verify schema validation worked (these keys should exist per schema)
+    assert set(eval_scores.keys()) == {"overall_rating", "quality"}

kiln-ai 0.11.1__py3-none-any.whl → 0.13.0__py3-none-any.whl

Potentially problematic release.

kiln-ai 0.11.1py3-none-any.whl → 0.13.0py3-none-any.whl