PyPI - kiln-ai - Versions diffs - 0.16.0__py3-none-any.whl → 0.17.0__py3-none-any.whl - Mend

kiln-ai 0.16.0py3-none-any.whl → 0.17.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of kiln-ai might be problematic. Click here for more details.

Files changed (54) hide show

kiln_ai/adapters/__init__.py +2 -0
kiln_ai/adapters/adapter_registry.py +22 -44
kiln_ai/adapters/chat/__init__.py +8 -0
kiln_ai/adapters/chat/chat_formatter.py +234 -0
kiln_ai/adapters/chat/test_chat_formatter.py +131 -0
kiln_ai/adapters/data_gen/test_data_gen_task.py +19 -6
kiln_ai/adapters/eval/base_eval.py +8 -6
kiln_ai/adapters/eval/eval_runner.py +4 -1
kiln_ai/adapters/eval/g_eval.py +23 -5
kiln_ai/adapters/eval/test_base_eval.py +166 -15
kiln_ai/adapters/eval/test_eval_runner.py +3 -0
kiln_ai/adapters/eval/test_g_eval.py +1 -0
kiln_ai/adapters/fine_tune/base_finetune.py +2 -2
kiln_ai/adapters/fine_tune/dataset_formatter.py +138 -272
kiln_ai/adapters/fine_tune/test_base_finetune.py +10 -10
kiln_ai/adapters/fine_tune/test_dataset_formatter.py +287 -353
kiln_ai/adapters/fine_tune/test_fireworks_tinetune.py +3 -3
kiln_ai/adapters/fine_tune/test_openai_finetune.py +6 -6
kiln_ai/adapters/fine_tune/test_together_finetune.py +1 -0
kiln_ai/adapters/fine_tune/test_vertex_finetune.py +4 -4
kiln_ai/adapters/fine_tune/together_finetune.py +12 -1
kiln_ai/adapters/ml_model_list.py +80 -43
kiln_ai/adapters/model_adapters/base_adapter.py +73 -26
kiln_ai/adapters/model_adapters/litellm_adapter.py +79 -97
kiln_ai/adapters/model_adapters/litellm_config.py +3 -2
kiln_ai/adapters/model_adapters/test_base_adapter.py +235 -60
kiln_ai/adapters/model_adapters/test_litellm_adapter.py +56 -21
kiln_ai/adapters/model_adapters/test_saving_adapter_results.py +41 -0
kiln_ai/adapters/model_adapters/test_structured_output.py +44 -12
kiln_ai/adapters/prompt_builders.py +0 -16
kiln_ai/adapters/provider_tools.py +27 -9
kiln_ai/adapters/repair/test_repair_task.py +24 -3
kiln_ai/adapters/test_adapter_registry.py +88 -28
kiln_ai/adapters/test_ml_model_list.py +158 -0
kiln_ai/adapters/test_prompt_adaptors.py +17 -3
kiln_ai/adapters/test_prompt_builders.py +3 -16
kiln_ai/adapters/test_provider_tools.py +69 -20
kiln_ai/datamodel/__init__.py +0 -2
kiln_ai/datamodel/datamodel_enums.py +38 -13
kiln_ai/datamodel/finetune.py +12 -7
kiln_ai/datamodel/task.py +68 -7
kiln_ai/datamodel/test_basemodel.py +2 -1
kiln_ai/datamodel/test_dataset_split.py +0 -8
kiln_ai/datamodel/test_models.py +33 -10
kiln_ai/datamodel/test_task.py +168 -2
kiln_ai/utils/config.py +3 -2
kiln_ai/utils/dataset_import.py +1 -1
kiln_ai/utils/logging.py +165 -0
kiln_ai/utils/test_config.py +23 -0
kiln_ai/utils/test_dataset_import.py +30 -0
{kiln_ai-0.16.0.dist-info → kiln_ai-0.17.0.dist-info}/METADATA +1 -1
{kiln_ai-0.16.0.dist-info → kiln_ai-0.17.0.dist-info}/RECORD +54 -49
{kiln_ai-0.16.0.dist-info → kiln_ai-0.17.0.dist-info}/WHEEL +0 -0
{kiln_ai-0.16.0.dist-info → kiln_ai-0.17.0.dist-info}/licenses/LICENSE.txt +0 -0

kiln_ai/adapters/eval/eval_runner.py CHANGED Viewed

@@ -207,5 +207,8 @@ class EvalRunner:
             return True
         except Exception as e:
-            logger.error(f"Error running eval job for dataset item {job.item.id}: {e}")
+            logger.error(
+                f"Error running eval job for dataset item {job.item.id}: {e}",
+                exc_info=True,
+            )
             return False

kiln_ai/adapters/eval/g_eval.py CHANGED Viewed

@@ -5,11 +5,14 @@ from litellm.types.utils import ChatCompletionTokenLogprob
 from kiln_ai.adapters.adapter_registry import adapter_for_task
 from kiln_ai.adapters.eval.base_eval import BaseEval
+from kiln_ai.adapters.ml_model_list import (
+    default_structured_output_mode_for_model_provider,
+)
 from kiln_ai.adapters.model_adapters.base_adapter import AdapterConfig, RunOutput
 from kiln_ai.adapters.prompt_builders import PromptGenerators
 from kiln_ai.datamodel import Project, Task, TaskRun
 from kiln_ai.datamodel.eval import EvalConfig, EvalConfigType, EvalScores
-from kiln_ai.datamodel.task import RunConfig
+from kiln_ai.datamodel.task import RunConfig, RunConfigProperties, StructuredOutputMode
 # all the tokens we score for, and their float scores.
 TOKEN_TO_SCORE_MAP: Dict[str, float] = {
@@ -114,12 +117,27 @@ class GEval(BaseEval):
             10 if self.eval_config.config_type == EvalConfigType.g_eval else None
         )
-        adapter = adapter_for_task(
-            self.geval_task,
+        # We don't expose setting this manually in the UI, so pull a recommended mode from ml_model_list
+        structured_output_mode = default_structured_output_mode_for_model_provider(
             model_name,
             provider,
-            # We always use Simple COT for G-Eval and LLM as Judge
-            prompt_id=PromptGenerators.SIMPLE_CHAIN_OF_THOUGHT,
+            default=StructuredOutputMode.json_schema,
+            # G-eval expects JSON, so don't allow function calling modes
+            disallowed_modes=[
+                StructuredOutputMode.function_calling,
+                StructuredOutputMode.function_calling_weak,
+            ],
+        )
+        adapter = adapter_for_task(
+            self.geval_task,
+            run_config_properties=RunConfigProperties(
+                model_name=model_name,
+                model_provider_name=provider,
+                # We always use Simple COT for G-Eval and LLM as Judge
+                prompt_id=PromptGenerators.SIMPLE_CHAIN_OF_THOUGHT,
+                structured_output_mode=structured_output_mode,
+            ),
             base_adapter_config=AdapterConfig(
                 # Don't save this run into the task_runs. It will be saved into an eval_run where it belongs
                 allow_saving=False,

kiln_ai/adapters/eval/test_base_eval.py CHANGED Viewed

@@ -1,9 +1,9 @@
 import json
+from unittest.mock import AsyncMock, MagicMock, patch
 import pytest
 from kiln_ai.adapters.eval.base_eval import BaseEval
-from kiln_ai.datamodel import BasePrompt, DataSource, DataSourceType
 from kiln_ai.datamodel.eval import Eval, EvalConfig, EvalOutputScore
 from kiln_ai.datamodel.task import (
     RunConfigProperties,
@@ -245,7 +245,7 @@ class EvalTester(BaseEval):
     """Test implementation of BaseEval"""
     async def run_eval(self, task_run):
-        return {"overall_rating": 5, "quality": 4}
+        return {"overall_rating": 5, "quality": 4}, None
 @pytest.mark.paid
@@ -265,14 +265,8 @@ async def test_run_method():
     eval_config = EvalConfig(
         name="Test Eval Config",
-        model=DataSource(
-            type=DataSourceType.synthetic,
-            properties={
-                "model_name": "gpt-4o",
-                "model_provider": "openai",
-                "adapter_name": "test",
-            },
-        ),
+        model_name="gpt-4o",
+        model_provider="openai",
         parent=Eval(
             name="Test Eval",
             parent=task,
@@ -291,10 +285,6 @@ async def test_run_method():
                 ),
             ],
         ),
-        prompt=BasePrompt(
-            name="Test Prompt",
-            prompt="Test prompt",
-        ),
         properties={"eval_steps": ["test_step"]},
     )
@@ -311,7 +301,9 @@ async def test_run_method():
     evaluator = EvalTester(eval_config, run_config.run_config())
     # Run the evaluation
-    task_run, eval_scores = await evaluator.run("test input")
+    task_run, eval_scores, intermediate_outputs = await evaluator.run_task_and_eval(
+        "test input"
+    )
     # Verify task run was created
     assert task_run.input == "test input"
@@ -323,3 +315,162 @@ async def test_run_method():
     # Verify schema validation worked (these keys should exist per schema)
     assert set(eval_scores.keys()) == {"overall_rating", "quality"}
+@pytest.mark.asyncio
+async def test_run_task_and_eval():
+    """Test run_task_and_eval method with mocked dependencies"""
+    # Create test data
+    task = Task(
+        name="Test Task",
+        instruction="Test instruction",
+        requirements=[
+            TaskRequirement(
+                name="Quality",
+                instruction="Rate quality",
+                type=TaskOutputRatingType.five_star,
+            ),
+        ],
+    )
+    eval_config = EvalConfig(
+        name="Test Eval Config",
+        model_name="gpt-4o",
+        model_provider="openai",
+        parent=Eval(
+            name="Test Eval",
+            parent=task,
+            eval_set_filter_id="all",
+            eval_configs_filter_id="all",
+            output_scores=[
+                EvalOutputScore(
+                    name="Quality",
+                    instruction="Rate quality",
+                    type=TaskOutputRatingType.five_star,
+                ),
+                EvalOutputScore(
+                    name="Overall Rating",
+                    instruction="The overall rating for the task output",
+                    type=TaskOutputRatingType.five_star,
+                ),
+            ],
+        ),
+        properties={"eval_steps": ["test_step"]},
+    )
+    run_config = TaskRunConfig(
+        name="Test Run Config",
+        run_config_properties=RunConfigProperties(
+            model_name="llama_3_1_8b",
+            model_provider_name="groq",
+            prompt_id="simple_prompt_builder",
+            structured_output_mode="json_schema",
+        ),
+        parent=task,
+    )
+    # Create evaluator instance
+    class MockEval(BaseEval):
+        async def run_eval(self, task_run):
+            return {"overall_rating": 5, "quality": 4}, {"thinking": "test thinking"}
+    evaluator = MockEval(eval_config, run_config.run_config())
+    # Mock dependencies
+    mock_adapter = AsyncMock()
+    mock_task_run = MagicMock()
+    mock_task_run.input = "test input"
+    mock_task_run.output.output = "test output"
+    mock_adapter.invoke.return_value = mock_task_run
+    with (
+        patch(
+            "kiln_ai.adapters.eval.base_eval.adapter_for_task"
+        ) as mock_adapter_for_task,
+        patch(
+            "kiln_ai.adapters.eval.base_eval.validate_schema_with_value_error"
+        ) as mock_validate,
+    ):
+        mock_adapter_for_task.return_value = mock_adapter
+        # Test with string input
+        result = await evaluator.run_task_and_eval("test input")
+        # Verify adapter_for_task was called with correct parameters
+        mock_adapter_for_task.assert_called_once()
+        assert mock_adapter_for_task.call_args[0][0] == evaluator.target_task
+        props = mock_adapter_for_task.call_args[0][1]
+        assert props.model_name == "llama_3_1_8b"
+        assert props.model_provider_name == "groq"
+        assert props.prompt_id == "simple_prompt_builder"
+        bac = mock_adapter_for_task.call_args[1]
+        assert bac["base_adapter_config"].allow_saving is False
+        # Verify the base_adapter_config has allow_saving=False
+        adapter_config = mock_adapter_for_task.call_args[1]["base_adapter_config"]
+        assert adapter_config.allow_saving is False
+        # Verify adapter.invoke was called with correct input
+        mock_adapter.invoke.assert_called_once_with("test input")
+        # Verify validate_schema_with_value_error was called
+        mock_validate.assert_called_once_with(
+            {"overall_rating": 5, "quality": 4},
+            evaluator.score_schema,
+            "Eval output does not match score schema.",
+        )
+        # Verify return values
+        task_run, eval_scores, intermediate_outputs = result
+        assert task_run == mock_task_run
+        assert eval_scores == {"overall_rating": 5, "quality": 4}
+        assert intermediate_outputs == {"thinking": "test thinking"}
+@pytest.mark.asyncio
+async def test_run_task_and_eval_no_run_config():
+    """Test run_task_and_eval raises error when run_config is None"""
+    task = Task(
+        name="Test Task",
+        instruction="Test instruction",
+        requirements=[
+            TaskRequirement(
+                name="Quality",
+                instruction="Rate quality",
+                type=TaskOutputRatingType.five_star,
+            ),
+        ],
+    )
+    eval_config = EvalConfig(
+        name="Test Eval Config",
+        model_name="gpt-4o",
+        model_provider="openai",
+        parent=Eval(
+            name="Test Eval",
+            parent=task,
+            eval_set_filter_id="all",
+            eval_configs_filter_id="all",
+            output_scores=[
+                EvalOutputScore(
+                    name="Quality",
+                    instruction="Rate quality",
+                    type=TaskOutputRatingType.five_star,
+                ),
+            ],
+        ),
+        properties={"eval_steps": ["test_step"]},
+    )
+    # Create evaluator instance with no run_config
+    class MockEval(BaseEval):
+        async def run_eval(self, task_run):
+            return {"quality": 4}, None
+    evaluator = MockEval(eval_config, None)
+    # Test that it raises ValueError
+    with pytest.raises(
+        ValueError, match="Run config is required for run_task_and_eval"
+    ):
+        await evaluator.run_task_and_eval("test input")

kiln_ai/adapters/eval/test_eval_runner.py CHANGED Viewed

@@ -94,6 +94,7 @@ def mock_run_config(
             model_name="gpt-4",
             model_provider_name="openai",
             prompt_id="simple_prompt_builder",
+            structured_output_mode="json_schema",
         ),
         parent=mock_task,
     )
@@ -209,6 +210,7 @@ def test_collect_tasks_filtering(
             model_name="gpt-4",
             model_provider_name="openai",
             prompt_id="simple_prompt_builder",
+            structured_output_mode="json_schema",
         ),
         parent=mock_task,
     )
@@ -416,6 +418,7 @@ def test_collect_tasks_multiple_run_configs(
             model_name="gpt-3.5",
             model_provider_name="openai",
             prompt_id="simple_prompt_builder",
+            structured_output_mode="json_schema",
         ),
         parent=mock_task,
     )

kiln_ai/adapters/eval/test_g_eval.py CHANGED Viewed

@@ -99,6 +99,7 @@ def test_run_config(test_task):
         model_provider_name="groq",
         task=test_task,
         prompt_id="simple_prompt_builder",
+        structured_output_mode="json_schema",
     )

kiln_ai/adapters/fine_tune/base_finetune.py CHANGED Viewed

@@ -6,11 +6,11 @@ from pydantic import BaseModel
 from kiln_ai.adapters.ml_model_list import built_in_models
 from kiln_ai.datamodel import (
     DatasetSplit,
-    FinetuneDataStrategy,
     FineTuneStatusType,
     Task,
 )
 from kiln_ai.datamodel import Finetune as FinetuneModel
+from kiln_ai.datamodel.datamodel_enums import ChatStrategy
 from kiln_ai.utils.name_generator import generate_memorable_name
@@ -62,7 +62,7 @@ class BaseFinetuneAdapter(ABC):
         train_split_name: str,
         system_message: str,
         thinking_instructions: str | None,
-        data_strategy: FinetuneDataStrategy,
+        data_strategy: ChatStrategy,
         parameters: dict[str, str | int | float | bool] = {},
         name: str | None = None,
         description: str | None = None,

kiln-ai 0.16.0__py3-none-any.whl → 0.17.0__py3-none-any.whl

Potentially problematic release.

kiln-ai 0.16.0py3-none-any.whl → 0.17.0py3-none-any.whl