PyPI - deepeval - Versions diffs - 3.6.8__py3-none-any.whl → 3.7.0__py3-none-any.whl - Mend

deepeval 3.6.8py3-none-any.whl → 3.7.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (57) hide show

deepeval/_version.py +1 -1
deepeval/anthropic/__init__.py +19 -0
deepeval/anthropic/extractors.py +94 -0
deepeval/anthropic/patch.py +169 -0
deepeval/anthropic/utils.py +225 -0
deepeval/benchmarks/drop/drop.py +40 -14
deepeval/benchmarks/ifeval/ifeval.py +2 -2
deepeval/confident/types.py +4 -2
deepeval/config/settings.py +258 -47
deepeval/config/settings_manager.py +4 -0
deepeval/config/utils.py +5 -0
deepeval/dataset/dataset.py +162 -30
deepeval/dataset/utils.py +41 -13
deepeval/evaluate/execute.py +1099 -633
deepeval/integrations/crewai/handler.py +36 -0
deepeval/integrations/langchain/callback.py +27 -2
deepeval/integrations/llama_index/handler.py +58 -4
deepeval/integrations/llama_index/utils.py +24 -0
deepeval/metrics/__init__.py +5 -0
deepeval/metrics/exact_match/__init__.py +0 -0
deepeval/metrics/exact_match/exact_match.py +94 -0
deepeval/metrics/indicator.py +21 -1
deepeval/metrics/pattern_match/__init__.py +0 -0
deepeval/metrics/pattern_match/pattern_match.py +103 -0
deepeval/metrics/task_completion/task_completion.py +9 -2
deepeval/model_integrations/__init__.py +0 -0
deepeval/model_integrations/utils.py +116 -0
deepeval/models/base_model.py +3 -1
deepeval/models/llms/amazon_bedrock_model.py +20 -17
deepeval/models/llms/openai_model.py +10 -1
deepeval/models/retry_policy.py +103 -20
deepeval/openai/__init__.py +3 -1
deepeval/openai/extractors.py +2 -2
deepeval/openai/utils.py +7 -31
deepeval/prompt/api.py +11 -10
deepeval/prompt/prompt.py +5 -4
deepeval/simulator/conversation_simulator.py +25 -18
deepeval/synthesizer/chunking/context_generator.py +9 -1
deepeval/telemetry.py +3 -3
deepeval/test_case/llm_test_case.py +3 -2
deepeval/test_run/api.py +3 -2
deepeval/test_run/cache.py +4 -3
deepeval/test_run/test_run.py +24 -5
deepeval/tracing/api.py +11 -10
deepeval/tracing/otel/exporter.py +11 -0
deepeval/tracing/patchers.py +102 -1
deepeval/tracing/trace_context.py +13 -4
deepeval/tracing/tracing.py +10 -1
deepeval/tracing/types.py +8 -8
deepeval/tracing/utils.py +9 -0
deepeval/utils.py +44 -2
{deepeval-3.6.8.dist-info → deepeval-3.7.0.dist-info}/METADATA +2 -2
{deepeval-3.6.8.dist-info → deepeval-3.7.0.dist-info}/RECORD +57 -47
/deepeval/{openai → model_integrations}/types.py +0 -0
{deepeval-3.6.8.dist-info → deepeval-3.7.0.dist-info}/LICENSE.md +0 -0
{deepeval-3.6.8.dist-info → deepeval-3.7.0.dist-info}/WHEEL +0 -0
{deepeval-3.6.8.dist-info → deepeval-3.7.0.dist-info}/entry_points.txt +0 -0

deepeval/dataset/dataset.py CHANGED Viewed

@@ -951,6 +951,8 @@ class EvaluationDataset:
                     context=golden.context,
                     name=golden.name,
                     comments=golden.comments,
+                    additional_metadata=golden.additional_metadata,
+                    custom_column_key_values=golden.custom_column_key_values,
                 )
                 for golden in self.goldens
             ]
@@ -965,6 +967,10 @@ class EvaluationDataset:
                     name=golden.name,
                     comments=golden.comments,
                     source_file=golden.source_file,
+                    tools_called=golden.tools_called,
+                    expected_tools=golden.expected_tools,
+                    additional_metadata=golden.additional_metadata,
+                    custom_column_key_values=golden.custom_column_key_values,
                 )
                 for golden in self.goldens
             ]
@@ -995,36 +1001,68 @@ class EvaluationDataset:
         if file_type == "json":
             with open(full_file_path, "w", encoding="utf-8") as file:
                 if self._multi_turn:
-                    json_data = [
-                        {
-                            "scenario": golden.scenario,
-                            "turns": (
-                                format_turns(golden.turns)
-                                if golden.turns
-                                else None
-                            ),
-                            "expected_outcome": golden.expected_outcome,
-                            "user_description": golden.user_description,
-                            "context": golden.context,
-                            "name": golden.name,
-                            "comments": golden.comments,
-                        }
-                        for golden in goldens
-                    ]
+                    json_data = []
+                    for golden in goldens:
+                        # Serialize turns as structured list of dicts
+                        turns_list = (
+                            json.loads(format_turns(golden.turns))
+                            if golden.turns
+                            else None
+                        )
+                        json_data.append(
+                            {
+                                "scenario": golden.scenario,
+                                "turns": turns_list,
+                                "expected_outcome": golden.expected_outcome,
+                                "user_description": golden.user_description,
+                                "context": golden.context,
+                                "name": golden.name,
+                                "comments": golden.comments,
+                                "additional_metadata": golden.additional_metadata,
+                                "custom_column_key_values": golden.custom_column_key_values,
+                            }
+                        )
                 else:
-                    json_data = [
-                        {
-                            "input": golden.input,
-                            "actual_output": golden.actual_output,
-                            "expected_output": golden.expected_output,
-                            "retrieval_context": golden.retrieval_context,
-                            "context": golden.context,
-                            "name": golden.name,
-                            "comments": golden.comments,
-                            "source_file": golden.source_file,
-                        }
-                        for golden in goldens
-                    ]
+                    json_data = []
+                    for golden in goldens:
+                        # Convert ToolCall lists to list[dict]
+                        def _dump_tools(tools):
+                            if not tools:
+                                return None
+                            dumped = []
+                            for t in tools:
+                                if hasattr(t, "model_dump"):
+                                    dumped.append(
+                                        t.model_dump(
+                                            by_alias=True, exclude_none=True
+                                        )
+                                    )
+                                elif hasattr(t, "dict"):
+                                    dumped.append(t.dict(exclude_none=True))
+                                else:
+                                    dumped.append(t)
+                            return dumped if len(dumped) > 0 else None
+                        json_data.append(
+                            {
+                                "input": golden.input,
+                                "actual_output": golden.actual_output,
+                                "expected_output": golden.expected_output,
+                                "retrieval_context": golden.retrieval_context,
+                                "context": golden.context,
+                                "name": golden.name,
+                                "comments": golden.comments,
+                                "source_file": golden.source_file,
+                                "tools_called": _dump_tools(
+                                    golden.tools_called
+                                ),
+                                "expected_tools": _dump_tools(
+                                    golden.expected_tools
+                                ),
+                                "additional_metadata": golden.additional_metadata,
+                                "custom_column_key_values": golden.custom_column_key_values,
+                            }
+                        )
                 json.dump(json_data, file, indent=4, ensure_ascii=False)
         elif file_type == "csv":
             with open(
@@ -1041,6 +1079,8 @@ class EvaluationDataset:
                             "context",
                             "name",
                             "comments",
+                            "additional_metadata",
+                            "custom_column_key_values",
                         ]
                     )
                     for golden in goldens:
@@ -1054,6 +1094,21 @@ class EvaluationDataset:
                             if golden.turns is not None
                             else None
                         )
+                        additional_metadata = (
+                            json.dumps(
+                                golden.additional_metadata, ensure_ascii=False
+                            )
+                            if golden.additional_metadata is not None
+                            else None
+                        )
+                        custom_cols = (
+                            json.dumps(
+                                golden.custom_column_key_values,
+                                ensure_ascii=False,
+                            )
+                            if golden.custom_column_key_values
+                            else None
+                        )
                         writer.writerow(
                             [
                                 golden.scenario,
@@ -1063,6 +1118,8 @@ class EvaluationDataset:
                                 context,
                                 golden.name,
                                 golden.comments,
+                                additional_metadata,
+                                custom_cols,
                             ]
                         )
                 else:
@@ -1076,6 +1133,10 @@ class EvaluationDataset:
                             "name",
                             "comments",
                             "source_file",
+                            "tools_called",
+                            "expected_tools",
+                            "additional_metadata",
+                            "custom_column_key_values",
                         ]
                     )
                     for golden in goldens:
@@ -1089,6 +1150,42 @@ class EvaluationDataset:
                             if golden.context is not None
                             else None
                         )
+                        # Dump tools as JSON strings for CSV
+                        def _dump_tools_csv(tools):
+                            if not tools:
+                                return None
+                            dumped = []
+                            for t in tools:
+                                if hasattr(t, "model_dump"):
+                                    dumped.append(
+                                        t.model_dump(
+                                            by_alias=True, exclude_none=True
+                                        )
+                                    )
+                                elif hasattr(t, "dict"):
+                                    dumped.append(t.dict(exclude_none=True))
+                                else:
+                                    dumped.append(t)
+                            return json.dumps(dumped, ensure_ascii=False)
+                        tools_called = _dump_tools_csv(golden.tools_called)
+                        expected_tools = _dump_tools_csv(golden.expected_tools)
+                        additional_metadata = (
+                            json.dumps(
+                                golden.additional_metadata, ensure_ascii=False
+                            )
+                            if golden.additional_metadata is not None
+                            else None
+                        )
+                        custom_cols = (
+                            json.dumps(
+                                golden.custom_column_key_values,
+                                ensure_ascii=False,
+                            )
+                            if golden.custom_column_key_values
+                            else None
+                        )
                         writer.writerow(
                             [
                                 golden.input,
@@ -1099,6 +1196,10 @@ class EvaluationDataset:
                                 golden.name,
                                 golden.comments,
                                 golden.source_file,
+                                tools_called,
+                                expected_tools,
+                                additional_metadata,
+                                custom_cols,
                             ]
                         )
         elif file_type == "jsonl":
@@ -1106,7 +1207,9 @@ class EvaluationDataset:
                 for golden in goldens:
                     if self._multi_turn:
                         turns = (
-                            format_turns(golden.turns) if golden.turns else None
+                            json.loads(format_turns(golden.turns))
+                            if golden.turns
+                            else None
                         )
                         record = {
                             "scenario": golden.scenario,
@@ -1114,6 +1217,10 @@ class EvaluationDataset:
                             "expected_outcome": golden.expected_outcome,
                             "user_description": golden.user_description,
                             "context": golden.context,
+                            "name": golden.name,
+                            "comments": golden.comments,
+                            "additional_metadata": golden.additional_metadata,
+                            "custom_column_key_values": golden.custom_column_key_values,
                         }
                     else:
                         retrieval_context = (
@@ -1126,12 +1233,37 @@ class EvaluationDataset:
                             if golden.context is not None
                             else None
                         )
+                        # Convert ToolCall lists to list[dict]
+                        def _dump_tools(tools):
+                            if not tools:
+                                return None
+                            dumped = []
+                            for t in tools:
+                                if hasattr(t, "model_dump"):
+                                    dumped.append(
+                                        t.model_dump(
+                                            by_alias=True, exclude_none=True
+                                        )
+                                    )
+                                elif hasattr(t, "dict"):
+                                    dumped.append(t.dict(exclude_none=True))
+                                else:
+                                    dumped.append(t)
+                            return dumped if len(dumped) > 0 else None
                         record = {
                             "input": golden.input,
                             "actual_output": golden.actual_output,
                             "expected_output": golden.expected_output,
                             "retrieval_context": retrieval_context,
                             "context": context,
+                            "tools_called": _dump_tools(golden.tools_called),
+                            "expected_tools": _dump_tools(
+                                golden.expected_tools
+                            ),
+                            "additional_metadata": golden.additional_metadata,
+                            "custom_column_key_values": golden.custom_column_key_values,
                         }
                     file.write(json.dumps(record, ensure_ascii=False) + "\n")

deepeval/dataset/utils.py CHANGED Viewed

@@ -111,12 +111,36 @@ def trimAndLoadJson(input_string: str) -> Any:
 def format_turns(turns: List[Turn]) -> str:
     res = []
     for turn in turns:
+        # Safely convert nested Pydantic models (ToolCall/MCP calls) to dicts
+        def _dump_list(models):
+            if not models:
+                return None
+            dumped = []
+            for m in models:
+                if hasattr(m, "model_dump"):
+                    dumped.append(
+                        m.model_dump(by_alias=True, exclude_none=True)
+                    )
+                elif hasattr(m, "dict"):
+                    dumped.append(m.dict(exclude_none=True))
+                else:
+                    dumped.append(m)
+            return dumped if len(dumped) > 0 else None
         cur_turn = {
             "role": turn.role,
             "content": turn.content,
+            "user_id": turn.user_id if turn.user_id is not None else None,
             "retrieval_context": (
                 turn.retrieval_context if turn.retrieval_context else None
             ),
+            "tools_called": _dump_list(turn.tools_called),
+            "mcp_tools_called": _dump_list(turn.mcp_tools_called),
+            "mcp_resources_called": _dump_list(turn.mcp_resources_called),
+            "mcp_prompts_called": _dump_list(turn.mcp_prompts_called),
+            "additional_metadata": (
+                turn.additional_metadata if turn.additional_metadata else None
+            ),
         }
         res.append(cur_turn)
     try:
@@ -125,11 +149,17 @@ def format_turns(turns: List[Turn]) -> str:
         raise ValueError(f"Error serializing turns: {e}")
-def parse_turns(turns_str: str) -> List[Turn]:
-    try:
-        parsed = json.loads(turns_str)
-    except json.JSONDecodeError as e:
-        raise ValueError(f"Invalid JSON: {e}")
+def parse_turns(turns_str: Any) -> List[Turn]:
+    # Accept either a JSON string or a Python list
+    if isinstance(turns_str, str):
+        try:
+            parsed = json.loads(turns_str)
+        except json.JSONDecodeError as e:
+            raise ValueError(f"Invalid JSON: {e}")
+    elif isinstance(turns_str, list):
+        parsed = turns_str
+    else:
+        raise TypeError("Expected a JSON string or a list of turns.")
     if not isinstance(parsed, list):
         raise TypeError("Expected a list of turns.")
@@ -145,15 +175,13 @@ def parse_turns(turns_str: str) -> List[Turn]:
         if "content" not in turn or not isinstance(turn["content"], str):
             raise ValueError(f"Turn at index {i} is missing a valid 'content'.")
-        retrieval_context = turn.get("retrieval_context")
+        try:
+            # Pydantic v2
+            res.append(Turn.model_validate(turn))
+        except AttributeError:
+            # Pydantic v1 fallback
+            res.append(Turn.parse_obj(turn))
-        res.append(
-            Turn(
-                role=turn["role"],
-                content=turn["content"],
-                retrieval_context=retrieval_context,
-            )
-        )
     return res

deepeval 3.6.8__py3-none-any.whl → 3.7.0__py3-none-any.whl

deepeval 3.6.8py3-none-any.whl → 3.7.0py3-none-any.whl