PyPI - deepeval - Versions diffs - 3.7.5__py3-none-any.whl → 3.7.6__py3-none-any.whl - Mend

deepeval 3.7.5py3-none-any.whl → 3.7.6py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (133) hide show

deepeval/_version.py +1 -1
deepeval/config/settings.py +35 -1
deepeval/dataset/api.py +23 -1
deepeval/dataset/golden.py +106 -21
deepeval/evaluate/evaluate.py +0 -3
deepeval/evaluate/execute.py +10 -222
deepeval/evaluate/utils.py +6 -30
deepeval/key_handler.py +3 -0
deepeval/metrics/__init__.py +0 -4
deepeval/metrics/answer_relevancy/answer_relevancy.py +89 -132
deepeval/metrics/answer_relevancy/template.py +102 -179
deepeval/metrics/arena_g_eval/arena_g_eval.py +98 -96
deepeval/metrics/arena_g_eval/template.py +17 -1
deepeval/metrics/argument_correctness/argument_correctness.py +81 -87
deepeval/metrics/argument_correctness/template.py +19 -2
deepeval/metrics/base_metric.py +13 -41
deepeval/metrics/bias/bias.py +102 -108
deepeval/metrics/bias/template.py +14 -2
deepeval/metrics/contextual_precision/contextual_precision.py +56 -92
deepeval/metrics/contextual_recall/contextual_recall.py +58 -85
deepeval/metrics/contextual_relevancy/contextual_relevancy.py +53 -83
deepeval/metrics/conversation_completeness/conversation_completeness.py +101 -119
deepeval/metrics/conversation_completeness/template.py +23 -3
deepeval/metrics/conversational_dag/conversational_dag.py +12 -8
deepeval/metrics/conversational_dag/nodes.py +66 -123
deepeval/metrics/conversational_dag/templates.py +16 -0
deepeval/metrics/conversational_g_eval/conversational_g_eval.py +47 -66
deepeval/metrics/dag/dag.py +10 -0
deepeval/metrics/dag/nodes.py +63 -126
deepeval/metrics/dag/templates.py +14 -0
deepeval/metrics/exact_match/exact_match.py +9 -1
deepeval/metrics/faithfulness/faithfulness.py +82 -136
deepeval/metrics/g_eval/g_eval.py +87 -78
deepeval/metrics/g_eval/template.py +18 -1
deepeval/metrics/g_eval/utils.py +7 -6
deepeval/metrics/goal_accuracy/goal_accuracy.py +91 -76
deepeval/metrics/goal_accuracy/template.py +21 -3
deepeval/metrics/hallucination/hallucination.py +60 -75
deepeval/metrics/hallucination/template.py +13 -0
deepeval/metrics/indicator.py +3 -6
deepeval/metrics/json_correctness/json_correctness.py +40 -38
deepeval/metrics/json_correctness/template.py +10 -0
deepeval/metrics/knowledge_retention/knowledge_retention.py +60 -97
deepeval/metrics/knowledge_retention/schema.py +9 -3
deepeval/metrics/knowledge_retention/template.py +12 -0
deepeval/metrics/mcp/mcp_task_completion.py +68 -38
deepeval/metrics/mcp/multi_turn_mcp_use_metric.py +92 -74
deepeval/metrics/mcp/template.py +52 -0
deepeval/metrics/mcp_use_metric/mcp_use_metric.py +58 -64
deepeval/metrics/mcp_use_metric/template.py +12 -0
deepeval/metrics/misuse/misuse.py +77 -97
deepeval/metrics/misuse/template.py +15 -0
deepeval/metrics/multimodal_metrics/__init__.py +0 -1
deepeval/metrics/multimodal_metrics/image_coherence/image_coherence.py +37 -38
deepeval/metrics/multimodal_metrics/image_editing/image_editing.py +55 -76
deepeval/metrics/multimodal_metrics/image_helpfulness/image_helpfulness.py +37 -38
deepeval/metrics/multimodal_metrics/image_reference/image_reference.py +37 -38
deepeval/metrics/multimodal_metrics/text_to_image/text_to_image.py +57 -76
deepeval/metrics/non_advice/non_advice.py +79 -105
deepeval/metrics/non_advice/template.py +12 -0
deepeval/metrics/pattern_match/pattern_match.py +12 -4
deepeval/metrics/pii_leakage/pii_leakage.py +75 -106
deepeval/metrics/pii_leakage/template.py +14 -0
deepeval/metrics/plan_adherence/plan_adherence.py +63 -89
deepeval/metrics/plan_adherence/template.py +11 -0
deepeval/metrics/plan_quality/plan_quality.py +63 -87
deepeval/metrics/plan_quality/template.py +9 -0
deepeval/metrics/prompt_alignment/prompt_alignment.py +72 -83
deepeval/metrics/prompt_alignment/template.py +12 -0
deepeval/metrics/role_adherence/role_adherence.py +48 -71
deepeval/metrics/role_adherence/template.py +14 -0
deepeval/metrics/role_violation/role_violation.py +75 -108
deepeval/metrics/role_violation/template.py +12 -0
deepeval/metrics/step_efficiency/step_efficiency.py +55 -65
deepeval/metrics/step_efficiency/template.py +11 -0
deepeval/metrics/summarization/summarization.py +115 -183
deepeval/metrics/summarization/template.py +19 -0
deepeval/metrics/task_completion/task_completion.py +67 -73
deepeval/metrics/tool_correctness/tool_correctness.py +43 -42
deepeval/metrics/tool_use/tool_use.py +42 -66
deepeval/metrics/topic_adherence/template.py +13 -0
deepeval/metrics/topic_adherence/topic_adherence.py +53 -67
deepeval/metrics/toxicity/template.py +13 -0
deepeval/metrics/toxicity/toxicity.py +80 -99
deepeval/metrics/turn_contextual_precision/schema.py +3 -3
deepeval/metrics/turn_contextual_precision/template.py +1 -1
deepeval/metrics/turn_contextual_precision/turn_contextual_precision.py +110 -68
deepeval/metrics/turn_contextual_recall/schema.py +3 -3
deepeval/metrics/turn_contextual_recall/turn_contextual_recall.py +104 -61
deepeval/metrics/turn_contextual_relevancy/schema.py +2 -2
deepeval/metrics/turn_contextual_relevancy/turn_contextual_relevancy.py +106 -65
deepeval/metrics/turn_faithfulness/schema.py +1 -1
deepeval/metrics/turn_faithfulness/turn_faithfulness.py +104 -73
deepeval/metrics/turn_relevancy/template.py +14 -0
deepeval/metrics/turn_relevancy/turn_relevancy.py +56 -69
deepeval/metrics/utils.py +145 -90
deepeval/models/base_model.py +44 -6
deepeval/models/embedding_models/azure_embedding_model.py +34 -12
deepeval/models/embedding_models/local_embedding_model.py +22 -7
deepeval/models/embedding_models/ollama_embedding_model.py +17 -6
deepeval/models/embedding_models/openai_embedding_model.py +3 -2
deepeval/models/llms/amazon_bedrock_model.py +226 -71
deepeval/models/llms/anthropic_model.py +141 -47
deepeval/models/llms/azure_model.py +167 -94
deepeval/models/llms/constants.py +2032 -0
deepeval/models/llms/deepseek_model.py +79 -29
deepeval/models/llms/gemini_model.py +126 -67
deepeval/models/llms/grok_model.py +125 -59
deepeval/models/llms/kimi_model.py +126 -81
deepeval/models/llms/litellm_model.py +92 -18
deepeval/models/llms/local_model.py +114 -15
deepeval/models/llms/ollama_model.py +97 -76
deepeval/models/llms/openai_model.py +167 -310
deepeval/models/llms/portkey_model.py +58 -16
deepeval/models/llms/utils.py +5 -2
deepeval/models/utils.py +60 -4
deepeval/simulator/conversation_simulator.py +43 -0
deepeval/simulator/template.py +13 -0
deepeval/test_case/api.py +24 -45
deepeval/test_case/arena_test_case.py +7 -2
deepeval/test_case/conversational_test_case.py +55 -6
deepeval/test_case/llm_test_case.py +60 -6
deepeval/test_run/api.py +3 -0
{deepeval-3.7.5.dist-info → deepeval-3.7.6.dist-info}/METADATA +1 -1
{deepeval-3.7.5.dist-info → deepeval-3.7.6.dist-info}/RECORD +128 -132
deepeval/metrics/multimodal_metrics/multimodal_g_eval/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_g_eval/multimodal_g_eval.py +0 -386
deepeval/metrics/multimodal_metrics/multimodal_g_eval/schema.py +0 -11
deepeval/metrics/multimodal_metrics/multimodal_g_eval/template.py +0 -133
deepeval/metrics/multimodal_metrics/multimodal_g_eval/utils.py +0 -68
{deepeval-3.7.5.dist-info → deepeval-3.7.6.dist-info}/LICENSE.md +0 -0
{deepeval-3.7.5.dist-info → deepeval-3.7.6.dist-info}/WHEEL +0 -0
{deepeval-3.7.5.dist-info → deepeval-3.7.6.dist-info}/entry_points.txt +0 -0

deepeval/metrics/mcp/multi_turn_mcp_use_metric.py CHANGED Viewed

@@ -7,8 +7,9 @@ from deepeval.metrics.utils import (
     check_conversational_test_case_params,
     construct_verbose_logs,
     get_unit_interactions,
-    trimAndLoadJson,
     initialize_model,
+    a_generate_with_schema_and_extract,
+    generate_with_schema_and_extract,
 )
 from deepeval.metrics.indicator import metric_progress_indicator
 from deepeval.test_case import ConversationalTestCase, TurnParams
@@ -50,7 +51,12 @@ class MultiTurnMCPUseMetric(BaseConversationalMetric):
         _log_metric_to_confident: bool = True,
     ):
         check_conversational_test_case_params(
-            test_case, self._required_test_case_params, self
+            test_case,
+            self._required_test_case_params,
+            self,
+            False,
+            self.model,
+            test_case.multimodal,
         )
         self.evaluation_cost = 0 if self.using_native_model else None
@@ -120,7 +126,12 @@ class MultiTurnMCPUseMetric(BaseConversationalMetric):
         _log_metric_to_confident: bool = True,
     ):
         check_conversational_test_case_params(
-            test_case, self._required_test_case_params, self
+            test_case,
+            self._required_test_case_params,
+            self,
+            False,
+            self.model,
+            test_case.multimodal,
         )
         self.evaluation_cost = 0 if self.using_native_model else None
@@ -185,18 +196,13 @@ class MultiTurnMCPUseMetric(BaseConversationalMetric):
         prompt = MCPTaskCompletionTemplate.get_tool_correctness_score(
             task, test_case.mcp_servers
         )
-        if self.using_native_model:
-            res, cost = self.model.generate(prompt, schema=ToolScore)
-            self.evaluation_cost += cost
-            return res
-        else:
-            try:
-                res: ToolScore = self.model.generate(prompt, schema=ToolScore)
-                return res
-            except TypeError:
-                res = self.model.generate(prompt)
-                data = trimAndLoadJson(res, self)
-                return ToolScore(**data)
+        return generate_with_schema_and_extract(
+            metric=self,
+            prompt=prompt,
+            schema_cls=ToolScore,
+            extract_schema=lambda s: s,
+            extract_json=lambda data: ToolScore(**data),
+        )
     async def _a_get_tool_accuracy_score(
         self, task: Task, test_case: ConversationalTestCase
@@ -204,20 +210,13 @@ class MultiTurnMCPUseMetric(BaseConversationalMetric):
         prompt = MCPTaskCompletionTemplate.get_tool_correctness_score(
             task, test_case.mcp_servers
         )
-        if self.using_native_model:
-            res, cost = await self.model.a_generate(prompt, schema=ToolScore)
-            self.evaluation_cost += cost
-            return res
-        else:
-            try:
-                res: ToolScore = await self.model.a_generate(
-                    prompt, schema=ToolScore
-                )
-                return res
-            except TypeError:
-                res = await self.model.a_generate(prompt)
-                data = trimAndLoadJson(res, self)
-                return ToolScore(**data)
+        return await a_generate_with_schema_and_extract(
+            metric=self,
+            prompt=prompt,
+            schema_cls=ToolScore,
+            extract_schema=lambda s: s,
+            extract_json=lambda data: ToolScore(**data),
+        )
     def _get_args_score(
         self, task: Task, test_case: ConversationalTestCase
@@ -225,18 +224,13 @@ class MultiTurnMCPUseMetric(BaseConversationalMetric):
         prompt = MCPTaskCompletionTemplate.get_args_correctness_score(
             task, test_case.mcp_servers
         )
-        if self.using_native_model:
-            res, cost = self.model.generate(prompt, schema=ArgsScore)
-            self.evaluation_cost += cost
-            return res
-        else:
-            try:
-                res: ArgsScore = self.model.generate(prompt, schema=ArgsScore)
-                return res
-            except TypeError:
-                res = self.model.generate(prompt)
-                data = trimAndLoadJson(res, self)
-                return ArgsScore(**data)
+        return generate_with_schema_and_extract(
+            metric=self,
+            prompt=prompt,
+            schema_cls=ArgsScore,
+            extract_schema=lambda s: s,
+            extract_json=lambda data: ArgsScore(**data),
+        )
     async def _a_get_args_score(
         self, task: Task, test_case: ConversationalTestCase
@@ -244,20 +238,13 @@ class MultiTurnMCPUseMetric(BaseConversationalMetric):
         prompt = MCPTaskCompletionTemplate.get_args_correctness_score(
             task, test_case.mcp_servers
         )
-        if self.using_native_model:
-            res, cost = await self.model.a_generate(prompt, schema=ArgsScore)
-            self.evaluation_cost += cost
-            return res
-        else:
-            try:
-                res: ArgsScore = await self.model.a_generate(
-                    prompt, schema=ArgsScore
-                )
-                return res
-            except TypeError:
-                res = await self.model.a_generate(prompt)
-                data = trimAndLoadJson(res, self)
-                return ArgsScore(**data)
+        return await a_generate_with_schema_and_extract(
+            metric=self,
+            prompt=prompt,
+            schema_cls=ArgsScore,
+            extract_schema=lambda s: s,
+            extract_json=lambda data: ArgsScore(**data),
+        )
     def _get_tasks(self, unit_interactions: List) -> List[Task]:
         tasks = []
@@ -334,32 +321,63 @@ class MultiTurnMCPUseMetric(BaseConversationalMetric):
         self,
         tool_accuracy_score: List[ToolScore],
         args_accuracy_score: List[ArgsScore],
-    ) -> str:
-        reason = "["
+    ) -> Optional[str]:
+        if not self.include_reason:
+            return None
+        reasons = []
         for task_score in tool_accuracy_score:
-            if task_score.score < self.threshold:
-                reason += "\nPrimitives Used\n"
-                reason += (
-                    f"Score: {task_score.score}\n"
-                    f"Reason: {task_score.reason}\n"
-                )
-        for task_score in args_accuracy_score:
-            if task_score.score < self.threshold:
-                reason += "\nArguments Generated\n"
-                reason += (
-                    f"Score: {task_score.score}\n"
-                    f"Reason: {task_score.reason}\n"
-                )
-        reason += "]"
-        return reason
+            reasons.append(task_score.reason)
+        for arg_score in args_accuracy_score:
+            reasons.append(arg_score.reason)
+        prompt = MCPTaskCompletionTemplate.generate_final_reason(
+            self.score, self.success, reasons
+        )
+        if self.using_native_model:
+            res, cost = self.model.generate(prompt)
+            self.evaluation_cost += cost
+            return res
+        else:
+            res = self.model.generate(prompt)
+            return res
+    async def _a_generate_reason(
+        self,
+        tool_accuracy_score: List[ToolScore],
+        args_accuracy_score: List[ArgsScore],
+    ) -> Optional[str]:
+        if not self.include_reason:
+            return None
+        reasons = []
+        for task_score in tool_accuracy_score:
+            reasons.append(task_score.reason)
+        for arg_score in args_accuracy_score:
+            reasons.append(arg_score.reason)
+        prompt = MCPTaskCompletionTemplate.generate_final_reason(
+            self.score, self.success, reasons
+        )
+        if self.using_native_model:
+            res, cost = await self.model.a_generate(prompt)
+            self.evaluation_cost += cost
+            return res
+        else:
+            res = await self.model.a_generate(prompt)
+            return res
     def is_successful(self) -> bool:
         if self.error is not None:
             self.success = False
         else:
             try:
-                self.score >= self.threshold
-            except:
+                self.success = self.score >= self.threshold
+            except TypeError:
                 self.success = False
         return self.success

deepeval/metrics/mcp/template.py CHANGED Viewed

@@ -4,6 +4,14 @@ from deepeval.test_case import MCPServer
 class MCPTaskCompletionTemplate:
+    multimodal_rules = """
+        --- MULTIMODAL INPUT RULES ---
+        - Treat image content as factual evidence.
+        - Only reference visual details that are explicitly and clearly visible.
+        - Do not infer or guess objects, text, or details not visibly present.
+        - If an image is unclear or ambiguous, mark uncertainty explicitly.
+    """
     @staticmethod
     def get_args_correctness_score(task: Task, mcp_servers: List[MCPServer]):
         available_tools = [data.available_tools for data in mcp_servers]
@@ -12,6 +20,8 @@ class MCPTaskCompletionTemplate:
         steps_taken = "\n".join(task.steps_taken)
         return f"""Evaluate whether the arguments (inputs) provided by the agent to the tools, resources, and prompts were correct and aligned with their respective input schemas. Your job is to determine if the agent supplied appropriate, complete, and well-formatted arguments for each invocation.
+{MCPTaskCompletionTemplate.multimodal_rules}
 Output a JSON object with exactly two fields: 'score' and 'reason'.
 Scoring:
@@ -55,6 +65,8 @@ JSON:
         steps_taken = "\n".join(task.steps_taken)
         return f"""Evaluate whether the tools, resources, and prompts used by the agent were appropriate and optimal, based strictly on the list of available tools and resources provided. Your job is to determine whether the agent selected the most suitable tools and prompts for the task at hand. Output a JSON object with exactly two fields: 'score' and 'reason'.
+{MCPTaskCompletionTemplate.multimodal_rules}
 Scoring:
 - 'score' is a float between 0 and 1 inclusive.
 - Use intermediate values (e.g., 0.25, 0.5, 0.75) to reflect partially appropriate tool use, suboptimal decisions, or missed better alternatives.
@@ -92,6 +104,9 @@ JSON:
     def get_task_completion_score(task: Task):
         steps_taken = "\n".join(task.steps_taken)
         return f"""Evaluate whether the user's task has been successfully completed by the agent, based strictly on what the user can see in the agent's responses. You must return a JSON object with exactly two fields: 'score' and 'reason'.
+{MCPTaskCompletionTemplate.multimodal_rules}
 Scoring:
 - 'score' is a float between 0 and 1 inclusive.
 - Use intermediate values (e.g., 0.25, 0.5, 0.75) to reflect partial task success or missing/inaccurate information.
@@ -123,3 +138,40 @@ Example Output:
 JSON:
 """
+    @staticmethod
+    def generate_final_reason(
+        final_score: float, success: bool, reasons: List[str]
+    ):
+        return f"""You are an AI evaluator producing a single final explanation for the an MCP application's evaluation results using the provided reasons.
+        Context:
+        The reasons are from metrics that were used to evaluate an MCP application by determining whether the model accurately completed a task or called toos and resources with the right arguments.
+        Inputs:
+        - final_score: the averaged score across all interactions.
+        - success: whether the metric passed or failed
+        - reasons: a list of textual reasons generated from individual interactions.
+        Instructions:
+        1. Read all reasons and synthesize them into one unified explanation.
+        2. Do not repeat every reason; merge them into a concise, coherent narrative.
+        4. If the metric failed, state the dominant failure reasons. If it passed, state why the application has passed.
+        5. Output a single paragraph with no lists, no bullets, no markup.
+        Output:
+        A single paragraph explaining the final outcome.
+        Here's the inputs:
+        Final Score: {final_score}
+        Reasons:
+        {reasons}
+        Success: {success}
+        Now give me a final reason that explains why the metric passed or failed. Output ONLY the reason and nothing else.
+        The final reason:
+        """

deepeval/metrics/mcp_use_metric/mcp_use_metric.py CHANGED Viewed

@@ -3,9 +3,10 @@ from typing import Optional, List, Union
 from deepeval.utils import get_or_create_event_loop
 from deepeval.metrics.utils import (
     construct_verbose_logs,
-    trimAndLoadJson,
     check_llm_test_case_params,
     initialize_model,
+    a_generate_with_schema_and_extract,
+    generate_with_schema_and_extract,
 )
 from deepeval.test_case import (
     LLMTestCase,
@@ -54,7 +55,16 @@ class MCPUseMetric(BaseMetric):
         _in_component: bool = False,
         _log_metric_to_confident: bool = True,
     ) -> float:
-        check_llm_test_case_params(test_case, self._required_params, self)
+        multimodal = test_case.multimodal
+        check_llm_test_case_params(
+            test_case,
+            self._required_params,
+            None,
+            None,
+            self,
+            self.model,
+            multimodal,
+        )
         self.evaluation_cost = 0 if self.using_native_model else None
         with metric_progress_indicator(
@@ -121,11 +131,23 @@ class MCPUseMetric(BaseMetric):
         _in_component: bool = False,
         _log_metric_to_confident: bool = True,
     ) -> float:
-        check_llm_test_case_params(test_case, self._required_params, self)
+        multimodal = test_case.multimodal
+        check_llm_test_case_params(
+            test_case,
+            self._required_params,
+            None,
+            None,
+            self,
+            self.model,
+            multimodal,
+        )
         self.evaluation_cost = 0 if self.using_native_model else None
         with metric_progress_indicator(
-            self, _show_indicator=_show_indicator, _in_component=_in_component
+            self,
+            async_mode=True,
+            _show_indicator=_show_indicator,
+            _in_component=_in_component,
         ):
             available_primitives, primitives_used = (
                 self._get_mcp_interaction_text(
@@ -177,20 +199,13 @@ class MCPUseMetric(BaseMetric):
         prompt = MCPUseMetricTemplate.get_primitive_correctness_prompt(
             test_case, available_primitives, primitives_used
         )
-        if self.using_native_model:
-            res, cost = self.model.generate(prompt, schema=MCPPrimitivesScore)
-            self.evaluation_cost += cost
-            return res
-        else:
-            try:
-                res: MCPPrimitivesScore = self.model.generate(
-                    prompt, schema=MCPPrimitivesScore
-                )
-                return res
-            except TypeError:
-                res = self.model.generate(prompt)
-                data = trimAndLoadJson(res, self)
-                return MCPPrimitivesScore(**data)
+        return generate_with_schema_and_extract(
+            metric=self,
+            prompt=prompt,
+            schema_cls=MCPPrimitivesScore,
+            extract_schema=lambda s: s,
+            extract_json=lambda data: MCPPrimitivesScore(**data),
+        )
     async def _a_get_primitives_used_score(
         self,
@@ -201,22 +216,13 @@ class MCPUseMetric(BaseMetric):
         prompt = MCPUseMetricTemplate.get_primitive_correctness_prompt(
             test_case, available_primitives, primitives_used
         )
-        if self.using_native_model:
-            res, cost = await self.model.a_generate(
-                prompt, schema=MCPPrimitivesScore
-            )
-            self.evaluation_cost += cost
-            return res
-        else:
-            try:
-                res: MCPPrimitivesScore = await self.model.a_generate(
-                    prompt, schema=MCPPrimitivesScore
-                )
-                return res
-            except TypeError:
-                res = await self.model.a_generate(prompt)
-                data = trimAndLoadJson(res, self)
-                return MCPPrimitivesScore(**data)
+        return await a_generate_with_schema_and_extract(
+            metric=self,
+            prompt=prompt,
+            schema_cls=MCPPrimitivesScore,
+            extract_schema=lambda s: s,
+            extract_json=lambda data: MCPPrimitivesScore(**data),
+        )
     def _get_argument_correctness_score(
         self,
@@ -227,20 +233,13 @@ class MCPUseMetric(BaseMetric):
         prompt = MCPUseMetricTemplate.get_mcp_argument_correctness_prompt(
             test_case, available_primitives, primitives_used
         )
-        if self.using_native_model:
-            res, cost = self.model.generate(prompt, schema=MCPArgsScore)
-            self.evaluation_cost += cost
-            return res
-        else:
-            try:
-                res: MCPArgsScore = self.model.generate(
-                    prompt, schema=MCPArgsScore
-                )
-                return res
-            except TypeError:
-                res = self.model.generate(prompt)
-                data = trimAndLoadJson(res, self)
-                return MCPArgsScore(**data)
+        return generate_with_schema_and_extract(
+            metric=self,
+            prompt=prompt,
+            schema_cls=MCPArgsScore,
+            extract_schema=lambda s: s,
+            extract_json=lambda data: MCPArgsScore(**data),
+        )
     async def _a_get_argument_correctness_score(
         self,
@@ -251,20 +250,13 @@ class MCPUseMetric(BaseMetric):
         prompt = MCPUseMetricTemplate.get_mcp_argument_correctness_prompt(
             test_case, available_primitives, primitives_used
         )
-        if self.using_native_model:
-            res, cost = await self.model.a_generate(prompt, schema=MCPArgsScore)
-            self.evaluation_cost += cost
-            return res
-        else:
-            try:
-                res: MCPArgsScore = await self.model.a_generate(
-                    prompt, schema=MCPArgsScore
-                )
-                return res
-            except TypeError:
-                res = await self.model.a_generate(prompt)
-                data = trimAndLoadJson(res, self)
-                return MCPArgsScore(**data)
+        return await a_generate_with_schema_and_extract(
+            metric=self,
+            prompt=prompt,
+            schema_cls=MCPArgsScore,
+            extract_schema=lambda s: s,
+            extract_json=lambda data: MCPArgsScore(**data),
+        )
     def _calculate_score(
         self,
@@ -280,7 +272,9 @@ class MCPUseMetric(BaseMetric):
         self,
         primitives_used_score: MCPPrimitivesScore,
         argument_correctness_score: MCPArgsScore,
-    ) -> str:
+    ) -> Optional[str]:
+        if not self.include_reason:
+            return None
         return (
             f"[\n"
             f"\t{primitives_used_score.reason}\n"
@@ -390,7 +384,7 @@ class MCPUseMetric(BaseMetric):
         else:
             try:
                 self.success = self.score >= self.threshold
-            except:
+            except TypeError:
                 self.success = False
         return self.success

deepeval/metrics/mcp_use_metric/template.py CHANGED Viewed

@@ -3,6 +3,14 @@ import textwrap
 class MCPUseMetricTemplate:
+    multimodal_rules = """
+        --- MULTIMODAL INPUT RULES ---
+        - Treat image content as factual evidence.
+        - Only reference visual details that are explicitly and clearly visible.
+        - Do not infer or guess objects, text, or details not visibly present.
+        - If an image is unclear or ambiguous, mark uncertainty explicitly.
+    """
     @staticmethod
     def get_mcp_argument_correctness_prompt(
         test_case: LLMTestCase,
@@ -12,6 +20,8 @@ class MCPUseMetricTemplate:
         return textwrap.dedent(
             f"""Evaluate whether the arguments passed to each tool (primitive) used by the agent were appropriate and correct for the intended purpose. Focus on whether the input types, formats, and contents match the expectations of the tools and are suitable given the user's request.
+            {MCPUseMetricTemplate.multimodal_rules}
             You must return a JSON object with exactly two fields: 'score' and 'reason'.
             Scoring:
@@ -68,6 +78,8 @@ class MCPUseMetricTemplate:
         return textwrap.dedent(
             f"""Evaluate whether the tools (primitives) selected and used by the agent were appropriate and correct for fulfilling the user’s request. Base your judgment on the user input, the agent’s visible output, and the tools that were available to the agent. You must return a JSON object with exactly two fields: 'score' and 'reason'.
+            {MCPUseMetricTemplate.multimodal_rules}
             Scoring:
             - 'score' is a float between 0 and 1 inclusive.
             - Use intermediate values (e.g., 0.25, 0.5, 0.75) to reflect cases where the tools used were partially correct, suboptimal, or only somewhat relevant.

deepeval 3.7.5__py3-none-any.whl → 3.7.6__py3-none-any.whl

deepeval 3.7.5py3-none-any.whl → 3.7.6py3-none-any.whl