PyPI - deepeval - Versions diffs - 3.7.5__py3-none-any.whl → 3.7.7__py3-none-any.whl - Mend

deepeval 3.7.5py3-none-any.whl → 3.7.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (150) hide show

deepeval/_version.py +1 -1
deepeval/cli/main.py +2022 -759
deepeval/cli/utils.py +208 -36
deepeval/config/dotenv_handler.py +19 -0
deepeval/config/settings.py +675 -245
deepeval/config/utils.py +9 -1
deepeval/dataset/api.py +23 -1
deepeval/dataset/golden.py +106 -21
deepeval/evaluate/evaluate.py +0 -3
deepeval/evaluate/execute.py +162 -315
deepeval/evaluate/utils.py +6 -30
deepeval/key_handler.py +124 -51
deepeval/metrics/__init__.py +0 -4
deepeval/metrics/answer_relevancy/answer_relevancy.py +89 -132
deepeval/metrics/answer_relevancy/template.py +102 -179
deepeval/metrics/arena_g_eval/arena_g_eval.py +98 -96
deepeval/metrics/arena_g_eval/template.py +17 -1
deepeval/metrics/argument_correctness/argument_correctness.py +81 -87
deepeval/metrics/argument_correctness/template.py +19 -2
deepeval/metrics/base_metric.py +19 -41
deepeval/metrics/bias/bias.py +102 -108
deepeval/metrics/bias/template.py +14 -2
deepeval/metrics/contextual_precision/contextual_precision.py +56 -92
deepeval/metrics/contextual_recall/contextual_recall.py +58 -85
deepeval/metrics/contextual_relevancy/contextual_relevancy.py +53 -83
deepeval/metrics/conversation_completeness/conversation_completeness.py +101 -119
deepeval/metrics/conversation_completeness/template.py +23 -3
deepeval/metrics/conversational_dag/conversational_dag.py +12 -8
deepeval/metrics/conversational_dag/nodes.py +66 -123
deepeval/metrics/conversational_dag/templates.py +16 -0
deepeval/metrics/conversational_g_eval/conversational_g_eval.py +47 -66
deepeval/metrics/dag/dag.py +10 -0
deepeval/metrics/dag/nodes.py +63 -126
deepeval/metrics/dag/templates.py +14 -0
deepeval/metrics/exact_match/exact_match.py +9 -1
deepeval/metrics/faithfulness/faithfulness.py +82 -136
deepeval/metrics/g_eval/g_eval.py +93 -79
deepeval/metrics/g_eval/template.py +18 -1
deepeval/metrics/g_eval/utils.py +7 -6
deepeval/metrics/goal_accuracy/goal_accuracy.py +91 -76
deepeval/metrics/goal_accuracy/template.py +21 -3
deepeval/metrics/hallucination/hallucination.py +60 -75
deepeval/metrics/hallucination/template.py +13 -0
deepeval/metrics/indicator.py +11 -10
deepeval/metrics/json_correctness/json_correctness.py +40 -38
deepeval/metrics/json_correctness/template.py +10 -0
deepeval/metrics/knowledge_retention/knowledge_retention.py +60 -97
deepeval/metrics/knowledge_retention/schema.py +9 -3
deepeval/metrics/knowledge_retention/template.py +12 -0
deepeval/metrics/mcp/mcp_task_completion.py +72 -43
deepeval/metrics/mcp/multi_turn_mcp_use_metric.py +93 -75
deepeval/metrics/mcp/schema.py +4 -0
deepeval/metrics/mcp/template.py +59 -0
deepeval/metrics/mcp_use_metric/mcp_use_metric.py +58 -64
deepeval/metrics/mcp_use_metric/template.py +12 -0
deepeval/metrics/misuse/misuse.py +77 -97
deepeval/metrics/misuse/template.py +15 -0
deepeval/metrics/multimodal_metrics/__init__.py +0 -1
deepeval/metrics/multimodal_metrics/image_coherence/image_coherence.py +37 -38
deepeval/metrics/multimodal_metrics/image_editing/image_editing.py +55 -76
deepeval/metrics/multimodal_metrics/image_helpfulness/image_helpfulness.py +37 -38
deepeval/metrics/multimodal_metrics/image_reference/image_reference.py +37 -38
deepeval/metrics/multimodal_metrics/text_to_image/text_to_image.py +57 -76
deepeval/metrics/non_advice/non_advice.py +79 -105
deepeval/metrics/non_advice/template.py +12 -0
deepeval/metrics/pattern_match/pattern_match.py +12 -4
deepeval/metrics/pii_leakage/pii_leakage.py +75 -106
deepeval/metrics/pii_leakage/template.py +14 -0
deepeval/metrics/plan_adherence/plan_adherence.py +63 -89
deepeval/metrics/plan_adherence/template.py +11 -0
deepeval/metrics/plan_quality/plan_quality.py +63 -87
deepeval/metrics/plan_quality/template.py +9 -0
deepeval/metrics/prompt_alignment/prompt_alignment.py +78 -86
deepeval/metrics/prompt_alignment/template.py +12 -0
deepeval/metrics/role_adherence/role_adherence.py +48 -71
deepeval/metrics/role_adherence/template.py +14 -0
deepeval/metrics/role_violation/role_violation.py +75 -108
deepeval/metrics/role_violation/template.py +12 -0
deepeval/metrics/step_efficiency/step_efficiency.py +55 -65
deepeval/metrics/step_efficiency/template.py +11 -0
deepeval/metrics/summarization/summarization.py +115 -183
deepeval/metrics/summarization/template.py +19 -0
deepeval/metrics/task_completion/task_completion.py +67 -73
deepeval/metrics/tool_correctness/tool_correctness.py +43 -42
deepeval/metrics/tool_use/schema.py +4 -0
deepeval/metrics/tool_use/template.py +16 -2
deepeval/metrics/tool_use/tool_use.py +72 -94
deepeval/metrics/topic_adherence/schema.py +4 -0
deepeval/metrics/topic_adherence/template.py +21 -1
deepeval/metrics/topic_adherence/topic_adherence.py +68 -81
deepeval/metrics/toxicity/template.py +13 -0
deepeval/metrics/toxicity/toxicity.py +80 -99
deepeval/metrics/turn_contextual_precision/schema.py +3 -3
deepeval/metrics/turn_contextual_precision/template.py +9 -2
deepeval/metrics/turn_contextual_precision/turn_contextual_precision.py +154 -154
deepeval/metrics/turn_contextual_recall/schema.py +3 -3
deepeval/metrics/turn_contextual_recall/template.py +8 -1
deepeval/metrics/turn_contextual_recall/turn_contextual_recall.py +148 -143
deepeval/metrics/turn_contextual_relevancy/schema.py +2 -2
deepeval/metrics/turn_contextual_relevancy/template.py +8 -1
deepeval/metrics/turn_contextual_relevancy/turn_contextual_relevancy.py +154 -157
deepeval/metrics/turn_faithfulness/schema.py +1 -1
deepeval/metrics/turn_faithfulness/template.py +8 -1
deepeval/metrics/turn_faithfulness/turn_faithfulness.py +180 -203
deepeval/metrics/turn_relevancy/template.py +14 -0
deepeval/metrics/turn_relevancy/turn_relevancy.py +56 -69
deepeval/metrics/utils.py +161 -91
deepeval/models/__init__.py +2 -0
deepeval/models/base_model.py +44 -6
deepeval/models/embedding_models/azure_embedding_model.py +34 -12
deepeval/models/embedding_models/local_embedding_model.py +22 -7
deepeval/models/embedding_models/ollama_embedding_model.py +17 -6
deepeval/models/embedding_models/openai_embedding_model.py +3 -2
deepeval/models/llms/__init__.py +2 -0
deepeval/models/llms/amazon_bedrock_model.py +229 -73
deepeval/models/llms/anthropic_model.py +143 -48
deepeval/models/llms/azure_model.py +169 -95
deepeval/models/llms/constants.py +2032 -0
deepeval/models/llms/deepseek_model.py +82 -35
deepeval/models/llms/gemini_model.py +126 -67
deepeval/models/llms/grok_model.py +128 -65
deepeval/models/llms/kimi_model.py +129 -87
deepeval/models/llms/litellm_model.py +94 -18
deepeval/models/llms/local_model.py +115 -16
deepeval/models/llms/ollama_model.py +97 -76
deepeval/models/llms/openai_model.py +169 -311
deepeval/models/llms/portkey_model.py +58 -16
deepeval/models/llms/utils.py +5 -2
deepeval/models/retry_policy.py +10 -5
deepeval/models/utils.py +56 -4
deepeval/simulator/conversation_simulator.py +49 -2
deepeval/simulator/template.py +16 -1
deepeval/synthesizer/synthesizer.py +19 -17
deepeval/test_case/api.py +24 -45
deepeval/test_case/arena_test_case.py +7 -2
deepeval/test_case/conversational_test_case.py +55 -6
deepeval/test_case/llm_test_case.py +60 -6
deepeval/test_run/api.py +3 -0
deepeval/test_run/test_run.py +6 -1
deepeval/utils.py +26 -0
{deepeval-3.7.5.dist-info → deepeval-3.7.7.dist-info}/METADATA +3 -3
{deepeval-3.7.5.dist-info → deepeval-3.7.7.dist-info}/RECORD +145 -148
deepeval/metrics/multimodal_metrics/multimodal_g_eval/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_g_eval/multimodal_g_eval.py +0 -386
deepeval/metrics/multimodal_metrics/multimodal_g_eval/schema.py +0 -11
deepeval/metrics/multimodal_metrics/multimodal_g_eval/template.py +0 -133
deepeval/metrics/multimodal_metrics/multimodal_g_eval/utils.py +0 -68
{deepeval-3.7.5.dist-info → deepeval-3.7.7.dist-info}/LICENSE.md +0 -0
{deepeval-3.7.5.dist-info → deepeval-3.7.7.dist-info}/WHEEL +0 -0
{deepeval-3.7.5.dist-info → deepeval-3.7.7.dist-info}/entry_points.txt +0 -0

deepeval/metrics/prompt_alignment/prompt_alignment.py CHANGED Viewed

@@ -2,12 +2,17 @@ import asyncio
 from typing import Optional, List, Union
-from deepeval.utils import get_or_create_event_loop, prettify_list
+from deepeval.utils import (
+    get_or_create_event_loop,
+    prettify_list,
+    get_per_task_timeout,
+)
 from deepeval.metrics.utils import (
     construct_verbose_logs,
-    trimAndLoadJson,
     check_llm_test_case_params,
     initialize_model,
+    a_generate_with_schema_and_extract,
+    generate_with_schema_and_extract,
 )
 from deepeval.test_case import (
     LLMTestCase,
@@ -18,7 +23,6 @@ from deepeval.models import DeepEvalBaseLLM
 from deepeval.metrics.prompt_alignment.template import PromptAlignmentTemplate
 from deepeval.metrics.indicator import metric_progress_indicator
 from deepeval.metrics.prompt_alignment import schema as paschema
-from deepeval.config.settings import get_settings
 from deepeval.metrics.api import metric_data_manager
@@ -60,7 +64,15 @@ class PromptAlignmentMetric(BaseMetric):
         _log_metric_to_confident: bool = True,
     ) -> float:
-        check_llm_test_case_params(test_case, self._required_params, self)
+        check_llm_test_case_params(
+            test_case,
+            self._required_params,
+            None,
+            None,
+            self,
+            self.model,
+            test_case.multimodal,
+        )
         self.evaluation_cost = 0 if self.using_native_model else None
         with metric_progress_indicator(
@@ -72,16 +84,19 @@ class PromptAlignmentMetric(BaseMetric):
                     test_case,
                     _show_indicator=False,
                     _in_component=_in_component,
+                    _log_metric_to_confident=_log_metric_to_confident,
                 )
                 loop.run_until_complete(
                     asyncio.wait_for(
                         coro,
-                        timeout=get_settings().DEEPEVAL_PER_TASK_TIMEOUT_SECONDS,
+                        timeout=get_per_task_timeout(),
                     )
                 )
             else:
-                self.verdicts: paschema.Verdicts = self._generate_verdicts(
-                    test_case.input, test_case.actual_output
+                self.verdicts: List[paschema.PromptAlignmentVerdict] = (
+                    self._generate_verdicts(
+                        test_case.input, test_case.actual_output
+                    )
                 )
                 self.score = self._calculate_score()
                 self.reason = self._generate_reason(
@@ -111,7 +126,15 @@ class PromptAlignmentMetric(BaseMetric):
         _log_metric_to_confident: bool = True,
     ) -> float:
-        check_llm_test_case_params(test_case, self._required_params, self)
+        check_llm_test_case_params(
+            test_case,
+            self._required_params,
+            None,
+            None,
+            self,
+            self.model,
+            test_case.multimodal,
+        )
         self.evaluation_cost = 0 if self.using_native_model else None
         with metric_progress_indicator(
@@ -120,8 +143,10 @@ class PromptAlignmentMetric(BaseMetric):
             _show_indicator=_show_indicator,
             _in_component=_in_component,
         ):
-            self.verdicts: paschema.Verdicts = await self._a_generate_verdicts(
-                test_case.input, test_case.actual_output
+            self.verdicts: List[paschema.PromptAlignmentVerdict] = (
+                await self._a_generate_verdicts(
+                    test_case.input, test_case.actual_output
+                )
             )
             self.score = self._calculate_score()
             self.reason = await self._a_generate_reason(
@@ -142,7 +167,9 @@ class PromptAlignmentMetric(BaseMetric):
                 )
             return self.score
-    async def _a_generate_reason(self, input: str, actual_output: str) -> str:
+    async def _a_generate_reason(
+        self, input: str, actual_output: str
+    ) -> Optional[str]:
         if self.include_reason is False:
             return None
@@ -157,27 +184,16 @@ class PromptAlignmentMetric(BaseMetric):
             actual_output=actual_output,
             score=format(self.score, ".2f"),
         )
-        if self.using_native_model:
-            res, cost = await self.model.a_generate(
-                prompt, schema=paschema.PromptAlignmentScoreReason
-            )
-            self.evaluation_cost += cost
-            return res.reason
-        else:
-            try:
-                res: paschema.PromptAlignmentScoreReason = (
-                    await self.model.a_generate(
-                        prompt=prompt,
-                        schema=paschema.PromptAlignmentScoreReason,
-                    )
-                )
-                return res.reason
-            except TypeError:
-                res = await self.model.a_generate(prompt)
-                data = trimAndLoadJson(res, self)
-                return data["reason"]
-    def _generate_reason(self, input: str, actual_output: str) -> str:
+        return await a_generate_with_schema_and_extract(
+            metric=self,
+            prompt=prompt,
+            schema_cls=paschema.PromptAlignmentScoreReason,
+            extract_schema=lambda s: s.reason,
+            extract_json=lambda data: data["reason"],
+        )
+    def _generate_reason(self, input: str, actual_output: str) -> Optional[str]:
         if self.include_reason is False:
             return None
@@ -192,78 +208,54 @@ class PromptAlignmentMetric(BaseMetric):
             actual_output=actual_output,
             score=format(self.score, ".2f"),
         )
-        if self.using_native_model:
-            res, cost = self.model.generate(
-                prompt, schema=paschema.PromptAlignmentScoreReason
-            )
-            self.evaluation_cost += cost
-            return res.reason
-        else:
-            try:
-                res: paschema.PromptAlignmentScoreReason = self.model.generate(
-                    prompt=prompt, schema=paschema.PromptAlignmentScoreReason
-                )
-                return res.reason
-            except TypeError:
-                res = self.model.generate(prompt)
-                data = trimAndLoadJson(res, self)
-                return data["reason"]
+        return generate_with_schema_and_extract(
+            metric=self,
+            prompt=prompt,
+            schema_cls=paschema.PromptAlignmentScoreReason,
+            extract_schema=lambda s: s.reason,
+            extract_json=lambda data: data["reason"],
+        )
     async def _a_generate_verdicts(
         self, input: str, actual_output: str
-    ) -> paschema.Verdicts:
+    ) -> List[paschema.PromptAlignmentVerdict]:
         prompt = PromptAlignmentTemplate.generate_verdicts(
             prompt_instructions=self.prompt_instructions,
             input=input,
             actual_output=actual_output,
         )
-        if self.using_native_model:
-            res, cost = await self.model.a_generate(
-                prompt, schema=paschema.Verdicts
-            )
-            self.evaluation_cost += cost
-            return [item for item in res.verdicts]
-        else:
-            try:
-                res: paschema.Verdicts = await self.model.a_generate(
-                    prompt, schema=paschema.Verdicts
-                )
-                return [item for item in res.verdicts]
-            except TypeError:
-                res = await self.model.a_generate(prompt)
-                data = trimAndLoadJson(res, self)
-                return [
-                    paschema.PromptAlignmentVerdict(**item)
-                    for item in data["verdicts"]
-                ]
+        return await a_generate_with_schema_and_extract(
+            metric=self,
+            prompt=prompt,
+            schema_cls=paschema.Verdicts,
+            extract_schema=lambda s: list(s.verdicts),
+            extract_json=lambda data: [
+                paschema.PromptAlignmentVerdict(**item)
+                for item in data["verdicts"]
+            ],
+        )
     def _generate_verdicts(
         self, input: str, actual_output: str
-    ) -> paschema.Verdicts:
+    ) -> List[paschema.PromptAlignmentVerdict]:
         prompt = PromptAlignmentTemplate.generate_verdicts(
             prompt_instructions=self.prompt_instructions,
             input=input,
             actual_output=actual_output,
         )
-        if self.using_native_model:
-            res, cost = self.model.generate(prompt, schema=paschema.Verdicts)
-            self.evaluation_cost += cost
-            return [item for item in res.verdicts]
-        else:
-            try:
-                res: paschema.Verdicts = self.model.generate(
-                    prompt, schema=paschema.Verdicts
-                )
-                return [item for item in res.verdicts]
-            except TypeError:
-                res = self.model.generate(prompt)
-                data = trimAndLoadJson(res, self)
-                return [
-                    paschema.PromptAlignmentVerdict(**item)
-                    for item in data["verdicts"]
-                ]
+        return generate_with_schema_and_extract(
+            metric=self,
+            prompt=prompt,
+            schema_cls=paschema.Verdicts,
+            extract_schema=lambda s: list(s.verdicts),
+            extract_json=lambda data: [
+                paschema.PromptAlignmentVerdict(**item)
+                for item in data["verdicts"]
+            ],
+        )
-    def _calculate_score(self):
+    def _calculate_score(self) -> float:
         number_of_verdicts = len(self.verdicts)
         if number_of_verdicts == 0:
             return 1

deepeval/metrics/prompt_alignment/template.py CHANGED Viewed

@@ -2,6 +2,14 @@ from typing import List
 class PromptAlignmentTemplate:
+    multimodal_rules = """
+        --- MULTIMODAL INPUT RULES ---
+        - Treat image content as factual evidence.
+        - Only reference visual details that are explicitly and clearly visible.
+        - Do not infer or guess objects, text, or details not visibly present.
+        - If an image is unclear or ambiguous, mark uncertainty explicitly.
+    """
     @staticmethod
     def generate_verdicts(
         prompt_instructions: List[str], input: str, actual_output: str
@@ -14,6 +22,8 @@ The 'reason' is the reason for the verdict.
 Provide a 'reason' ONLY if the answer is 'no'.
 The provided prompt instructions are the instructions to be followed in the prompt, which you have no access to.
+{PromptAlignmentTemplate.multimodal_rules}
 **
 IMPORTANT: Please make sure to only return in JSON format, with the 'verdicts' key mapping to a list of JSON objects.
 Example input: What number is the stars of the sky?
@@ -63,6 +73,8 @@ The unalignments represent prompt instructions that are not followed by the LLM
 If there no unaligments, just say something positive with an upbeat encouraging tone (but don't overdo it otherwise it gets annoying).
 Don't have to talk about whether the actual output is a good fit for the input, access ENTIRELY based on the unalignment reasons.
+{PromptAlignmentTemplate.multimodal_rules}
 **
 IMPORTANT: Please make sure to only return in JSON format, with the 'reason' key providing the reason.
 Example JSON:

deepeval/metrics/role_adherence/role_adherence.py CHANGED Viewed

@@ -4,20 +4,21 @@ from deepeval.metrics import BaseConversationalMetric
 from deepeval.metrics.api import metric_data_manager
 from deepeval.metrics.role_adherence.schema import (
     OutOfCharacterResponseVerdicts,
+    RoleAdherenceScoreReason,
 )
 from deepeval.metrics.role_adherence.template import RoleAdherenceTemplate
 from deepeval.metrics.utils import (
     check_conversational_test_case_params,
     construct_verbose_logs,
     convert_turn_to_dict,
-    trimAndLoadJson,
     initialize_model,
+    a_generate_with_schema_and_extract,
+    generate_with_schema_and_extract,
 )
 from deepeval.models import DeepEvalBaseLLM
 from deepeval.metrics.indicator import metric_progress_indicator
 from deepeval.test_case import Turn, ConversationalTestCase, TurnParams
 from deepeval.utils import get_or_create_event_loop, prettify_list
-from deepeval.metrics.role_adherence.schema import *
 class RoleAdherenceMetric(BaseConversationalMetric):
@@ -51,7 +52,9 @@ class RoleAdherenceMetric(BaseConversationalMetric):
             test_case,
             self._required_test_case_params,
             self,
-            require_chatbot_role=True,
+            True,
+            self.model,
+            test_case.multimodal,
         )
         self.evaluation_cost = 0 if self.using_native_model else None
@@ -102,7 +105,9 @@ class RoleAdherenceMetric(BaseConversationalMetric):
             test_case,
             self._required_test_case_params,
             self,
-            require_chatbot_role=True,
+            True,
+            self.model,
+            test_case.multimodal,
         )
         self.evaluation_cost = 0 if self.using_native_model else None
@@ -138,7 +143,7 @@ class RoleAdherenceMetric(BaseConversationalMetric):
                 )
             return self.score
-    async def _a_generate_reason(self, role: str) -> str:
+    async def _a_generate_reason(self, role: str) -> Optional[str]:
         if self.include_reason is False:
             return None
@@ -150,24 +155,17 @@ class RoleAdherenceMetric(BaseConversationalMetric):
                 for verdict in self.out_of_character_verdicts.verdicts
             ],
         )
-        if self.using_native_model:
-            res, cost = await self.model.a_generate(
-                prompt, schema=RoleAdherenceScoreReason
-            )
-            self.evaluation_cost += cost
-            return res.reason
-        else:
-            try:
-                res: RoleAdherenceScoreReason = await self.model.a_generate(
-                    prompt, schema=RoleAdherenceScoreReason
-                )
-                return res.reason
-            except TypeError:
-                res = await self.model.a_generate(prompt)
-                data = trimAndLoadJson(res, self)
-                return data["reason"]
+        return await a_generate_with_schema_and_extract(
+            metric=self,
+            prompt=prompt,
+            schema_cls=RoleAdherenceScoreReason,
+            extract_schema=lambda s: s.reason,
+            extract_json=lambda data: data["reason"],
+        )
-    def _generate_reason(self, role: str) -> str:
+    def _generate_reason(self, role: str) -> Optional[str]:
+        if self.include_reason is False:
+            return None
         prompt = RoleAdherenceTemplate.generate_reason(
             score=self.score,
             role=role,
@@ -176,22 +174,13 @@ class RoleAdherenceMetric(BaseConversationalMetric):
                 for verdict in self.out_of_character_verdicts.verdicts
             ],
         )
-        if self.using_native_model:
-            res, cost = self.model.generate(
-                prompt, schema=RoleAdherenceScoreReason
-            )
-            self.evaluation_cost += cost
-            return res.reason
-        else:
-            try:
-                res: RoleAdherenceScoreReason = self.model.generate(
-                    prompt, schema=RoleAdherenceScoreReason
-                )
-                return res.reason
-            except TypeError:
-                res = self.model.generate(prompt)
-                data = trimAndLoadJson(res, self)
-                return data["reason"]
+        return generate_with_schema_and_extract(
+            metric=self,
+            prompt=prompt,
+            schema_cls=RoleAdherenceScoreReason,
+            extract_schema=lambda s: s.reason,
+            extract_json=lambda data: data["reason"],
+        )
     async def _a_extract_out_of_character_verdicts(
         self, turns: List[Turn], role: str
@@ -202,28 +191,23 @@ class RoleAdherenceMetric(BaseConversationalMetric):
                 role=role,
             )
         )
-        if self.using_native_model:
-            res, cost = await self.model.a_generate(
-                prompt, schema=OutOfCharacterResponseVerdicts
+        res: OutOfCharacterResponseVerdicts = (
+            await a_generate_with_schema_and_extract(
+                metric=self,
+                prompt=prompt,
+                schema_cls=OutOfCharacterResponseVerdicts,
+                extract_schema=lambda s: s,
+                extract_json=lambda data: OutOfCharacterResponseVerdicts(
+                    **data
+                ),
             )
-            self.evaluation_cost += cost
-        else:
-            try:
-                res: OutOfCharacterResponseVerdicts = (
-                    await self.model.a_generate(
-                        prompt, schema=OutOfCharacterResponseVerdicts
-                    )
-                )
-            except TypeError:
-                res = await self.model.a_generate(prompt)
-                data = trimAndLoadJson(res, self)
-                res = OutOfCharacterResponseVerdicts(**data)
+        )
         for verdict in res.verdicts:
             try:
                 index = verdict.index
                 verdict.ai_message = f"{turns[index].content} (turn #{index+1})"
-            except:
+            except Exception:
                 pass
         return res
@@ -236,26 +220,19 @@ class RoleAdherenceMetric(BaseConversationalMetric):
                 role=role,
             )
         )
-        if self.using_native_model:
-            res, cost = self.model.generate(
-                prompt, schema=OutOfCharacterResponseVerdicts
-            )
-            self.evaluation_cost += cost
-        else:
-            try:
-                res: OutOfCharacterResponseVerdicts = self.model.generate(
-                    prompt, schema=OutOfCharacterResponseVerdicts
-                )
-            except TypeError:
-                res = self.model.generate(prompt)
-                data = trimAndLoadJson(res, self)
-                res = OutOfCharacterResponseVerdicts(**data)
+        res: OutOfCharacterResponseVerdicts = generate_with_schema_and_extract(
+            metric=self,
+            prompt=prompt,
+            schema_cls=OutOfCharacterResponseVerdicts,
+            extract_schema=lambda s: s,
+            extract_json=lambda data: OutOfCharacterResponseVerdicts(**data),
+        )
         for verdict in res.verdicts:
             try:
                 index = verdict.index
                 verdict.ai_message = f"{turns[index].content} (turn #{index+1})"
-            except:
+            except Exception:
                 pass
         return res
@@ -278,8 +255,8 @@ class RoleAdherenceMetric(BaseConversationalMetric):
             self.success = False
         else:
             try:
-                self.score >= self.threshold
-            except:
+                self.success = self.score >= self.threshold
+            except TypeError:
                 self.success = False
         return self.success

deepeval/metrics/role_adherence/template.py CHANGED Viewed

@@ -2,11 +2,22 @@ from typing import List, Dict
 class RoleAdherenceTemplate:
+    multimodal_rules = """
+        --- MULTIMODAL INPUT RULES ---
+        - Treat image content as factual evidence.
+        - Only reference visual details that are explicitly and clearly visible.
+        - Do not infer or guess objects, text, or details not visibly present.
+        - If an image is unclear or ambiguous, mark uncertainty explicitly.
+    """
     @staticmethod
     def extract_out_of_character_response_verdicts(
         turns: List[Dict], role: str
     ):
         return f"""Based on the given list of message exchanges between a user and an LLM chatbot, generate a JSON object to specify which `ai_message` did not adhere to the specified chatbot role.
+{RoleAdherenceTemplate.multimodal_rules}
 The JSON will have 1 field: "verdicts", which is a list of verdicts specifying the indices and reasons of the LLM ai_message/responses that did NOT adhere to the chatbot role.
 You MUST USE look at all messages provided in the list of messages to make an informed judgement on role adherence.
@@ -72,6 +83,9 @@ JSON:
         return f"""Below is a list of LLM chatbot responses (ai_message) that is out of character with respect to the specified chatbot role. It is drawn from a list of messages in a conversation, which you have minimal knowledge of.
 Given the role adherence score, which is a 0-1 score indicating how well the chatbot responses has adhered to the given role through a conversation, with 1 being the best and 0 being worst, provide a reason by quoting the out of character responses to justify the score.
+{RoleAdherenceTemplate.multimodal_rules}
 **
 IMPORTANT: Please make sure to only return in JSON format, with the 'reason' key providing the reason.
 Example JSON:

deepeval 3.7.5__py3-none-any.whl → 3.7.7__py3-none-any.whl

deepeval 3.7.5py3-none-any.whl → 3.7.7py3-none-any.whl