PyPI - deepeval - Versions diffs - 3.7.5__py3-none-any.whl → 3.7.6__py3-none-any.whl - Mend

deepeval 3.7.5py3-none-any.whl → 3.7.6py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (133) hide show

deepeval/_version.py +1 -1
deepeval/config/settings.py +35 -1
deepeval/dataset/api.py +23 -1
deepeval/dataset/golden.py +106 -21
deepeval/evaluate/evaluate.py +0 -3
deepeval/evaluate/execute.py +10 -222
deepeval/evaluate/utils.py +6 -30
deepeval/key_handler.py +3 -0
deepeval/metrics/__init__.py +0 -4
deepeval/metrics/answer_relevancy/answer_relevancy.py +89 -132
deepeval/metrics/answer_relevancy/template.py +102 -179
deepeval/metrics/arena_g_eval/arena_g_eval.py +98 -96
deepeval/metrics/arena_g_eval/template.py +17 -1
deepeval/metrics/argument_correctness/argument_correctness.py +81 -87
deepeval/metrics/argument_correctness/template.py +19 -2
deepeval/metrics/base_metric.py +13 -41
deepeval/metrics/bias/bias.py +102 -108
deepeval/metrics/bias/template.py +14 -2
deepeval/metrics/contextual_precision/contextual_precision.py +56 -92
deepeval/metrics/contextual_recall/contextual_recall.py +58 -85
deepeval/metrics/contextual_relevancy/contextual_relevancy.py +53 -83
deepeval/metrics/conversation_completeness/conversation_completeness.py +101 -119
deepeval/metrics/conversation_completeness/template.py +23 -3
deepeval/metrics/conversational_dag/conversational_dag.py +12 -8
deepeval/metrics/conversational_dag/nodes.py +66 -123
deepeval/metrics/conversational_dag/templates.py +16 -0
deepeval/metrics/conversational_g_eval/conversational_g_eval.py +47 -66
deepeval/metrics/dag/dag.py +10 -0
deepeval/metrics/dag/nodes.py +63 -126
deepeval/metrics/dag/templates.py +14 -0
deepeval/metrics/exact_match/exact_match.py +9 -1
deepeval/metrics/faithfulness/faithfulness.py +82 -136
deepeval/metrics/g_eval/g_eval.py +87 -78
deepeval/metrics/g_eval/template.py +18 -1
deepeval/metrics/g_eval/utils.py +7 -6
deepeval/metrics/goal_accuracy/goal_accuracy.py +91 -76
deepeval/metrics/goal_accuracy/template.py +21 -3
deepeval/metrics/hallucination/hallucination.py +60 -75
deepeval/metrics/hallucination/template.py +13 -0
deepeval/metrics/indicator.py +3 -6
deepeval/metrics/json_correctness/json_correctness.py +40 -38
deepeval/metrics/json_correctness/template.py +10 -0
deepeval/metrics/knowledge_retention/knowledge_retention.py +60 -97
deepeval/metrics/knowledge_retention/schema.py +9 -3
deepeval/metrics/knowledge_retention/template.py +12 -0
deepeval/metrics/mcp/mcp_task_completion.py +68 -38
deepeval/metrics/mcp/multi_turn_mcp_use_metric.py +92 -74
deepeval/metrics/mcp/template.py +52 -0
deepeval/metrics/mcp_use_metric/mcp_use_metric.py +58 -64
deepeval/metrics/mcp_use_metric/template.py +12 -0
deepeval/metrics/misuse/misuse.py +77 -97
deepeval/metrics/misuse/template.py +15 -0
deepeval/metrics/multimodal_metrics/__init__.py +0 -1
deepeval/metrics/multimodal_metrics/image_coherence/image_coherence.py +37 -38
deepeval/metrics/multimodal_metrics/image_editing/image_editing.py +55 -76
deepeval/metrics/multimodal_metrics/image_helpfulness/image_helpfulness.py +37 -38
deepeval/metrics/multimodal_metrics/image_reference/image_reference.py +37 -38
deepeval/metrics/multimodal_metrics/text_to_image/text_to_image.py +57 -76
deepeval/metrics/non_advice/non_advice.py +79 -105
deepeval/metrics/non_advice/template.py +12 -0
deepeval/metrics/pattern_match/pattern_match.py +12 -4
deepeval/metrics/pii_leakage/pii_leakage.py +75 -106
deepeval/metrics/pii_leakage/template.py +14 -0
deepeval/metrics/plan_adherence/plan_adherence.py +63 -89
deepeval/metrics/plan_adherence/template.py +11 -0
deepeval/metrics/plan_quality/plan_quality.py +63 -87
deepeval/metrics/plan_quality/template.py +9 -0
deepeval/metrics/prompt_alignment/prompt_alignment.py +72 -83
deepeval/metrics/prompt_alignment/template.py +12 -0
deepeval/metrics/role_adherence/role_adherence.py +48 -71
deepeval/metrics/role_adherence/template.py +14 -0
deepeval/metrics/role_violation/role_violation.py +75 -108
deepeval/metrics/role_violation/template.py +12 -0
deepeval/metrics/step_efficiency/step_efficiency.py +55 -65
deepeval/metrics/step_efficiency/template.py +11 -0
deepeval/metrics/summarization/summarization.py +115 -183
deepeval/metrics/summarization/template.py +19 -0
deepeval/metrics/task_completion/task_completion.py +67 -73
deepeval/metrics/tool_correctness/tool_correctness.py +43 -42
deepeval/metrics/tool_use/tool_use.py +42 -66
deepeval/metrics/topic_adherence/template.py +13 -0
deepeval/metrics/topic_adherence/topic_adherence.py +53 -67
deepeval/metrics/toxicity/template.py +13 -0
deepeval/metrics/toxicity/toxicity.py +80 -99
deepeval/metrics/turn_contextual_precision/schema.py +3 -3
deepeval/metrics/turn_contextual_precision/template.py +1 -1
deepeval/metrics/turn_contextual_precision/turn_contextual_precision.py +110 -68
deepeval/metrics/turn_contextual_recall/schema.py +3 -3
deepeval/metrics/turn_contextual_recall/turn_contextual_recall.py +104 -61
deepeval/metrics/turn_contextual_relevancy/schema.py +2 -2
deepeval/metrics/turn_contextual_relevancy/turn_contextual_relevancy.py +106 -65
deepeval/metrics/turn_faithfulness/schema.py +1 -1
deepeval/metrics/turn_faithfulness/turn_faithfulness.py +104 -73
deepeval/metrics/turn_relevancy/template.py +14 -0
deepeval/metrics/turn_relevancy/turn_relevancy.py +56 -69
deepeval/metrics/utils.py +145 -90
deepeval/models/base_model.py +44 -6
deepeval/models/embedding_models/azure_embedding_model.py +34 -12
deepeval/models/embedding_models/local_embedding_model.py +22 -7
deepeval/models/embedding_models/ollama_embedding_model.py +17 -6
deepeval/models/embedding_models/openai_embedding_model.py +3 -2
deepeval/models/llms/amazon_bedrock_model.py +226 -71
deepeval/models/llms/anthropic_model.py +141 -47
deepeval/models/llms/azure_model.py +167 -94
deepeval/models/llms/constants.py +2032 -0
deepeval/models/llms/deepseek_model.py +79 -29
deepeval/models/llms/gemini_model.py +126 -67
deepeval/models/llms/grok_model.py +125 -59
deepeval/models/llms/kimi_model.py +126 -81
deepeval/models/llms/litellm_model.py +92 -18
deepeval/models/llms/local_model.py +114 -15
deepeval/models/llms/ollama_model.py +97 -76
deepeval/models/llms/openai_model.py +167 -310
deepeval/models/llms/portkey_model.py +58 -16
deepeval/models/llms/utils.py +5 -2
deepeval/models/utils.py +60 -4
deepeval/simulator/conversation_simulator.py +43 -0
deepeval/simulator/template.py +13 -0
deepeval/test_case/api.py +24 -45
deepeval/test_case/arena_test_case.py +7 -2
deepeval/test_case/conversational_test_case.py +55 -6
deepeval/test_case/llm_test_case.py +60 -6
deepeval/test_run/api.py +3 -0
{deepeval-3.7.5.dist-info → deepeval-3.7.6.dist-info}/METADATA +1 -1
{deepeval-3.7.5.dist-info → deepeval-3.7.6.dist-info}/RECORD +128 -132
deepeval/metrics/multimodal_metrics/multimodal_g_eval/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_g_eval/multimodal_g_eval.py +0 -386
deepeval/metrics/multimodal_metrics/multimodal_g_eval/schema.py +0 -11
deepeval/metrics/multimodal_metrics/multimodal_g_eval/template.py +0 -133
deepeval/metrics/multimodal_metrics/multimodal_g_eval/utils.py +0 -68
{deepeval-3.7.5.dist-info → deepeval-3.7.6.dist-info}/LICENSE.md +0 -0
{deepeval-3.7.5.dist-info → deepeval-3.7.6.dist-info}/WHEEL +0 -0
{deepeval-3.7.5.dist-info → deepeval-3.7.6.dist-info}/entry_points.txt +0 -0

deepeval/metrics/turn_contextual_relevancy/turn_contextual_relevancy.py CHANGED Viewed

@@ -1,6 +1,6 @@
 from typing import List, Optional, Union, Type, Tuple
 import asyncio
+import itertools
 from deepeval.test_case import ConversationalTestCase, TurnParams, Turn
 from deepeval.metrics import BaseConversationalMetric
 from deepeval.utils import (
@@ -12,6 +12,7 @@ from deepeval.metrics.utils import (
     trimAndLoadJson,
     check_conversational_test_case_params,
     get_unit_interactions,
+    get_turns_in_sliding_window,
     initialize_model,
 )
 from deepeval.models import DeepEvalBaseLLM
@@ -30,6 +31,7 @@ from deepeval.metrics.api import metric_data_manager
 class TurnContextualRelevancyMetric(BaseConversationalMetric):
     _required_test_case_params: List[TurnParams] = [
+        TurnParams.ROLE,
         TurnParams.CONTENT,
         TurnParams.RETRIEVAL_CONTEXT,
     ]
@@ -42,6 +44,7 @@ class TurnContextualRelevancyMetric(BaseConversationalMetric):
         async_mode: bool = True,
         strict_mode: bool = False,
         verbose_mode: bool = False,
+        window_size: int = 10,
         evaluation_template: Type[
             TurnContextualRelevancyTemplate
         ] = TurnContextualRelevancyTemplate,
@@ -53,6 +56,7 @@ class TurnContextualRelevancyMetric(BaseConversationalMetric):
         self.async_mode = async_mode
         self.strict_mode = strict_mode
         self.verbose_mode = verbose_mode
+        self.window_size = window_size
         self.evaluation_template = evaluation_template
     def measure(
@@ -89,9 +93,19 @@ class TurnContextualRelevancyMetric(BaseConversationalMetric):
                 )
             else:
                 unit_interactions = get_unit_interactions(test_case.turns)
-                scores = self._get_contextual_relevancy_scores(
-                    unit_interactions, multimodal
-                )
+                turns_windows: List[List[Turn]] = [
+                    list(itertools.chain(*window))
+                    for window in get_turns_in_sliding_window(
+                        unit_interactions, self.window_size
+                    )
+                ]
+                scores = []
+                for window in turns_windows:
+                    scores.extend(
+                        self._get_contextual_relevancy_scores(
+                            window, multimodal
+                        )
+                    )
                 self.score = self._calculate_score(scores)
                 self.success = self.score >= self.threshold
                 self.reason = self._generate_reason(scores)
@@ -137,9 +151,25 @@ class TurnContextualRelevancyMetric(BaseConversationalMetric):
             _in_component=_in_component,
         ):
             unit_interactions = get_unit_interactions(test_case.turns)
-            scores = await self._a_get_contextual_relevancy_scores(
-                unit_interactions, multimodal
-            )
+            turns_windows: List[List[Turn]] = [
+                list(itertools.chain(*window))
+                for window in get_turns_in_sliding_window(
+                    unit_interactions, self.window_size
+                )
+            ]
+            scores = []
+            tasks = []
+            async def get_individual_scores(window):
+                scores.extend(
+                    await self._a_get_contextual_relevancy_scores(
+                        window, multimodal
+                    )
+                )
+            for window in turns_windows:
+                tasks.append(get_individual_scores(window))
+            await asyncio.gather(*tasks)
             self.score = self._calculate_score(scores)
             self.success = self.score >= self.threshold
             self.reason = await self._a_generate_reason(scores)
@@ -160,69 +190,63 @@ class TurnContextualRelevancyMetric(BaseConversationalMetric):
             return self.score
     async def _a_get_contextual_relevancy_scores(
-        self, unit_interactions: List[List[Turn]], multimodal: bool
+        self, turns_window: List[Turn], multimodal: bool
     ):
-        async def get_interaction_score(unit_interaction: List[Turn]):
-            user_content = "User Message: "
-            retrieval_context = []
-            for turn in unit_interaction:
-                if turn.role == "user":
-                    user_content += f"\n{turn.content} "
-                else:
-                    retrieval_context.extend(turn.retrieval_context)
+        windows_scores = []
-            # Generate verdicts for each retrieval context
-            verdicts = await self._a_generate_verdicts(
-                user_content, retrieval_context, multimodal
-            )
-            score, reason = await self._a_get_interaction_score_and_reason(
-                user_content, verdicts, multimodal
-            )
-            interaction_score = InteractionContextualRelevancyScore(
-                score=score,
-                reason=reason,
-                verdicts=verdicts,
-            )
-            return interaction_score
+        user_content = ""
+        retrieval_context = []
+        for turn in turns_window:
+            if turn.role == "user":
+                user_content += f"\n{turn.content} "
+            else:
+                if turn.retrieval_context is not None:
+                    retrieval_context.extend(turn.retrieval_context)
-        final_scores = await asyncio.gather(
-            *[
-                get_interaction_score(unit_interaction)
-                for unit_interaction in unit_interactions
-            ]
+        verdicts = await self._a_generate_verdicts(
+            user_content, retrieval_context, multimodal
+        )
+        score, reason = await self._a_get_interaction_score_and_reason(
+            user_content, verdicts, multimodal
+        )
+        interaction_score = InteractionContextualRelevancyScore(
+            score=score,
+            reason=reason,
+            verdicts=verdicts,
         )
-        return final_scores
+        windows_scores.append(interaction_score)
+        return windows_scores
     def _get_contextual_relevancy_scores(
-        self, unit_interactions: List[List[Turn]], multimodal: bool
+        self, turns_window: List[Turn], multimodal: bool
     ):
-        interaction_scores = []
-        for unit_interaction in unit_interactions:
-            user_content = "User Message: "
-            retrieval_context = []
-            for turn in unit_interaction:
-                if turn.role == "user":
-                    user_content += f"\n{turn.content} "
-                else:
+        windows_scores = []
+        user_content = ""
+        retrieval_context = []
+        for turn in turns_window:
+            if turn.role == "user":
+                user_content += f"\n{turn.content} "
+            else:
+                if turn.retrieval_context is not None:
                     retrieval_context.extend(turn.retrieval_context)
-            # Generate verdicts for each retrieval context
-            verdicts = self._generate_verdicts(
-                user_content, retrieval_context, multimodal
-            )
-            score, reason = self._get_interaction_score_and_reason(
-                user_content, verdicts, multimodal
-            )
-            interaction_score = InteractionContextualRelevancyScore(
-                score=score,
-                reason=reason,
-                verdicts=verdicts,
-            )
-            interaction_scores.append(interaction_score)
+        verdicts = self._generate_verdicts(
+            user_content, retrieval_context, multimodal
+        )
+        score, reason = self._get_interaction_score_and_reason(
+            user_content, verdicts, multimodal
+        )
+        interaction_score = InteractionContextualRelevancyScore(
+            score=score,
+            reason=reason,
+            verdicts=verdicts,
+        )
+        windows_scores.append(interaction_score)
-        return interaction_scores
+        return windows_scores
     async def _a_generate_verdicts(
         self, input: str, retrieval_context: List[str], multimodal: bool
@@ -313,7 +337,10 @@ class TurnContextualRelevancyMetric(BaseConversationalMetric):
         multimodal: bool,
     ) -> Tuple[float, str]:
         if len(verdicts) == 0:
-            return 1, None
+            return (
+                1,
+                "There were no retrieval contexts in the given turns to evaluate the contextual relevancy.",
+            )
         score = self._calculate_interaction_score(verdicts)
         reason = await self._a_get_interaction_reason(
@@ -332,7 +359,10 @@ class TurnContextualRelevancyMetric(BaseConversationalMetric):
         multimodal: bool,
     ) -> Tuple[float, str]:
         if len(verdicts) == 0:
-            return 1, None
+            return (
+                1,
+                "There were no retrieval contexts in the given turns to evaluate the contextual relevancy.",
+            )
         score = self._calculate_interaction_score(verdicts)
         reason = self._get_interaction_reason(
@@ -377,7 +407,6 @@ class TurnContextualRelevancyMetric(BaseConversationalMetric):
             if verdict.verdict.strip().lower() == "yes":
                 relevant_statements.append(verdict.statement)
             else:
-                # Include the reason for irrelevance
                 irrelevant_statements.append(
                     f"{verdict.statement}: {verdict.reason}"
                 )
@@ -458,12 +487,12 @@ class TurnContextualRelevancyMetric(BaseConversationalMetric):
                 return data["reason"]
     def _get_verbose_steps(
-        self, interaction_scores: List[InteractionContextualRelevancyScore]
+        self, windows_scores: List[InteractionContextualRelevancyScore]
     ):
         steps = []
-        for index, interaction_score in enumerate(interaction_scores):
+        for index, interaction_score in enumerate(windows_scores):
             interaction_steps = [
-                f"Interaction {index + 1} \n",
+                f"Window {index + 1} \n",
                 f"Verdicts: {prettify_list(interaction_score.verdicts)} \n",
                 f"Score: {interaction_score.score} \n",
                 f"Reason: {interaction_score.reason} \n",
@@ -474,6 +503,12 @@ class TurnContextualRelevancyMetric(BaseConversationalMetric):
     def _generate_reason(
         self, scores: List[InteractionContextualRelevancyScore]
     ) -> str:
+        if self.include_reason is False:
+            return None
+        if len(scores) == 0:
+            return "There were no retrieval contexts in your turns to evaluate, hence the score is 1"
         reasons = []
         for score in scores:
             reasons.append(score.reason)
@@ -493,6 +528,12 @@ class TurnContextualRelevancyMetric(BaseConversationalMetric):
     async def _a_generate_reason(
         self, scores: List[InteractionContextualRelevancyScore]
     ) -> str:
+        if self.include_reason is False:
+            return None
+        if len(scores) == 0:
+            return "There were no retrieval contexts in your turns to evaluate, hence the score is 1"
         reasons = []
         for score in scores:
             reasons.append(score.reason)

deepeval/metrics/turn_faithfulness/schema.py CHANGED Viewed

@@ -25,7 +25,7 @@ class FaithfulnessScoreReason(BaseModel):
 class InteractionFaithfulnessScore(BaseModel):
     score: float
-    reason: str
+    reason: Optional[str]
     claims: List[str]
     truths: List[str]
     verdicts: List[FaithfulnessVerdict]

deepeval/metrics/turn_faithfulness/turn_faithfulness.py CHANGED Viewed

@@ -1,6 +1,6 @@
 from typing import List, Optional, Union, Type, Tuple
 import asyncio
+import itertools
 from deepeval.test_case import ConversationalTestCase, TurnParams, Turn
 from deepeval.metrics import BaseConversationalMetric
 from deepeval.utils import (
@@ -12,6 +12,7 @@ from deepeval.metrics.utils import (
     trimAndLoadJson,
     check_conversational_test_case_params,
     get_unit_interactions,
+    get_turns_in_sliding_window,
     initialize_model,
 )
 from deepeval.models import DeepEvalBaseLLM
@@ -32,6 +33,7 @@ from deepeval.metrics.api import metric_data_manager
 class TurnFaithfulnessMetric(BaseConversationalMetric):
     _required_test_case_params: List[TurnParams] = [
+        TurnParams.ROLE,
         TurnParams.CONTENT,
         TurnParams.RETRIEVAL_CONTEXT,
     ]
@@ -46,6 +48,7 @@ class TurnFaithfulnessMetric(BaseConversationalMetric):
         verbose_mode: bool = False,
         truths_extraction_limit: Optional[int] = None,
         penalize_ambiguous_claims: bool = False,
+        window_size: int = 10,
         evaluation_template: Type[
             TurnFaithfulnessTemplate
         ] = TurnFaithfulnessTemplate,
@@ -59,6 +62,7 @@ class TurnFaithfulnessMetric(BaseConversationalMetric):
         self.verbose_mode = verbose_mode
         self.evaluation_template = evaluation_template
         self.penalize_ambiguous_claims = penalize_ambiguous_claims
+        self.window_size = window_size
         self.truths_extraction_limit = truths_extraction_limit
         if self.truths_extraction_limit is not None:
@@ -98,9 +102,17 @@ class TurnFaithfulnessMetric(BaseConversationalMetric):
                 )
             else:
                 unit_interactions = get_unit_interactions(test_case.turns)
-                scores = self._get_faithfulness_scores(
-                    unit_interactions, multimodal
-                )
+                turns_windows: List[List[Turn]] = [
+                    list(itertools.chain(*window))
+                    for window in get_turns_in_sliding_window(
+                        unit_interactions, self.window_size
+                    )
+                ]
+                scores = []
+                for window in turns_windows:
+                    scores.extend(
+                        self._get_faithfulness_scores(window, multimodal)
+                    )
                 self.score = self._calculate_score(scores)
                 self.success = self.score >= self.threshold
                 self.reason = self._generate_reason(scores)
@@ -146,9 +158,23 @@ class TurnFaithfulnessMetric(BaseConversationalMetric):
             _in_component=_in_component,
         ):
             unit_interactions = get_unit_interactions(test_case.turns)
-            scores = await self._a_get_faithfulness_scores(
-                unit_interactions, multimodal
-            )
+            turns_windows: List[List[Turn]] = [
+                list(itertools.chain(*window))
+                for window in get_turns_in_sliding_window(
+                    unit_interactions, self.window_size
+                )
+            ]
+            scores = []
+            tasks = []
+            async def get_individual_scores(window):
+                scores.extend(
+                    await self._a_get_faithfulness_scores(window, multimodal)
+                )
+            for window in turns_windows:
+                tasks.append(get_individual_scores(window))
+            await asyncio.gather(*tasks)
             self.score = self._calculate_score(scores)
             self.success = self.score >= self.threshold
             self.reason = await self._a_generate_reason(scores)
@@ -169,82 +195,75 @@ class TurnFaithfulnessMetric(BaseConversationalMetric):
             return self.score
     async def _a_get_faithfulness_scores(
-        self, unit_interactions: List[List[Turn]], multimodal: bool
+        self, turns_window: List[Turn], multimodal: bool
     ):
-        async def get_interaction_score(unit_interaction: List[Turn]):
-            user_content = "User Message: "
-            retrieval_context = []
-            assistant_content = "Assistant Message: "
-            for turn in unit_interaction:
-                if turn.role == "user":
-                    user_content += f"\n{turn.content} "
-                else:
-                    assistant_content += f"\n{turn.content} "
+        windows_scores = []
+        user_content = ""
+        assistant_content = ""
+        retrieval_context = []
+        for turn in turns_window:
+            if turn.role == "user":
+                user_content += f"\n{turn.content} "
+            else:
+                assistant_content += f"\n{turn.content}"
+                if turn.retrieval_context is not None:
                     retrieval_context.extend(turn.retrieval_context)
-            truths = await self._a_generate_truths(
-                retrieval_context, multimodal
-            )
-            claims = await self._a_generate_claims(
-                user_content, assistant_content, multimodal
-            )
-            verdicts = await self._a_generate_verdicts(
-                claims, truths, multimodal
-            )
-            score, reason = self._get_interaction_score_and_reason(
-                verdicts, multimodal
-            )
-            interaction_score = InteractionFaithfulnessScore(
-                score=score,
-                reason=reason,
-                claims=claims,
-                truths=truths,
-                verdicts=verdicts,
-            )
-            return interaction_score
-        final_scores = await asyncio.gather(
-            *[
-                get_interaction_score(unit_interaction)
-                for unit_interaction in unit_interactions
-            ]
+        truths = await self._a_generate_truths(retrieval_context, multimodal)
+        claims = await self._a_generate_claims(
+            user_content, assistant_content, multimodal
+        )
+        verdicts = await self._a_generate_verdicts(claims, truths, multimodal)
+        score, reason = self._get_interaction_score_and_reason(
+            verdicts, multimodal
         )
+        interaction_score = InteractionFaithfulnessScore(
+            score=score,
+            reason=reason,
+            claims=claims,
+            truths=truths,
+            verdicts=verdicts,
+        )
+        windows_scores.append(interaction_score)
-        return final_scores
+        return windows_scores
     def _get_faithfulness_scores(
-        self, unit_interactions: List[List[Turn]], multimodal: bool
+        self, turns_window: List[Turn], multimodal: bool
     ):
-        interaction_scores = []
-        for unit_interaction in unit_interactions:
-            user_content = "User Message: "
-            retrieval_context = []
-            assistant_content = "Assistant Message: "
-            for turn in unit_interaction:
-                if turn.role == "user":
-                    user_content += f"\n{turn.content} "
-                else:
-                    assistant_content += f"\n{turn.content} "
+        windows_scores = []
+        user_content = ""
+        assistant_content = ""
+        retrieval_context = []
+        for turn in turns_window:
+            if turn.role == "user":
+                user_content += f"\n{turn.content} "
+            else:
+                assistant_content += f"\n{turn.content}"
+                if turn.retrieval_context is not None:
                     retrieval_context.extend(turn.retrieval_context)
-            truths = self._generate_truths(retrieval_context, multimodal)
-            claims = self._generate_claims(
-                user_content, assistant_content, multimodal
-            )
-            verdicts = self._generate_verdicts(claims, truths, multimodal)
-            score, reason = self._get_interaction_score_and_reason(
-                verdicts, multimodal
-            )
-            interaction_score = InteractionFaithfulnessScore(
-                score=score,
-                reason=reason,
-                claims=claims,
-                truths=truths,
-                verdicts=verdicts,
-            )
-            interaction_scores.append(interaction_score)
-        return interaction_scores
+        truths = self._generate_truths(retrieval_context, multimodal)
+        claims = self._generate_claims(
+            user_content, assistant_content, multimodal
+        )
+        verdicts = self._generate_verdicts(claims, truths, multimodal)
+        score, reason = self._get_interaction_score_and_reason(
+            verdicts, multimodal
+        )
+        interaction_score = InteractionFaithfulnessScore(
+            score=score,
+            reason=reason,
+            claims=claims,
+            truths=truths,
+            verdicts=verdicts,
+        )
+        windows_scores.append(interaction_score)
+        return windows_scores
     async def _a_generate_truths(
         self, retrieval_context: str, multimodal: bool
@@ -522,7 +541,7 @@ class TurnFaithfulnessMetric(BaseConversationalMetric):
         steps = []
         for index, interaction_score in enumerate(interaction_scores):
             interaction_steps = [
-                f"Interaction {index + 1} \n",
+                f"Window {index + 1} \n",
                 f"Truths: {prettify_list(interaction_score.truths)} \n",
                 f"Claims: {prettify_list(interaction_score.claims)} \n",
                 f"Verdicts: {prettify_list(interaction_score.verdicts)} \n",
@@ -535,6 +554,12 @@ class TurnFaithfulnessMetric(BaseConversationalMetric):
     def _generate_reason(
         self, scores: List[InteractionFaithfulnessScore]
     ) -> str:
+        if self.include_reason is False:
+            return None
+        if len(scores) == 0:
+            return "There were no retrieval contexts in your turns to evaluate, hence the score is 1"
         reasons = []
         for score in scores:
             reasons.append(score.reason)
@@ -554,6 +579,12 @@ class TurnFaithfulnessMetric(BaseConversationalMetric):
     async def _a_generate_reason(
         self, scores: List[InteractionFaithfulnessScore]
     ) -> str:
+        if self.include_reason is False:
+            return None
+        if len(scores) == 0:
+            return "There were no retrieval contexts in your turns to evaluate, hence the score is 1"
         reasons = []
         for score in scores:
             reasons.append(score.reason)

deepeval/metrics/turn_relevancy/template.py CHANGED Viewed

@@ -2,9 +2,20 @@ from typing import List, Dict
 class TurnRelevancyTemplate:
+    multimodal_rules = """
+        --- MULTIMODAL INPUT RULES ---
+        - Treat image content as factual evidence.
+        - Only reference visual details that are explicitly and clearly visible.
+        - Do not infer or guess objects, text, or details not visibly present.
+        - If an image is unclear or ambiguous, mark uncertainty explicitly.
+    """
     @staticmethod
     def generate_verdicts(sliding_window: List[Dict]):
         return f"""Based on the given list of message exchanges between a user and an LLM, generate a JSON object to indicate whether the LAST `assistant` message is relevant to context in messages. The JSON will have 2 fields: 'verdict' and 'reason'.
+{TurnRelevancyTemplate.multimodal_rules}
 The 'verdict' key should STRICTLY be either 'yes' or 'no', which states whether the last `assistant` message is relevant according to the context in messages
 Provide a 'reason' ONLY if the answer is 'no'.
 You MUST USE the previous messages (if any) provided in the list of messages to make an informed judgement on relevancy.
@@ -52,6 +63,9 @@ JSON:
     @staticmethod
     def generate_reason(score, irrelevancies):
         return f"""Below is a list of irrelevancies drawn from some messages in a conversation, which you have minimal knowledge of. It is a list of strings explaining why the 'assistant' messages are irrelevant to the 'user' messages.
+{TurnRelevancyTemplate.multimodal_rules}
 Given the relevancy score, which is a 0-1 score indicating how irrelevant the OVERALL AI messages are in a conversation (higher the better), CONCISELY summarize the irrelevancies to justify the score.
 **

deepeval 3.7.5__py3-none-any.whl → 3.7.6__py3-none-any.whl

deepeval 3.7.5py3-none-any.whl → 3.7.6py3-none-any.whl