PyPI - deepeval - Versions diffs - 3.7.5__py3-none-any.whl → 3.7.6__py3-none-any.whl - Mend

deepeval 3.7.5py3-none-any.whl → 3.7.6py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (133) hide show

deepeval/_version.py +1 -1
deepeval/config/settings.py +35 -1
deepeval/dataset/api.py +23 -1
deepeval/dataset/golden.py +106 -21
deepeval/evaluate/evaluate.py +0 -3
deepeval/evaluate/execute.py +10 -222
deepeval/evaluate/utils.py +6 -30
deepeval/key_handler.py +3 -0
deepeval/metrics/__init__.py +0 -4
deepeval/metrics/answer_relevancy/answer_relevancy.py +89 -132
deepeval/metrics/answer_relevancy/template.py +102 -179
deepeval/metrics/arena_g_eval/arena_g_eval.py +98 -96
deepeval/metrics/arena_g_eval/template.py +17 -1
deepeval/metrics/argument_correctness/argument_correctness.py +81 -87
deepeval/metrics/argument_correctness/template.py +19 -2
deepeval/metrics/base_metric.py +13 -41
deepeval/metrics/bias/bias.py +102 -108
deepeval/metrics/bias/template.py +14 -2
deepeval/metrics/contextual_precision/contextual_precision.py +56 -92
deepeval/metrics/contextual_recall/contextual_recall.py +58 -85
deepeval/metrics/contextual_relevancy/contextual_relevancy.py +53 -83
deepeval/metrics/conversation_completeness/conversation_completeness.py +101 -119
deepeval/metrics/conversation_completeness/template.py +23 -3
deepeval/metrics/conversational_dag/conversational_dag.py +12 -8
deepeval/metrics/conversational_dag/nodes.py +66 -123
deepeval/metrics/conversational_dag/templates.py +16 -0
deepeval/metrics/conversational_g_eval/conversational_g_eval.py +47 -66
deepeval/metrics/dag/dag.py +10 -0
deepeval/metrics/dag/nodes.py +63 -126
deepeval/metrics/dag/templates.py +14 -0
deepeval/metrics/exact_match/exact_match.py +9 -1
deepeval/metrics/faithfulness/faithfulness.py +82 -136
deepeval/metrics/g_eval/g_eval.py +87 -78
deepeval/metrics/g_eval/template.py +18 -1
deepeval/metrics/g_eval/utils.py +7 -6
deepeval/metrics/goal_accuracy/goal_accuracy.py +91 -76
deepeval/metrics/goal_accuracy/template.py +21 -3
deepeval/metrics/hallucination/hallucination.py +60 -75
deepeval/metrics/hallucination/template.py +13 -0
deepeval/metrics/indicator.py +3 -6
deepeval/metrics/json_correctness/json_correctness.py +40 -38
deepeval/metrics/json_correctness/template.py +10 -0
deepeval/metrics/knowledge_retention/knowledge_retention.py +60 -97
deepeval/metrics/knowledge_retention/schema.py +9 -3
deepeval/metrics/knowledge_retention/template.py +12 -0
deepeval/metrics/mcp/mcp_task_completion.py +68 -38
deepeval/metrics/mcp/multi_turn_mcp_use_metric.py +92 -74
deepeval/metrics/mcp/template.py +52 -0
deepeval/metrics/mcp_use_metric/mcp_use_metric.py +58 -64
deepeval/metrics/mcp_use_metric/template.py +12 -0
deepeval/metrics/misuse/misuse.py +77 -97
deepeval/metrics/misuse/template.py +15 -0
deepeval/metrics/multimodal_metrics/__init__.py +0 -1
deepeval/metrics/multimodal_metrics/image_coherence/image_coherence.py +37 -38
deepeval/metrics/multimodal_metrics/image_editing/image_editing.py +55 -76
deepeval/metrics/multimodal_metrics/image_helpfulness/image_helpfulness.py +37 -38
deepeval/metrics/multimodal_metrics/image_reference/image_reference.py +37 -38
deepeval/metrics/multimodal_metrics/text_to_image/text_to_image.py +57 -76
deepeval/metrics/non_advice/non_advice.py +79 -105
deepeval/metrics/non_advice/template.py +12 -0
deepeval/metrics/pattern_match/pattern_match.py +12 -4
deepeval/metrics/pii_leakage/pii_leakage.py +75 -106
deepeval/metrics/pii_leakage/template.py +14 -0
deepeval/metrics/plan_adherence/plan_adherence.py +63 -89
deepeval/metrics/plan_adherence/template.py +11 -0
deepeval/metrics/plan_quality/plan_quality.py +63 -87
deepeval/metrics/plan_quality/template.py +9 -0
deepeval/metrics/prompt_alignment/prompt_alignment.py +72 -83
deepeval/metrics/prompt_alignment/template.py +12 -0
deepeval/metrics/role_adherence/role_adherence.py +48 -71
deepeval/metrics/role_adherence/template.py +14 -0
deepeval/metrics/role_violation/role_violation.py +75 -108
deepeval/metrics/role_violation/template.py +12 -0
deepeval/metrics/step_efficiency/step_efficiency.py +55 -65
deepeval/metrics/step_efficiency/template.py +11 -0
deepeval/metrics/summarization/summarization.py +115 -183
deepeval/metrics/summarization/template.py +19 -0
deepeval/metrics/task_completion/task_completion.py +67 -73
deepeval/metrics/tool_correctness/tool_correctness.py +43 -42
deepeval/metrics/tool_use/tool_use.py +42 -66
deepeval/metrics/topic_adherence/template.py +13 -0
deepeval/metrics/topic_adherence/topic_adherence.py +53 -67
deepeval/metrics/toxicity/template.py +13 -0
deepeval/metrics/toxicity/toxicity.py +80 -99
deepeval/metrics/turn_contextual_precision/schema.py +3 -3
deepeval/metrics/turn_contextual_precision/template.py +1 -1
deepeval/metrics/turn_contextual_precision/turn_contextual_precision.py +110 -68
deepeval/metrics/turn_contextual_recall/schema.py +3 -3
deepeval/metrics/turn_contextual_recall/turn_contextual_recall.py +104 -61
deepeval/metrics/turn_contextual_relevancy/schema.py +2 -2
deepeval/metrics/turn_contextual_relevancy/turn_contextual_relevancy.py +106 -65
deepeval/metrics/turn_faithfulness/schema.py +1 -1
deepeval/metrics/turn_faithfulness/turn_faithfulness.py +104 -73
deepeval/metrics/turn_relevancy/template.py +14 -0
deepeval/metrics/turn_relevancy/turn_relevancy.py +56 -69
deepeval/metrics/utils.py +145 -90
deepeval/models/base_model.py +44 -6
deepeval/models/embedding_models/azure_embedding_model.py +34 -12
deepeval/models/embedding_models/local_embedding_model.py +22 -7
deepeval/models/embedding_models/ollama_embedding_model.py +17 -6
deepeval/models/embedding_models/openai_embedding_model.py +3 -2
deepeval/models/llms/amazon_bedrock_model.py +226 -71
deepeval/models/llms/anthropic_model.py +141 -47
deepeval/models/llms/azure_model.py +167 -94
deepeval/models/llms/constants.py +2032 -0
deepeval/models/llms/deepseek_model.py +79 -29
deepeval/models/llms/gemini_model.py +126 -67
deepeval/models/llms/grok_model.py +125 -59
deepeval/models/llms/kimi_model.py +126 -81
deepeval/models/llms/litellm_model.py +92 -18
deepeval/models/llms/local_model.py +114 -15
deepeval/models/llms/ollama_model.py +97 -76
deepeval/models/llms/openai_model.py +167 -310
deepeval/models/llms/portkey_model.py +58 -16
deepeval/models/llms/utils.py +5 -2
deepeval/models/utils.py +60 -4
deepeval/simulator/conversation_simulator.py +43 -0
deepeval/simulator/template.py +13 -0
deepeval/test_case/api.py +24 -45
deepeval/test_case/arena_test_case.py +7 -2
deepeval/test_case/conversational_test_case.py +55 -6
deepeval/test_case/llm_test_case.py +60 -6
deepeval/test_run/api.py +3 -0
{deepeval-3.7.5.dist-info → deepeval-3.7.6.dist-info}/METADATA +1 -1
{deepeval-3.7.5.dist-info → deepeval-3.7.6.dist-info}/RECORD +128 -132
deepeval/metrics/multimodal_metrics/multimodal_g_eval/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_g_eval/multimodal_g_eval.py +0 -386
deepeval/metrics/multimodal_metrics/multimodal_g_eval/schema.py +0 -11
deepeval/metrics/multimodal_metrics/multimodal_g_eval/template.py +0 -133
deepeval/metrics/multimodal_metrics/multimodal_g_eval/utils.py +0 -68
{deepeval-3.7.5.dist-info → deepeval-3.7.6.dist-info}/LICENSE.md +0 -0
{deepeval-3.7.5.dist-info → deepeval-3.7.6.dist-info}/WHEEL +0 -0
{deepeval-3.7.5.dist-info → deepeval-3.7.6.dist-info}/entry_points.txt +0 -0

deepeval/metrics/turn_contextual_precision/turn_contextual_precision.py CHANGED Viewed

@@ -1,6 +1,6 @@
 from typing import List, Optional, Union, Type, Tuple
 import asyncio
+import itertools
 from deepeval.test_case import ConversationalTestCase, TurnParams, Turn
 from deepeval.metrics import BaseConversationalMetric
 from deepeval.utils import (
@@ -12,6 +12,7 @@ from deepeval.metrics.utils import (
     trimAndLoadJson,
     check_conversational_test_case_params,
     get_unit_interactions,
+    get_turns_in_sliding_window,
     initialize_model,
 )
 from deepeval.models import DeepEvalBaseLLM
@@ -30,6 +31,7 @@ from deepeval.metrics.api import metric_data_manager
 class TurnContextualPrecisionMetric(BaseConversationalMetric):
     _required_test_case_params: List[TurnParams] = [
+        TurnParams.ROLE,
         TurnParams.CONTENT,
         TurnParams.RETRIEVAL_CONTEXT,
         TurnParams.EXPECTED_OUTCOME,
@@ -43,6 +45,7 @@ class TurnContextualPrecisionMetric(BaseConversationalMetric):
         async_mode: bool = True,
         strict_mode: bool = False,
         verbose_mode: bool = False,
+        window_size: int = 10,
         evaluation_template: Type[
             TurnContextualPrecisionTemplate
         ] = TurnContextualPrecisionTemplate,
@@ -54,6 +57,7 @@ class TurnContextualPrecisionMetric(BaseConversationalMetric):
         self.async_mode = async_mode
         self.strict_mode = strict_mode
         self.verbose_mode = verbose_mode
+        self.window_size = window_size
         self.evaluation_template = evaluation_template
     def measure(
@@ -90,9 +94,19 @@ class TurnContextualPrecisionMetric(BaseConversationalMetric):
                 )
             else:
                 unit_interactions = get_unit_interactions(test_case.turns)
-                scores = self._get_contextual_precision_scores(
-                    unit_interactions, test_case.expected_outcome, multimodal
-                )
+                turns_windows: List[List[Turn]] = [
+                    list(itertools.chain(*window))
+                    for window in get_turns_in_sliding_window(
+                        unit_interactions, self.window_size
+                    )
+                ]
+                scores = []
+                for window in turns_windows:
+                    scores.extend(
+                        self._get_contextual_precision_scores(
+                            window, test_case.expected_outcome, multimodal
+                        )
+                    )
                 self.score = self._calculate_score(scores)
                 self.success = self.score >= self.threshold
                 self.reason = self._generate_reason(scores)
@@ -138,9 +152,25 @@ class TurnContextualPrecisionMetric(BaseConversationalMetric):
             _in_component=_in_component,
         ):
             unit_interactions = get_unit_interactions(test_case.turns)
-            scores = await self._a_get_contextual_precision_scores(
-                unit_interactions, test_case.expected_outcome, multimodal
-            )
+            turns_windows: List[List[Turn]] = [
+                list(itertools.chain(*window))
+                for window in get_turns_in_sliding_window(
+                    unit_interactions, self.window_size
+                )
+            ]
+            scores = []
+            tasks = []
+            async def get_individual_scores(window):
+                scores.extend(
+                    await self._a_get_contextual_precision_scores(
+                        window, test_case.expected_outcome, multimodal
+                    )
+                )
+            for window in turns_windows:
+                tasks.append(get_individual_scores(window))
+            await asyncio.gather(*tasks)
             self.score = self._calculate_score(scores)
             self.success = self.score >= self.threshold
             self.reason = await self._a_generate_reason(scores)
@@ -162,78 +192,73 @@ class TurnContextualPrecisionMetric(BaseConversationalMetric):
     async def _a_get_contextual_precision_scores(
         self,
-        unit_interactions: List[List[Turn]],
-        _expected_outcome: str,
+        turns_window: List[Turn],
+        expected_outcome: str,
         multimodal: bool,
     ):
-        async def get_interaction_score(unit_interaction: List[Turn]):
-            user_content = "User Message: "
-            retrieval_context = []
-            expected_outcome = (
-                f"Expected Assistant Message: \n{_expected_outcome}"
-            )
-            for turn in unit_interaction:
-                if turn.role == "user":
-                    user_content += f"\n{turn.content} "
-                else:
-                    retrieval_context.extend(turn.retrieval_context)
+        windows_scores = []
-            verdicts = await self._a_generate_verdicts(
-                user_content, expected_outcome, retrieval_context, multimodal
-            )
-            score, reason = await self._a_get_interaction_score_and_reason(
-                user_content, verdicts, multimodal
-            )
-            interaction_score = InteractionContextualPrecisionScore(
-                score=score,
-                reason=reason,
-                verdicts=verdicts,
-            )
-            return interaction_score
+        user_content = ""
+        retrieval_context = []
+        for turn in turns_window:
+            if turn.role == "user":
+                user_content += f"\n{turn.content} "
+            else:
+                if turn.retrieval_context is not None:
+                    retrieval_context.extend(turn.retrieval_context)
-        final_scores = await asyncio.gather(
-            *[
-                get_interaction_score(unit_interaction)
-                for unit_interaction in unit_interactions
-            ]
+        verdicts = await self._a_generate_verdicts(
+            user_content,
+            expected_outcome,
+            retrieval_context,
+            multimodal,
         )
+        score, reason = await self._a_get_interaction_score_and_reason(
+            user_content, verdicts, multimodal
+        )
+        interaction_score = InteractionContextualPrecisionScore(
+            score=score,
+            reason=reason,
+            verdicts=verdicts,
+        )
+        windows_scores.append(interaction_score)
-        return final_scores
+        return windows_scores
     def _get_contextual_precision_scores(
         self,
-        unit_interactions: List[List[Turn]],
-        _expected_outcome: str,
+        turns_window: List[Turn],
+        expected_outcome: str,
         multimodal: bool,
     ):
-        interaction_scores = []
+        windows_scores = []
-        for unit_interaction in unit_interactions:
-            user_content = "User Message: "
-            retrieval_context = []
-            expected_outcome = (
-                f"Expected Assistant Message: \n{_expected_outcome}"
-            )
-            for turn in unit_interaction:
-                if turn.role == "user":
-                    user_content += f"\n{turn.content} "
-                else:
+        user_content = ""
+        retrieval_context = []
+        for turn in turns_window:
+            if turn.role == "user":
+                user_content += f"\n{turn.content} "
+            else:
+                if turn.retrieval_context is not None:
                     retrieval_context.extend(turn.retrieval_context)
-            verdicts = self._generate_verdicts(
-                user_content, expected_outcome, retrieval_context, multimodal
-            )
-            score, reason = self._get_interaction_score_and_reason(
-                user_content, verdicts, multimodal
-            )
-            interaction_score = InteractionContextualPrecisionScore(
-                score=score,
-                reason=reason,
-                verdicts=verdicts,
-            )
-            interaction_scores.append(interaction_score)
+        verdicts = self._generate_verdicts(
+            user_content,
+            expected_outcome,
+            retrieval_context,
+            multimodal,
+        )
+        score, reason = self._get_interaction_score_and_reason(
+            user_content, verdicts, multimodal
+        )
+        interaction_score = InteractionContextualPrecisionScore(
+            score=score,
+            reason=reason,
+            verdicts=verdicts,
+        )
+        windows_scores.append(interaction_score)
-        return interaction_scores
+        return windows_scores
     async def _a_generate_verdicts(
         self,
@@ -320,7 +345,10 @@ class TurnContextualPrecisionMetric(BaseConversationalMetric):
         multimodal: bool,
     ) -> Tuple[float, str]:
         if len(verdicts) == 0:
-            return 1, None
+            return (
+                1,
+                "There were no retrieval contexts in the given turns to evaluate the contextual precision.",
+            )
         score = self._calculate_interaction_score(verdicts)
         reason = await self._a_get_interaction_reason(
@@ -339,7 +367,10 @@ class TurnContextualPrecisionMetric(BaseConversationalMetric):
         multimodal: bool,
     ) -> Tuple[float, str]:
         if len(verdicts) == 0:
-            return 1, None
+            return (
+                1,
+                "There were no retrieval contexts in the given turns to evaluate the contextual precision.",
+            )
         score = self._calculate_interaction_score(verdicts)
         reason = self._get_interaction_reason(
@@ -376,7 +407,6 @@ class TurnContextualPrecisionMetric(BaseConversationalMetric):
         if relevant_nodes_count == 0:
             return 0
-        # Calculate Average Precision
         score = sum_weighted_precision_at_k / relevant_nodes_count
         return 0 if self.strict_mode and score < self.threshold else score
@@ -478,7 +508,7 @@ class TurnContextualPrecisionMetric(BaseConversationalMetric):
         steps = []
         for index, interaction_score in enumerate(interaction_scores):
             interaction_steps = [
-                f"Interaction {index + 1} \n",
+                f"Window {index + 1} \n",
                 f"Verdicts: {prettify_list(interaction_score.verdicts)} \n",
                 f"Score: {interaction_score.score} \n",
                 f"Reason: {interaction_score.reason} \n",
@@ -489,6 +519,12 @@ class TurnContextualPrecisionMetric(BaseConversationalMetric):
     def _generate_reason(
         self, scores: List[InteractionContextualPrecisionScore]
     ) -> str:
+        if self.include_reason is False:
+            return None
+        if len(scores) == 0:
+            return "There were no retrieval contexts in your turns to evaluate, hence the score is 1"
         reasons = []
         for score in scores:
             reasons.append(score.reason)
@@ -508,6 +544,12 @@ class TurnContextualPrecisionMetric(BaseConversationalMetric):
     async def _a_generate_reason(
         self, scores: List[InteractionContextualPrecisionScore]
     ) -> str:
+        if self.include_reason is False:
+            return None
+        if len(scores) == 0:
+            return "There were no retrieval contexts in your turns to evaluate, hence the score is 1"
         reasons = []
         for score in scores:
             reasons.append(score.reason)

deepeval/metrics/turn_contextual_recall/schema.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from typing import List
+from typing import List, Optional
 from pydantic import BaseModel
@@ -17,5 +17,5 @@ class ContextualRecallScoreReason(BaseModel):
 class InteractionContextualRecallScore(BaseModel):
     score: float
-    reason: str
-    verdicts: List[ContextualRecallVerdict]
+    reason: Optional[str]
+    verdicts: Optional[List[ContextualRecallVerdict]]

deepeval/metrics/turn_contextual_recall/turn_contextual_recall.py CHANGED Viewed

@@ -1,6 +1,6 @@
 from typing import List, Optional, Union, Type, Tuple
 import asyncio
+import itertools
 from deepeval.test_case import ConversationalTestCase, TurnParams, Turn
 from deepeval.metrics import BaseConversationalMetric
 from deepeval.utils import (
@@ -12,6 +12,7 @@ from deepeval.metrics.utils import (
     trimAndLoadJson,
     check_conversational_test_case_params,
     get_unit_interactions,
+    get_turns_in_sliding_window,
     initialize_model,
 )
 from deepeval.models import DeepEvalBaseLLM
@@ -30,6 +31,7 @@ from deepeval.metrics.api import metric_data_manager
 class TurnContextualRecallMetric(BaseConversationalMetric):
     _required_test_case_params: List[TurnParams] = [
+        TurnParams.ROLE,
         TurnParams.CONTENT,
         TurnParams.RETRIEVAL_CONTEXT,
         TurnParams.EXPECTED_OUTCOME,
@@ -43,6 +45,7 @@ class TurnContextualRecallMetric(BaseConversationalMetric):
         async_mode: bool = True,
         strict_mode: bool = False,
         verbose_mode: bool = False,
+        window_size: int = 10,
         evaluation_template: Type[
             TurnContextualRecallTemplate
         ] = TurnContextualRecallTemplate,
@@ -54,6 +57,7 @@ class TurnContextualRecallMetric(BaseConversationalMetric):
         self.async_mode = async_mode
         self.strict_mode = strict_mode
         self.verbose_mode = verbose_mode
+        self.window_size = window_size
         self.evaluation_template = evaluation_template
     def measure(
@@ -90,9 +94,19 @@ class TurnContextualRecallMetric(BaseConversationalMetric):
                 )
             else:
                 unit_interactions = get_unit_interactions(test_case.turns)
-                scores = self._get_contextual_recall_scores(
-                    unit_interactions, test_case.expected_outcome, multimodal
-                )
+                turns_windows: List[List[Turn]] = [
+                    list(itertools.chain(*window))
+                    for window in get_turns_in_sliding_window(
+                        unit_interactions, self.window_size
+                    )
+                ]
+                scores = []
+                for window in turns_windows:
+                    scores.extend(
+                        self._get_contextual_recall_scores(
+                            window, test_case.expected_outcome, multimodal
+                        )
+                    )
                 self.score = self._calculate_score(scores)
                 self.success = self.score >= self.threshold
                 self.reason = self._generate_reason(scores)
@@ -138,9 +152,25 @@ class TurnContextualRecallMetric(BaseConversationalMetric):
             _in_component=_in_component,
         ):
             unit_interactions = get_unit_interactions(test_case.turns)
-            scores = await self._a_get_contextual_recall_scores(
-                unit_interactions, test_case.expected_outcome, multimodal
-            )
+            turns_windows: List[List[Turn]] = [
+                list(itertools.chain(*window))
+                for window in get_turns_in_sliding_window(
+                    unit_interactions, self.window_size
+                )
+            ]
+            scores = []
+            tasks = []
+            async def get_individual_scores(window):
+                scores.extend(
+                    await self._a_get_contextual_recall_scores(
+                        window, test_case.multimodal, multimodal
+                    )
+                )
+            for window in turns_windows:
+                tasks.append(get_individual_scores(window))
+            await asyncio.gather(*tasks)
             self.score = self._calculate_score(scores)
             self.success = self.score >= self.threshold
             self.reason = await self._a_generate_reason(scores)
@@ -162,72 +192,67 @@ class TurnContextualRecallMetric(BaseConversationalMetric):
     async def _a_get_contextual_recall_scores(
         self,
-        unit_interactions: List[List[Turn]],
-        _expected_outcome: str,
+        turns_window: List[Turn],
+        expected_outcome: str,
         multimodal: bool,
     ):
-        async def get_interaction_score(unit_interaction: List[Turn]):
-            retrieval_context = []
-            expected_outcome = (
-                f"Expected Assistant Message: \n{_expected_outcome}"
-            )
-            for turn in unit_interaction:
-                if turn.role == "assistant":
-                    retrieval_context.extend(turn.retrieval_context)
+        windows_scores = []
-            verdicts = await self._a_generate_verdicts(
-                expected_outcome, retrieval_context, multimodal
-            )
-            score, reason = await self._a_get_interaction_score_and_reason(
-                expected_outcome, verdicts, multimodal
-            )
-            interaction_score = InteractionContextualRecallScore(
-                score=score,
-                reason=reason,
-                verdicts=verdicts,
-            )
-            return interaction_score
+        user_content = ""
+        retrieval_context = []
+        for turn in turns_window:
+            if turn.role == "user":
+                user_content += f"\n{turn.content} "
+            else:
+                if turn.retrieval_context is not None:
+                    retrieval_context.extend(turn.retrieval_context)
-        final_scores = await asyncio.gather(
-            *[
-                get_interaction_score(unit_interaction)
-                for unit_interaction in unit_interactions
-            ]
+        verdicts = await self._a_generate_verdicts(
+            expected_outcome, retrieval_context, multimodal
         )
+        score, reason = await self._a_get_interaction_score_and_reason(
+            expected_outcome, verdicts, multimodal
+        )
+        interaction_score = InteractionContextualRecallScore(
+            score=score,
+            reason=reason,
+            verdicts=verdicts,
+        )
+        windows_scores.append(interaction_score)
-        return final_scores
+        return windows_scores
     def _get_contextual_recall_scores(
         self,
-        unit_interactions: List[List[Turn]],
-        _expected_outcome: str,
+        turns_window: List[Turn],
+        expected_outcome: str,
         multimodal: bool,
     ):
-        interaction_scores = []
+        windows_scores = []
-        for unit_interaction in unit_interactions:
-            retrieval_context = []
-            expected_outcome = (
-                f"Expected Assistant Message: \n{_expected_outcome}"
-            )
-            for turn in unit_interaction:
-                if turn.role == "assistant":
+        user_content = ""
+        retrieval_context = []
+        for turn in turns_window:
+            if turn.role == "user":
+                user_content += f"\n{turn.content} "
+            else:
+                if turn.retrieval_context is not None:
                     retrieval_context.extend(turn.retrieval_context)
-            verdicts = self._generate_verdicts(
-                expected_outcome, retrieval_context, multimodal
-            )
-            score, reason = self._get_interaction_score_and_reason(
-                expected_outcome, verdicts, multimodal
-            )
-            interaction_score = InteractionContextualRecallScore(
-                score=score,
-                reason=reason,
-                verdicts=verdicts,
-            )
-            interaction_scores.append(interaction_score)
+        verdicts = self._generate_verdicts(
+            expected_outcome, retrieval_context, multimodal
+        )
+        score, reason = self._get_interaction_score_and_reason(
+            expected_outcome, verdicts, multimodal
+        )
+        interaction_score = InteractionContextualRecallScore(
+            score=score,
+            reason=reason,
+            verdicts=verdicts,
+        )
+        windows_scores.append(interaction_score)
-        return interaction_scores
+        return windows_scores
     async def _a_generate_verdicts(
         self,
@@ -308,7 +333,10 @@ class TurnContextualRecallMetric(BaseConversationalMetric):
         multimodal: bool,
     ) -> Tuple[float, str]:
         if len(verdicts) == 0:
-            return 1, None
+            return (
+                1,
+                "There were no retrieval contexts in the given turns to evaluate the contextual recall.",
+            )
         score = self._calculate_interaction_score(verdicts)
         reason = await self._a_get_interaction_reason(
@@ -327,7 +355,10 @@ class TurnContextualRecallMetric(BaseConversationalMetric):
         multimodal: bool,
     ) -> Tuple[float, str]:
         if len(verdicts) == 0:
-            return 1, None
+            return (
+                1,
+                "There were no retrieval contexts in the given turns to evaluate the contextual recall.",
+            )
         score = self._calculate_interaction_score(verdicts)
         reason = self._get_interaction_reason(
@@ -448,7 +479,7 @@ class TurnContextualRecallMetric(BaseConversationalMetric):
         steps = []
         for index, interaction_score in enumerate(interaction_scores):
             interaction_steps = [
-                f"Interaction {index + 1} \n",
+                f"Window {index + 1} \n",
                 f"Verdicts: {prettify_list(interaction_score.verdicts)} \n",
                 f"Score: {interaction_score.score} \n",
                 f"Reason: {interaction_score.reason} \n",
@@ -459,6 +490,12 @@ class TurnContextualRecallMetric(BaseConversationalMetric):
     def _generate_reason(
         self, scores: List[InteractionContextualRecallScore]
     ) -> str:
+        if self.include_reason is False:
+            return None
+        if len(scores) == 0:
+            return "There were no retrieval contexts in your turns to evaluate, hence the score is 1"
         reasons = []
         for score in scores:
             reasons.append(score.reason)
@@ -478,6 +515,12 @@ class TurnContextualRecallMetric(BaseConversationalMetric):
     async def _a_generate_reason(
         self, scores: List[InteractionContextualRecallScore]
     ) -> str:
+        if self.include_reason is False:
+            return None
+        if len(scores) == 0:
+            return "There were no retrieval contexts in your turns to evaluate, hence the score is 1"
         reasons = []
         for score in scores:
             reasons.append(score.reason)

deepeval/metrics/turn_contextual_relevancy/schema.py CHANGED Viewed

@@ -18,5 +18,5 @@ class ContextualRelevancyScoreReason(BaseModel):
 class InteractionContextualRelevancyScore(BaseModel):
     score: float
-    reason: str
-    verdicts: List[ContextualRelevancyVerdict]
+    reason: Optional[str]
+    verdicts: Optional[List[ContextualRelevancyVerdict]]

deepeval 3.7.5__py3-none-any.whl → 3.7.6__py3-none-any.whl

deepeval 3.7.5py3-none-any.whl → 3.7.6py3-none-any.whl