PyPI - deepeval - Versions diffs - 3.7.4__py3-none-any.whl → 3.7.6__py3-none-any.whl - Mend

deepeval 3.7.4py3-none-any.whl → 3.7.6py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (224) hide show

deepeval/_version.py +1 -1
deepeval/config/settings.py +35 -1
deepeval/dataset/api.py +23 -1
deepeval/dataset/golden.py +139 -2
deepeval/evaluate/evaluate.py +16 -11
deepeval/evaluate/execute.py +13 -181
deepeval/evaluate/utils.py +6 -26
deepeval/integrations/pydantic_ai/agent.py +19 -2
deepeval/integrations/pydantic_ai/instrumentator.py +62 -23
deepeval/key_handler.py +3 -0
deepeval/metrics/__init__.py +14 -16
deepeval/metrics/answer_relevancy/answer_relevancy.py +118 -116
deepeval/metrics/answer_relevancy/template.py +22 -3
deepeval/metrics/arena_g_eval/arena_g_eval.py +98 -96
deepeval/metrics/arena_g_eval/template.py +17 -1
deepeval/metrics/argument_correctness/argument_correctness.py +81 -87
deepeval/metrics/argument_correctness/template.py +19 -2
deepeval/metrics/base_metric.py +13 -44
deepeval/metrics/bias/bias.py +102 -108
deepeval/metrics/bias/template.py +14 -2
deepeval/metrics/contextual_precision/contextual_precision.py +96 -94
deepeval/metrics/contextual_precision/template.py +115 -66
deepeval/metrics/contextual_recall/contextual_recall.py +94 -84
deepeval/metrics/contextual_recall/template.py +106 -55
deepeval/metrics/contextual_relevancy/contextual_relevancy.py +86 -84
deepeval/metrics/contextual_relevancy/template.py +87 -58
deepeval/metrics/conversation_completeness/conversation_completeness.py +101 -119
deepeval/metrics/conversation_completeness/template.py +23 -3
deepeval/metrics/conversational_dag/conversational_dag.py +12 -8
deepeval/metrics/conversational_dag/nodes.py +66 -123
deepeval/metrics/conversational_dag/templates.py +16 -0
deepeval/metrics/conversational_g_eval/conversational_g_eval.py +47 -66
deepeval/metrics/dag/dag.py +10 -0
deepeval/metrics/dag/nodes.py +63 -126
deepeval/metrics/dag/templates.py +16 -2
deepeval/metrics/exact_match/exact_match.py +9 -1
deepeval/metrics/faithfulness/faithfulness.py +138 -149
deepeval/metrics/faithfulness/schema.py +1 -1
deepeval/metrics/faithfulness/template.py +200 -115
deepeval/metrics/g_eval/g_eval.py +87 -78
deepeval/metrics/g_eval/template.py +18 -1
deepeval/metrics/g_eval/utils.py +7 -6
deepeval/metrics/goal_accuracy/goal_accuracy.py +91 -76
deepeval/metrics/goal_accuracy/template.py +21 -3
deepeval/metrics/hallucination/hallucination.py +60 -75
deepeval/metrics/hallucination/template.py +13 -0
deepeval/metrics/indicator.py +7 -10
deepeval/metrics/json_correctness/json_correctness.py +40 -38
deepeval/metrics/json_correctness/template.py +10 -0
deepeval/metrics/knowledge_retention/knowledge_retention.py +60 -97
deepeval/metrics/knowledge_retention/schema.py +9 -3
deepeval/metrics/knowledge_retention/template.py +12 -0
deepeval/metrics/mcp/mcp_task_completion.py +68 -38
deepeval/metrics/mcp/multi_turn_mcp_use_metric.py +92 -74
deepeval/metrics/mcp/template.py +52 -0
deepeval/metrics/mcp_use_metric/mcp_use_metric.py +58 -64
deepeval/metrics/mcp_use_metric/template.py +12 -0
deepeval/metrics/misuse/misuse.py +77 -97
deepeval/metrics/misuse/template.py +15 -0
deepeval/metrics/multimodal_metrics/__init__.py +0 -19
deepeval/metrics/multimodal_metrics/image_coherence/image_coherence.py +59 -53
deepeval/metrics/multimodal_metrics/image_editing/image_editing.py +79 -95
deepeval/metrics/multimodal_metrics/image_helpfulness/image_helpfulness.py +59 -53
deepeval/metrics/multimodal_metrics/image_reference/image_reference.py +59 -53
deepeval/metrics/multimodal_metrics/text_to_image/text_to_image.py +111 -109
deepeval/metrics/non_advice/non_advice.py +79 -105
deepeval/metrics/non_advice/template.py +12 -0
deepeval/metrics/pattern_match/pattern_match.py +12 -4
deepeval/metrics/pii_leakage/pii_leakage.py +75 -106
deepeval/metrics/pii_leakage/template.py +14 -0
deepeval/metrics/plan_adherence/plan_adherence.py +63 -89
deepeval/metrics/plan_adherence/template.py +11 -0
deepeval/metrics/plan_quality/plan_quality.py +63 -87
deepeval/metrics/plan_quality/template.py +9 -0
deepeval/metrics/prompt_alignment/prompt_alignment.py +72 -83
deepeval/metrics/prompt_alignment/template.py +12 -0
deepeval/metrics/ragas.py +3 -3
deepeval/metrics/role_adherence/role_adherence.py +48 -71
deepeval/metrics/role_adherence/template.py +14 -0
deepeval/metrics/role_violation/role_violation.py +75 -108
deepeval/metrics/role_violation/template.py +12 -0
deepeval/metrics/step_efficiency/step_efficiency.py +55 -65
deepeval/metrics/step_efficiency/template.py +11 -0
deepeval/metrics/summarization/summarization.py +115 -183
deepeval/metrics/summarization/template.py +19 -0
deepeval/metrics/task_completion/task_completion.py +67 -73
deepeval/metrics/tool_correctness/tool_correctness.py +45 -44
deepeval/metrics/tool_use/tool_use.py +42 -66
deepeval/metrics/topic_adherence/template.py +13 -0
deepeval/metrics/topic_adherence/topic_adherence.py +53 -67
deepeval/metrics/toxicity/template.py +13 -0
deepeval/metrics/toxicity/toxicity.py +80 -99
deepeval/metrics/turn_contextual_precision/schema.py +21 -0
deepeval/metrics/turn_contextual_precision/template.py +187 -0
deepeval/metrics/turn_contextual_precision/turn_contextual_precision.py +592 -0
deepeval/metrics/turn_contextual_recall/schema.py +21 -0
deepeval/metrics/turn_contextual_recall/template.py +178 -0
deepeval/metrics/turn_contextual_recall/turn_contextual_recall.py +563 -0
deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_contextual_relevancy}/schema.py +7 -1
deepeval/metrics/turn_contextual_relevancy/template.py +161 -0
deepeval/metrics/turn_contextual_relevancy/turn_contextual_relevancy.py +576 -0
deepeval/metrics/{multimodal_metrics/multimodal_faithfulness → turn_faithfulness}/schema.py +11 -3
deepeval/metrics/turn_faithfulness/template.py +218 -0
deepeval/metrics/turn_faithfulness/turn_faithfulness.py +627 -0
deepeval/metrics/turn_relevancy/template.py +14 -0
deepeval/metrics/turn_relevancy/turn_relevancy.py +56 -69
deepeval/metrics/utils.py +158 -122
deepeval/models/__init__.py +0 -12
deepeval/models/base_model.py +49 -33
deepeval/models/embedding_models/__init__.py +7 -0
deepeval/models/embedding_models/azure_embedding_model.py +79 -33
deepeval/models/embedding_models/local_embedding_model.py +39 -20
deepeval/models/embedding_models/ollama_embedding_model.py +52 -19
deepeval/models/embedding_models/openai_embedding_model.py +42 -22
deepeval/models/llms/amazon_bedrock_model.py +226 -72
deepeval/models/llms/anthropic_model.py +178 -63
deepeval/models/llms/azure_model.py +218 -60
deepeval/models/llms/constants.py +2032 -0
deepeval/models/llms/deepseek_model.py +95 -40
deepeval/models/llms/gemini_model.py +209 -64
deepeval/models/llms/grok_model.py +139 -68
deepeval/models/llms/kimi_model.py +140 -90
deepeval/models/llms/litellm_model.py +131 -37
deepeval/models/llms/local_model.py +125 -21
deepeval/models/llms/ollama_model.py +147 -24
deepeval/models/llms/openai_model.py +222 -269
deepeval/models/llms/portkey_model.py +81 -22
deepeval/models/llms/utils.py +8 -3
deepeval/models/retry_policy.py +17 -14
deepeval/models/utils.py +106 -5
deepeval/optimizer/__init__.py +5 -0
deepeval/optimizer/algorithms/__init__.py +6 -0
deepeval/optimizer/algorithms/base.py +29 -0
deepeval/optimizer/algorithms/configs.py +18 -0
deepeval/optimizer/algorithms/copro/__init__.py +5 -0
deepeval/{optimization/copro/loop.py → optimizer/algorithms/copro/copro.py} +112 -113
deepeval/optimizer/algorithms/gepa/__init__.py +5 -0
deepeval/{optimization/gepa/loop.py → optimizer/algorithms/gepa/gepa.py} +175 -115
deepeval/optimizer/algorithms/miprov2/__init__.py +17 -0
deepeval/optimizer/algorithms/miprov2/bootstrapper.py +435 -0
deepeval/optimizer/algorithms/miprov2/miprov2.py +752 -0
deepeval/optimizer/algorithms/miprov2/proposer.py +301 -0
deepeval/optimizer/algorithms/simba/__init__.py +5 -0
deepeval/{optimization/simba/loop.py → optimizer/algorithms/simba/simba.py} +128 -112
deepeval/{optimization → optimizer}/configs.py +5 -8
deepeval/{optimization/policies/selection.py → optimizer/policies.py} +63 -2
deepeval/optimizer/prompt_optimizer.py +263 -0
deepeval/optimizer/rewriter/__init__.py +5 -0
deepeval/optimizer/rewriter/rewriter.py +124 -0
deepeval/optimizer/rewriter/utils.py +214 -0
deepeval/optimizer/scorer/__init__.py +5 -0
deepeval/optimizer/scorer/base.py +86 -0
deepeval/optimizer/scorer/scorer.py +316 -0
deepeval/optimizer/scorer/utils.py +30 -0
deepeval/optimizer/types.py +148 -0
deepeval/{optimization → optimizer}/utils.py +47 -165
deepeval/prompt/prompt.py +5 -9
deepeval/simulator/conversation_simulator.py +43 -0
deepeval/simulator/template.py +13 -0
deepeval/test_case/__init__.py +1 -3
deepeval/test_case/api.py +26 -45
deepeval/test_case/arena_test_case.py +7 -2
deepeval/test_case/conversational_test_case.py +68 -1
deepeval/test_case/llm_test_case.py +206 -1
deepeval/test_case/utils.py +4 -8
deepeval/test_run/api.py +18 -14
deepeval/test_run/test_run.py +3 -3
deepeval/tracing/patchers.py +9 -4
deepeval/tracing/tracing.py +2 -2
deepeval/utils.py +65 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/METADATA +1 -4
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/RECORD +180 -193
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/multimodal_answer_relevancy.py +0 -343
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/schema.py +0 -19
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/template.py +0 -122
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/multimodal_contextual_precision.py +0 -301
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/template.py +0 -132
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/multimodal_contextual_recall.py +0 -285
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/template.py +0 -112
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/multimodal_contextual_relevancy.py +0 -282
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/template.py +0 -102
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/multimodal_faithfulness.py +0 -356
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/template.py +0 -175
deepeval/metrics/multimodal_metrics/multimodal_g_eval/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_g_eval/multimodal_g_eval.py +0 -386
deepeval/metrics/multimodal_metrics/multimodal_g_eval/schema.py +0 -11
deepeval/metrics/multimodal_metrics/multimodal_g_eval/template.py +0 -148
deepeval/metrics/multimodal_metrics/multimodal_g_eval/utils.py +0 -68
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/multimodal_tool_correctness.py +0 -290
deepeval/models/mlllms/__init__.py +0 -4
deepeval/models/mlllms/azure_model.py +0 -343
deepeval/models/mlllms/gemini_model.py +0 -313
deepeval/models/mlllms/ollama_model.py +0 -175
deepeval/models/mlllms/openai_model.py +0 -309
deepeval/optimization/__init__.py +0 -13
deepeval/optimization/adapters/__init__.py +0 -2
deepeval/optimization/adapters/deepeval_scoring_adapter.py +0 -588
deepeval/optimization/aggregates.py +0 -14
deepeval/optimization/copro/configs.py +0 -31
deepeval/optimization/gepa/__init__.py +0 -7
deepeval/optimization/gepa/configs.py +0 -115
deepeval/optimization/miprov2/configs.py +0 -134
deepeval/optimization/miprov2/loop.py +0 -785
deepeval/optimization/mutations/__init__.py +0 -0
deepeval/optimization/mutations/prompt_rewriter.py +0 -458
deepeval/optimization/policies/__init__.py +0 -16
deepeval/optimization/policies/tie_breaker.py +0 -67
deepeval/optimization/prompt_optimizer.py +0 -462
deepeval/optimization/simba/__init__.py +0 -0
deepeval/optimization/simba/configs.py +0 -33
deepeval/optimization/types.py +0 -361
deepeval/test_case/mllm_test_case.py +0 -170
/deepeval/metrics/{multimodal_metrics/multimodal_answer_relevancy → turn_contextual_precision}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_precision → turn_contextual_recall}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_recall → turn_contextual_relevancy}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_faithfulness}/__init__.py +0 -0
/deepeval/{optimization → optimizer/algorithms}/simba/types.py +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/LICENSE.md +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/WHEEL +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/entry_points.txt +0 -0

deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/multimodal_tool_correctness.py DELETED Viewed

@@ -1,290 +0,0 @@
-from typing import List, Dict
-from deepeval.metrics.indicator import metric_progress_indicator
-from deepeval.metrics.utils import (
-    construct_verbose_logs,
-    check_mllm_test_case_params,
-)
-from deepeval.test_case import (
-    MLLMTestCase,
-    MLLMTestCaseParams,
-    ToolCallParams,
-    ToolCall,
-)
-from deepeval.metrics import BaseMultimodalMetric
-class MultimodalToolCorrectnessMetric(BaseMultimodalMetric):
-    _required_params: List[MLLMTestCaseParams] = [
-        MLLMTestCaseParams.INPUT,
-        MLLMTestCaseParams.ACTUAL_OUTPUT,
-        MLLMTestCaseParams.TOOLS_CALLED,
-        MLLMTestCaseParams.EXPECTED_TOOLS,
-    ]
-    def __init__(
-        self,
-        threshold: float = 0.5,
-        evaluation_params: List[ToolCallParams] = [],
-        include_reason: bool = True,
-        strict_mode: bool = False,
-        verbose_mode: bool = False,
-        should_exact_match: bool = False,
-        should_consider_ordering: bool = False,
-    ):
-        self.threshold = 1 if strict_mode else threshold
-        self.include_reason = include_reason
-        self.strict_mode = strict_mode
-        self.verbose_mode = verbose_mode
-        self.evaluation_params: List[ToolCallParams] = evaluation_params
-        self.should_exact_match = should_exact_match
-        self.should_consider_ordering = should_consider_ordering
-    def measure(
-        self,
-        test_case: MLLMTestCase,
-        _show_indicator: bool = True,
-        _in_component: bool = False,
-        _log_metric_to_confident: bool = True,
-    ) -> float:
-        check_mllm_test_case_params(
-            test_case, self._required_params, None, None, self
-        )
-        self.test_case = test_case
-        with metric_progress_indicator(
-            self, _show_indicator=_show_indicator, _in_component=_in_component
-        ):
-            self.tools_called: List[ToolCall] = test_case.tools_called
-            self.expected_tools: List[ToolCall] = test_case.expected_tools
-            self.score = self._calculate_score()
-            self.reason = self._generate_reason()
-            self.success = self.score >= self.threshold
-            expected_tools_formatted = (
-                "Expected Tools:\n[\n"
-                + ",\n".join(
-                    self.indent_multiline_string(
-                        repr(tool_call), indent_level=4
-                    )
-                    for tool_call in self.expected_tools
-                )
-                + "\n]"
-            )
-            tools_called_formatted = (
-                "Tools Called:\n[\n"
-                + ",\n".join(
-                    self.indent_multiline_string(
-                        repr(tool_call), indent_level=4
-                    )
-                    for tool_call in self.tools_called
-                )
-                + "\n]"
-            )
-            steps = [
-                f"{expected_tools_formatted}",
-                f"{tools_called_formatted}",
-            ]
-            steps.append(f"Score: {self.score}\nReason: {self.reason}")
-            self.verbose_logs = construct_verbose_logs(self, steps=steps)
-            return self.score
-    async def a_measure(
-        self,
-        test_case: MLLMTestCase,
-        _show_indicator: bool = True,
-        _in_component: bool = False,
-        _log_metric_to_confident: bool = True,
-    ) -> float:
-        return self.measure(
-            test_case,
-            _show_indicator=_show_indicator,
-            _in_component=_in_component,
-            _log_metric_to_confident=_log_metric_to_confident,
-        )
-    ##################################################
-    ### Tool Correctness (Tool) ######################
-    ##################################################
-    def _generate_reason(self):
-        tools_called_names = [
-            tool_called.name for tool_called in self.tools_called
-        ]
-        expected_tools_names = [
-            expected_tool.name for expected_tool in self.expected_tools
-        ]
-        if self.should_exact_match:
-            return f"{'Exact match' if self._calculate_exact_match_score() else 'Not an exact match'}: expected {expected_tools_names}, called {tools_called_names}. See details above."
-        elif self.should_consider_ordering:
-            lcs, weighted_length = self._compute_weighted_lcs()
-            score = weighted_length / len(expected_tools_names)
-            missing = set(expected_tools_names) - set(tools_called_names)
-            out_of_order = set(expected_tools_names) - set(
-                [tool.name for tool in lcs]
-            )
-            if score == 1:
-                return f"Correct ordering: all expected tools {expected_tools_names} were called in the correct order."
-            else:
-                issues = []
-                if missing:
-                    issues.append(f"missing tools {list(missing)}")
-                if out_of_order:
-                    issues.append(f"out-of-order tools {list(out_of_order)}")
-                return f"Incorrect tool usage: {' and '.join(issues)}; expected {expected_tools_names}, called {tools_called_names}. See more details above."
-        else:
-            used_expected = set(self.tools_called).intersection(
-                set(self.expected_tools)
-            )
-            missing = set(self.expected_tools) - used_expected
-            if self._calculate_non_exact_match_score() == 1:
-                return f"All expected tools {expected_tools_names} were called (order not considered)."
-            else:
-                return f"Incomplete tool usage: missing tools {list(missing)}; expected {expected_tools_names}, called {tools_called_names}. See more details above."
-    ##################################################
-    ### Score Helper Functions #######################
-    ##################################################
-    # Calculate score
-    def _calculate_score(self):
-        if self.should_exact_match:
-            score = self._calculate_exact_match_score()
-        elif self.should_consider_ordering:
-            _, weighted_length = self._compute_weighted_lcs()
-            score = weighted_length / len(self.expected_tools)
-        else:
-            score = self._calculate_non_exact_match_score()
-        return 0 if self.strict_mode and score < self.threshold else score
-    # Exact matching score
-    def _calculate_exact_match_score(self):
-        if len(self.tools_called) != len(self.expected_tools):
-            return 0.0
-        for i in range(len(self.tools_called)):
-            if self.tools_called[i].name != self.expected_tools[i].name:
-                return 0.0
-            if ToolCallParams.INPUT_PARAMETERS in self.evaluation_params:
-                if (
-                    self.tools_called[i].input_parameters
-                    != self.expected_tools[i].input_parameters
-                ):
-                    return 0.0
-            if ToolCallParams.OUTPUT in self.evaluation_params:
-                if self.tools_called[i].output != self.expected_tools[i].output:
-                    return 0.0
-        return 1.0
-    # Non exact matching score
-    def _calculate_non_exact_match_score(self):
-        total_score = 0.0
-        matched_called_tools = set()
-        for expected_tool in self.expected_tools:
-            best_score = 0.0
-            for called_tool in self.tools_called:
-                if called_tool in matched_called_tools:
-                    continue
-                if expected_tool.name == called_tool.name:
-                    match_score = 1.0
-                    if (
-                        ToolCallParams.INPUT_PARAMETERS
-                        in self.evaluation_params
-                    ):
-                        match_score *= self._compare_dicts(
-                            expected_tool.input_parameters,
-                            called_tool.input_parameters,
-                        )
-                    if (
-                        ToolCallParams.OUTPUT in self.evaluation_params
-                        and expected_tool.output != called_tool.output
-                    ):
-                        match_score = 0.0
-                    if match_score > best_score:
-                        best_score = match_score
-                        best_called_tool = called_tool
-            if best_score > 0:
-                total_score += best_score
-                matched_called_tools.add(best_called_tool)
-        return (
-            total_score / len(self.expected_tools)
-            if self.expected_tools
-            else 0.0
-        )
-    # Consider ordering score
-    def _compute_weighted_lcs(self):
-        m, n = len(self.expected_tools), len(self.tools_called)
-        dp = [[0.0] * (n + 1) for _ in range(m + 1)]
-        for i in range(1, m + 1):
-            for j in range(1, n + 1):
-                expected_tool, called_tool = (
-                    self.expected_tools[i - 1],
-                    self.tools_called[j - 1],
-                )
-                if expected_tool.name != called_tool.name:
-                    dp[i][j] = max(dp[i - 1][j], dp[i][j - 1])
-                    continue
-                score = 1.0
-                if ToolCallParams.INPUT_PARAMETERS in self.evaluation_params:
-                    score *= self._compare_dicts(
-                        expected_tool.input_parameters,
-                        called_tool.input_parameters,
-                    )
-                if (
-                    ToolCallParams.OUTPUT in self.evaluation_params
-                    and expected_tool.output != called_tool.output
-                ):
-                    score = 0.0
-                dp[i][j] = max(
-                    dp[i - 1][j],
-                    dp[i][j - 1],
-                    dp[i - 1][j - 1] + score if score > 0 else 0,
-                )
-        i, j, total_score = m, n, 0.0
-        lcs = []
-        while i > 0 and j > 0:
-            if dp[i][j] == dp[i - 1][j]:
-                i -= 1
-            elif dp[i][j] == dp[i][j - 1]:
-                j -= 1
-            else:
-                lcs.append(self.expected_tools[i - 1])
-                total_score += dp[i][j] - dp[i - 1][j - 1]
-                i, j = i - 1, j - 1
-        return lcs[::-1], total_score
-    # For matching input parameters
-    def _compare_dicts(self, dict1: Dict, dict2: Dict):
-        if self.should_exact_match:
-            return 1.0 if dict1 == dict2 else 0.0
-        match_score = 0
-        matched_keys = set(dict1.keys()).intersection(set(dict2.keys()))
-        total_keys = set(dict1.keys()).union(set(dict2.keys()))
-        for key in matched_keys:
-            if dict1[key] == dict2[key]:
-                match_score += 1 / len(total_keys)
-            elif isinstance(dict1[key], dict) and isinstance(dict2[key], dict):
-                match_score += self._compare_dicts(
-                    dict1[key], dict2[key]
-                ) / len(total_keys)
-        return match_score
-    ##################################################
-    ### Others #######################################
-    ##################################################
-    def is_successful(self) -> bool:
-        try:
-            self.success = self.score >= self.threshold
-        except:
-            self.success = False
-        return self.success
-    @property
-    def __name__(self):
-        return "Multi Modal Tool Correctness"
-    def indent_multiline_string(self, s, indent_level=4):
-        indent = " " * indent_level
-        return "\n".join(f"{indent}{line}" for line in s.splitlines())

deepeval/models/mlllms/__init__.py DELETED Viewed

@@ -1,4 +0,0 @@
-from .openai_model import MultimodalOpenAIModel
-from .ollama_model import MultimodalOllamaModel
-from .gemini_model import MultimodalGeminiModel
-from .azure_model import MultimodalAzureOpenAIMLLMModel

deepeval/models/mlllms/azure_model.py DELETED Viewed

@@ -1,343 +0,0 @@
-import base64
-from openai.types.chat.chat_completion import ChatCompletion
-from openai import AzureOpenAI, AsyncAzureOpenAI
-from typing import Optional, Tuple, Union, Dict, List
-from pydantic import BaseModel, SecretStr
-from io import BytesIO
-from deepeval.config.settings import get_settings
-from deepeval.models import DeepEvalBaseMLLM
-from deepeval.test_case import MLLMImage
-from deepeval.models.llms.openai_model import (
-    structured_outputs_models,
-    json_mode_models,
-    model_pricing,
-)
-from deepeval.models.retry_policy import (
-    create_retry_decorator,
-    sdk_retries_for,
-)
-from deepeval.models.llms.utils import trim_and_load_json
-from deepeval.models.utils import parse_model_name, require_secret_api_key
-from deepeval.constants import ProviderSlug as PS
-retry_azure = create_retry_decorator(PS.AZURE)
-class MultimodalAzureOpenAIMLLMModel(DeepEvalBaseMLLM):
-    def __init__(
-        self,
-        deployment_name: Optional[str] = None,
-        model_name: Optional[str] = None,
-        azure_openai_api_key: Optional[str] = None,
-        openai_api_version: Optional[str] = None,
-        azure_endpoint: Optional[str] = None,
-        temperature: float = 0,
-        generation_kwargs: Optional[Dict] = None,
-        **kwargs,
-    ):
-        settings = get_settings()
-        # fetch Azure deployment parameters
-        model_name = model_name or settings.AZURE_MODEL_NAME
-        self.deployment_name = deployment_name or settings.AZURE_DEPLOYMENT_NAME
-        if azure_openai_api_key is not None:
-            # keep it secret, keep it safe from serializings, logging and alike
-            self.azure_openai_api_key: SecretStr | None = SecretStr(
-                azure_openai_api_key
-            )
-        else:
-            self.azure_openai_api_key = settings.AZURE_OPENAI_API_KEY
-        self.openai_api_version = (
-            openai_api_version or settings.OPENAI_API_VERSION
-        )
-        self.azure_endpoint = (
-            azure_endpoint
-            or settings.AZURE_OPENAI_ENDPOINT
-            and str(settings.AZURE_OPENAI_ENDPOINT)
-        )
-        if temperature < 0:
-            raise ValueError("Temperature must be >= 0.")
-        self.temperature = temperature
-        # args and kwargs will be passed to the underlying model, in load_model function
-        self.kwargs = kwargs
-        self.generation_kwargs = generation_kwargs or {}
-        super().__init__(parse_model_name(model_name))
-    ###############################################
-    # Generate functions
-    ###############################################
-    @retry_azure
-    def generate(
-        self,
-        multimodal_input: List[Union[str, MLLMImage]],
-        schema: Optional[BaseModel] = None,
-    ) -> Tuple[Union[str, BaseModel], float]:
-        client = self.load_model(async_mode=False)
-        prompt = self.generate_prompt(multimodal_input)
-        if schema:
-            if self.model_name in structured_outputs_models:
-                messages = [{"role": "user", "content": prompt}]
-                completion = client.beta.chat.completions.parse(
-                    model=self.deployment_name,
-                    messages=messages,
-                    response_format=schema,
-                    temperature=self.temperature,
-                )
-                structured_output: BaseModel = completion.choices[
-                    0
-                ].message.parsed
-                cost = self.calculate_cost(
-                    completion.usage.prompt_tokens,
-                    completion.usage.completion_tokens,
-                )
-                return structured_output, cost
-            if self.model_name in json_mode_models:
-                messages = [{"role": "user", "content": prompt}]
-                completion = client.beta.chat.completions.parse(
-                    model=self.deployment_name,
-                    messages=messages,
-                    response_format={"type": "json_object"},
-                    temperature=self.temperature,
-                )
-                json_output = trim_and_load_json(
-                    completion.choices[0].message.content
-                )
-                cost = self.calculate_cost(
-                    completion.usage.prompt_tokens,
-                    completion.usage.completion_tokens,
-                )
-                return schema.model_validate(json_output), cost
-        print("Loading model client:")
-        print(client.base_url)
-        completion = client.chat.completions.create(
-            model=self.deployment_name,
-            messages=[{"role": "user", "content": prompt}],
-            temperature=self.temperature,
-            **self.generation_kwargs,
-        )
-        output = completion.choices[0].message.content
-        cost = self.calculate_cost(
-            completion.usage.prompt_tokens, completion.usage.completion_tokens
-        )
-        if schema:
-            json_output = trim_and_load_json(output)
-            return schema.model_validate(json_output), cost
-        else:
-            return output, cost
-    @retry_azure
-    async def a_generate(
-        self,
-        multimodal_input: List[Union[str, MLLMImage]],
-        schema: Optional[BaseModel] = None,
-    ) -> Tuple[Union[str, BaseModel], float]:
-        client = self.load_model(async_mode=True)
-        prompt = self.generate_prompt(multimodal_input)
-        if schema:
-            if self.model_name in structured_outputs_models:
-                messages = [{"role": "user", "content": prompt}]
-                completion = await client.beta.chat.completions.parse(
-                    model=self.deployment_name,
-                    messages=messages,
-                    response_format=schema,
-                    temperature=self.temperature,
-                )
-                structured_output: BaseModel = completion.choices[
-                    0
-                ].message.parsed
-                cost = self.calculate_cost(
-                    completion.usage.prompt_tokens,
-                    completion.usage.completion_tokens,
-                )
-                return structured_output, cost
-            if self.model_name in json_mode_models:
-                messages = [{"role": "user", "content": prompt}]
-                completion = await client.beta.chat.completions.parse(
-                    model=self.deployment_name,
-                    messages=messages,
-                    response_format={"type": "json_object"},
-                    temperature=self.temperature,
-                    **self.generation_kwargs,
-                )
-                json_output = trim_and_load_json(
-                    completion.choices[0].message.content
-                )
-                cost = self.calculate_cost(
-                    completion.usage.prompt_tokens,
-                    completion.usage.completion_tokens,
-                )
-                return schema.model_validate(json_output), cost
-        completion = await client.chat.completions.create(
-            model=self.deployment_name,
-            messages=[{"role": "user", "content": prompt}],
-            temperature=self.temperature,
-            **self.generation_kwargs,
-        )
-        output = completion.choices[0].message.content
-        cost = self.calculate_cost(
-            completion.usage.prompt_tokens,
-            completion.usage.completion_tokens,
-        )
-        if schema:
-            json_output = trim_and_load_json(output)
-            return schema.model_validate(json_output), cost
-        else:
-            return output, cost
-    ###############################################
-    # Other generate functions
-    ###############################################
-    @retry_azure
-    def generate_raw_response(
-        self,
-        multimodal_input: List[Union[str, MLLMImage]],
-        top_logprobs: int = 5,
-    ) -> Tuple[ChatCompletion, float]:
-        client = self.load_model(async_mode=False)
-        prompt = self.generate_prompt(multimodal_input)
-        messages = [{"role": "user", "content": prompt}]
-        # Generate completion
-        completion = client.chat.completions.create(
-            model=self.deployment_name,
-            messages=messages,
-            temperature=self.temperature,
-            logprobs=True,
-            top_logprobs=top_logprobs,
-            **self.generation_kwargs,
-        )
-        # Cost calculation
-        input_tokens = completion.usage.prompt_tokens
-        output_tokens = completion.usage.completion_tokens
-        cost = self.calculate_cost(input_tokens, output_tokens)
-        return completion, cost
-    @retry_azure
-    async def a_generate_raw_response(
-        self,
-        multimodal_input: List[Union[str, MLLMImage]],
-        top_logprobs: int = 5,
-    ) -> Tuple[ChatCompletion, float]:
-        client = self.load_model(async_mode=True)
-        prompt = self.generate_prompt(multimodal_input)
-        messages = [{"role": "user", "content": prompt}]
-        # Generate completion
-        completion = await client.chat.completions.create(
-            model=self.deployment_name,
-            messages=messages,
-            temperature=self.temperature,
-            logprobs=True,
-            top_logprobs=top_logprobs,
-            **self.generation_kwargs,
-        )
-        # Cost calculation
-        input_tokens = completion.usage.prompt_tokens
-        output_tokens = completion.usage.completion_tokens
-        cost = self.calculate_cost(input_tokens, output_tokens)
-        return completion, cost
-    ###############################################
-    # Utilities
-    ###############################################
-    def generate_prompt(
-        self, multimodal_input: List[Union[str, MLLMImage]] = []
-    ):
-        """Convert multimodal input into the proper message format for Azure OpenAI."""
-        prompt = []
-        for ele in multimodal_input:
-            if isinstance(ele, str):
-                prompt.append({"type": "text", "text": ele})
-            elif isinstance(ele, MLLMImage):
-                if ele.local:
-                    import PIL.Image
-                    image = PIL.Image.open(ele.url)
-                    visual_dict = {
-                        "type": "image_url",
-                        "image_url": {
-                            "url": f"data:image/jpeg;base64,{self.encode_pil_image(image)}"
-                        },
-                    }
-                else:
-                    visual_dict = {
-                        "type": "image_url",
-                        "image_url": {"url": ele.url},
-                    }
-                prompt.append(visual_dict)
-        return prompt
-    def encode_pil_image(self, pil_image):
-        """Encode a PIL image to base64 string."""
-        image_buffer = BytesIO()
-        if pil_image.mode in ("RGBA", "LA", "P"):
-            pil_image = pil_image.convert("RGB")
-        pil_image.save(image_buffer, format="JPEG")
-        image_bytes = image_buffer.getvalue()
-        base64_encoded_image = base64.b64encode(image_bytes).decode("utf-8")
-        return base64_encoded_image
-    def calculate_cost(self, input_tokens: int, output_tokens: int) -> float:
-        pricing = model_pricing.get(self.model_name, model_pricing["gpt-4.1"])
-        input_cost = input_tokens * pricing["input"]
-        output_cost = output_tokens * pricing["output"]
-        return input_cost + output_cost
-    ###############################################
-    # Model
-    ###############################################
-    def get_model_name(self):
-        return f"Azure OpenAI ({self.model_name})"
-    def load_model(self, async_mode: bool = False):
-        if not async_mode:
-            return self._build_client(AzureOpenAI)
-        return self._build_client(AsyncAzureOpenAI)
-    def _client_kwargs(self) -> Dict:
-        """
-        If Tenacity is managing retries, force OpenAI SDK retries off to avoid double retries.
-        If the user opts into SDK retries for 'azure' via DEEPEVAL_SDK_RETRY_PROVIDERS,
-        leave their retry settings as is.
-        """
-        kwargs = dict(self.kwargs or {})
-        if not sdk_retries_for(PS.AZURE):
-            kwargs["max_retries"] = 0
-        return kwargs
-    def _build_client(self, cls):
-        api_key = require_secret_api_key(
-            self.azure_openai_api_key,
-            provider_label="AzureOpenAI",
-            env_var_name="AZURE_OPENAI_API_KEY",
-            param_hint="`azure_openai_api_key` to MultimodalAzureOpenAIMLLMModel(...)",
-        )
-        kw = dict(
-            api_key=api_key,
-            api_version=self.openai_api_version,
-            azure_endpoint=self.azure_endpoint,
-            azure_deployment=self.deployment_name,
-            **self._client_kwargs(),
-        )
-        try:
-            return cls(**kw)
-        except TypeError as e:
-            # older OpenAI SDKs may not accept max_retries, in that case remove and retry once
-            if "max_retries" in str(e):
-                kw.pop("max_retries", None)
-                return cls(**kw)
-            raise

deepeval 3.7.4__py3-none-any.whl → 3.7.6__py3-none-any.whl

deepeval 3.7.4py3-none-any.whl → 3.7.6py3-none-any.whl