PyPI - deepeval - Versions diffs - 3.7.4__py3-none-any.whl → 3.7.5__py3-none-any.whl - Mend

deepeval 3.7.4py3-none-any.whl → 3.7.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (155) hide show

deepeval/_version.py +1 -1
deepeval/dataset/golden.py +54 -2
deepeval/evaluate/evaluate.py +16 -8
deepeval/evaluate/execute.py +70 -26
deepeval/evaluate/utils.py +26 -22
deepeval/integrations/pydantic_ai/agent.py +19 -2
deepeval/integrations/pydantic_ai/instrumentator.py +62 -23
deepeval/metrics/__init__.py +14 -12
deepeval/metrics/answer_relevancy/answer_relevancy.py +74 -29
deepeval/metrics/answer_relevancy/template.py +188 -92
deepeval/metrics/base_metric.py +2 -5
deepeval/metrics/contextual_precision/contextual_precision.py +53 -15
deepeval/metrics/contextual_precision/template.py +115 -66
deepeval/metrics/contextual_recall/contextual_recall.py +50 -13
deepeval/metrics/contextual_recall/template.py +106 -55
deepeval/metrics/contextual_relevancy/contextual_relevancy.py +47 -15
deepeval/metrics/contextual_relevancy/template.py +87 -58
deepeval/metrics/dag/templates.py +2 -2
deepeval/metrics/faithfulness/faithfulness.py +70 -27
deepeval/metrics/faithfulness/schema.py +1 -1
deepeval/metrics/faithfulness/template.py +200 -115
deepeval/metrics/g_eval/utils.py +2 -2
deepeval/metrics/indicator.py +4 -4
deepeval/metrics/multimodal_metrics/__init__.py +0 -18
deepeval/metrics/multimodal_metrics/image_coherence/image_coherence.py +24 -17
deepeval/metrics/multimodal_metrics/image_editing/image_editing.py +26 -21
deepeval/metrics/multimodal_metrics/image_helpfulness/image_helpfulness.py +24 -17
deepeval/metrics/multimodal_metrics/image_reference/image_reference.py +24 -17
deepeval/metrics/multimodal_metrics/multimodal_g_eval/multimodal_g_eval.py +19 -19
deepeval/metrics/multimodal_metrics/multimodal_g_eval/template.py +63 -78
deepeval/metrics/multimodal_metrics/multimodal_g_eval/utils.py +20 -20
deepeval/metrics/multimodal_metrics/text_to_image/text_to_image.py +71 -50
deepeval/metrics/ragas.py +3 -3
deepeval/metrics/tool_correctness/tool_correctness.py +2 -2
deepeval/metrics/turn_contextual_precision/schema.py +21 -0
deepeval/metrics/turn_contextual_precision/template.py +187 -0
deepeval/metrics/turn_contextual_precision/turn_contextual_precision.py +550 -0
deepeval/metrics/turn_contextual_recall/schema.py +21 -0
deepeval/metrics/turn_contextual_recall/template.py +178 -0
deepeval/metrics/turn_contextual_recall/turn_contextual_recall.py +520 -0
deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_contextual_relevancy}/schema.py +7 -1
deepeval/metrics/turn_contextual_relevancy/template.py +161 -0
deepeval/metrics/turn_contextual_relevancy/turn_contextual_relevancy.py +535 -0
deepeval/metrics/{multimodal_metrics/multimodal_faithfulness → turn_faithfulness}/schema.py +11 -3
deepeval/metrics/turn_faithfulness/template.py +218 -0
deepeval/metrics/turn_faithfulness/turn_faithfulness.py +596 -0
deepeval/metrics/utils.py +39 -58
deepeval/models/__init__.py +0 -12
deepeval/models/base_model.py +16 -38
deepeval/models/embedding_models/__init__.py +7 -0
deepeval/models/embedding_models/azure_embedding_model.py +52 -28
deepeval/models/embedding_models/local_embedding_model.py +18 -14
deepeval/models/embedding_models/ollama_embedding_model.py +38 -16
deepeval/models/embedding_models/openai_embedding_model.py +40 -21
deepeval/models/llms/amazon_bedrock_model.py +1 -2
deepeval/models/llms/anthropic_model.py +44 -23
deepeval/models/llms/azure_model.py +121 -36
deepeval/models/llms/deepseek_model.py +18 -13
deepeval/models/llms/gemini_model.py +129 -43
deepeval/models/llms/grok_model.py +18 -13
deepeval/models/llms/kimi_model.py +18 -13
deepeval/models/llms/litellm_model.py +42 -22
deepeval/models/llms/local_model.py +12 -7
deepeval/models/llms/ollama_model.py +114 -12
deepeval/models/llms/openai_model.py +137 -41
deepeval/models/llms/portkey_model.py +24 -7
deepeval/models/llms/utils.py +5 -3
deepeval/models/retry_policy.py +17 -14
deepeval/models/utils.py +46 -1
deepeval/optimizer/__init__.py +5 -0
deepeval/optimizer/algorithms/__init__.py +6 -0
deepeval/optimizer/algorithms/base.py +29 -0
deepeval/optimizer/algorithms/configs.py +18 -0
deepeval/optimizer/algorithms/copro/__init__.py +5 -0
deepeval/{optimization/copro/loop.py → optimizer/algorithms/copro/copro.py} +112 -113
deepeval/optimizer/algorithms/gepa/__init__.py +5 -0
deepeval/{optimization/gepa/loop.py → optimizer/algorithms/gepa/gepa.py} +175 -115
deepeval/optimizer/algorithms/miprov2/__init__.py +17 -0
deepeval/optimizer/algorithms/miprov2/bootstrapper.py +435 -0
deepeval/optimizer/algorithms/miprov2/miprov2.py +752 -0
deepeval/optimizer/algorithms/miprov2/proposer.py +301 -0
deepeval/optimizer/algorithms/simba/__init__.py +5 -0
deepeval/{optimization/simba/loop.py → optimizer/algorithms/simba/simba.py} +128 -112
deepeval/{optimization → optimizer}/configs.py +5 -8
deepeval/{optimization/policies/selection.py → optimizer/policies.py} +63 -2
deepeval/optimizer/prompt_optimizer.py +263 -0
deepeval/optimizer/rewriter/__init__.py +5 -0
deepeval/optimizer/rewriter/rewriter.py +124 -0
deepeval/optimizer/rewriter/utils.py +214 -0
deepeval/optimizer/scorer/__init__.py +5 -0
deepeval/optimizer/scorer/base.py +86 -0
deepeval/optimizer/scorer/scorer.py +316 -0
deepeval/optimizer/scorer/utils.py +30 -0
deepeval/optimizer/types.py +148 -0
deepeval/{optimization → optimizer}/utils.py +47 -165
deepeval/prompt/prompt.py +5 -9
deepeval/test_case/__init__.py +1 -3
deepeval/test_case/api.py +12 -10
deepeval/test_case/conversational_test_case.py +19 -1
deepeval/test_case/llm_test_case.py +152 -1
deepeval/test_case/utils.py +4 -8
deepeval/test_run/api.py +15 -14
deepeval/test_run/test_run.py +3 -3
deepeval/tracing/patchers.py +9 -4
deepeval/tracing/tracing.py +2 -2
deepeval/utils.py +65 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/METADATA +1 -4
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/RECORD +116 -125
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/multimodal_answer_relevancy.py +0 -343
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/schema.py +0 -19
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/template.py +0 -122
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/multimodal_contextual_precision.py +0 -301
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/template.py +0 -132
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/multimodal_contextual_recall.py +0 -285
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/template.py +0 -112
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/multimodal_contextual_relevancy.py +0 -282
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/template.py +0 -102
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/multimodal_faithfulness.py +0 -356
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/template.py +0 -175
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/multimodal_tool_correctness.py +0 -290
deepeval/models/mlllms/__init__.py +0 -4
deepeval/models/mlllms/azure_model.py +0 -343
deepeval/models/mlllms/gemini_model.py +0 -313
deepeval/models/mlllms/ollama_model.py +0 -175
deepeval/models/mlllms/openai_model.py +0 -309
deepeval/optimization/__init__.py +0 -13
deepeval/optimization/adapters/__init__.py +0 -2
deepeval/optimization/adapters/deepeval_scoring_adapter.py +0 -588
deepeval/optimization/aggregates.py +0 -14
deepeval/optimization/copro/configs.py +0 -31
deepeval/optimization/gepa/__init__.py +0 -7
deepeval/optimization/gepa/configs.py +0 -115
deepeval/optimization/miprov2/configs.py +0 -134
deepeval/optimization/miprov2/loop.py +0 -785
deepeval/optimization/mutations/__init__.py +0 -0
deepeval/optimization/mutations/prompt_rewriter.py +0 -458
deepeval/optimization/policies/__init__.py +0 -16
deepeval/optimization/policies/tie_breaker.py +0 -67
deepeval/optimization/prompt_optimizer.py +0 -462
deepeval/optimization/simba/__init__.py +0 -0
deepeval/optimization/simba/configs.py +0 -33
deepeval/optimization/types.py +0 -361
deepeval/test_case/mllm_test_case.py +0 -170
/deepeval/metrics/{multimodal_metrics/multimodal_answer_relevancy → turn_contextual_precision}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_precision → turn_contextual_recall}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_recall → turn_contextual_relevancy}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_faithfulness}/__init__.py +0 -0
/deepeval/{optimization → optimizer/algorithms}/simba/types.py +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/LICENSE.md +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/WHEEL +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/entry_points.txt +0 -0

deepeval/models/mlllms/openai_model.py DELETED Viewed

@@ -1,309 +0,0 @@
-import base64
-from typing import Optional, Tuple, List, Union, Dict
-from openai import OpenAI, AsyncOpenAI
-from openai.types.chat import ParsedChatCompletion
-from pydantic import BaseModel, SecretStr
-from io import BytesIO
-from deepeval.config.settings import get_settings
-from deepeval.models.llms.openai_model import (
-    model_pricing,
-    structured_outputs_models,
-    _request_timeout_seconds,
-)
-from deepeval.models import DeepEvalBaseMLLM
-from deepeval.models.llms.utils import trim_and_load_json
-from deepeval.test_case import MLLMImage
-from deepeval.models.utils import parse_model_name, require_secret_api_key
-from deepeval.models.retry_policy import (
-    create_retry_decorator,
-    sdk_retries_for,
-)
-from deepeval.constants import ProviderSlug as PS
-retry_openai = create_retry_decorator(PS.OPENAI)
-valid_multimodal_gpt_models = [
-    "gpt-4o",
-    "gpt-4o-2024-05-13",
-    "gpt-4o-2024-08-06",
-    "gpt-4o-2024-11-20",
-    "gpt-4o-mini",
-    "gpt-4o-mini-2024-07-18",
-    "gpt-4.1",
-    "gpt-4.1-mini",
-    "gpt-4.1-nano",
-    "o1",
-    "o1-preview",
-    "o1-2024-12-17",
-    "o1-preview-2024-09-12",
-    "gpt-4.5-preview-2025-02-27",
-    "o4-mini",
-]
-default_multimodal_gpt_model = "gpt-4.1"
-unsupported_log_probs_multimodal_gpt_models = [
-    "o1",
-    "o1-preview",
-    "o1-2024-12-17",
-    "o1-preview-2024-09-12",
-    "gpt-4.5-preview-2025-02-27",
-    "o4-mini",
-]
-class MultimodalOpenAIModel(DeepEvalBaseMLLM):
-    def __init__(
-        self,
-        model: Optional[str] = None,
-        _openai_api_key: Optional[str] = None,
-        *args,
-        **kwargs,
-    ):
-        settings = get_settings()
-        model_name = None
-        if isinstance(model, str):
-            model_name = parse_model_name(model)
-            if model_name not in valid_multimodal_gpt_models:
-                raise ValueError(
-                    f"Invalid model. Available Multimodal GPT models: "
-                    f"{', '.join(model for model in valid_multimodal_gpt_models)}"
-                )
-        elif settings.OPENAI_MODEL_NAME is not None:
-            model_name = settings.OPENAI_MODEL_NAME
-        elif model is None:
-            model_name = default_multimodal_gpt_model
-        if _openai_api_key is not None:
-            # keep it secret, keep it safe from serializings, logging and aolike
-            self._openai_api_key: SecretStr | None = SecretStr(_openai_api_key)
-        else:
-            self._openai_api_key = settings.OPENAI_API_KEY
-        self.args = args
-        self.kwargs = kwargs
-        super().__init__(model_name, *args, **kwargs)
-    ###############################################
-    # Generate functions
-    ###############################################
-    @retry_openai
-    def generate(
-        self,
-        multimodal_input: List[Union[str, MLLMImage]],
-        schema: Optional[BaseModel] = None,
-    ) -> Tuple[str, float]:
-        client = self.load_model(async_mode=False)
-        prompt = self.generate_prompt(multimodal_input)
-        if schema:
-            if self.model_name in structured_outputs_models:
-                messages = [{"role": "user", "content": prompt}]
-                response = client.beta.chat.completions.parse(
-                    model=self.model_name,
-                    messages=messages,
-                    response_format=schema,
-                )
-                input_tokens = response.usage.prompt_tokens
-                output_tokens = response.usage.completion_tokens
-                total_cost = self.calculate_cost(input_tokens, output_tokens)
-                generated_text = response.choices[0].message.parsed
-                return generated_text, total_cost
-        completion = client.chat.completions.create(
-            model=self.model_name,
-            messages=[{"role": "user", "content": prompt}],
-        )
-        output = completion.choices[0].message.content
-        cost = self.calculate_cost(
-            completion.usage.prompt_tokens, completion.usage.completion_tokens
-        )
-        if schema:
-            json_output = trim_and_load_json(output)
-            return schema.model_validate(json_output), cost
-        else:
-            return output, cost
-    @retry_openai
-    async def a_generate(
-        self,
-        multimodal_input: List[Union[str, MLLMImage]],
-        schema: Optional[BaseModel] = None,
-    ) -> Tuple[str, float]:
-        client = self.load_model(async_mode=True)
-        prompt = self.generate_prompt(multimodal_input)
-        if schema:
-            if self.model_name in structured_outputs_models:
-                messages = [{"role": "user", "content": prompt}]
-                response = await client.beta.chat.completions.parse(
-                    model=self.model_name,
-                    messages=messages,
-                    response_format=schema,
-                )
-                input_tokens = response.usage.prompt_tokens
-                output_tokens = response.usage.completion_tokens
-                total_cost = self.calculate_cost(input_tokens, output_tokens)
-                generated_text = response.choices[0].message.parsed
-                return generated_text, total_cost
-        completion = await client.chat.completions.create(
-            model=self.model_name,
-            messages=[{"role": "user", "content": prompt}],
-        )
-        output = completion.choices[0].message.content
-        cost = self.calculate_cost(
-            completion.usage.prompt_tokens, completion.usage.completion_tokens
-        )
-        if schema:
-            json_output = trim_and_load_json(output)
-            return schema.model_validate(json_output), cost
-        else:
-            return output, cost
-    ###############################################
-    # Other generate functions
-    ###############################################
-    @retry_openai
-    def generate_raw_response(
-        self,
-        multimodal_input: List[Union[str, MLLMImage]],
-        top_logprobs: int = 5,
-    ) -> Tuple[ParsedChatCompletion, float]:
-        client = self._client()
-        prompt = self.generate_prompt(multimodal_input)
-        messages = [{"role": "user", "content": prompt}]
-        completion = client.chat.completions.create(
-            model=self.model_name,
-            messages=messages,
-            logprobs=True,
-            top_logprobs=top_logprobs,
-        )
-        # Cost calculation
-        input_tokens = completion.usage.prompt_tokens
-        output_tokens = completion.usage.completion_tokens
-        cost = self.calculate_cost(input_tokens, output_tokens)
-        return completion, cost
-    @retry_openai
-    async def a_generate_raw_response(
-        self,
-        multimodal_input: List[Union[str, MLLMImage]],
-        top_logprobs: int = 5,
-    ) -> Tuple[ParsedChatCompletion, float]:
-        client = self._client(async_mode=True)
-        prompt = self.generate_prompt(multimodal_input)
-        messages = [{"role": "user", "content": prompt}]
-        completion = await client.chat.completions.create(
-            model=self.model_name,
-            messages=messages,
-            logprobs=True,
-            top_logprobs=top_logprobs,
-        )
-        # Cost calculation
-        input_tokens = completion.usage.prompt_tokens
-        output_tokens = completion.usage.completion_tokens
-        cost = self.calculate_cost(input_tokens, output_tokens)
-        return completion, cost
-    ###############################################
-    # Utilities
-    ###############################################
-    def generate_prompt(
-        self, multimodal_input: List[Union[str, MLLMImage]] = []
-    ):
-        prompt = []
-        for ele in multimodal_input:
-            if isinstance(ele, str):
-                prompt.append({"type": "text", "text": ele})
-            elif isinstance(ele, MLLMImage):
-                if ele.local:
-                    import PIL.Image
-                    image = PIL.Image.open(ele.url)
-                    visual_dict = {
-                        "type": "image_url",
-                        "image_url": {
-                            "url": f"data:image/jpeg;base64,{self.encode_pil_image(image)}"
-                        },
-                    }
-                else:
-                    visual_dict = {
-                        "type": "image_url",
-                        "image_url": {"url": ele.url},
-                    }
-                prompt.append(visual_dict)
-        return prompt
-    def calculate_cost(self, input_tokens: int, output_tokens: int) -> float:
-        pricing = model_pricing.get(
-            self.model_name, model_pricing["gpt-4.1"]
-        )  # Default to 'gpt-4.1' if model not found
-        input_cost = input_tokens * pricing["input"]
-        output_cost = output_tokens * pricing["output"]
-        return input_cost + output_cost
-    def encode_pil_image(self, pil_image):
-        image_buffer = BytesIO()
-        if pil_image.mode in ("RGBA", "LA", "P"):
-            pil_image = pil_image.convert("RGB")
-        pil_image.save(image_buffer, format="JPEG")
-        image_bytes = image_buffer.getvalue()
-        base64_encoded_image = base64.b64encode(image_bytes).decode("utf-8")
-        return base64_encoded_image
-    ###############################################
-    # Model
-    ###############################################
-    def get_model_name(self):
-        return self.model_name
-    def load_model(self, async_mode: bool = False):
-        Client = AsyncOpenAI if async_mode else OpenAI
-        return self._build_client(Client)
-    def _client_kwargs(self) -> Dict:
-        """
-        If Tenacity is managing retries, force OpenAI SDK retries off to avoid
-        double retries. If the user opts into SDK retries for 'openai' via
-        DEEPEVAL_SDK_RETRY_PROVIDERS, leave their retry settings as is.
-        """
-        kwargs: Dict = {}
-        if not sdk_retries_for(PS.OPENAI):
-            kwargs["max_retries"] = 0
-        if not kwargs.get("timeout"):
-            kwargs["timeout"] = _request_timeout_seconds()
-        return kwargs
-    def _build_client(self, cls):
-        api_key = require_secret_api_key(
-            self._openai_api_key,
-            provider_label="OpenAI",
-            env_var_name="OPENAI_API_KEY",
-            param_hint="`_openai_api_key` to MultimodalOpenAIModel(...)",
-        )
-        kw = dict(
-            api_key=api_key,
-            **self._client_kwargs(),
-        )
-        try:
-            return cls(**kw)
-        except TypeError as e:
-            # older OpenAI SDKs may not accept max_retries, in that case remove and retry once
-            if "max_retries" in str(e):
-                kw.pop("max_retries", None)
-                return cls(**kw)
-            raise
-    def _client(self, async_mode: bool = False):
-        # Backwards-compat path for internal callers in this module
-        return self.load_model(async_mode=async_mode)

deepeval/optimization/__init__.py DELETED Viewed

@@ -1,13 +0,0 @@
-from deepeval.optimization.prompt_optimizer import PromptOptimizer
-from deepeval.optimization.configs import OptimizerDisplayConfig
-from deepeval.optimization.gepa.loop import (
-    GEPARunner as GEPARunner,
-    GEPAConfig as GEPAConfig,
-)
-__all__ = [
-    "GEPARunner",
-    "GEPAConfig",
-    "PromptOptimizer",
-    "OptimizerDisplayConfig",
-]

deepeval/optimization/adapters/__init__.py DELETED Viewed

	@@ -1,2 +0,0 @@
1	- # nothing yet
2	- __all__ = []

deepeval 3.7.4__py3-none-any.whl → 3.7.5__py3-none-any.whl

deepeval 3.7.4py3-none-any.whl → 3.7.5py3-none-any.whl