PyPI - deepeval - Versions diffs - 3.7.4__py3-none-any.whl → 3.7.5__py3-none-any.whl - Mend

deepeval 3.7.4py3-none-any.whl → 3.7.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (155) hide show

deepeval/_version.py +1 -1
deepeval/dataset/golden.py +54 -2
deepeval/evaluate/evaluate.py +16 -8
deepeval/evaluate/execute.py +70 -26
deepeval/evaluate/utils.py +26 -22
deepeval/integrations/pydantic_ai/agent.py +19 -2
deepeval/integrations/pydantic_ai/instrumentator.py +62 -23
deepeval/metrics/__init__.py +14 -12
deepeval/metrics/answer_relevancy/answer_relevancy.py +74 -29
deepeval/metrics/answer_relevancy/template.py +188 -92
deepeval/metrics/base_metric.py +2 -5
deepeval/metrics/contextual_precision/contextual_precision.py +53 -15
deepeval/metrics/contextual_precision/template.py +115 -66
deepeval/metrics/contextual_recall/contextual_recall.py +50 -13
deepeval/metrics/contextual_recall/template.py +106 -55
deepeval/metrics/contextual_relevancy/contextual_relevancy.py +47 -15
deepeval/metrics/contextual_relevancy/template.py +87 -58
deepeval/metrics/dag/templates.py +2 -2
deepeval/metrics/faithfulness/faithfulness.py +70 -27
deepeval/metrics/faithfulness/schema.py +1 -1
deepeval/metrics/faithfulness/template.py +200 -115
deepeval/metrics/g_eval/utils.py +2 -2
deepeval/metrics/indicator.py +4 -4
deepeval/metrics/multimodal_metrics/__init__.py +0 -18
deepeval/metrics/multimodal_metrics/image_coherence/image_coherence.py +24 -17
deepeval/metrics/multimodal_metrics/image_editing/image_editing.py +26 -21
deepeval/metrics/multimodal_metrics/image_helpfulness/image_helpfulness.py +24 -17
deepeval/metrics/multimodal_metrics/image_reference/image_reference.py +24 -17
deepeval/metrics/multimodal_metrics/multimodal_g_eval/multimodal_g_eval.py +19 -19
deepeval/metrics/multimodal_metrics/multimodal_g_eval/template.py +63 -78
deepeval/metrics/multimodal_metrics/multimodal_g_eval/utils.py +20 -20
deepeval/metrics/multimodal_metrics/text_to_image/text_to_image.py +71 -50
deepeval/metrics/ragas.py +3 -3
deepeval/metrics/tool_correctness/tool_correctness.py +2 -2
deepeval/metrics/turn_contextual_precision/schema.py +21 -0
deepeval/metrics/turn_contextual_precision/template.py +187 -0
deepeval/metrics/turn_contextual_precision/turn_contextual_precision.py +550 -0
deepeval/metrics/turn_contextual_recall/schema.py +21 -0
deepeval/metrics/turn_contextual_recall/template.py +178 -0
deepeval/metrics/turn_contextual_recall/turn_contextual_recall.py +520 -0
deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_contextual_relevancy}/schema.py +7 -1
deepeval/metrics/turn_contextual_relevancy/template.py +161 -0
deepeval/metrics/turn_contextual_relevancy/turn_contextual_relevancy.py +535 -0
deepeval/metrics/{multimodal_metrics/multimodal_faithfulness → turn_faithfulness}/schema.py +11 -3
deepeval/metrics/turn_faithfulness/template.py +218 -0
deepeval/metrics/turn_faithfulness/turn_faithfulness.py +596 -0
deepeval/metrics/utils.py +39 -58
deepeval/models/__init__.py +0 -12
deepeval/models/base_model.py +16 -38
deepeval/models/embedding_models/__init__.py +7 -0
deepeval/models/embedding_models/azure_embedding_model.py +52 -28
deepeval/models/embedding_models/local_embedding_model.py +18 -14
deepeval/models/embedding_models/ollama_embedding_model.py +38 -16
deepeval/models/embedding_models/openai_embedding_model.py +40 -21
deepeval/models/llms/amazon_bedrock_model.py +1 -2
deepeval/models/llms/anthropic_model.py +44 -23
deepeval/models/llms/azure_model.py +121 -36
deepeval/models/llms/deepseek_model.py +18 -13
deepeval/models/llms/gemini_model.py +129 -43
deepeval/models/llms/grok_model.py +18 -13
deepeval/models/llms/kimi_model.py +18 -13
deepeval/models/llms/litellm_model.py +42 -22
deepeval/models/llms/local_model.py +12 -7
deepeval/models/llms/ollama_model.py +114 -12
deepeval/models/llms/openai_model.py +137 -41
deepeval/models/llms/portkey_model.py +24 -7
deepeval/models/llms/utils.py +5 -3
deepeval/models/retry_policy.py +17 -14
deepeval/models/utils.py +46 -1
deepeval/optimizer/__init__.py +5 -0
deepeval/optimizer/algorithms/__init__.py +6 -0
deepeval/optimizer/algorithms/base.py +29 -0
deepeval/optimizer/algorithms/configs.py +18 -0
deepeval/optimizer/algorithms/copro/__init__.py +5 -0
deepeval/{optimization/copro/loop.py → optimizer/algorithms/copro/copro.py} +112 -113
deepeval/optimizer/algorithms/gepa/__init__.py +5 -0
deepeval/{optimization/gepa/loop.py → optimizer/algorithms/gepa/gepa.py} +175 -115
deepeval/optimizer/algorithms/miprov2/__init__.py +17 -0
deepeval/optimizer/algorithms/miprov2/bootstrapper.py +435 -0
deepeval/optimizer/algorithms/miprov2/miprov2.py +752 -0
deepeval/optimizer/algorithms/miprov2/proposer.py +301 -0
deepeval/optimizer/algorithms/simba/__init__.py +5 -0
deepeval/{optimization/simba/loop.py → optimizer/algorithms/simba/simba.py} +128 -112
deepeval/{optimization → optimizer}/configs.py +5 -8
deepeval/{optimization/policies/selection.py → optimizer/policies.py} +63 -2
deepeval/optimizer/prompt_optimizer.py +263 -0
deepeval/optimizer/rewriter/__init__.py +5 -0
deepeval/optimizer/rewriter/rewriter.py +124 -0
deepeval/optimizer/rewriter/utils.py +214 -0
deepeval/optimizer/scorer/__init__.py +5 -0
deepeval/optimizer/scorer/base.py +86 -0
deepeval/optimizer/scorer/scorer.py +316 -0
deepeval/optimizer/scorer/utils.py +30 -0
deepeval/optimizer/types.py +148 -0
deepeval/{optimization → optimizer}/utils.py +47 -165
deepeval/prompt/prompt.py +5 -9
deepeval/test_case/__init__.py +1 -3
deepeval/test_case/api.py +12 -10
deepeval/test_case/conversational_test_case.py +19 -1
deepeval/test_case/llm_test_case.py +152 -1
deepeval/test_case/utils.py +4 -8
deepeval/test_run/api.py +15 -14
deepeval/test_run/test_run.py +3 -3
deepeval/tracing/patchers.py +9 -4
deepeval/tracing/tracing.py +2 -2
deepeval/utils.py +65 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/METADATA +1 -4
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/RECORD +116 -125
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/multimodal_answer_relevancy.py +0 -343
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/schema.py +0 -19
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/template.py +0 -122
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/multimodal_contextual_precision.py +0 -301
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/template.py +0 -132
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/multimodal_contextual_recall.py +0 -285
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/template.py +0 -112
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/multimodal_contextual_relevancy.py +0 -282
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/template.py +0 -102
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/multimodal_faithfulness.py +0 -356
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/template.py +0 -175
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/multimodal_tool_correctness.py +0 -290
deepeval/models/mlllms/__init__.py +0 -4
deepeval/models/mlllms/azure_model.py +0 -343
deepeval/models/mlllms/gemini_model.py +0 -313
deepeval/models/mlllms/ollama_model.py +0 -175
deepeval/models/mlllms/openai_model.py +0 -309
deepeval/optimization/__init__.py +0 -13
deepeval/optimization/adapters/__init__.py +0 -2
deepeval/optimization/adapters/deepeval_scoring_adapter.py +0 -588
deepeval/optimization/aggregates.py +0 -14
deepeval/optimization/copro/configs.py +0 -31
deepeval/optimization/gepa/__init__.py +0 -7
deepeval/optimization/gepa/configs.py +0 -115
deepeval/optimization/miprov2/configs.py +0 -134
deepeval/optimization/miprov2/loop.py +0 -785
deepeval/optimization/mutations/__init__.py +0 -0
deepeval/optimization/mutations/prompt_rewriter.py +0 -458
deepeval/optimization/policies/__init__.py +0 -16
deepeval/optimization/policies/tie_breaker.py +0 -67
deepeval/optimization/prompt_optimizer.py +0 -462
deepeval/optimization/simba/__init__.py +0 -0
deepeval/optimization/simba/configs.py +0 -33
deepeval/optimization/types.py +0 -361
deepeval/test_case/mllm_test_case.py +0 -170
/deepeval/metrics/{multimodal_metrics/multimodal_answer_relevancy → turn_contextual_precision}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_precision → turn_contextual_recall}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_recall → turn_contextual_relevancy}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_faithfulness}/__init__.py +0 -0
/deepeval/{optimization → optimizer/algorithms}/simba/types.py +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/LICENSE.md +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/WHEEL +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/entry_points.txt +0 -0

deepeval/models/llms/openai_model.py CHANGED Viewed

@@ -1,17 +1,23 @@
+import base64
 from openai.types.chat.chat_completion import ChatCompletion
-from typing import Optional, Tuple, Union, Dict
+from typing import Optional, Tuple, Union, Dict, List
+from deepeval.test_case import MLLMImage
 from pydantic import BaseModel, SecretStr
+from io import BytesIO
 from openai import (
     OpenAI,
     AsyncOpenAI,
 )
+from deepeval.utils import check_if_multimodal, convert_to_multi_modal_array
 from deepeval.config.settings import get_settings
 from deepeval.constants import ProviderSlug as PS
 from deepeval.models import DeepEvalBaseLLM
 from deepeval.models.llms.utils import trim_and_load_json
-from deepeval.models.utils import parse_model_name, require_secret_api_key
+from deepeval.models.utils import (
+    parse_model_name,
+    require_secret_api_key,
+    normalize_kwargs_and_extract_aliases,
+)
 from deepeval.models.retry_policy import (
     create_retry_decorator,
     sdk_retries_for,
@@ -20,6 +26,7 @@ from deepeval.models.retry_policy import (
 retry_openai = create_retry_decorator(PS.OPENAI)
 valid_gpt_models = [
     "gpt-3.5-turbo",
     "gpt-3.5-turbo-0125",
@@ -82,6 +89,15 @@ unsupported_log_probs_gpt_models = [
     "gpt-5-chat-latest",
 ]
+unsupported_log_probs_multimodal_gpt_models = [
+    "o1",
+    "o1-preview",
+    "o1-2024-12-17",
+    "o1-preview-2024-09-12",
+    "gpt-4.5-preview-2025-02-27",
+    "o4-mini",
+]
 structured_outputs_models = [
     "gpt-4o",
     "gpt-4o-2024-05-13",
@@ -214,20 +230,42 @@ def _request_timeout_seconds() -> float:
     return timeout if timeout > 0 else 30.0
+_ALIAS_MAP = {
+    "api_key": ["_openai_api_key"],
+}
 class GPTModel(DeepEvalBaseLLM):
+    valid_multimodal_models = [
+        "gpt-4o",
+        "gpt-4o-mini",
+        "gpt-4.1",
+        "gpt-4.1-mini",
+        "gpt-5",
+    ]
     def __init__(
         self,
         model: Optional[str] = None,
-        _openai_api_key: Optional[str] = None,
+        api_key: Optional[str] = None,
         base_url: Optional[str] = None,
+        temperature: float = 0,
         cost_per_input_token: Optional[float] = None,
         cost_per_output_token: Optional[float] = None,
-        temperature: float = 0,
         generation_kwargs: Optional[Dict] = None,
         **kwargs,
     ):
+        normalized_kwargs, alias_values = normalize_kwargs_and_extract_aliases(
+            "GPTModel",
+            kwargs,
+            _ALIAS_MAP,
+        )
+        # re-map depricated keywords to re-named positional args
+        if api_key is None and "api_key" in alias_values:
+            api_key = alias_values["api_key"]
         settings = get_settings()
-        model_name = None
         model = model or settings.OPENAI_MODEL_NAME
         cost_per_input_token = (
             cost_per_input_token
@@ -240,51 +278,50 @@ class GPTModel(DeepEvalBaseLLM):
             else settings.OPENAI_COST_PER_OUTPUT_TOKEN
         )
+        if model is None:
+            model = default_gpt_model
         if isinstance(model, str):
-            model_name = parse_model_name(model)
-            if model_name not in valid_gpt_models:
+            model = parse_model_name(model)
+            if model not in valid_gpt_models:
                 raise ValueError(
                     f"Invalid model. Available GPT models: {', '.join(model for model in valid_gpt_models)}"
                 )
-        elif model is None:
-            model_name = default_gpt_model
-        if model_name not in model_pricing:
+        if model not in model_pricing:
             if cost_per_input_token is None or cost_per_output_token is None:
                 raise ValueError(
-                    f"No pricing available for `{model_name}`. "
+                    f"No pricing available for `{model}`. "
                     "Please provide both `cost_per_input_token` and `cost_per_output_token` when initializing `GPTModel`, "
                     "or set them via the CLI:\n"
                     "    deepeval set-openai --model=[...] --cost_per_input_token=[...] --cost_per_output_token=[...]"
                 )
             else:
-                model_pricing[model_name] = {
+                model_pricing[model] = {
                     "input": float(cost_per_input_token),
                     "output": float(cost_per_output_token),
                 }
-        elif model is None:
-            model_name = default_gpt_model
-        if _openai_api_key is not None:
+        if api_key is not None:
             # keep it secret, keep it safe from serializings, logging and alike
-            self._openai_api_key: SecretStr | None = SecretStr(_openai_api_key)
+            self.api_key: SecretStr | None = SecretStr(api_key)
         else:
-            self._openai_api_key = get_settings().OPENAI_API_KEY
+            self.api_key = get_settings().OPENAI_API_KEY
         self.base_url = base_url
         # args and kwargs will be passed to the underlying model, in load_model function
         # Auto-adjust temperature for models that require it
-        if model_name in models_requiring_temperature_1:
+        if model in models_requiring_temperature_1:
             temperature = 1
         if temperature < 0:
             raise ValueError("Temperature must be >= 0.")
         self.temperature = temperature
-        self.kwargs = kwargs
+        # Keep sanitized kwargs for client call to strip legacy keys
+        self.kwargs = normalized_kwargs
         self.generation_kwargs = generation_kwargs or {}
-        super().__init__(model_name)
+        super().__init__(model)
     ###############################################
     # Generate functions
@@ -295,10 +332,15 @@ class GPTModel(DeepEvalBaseLLM):
         self, prompt: str, schema: Optional[BaseModel] = None
     ) -> Tuple[Union[str, Dict], float]:
         client = self.load_model(async_mode=False)
+        if check_if_multimodal(prompt):
+            prompt = convert_to_multi_modal_array(input=prompt)
+            prompt = self.generate_prompt(prompt)
         if schema:
-            if self.model_name in structured_outputs_models:
+            if self.name in structured_outputs_models:
                 completion = client.beta.chat.completions.parse(
-                    model=self.model_name,
+                    model=self.name,
                     messages=[
                         {"role": "user", "content": prompt},
                     ],
@@ -314,9 +356,9 @@ class GPTModel(DeepEvalBaseLLM):
                     completion.usage.completion_tokens,
                 )
                 return structured_output, cost
-            if self.model_name in json_mode_models:
+            if self.name in json_mode_models:
                 completion = client.beta.chat.completions.parse(
-                    model=self.model_name,
+                    model=self.name,
                     messages=[
                         {"role": "user", "content": prompt},
                     ],
@@ -334,7 +376,7 @@ class GPTModel(DeepEvalBaseLLM):
                 return schema.model_validate(json_output), cost
         completion = client.chat.completions.create(
-            model=self.model_name,
+            model=self.name,
             messages=[{"role": "user", "content": prompt}],
             temperature=self.temperature,
             **self.generation_kwargs,
@@ -354,10 +396,15 @@ class GPTModel(DeepEvalBaseLLM):
         self, prompt: str, schema: Optional[BaseModel] = None
     ) -> Tuple[Union[str, BaseModel], float]:
         client = self.load_model(async_mode=True)
+        if check_if_multimodal(prompt):
+            prompt = convert_to_multi_modal_array(input=prompt)
+            prompt = self.generate_prompt(prompt)
         if schema:
-            if self.model_name in structured_outputs_models:
+            if self.name in structured_outputs_models:
                 completion = await client.beta.chat.completions.parse(
-                    model=self.model_name,
+                    model=self.name,
                     messages=[
                         {"role": "user", "content": prompt},
                     ],
@@ -373,9 +420,9 @@ class GPTModel(DeepEvalBaseLLM):
                     completion.usage.completion_tokens,
                 )
                 return structured_output, cost
-            if self.model_name in json_mode_models:
+            if self.name in json_mode_models:
                 completion = await client.beta.chat.completions.parse(
-                    model=self.model_name,
+                    model=self.name,
                     messages=[
                         {"role": "user", "content": prompt},
                     ],
@@ -393,7 +440,7 @@ class GPTModel(DeepEvalBaseLLM):
                 return schema.model_validate(json_output), cost
         completion = await client.chat.completions.create(
-            model=self.model_name,
+            model=self.name,
             messages=[{"role": "user", "content": prompt}],
             temperature=self.temperature,
             **self.generation_kwargs,
@@ -420,8 +467,11 @@ class GPTModel(DeepEvalBaseLLM):
     ) -> Tuple[ChatCompletion, float]:
         # Generate completion
         client = self.load_model(async_mode=False)
+        if check_if_multimodal(prompt):
+            prompt = convert_to_multi_modal_array(input=prompt)
+            prompt = self.generate_prompt(prompt)
         completion = client.chat.completions.create(
-            model=self.model_name,
+            model=self.name,
             messages=[{"role": "user", "content": prompt}],
             temperature=self.temperature,
             logprobs=True,
@@ -443,8 +493,11 @@ class GPTModel(DeepEvalBaseLLM):
     ) -> Tuple[ChatCompletion, float]:
         # Generate completion
         client = self.load_model(async_mode=True)
+        if check_if_multimodal(prompt):
+            prompt = convert_to_multi_modal_array(input=prompt)
+            prompt = self.generate_prompt(prompt)
         completion = await client.chat.completions.create(
-            model=self.model_name,
+            model=self.name,
             messages=[{"role": "user", "content": prompt}],
             temperature=self.temperature,
             logprobs=True,
@@ -463,8 +516,11 @@ class GPTModel(DeepEvalBaseLLM):
         self, prompt: str, n: int, temperature: float
     ) -> Tuple[list[str], float]:
         client = self.load_model(async_mode=False)
+        if check_if_multimodal(prompt):
+            prompt = convert_to_multi_modal_array(input=prompt)
+            prompt = self.generate_prompt(prompt)
         response = client.chat.completions.create(
-            model=self.model_name,
+            model=self.name,
             messages=[{"role": "user", "content": prompt}],
             n=n,
             temperature=temperature,
@@ -479,7 +535,7 @@ class GPTModel(DeepEvalBaseLLM):
     def calculate_cost(self, input_tokens: int, output_tokens: int) -> float:
         # TODO: consider loggin a warning instead of defaulting to whole model pricing
-        pricing = model_pricing.get(self.model_name, model_pricing)
+        pricing = model_pricing.get(self.name, model_pricing)
         input_cost = input_tokens * pricing["input"]
         output_cost = output_tokens * pricing["output"]
         return input_cost + output_cost
@@ -488,8 +544,40 @@ class GPTModel(DeepEvalBaseLLM):
     # Model #
     #########
-    def get_model_name(self):
-        return self.model_name
+    def generate_prompt(
+        self, multimodal_input: List[Union[str, MLLMImage]] = []
+    ):
+        prompt = []
+        for ele in multimodal_input:
+            if isinstance(ele, str):
+                prompt.append({"type": "text", "text": ele})
+            elif isinstance(ele, MLLMImage):
+                if ele.local:
+                    import PIL.Image
+                    image = PIL.Image.open(ele.url)
+                    visual_dict = {
+                        "type": "image_url",
+                        "image_url": {
+                            "url": f"data:image/jpeg;base64,{self.encode_pil_image(image)}"
+                        },
+                    }
+                else:
+                    visual_dict = {
+                        "type": "image_url",
+                        "image_url": {"url": ele.url},
+                    }
+                prompt.append(visual_dict)
+        return prompt
+    def encode_pil_image(self, pil_image):
+        image_buffer = BytesIO()
+        if pil_image.mode in ("RGBA", "LA", "P"):
+            pil_image = pil_image.convert("RGB")
+        pil_image.save(image_buffer, format="JPEG")
+        image_bytes = image_buffer.getvalue()
+        base64_encoded_image = base64.b64encode(image_bytes).decode("utf-8")
+        return base64_encoded_image
     def load_model(self, async_mode: bool = False):
         if not async_mode:
@@ -512,10 +600,10 @@ class GPTModel(DeepEvalBaseLLM):
     def _build_client(self, cls):
         api_key = require_secret_api_key(
-            self._openai_api_key,
+            self.api_key,
             provider_label="OpenAI",
             env_var_name="OPENAI_API_KEY",
-            param_hint="`_openai_api_key` to GPTModel(...)",
+            param_hint="`api_key` to GPTModel(...)",
         )
         kw = dict(
@@ -531,3 +619,11 @@ class GPTModel(DeepEvalBaseLLM):
                 kw.pop("max_retries", None)
                 return cls(**kw)
             raise
+    def supports_multimodal(self):
+        if self.name in GPTModel.valid_multimodal_models:
+            return True
+        return False
+    def get_model_name(self):
+        return f"{self.name}"

deepeval/models/llms/portkey_model.py CHANGED Viewed

@@ -4,11 +4,18 @@ from typing import Any, Dict, List, Optional, Union
 from pydantic import AnyUrl, SecretStr
 from deepeval.config.settings import get_settings
-from deepeval.models.utils import require_secret_api_key
+from deepeval.models.utils import (
+    require_secret_api_key,
+)
 from deepeval.models import DeepEvalBaseLLM
 from deepeval.utils import require_param
+def _request_timeout_seconds() -> float:
+    timeout = float(get_settings().DEEPEVAL_PER_ATTEMPT_TIMEOUT_SECONDS or 0)
+    return timeout if timeout > 0 else 30.0
 class PortkeyModel(DeepEvalBaseLLM):
     def __init__(
         self,
@@ -16,11 +23,13 @@ class PortkeyModel(DeepEvalBaseLLM):
         api_key: Optional[str] = None,
         base_url: Optional[AnyUrl] = None,
         provider: Optional[str] = None,
+        generation_kwargs: Optional[Dict] = None,
+        **kwargs,
     ):
         settings = get_settings()
         model = model or settings.PORTKEY_MODEL_NAME
-        self.model = require_param(
+        self.name = require_param(
             model,
             provider_label="Portkey",
             env_var_name="PORTKEY_MODEL_NAME",
@@ -52,6 +61,9 @@ class PortkeyModel(DeepEvalBaseLLM):
             env_var_name="PORTKEY_PROVIDER_NAME",
             param_hint="provider",
         )
+        # Keep sanitized kwargs for client call to strip legacy keys
+        self.kwargs = kwargs
+        self.generation_kwargs = generation_kwargs or {}
     def _headers(self) -> Dict[str, str]:
         api_key = require_secret_api_key(
@@ -70,10 +82,13 @@ class PortkeyModel(DeepEvalBaseLLM):
         return headers
     def _payload(self, prompt: str) -> Dict[str, Any]:
-        return {
-            "model": self.model,
+        payload = {
+            "model": self.name,
             "messages": [{"role": "user", "content": prompt}],
         }
+        if self.generation_kwargs:
+            payload.update(self.generation_kwargs)
+        return payload
     def _extract_content(self, data: Dict[str, Any]) -> str:
         choices: Union[List[Dict[str, Any]], None] = data.get("choices")
@@ -88,6 +103,7 @@ class PortkeyModel(DeepEvalBaseLLM):
         return ""
     def generate(self, prompt: str) -> str:
         try:
             response = requests.post(
                 f"{self.base_url}/chat/completions",
@@ -110,6 +126,7 @@ class PortkeyModel(DeepEvalBaseLLM):
         return self._extract_content(response.json())
     async def a_generate(self, prompt: str) -> str:
         async with aiohttp.ClientSession() as session:
             async with session.post(
                 f"{self.base_url}/chat/completions",
@@ -125,8 +142,8 @@ class PortkeyModel(DeepEvalBaseLLM):
                 data = await response.json()
                 return self._extract_content(data)
-    def get_model_name(self) -> str:
-        return f"Portkey ({self.model})"
     def load_model(self):
         return None
+    def get_model_name(self):
+        return f"{self.name} (Portkey)"

deepeval/models/llms/utils.py CHANGED Viewed

@@ -1,8 +1,10 @@
-from typing import Dict
+from typing import Dict, List, Optional
 import re
 import json
 import asyncio
+MULTIMODAL_MODELS = ["GPTModel", "AzureModel", "GeminiModel", "OllamaModel"]
 def trim_and_load_json(
     input_string: str,
@@ -38,7 +40,7 @@ def safe_asyncio_run(coro):
                 return loop.run_until_complete(future)
             else:
                 return loop.run_until_complete(coro)
-        except Exception as inner_e:
+        except Exception:
             raise
-    except Exception as e:
+    except Exception:
         raise

deepeval/models/retry_policy.py CHANGED Viewed

@@ -55,6 +55,7 @@ from tenacity.stop import stop_base
 from tenacity.wait import wait_base
 from contextvars import ContextVar, copy_context
+from deepeval.utils import require_dependency
 from deepeval.constants import (
     ProviderSlug as PS,
     slugify,
@@ -829,25 +830,23 @@ try:
 except Exception:  # botocore not present (aiobotocore optional)
     BEDROCK_ERROR_POLICY = None
 ####################
 # Anthropic Policy #
 ####################
 try:
-    from anthropic import (
-        AuthenticationError,
-        RateLimitError,
-        APIConnectionError,
-        APITimeoutError,
-        APIStatusError,
+    module = require_dependency(
+        "anthropic",
+        provider_label="retry_policy",
+        install_hint="Install it with `pip install anthropic`.",
     )
     ANTHROPIC_ERROR_POLICY = ErrorPolicy(
-        auth_excs=(AuthenticationError,),
-        rate_limit_excs=(RateLimitError,),
-        network_excs=(APIConnectionError, APITimeoutError),
-        http_excs=(APIStatusError,),
+        auth_excs=(module.AuthenticationError,),
+        rate_limit_excs=(module.RateLimitError,),
+        network_excs=(module.APIConnectionError, module.APITimeoutError),
+        http_excs=(module.APIStatusError,),
         non_retryable_codes=frozenset(),  # update if we learn of hard quota codes
         message_markers={},
     )
@@ -868,7 +867,11 @@ except Exception:  # Anthropic optional
 # and gate retries using message markers (code sniffing).
 # See: https://github.com/googleapis/python-genai?tab=readme-ov-file#error-handling
 try:
-    from google.genai import errors as gerrors
+    module = require_dependency(
+        "google.genai",
+        provider_label="retry_policy",
+        install_hint="Install it with `pip install google-genai`.",
+    )
     _HTTPX_NET_EXCS = _httpx_net_excs()
     _REQUESTS_EXCS = _requests_net_excs()
@@ -887,9 +890,9 @@ try:
     GOOGLE_ERROR_POLICY = ErrorPolicy(
         auth_excs=(),  # we will classify 401/403 via markers below (see non-retryable codes)
         rate_limit_excs=(
-            gerrors.ClientError,
+            module.gerrors.ClientError,
         ),  # includes 429; markers decide retry vs not
-        network_excs=(gerrors.ServerError,)
+        network_excs=(module.gerrors.ServerError,)
         + _HTTPX_NET_EXCS
         + _REQUESTS_EXCS,  # treat 5xx as transient
         http_excs=(),  # no reliable .status_code on exceptions; handled above

deepeval/models/utils.py CHANGED Viewed

@@ -1,9 +1,13 @@
-from typing import Optional
+import logging
+from typing import Any, Dict, Optional, Tuple
 from pydantic import SecretStr
 from deepeval.errors import DeepEvalError
+logger = logging.getLogger(__name__)
 def parse_model_name(model_name: Optional[str] = None) -> str:
     """Extract base model name from provider-prefixed format.
@@ -74,3 +78,44 @@ def require_secret_api_key(
         )
     return api_key
+def normalize_kwargs_and_extract_aliases(
+    provider_label: str,
+    kwargs: Dict[str, Any],
+    alias_map: Dict[str, list],
+) -> Tuple[Dict[str, Any], Dict[str, Any]]:
+    """
+    Normalize legacy keyword argument names according to alias_map.
+    alias_map is of the form: {new_name: [old_name1, old_name2, ...]}
+    - Returns (normalized_kwargs, extracted_values)
+      where:
+        - normalized_kwargs has all legacy keys removed (to prevent forwarding
+          to downstream SDK clients).
+        - extracted_values maps new_name -> value for any alias that was used.
+    - Logs a warning for each legacy keyword used, so callers know they should
+      migrate to the new name.
+    """
+    normalized = dict(kwargs)
+    extracted: Dict[str, Any] = {}
+    for new_name, old_names in alias_map.items():
+        for old_name in old_names:
+            if old_name in normalized:
+                value = normalized.pop(old_name)
+                logger.warning(
+                    "%s keyword '%s' is deprecated; please use '%s' instead.",
+                    provider_label,
+                    old_name,
+                    new_name,
+                )
+                # Only preserve the first alias value we see for a given new_name
+                if new_name not in extracted:
+                    extracted[new_name] = value
+    return normalized, extracted

deepeval/optimizer/__init__.py ADDED Viewed

@@ -0,0 +1,5 @@
+from deepeval.optimizer.prompt_optimizer import PromptOptimizer
+__all__ = [
+    "PromptOptimizer",
+]

deepeval/optimizer/algorithms/__init__.py ADDED Viewed

@@ -0,0 +1,6 @@
+from .gepa import GEPA
+from .miprov2 import MIPROV2
+from .copro import COPRO
+from .simba import SIMBA
+__all__ = ["GEPA", "MIPROV2", "COPRO", "SIMBA"]

deepeval/optimizer/algorithms/base.py ADDED Viewed

@@ -0,0 +1,29 @@
+from abc import ABC, abstractmethod
+from typing import Union, List, Dict, Tuple
+from deepeval.models.base_model import DeepEvalBaseLLM
+from deepeval.optimizer.scorer.base import BaseScorer
+from deepeval.prompt.prompt import Prompt
+from deepeval.dataset.golden import Golden, ConversationalGolden
+class BaseAlgorithm(ABC):
+    name: str
+    optimizer_model: DeepEvalBaseLLM
+    scorer: BaseScorer
+    @abstractmethod
+    def execute(
+        self,
+        prompt: Prompt,
+        goldens: Union[List[Golden], List[ConversationalGolden]],
+    ) -> Tuple[Prompt, Dict]:
+        raise NotImplementedError
+    @abstractmethod
+    async def a_execute(
+        self,
+        prompt: Prompt,
+        goldens: Union[List[Golden], List[ConversationalGolden]],
+    ) -> Tuple[Prompt, Dict]:
+        raise NotImplementedError

deepeval/optimizer/algorithms/configs.py ADDED Viewed

@@ -0,0 +1,18 @@
+# Internal GEPA constants - not exposed to users
+GEPA_MIN_DELTA: float = 0.0
+GEPA_TIE_TOLERANCE: float = 1e-9
+GEPA_REWRITE_INSTRUCTION_MAX_CHARS: int = 4096
+# Internal MIPROV2 constants - not exposed to users
+MIPROV2_MIN_DELTA: float = 0.0
+MIPROV2_REWRITE_INSTRUCTION_MAX_CHARS: int = 4096
+MIPROV2_DEFAULT_NUM_CANDIDATES: int = 10
+MIPROV2_DEFAULT_NUM_TRIALS: int = 20
+MIPROV2_DEFAULT_MINIBATCH_SIZE: int = 25
+MIPROV2_DEFAULT_MINIBATCH_FULL_EVAL_STEPS: int = 10
+MIPROV2_DEFAULT_MAX_BOOTSTRAPPED_DEMOS: int = 4
+MIPROV2_DEFAULT_MAX_LABELED_DEMOS: int = 4
+MIPROV2_DEFAULT_NUM_DEMO_SETS: int = 5
+# Internal SIMBA constants - not exposed to users
+SIMBA_DEMO_INPUT_MAX_CHARS: int = 256

deepeval/optimizer/algorithms/copro/__init__.py ADDED Viewed

@@ -0,0 +1,5 @@
+from .copro import COPRO
+__all__ = [
+    "COPRO",
+]

deepeval 3.7.4__py3-none-any.whl → 3.7.5__py3-none-any.whl

deepeval 3.7.4py3-none-any.whl → 3.7.5py3-none-any.whl