PyPI - deepeval - Versions diffs - 3.7.3__py3-none-any.whl → 3.7.5__py3-none-any.whl - Mend

deepeval 3.7.3py3-none-any.whl → 3.7.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (156) hide show

deepeval/_version.py +1 -1
deepeval/cli/test.py +1 -1
deepeval/config/settings.py +102 -13
deepeval/dataset/golden.py +54 -2
deepeval/evaluate/configs.py +1 -1
deepeval/evaluate/evaluate.py +16 -8
deepeval/evaluate/execute.py +74 -27
deepeval/evaluate/utils.py +26 -22
deepeval/integrations/pydantic_ai/agent.py +19 -2
deepeval/integrations/pydantic_ai/instrumentator.py +62 -23
deepeval/metrics/__init__.py +14 -12
deepeval/metrics/answer_relevancy/answer_relevancy.py +74 -29
deepeval/metrics/answer_relevancy/template.py +188 -92
deepeval/metrics/argument_correctness/template.py +2 -2
deepeval/metrics/base_metric.py +2 -5
deepeval/metrics/bias/template.py +3 -3
deepeval/metrics/contextual_precision/contextual_precision.py +53 -15
deepeval/metrics/contextual_precision/template.py +115 -66
deepeval/metrics/contextual_recall/contextual_recall.py +50 -13
deepeval/metrics/contextual_recall/template.py +106 -55
deepeval/metrics/contextual_relevancy/contextual_relevancy.py +47 -15
deepeval/metrics/contextual_relevancy/template.py +87 -58
deepeval/metrics/conversation_completeness/template.py +2 -2
deepeval/metrics/conversational_dag/templates.py +4 -4
deepeval/metrics/conversational_g_eval/template.py +4 -3
deepeval/metrics/dag/templates.py +5 -5
deepeval/metrics/faithfulness/faithfulness.py +70 -27
deepeval/metrics/faithfulness/schema.py +1 -1
deepeval/metrics/faithfulness/template.py +200 -115
deepeval/metrics/g_eval/utils.py +2 -2
deepeval/metrics/hallucination/template.py +4 -4
deepeval/metrics/indicator.py +4 -4
deepeval/metrics/misuse/template.py +2 -2
deepeval/metrics/multimodal_metrics/__init__.py +0 -18
deepeval/metrics/multimodal_metrics/image_coherence/image_coherence.py +24 -17
deepeval/metrics/multimodal_metrics/image_editing/image_editing.py +26 -21
deepeval/metrics/multimodal_metrics/image_helpfulness/image_helpfulness.py +24 -17
deepeval/metrics/multimodal_metrics/image_reference/image_reference.py +24 -17
deepeval/metrics/multimodal_metrics/multimodal_g_eval/multimodal_g_eval.py +19 -19
deepeval/metrics/multimodal_metrics/multimodal_g_eval/template.py +63 -78
deepeval/metrics/multimodal_metrics/multimodal_g_eval/utils.py +20 -20
deepeval/metrics/multimodal_metrics/text_to_image/text_to_image.py +71 -50
deepeval/metrics/non_advice/template.py +2 -2
deepeval/metrics/pii_leakage/template.py +2 -2
deepeval/metrics/prompt_alignment/template.py +4 -4
deepeval/metrics/ragas.py +3 -3
deepeval/metrics/role_violation/template.py +2 -2
deepeval/metrics/step_efficiency/step_efficiency.py +1 -1
deepeval/metrics/tool_correctness/tool_correctness.py +2 -2
deepeval/metrics/toxicity/template.py +4 -4
deepeval/metrics/turn_contextual_precision/schema.py +21 -0
deepeval/metrics/turn_contextual_precision/template.py +187 -0
deepeval/metrics/turn_contextual_precision/turn_contextual_precision.py +550 -0
deepeval/metrics/turn_contextual_recall/schema.py +21 -0
deepeval/metrics/turn_contextual_recall/template.py +178 -0
deepeval/metrics/turn_contextual_recall/turn_contextual_recall.py +520 -0
deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_contextual_relevancy}/schema.py +7 -1
deepeval/metrics/turn_contextual_relevancy/template.py +161 -0
deepeval/metrics/turn_contextual_relevancy/turn_contextual_relevancy.py +535 -0
deepeval/metrics/{multimodal_metrics/multimodal_faithfulness → turn_faithfulness}/schema.py +11 -3
deepeval/metrics/turn_faithfulness/template.py +218 -0
deepeval/metrics/turn_faithfulness/turn_faithfulness.py +596 -0
deepeval/metrics/turn_relevancy/template.py +2 -2
deepeval/metrics/utils.py +39 -58
deepeval/models/__init__.py +0 -12
deepeval/models/base_model.py +16 -38
deepeval/models/embedding_models/__init__.py +7 -0
deepeval/models/embedding_models/azure_embedding_model.py +69 -32
deepeval/models/embedding_models/local_embedding_model.py +39 -22
deepeval/models/embedding_models/ollama_embedding_model.py +42 -18
deepeval/models/embedding_models/openai_embedding_model.py +50 -15
deepeval/models/llms/amazon_bedrock_model.py +1 -2
deepeval/models/llms/anthropic_model.py +53 -20
deepeval/models/llms/azure_model.py +140 -43
deepeval/models/llms/deepseek_model.py +38 -23
deepeval/models/llms/gemini_model.py +222 -103
deepeval/models/llms/grok_model.py +39 -27
deepeval/models/llms/kimi_model.py +39 -23
deepeval/models/llms/litellm_model.py +103 -45
deepeval/models/llms/local_model.py +35 -22
deepeval/models/llms/ollama_model.py +129 -17
deepeval/models/llms/openai_model.py +151 -50
deepeval/models/llms/portkey_model.py +149 -0
deepeval/models/llms/utils.py +5 -3
deepeval/models/retry_policy.py +17 -14
deepeval/models/utils.py +94 -4
deepeval/optimizer/__init__.py +5 -0
deepeval/optimizer/algorithms/__init__.py +6 -0
deepeval/optimizer/algorithms/base.py +29 -0
deepeval/optimizer/algorithms/configs.py +18 -0
deepeval/optimizer/algorithms/copro/__init__.py +5 -0
deepeval/optimizer/algorithms/copro/copro.py +836 -0
deepeval/optimizer/algorithms/gepa/__init__.py +5 -0
deepeval/optimizer/algorithms/gepa/gepa.py +737 -0
deepeval/optimizer/algorithms/miprov2/__init__.py +17 -0
deepeval/optimizer/algorithms/miprov2/bootstrapper.py +435 -0
deepeval/optimizer/algorithms/miprov2/miprov2.py +752 -0
deepeval/optimizer/algorithms/miprov2/proposer.py +301 -0
deepeval/optimizer/algorithms/simba/__init__.py +5 -0
deepeval/optimizer/algorithms/simba/simba.py +999 -0
deepeval/optimizer/algorithms/simba/types.py +15 -0
deepeval/optimizer/configs.py +31 -0
deepeval/optimizer/policies.py +227 -0
deepeval/optimizer/prompt_optimizer.py +263 -0
deepeval/optimizer/rewriter/__init__.py +5 -0
deepeval/optimizer/rewriter/rewriter.py +124 -0
deepeval/optimizer/rewriter/utils.py +214 -0
deepeval/optimizer/scorer/__init__.py +5 -0
deepeval/optimizer/scorer/base.py +86 -0
deepeval/optimizer/scorer/scorer.py +316 -0
deepeval/optimizer/scorer/utils.py +30 -0
deepeval/optimizer/types.py +148 -0
deepeval/optimizer/utils.py +480 -0
deepeval/prompt/prompt.py +7 -6
deepeval/test_case/__init__.py +1 -3
deepeval/test_case/api.py +12 -10
deepeval/test_case/conversational_test_case.py +19 -1
deepeval/test_case/llm_test_case.py +152 -1
deepeval/test_case/utils.py +4 -8
deepeval/test_run/api.py +15 -14
deepeval/test_run/cache.py +2 -0
deepeval/test_run/test_run.py +9 -4
deepeval/tracing/patchers.py +9 -4
deepeval/tracing/tracing.py +2 -2
deepeval/utils.py +89 -0
{deepeval-3.7.3.dist-info → deepeval-3.7.5.dist-info}/METADATA +1 -4
{deepeval-3.7.3.dist-info → deepeval-3.7.5.dist-info}/RECORD +134 -118
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/multimodal_answer_relevancy.py +0 -343
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/schema.py +0 -19
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/template.py +0 -122
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/multimodal_contextual_precision.py +0 -301
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/template.py +0 -132
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/multimodal_contextual_recall.py +0 -285
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/template.py +0 -112
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/multimodal_contextual_relevancy.py +0 -282
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/template.py +0 -102
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/multimodal_faithfulness.py +0 -356
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/template.py +0 -175
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/multimodal_tool_correctness.py +0 -290
deepeval/models/mlllms/__init__.py +0 -4
deepeval/models/mlllms/azure_model.py +0 -334
deepeval/models/mlllms/gemini_model.py +0 -284
deepeval/models/mlllms/ollama_model.py +0 -144
deepeval/models/mlllms/openai_model.py +0 -258
deepeval/test_case/mllm_test_case.py +0 -170
/deepeval/metrics/{multimodal_metrics/multimodal_answer_relevancy → turn_contextual_precision}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_precision → turn_contextual_recall}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_recall → turn_contextual_relevancy}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_faithfulness}/__init__.py +0 -0
{deepeval-3.7.3.dist-info → deepeval-3.7.5.dist-info}/LICENSE.md +0 -0
{deepeval-3.7.3.dist-info → deepeval-3.7.5.dist-info}/WHEEL +0 -0
{deepeval-3.7.3.dist-info → deepeval-3.7.5.dist-info}/entry_points.txt +0 -0

deepeval/models/llms/azure_model.py CHANGED Viewed

@@ -1,10 +1,12 @@
+import base64
 from openai.types.chat.chat_completion import ChatCompletion
 from openai import AzureOpenAI, AsyncAzureOpenAI
-from typing import Optional, Tuple, Union, Dict
-from pydantic import BaseModel
+from typing import Optional, Tuple, Union, Dict, List
+from pydantic import BaseModel, SecretStr
+from io import BytesIO
+from deepeval.config.settings import get_settings
 from deepeval.models import DeepEvalBaseLLM
-from deepeval.key_handler import ModelKeyValues, KEY_FILE_HANDLER
 from deepeval.models.llms.openai_model import (
     structured_outputs_models,
     json_mode_models,
@@ -14,53 +16,87 @@ from deepeval.models.retry_policy import (
     create_retry_decorator,
     sdk_retries_for,
 )
-from deepeval.models.llms.utils import trim_and_load_json
-from deepeval.models.utils import parse_model_name
+from deepeval.test_case import MLLMImage
+from deepeval.utils import convert_to_multi_modal_array, check_if_multimodal
+from deepeval.models.llms.utils import (
+    trim_and_load_json,
+)
+from deepeval.models.utils import (
+    parse_model_name,
+    require_secret_api_key,
+    normalize_kwargs_and_extract_aliases,
+)
 from deepeval.constants import ProviderSlug as PS
+valid_multimodal_models = [
+    "gpt-4o",
+    "gpt-4o-mini",
+    "gpt-4.1",
+    "gpt-4.1-mini",
+    "gpt-5",
+]
 retry_azure = create_retry_decorator(PS.AZURE)
+_ALIAS_MAP = {
+    "api_key": ["azure_openai_api_key"],
+    "base_url": ["azure_endpoint"],
+}
 class AzureOpenAIModel(DeepEvalBaseLLM):
     def __init__(
         self,
+        model: Optional[str] = None,
+        api_key: Optional[str] = None,
+        base_url: Optional[str] = None,
+        temperature: float = 0,
         deployment_name: Optional[str] = None,
-        model_name: Optional[str] = None,
-        azure_openai_api_key: Optional[str] = None,
         openai_api_version: Optional[str] = None,
-        azure_endpoint: Optional[str] = None,
-        temperature: float = 0,
         generation_kwargs: Optional[Dict] = None,
         **kwargs,
     ):
-        # fetch Azure deployment parameters
-        model_name = model_name or KEY_FILE_HANDLER.fetch_data(
-            ModelKeyValues.AZURE_MODEL_NAME
-        )
-        self.deployment_name = deployment_name or KEY_FILE_HANDLER.fetch_data(
-            ModelKeyValues.AZURE_DEPLOYMENT_NAME
-        )
-        self.azure_openai_api_key = (
-            azure_openai_api_key
-            or KEY_FILE_HANDLER.fetch_data(ModelKeyValues.AZURE_OPENAI_API_KEY)
+        normalized_kwargs, alias_values = normalize_kwargs_and_extract_aliases(
+            "AzureOpenAIModel",
+            kwargs,
+            _ALIAS_MAP,
         )
+        # re-map depricated keywords to re-named positional args
+        if api_key is None and "api_key" in alias_values:
+            api_key = alias_values["api_key"]
+        if base_url is None and "base_url" in alias_values:
+            base_url = alias_values["base_url"]
+        settings = get_settings()
+        # fetch Azure deployment parameters
+        model = model or settings.AZURE_MODEL_NAME
+        self.deployment_name = deployment_name or settings.AZURE_DEPLOYMENT_NAME
+        if api_key is not None:
+            # keep it secret, keep it safe from serializings, logging and alike
+            self.api_key: SecretStr | None = SecretStr(api_key)
+        else:
+            self.api_key = settings.AZURE_OPENAI_API_KEY
         self.openai_api_version = (
-            openai_api_version
-            or KEY_FILE_HANDLER.fetch_data(ModelKeyValues.OPENAI_API_VERSION)
+            openai_api_version or settings.OPENAI_API_VERSION
         )
-        self.azure_endpoint = azure_endpoint or KEY_FILE_HANDLER.fetch_data(
-            ModelKeyValues.AZURE_OPENAI_ENDPOINT
+        self.base_url = (
+            base_url
+            or settings.AZURE_OPENAI_ENDPOINT
+            and str(settings.AZURE_OPENAI_ENDPOINT)
         )
         if temperature < 0:
             raise ValueError("Temperature must be >= 0.")
         self.temperature = temperature
-        # args and kwargs will be passed to the underlying model, in load_model function
-        self.kwargs = kwargs
+        # Keep sanitized kwargs for client call to strip legacy keys
+        self.kwargs = normalized_kwargs
         self.generation_kwargs = generation_kwargs or {}
-        super().__init__(parse_model_name(model_name))
+        super().__init__(parse_model_name(model))
     ###############################################
     # Other generate functions
@@ -71,13 +107,16 @@ class AzureOpenAIModel(DeepEvalBaseLLM):
         self, prompt: str, schema: Optional[BaseModel] = None
     ) -> Tuple[Union[str, Dict], float]:
         client = self.load_model(async_mode=False)
+        if check_if_multimodal(prompt):
+            prompt = convert_to_multi_modal_array(prompt)
+            prompt = self.generate_prompt(prompt)
         if schema:
-            if self.model_name in structured_outputs_models:
+            if self.name in structured_outputs_models:
                 completion = client.beta.chat.completions.parse(
                     model=self.deployment_name,
-                    messages=[
-                        {"role": "user", "content": prompt},
-                    ],
+                    messages=[{"role": "user", "content": prompt}],
                     response_format=schema,
                     temperature=self.temperature,
                 )
@@ -89,7 +128,7 @@ class AzureOpenAIModel(DeepEvalBaseLLM):
                     completion.usage.completion_tokens,
                 )
                 return structured_output, cost
-            if self.model_name in json_mode_models:
+            if self.name in json_mode_models:
                 completion = client.beta.chat.completions.parse(
                     model=self.deployment_name,
                     messages=[
@@ -130,13 +169,16 @@ class AzureOpenAIModel(DeepEvalBaseLLM):
         self, prompt: str, schema: Optional[BaseModel] = None
     ) -> Tuple[Union[str, BaseModel], float]:
         client = self.load_model(async_mode=True)
+        if check_if_multimodal(prompt):
+            prompt = convert_to_multi_modal_array(prompt)
+            prompt = self.generate_prompt(prompt)
         if schema:
-            if self.model_name in structured_outputs_models:
+            if self.name in structured_outputs_models:
                 completion = await client.beta.chat.completions.parse(
                     model=self.deployment_name,
-                    messages=[
-                        {"role": "user", "content": prompt},
-                    ],
+                    messages=[{"role": "user", "content": prompt}],
                     response_format=schema,
                     temperature=self.temperature,
                 )
@@ -148,7 +190,7 @@ class AzureOpenAIModel(DeepEvalBaseLLM):
                     completion.usage.completion_tokens,
                 )
                 return structured_output, cost
-            if self.model_name in json_mode_models:
+            if self.name in json_mode_models:
                 completion = await client.beta.chat.completions.parse(
                     model=self.deployment_name,
                     messages=[
@@ -198,6 +240,9 @@ class AzureOpenAIModel(DeepEvalBaseLLM):
     ) -> Tuple[ChatCompletion, float]:
         # Generate completion
         client = self.load_model(async_mode=False)
+        if check_if_multimodal(prompt):
+            prompt = convert_to_multi_modal_array(input=prompt)
+            prompt = self.generate_prompt(prompt)
         completion = client.chat.completions.create(
             model=self.deployment_name,
             messages=[{"role": "user", "content": prompt}],
@@ -221,6 +266,9 @@ class AzureOpenAIModel(DeepEvalBaseLLM):
     ) -> Tuple[ChatCompletion, float]:
         # Generate completion
         client = self.load_model(async_mode=True)
+        if check_if_multimodal(prompt):
+            prompt = convert_to_multi_modal_array(input=prompt)
+            prompt = self.generate_prompt(prompt)
         completion = await client.chat.completions.create(
             model=self.deployment_name,
             messages=[{"role": "user", "content": prompt}],
@@ -236,12 +284,49 @@ class AzureOpenAIModel(DeepEvalBaseLLM):
         return completion, cost
+    def generate_prompt(
+        self, multimodal_input: List[Union[str, MLLMImage]] = []
+    ):
+        """Convert multimodal input into the proper message format for Azure OpenAI."""
+        prompt = []
+        for ele in multimodal_input:
+            if isinstance(ele, str):
+                prompt.append({"type": "text", "text": ele})
+            elif isinstance(ele, MLLMImage):
+                if ele.local:
+                    import PIL.Image
+                    image = PIL.Image.open(ele.url)
+                    visual_dict = {
+                        "type": "image_url",
+                        "image_url": {
+                            "url": f"data:image/jpeg;base64,{self.encode_pil_image(image)}"
+                        },
+                    }
+                else:
+                    visual_dict = {
+                        "type": "image_url",
+                        "image_url": {"url": ele.url},
+                    }
+                prompt.append(visual_dict)
+        return prompt
+    def encode_pil_image(self, pil_image):
+        """Encode a PIL image to base64 string."""
+        image_buffer = BytesIO()
+        if pil_image.mode in ("RGBA", "LA", "P"):
+            pil_image = pil_image.convert("RGB")
+        pil_image.save(image_buffer, format="JPEG")
+        image_bytes = image_buffer.getvalue()
+        base64_encoded_image = base64.b64encode(image_bytes).decode("utf-8")
+        return base64_encoded_image
     ###############################################
     # Utilities
     ###############################################
     def calculate_cost(self, input_tokens: int, output_tokens: int) -> float:
-        pricing = model_pricing.get(self.model_name, model_pricing["gpt-4.1"])
+        pricing = model_pricing.get(self.name, model_pricing["gpt-4.1"])
         input_cost = input_tokens * pricing["input"]
         output_cost = output_tokens * pricing["output"]
         return input_cost + output_cost
@@ -250,9 +335,6 @@ class AzureOpenAIModel(DeepEvalBaseLLM):
     # Model
     ###############################################
-    def get_model_name(self):
-        return f"Azure OpenAI ({self.model_name})"
     def load_model(self, async_mode: bool = False):
         if not async_mode:
             return self._build_client(AzureOpenAI)
@@ -270,10 +352,17 @@ class AzureOpenAIModel(DeepEvalBaseLLM):
         return kwargs
     def _build_client(self, cls):
+        api_key = require_secret_api_key(
+            self.api_key,
+            provider_label="AzureOpenAI",
+            env_var_name="AZURE_OPENAI_API_KEY",
+            param_hint="`api_key` to AzureOpenAIModel(...)",
+        )
         kw = dict(
-            api_key=self.azure_openai_api_key,
+            api_key=api_key,
             api_version=self.openai_api_version,
-            azure_endpoint=self.azure_endpoint,
+            base_url=self.base_url,
             azure_deployment=self.deployment_name,
             **self._client_kwargs(),
         )
@@ -285,3 +374,11 @@ class AzureOpenAIModel(DeepEvalBaseLLM):
                 kw.pop("max_retries", None)
                 return cls(**kw)
             raise
+    def supports_multimodal(self):
+        if self.name in valid_multimodal_models:
+            return True
+        return False
+    def get_model_name(self):
+        return f"{self.name} (Azure)"

deepeval/models/llms/deepseek_model.py CHANGED Viewed

@@ -1,9 +1,12 @@
 from typing import Optional, Tuple, Union, Dict
 from openai import OpenAI, AsyncOpenAI
-from pydantic import BaseModel
+from pydantic import BaseModel, SecretStr
-from deepeval.key_handler import ModelKeyValues, KEY_FILE_HANDLER
+from deepeval.config.settings import get_settings
 from deepeval.models.llms.utils import trim_and_load_json
+from deepeval.models.utils import (
+    require_secret_api_key,
+)
 from deepeval.models import DeepEvalBaseLLM
 from deepeval.models.retry_policy import (
     create_retry_decorator,
@@ -30,35 +33,38 @@ model_pricing = {
 class DeepSeekModel(DeepEvalBaseLLM):
     def __init__(
         self,
-        api_key: Optional[str] = None,
         model: Optional[str] = None,
+        api_key: Optional[str] = None,
         temperature: float = 0,
         generation_kwargs: Optional[Dict] = None,
         **kwargs,
     ):
-        model_name = model or KEY_FILE_HANDLER.fetch_data(
-            ModelKeyValues.DEEPSEEK_MODEL_NAME
-        )
-        if model_name not in model_pricing:
+        settings = get_settings()
+        model = model or settings.DEEPSEEK_MODEL_NAME
+        if model not in model_pricing:
             raise ValueError(
                 f"Invalid model. Available DeepSeek models: {', '.join(model_pricing.keys())}"
             )
-        temperature_from_key = KEY_FILE_HANDLER.fetch_data(
-            ModelKeyValues.TEMPERATURE
-        )
+        temperature_from_key = settings.TEMPERATURE
         if temperature_from_key is None:
             self.temperature = temperature
         else:
             self.temperature = float(temperature_from_key)
         if self.temperature < 0:
             raise ValueError("Temperature must be >= 0.")
-        self.api_key = api_key or KEY_FILE_HANDLER.fetch_data(
-            ModelKeyValues.DEEPSEEK_API_KEY
-        )
+        if api_key is not None:
+            # keep it secret, keep it safe from serializings, logging and alike
+            self.api_key: SecretStr | None = SecretStr(api_key)
+        else:
+            self.api_key = settings.DEEPSEEK_API_KEY
         self.base_url = "https://api.deepseek.com"
+        # Keep sanitized kwargs for client call to strip legacy keys
         self.kwargs = kwargs
         self.generation_kwargs = generation_kwargs or {}
-        super().__init__(model_name)
+        super().__init__(model)
     ###############################################
     # Other generate functions
@@ -68,10 +74,11 @@ class DeepSeekModel(DeepEvalBaseLLM):
     def generate(
         self, prompt: str, schema: Optional[BaseModel] = None
     ) -> Tuple[Union[str, Dict], float]:
         client = self.load_model(async_mode=False)
         if schema:
             completion = client.chat.completions.create(
-                model=self.model_name,
+                model=self.name,
                 messages=[{"role": "user", "content": prompt}],
                 response_format={"type": "json_object"},
                 temperature=self.temperature,
@@ -87,7 +94,7 @@ class DeepSeekModel(DeepEvalBaseLLM):
             return schema.model_validate(json_output), cost
         else:
             completion = client.chat.completions.create(
-                model=self.model_name,
+                model=self.name,
                 messages=[{"role": "user", "content": prompt}],
                 **self.generation_kwargs,
             )
@@ -102,10 +109,11 @@ class DeepSeekModel(DeepEvalBaseLLM):
     async def a_generate(
         self, prompt: str, schema: Optional[BaseModel] = None
     ) -> Tuple[Union[str, Dict], float]:
         client = self.load_model(async_mode=True)
         if schema:
             completion = await client.chat.completions.create(
-                model=self.model_name,
+                model=self.name,
                 messages=[{"role": "user", "content": prompt}],
                 response_format={"type": "json_object"},
                 temperature=self.temperature,
@@ -121,7 +129,7 @@ class DeepSeekModel(DeepEvalBaseLLM):
             return schema.model_validate(json_output), cost
         else:
             completion = await client.chat.completions.create(
-                model=self.model_name,
+                model=self.name,
                 messages=[{"role": "user", "content": prompt}],
                 **self.generation_kwargs,
             )
@@ -141,7 +149,7 @@ class DeepSeekModel(DeepEvalBaseLLM):
         input_tokens: int,
         output_tokens: int,
     ) -> float:
-        pricing = model_pricing.get(self.model_name, model_pricing)
+        pricing = model_pricing.get(self.name, model_pricing)
         input_cost = input_tokens * pricing["input"]
         output_cost = output_tokens * pricing["output"]
         return input_cost + output_cost
@@ -155,9 +163,6 @@ class DeepSeekModel(DeepEvalBaseLLM):
             return self._build_client(OpenAI)
         return self._build_client(AsyncOpenAI)
-    def get_model_name(self):
-        return f"{self.model_name}"
     def _client_kwargs(self) -> Dict:
         kwargs = dict(self.kwargs or {})
         # if we are managing retries with Tenacity, force SDK retries off to avoid double retries.
@@ -167,8 +172,15 @@ class DeepSeekModel(DeepEvalBaseLLM):
         return kwargs
     def _build_client(self, cls):
+        api_key = require_secret_api_key(
+            self.api_key,
+            provider_label="DeepSeek",
+            env_var_name="DEEPSEEK_API_KEY",
+            param_hint="`api_key` to DeepSeekModel(...)",
+        )
         kw = dict(
-            api_key=self.api_key,
+            api_key=api_key,
             base_url=self.base_url,
             **self._client_kwargs(),
         )
@@ -180,3 +192,6 @@ class DeepSeekModel(DeepEvalBaseLLM):
                 kw.pop("max_retries", None)
                 return cls(**kw)
             raise
+    def get_model_name(self):
+        return f"{self.name} (Deepseek)"

deepeval 3.7.3__py3-none-any.whl → 3.7.5__py3-none-any.whl

deepeval 3.7.3py3-none-any.whl → 3.7.5py3-none-any.whl