PyPI - deepeval - Versions diffs - 3.7.3__py3-none-any.whl → 3.7.5__py3-none-any.whl - Mend

deepeval 3.7.3py3-none-any.whl → 3.7.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (156) hide show

deepeval/_version.py +1 -1
deepeval/cli/test.py +1 -1
deepeval/config/settings.py +102 -13
deepeval/dataset/golden.py +54 -2
deepeval/evaluate/configs.py +1 -1
deepeval/evaluate/evaluate.py +16 -8
deepeval/evaluate/execute.py +74 -27
deepeval/evaluate/utils.py +26 -22
deepeval/integrations/pydantic_ai/agent.py +19 -2
deepeval/integrations/pydantic_ai/instrumentator.py +62 -23
deepeval/metrics/__init__.py +14 -12
deepeval/metrics/answer_relevancy/answer_relevancy.py +74 -29
deepeval/metrics/answer_relevancy/template.py +188 -92
deepeval/metrics/argument_correctness/template.py +2 -2
deepeval/metrics/base_metric.py +2 -5
deepeval/metrics/bias/template.py +3 -3
deepeval/metrics/contextual_precision/contextual_precision.py +53 -15
deepeval/metrics/contextual_precision/template.py +115 -66
deepeval/metrics/contextual_recall/contextual_recall.py +50 -13
deepeval/metrics/contextual_recall/template.py +106 -55
deepeval/metrics/contextual_relevancy/contextual_relevancy.py +47 -15
deepeval/metrics/contextual_relevancy/template.py +87 -58
deepeval/metrics/conversation_completeness/template.py +2 -2
deepeval/metrics/conversational_dag/templates.py +4 -4
deepeval/metrics/conversational_g_eval/template.py +4 -3
deepeval/metrics/dag/templates.py +5 -5
deepeval/metrics/faithfulness/faithfulness.py +70 -27
deepeval/metrics/faithfulness/schema.py +1 -1
deepeval/metrics/faithfulness/template.py +200 -115
deepeval/metrics/g_eval/utils.py +2 -2
deepeval/metrics/hallucination/template.py +4 -4
deepeval/metrics/indicator.py +4 -4
deepeval/metrics/misuse/template.py +2 -2
deepeval/metrics/multimodal_metrics/__init__.py +0 -18
deepeval/metrics/multimodal_metrics/image_coherence/image_coherence.py +24 -17
deepeval/metrics/multimodal_metrics/image_editing/image_editing.py +26 -21
deepeval/metrics/multimodal_metrics/image_helpfulness/image_helpfulness.py +24 -17
deepeval/metrics/multimodal_metrics/image_reference/image_reference.py +24 -17
deepeval/metrics/multimodal_metrics/multimodal_g_eval/multimodal_g_eval.py +19 -19
deepeval/metrics/multimodal_metrics/multimodal_g_eval/template.py +63 -78
deepeval/metrics/multimodal_metrics/multimodal_g_eval/utils.py +20 -20
deepeval/metrics/multimodal_metrics/text_to_image/text_to_image.py +71 -50
deepeval/metrics/non_advice/template.py +2 -2
deepeval/metrics/pii_leakage/template.py +2 -2
deepeval/metrics/prompt_alignment/template.py +4 -4
deepeval/metrics/ragas.py +3 -3
deepeval/metrics/role_violation/template.py +2 -2
deepeval/metrics/step_efficiency/step_efficiency.py +1 -1
deepeval/metrics/tool_correctness/tool_correctness.py +2 -2
deepeval/metrics/toxicity/template.py +4 -4
deepeval/metrics/turn_contextual_precision/schema.py +21 -0
deepeval/metrics/turn_contextual_precision/template.py +187 -0
deepeval/metrics/turn_contextual_precision/turn_contextual_precision.py +550 -0
deepeval/metrics/turn_contextual_recall/schema.py +21 -0
deepeval/metrics/turn_contextual_recall/template.py +178 -0
deepeval/metrics/turn_contextual_recall/turn_contextual_recall.py +520 -0
deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_contextual_relevancy}/schema.py +7 -1
deepeval/metrics/turn_contextual_relevancy/template.py +161 -0
deepeval/metrics/turn_contextual_relevancy/turn_contextual_relevancy.py +535 -0
deepeval/metrics/{multimodal_metrics/multimodal_faithfulness → turn_faithfulness}/schema.py +11 -3
deepeval/metrics/turn_faithfulness/template.py +218 -0
deepeval/metrics/turn_faithfulness/turn_faithfulness.py +596 -0
deepeval/metrics/turn_relevancy/template.py +2 -2
deepeval/metrics/utils.py +39 -58
deepeval/models/__init__.py +0 -12
deepeval/models/base_model.py +16 -38
deepeval/models/embedding_models/__init__.py +7 -0
deepeval/models/embedding_models/azure_embedding_model.py +69 -32
deepeval/models/embedding_models/local_embedding_model.py +39 -22
deepeval/models/embedding_models/ollama_embedding_model.py +42 -18
deepeval/models/embedding_models/openai_embedding_model.py +50 -15
deepeval/models/llms/amazon_bedrock_model.py +1 -2
deepeval/models/llms/anthropic_model.py +53 -20
deepeval/models/llms/azure_model.py +140 -43
deepeval/models/llms/deepseek_model.py +38 -23
deepeval/models/llms/gemini_model.py +222 -103
deepeval/models/llms/grok_model.py +39 -27
deepeval/models/llms/kimi_model.py +39 -23
deepeval/models/llms/litellm_model.py +103 -45
deepeval/models/llms/local_model.py +35 -22
deepeval/models/llms/ollama_model.py +129 -17
deepeval/models/llms/openai_model.py +151 -50
deepeval/models/llms/portkey_model.py +149 -0
deepeval/models/llms/utils.py +5 -3
deepeval/models/retry_policy.py +17 -14
deepeval/models/utils.py +94 -4
deepeval/optimizer/__init__.py +5 -0
deepeval/optimizer/algorithms/__init__.py +6 -0
deepeval/optimizer/algorithms/base.py +29 -0
deepeval/optimizer/algorithms/configs.py +18 -0
deepeval/optimizer/algorithms/copro/__init__.py +5 -0
deepeval/optimizer/algorithms/copro/copro.py +836 -0
deepeval/optimizer/algorithms/gepa/__init__.py +5 -0
deepeval/optimizer/algorithms/gepa/gepa.py +737 -0
deepeval/optimizer/algorithms/miprov2/__init__.py +17 -0
deepeval/optimizer/algorithms/miprov2/bootstrapper.py +435 -0
deepeval/optimizer/algorithms/miprov2/miprov2.py +752 -0
deepeval/optimizer/algorithms/miprov2/proposer.py +301 -0
deepeval/optimizer/algorithms/simba/__init__.py +5 -0
deepeval/optimizer/algorithms/simba/simba.py +999 -0
deepeval/optimizer/algorithms/simba/types.py +15 -0
deepeval/optimizer/configs.py +31 -0
deepeval/optimizer/policies.py +227 -0
deepeval/optimizer/prompt_optimizer.py +263 -0
deepeval/optimizer/rewriter/__init__.py +5 -0
deepeval/optimizer/rewriter/rewriter.py +124 -0
deepeval/optimizer/rewriter/utils.py +214 -0
deepeval/optimizer/scorer/__init__.py +5 -0
deepeval/optimizer/scorer/base.py +86 -0
deepeval/optimizer/scorer/scorer.py +316 -0
deepeval/optimizer/scorer/utils.py +30 -0
deepeval/optimizer/types.py +148 -0
deepeval/optimizer/utils.py +480 -0
deepeval/prompt/prompt.py +7 -6
deepeval/test_case/__init__.py +1 -3
deepeval/test_case/api.py +12 -10
deepeval/test_case/conversational_test_case.py +19 -1
deepeval/test_case/llm_test_case.py +152 -1
deepeval/test_case/utils.py +4 -8
deepeval/test_run/api.py +15 -14
deepeval/test_run/cache.py +2 -0
deepeval/test_run/test_run.py +9 -4
deepeval/tracing/patchers.py +9 -4
deepeval/tracing/tracing.py +2 -2
deepeval/utils.py +89 -0
{deepeval-3.7.3.dist-info → deepeval-3.7.5.dist-info}/METADATA +1 -4
{deepeval-3.7.3.dist-info → deepeval-3.7.5.dist-info}/RECORD +134 -118
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/multimodal_answer_relevancy.py +0 -343
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/schema.py +0 -19
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/template.py +0 -122
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/multimodal_contextual_precision.py +0 -301
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/template.py +0 -132
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/multimodal_contextual_recall.py +0 -285
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/template.py +0 -112
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/multimodal_contextual_relevancy.py +0 -282
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/template.py +0 -102
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/multimodal_faithfulness.py +0 -356
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/template.py +0 -175
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/multimodal_tool_correctness.py +0 -290
deepeval/models/mlllms/__init__.py +0 -4
deepeval/models/mlllms/azure_model.py +0 -334
deepeval/models/mlllms/gemini_model.py +0 -284
deepeval/models/mlllms/ollama_model.py +0 -144
deepeval/models/mlllms/openai_model.py +0 -258
deepeval/test_case/mllm_test_case.py +0 -170
/deepeval/metrics/{multimodal_metrics/multimodal_answer_relevancy → turn_contextual_precision}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_precision → turn_contextual_recall}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_recall → turn_contextual_relevancy}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_faithfulness}/__init__.py +0 -0
{deepeval-3.7.3.dist-info → deepeval-3.7.5.dist-info}/LICENSE.md +0 -0
{deepeval-3.7.3.dist-info → deepeval-3.7.5.dist-info}/WHEEL +0 -0
{deepeval-3.7.3.dist-info → deepeval-3.7.5.dist-info}/entry_points.txt +0 -0

deepeval/models/embedding_models/ollama_embedding_model.py CHANGED Viewed

@@ -1,8 +1,11 @@
-from ollama import Client, AsyncClient
 from typing import List, Optional, Dict
-from deepeval.key_handler import EmbeddingKeyValues, KEY_FILE_HANDLER
+from deepeval.config.settings import get_settings
+from deepeval.utils import require_dependency
 from deepeval.models import DeepEvalBaseEmbeddingModel
+from deepeval.models.utils import (
+    normalize_kwargs_and_extract_aliases,
+)
 from deepeval.models.retry_policy import (
     create_retry_decorator,
 )
@@ -11,30 +14,45 @@ from deepeval.constants import ProviderSlug as PS
 retry_ollama = create_retry_decorator(PS.OLLAMA)
+_ALIAS_MAP = {"base_url": ["host"]}
 class OllamaEmbeddingModel(DeepEvalBaseEmbeddingModel):
     def __init__(
         self,
         model: Optional[str] = None,
-        host: Optional[str] = None,
+        base_url: Optional[str] = None,
         generation_kwargs: Optional[Dict] = None,
-        **client_kwargs,
+        **kwargs,
     ):
-        self.host = host or KEY_FILE_HANDLER.fetch_data(
-            EmbeddingKeyValues.LOCAL_EMBEDDING_BASE_URL
+        normalized_kwargs, alias_values = normalize_kwargs_and_extract_aliases(
+            "OllamaEmbeddingModel",
+            kwargs,
+            _ALIAS_MAP,
         )
-        self.model_name = model or KEY_FILE_HANDLER.fetch_data(
-            EmbeddingKeyValues.LOCAL_EMBEDDING_MODEL_NAME
+        # re-map depricated keywords to re-named positional args
+        if base_url is None and "base_url" in alias_values:
+            base_url = alias_values["base_url"]
+        settings = get_settings()
+        self.base_url = (
+            base_url
+            or settings.LOCAL_EMBEDDING_BASE_URL
+            and str(settings.LOCAL_EMBEDDING_BASE_URL)
         )
-        self.client_kwargs = client_kwargs or {}
+        model = model or settings.LOCAL_EMBEDDING_MODEL_NAME
+        # Keep sanitized kwargs for client call to strip legacy keys
+        self.kwargs = normalized_kwargs
         self.generation_kwargs = generation_kwargs or {}
-        super().__init__(self.model_name)
+        super().__init__(model)
     @retry_ollama
     def embed_text(self, text: str) -> List[float]:
         embedding_model = self.load_model()
         response = embedding_model.embed(
-            model=self.model_name, input=text, **self.generation_kwargs
+            model=self.name, input=text, **self.generation_kwargs
         )
         return response["embeddings"][0]
@@ -42,7 +60,7 @@ class OllamaEmbeddingModel(DeepEvalBaseEmbeddingModel):
     def embed_texts(self, texts: List[str]) -> List[List[float]]:
         embedding_model = self.load_model()
         response = embedding_model.embed(
-            model=self.model_name, input=texts, **self.generation_kwargs
+            model=self.name, input=texts, **self.generation_kwargs
         )
         return response["embeddings"]
@@ -50,7 +68,7 @@ class OllamaEmbeddingModel(DeepEvalBaseEmbeddingModel):
     async def a_embed_text(self, text: str) -> List[float]:
         embedding_model = self.load_model(async_mode=True)
         response = await embedding_model.embed(
-            model=self.model_name, input=text, **self.generation_kwargs
+            model=self.name, input=text, **self.generation_kwargs
         )
         return response["embeddings"][0]
@@ -58,7 +76,7 @@ class OllamaEmbeddingModel(DeepEvalBaseEmbeddingModel):
     async def a_embed_texts(self, texts: List[str]) -> List[List[float]]:
         embedding_model = self.load_model(async_mode=True)
         response = await embedding_model.embed(
-            model=self.model_name, input=texts, **self.generation_kwargs
+            model=self.name, input=texts, **self.generation_kwargs
         )
         return response["embeddings"]
@@ -67,12 +85,18 @@ class OllamaEmbeddingModel(DeepEvalBaseEmbeddingModel):
     ###############################################
     def load_model(self, async_mode: bool = False):
+        ollama = require_dependency(
+            "ollama",
+            provider_label="OllamaEmbeddingModel",
+            install_hint="Install it with `pip install ollama`.",
+        )
         if not async_mode:
-            return self._build_client(Client)
-        return self._build_client(AsyncClient)
+            return self._build_client(ollama.Client)
+        return self._build_client(ollama.AsyncClient)
     def _build_client(self, cls):
-        return cls(host=self.host, **self.client_kwargs)
+        return cls(host=self.base_url, **self.kwargs)
     def get_model_name(self):
-        return f"{self.model_name} (Ollama)"
+        return f"{self.name} (Ollama)"

deepeval/models/embedding_models/openai_embedding_model.py CHANGED Viewed

@@ -1,5 +1,12 @@
 from typing import Dict, Optional, List
 from openai import OpenAI, AsyncOpenAI
+from pydantic import SecretStr
+from deepeval.config.settings import get_settings
+from deepeval.models.utils import (
+    require_secret_api_key,
+    normalize_kwargs_and_extract_aliases,
+)
 from deepeval.models import DeepEvalBaseEmbeddingModel
 from deepeval.models.retry_policy import (
     create_retry_decorator,
@@ -15,32 +22,53 @@ valid_openai_embedding_models = [
     "text-embedding-3-large",
     "text-embedding-ada-002",
 ]
 default_openai_embedding_model = "text-embedding-3-small"
+_ALIAS_MAP = {
+    "api_key": ["openai_api_key"],
+}
 class OpenAIEmbeddingModel(DeepEvalBaseEmbeddingModel):
     def __init__(
         self,
         model: Optional[str] = None,
-        openai_api_key: Optional[str] = None,
+        api_key: Optional[str] = None,
         generation_kwargs: Optional[Dict] = None,
-        **client_kwargs,
+        **kwargs,
     ):
-        self.openai_api_key = openai_api_key
-        self.model_name = model if model else default_openai_embedding_model
-        if self.model_name not in valid_openai_embedding_models:
+        normalized_kwargs, alias_values = normalize_kwargs_and_extract_aliases(
+            "OpenAIEmbeddingModel",
+            kwargs,
+            _ALIAS_MAP,
+        )
+        # re-map depricated keywords to re-named positional args
+        if api_key is None and "api_key" in alias_values:
+            api_key = alias_values["api_key"]
+        if api_key is not None:
+            # keep it secret, keep it safe from serializings, logging and alike
+            self.api_key: SecretStr | None = SecretStr(api_key)
+        else:
+            self.api_key = get_settings().OPENAI_API_KEY
+        model = model if model else default_openai_embedding_model
+        if model not in valid_openai_embedding_models:
             raise ValueError(
                 f"Invalid model. Available OpenAI Embedding models: {', '.join(valid_openai_embedding_models)}"
             )
-        self.client_kwargs = client_kwargs or {}
+        self.kwargs = normalized_kwargs
         self.generation_kwargs = generation_kwargs or {}
+        super().__init__(model)
     @retry_openai
     def embed_text(self, text: str) -> List[float]:
         client = self.load_model(async_mode=False)
         response = client.embeddings.create(
-            input=text, model=self.model_name, **self.generation_kwargs
+            input=text, model=self.name, **self.generation_kwargs
         )
         return response.data[0].embedding
@@ -48,7 +76,7 @@ class OpenAIEmbeddingModel(DeepEvalBaseEmbeddingModel):
     def embed_texts(self, texts: List[str]) -> List[List[float]]:
         client = self.load_model(async_mode=False)
         response = client.embeddings.create(
-            input=texts, model=self.model_name, **self.generation_kwargs
+            input=texts, model=self.name, **self.generation_kwargs
         )
         return [item.embedding for item in response.data]
@@ -56,7 +84,7 @@ class OpenAIEmbeddingModel(DeepEvalBaseEmbeddingModel):
     async def a_embed_text(self, text: str) -> List[float]:
         client = self.load_model(async_mode=True)
         response = await client.embeddings.create(
-            input=text, model=self.model_name, **self.generation_kwargs
+            input=text, model=self.name, **self.generation_kwargs
         )
         return response.data[0].embedding
@@ -64,7 +92,7 @@ class OpenAIEmbeddingModel(DeepEvalBaseEmbeddingModel):
     async def a_embed_texts(self, texts: List[str]) -> List[List[float]]:
         client = self.load_model(async_mode=True)
         response = await client.embeddings.create(
-            input=texts, model=self.model_name, **self.generation_kwargs
+            input=texts, model=self.name, **self.generation_kwargs
         )
         return [item.embedding for item in response.data]
@@ -72,21 +100,25 @@ class OpenAIEmbeddingModel(DeepEvalBaseEmbeddingModel):
     # Model
     ###############################################
-    def get_model_name(self):
-        return self.model_name
     def load_model(self, async_mode: bool = False):
         if not async_mode:
             return self._build_client(OpenAI)
         return self._build_client(AsyncOpenAI)
     def _build_client(self, cls):
-        client_kwargs = self.client_kwargs.copy()
+        api_key = require_secret_api_key(
+            self.api_key,
+            provider_label="OpenAI",
+            env_var_name="OPENAI_API_KEY",
+            param_hint="`api_key` to OpenAIEmbeddingModel(...)",
+        )
+        client_kwargs = self.kwargs.copy()
         if not sdk_retries_for(PS.OPENAI):
             client_kwargs["max_retries"] = 0
         client_init_kwargs = dict(
-            api_key=self.openai_api_key,
+            api_key=api_key,
             **client_kwargs,
         )
         try:
@@ -97,3 +129,6 @@ class OpenAIEmbeddingModel(DeepEvalBaseEmbeddingModel):
                 client_init_kwargs.pop("max_retries", None)
                 return cls(**client_init_kwargs)
             raise
+    def get_model_name(self):
+        return f"{self.name} (OpenAI)"

deepeval/models/llms/amazon_bedrock_model.py CHANGED Viewed

@@ -1,5 +1,3 @@
-import asyncio
 from typing import Optional, Tuple, Union, Dict
 from contextlib import AsyncExitStack
 from pydantic import BaseModel
@@ -76,6 +74,7 @@ class AmazonBedrockModel(DeepEvalBaseLLM):
     async def a_generate(
         self, prompt: str, schema: Optional[BaseModel] = None
     ) -> Tuple[Union[str, Dict], float]:
         try:
             payload = self.get_converse_request_body(prompt)
             client = await self._ensure_client()

deepeval/models/llms/anthropic_model.py CHANGED Viewed

@@ -1,8 +1,7 @@
 import warnings
 from typing import Optional, Tuple, Union, Dict
-from anthropic import Anthropic, AsyncAnthropic
-from pydantic import BaseModel
+from pydantic import BaseModel, SecretStr
 from deepeval.models import DeepEvalBaseLLM
 from deepeval.models.llms.utils import trim_and_load_json
@@ -10,10 +9,13 @@ from deepeval.models.retry_policy import (
     create_retry_decorator,
     sdk_retries_for,
 )
-from deepeval.models.utils import parse_model_name
+from deepeval.models.utils import (
+    require_secret_api_key,
+    normalize_kwargs_and_extract_aliases,
+)
 from deepeval.config.settings import get_settings
 from deepeval.constants import ProviderSlug as PS
+from deepeval.utils import require_dependency
 # consistent retry rules
 retry_anthropic = create_retry_decorator(PS.ANTHROPIC)
@@ -30,26 +32,44 @@ model_pricing = {
     "claude-instant-1.2": {"input": 0.80 / 1e6, "output": 2.40 / 1e6},
 }
+_ALIAS_MAP = {
+    "api_key": ["_anthropic_api_key"],
+}
 class AnthropicModel(DeepEvalBaseLLM):
     def __init__(
         self,
         model: str = "claude-3-7-sonnet-latest",
+        api_key: Optional[str] = None,
         temperature: float = 0,
-        _anthropic_api_key: Optional[str] = None,
         generation_kwargs: Optional[Dict] = None,
         **kwargs,
     ):
-        model_name = parse_model_name(model)
-        self._anthropic_api_key = _anthropic_api_key
+        normalized_kwargs, alias_values = normalize_kwargs_and_extract_aliases(
+            "AnthropicModel",
+            kwargs,
+            _ALIAS_MAP,
+        )
+        # re-map depricated keywords to re-named positional args
+        if api_key is None and "api_key" in alias_values:
+            api_key = alias_values["api_key"]
+        if api_key is not None:
+            # keep it secret, keep it safe from serializings, logging and alike
+            self.api_key: SecretStr | None = SecretStr(api_key)
+        else:
+            self.api_key = get_settings().ANTHROPIC_API_KEY
         if temperature < 0:
             raise ValueError("Temperature must be >= 0.")
         self.temperature = temperature
-        self.kwargs = kwargs
+        # Keep sanitized kwargs for client call to strip legacy keys
+        self.kwargs = normalized_kwargs
         self.generation_kwargs = generation_kwargs or {}
-        super().__init__(model_name)
+        super().__init__(model)
     ###############################################
     # Generate functions
@@ -59,6 +79,7 @@ class AnthropicModel(DeepEvalBaseLLM):
     def generate(
         self, prompt: str, schema: Optional[BaseModel] = None
     ) -> Tuple[Union[str, Dict], float]:
         chat_model = self.load_model()
         message = chat_model.messages.create(
             max_tokens=1024,
@@ -68,7 +89,7 @@ class AnthropicModel(DeepEvalBaseLLM):
                     "content": prompt,
                 }
             ],
-            model=self.model_name,
+            model=self.name,
             temperature=self.temperature,
             **self.generation_kwargs,
         )
@@ -85,6 +106,7 @@ class AnthropicModel(DeepEvalBaseLLM):
     async def a_generate(
         self, prompt: str, schema: Optional[BaseModel] = None
     ) -> Tuple[str, float]:
         chat_model = self.load_model(async_mode=True)
         message = await chat_model.messages.create(
             max_tokens=1024,
@@ -94,7 +116,7 @@ class AnthropicModel(DeepEvalBaseLLM):
                     "content": prompt,
                 }
             ],
-            model=self.model_name,
+            model=self.name,
             temperature=self.temperature,
             **self.generation_kwargs,
         )
@@ -113,7 +135,7 @@ class AnthropicModel(DeepEvalBaseLLM):
     ###############################################
     def calculate_cost(self, input_tokens: int, output_tokens: int) -> float:
-        pricing = model_pricing.get(self.model_name)
+        pricing = model_pricing.get(self.name)
         if pricing is None:
             # Calculate average cost from all known models
@@ -126,7 +148,7 @@ class AnthropicModel(DeepEvalBaseLLM):
             pricing = {"input": avg_input_cost, "output": avg_output_cost}
             warnings.warn(
-                f"[Warning] Pricing not defined for model '{self.model_name}'. "
+                f"[Warning] Pricing not defined for model '{self.name}'. "
                 "Using average input/output token costs from existing model_pricing."
             )
@@ -139,12 +161,15 @@ class AnthropicModel(DeepEvalBaseLLM):
     ###############################################
     def load_model(self, async_mode: bool = False):
-        if not async_mode:
-            return self._build_client(Anthropic)
-        return self._build_client(AsyncAnthropic)
+        module = require_dependency(
+            "anthropic",
+            provider_label="AnthropicModel",
+            install_hint="Install it with `pip install anthropic`.",
+        )
-    def get_model_name(self):
-        return f"{self.model_name}"
+        if not async_mode:
+            return self._build_client(module.Anthropic)
+        return self._build_client(module.AsyncAnthropic)
     def _client_kwargs(self) -> Dict:
         kwargs = dict(self.kwargs or {})
@@ -155,9 +180,14 @@ class AnthropicModel(DeepEvalBaseLLM):
         return kwargs
     def _build_client(self, cls):
-        settings = get_settings()
+        api_key = require_secret_api_key(
+            self.api_key,
+            provider_label="Anthropic",
+            env_var_name="ANTHROPIC_API_KEY",
+            param_hint="`api_key` to AnthropicModel(...)",
+        )
         kw = dict(
-            api_key=settings.ANTHROPIC_API_KEY or self._anthropic_api_key,
+            api_key=api_key,
             **self._client_kwargs(),
         )
         try:
@@ -168,3 +198,6 @@ class AnthropicModel(DeepEvalBaseLLM):
                 kw.pop("max_retries", None)
                 return cls(**kw)
             raise
+    def get_model_name(self):
+        return f"{self.name} (Anthropic)"

deepeval 3.7.3__py3-none-any.whl → 3.7.5__py3-none-any.whl

deepeval 3.7.3py3-none-any.whl → 3.7.5py3-none-any.whl