PyPI - deepeval - Versions diffs - 3.7.5__py3-none-any.whl → 3.7.7__py3-none-any.whl - Mend

deepeval 3.7.5py3-none-any.whl → 3.7.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (150) hide show

deepeval/_version.py +1 -1
deepeval/cli/main.py +2022 -759
deepeval/cli/utils.py +208 -36
deepeval/config/dotenv_handler.py +19 -0
deepeval/config/settings.py +675 -245
deepeval/config/utils.py +9 -1
deepeval/dataset/api.py +23 -1
deepeval/dataset/golden.py +106 -21
deepeval/evaluate/evaluate.py +0 -3
deepeval/evaluate/execute.py +162 -315
deepeval/evaluate/utils.py +6 -30
deepeval/key_handler.py +124 -51
deepeval/metrics/__init__.py +0 -4
deepeval/metrics/answer_relevancy/answer_relevancy.py +89 -132
deepeval/metrics/answer_relevancy/template.py +102 -179
deepeval/metrics/arena_g_eval/arena_g_eval.py +98 -96
deepeval/metrics/arena_g_eval/template.py +17 -1
deepeval/metrics/argument_correctness/argument_correctness.py +81 -87
deepeval/metrics/argument_correctness/template.py +19 -2
deepeval/metrics/base_metric.py +19 -41
deepeval/metrics/bias/bias.py +102 -108
deepeval/metrics/bias/template.py +14 -2
deepeval/metrics/contextual_precision/contextual_precision.py +56 -92
deepeval/metrics/contextual_recall/contextual_recall.py +58 -85
deepeval/metrics/contextual_relevancy/contextual_relevancy.py +53 -83
deepeval/metrics/conversation_completeness/conversation_completeness.py +101 -119
deepeval/metrics/conversation_completeness/template.py +23 -3
deepeval/metrics/conversational_dag/conversational_dag.py +12 -8
deepeval/metrics/conversational_dag/nodes.py +66 -123
deepeval/metrics/conversational_dag/templates.py +16 -0
deepeval/metrics/conversational_g_eval/conversational_g_eval.py +47 -66
deepeval/metrics/dag/dag.py +10 -0
deepeval/metrics/dag/nodes.py +63 -126
deepeval/metrics/dag/templates.py +14 -0
deepeval/metrics/exact_match/exact_match.py +9 -1
deepeval/metrics/faithfulness/faithfulness.py +82 -136
deepeval/metrics/g_eval/g_eval.py +93 -79
deepeval/metrics/g_eval/template.py +18 -1
deepeval/metrics/g_eval/utils.py +7 -6
deepeval/metrics/goal_accuracy/goal_accuracy.py +91 -76
deepeval/metrics/goal_accuracy/template.py +21 -3
deepeval/metrics/hallucination/hallucination.py +60 -75
deepeval/metrics/hallucination/template.py +13 -0
deepeval/metrics/indicator.py +11 -10
deepeval/metrics/json_correctness/json_correctness.py +40 -38
deepeval/metrics/json_correctness/template.py +10 -0
deepeval/metrics/knowledge_retention/knowledge_retention.py +60 -97
deepeval/metrics/knowledge_retention/schema.py +9 -3
deepeval/metrics/knowledge_retention/template.py +12 -0
deepeval/metrics/mcp/mcp_task_completion.py +72 -43
deepeval/metrics/mcp/multi_turn_mcp_use_metric.py +93 -75
deepeval/metrics/mcp/schema.py +4 -0
deepeval/metrics/mcp/template.py +59 -0
deepeval/metrics/mcp_use_metric/mcp_use_metric.py +58 -64
deepeval/metrics/mcp_use_metric/template.py +12 -0
deepeval/metrics/misuse/misuse.py +77 -97
deepeval/metrics/misuse/template.py +15 -0
deepeval/metrics/multimodal_metrics/__init__.py +0 -1
deepeval/metrics/multimodal_metrics/image_coherence/image_coherence.py +37 -38
deepeval/metrics/multimodal_metrics/image_editing/image_editing.py +55 -76
deepeval/metrics/multimodal_metrics/image_helpfulness/image_helpfulness.py +37 -38
deepeval/metrics/multimodal_metrics/image_reference/image_reference.py +37 -38
deepeval/metrics/multimodal_metrics/text_to_image/text_to_image.py +57 -76
deepeval/metrics/non_advice/non_advice.py +79 -105
deepeval/metrics/non_advice/template.py +12 -0
deepeval/metrics/pattern_match/pattern_match.py +12 -4
deepeval/metrics/pii_leakage/pii_leakage.py +75 -106
deepeval/metrics/pii_leakage/template.py +14 -0
deepeval/metrics/plan_adherence/plan_adherence.py +63 -89
deepeval/metrics/plan_adherence/template.py +11 -0
deepeval/metrics/plan_quality/plan_quality.py +63 -87
deepeval/metrics/plan_quality/template.py +9 -0
deepeval/metrics/prompt_alignment/prompt_alignment.py +78 -86
deepeval/metrics/prompt_alignment/template.py +12 -0
deepeval/metrics/role_adherence/role_adherence.py +48 -71
deepeval/metrics/role_adherence/template.py +14 -0
deepeval/metrics/role_violation/role_violation.py +75 -108
deepeval/metrics/role_violation/template.py +12 -0
deepeval/metrics/step_efficiency/step_efficiency.py +55 -65
deepeval/metrics/step_efficiency/template.py +11 -0
deepeval/metrics/summarization/summarization.py +115 -183
deepeval/metrics/summarization/template.py +19 -0
deepeval/metrics/task_completion/task_completion.py +67 -73
deepeval/metrics/tool_correctness/tool_correctness.py +43 -42
deepeval/metrics/tool_use/schema.py +4 -0
deepeval/metrics/tool_use/template.py +16 -2
deepeval/metrics/tool_use/tool_use.py +72 -94
deepeval/metrics/topic_adherence/schema.py +4 -0
deepeval/metrics/topic_adherence/template.py +21 -1
deepeval/metrics/topic_adherence/topic_adherence.py +68 -81
deepeval/metrics/toxicity/template.py +13 -0
deepeval/metrics/toxicity/toxicity.py +80 -99
deepeval/metrics/turn_contextual_precision/schema.py +3 -3
deepeval/metrics/turn_contextual_precision/template.py +9 -2
deepeval/metrics/turn_contextual_precision/turn_contextual_precision.py +154 -154
deepeval/metrics/turn_contextual_recall/schema.py +3 -3
deepeval/metrics/turn_contextual_recall/template.py +8 -1
deepeval/metrics/turn_contextual_recall/turn_contextual_recall.py +148 -143
deepeval/metrics/turn_contextual_relevancy/schema.py +2 -2
deepeval/metrics/turn_contextual_relevancy/template.py +8 -1
deepeval/metrics/turn_contextual_relevancy/turn_contextual_relevancy.py +154 -157
deepeval/metrics/turn_faithfulness/schema.py +1 -1
deepeval/metrics/turn_faithfulness/template.py +8 -1
deepeval/metrics/turn_faithfulness/turn_faithfulness.py +180 -203
deepeval/metrics/turn_relevancy/template.py +14 -0
deepeval/metrics/turn_relevancy/turn_relevancy.py +56 -69
deepeval/metrics/utils.py +161 -91
deepeval/models/__init__.py +2 -0
deepeval/models/base_model.py +44 -6
deepeval/models/embedding_models/azure_embedding_model.py +34 -12
deepeval/models/embedding_models/local_embedding_model.py +22 -7
deepeval/models/embedding_models/ollama_embedding_model.py +17 -6
deepeval/models/embedding_models/openai_embedding_model.py +3 -2
deepeval/models/llms/__init__.py +2 -0
deepeval/models/llms/amazon_bedrock_model.py +229 -73
deepeval/models/llms/anthropic_model.py +143 -48
deepeval/models/llms/azure_model.py +169 -95
deepeval/models/llms/constants.py +2032 -0
deepeval/models/llms/deepseek_model.py +82 -35
deepeval/models/llms/gemini_model.py +126 -67
deepeval/models/llms/grok_model.py +128 -65
deepeval/models/llms/kimi_model.py +129 -87
deepeval/models/llms/litellm_model.py +94 -18
deepeval/models/llms/local_model.py +115 -16
deepeval/models/llms/ollama_model.py +97 -76
deepeval/models/llms/openai_model.py +169 -311
deepeval/models/llms/portkey_model.py +58 -16
deepeval/models/llms/utils.py +5 -2
deepeval/models/retry_policy.py +10 -5
deepeval/models/utils.py +56 -4
deepeval/simulator/conversation_simulator.py +49 -2
deepeval/simulator/template.py +16 -1
deepeval/synthesizer/synthesizer.py +19 -17
deepeval/test_case/api.py +24 -45
deepeval/test_case/arena_test_case.py +7 -2
deepeval/test_case/conversational_test_case.py +55 -6
deepeval/test_case/llm_test_case.py +60 -6
deepeval/test_run/api.py +3 -0
deepeval/test_run/test_run.py +6 -1
deepeval/utils.py +26 -0
{deepeval-3.7.5.dist-info → deepeval-3.7.7.dist-info}/METADATA +3 -3
{deepeval-3.7.5.dist-info → deepeval-3.7.7.dist-info}/RECORD +145 -148
deepeval/metrics/multimodal_metrics/multimodal_g_eval/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_g_eval/multimodal_g_eval.py +0 -386
deepeval/metrics/multimodal_metrics/multimodal_g_eval/schema.py +0 -11
deepeval/metrics/multimodal_metrics/multimodal_g_eval/template.py +0 -133
deepeval/metrics/multimodal_metrics/multimodal_g_eval/utils.py +0 -68
{deepeval-3.7.5.dist-info → deepeval-3.7.7.dist-info}/LICENSE.md +0 -0
{deepeval-3.7.5.dist-info → deepeval-3.7.7.dist-info}/WHEEL +0 -0
{deepeval-3.7.5.dist-info → deepeval-3.7.7.dist-info}/entry_points.txt +0 -0

deepeval/evaluate/utils.py CHANGED Viewed

@@ -11,7 +11,6 @@ from deepeval.metrics import (
     ArenaGEval,
     BaseMetric,
     BaseConversationalMetric,
-    BaseMultimodalMetric,
 )
 from deepeval.test_case import (
     LLMTestCase,
@@ -218,9 +217,9 @@ def validate_assert_test_inputs(
         )
     if test_case and metrics:
-        if (
-            isinstance(test_case, LLMTestCase) and not test_case.multimodal
-        ) and not all(isinstance(metric, BaseMetric) for metric in metrics):
+        if (isinstance(test_case, LLMTestCase)) and not all(
+            isinstance(metric, BaseMetric) for metric in metrics
+        ):
             raise ValueError(
                 "All 'metrics' for an 'LLMTestCase' must be instances of 'BaseMetric' only."
             )
@@ -230,18 +229,6 @@ def validate_assert_test_inputs(
             raise ValueError(
                 "All 'metrics' for an 'ConversationalTestCase' must be instances of 'BaseConversationalMetric' only."
             )
-        if (
-            isinstance(test_case, LLMTestCase) and test_case.multimodal
-        ) and not all(
-            (
-                isinstance(metric, BaseMultimodalMetric)
-                or isinstance(metric, BaseMetric)
-            )
-            for metric in metrics
-        ):
-            raise ValueError(
-                "All 'metrics' for multi-modal LLMTestCase must be instances of 'BaseMultimodalMetric' only."
-            )
     if not ((golden and observed_callback) or (test_case and metrics)):
         raise ValueError(
@@ -259,7 +246,6 @@ def validate_evaluate_inputs(
         Union[
             List[BaseMetric],
             List[BaseConversationalMetric],
-            List[BaseMultimodalMetric],
         ]
     ] = None,
     metric_collection: Optional[str] = None,
@@ -292,10 +278,9 @@ def validate_evaluate_inputs(
     if test_cases and metrics:
         for test_case in test_cases:
             for metric in metrics:
-                if (
-                    isinstance(test_case, LLMTestCase)
-                    and not test_case.multimodal
-                ) and not isinstance(metric, BaseMetric):
+                if (isinstance(test_case, LLMTestCase)) and not isinstance(
+                    metric, BaseMetric
+                ):
                     raise ValueError(
                         f"Metric {metric.__name__} is not a valid metric for LLMTestCase."
                     )
@@ -306,15 +291,6 @@ def validate_evaluate_inputs(
                     raise ValueError(
                         f"Metric {metric.__name__} is not a valid metric for ConversationalTestCase."
                     )
-                if (
-                    isinstance(test_case, LLMTestCase) and test_case.multimodal
-                ) and not (
-                    isinstance(metric, BaseMultimodalMetric)
-                    or isinstance(metric, BaseMetric)
-                ):
-                    raise ValueError(
-                        f"Metric {metric.__name__} is not a valid metric for multi-modal LLMTestCase."
-                    )
 def print_test_result(test_result: TestResult, display: TestRunResultDisplay):

deepeval/key_handler.py CHANGED Viewed

@@ -5,7 +5,9 @@ import json
 import logging
 from enum import Enum
-from typing import Union
+from functools import lru_cache
+from pydantic import SecretStr
+from typing import get_args, get_origin, Union
 from .constants import KEY_FILE, HIDDEN_DIR
@@ -13,26 +15,34 @@ from .constants import KEY_FILE, HIDDEN_DIR
 logger = logging.getLogger(__name__)
-SECRET_KEYS = {
-    # General providers
-    "OPENAI_API_KEY",
-    "ANTHROPIC_API_KEY",
-    # Azure OpenAI
-    "AZURE_OPENAI_API_KEY",
-    # Google / Gemini
-    "GOOGLE_API_KEY",
-    # xAI Grok
-    "GROK_API_KEY",
-    # Moonshot
-    "MOONSHOT_API_KEY",
-    # DeepSeek
-    "DEEPSEEK_API_KEY",
-    # LiteLLM
-    "LITELLM_API_KEY",
-    # Local gateways (if any require keys)
-    "LOCAL_MODEL_API_KEY",
-    "LOCAL_EMBEDDING_API_KEY",
-}
+@lru_cache(maxsize=1)
+def _secret_env_keys() -> frozenset[str]:
+    # Lazy import avoids cycles at import time
+    from deepeval.config.settings import Settings
+    secret_keys: set[str] = set()
+    for env_key, field in Settings.model_fields.items():
+        ann = field.annotation
+        if ann is SecretStr:
+            secret_keys.add(env_key)
+            continue
+        origin = get_origin(ann)
+        if origin is Union and any(a is SecretStr for a in get_args(ann)):
+            secret_keys.add(env_key)
+    return frozenset(secret_keys)
+def _env_key_for_legacy_enum(key) -> str:
+    # For ModelKeyValues, .name == .value, for KeyValues it's the important one:
+    # KeyValues.API_KEY.name == "API_KEY" (matches Settings), value == "api_key" (legacy json key)
+    return getattr(key, "name", str(key))
+def _is_secret_key(key) -> bool:
+    return _env_key_for_legacy_enum(key) in _secret_env_keys()
 _WARNED_SECRET_KEYS = set()
@@ -40,7 +50,10 @@ _WARNED_SECRET_KEYS = set()
 class KeyValues(Enum):
     # Confident AI
     API_KEY = "api_key"
+    CONFIDENT_API_KEY = "confident_api_key"
+    CONFIDENT_BASE_URL = "confident_base_url"
     CONFIDENT_REGION = "confident_region"
     # Cache
     LAST_TEST_RUN_LINK = "last_test_run_link"
     LAST_TEST_RUN_DATA = "last_test_run_data"
@@ -49,6 +62,24 @@ class KeyValues(Enum):
 class ModelKeyValues(Enum):
     # General
     TEMPERATURE = "TEMPERATURE"
+    # Anthropic
+    USE_ANTHROPIC_MODEL = "USE_ANTHROPIC_MODEL"
+    ANTHROPIC_API_KEY = "ANTHROPIC_API_KEY"
+    ANTHROPIC_MODEL_NAME = "ANTHROPIC_MODEL_NAME"
+    ANTHROPIC_COST_PER_INPUT_TOKEN = "ANTHROPIC_COST_PER_INPUT_TOKEN"
+    ANTHROPIC_COST_PER_OUTPUT_TOKEN = "ANTHROPIC_COST_PER_OUTPUT_TOKEN"
+    # AWS
+    AWS_ACCESS_KEY_ID = "AWS_ACCESS_KEY_ID"
+    AWS_SECRET_ACCESS_KEY = "AWS_SECRET_ACCESS_KEY"
+    # AWS Bedrock
+    USE_AWS_BEDROCK_MODEL = "USE_AWS_BEDROCK_MODEL"
+    AWS_BEDROCK_MODEL_NAME = "AWS_BEDROCK_MODEL_NAME"
+    AWS_BEDROCK_REGION = "AWS_BEDROCK_REGION"
+    AWS_BEDROCK_COST_PER_INPUT_TOKEN = "AWS_BEDROCK_COST_PER_INPUT_TOKEN"
+    AWS_BEDROCK_COST_PER_OUTPUT_TOKEN = "AWS_BEDROCK_COST_PER_OUTPUT_TOKEN"
     # Azure Open AI
     AZURE_OPENAI_API_KEY = "AZURE_OPENAI_API_KEY"
     AZURE_OPENAI_ENDPOINT = "AZURE_OPENAI_ENDPOINT"
@@ -57,49 +88,88 @@ class ModelKeyValues(Enum):
     AZURE_MODEL_NAME = "AZURE_MODEL_NAME"
     AZURE_MODEL_VERSION = "AZURE_MODEL_VERSION"
     USE_AZURE_OPENAI = "USE_AZURE_OPENAI"
-    # Local Model
-    LOCAL_MODEL_NAME = "LOCAL_MODEL_NAME"
-    LOCAL_MODEL_BASE_URL = "LOCAL_MODEL_BASE_URL"
-    LOCAL_MODEL_API_KEY = "LOCAL_MODEL_API_KEY"
-    LOCAL_MODEL_FORMAT = "LOCAL_MODEL_FORMAT"
-    USE_LOCAL_MODEL = "USE_LOCAL_MODEL"
+    # DeepSeek
+    USE_DEEPSEEK_MODEL = "USE_DEEPSEEK_MODEL"
+    DEEPSEEK_API_KEY = "DEEPSEEK_API_KEY"
+    DEEPSEEK_MODEL_NAME = "DEEPSEEK_MODEL_NAME"
+    DEEPSEEK_COST_PER_INPUT_TOKEN = "DEEPSEEK_COST_PER_INPUT_TOKEN"
+    DEEPSEEK_COST_PER_OUTPUT_TOKEN = "DEEPSEEK_COST_PER_OUTPUT_TOKEN"
     # Gemini
     USE_GEMINI_MODEL = "USE_GEMINI_MODEL"
-    GEMINI_MODEL_NAME = "GEMINI_MODEL_NAME"
     GOOGLE_API_KEY = "GOOGLE_API_KEY"
+    GEMINI_MODEL_NAME = "GEMINI_MODEL_NAME"
     GOOGLE_GENAI_USE_VERTEXAI = "GOOGLE_GENAI_USE_VERTEXAI"
     GOOGLE_CLOUD_PROJECT = "GOOGLE_CLOUD_PROJECT"
     GOOGLE_CLOUD_LOCATION = "GOOGLE_CLOUD_LOCATION"
     GOOGLE_SERVICE_ACCOUNT_KEY = "GOOGLE_SERVICE_ACCOUNT_KEY"
+    # Grok
+    USE_GROK_MODEL = "USE_GROK_MODEL"
+    GROK_API_KEY = "GROK_API_KEY"
+    GROK_MODEL_NAME = "GROK_MODEL_NAME"
+    GROK_COST_PER_INPUT_TOKEN = "GROK_COST_PER_INPUT_TOKEN"
+    GROK_COST_PER_OUTPUT_TOKEN = "GROK_COST_PER_OUTPUT_TOKEN"
     # LiteLLM
     USE_LITELLM = "USE_LITELLM"
-    LITELLM_MODEL_NAME = "LITELLM_MODEL_NAME"
     LITELLM_API_KEY = "LITELLM_API_KEY"
+    LITELLM_MODEL_NAME = "LITELLM_MODEL_NAME"
     LITELLM_API_BASE = "LITELLM_API_BASE"
+    LITELLM_PROXY_API_BASE = "LITELLM_PROXY_API_BASE"
+    LITELLM_PROXY_API_KEY = "LITELLM_PROXY_API_KEY"
+    # LM Studio
+    LM_STUDIO_API_KEY = "LM_STUDIO_API_KEY"
+    LM_STUDIO_MODEL_NAME = "LM_STUDIO_MODEL_NAME"
+    # Local Model
+    USE_LOCAL_MODEL = "USE_LOCAL_MODEL"
+    LOCAL_MODEL_API_KEY = "LOCAL_MODEL_API_KEY"
+    LOCAL_MODEL_NAME = "LOCAL_MODEL_NAME"
+    LOCAL_MODEL_BASE_URL = "LOCAL_MODEL_BASE_URL"
+    LOCAL_MODEL_FORMAT = "LOCAL_MODEL_FORMAT"
+    # Moonshot
+    USE_MOONSHOT_MODEL = "USE_MOONSHOT_MODEL"
+    MOONSHOT_API_KEY = "MOONSHOT_API_KEY"
+    MOONSHOT_MODEL_NAME = "MOONSHOT_MODEL_NAME"
+    MOONSHOT_COST_PER_INPUT_TOKEN = "MOONSHOT_COST_PER_INPUT_TOKEN"
+    MOONSHOT_COST_PER_OUTPUT_TOKEN = "MOONSHOT_COST_PER_OUTPUT_TOKEN"
+    # Ollama
+    OLLAMA_MODEL_NAME = "OLLAMA_MODEL_NAME"
     # OpenAI
     USE_OPENAI_MODEL = "USE_OPENAI_MODEL"
+    OPENAI_API_KEY = "OPENAI_API_KEY"
     OPENAI_MODEL_NAME = "OPENAI_MODEL_NAME"
     OPENAI_COST_PER_INPUT_TOKEN = "OPENAI_COST_PER_INPUT_TOKEN"
     OPENAI_COST_PER_OUTPUT_TOKEN = "OPENAI_COST_PER_OUTPUT_TOKEN"
-    OPENAI_API_KEY = "OPENAI_API_KEY"
-    # Moonshot
-    USE_MOONSHOT_MODEL = "USE_MOONSHOT_MODEL"
-    MOONSHOT_MODEL_NAME = "MOONSHOT_MODEL_NAME"
-    MOONSHOT_API_KEY = "MOONSHOT_API_KEY"
-    # Grok
-    USE_GROK_MODEL = "USE_GROK_MODEL"
-    GROK_MODEL_NAME = "GROK_MODEL_NAME"
-    GROK_API_KEY = "GROK_API_KEY"
-    # DeepSeek
-    USE_DEEPSEEK_MODEL = "USE_DEEPSEEK_MODEL"
-    DEEPSEEK_MODEL_NAME = "DEEPSEEK_MODEL_NAME"
-    DEEPSEEK_API_KEY = "DEEPSEEK_API_KEY"
+    # PortKey
+    USE_PORTKEY_MODEL = "USE_PORTKEY_MODEL"
+    PORTKEY_API_KEY = "PORTKEY_API_KEY"
+    PORTKEY_MODEL_NAME = "PORTKEY_MODEL_NAME"
+    PORTKEY_BASE_URL = "PORTKEY_BASE_URL"
+    PORTKEY_PROVIDER_NAME = "PORTKEY_PROVIDER_NAME"
+    # Vertex AI
+    VERTEX_AI_MODEL_NAME = "VERTEX_AI_MODEL_NAME"
+    # VLLM
+    VLLM_API_KEY = "VLLM_API_KEY"
+    VLLM_MODEL_NAME = "VLLM_MODEL_NAME"
 class EmbeddingKeyValues(Enum):
     # Azure OpenAI
     USE_AZURE_OPENAI_EMBEDDING = "USE_AZURE_OPENAI_EMBEDDING"
+    # Azure OpenAI
+    AZURE_EMBEDDING_MODEL_NAME = "AZURE_EMBEDDING_MODEL_NAME"
     AZURE_EMBEDDING_DEPLOYMENT_NAME = "AZURE_EMBEDDING_DEPLOYMENT_NAME"
     # Local
     USE_LOCAL_EMBEDDINGS = "USE_LOCAL_EMBEDDINGS"
     LOCAL_EMBEDDING_MODEL_NAME = "LOCAL_EMBEDDING_MODEL_NAME"
@@ -120,9 +190,11 @@ class KeyFileHandler:
         """Appends or updates data in the hidden file"""
         # hard stop on secrets: never write to disk
-        if key.value in SECRET_KEYS:
+        if _is_secret_key(key):
             logger.warning(
-                f"{key} is blacklisted, refusing to persist. Keep your secrets in .env or .env.local instead"
+                "%s is a secret setting, refusing to persist. "
+                "Keep your secrets in .env or .env.local instead.",
+                _env_key_for_legacy_enum(key),
             )
             return
@@ -167,16 +239,17 @@ class KeyFileHandler:
         # Deprecation: warn only if we're actually returning a secret
         if (
             value is not None
-            and key.value in SECRET_KEYS
-            and key.value not in _WARNED_SECRET_KEYS
+            and _is_secret_key(key)
+            and _env_key_for_legacy_enum(key) not in _WARNED_SECRET_KEYS
         ):
             logger.warning(
-                f"Reading secret '{key.value}' from legacy {HIDDEN_DIR}/{KEY_FILE}. "
-                "Persisting API keys in plaintext is deprecated. "
-                "Move this to your environment (.env / .env.local). "
-                "This fallback will be removed in a future release."
+                "Reading secret '%s' from legacy %s/%s. Persisting API keys in plaintext is deprecated. "
+                "Move this to your environment (.env / .env.local). This fallback will be removed in a future release.",
+                _env_key_for_legacy_enum(key),
+                HIDDEN_DIR,
+                KEY_FILE,
             )
-            _WARNED_SECRET_KEYS.add(key.value)
+            _WARNED_SECRET_KEYS.add(_env_key_for_legacy_enum(key))
         return value

deepeval/metrics/__init__.py CHANGED Viewed

@@ -1,7 +1,6 @@
 from .base_metric import (
     BaseMetric,
     BaseConversationalMetric,
-    BaseMultimodalMetric,
     BaseArenaMetric,
 )
@@ -65,7 +64,6 @@ from .multimodal_metrics import (
     ImageCoherenceMetric,
     ImageHelpfulnessMetric,
     ImageReferenceMetric,
-    MultimodalGEval,
 )
@@ -73,7 +71,6 @@ __all__ = [
     # Base classes
     "BaseMetric",
     "BaseConversationalMetric",
-    "BaseMultimodalMetric",
     "BaseArenaMetric",
     # Non-LLM metrics
     "ExactMatchMetric",
@@ -133,5 +130,4 @@ __all__ = [
     "ImageCoherenceMetric",
     "ImageHelpfulnessMetric",
     "ImageReferenceMetric",
-    "MultimodalGEval",
 ]

deepeval/metrics/answer_relevancy/answer_relevancy.py CHANGED Viewed

@@ -6,17 +6,22 @@ from deepeval.utils import (
 )
 from deepeval.metrics.utils import (
     construct_verbose_logs,
-    trimAndLoadJson,
     check_llm_test_case_params,
-    check_mllm_test_case_params,
     initialize_model,
+    generate_with_schema_and_extract,
+    a_generate_with_schema_and_extract,
 )
 from deepeval.test_case import LLMTestCase, LLMTestCaseParams, MLLMImage
 from deepeval.metrics import BaseMetric
 from deepeval.models import DeepEvalBaseLLM
 from deepeval.metrics.answer_relevancy.template import AnswerRelevancyTemplate
 from deepeval.metrics.indicator import metric_progress_indicator
-from deepeval.metrics.answer_relevancy.schema import *
+from deepeval.metrics.answer_relevancy.schema import (
+    Statements,
+    AnswerRelevancyVerdict,
+    Verdicts,
+    AnswerRelevancyScoreReason,
+)
 from deepeval.metrics.api import metric_data_manager
@@ -55,13 +60,15 @@ class AnswerRelevancyMetric(BaseMetric):
         _log_metric_to_confident: bool = True,
     ) -> float:
-        multimodal = test_case.multimodal
-        if multimodal:
-            check_mllm_test_case_params(
-                test_case, self._required_params, None, None, self, self.model
-            )
-        else:
-            check_llm_test_case_params(test_case, self._required_params, self)
+        check_llm_test_case_params(
+            test_case,
+            self._required_params,
+            None,
+            None,
+            self,
+            self.model,
+            test_case.multimodal,
+        )
         self.evaluation_cost = 0 if self.using_native_model else None
         with metric_progress_indicator(
@@ -82,13 +89,13 @@ class AnswerRelevancyMetric(BaseMetric):
                 actual_output = test_case.actual_output
                 self.statements: List[str] = self._generate_statements(
-                    actual_output, multimodal
+                    actual_output, test_case.multimodal
                 )
                 self.verdicts: List[AnswerRelevancyVerdict] = (
-                    self._generate_verdicts(input, multimodal)
+                    self._generate_verdicts(input, test_case.multimodal)
                 )
                 self.score = self._calculate_score()
-                self.reason = self._generate_reason(input, multimodal)
+                self.reason = self._generate_reason(input, test_case.multimodal)
                 self.success = self.score >= self.threshold
                 self.verbose_logs = construct_verbose_logs(
                     self,
@@ -113,13 +120,15 @@ class AnswerRelevancyMetric(BaseMetric):
         _log_metric_to_confident: bool = True,
     ) -> float:
-        multimodal = test_case.multimodal
-        if multimodal:
-            check_mllm_test_case_params(
-                test_case, self._required_params, None, None, self, self.model
-            )
-        else:
-            check_llm_test_case_params(test_case, self._required_params, self)
+        check_llm_test_case_params(
+            test_case,
+            self._required_params,
+            None,
+            None,
+            self,
+            self.model,
+            test_case.multimodal,
+        )
         self.evaluation_cost = 0 if self.using_native_model else None
         with metric_progress_indicator(
@@ -132,13 +141,15 @@ class AnswerRelevancyMetric(BaseMetric):
             actual_output = test_case.actual_output
             self.statements: List[str] = await self._a_generate_statements(
-                actual_output, multimodal
+                actual_output, test_case.multimodal
             )
             self.verdicts: List[AnswerRelevancyVerdict] = (
-                await self._a_generate_verdicts(input, multimodal)
+                await self._a_generate_verdicts(input, test_case.multimodal)
             )
             self.score = self._calculate_score()
-            self.reason = await self._a_generate_reason(input, multimodal)
+            self.reason = await self._a_generate_reason(
+                input, test_case.multimodal
+            )
             self.success = self.score >= self.threshold
             self.verbose_logs = construct_verbose_logs(
                 self,
@@ -170,22 +181,13 @@ class AnswerRelevancyMetric(BaseMetric):
             multimodal=multimodal,
         )
-        if self.using_native_model:
-            res, cost = await self.model.a_generate(
-                prompt, schema=AnswerRelevancyScoreReason
-            )
-            self.evaluation_cost += cost
-            return res.reason
-        else:
-            try:
-                res: AnswerRelevancyScoreReason = await self.model.a_generate(
-                    prompt=prompt, schema=AnswerRelevancyScoreReason
-                )
-                return res.reason
-            except TypeError:
-                res = await self.model.a_generate(prompt)
-                data = trimAndLoadJson(res, self)
-                return data["reason"]
+        return await a_generate_with_schema_and_extract(
+            metric=self,
+            prompt=prompt,
+            schema_cls=AnswerRelevancyScoreReason,
+            extract_schema=lambda score_reason: score_reason.reason,
+            extract_json=lambda data: data["reason"],
+        )
     def _generate_reason(self, input: str, multimodal: bool) -> str:
         if self.include_reason is False:
@@ -203,22 +205,13 @@ class AnswerRelevancyMetric(BaseMetric):
             multimodal=multimodal,
         )
-        if self.using_native_model:
-            res, cost = self.model.generate(
-                prompt, schema=AnswerRelevancyScoreReason
-            )
-            self.evaluation_cost += cost
-            return res.reason
-        else:
-            try:
-                res: AnswerRelevancyScoreReason = self.model.generate(
-                    prompt=prompt, schema=AnswerRelevancyScoreReason
-                )
-                return res.reason
-            except TypeError:
-                res = self.model.generate(prompt)
-                data = trimAndLoadJson(res, self)
-                return data["reason"]
+        return generate_with_schema_and_extract(
+            metric=self,
+            prompt=prompt,
+            schema_cls=AnswerRelevancyScoreReason,
+            extract_schema=lambda score_reason: score_reason.reason,
+            extract_json=lambda data: data["reason"],
+        )
     async def _a_generate_verdicts(
         self, input: str, multimodal: bool
@@ -230,22 +223,15 @@ class AnswerRelevancyMetric(BaseMetric):
             input=input, statements=self.statements, multimodal=multimodal
         )
-        if self.using_native_model:
-            res, cost = await self.model.a_generate(prompt, schema=Verdicts)
-            self.evaluation_cost += cost
-            return [item for item in res.verdicts]
-        else:
-            try:
-                res: Verdicts = await self.model.a_generate(
-                    prompt, schema=Verdicts
-                )
-                return [item for item in res.verdicts]
-            except TypeError:
-                res = await self.model.a_generate(prompt)
-                data = trimAndLoadJson(res, self)
-                return [
-                    AnswerRelevancyVerdict(**item) for item in data["verdicts"]
-                ]
+        return await a_generate_with_schema_and_extract(
+            metric=self,
+            prompt=prompt,
+            schema_cls=Verdicts,
+            extract_schema=lambda r: list(r.verdicts),
+            extract_json=lambda data: [
+                AnswerRelevancyVerdict(**item) for item in data["verdicts"]
+            ],
+        )
     def _generate_verdicts(
         self, input: str, multimodal: bool
@@ -257,22 +243,17 @@ class AnswerRelevancyMetric(BaseMetric):
             input=input, statements=self.statements, multimodal=multimodal
         )
-        if self.using_native_model:
-            res, cost = self.model.generate(prompt, schema=Verdicts)
-            self.evaluation_cost += cost
-            return [item for item in res.verdicts]
-        else:
-            try:
-                res: Verdicts = self.model.generate(prompt, schema=Verdicts)
-                return [item for item in res.verdicts]
-            except TypeError:
-                res = self.model.generate(prompt)
-                data = trimAndLoadJson(res, self)
-                return [
-                    AnswerRelevancyVerdict(**item) for item in data["verdicts"]
-                ]
+        return generate_with_schema_and_extract(
+            metric=self,
+            prompt=prompt,
+            schema_cls=Verdicts,
+            extract_schema=lambda r: list(r.verdicts),
+            extract_json=lambda data: [
+                AnswerRelevancyVerdict(**item) for item in data["verdicts"]
+            ],
+        )
-    async def _a_generate_statements(
+    def _generate_statements(
         self,
         actual_output: str,
         multimodal: bool,
@@ -280,31 +261,18 @@ class AnswerRelevancyMetric(BaseMetric):
         prompt = self.evaluation_template.generate_statements(
             actual_output=actual_output, multimodal=multimodal
         )
-        if self.using_native_model:
-            res, cost = await self.model.a_generate(prompt, schema=Statements)
-            self.evaluation_cost += cost
-            statements: List[str] = res.statements + [
-                ele for ele in actual_output if isinstance(ele, MLLMImage)
-            ]
-            return statements
-        else:
-            try:
-                res: Statements = await self.model.a_generate(
-                    prompt, schema=Statements
-                )
-                statements: List[str] = res.statements + [
-                    ele for ele in actual_output if isinstance(ele, MLLMImage)
-                ]
-                return statements
-            except TypeError:
-                res = await self.model.a_generate(prompt)
-                data = trimAndLoadJson(res, self)
-                statements = data["statements"] + [
-                    ele for ele in actual_output if isinstance(ele, MLLMImage)
-                ]
-                return statements
-    def _generate_statements(
+        return generate_with_schema_and_extract(
+            metric=self,
+            prompt=prompt,
+            schema_cls=Statements,
+            extract_schema=lambda s: s.statements
+            + [ele for ele in actual_output if isinstance(ele, MLLMImage)],
+            extract_json=lambda d: d["statements"]
+            + [ele for ele in actual_output if isinstance(ele, MLLMImage)],
+        )
+    async def _a_generate_statements(
         self,
         actual_output: str,
         multimodal: bool,
@@ -312,27 +280,16 @@ class AnswerRelevancyMetric(BaseMetric):
         prompt = self.evaluation_template.generate_statements(
             actual_output=actual_output, multimodal=multimodal
         )
-        if self.using_native_model:
-            res, cost = self.model.generate(prompt, schema=Statements)
-            self.evaluation_cost += cost
-            statements = res.statements + [
-                ele for ele in actual_output if isinstance(ele, MLLMImage)
-            ]
-            return statements
-        else:
-            try:
-                res: Statements = self.model.generate(prompt, schema=Statements)
-                statements = res.statements + [
-                    ele for ele in actual_output if isinstance(ele, MLLMImage)
-                ]
-                return statements
-            except TypeError:
-                res = self.model.generate(prompt)
-                data = trimAndLoadJson(res, self)
-                statements = data["statements"] + [
-                    ele for ele in actual_output if isinstance(ele, MLLMImage)
-                ]
-                return statements
+        return await a_generate_with_schema_and_extract(
+            metric=self,
+            prompt=prompt,
+            schema_cls=Statements,
+            extract_schema=lambda s: s.statements
+            + [ele for ele in actual_output if isinstance(ele, MLLMImage)],
+            extract_json=lambda d: d["statements"]
+            + [ele for ele in actual_output if isinstance(ele, MLLMImage)],
+        )
     def _calculate_score(self):
         number_of_verdicts = len(self.verdicts)
@@ -353,7 +310,7 @@ class AnswerRelevancyMetric(BaseMetric):
         else:
             try:
                 self.success = self.score >= self.threshold
-            except:
+            except TypeError:
                 self.success = False
         return self.success

deepeval 3.7.5__py3-none-any.whl → 3.7.7__py3-none-any.whl

deepeval 3.7.5py3-none-any.whl → 3.7.7py3-none-any.whl