PyPI - deepeval - Versions diffs - 3.7.4__py3-none-any.whl → 3.7.6__py3-none-any.whl - Mend

deepeval 3.7.4py3-none-any.whl → 3.7.6py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (224) hide show

deepeval/_version.py +1 -1
deepeval/config/settings.py +35 -1
deepeval/dataset/api.py +23 -1
deepeval/dataset/golden.py +139 -2
deepeval/evaluate/evaluate.py +16 -11
deepeval/evaluate/execute.py +13 -181
deepeval/evaluate/utils.py +6 -26
deepeval/integrations/pydantic_ai/agent.py +19 -2
deepeval/integrations/pydantic_ai/instrumentator.py +62 -23
deepeval/key_handler.py +3 -0
deepeval/metrics/__init__.py +14 -16
deepeval/metrics/answer_relevancy/answer_relevancy.py +118 -116
deepeval/metrics/answer_relevancy/template.py +22 -3
deepeval/metrics/arena_g_eval/arena_g_eval.py +98 -96
deepeval/metrics/arena_g_eval/template.py +17 -1
deepeval/metrics/argument_correctness/argument_correctness.py +81 -87
deepeval/metrics/argument_correctness/template.py +19 -2
deepeval/metrics/base_metric.py +13 -44
deepeval/metrics/bias/bias.py +102 -108
deepeval/metrics/bias/template.py +14 -2
deepeval/metrics/contextual_precision/contextual_precision.py +96 -94
deepeval/metrics/contextual_precision/template.py +115 -66
deepeval/metrics/contextual_recall/contextual_recall.py +94 -84
deepeval/metrics/contextual_recall/template.py +106 -55
deepeval/metrics/contextual_relevancy/contextual_relevancy.py +86 -84
deepeval/metrics/contextual_relevancy/template.py +87 -58
deepeval/metrics/conversation_completeness/conversation_completeness.py +101 -119
deepeval/metrics/conversation_completeness/template.py +23 -3
deepeval/metrics/conversational_dag/conversational_dag.py +12 -8
deepeval/metrics/conversational_dag/nodes.py +66 -123
deepeval/metrics/conversational_dag/templates.py +16 -0
deepeval/metrics/conversational_g_eval/conversational_g_eval.py +47 -66
deepeval/metrics/dag/dag.py +10 -0
deepeval/metrics/dag/nodes.py +63 -126
deepeval/metrics/dag/templates.py +16 -2
deepeval/metrics/exact_match/exact_match.py +9 -1
deepeval/metrics/faithfulness/faithfulness.py +138 -149
deepeval/metrics/faithfulness/schema.py +1 -1
deepeval/metrics/faithfulness/template.py +200 -115
deepeval/metrics/g_eval/g_eval.py +87 -78
deepeval/metrics/g_eval/template.py +18 -1
deepeval/metrics/g_eval/utils.py +7 -6
deepeval/metrics/goal_accuracy/goal_accuracy.py +91 -76
deepeval/metrics/goal_accuracy/template.py +21 -3
deepeval/metrics/hallucination/hallucination.py +60 -75
deepeval/metrics/hallucination/template.py +13 -0
deepeval/metrics/indicator.py +7 -10
deepeval/metrics/json_correctness/json_correctness.py +40 -38
deepeval/metrics/json_correctness/template.py +10 -0
deepeval/metrics/knowledge_retention/knowledge_retention.py +60 -97
deepeval/metrics/knowledge_retention/schema.py +9 -3
deepeval/metrics/knowledge_retention/template.py +12 -0
deepeval/metrics/mcp/mcp_task_completion.py +68 -38
deepeval/metrics/mcp/multi_turn_mcp_use_metric.py +92 -74
deepeval/metrics/mcp/template.py +52 -0
deepeval/metrics/mcp_use_metric/mcp_use_metric.py +58 -64
deepeval/metrics/mcp_use_metric/template.py +12 -0
deepeval/metrics/misuse/misuse.py +77 -97
deepeval/metrics/misuse/template.py +15 -0
deepeval/metrics/multimodal_metrics/__init__.py +0 -19
deepeval/metrics/multimodal_metrics/image_coherence/image_coherence.py +59 -53
deepeval/metrics/multimodal_metrics/image_editing/image_editing.py +79 -95
deepeval/metrics/multimodal_metrics/image_helpfulness/image_helpfulness.py +59 -53
deepeval/metrics/multimodal_metrics/image_reference/image_reference.py +59 -53
deepeval/metrics/multimodal_metrics/text_to_image/text_to_image.py +111 -109
deepeval/metrics/non_advice/non_advice.py +79 -105
deepeval/metrics/non_advice/template.py +12 -0
deepeval/metrics/pattern_match/pattern_match.py +12 -4
deepeval/metrics/pii_leakage/pii_leakage.py +75 -106
deepeval/metrics/pii_leakage/template.py +14 -0
deepeval/metrics/plan_adherence/plan_adherence.py +63 -89
deepeval/metrics/plan_adherence/template.py +11 -0
deepeval/metrics/plan_quality/plan_quality.py +63 -87
deepeval/metrics/plan_quality/template.py +9 -0
deepeval/metrics/prompt_alignment/prompt_alignment.py +72 -83
deepeval/metrics/prompt_alignment/template.py +12 -0
deepeval/metrics/ragas.py +3 -3
deepeval/metrics/role_adherence/role_adherence.py +48 -71
deepeval/metrics/role_adherence/template.py +14 -0
deepeval/metrics/role_violation/role_violation.py +75 -108
deepeval/metrics/role_violation/template.py +12 -0
deepeval/metrics/step_efficiency/step_efficiency.py +55 -65
deepeval/metrics/step_efficiency/template.py +11 -0
deepeval/metrics/summarization/summarization.py +115 -183
deepeval/metrics/summarization/template.py +19 -0
deepeval/metrics/task_completion/task_completion.py +67 -73
deepeval/metrics/tool_correctness/tool_correctness.py +45 -44
deepeval/metrics/tool_use/tool_use.py +42 -66
deepeval/metrics/topic_adherence/template.py +13 -0
deepeval/metrics/topic_adherence/topic_adherence.py +53 -67
deepeval/metrics/toxicity/template.py +13 -0
deepeval/metrics/toxicity/toxicity.py +80 -99
deepeval/metrics/turn_contextual_precision/schema.py +21 -0
deepeval/metrics/turn_contextual_precision/template.py +187 -0
deepeval/metrics/turn_contextual_precision/turn_contextual_precision.py +592 -0
deepeval/metrics/turn_contextual_recall/schema.py +21 -0
deepeval/metrics/turn_contextual_recall/template.py +178 -0
deepeval/metrics/turn_contextual_recall/turn_contextual_recall.py +563 -0
deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_contextual_relevancy}/schema.py +7 -1
deepeval/metrics/turn_contextual_relevancy/template.py +161 -0
deepeval/metrics/turn_contextual_relevancy/turn_contextual_relevancy.py +576 -0
deepeval/metrics/{multimodal_metrics/multimodal_faithfulness → turn_faithfulness}/schema.py +11 -3
deepeval/metrics/turn_faithfulness/template.py +218 -0
deepeval/metrics/turn_faithfulness/turn_faithfulness.py +627 -0
deepeval/metrics/turn_relevancy/template.py +14 -0
deepeval/metrics/turn_relevancy/turn_relevancy.py +56 -69
deepeval/metrics/utils.py +158 -122
deepeval/models/__init__.py +0 -12
deepeval/models/base_model.py +49 -33
deepeval/models/embedding_models/__init__.py +7 -0
deepeval/models/embedding_models/azure_embedding_model.py +79 -33
deepeval/models/embedding_models/local_embedding_model.py +39 -20
deepeval/models/embedding_models/ollama_embedding_model.py +52 -19
deepeval/models/embedding_models/openai_embedding_model.py +42 -22
deepeval/models/llms/amazon_bedrock_model.py +226 -72
deepeval/models/llms/anthropic_model.py +178 -63
deepeval/models/llms/azure_model.py +218 -60
deepeval/models/llms/constants.py +2032 -0
deepeval/models/llms/deepseek_model.py +95 -40
deepeval/models/llms/gemini_model.py +209 -64
deepeval/models/llms/grok_model.py +139 -68
deepeval/models/llms/kimi_model.py +140 -90
deepeval/models/llms/litellm_model.py +131 -37
deepeval/models/llms/local_model.py +125 -21
deepeval/models/llms/ollama_model.py +147 -24
deepeval/models/llms/openai_model.py +222 -269
deepeval/models/llms/portkey_model.py +81 -22
deepeval/models/llms/utils.py +8 -3
deepeval/models/retry_policy.py +17 -14
deepeval/models/utils.py +106 -5
deepeval/optimizer/__init__.py +5 -0
deepeval/optimizer/algorithms/__init__.py +6 -0
deepeval/optimizer/algorithms/base.py +29 -0
deepeval/optimizer/algorithms/configs.py +18 -0
deepeval/optimizer/algorithms/copro/__init__.py +5 -0
deepeval/{optimization/copro/loop.py → optimizer/algorithms/copro/copro.py} +112 -113
deepeval/optimizer/algorithms/gepa/__init__.py +5 -0
deepeval/{optimization/gepa/loop.py → optimizer/algorithms/gepa/gepa.py} +175 -115
deepeval/optimizer/algorithms/miprov2/__init__.py +17 -0
deepeval/optimizer/algorithms/miprov2/bootstrapper.py +435 -0
deepeval/optimizer/algorithms/miprov2/miprov2.py +752 -0
deepeval/optimizer/algorithms/miprov2/proposer.py +301 -0
deepeval/optimizer/algorithms/simba/__init__.py +5 -0
deepeval/{optimization/simba/loop.py → optimizer/algorithms/simba/simba.py} +128 -112
deepeval/{optimization → optimizer}/configs.py +5 -8
deepeval/{optimization/policies/selection.py → optimizer/policies.py} +63 -2
deepeval/optimizer/prompt_optimizer.py +263 -0
deepeval/optimizer/rewriter/__init__.py +5 -0
deepeval/optimizer/rewriter/rewriter.py +124 -0
deepeval/optimizer/rewriter/utils.py +214 -0
deepeval/optimizer/scorer/__init__.py +5 -0
deepeval/optimizer/scorer/base.py +86 -0
deepeval/optimizer/scorer/scorer.py +316 -0
deepeval/optimizer/scorer/utils.py +30 -0
deepeval/optimizer/types.py +148 -0
deepeval/{optimization → optimizer}/utils.py +47 -165
deepeval/prompt/prompt.py +5 -9
deepeval/simulator/conversation_simulator.py +43 -0
deepeval/simulator/template.py +13 -0
deepeval/test_case/__init__.py +1 -3
deepeval/test_case/api.py +26 -45
deepeval/test_case/arena_test_case.py +7 -2
deepeval/test_case/conversational_test_case.py +68 -1
deepeval/test_case/llm_test_case.py +206 -1
deepeval/test_case/utils.py +4 -8
deepeval/test_run/api.py +18 -14
deepeval/test_run/test_run.py +3 -3
deepeval/tracing/patchers.py +9 -4
deepeval/tracing/tracing.py +2 -2
deepeval/utils.py +65 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/METADATA +1 -4
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/RECORD +180 -193
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/multimodal_answer_relevancy.py +0 -343
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/schema.py +0 -19
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/template.py +0 -122
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/multimodal_contextual_precision.py +0 -301
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/template.py +0 -132
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/multimodal_contextual_recall.py +0 -285
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/template.py +0 -112
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/multimodal_contextual_relevancy.py +0 -282
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/template.py +0 -102
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/multimodal_faithfulness.py +0 -356
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/template.py +0 -175
deepeval/metrics/multimodal_metrics/multimodal_g_eval/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_g_eval/multimodal_g_eval.py +0 -386
deepeval/metrics/multimodal_metrics/multimodal_g_eval/schema.py +0 -11
deepeval/metrics/multimodal_metrics/multimodal_g_eval/template.py +0 -148
deepeval/metrics/multimodal_metrics/multimodal_g_eval/utils.py +0 -68
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/multimodal_tool_correctness.py +0 -290
deepeval/models/mlllms/__init__.py +0 -4
deepeval/models/mlllms/azure_model.py +0 -343
deepeval/models/mlllms/gemini_model.py +0 -313
deepeval/models/mlllms/ollama_model.py +0 -175
deepeval/models/mlllms/openai_model.py +0 -309
deepeval/optimization/__init__.py +0 -13
deepeval/optimization/adapters/__init__.py +0 -2
deepeval/optimization/adapters/deepeval_scoring_adapter.py +0 -588
deepeval/optimization/aggregates.py +0 -14
deepeval/optimization/copro/configs.py +0 -31
deepeval/optimization/gepa/__init__.py +0 -7
deepeval/optimization/gepa/configs.py +0 -115
deepeval/optimization/miprov2/configs.py +0 -134
deepeval/optimization/miprov2/loop.py +0 -785
deepeval/optimization/mutations/__init__.py +0 -0
deepeval/optimization/mutations/prompt_rewriter.py +0 -458
deepeval/optimization/policies/__init__.py +0 -16
deepeval/optimization/policies/tie_breaker.py +0 -67
deepeval/optimization/prompt_optimizer.py +0 -462
deepeval/optimization/simba/__init__.py +0 -0
deepeval/optimization/simba/configs.py +0 -33
deepeval/optimization/types.py +0 -361
deepeval/test_case/mllm_test_case.py +0 -170
/deepeval/metrics/{multimodal_metrics/multimodal_answer_relevancy → turn_contextual_precision}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_precision → turn_contextual_recall}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_recall → turn_contextual_relevancy}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_faithfulness}/__init__.py +0 -0
/deepeval/{optimization → optimizer/algorithms}/simba/types.py +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/LICENSE.md +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/WHEEL +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/entry_points.txt +0 -0

deepeval/models/llms/openai_model.py CHANGED Viewed

@@ -1,234 +1,77 @@
 from openai.types.chat.chat_completion import ChatCompletion
-from typing import Optional, Tuple, Union, Dict
+from typing import Optional, Tuple, Union, Dict, List
+from deepeval.test_case import MLLMImage
 from pydantic import BaseModel, SecretStr
 from openai import (
     OpenAI,
     AsyncOpenAI,
 )
+from deepeval.errors import DeepEvalError
+from deepeval.utils import check_if_multimodal, convert_to_multi_modal_array
 from deepeval.config.settings import get_settings
 from deepeval.constants import ProviderSlug as PS
 from deepeval.models import DeepEvalBaseLLM
 from deepeval.models.llms.utils import trim_and_load_json
-from deepeval.models.utils import parse_model_name, require_secret_api_key
+from deepeval.models.utils import (
+    parse_model_name,
+    require_costs,
+    require_secret_api_key,
+    normalize_kwargs_and_extract_aliases,
+)
 from deepeval.models.retry_policy import (
     create_retry_decorator,
     sdk_retries_for,
 )
+from deepeval.models.llms.constants import (
+    OPENAI_MODELS_DATA,
+)
 retry_openai = create_retry_decorator(PS.OPENAI)
-valid_gpt_models = [
-    "gpt-3.5-turbo",
-    "gpt-3.5-turbo-0125",
-    "gpt-3.5-turbo-1106",
-    "gpt-4-0125-preview",
-    "gpt-4-1106-preview",
-    "gpt-4-turbo",
-    "gpt-4-turbo-2024-04-09",
-    "gpt-4-turbo-preview",
-    "gpt-4o",
-    "gpt-4o-2024-05-13",
-    "gpt-4o-2024-08-06",
-    "gpt-4o-2024-11-20",
-    "gpt-4o-mini",
-    "gpt-4o-mini-2024-07-18",
-    "gpt-4-32k",
-    "gpt-4-32k-0613",
-    "gpt-4.1",
-    "gpt-4.1-mini",
-    "gpt-4.1-nano",
-    "gpt-4.5-preview",
-    "o1",
-    "o1-preview",
-    "o1-2024-12-17",
-    "o1-preview-2024-09-12",
-    "o1-mini",
-    "o1-mini-2024-09-12",
-    "o3-mini",
-    "o3-mini-2025-01-31",
-    "o4-mini",
-    "o4-mini-2025-04-16",
-    "gpt-4.5-preview-2025-02-27",
-    "gpt-5",
-    "gpt-5-2025-08-07",
-    "gpt-5-mini",
-    "gpt-5-mini-2025-08-07",
-    "gpt-5-nano",
-    "gpt-5-nano-2025-08-07",
-    "gpt-5-chat-latest",
-]
-unsupported_log_probs_gpt_models = [
-    "o1",
-    "o1-preview",
-    "o1-2024-12-17",
-    "o1-preview-2024-09-12",
-    "o1-mini",
-    "o1-mini-2024-09-12",
-    "o3-mini",
-    "o3-mini-2025-01-31",
-    "o4-mini",
-    "o4-mini-2025-04-16",
-    "gpt-4.5-preview-2025-02-27",
-    "gpt-5",
-    "gpt-5-2025-08-07",
-    "gpt-5-mini",
-    "gpt-5-mini-2025-08-07",
-    "gpt-5-nano",
-    "gpt-5-nano-2025-08-07",
-    "gpt-5-chat-latest",
-]
-structured_outputs_models = [
-    "gpt-4o",
-    "gpt-4o-2024-05-13",
-    "gpt-4o-2024-08-06",
-    "gpt-4o-2024-11-20",
-    "gpt-4o-mini",
-    "gpt-4o-mini-2024-07-18",
-    "gpt-4.1",
-    "gpt-4.1-mini",
-    "gpt-4.1-nano",
-    "o1",
-    "o1-preview",
-    "o1-2024-12-17",
-    "o3-mini",
-    "o3-mini-2025-01-31",
-    "o4-mini",
-    "o4-mini-2025-04-16",
-    "gpt-4.5-preview-2025-02-27",
-    "gpt-5",
-    "gpt-5-2025-08-07",
-    "gpt-5-mini",
-    "gpt-5-mini-2025-08-07",
-    "gpt-5-nano",
-    "gpt-5-nano-2025-08-07",
-]
-json_mode_models = [
-    "gpt-3.5-turbo",
-    "gpt-3.5-turbo-0125",
-    "gpt-3.5-turbo-1106",
-    "gpt-4-0125-preview",
-    "gpt-4-1106-preview",
-    "gpt-4-turbo",
-    "gpt-4-turbo-2024-04-09",
-    "gpt-4-turbo-preview",
-    "gpt-4-32k",
-    "gpt-4-32k-0613",
-]
-model_pricing = {
-    "gpt-4o-mini": {"input": 0.150 / 1e6, "output": 0.600 / 1e6},
-    "gpt-4o": {"input": 2.50 / 1e6, "output": 10.00 / 1e6},
-    "gpt-4-turbo": {"input": 10.00 / 1e6, "output": 30.00 / 1e6},
-    "gpt-4-turbo-preview": {"input": 10.00 / 1e6, "output": 30.00 / 1e6},
-    "gpt-4-0125-preview": {"input": 10.00 / 1e6, "output": 30.00 / 1e6},
-    "gpt-4-1106-preview": {"input": 10.00 / 1e6, "output": 30.00 / 1e6},
-    "gpt-4": {"input": 30.00 / 1e6, "output": 60.00 / 1e6},
-    "gpt-4-32k": {"input": 60.00 / 1e6, "output": 120.00 / 1e6},
-    "gpt-3.5-turbo-1106": {"input": 1.00 / 1e6, "output": 2.00 / 1e6},
-    "gpt-3.5-turbo": {"input": 0.50 / 1e6, "output": 1.50 / 1e6},
-    "gpt-3.5-turbo-16k": {"input": 3.00 / 1e6, "output": 4.00 / 1e6},
-    "gpt-3.5-turbo-0125": {"input": 0.50 / 1e6, "output": 1.50 / 1e6},
-    "gpt-3.5-turbo-instruct": {"input": 1.50 / 1e6, "output": 2.00 / 1e6},
-    "o1": {"input": 15.00 / 1e6, "output": 60.00 / 1e6},
-    "o1-preview": {"input": 15.00 / 1e6, "output": 60.00 / 1e6},
-    "o1-2024-12-17": {"input": 15.00 / 1e6, "output": 60.00 / 1e6},
-    "o3-mini": {"input": 1.10 / 1e6, "output": 4.40 / 1e6},
-    "o3-mini-2025-01-31": {"input": 1.10 / 1e6, "output": 4.40 / 1e6},
-    "o4-mini": {"input": 1.10 / 1e6, "output": 4.40 / 1e6},
-    "o4-mini-2025-04-16": {"input": 1.10 / 1e6, "output": 4.40 / 1e6},
-    "gpt-4.1": {
-        "input": 2.00 / 1e6,
-        "output": 8.00 / 1e6,
-    },
-    "gpt-4.1-mini": {
-        "input": 0.4 / 1e6,
-        "output": 1.60 / 1e6,
-    },
-    "gpt-4.1-nano": {
-        "input": 0.1 / 1e6,
-        "output": 0.4 / 1e6,
-    },
-    "gpt-4.5-preview": {
-        "input": 75.00 / 1e6,
-        "output": 150.00 / 1e6,
-    },
-    "gpt-5": {
-        "input": 1.25 / 1e6,
-        "output": 10.00 / 1e6,
-    },
-    "gpt-5-2025-08-07": {
-        "input": 1.25 / 1e6,
-        "output": 10.00 / 1e6,
-    },
-    "gpt-5-mini": {
-        "input": 0.25 / 1e6,
-        "output": 2.00 / 1e6,
-    },
-    "gpt-5-mini-2025-08-07": {
-        "input": 0.25 / 1e6,
-        "output": 2.00 / 1e6,
-    },
-    "gpt-5-nano": {
-        "input": 0.05 / 1e6,
-        "output": 0.40 / 1e6,
-    },
-    "gpt-5-nano-2025-08-07": {
-        "input": 0.05 / 1e6,
-        "output": 0.40 / 1e6,
-    },
-    "gpt-5-chat-latest": {
-        "input": 1.25 / 1e6,
-        "output": 10.00 / 1e6,
-    },
-}
 default_gpt_model = "gpt-4.1"
-# Thinking models that require temperature=1
-models_requiring_temperature_1 = [
-    "o1",
-    "o1-2024-12-17",
-    "o1-mini",
-    "o1-mini-2024-09-12",
-    "o3-mini",
-    "o3-mini-2025-01-31",
-    "o4-mini",
-    "o4-mini-2025-04-16",
-    "gpt-5",
-    "gpt-5-2025-08-07",
-    "gpt-5-mini",
-    "gpt-5-mini-2025-08-07",
-    "gpt-5-nano",
-    "gpt-5-nano-2025-08-07",
-]
 def _request_timeout_seconds() -> float:
     timeout = float(get_settings().DEEPEVAL_PER_ATTEMPT_TIMEOUT_SECONDS or 0)
     return timeout if timeout > 0 else 30.0
+_ALIAS_MAP = {
+    "api_key": ["_openai_api_key"],
+}
 class GPTModel(DeepEvalBaseLLM):
     def __init__(
         self,
         model: Optional[str] = None,
-        _openai_api_key: Optional[str] = None,
+        api_key: Optional[str] = None,
         base_url: Optional[str] = None,
+        temperature: Optional[float] = None,
         cost_per_input_token: Optional[float] = None,
         cost_per_output_token: Optional[float] = None,
-        temperature: float = 0,
         generation_kwargs: Optional[Dict] = None,
         **kwargs,
     ):
         settings = get_settings()
-        model_name = None
+        normalized_kwargs, alias_values = normalize_kwargs_and_extract_aliases(
+            "GPTModel",
+            kwargs,
+            _ALIAS_MAP,
+        )
+        # re-map depricated keywords to re-named positional args
+        if api_key is None and "api_key" in alias_values:
+            api_key = alias_values["api_key"]
         model = model or settings.OPENAI_MODEL_NAME
+        if model is None:
+            model = default_gpt_model
         cost_per_input_token = (
             cost_per_input_token
             if cost_per_input_token is not None
@@ -240,67 +83,80 @@ class GPTModel(DeepEvalBaseLLM):
             else settings.OPENAI_COST_PER_OUTPUT_TOKEN
         )
-        if isinstance(model, str):
-            model_name = parse_model_name(model)
-            if model_name not in valid_gpt_models:
-                raise ValueError(
-                    f"Invalid model. Available GPT models: {', '.join(model for model in valid_gpt_models)}"
-                )
-        elif model is None:
-            model_name = default_gpt_model
-        if model_name not in model_pricing:
-            if cost_per_input_token is None or cost_per_output_token is None:
-                raise ValueError(
-                    f"No pricing available for `{model_name}`. "
-                    "Please provide both `cost_per_input_token` and `cost_per_output_token` when initializing `GPTModel`, "
-                    "or set them via the CLI:\n"
-                    "    deepeval set-openai --model=[...] --cost_per_input_token=[...] --cost_per_output_token=[...]"
-                )
-            else:
-                model_pricing[model_name] = {
-                    "input": float(cost_per_input_token),
-                    "output": float(cost_per_output_token),
-                }
-        elif model is None:
-            model_name = default_gpt_model
-        if _openai_api_key is not None:
+        if api_key is not None:
             # keep it secret, keep it safe from serializings, logging and alike
-            self._openai_api_key: SecretStr | None = SecretStr(_openai_api_key)
+            self.api_key: Optional[SecretStr] = SecretStr(api_key)
         else:
-            self._openai_api_key = get_settings().OPENAI_API_KEY
+            self.api_key = settings.OPENAI_API_KEY
-        self.base_url = base_url
+        self.base_url = (
+            str(base_url).rstrip("/") if base_url is not None else None
+        )
         # args and kwargs will be passed to the underlying model, in load_model function
-        # Auto-adjust temperature for models that require it
-        if model_name in models_requiring_temperature_1:
+        if temperature is not None:
+            temperature = float(temperature)
+        elif settings.TEMPERATURE is not None:
+            temperature = settings.TEMPERATURE
+        else:
+            temperature = 0.0
+        if isinstance(model, str):
+            model = parse_model_name(model)
+        self.model_data = OPENAI_MODELS_DATA.get(model)
+        # Auto-adjust temperature for known models that require it
+        if self.model_data.supports_temperature is False:
             temperature = 1
+        # validation
+        cost_per_input_token, cost_per_output_token = require_costs(
+            self.model_data,
+            model,
+            "OPENAI_COST_PER_INPUT_TOKEN",
+            "OPENAI_COST_PER_OUTPUT_TOKEN",
+            cost_per_input_token,
+            cost_per_output_token,
+        )
+        self.model_data.input_price = cost_per_input_token
+        self.model_data.output_price = cost_per_output_token
         if temperature < 0:
-            raise ValueError("Temperature must be >= 0.")
+            raise DeepEvalError("Temperature must be >= 0.")
         self.temperature = temperature
-        self.kwargs = kwargs
-        self.generation_kwargs = generation_kwargs or {}
-        super().__init__(model_name)
+        # Keep sanitized kwargs for client call to strip legacy keys
+        self.kwargs = normalized_kwargs
+        self.kwargs.pop("temperature", None)
+        self.generation_kwargs = dict(generation_kwargs or {})
+        self.generation_kwargs.pop("temperature", None)
-    ###############################################
-    # Generate functions
-    ###############################################
+        super().__init__(model)
+    ######################
+    # Generate functions #
+    ######################
     @retry_openai
     def generate(
         self, prompt: str, schema: Optional[BaseModel] = None
-    ) -> Tuple[Union[str, Dict], float]:
+    ) -> Tuple[Union[str, BaseModel], float]:
         client = self.load_model(async_mode=False)
+        if check_if_multimodal(prompt):
+            prompt = convert_to_multi_modal_array(input=prompt)
+            content = self.generate_content(prompt)
+        else:
+            content = [{"type": "text", "text": prompt}]
         if schema:
-            if self.model_name in structured_outputs_models:
+            if self.supports_structured_outputs() is True:
                 completion = client.beta.chat.completions.parse(
-                    model=self.model_name,
+                    model=self.name,
                     messages=[
-                        {"role": "user", "content": prompt},
+                        {"role": "user", "content": content},
                     ],
                     response_format=schema,
                     temperature=self.temperature,
@@ -314,11 +170,11 @@ class GPTModel(DeepEvalBaseLLM):
                     completion.usage.completion_tokens,
                 )
                 return structured_output, cost
-            if self.model_name in json_mode_models:
+            if self.supports_json_mode() is True:
                 completion = client.beta.chat.completions.parse(
-                    model=self.model_name,
+                    model=self.name,
                     messages=[
-                        {"role": "user", "content": prompt},
+                        {"role": "user", "content": content},
                     ],
                     response_format={"type": "json_object"},
                     temperature=self.temperature,
@@ -334,8 +190,8 @@ class GPTModel(DeepEvalBaseLLM):
                 return schema.model_validate(json_output), cost
         completion = client.chat.completions.create(
-            model=self.model_name,
-            messages=[{"role": "user", "content": prompt}],
+            model=self.name,
+            messages=[{"role": "user", "content": content}],
             temperature=self.temperature,
             **self.generation_kwargs,
         )
@@ -354,12 +210,19 @@ class GPTModel(DeepEvalBaseLLM):
         self, prompt: str, schema: Optional[BaseModel] = None
     ) -> Tuple[Union[str, BaseModel], float]:
         client = self.load_model(async_mode=True)
+        if check_if_multimodal(prompt):
+            prompt = convert_to_multi_modal_array(input=prompt)
+            content = self.generate_content(prompt)
+        else:
+            content = [{"type": "text", "text": prompt}]
         if schema:
-            if self.model_name in structured_outputs_models:
+            if self.supports_structured_outputs() is True:
                 completion = await client.beta.chat.completions.parse(
-                    model=self.model_name,
+                    model=self.name,
                     messages=[
-                        {"role": "user", "content": prompt},
+                        {"role": "user", "content": content},
                     ],
                     response_format=schema,
                     temperature=self.temperature,
@@ -373,11 +236,11 @@ class GPTModel(DeepEvalBaseLLM):
                     completion.usage.completion_tokens,
                 )
                 return structured_output, cost
-            if self.model_name in json_mode_models:
+            if self.supports_json_mode() is True:
                 completion = await client.beta.chat.completions.parse(
-                    model=self.model_name,
+                    model=self.name,
                     messages=[
-                        {"role": "user", "content": prompt},
+                        {"role": "user", "content": content},
                     ],
                     response_format={"type": "json_object"},
                     temperature=self.temperature,
@@ -393,8 +256,8 @@ class GPTModel(DeepEvalBaseLLM):
                 return schema.model_validate(json_output), cost
         completion = await client.chat.completions.create(
-            model=self.model_name,
-            messages=[{"role": "user", "content": prompt}],
+            model=self.name,
+            messages=[{"role": "user", "content": content}],
             temperature=self.temperature,
             **self.generation_kwargs,
         )
@@ -408,9 +271,9 @@ class GPTModel(DeepEvalBaseLLM):
         else:
             return output, cost
-    ###############################################
-    # Other generate functions
-    ###############################################
+    ############################
+    # Other generate functions #
+    ############################
     @retry_openai
     def generate_raw_response(
@@ -419,10 +282,26 @@ class GPTModel(DeepEvalBaseLLM):
         top_logprobs: int = 5,
     ) -> Tuple[ChatCompletion, float]:
         # Generate completion
+        model_name = self.name
+        is_multimodal = check_if_multimodal(prompt)
+        # validate that this model supports logprobs
+        if self.supports_log_probs() is False:
+            raise DeepEvalError(
+                f"Model `{model_name}` does not support `logprobs` / `top_logprobs`. "
+                "Please use a different OpenAI model (for example `gpt-4.1` or `gpt-4o`) "
+                "when calling `generate_raw_response`."
+            )
         client = self.load_model(async_mode=False)
+        if is_multimodal:
+            prompt = convert_to_multi_modal_array(input=prompt)
+            content = self.generate_content(prompt)
+        else:
+            content = [{"type": "text", "text": prompt}]
         completion = client.chat.completions.create(
-            model=self.model_name,
-            messages=[{"role": "user", "content": prompt}],
+            model=self.name,
+            messages=[{"role": "user", "content": content}],
             temperature=self.temperature,
             logprobs=True,
             top_logprobs=top_logprobs,
@@ -442,10 +321,26 @@ class GPTModel(DeepEvalBaseLLM):
         top_logprobs: int = 5,
     ) -> Tuple[ChatCompletion, float]:
         # Generate completion
+        model_name = self.name
+        is_multimodal = check_if_multimodal(prompt)
+        # validate that this model supports logprobs
+        if self.supports_log_probs() is False:
+            raise DeepEvalError(
+                f"Model `{model_name}` does not support `logprobs` / `top_logprobs`. "
+                "Please use a different OpenAI model (for example `gpt-4.1` or `gpt-4o`) "
+                "when calling `a_generate_raw_response`."
+            )
         client = self.load_model(async_mode=True)
+        if is_multimodal:
+            prompt = convert_to_multi_modal_array(input=prompt)
+            content = self.generate_content(prompt)
+        else:
+            content = [{"type": "text", "text": prompt}]
         completion = await client.chat.completions.create(
-            model=self.model_name,
-            messages=[{"role": "user", "content": prompt}],
+            model=self.name,
+            messages=[{"role": "user", "content": content}],
             temperature=self.temperature,
             logprobs=True,
             top_logprobs=top_logprobs,
@@ -461,11 +356,16 @@ class GPTModel(DeepEvalBaseLLM):
     @retry_openai
     def generate_samples(
         self, prompt: str, n: int, temperature: float
-    ) -> Tuple[list[str], float]:
+    ) -> list[str]:
         client = self.load_model(async_mode=False)
+        if check_if_multimodal(prompt):
+            prompt = convert_to_multi_modal_array(input=prompt)
+            content = self.generate_content(prompt)
+        else:
+            content = [{"type": "text", "text": prompt}]
         response = client.chat.completions.create(
-            model=self.model_name,
-            messages=[{"role": "user", "content": prompt}],
+            model=self.name,
+            messages=[{"role": "user", "content": content}],
             n=n,
             temperature=temperature,
             **self.generation_kwargs,
@@ -473,23 +373,73 @@ class GPTModel(DeepEvalBaseLLM):
         completions = [choice.message.content for choice in response.choices]
         return completions
-    ###############################################
-    # Utilities
-    ###############################################
+    #############
+    # Utilities #
+    #############
     def calculate_cost(self, input_tokens: int, output_tokens: int) -> float:
-        # TODO: consider loggin a warning instead of defaulting to whole model pricing
-        pricing = model_pricing.get(self.model_name, model_pricing)
-        input_cost = input_tokens * pricing["input"]
-        output_cost = output_tokens * pricing["output"]
+        input_cost = input_tokens * self.model_data.input_price
+        output_cost = output_tokens * self.model_data.output_price
         return input_cost + output_cost
+    #########################
+    # Capabilities          #
+    #########################
+    def supports_log_probs(self) -> Union[bool, None]:
+        return self.model_data.supports_log_probs
+    def supports_temperature(self) -> Union[bool, None]:
+        return self.model_data.supports_temperature
+    def supports_multimodal(self) -> Union[bool, None]:
+        return self.model_data.supports_multimodal
+    def supports_structured_outputs(self) -> Union[bool, None]:
+        """
+        OpenAI models that natively enforce typed structured outputs.
+         Used by generate(...) when a schema is provided.
+        """
+        return self.model_data.supports_structured_outputs
+    def supports_json_mode(self) -> Union[bool, None]:
+        """
+        OpenAI models that enforce JSON mode
+        """
+        return self.model_data.supports_json
     #########
     # Model #
     #########
-    def get_model_name(self):
-        return self.model_name
+    def generate_content(
+        self, multimodal_input: Optional[List[Union[str, MLLMImage]]] = None
+    ):
+        multimodal_input = [] if multimodal_input is None else multimodal_input
+        content = []
+        for element in multimodal_input:
+            if isinstance(element, str):
+                content.append({"type": "text", "text": element})
+            elif isinstance(element, MLLMImage):
+                if element.url and not element.local:
+                    content.append(
+                        {
+                            "type": "image_url",
+                            "image_url": {"url": element.url},
+                        }
+                    )
+                else:
+                    element.ensure_images_loaded()
+                    data_uri = (
+                        f"data:{element.mimeType};base64,{element.dataBase64}"
+                    )
+                    content.append(
+                        {
+                            "type": "image_url",
+                            "image_url": {"url": data_uri},
+                        }
+                    )
+        return content
     def load_model(self, async_mode: bool = False):
         if not async_mode:
@@ -512,10 +462,10 @@ class GPTModel(DeepEvalBaseLLM):
     def _build_client(self, cls):
         api_key = require_secret_api_key(
-            self._openai_api_key,
+            self.api_key,
             provider_label="OpenAI",
             env_var_name="OPENAI_API_KEY",
-            param_hint="`_openai_api_key` to GPTModel(...)",
+            param_hint="`api_key` to GPTModel(...)",
         )
         kw = dict(
@@ -531,3 +481,6 @@ class GPTModel(DeepEvalBaseLLM):
                 kw.pop("max_retries", None)
                 return cls(**kw)
             raise
+    def get_model_name(self):
+        return f"{self.name}"

deepeval 3.7.4__py3-none-any.whl → 3.7.6__py3-none-any.whl

deepeval 3.7.4py3-none-any.whl → 3.7.6py3-none-any.whl