PyPI - deepeval - Versions diffs - 3.7.4__py3-none-any.whl → 3.7.5__py3-none-any.whl - Mend

deepeval 3.7.4py3-none-any.whl → 3.7.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (155) hide show

deepeval/_version.py +1 -1
deepeval/dataset/golden.py +54 -2
deepeval/evaluate/evaluate.py +16 -8
deepeval/evaluate/execute.py +70 -26
deepeval/evaluate/utils.py +26 -22
deepeval/integrations/pydantic_ai/agent.py +19 -2
deepeval/integrations/pydantic_ai/instrumentator.py +62 -23
deepeval/metrics/__init__.py +14 -12
deepeval/metrics/answer_relevancy/answer_relevancy.py +74 -29
deepeval/metrics/answer_relevancy/template.py +188 -92
deepeval/metrics/base_metric.py +2 -5
deepeval/metrics/contextual_precision/contextual_precision.py +53 -15
deepeval/metrics/contextual_precision/template.py +115 -66
deepeval/metrics/contextual_recall/contextual_recall.py +50 -13
deepeval/metrics/contextual_recall/template.py +106 -55
deepeval/metrics/contextual_relevancy/contextual_relevancy.py +47 -15
deepeval/metrics/contextual_relevancy/template.py +87 -58
deepeval/metrics/dag/templates.py +2 -2
deepeval/metrics/faithfulness/faithfulness.py +70 -27
deepeval/metrics/faithfulness/schema.py +1 -1
deepeval/metrics/faithfulness/template.py +200 -115
deepeval/metrics/g_eval/utils.py +2 -2
deepeval/metrics/indicator.py +4 -4
deepeval/metrics/multimodal_metrics/__init__.py +0 -18
deepeval/metrics/multimodal_metrics/image_coherence/image_coherence.py +24 -17
deepeval/metrics/multimodal_metrics/image_editing/image_editing.py +26 -21
deepeval/metrics/multimodal_metrics/image_helpfulness/image_helpfulness.py +24 -17
deepeval/metrics/multimodal_metrics/image_reference/image_reference.py +24 -17
deepeval/metrics/multimodal_metrics/multimodal_g_eval/multimodal_g_eval.py +19 -19
deepeval/metrics/multimodal_metrics/multimodal_g_eval/template.py +63 -78
deepeval/metrics/multimodal_metrics/multimodal_g_eval/utils.py +20 -20
deepeval/metrics/multimodal_metrics/text_to_image/text_to_image.py +71 -50
deepeval/metrics/ragas.py +3 -3
deepeval/metrics/tool_correctness/tool_correctness.py +2 -2
deepeval/metrics/turn_contextual_precision/schema.py +21 -0
deepeval/metrics/turn_contextual_precision/template.py +187 -0
deepeval/metrics/turn_contextual_precision/turn_contextual_precision.py +550 -0
deepeval/metrics/turn_contextual_recall/schema.py +21 -0
deepeval/metrics/turn_contextual_recall/template.py +178 -0
deepeval/metrics/turn_contextual_recall/turn_contextual_recall.py +520 -0
deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_contextual_relevancy}/schema.py +7 -1
deepeval/metrics/turn_contextual_relevancy/template.py +161 -0
deepeval/metrics/turn_contextual_relevancy/turn_contextual_relevancy.py +535 -0
deepeval/metrics/{multimodal_metrics/multimodal_faithfulness → turn_faithfulness}/schema.py +11 -3
deepeval/metrics/turn_faithfulness/template.py +218 -0
deepeval/metrics/turn_faithfulness/turn_faithfulness.py +596 -0
deepeval/metrics/utils.py +39 -58
deepeval/models/__init__.py +0 -12
deepeval/models/base_model.py +16 -38
deepeval/models/embedding_models/__init__.py +7 -0
deepeval/models/embedding_models/azure_embedding_model.py +52 -28
deepeval/models/embedding_models/local_embedding_model.py +18 -14
deepeval/models/embedding_models/ollama_embedding_model.py +38 -16
deepeval/models/embedding_models/openai_embedding_model.py +40 -21
deepeval/models/llms/amazon_bedrock_model.py +1 -2
deepeval/models/llms/anthropic_model.py +44 -23
deepeval/models/llms/azure_model.py +121 -36
deepeval/models/llms/deepseek_model.py +18 -13
deepeval/models/llms/gemini_model.py +129 -43
deepeval/models/llms/grok_model.py +18 -13
deepeval/models/llms/kimi_model.py +18 -13
deepeval/models/llms/litellm_model.py +42 -22
deepeval/models/llms/local_model.py +12 -7
deepeval/models/llms/ollama_model.py +114 -12
deepeval/models/llms/openai_model.py +137 -41
deepeval/models/llms/portkey_model.py +24 -7
deepeval/models/llms/utils.py +5 -3
deepeval/models/retry_policy.py +17 -14
deepeval/models/utils.py +46 -1
deepeval/optimizer/__init__.py +5 -0
deepeval/optimizer/algorithms/__init__.py +6 -0
deepeval/optimizer/algorithms/base.py +29 -0
deepeval/optimizer/algorithms/configs.py +18 -0
deepeval/optimizer/algorithms/copro/__init__.py +5 -0
deepeval/{optimization/copro/loop.py → optimizer/algorithms/copro/copro.py} +112 -113
deepeval/optimizer/algorithms/gepa/__init__.py +5 -0
deepeval/{optimization/gepa/loop.py → optimizer/algorithms/gepa/gepa.py} +175 -115
deepeval/optimizer/algorithms/miprov2/__init__.py +17 -0
deepeval/optimizer/algorithms/miprov2/bootstrapper.py +435 -0
deepeval/optimizer/algorithms/miprov2/miprov2.py +752 -0
deepeval/optimizer/algorithms/miprov2/proposer.py +301 -0
deepeval/optimizer/algorithms/simba/__init__.py +5 -0
deepeval/{optimization/simba/loop.py → optimizer/algorithms/simba/simba.py} +128 -112
deepeval/{optimization → optimizer}/configs.py +5 -8
deepeval/{optimization/policies/selection.py → optimizer/policies.py} +63 -2
deepeval/optimizer/prompt_optimizer.py +263 -0
deepeval/optimizer/rewriter/__init__.py +5 -0
deepeval/optimizer/rewriter/rewriter.py +124 -0
deepeval/optimizer/rewriter/utils.py +214 -0
deepeval/optimizer/scorer/__init__.py +5 -0
deepeval/optimizer/scorer/base.py +86 -0
deepeval/optimizer/scorer/scorer.py +316 -0
deepeval/optimizer/scorer/utils.py +30 -0
deepeval/optimizer/types.py +148 -0
deepeval/{optimization → optimizer}/utils.py +47 -165
deepeval/prompt/prompt.py +5 -9
deepeval/test_case/__init__.py +1 -3
deepeval/test_case/api.py +12 -10
deepeval/test_case/conversational_test_case.py +19 -1
deepeval/test_case/llm_test_case.py +152 -1
deepeval/test_case/utils.py +4 -8
deepeval/test_run/api.py +15 -14
deepeval/test_run/test_run.py +3 -3
deepeval/tracing/patchers.py +9 -4
deepeval/tracing/tracing.py +2 -2
deepeval/utils.py +65 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/METADATA +1 -4
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/RECORD +116 -125
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/multimodal_answer_relevancy.py +0 -343
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/schema.py +0 -19
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/template.py +0 -122
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/multimodal_contextual_precision.py +0 -301
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/template.py +0 -132
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/multimodal_contextual_recall.py +0 -285
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/template.py +0 -112
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/multimodal_contextual_relevancy.py +0 -282
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/template.py +0 -102
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/multimodal_faithfulness.py +0 -356
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/template.py +0 -175
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/multimodal_tool_correctness.py +0 -290
deepeval/models/mlllms/__init__.py +0 -4
deepeval/models/mlllms/azure_model.py +0 -343
deepeval/models/mlllms/gemini_model.py +0 -313
deepeval/models/mlllms/ollama_model.py +0 -175
deepeval/models/mlllms/openai_model.py +0 -309
deepeval/optimization/__init__.py +0 -13
deepeval/optimization/adapters/__init__.py +0 -2
deepeval/optimization/adapters/deepeval_scoring_adapter.py +0 -588
deepeval/optimization/aggregates.py +0 -14
deepeval/optimization/copro/configs.py +0 -31
deepeval/optimization/gepa/__init__.py +0 -7
deepeval/optimization/gepa/configs.py +0 -115
deepeval/optimization/miprov2/configs.py +0 -134
deepeval/optimization/miprov2/loop.py +0 -785
deepeval/optimization/mutations/__init__.py +0 -0
deepeval/optimization/mutations/prompt_rewriter.py +0 -458
deepeval/optimization/policies/__init__.py +0 -16
deepeval/optimization/policies/tie_breaker.py +0 -67
deepeval/optimization/prompt_optimizer.py +0 -462
deepeval/optimization/simba/__init__.py +0 -0
deepeval/optimization/simba/configs.py +0 -33
deepeval/optimization/types.py +0 -361
deepeval/test_case/mllm_test_case.py +0 -170
/deepeval/metrics/{multimodal_metrics/multimodal_answer_relevancy → turn_contextual_precision}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_precision → turn_contextual_recall}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_recall → turn_contextual_relevancy}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_faithfulness}/__init__.py +0 -0
/deepeval/{optimization → optimizer/algorithms}/simba/types.py +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/LICENSE.md +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/WHEEL +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/entry_points.txt +0 -0

deepeval/{optimization → optimizer}/utils.py RENAMED Viewed

@@ -2,11 +2,14 @@ from __future__ import annotations
 import inspect
 import random
 import re
+import statistics
 from typing import (
     Any,
     Callable,
     List,
     Optional,
+    Protocol,
+    Sequence,
     Tuple,
     TYPE_CHECKING,
     Union,
@@ -17,11 +20,13 @@ from typing import (
 from deepeval.errors import DeepEvalError
 from deepeval.metrics.base_metric import BaseMetric, BaseConversationalMetric
 from deepeval.prompt.prompt import Prompt
-from deepeval.prompt.api import PromptType, PromptMessage
-from deepeval.optimization.types import (
+from deepeval.prompt.api import PromptMessage
+from deepeval.optimizer.types import (
+    ModelCallback,
     ModuleId,
     PromptConfigurationId,
     PromptConfiguration,
+    PromptConfigSnapshot,
     OptimizationReport,
 )
@@ -54,7 +59,7 @@ def split_goldens(
         pareto_size: Number of items to allocate to the Pareto set bound between [0, len(goldens)].
         random_state: A shared `random.Random` instance that provides the source
             of randomness. For reproducible runs, pass the same object used by
-            the GEPA loop constructed from `GEPAConfig.random_seed`
+            the GEPA loop constructed from `GEPA.random_seed`
     Returns:
         (d_feedback, d_pareto)
@@ -151,87 +156,22 @@ def normalize_seed_prompts(
     return mapping
-def build_model_callback_kwargs(
-    *,
-    # scoring context
-    golden: Optional[Union["Golden", "ConversationalGolden"]] = None,
-    # rewriter context
-    feedback_text: Optional[str] = None,
-    # shared
-    prompt: Optional[Prompt] = None,
-    prompt_type: Optional[str] = None,
-    prompt_text: Optional[str] = None,
-    prompt_messages: Optional[List["PromptMessage"]] = None,
-) -> Dict[str, Any]:
-    """
-    Build a superset of kwargs for GEPA model callbacks.
-    All keys are present in the dict so callbacks can declare any subset of:
-        hook: str           # injected by (a_)invoke_model_callback
-        prompt: Prompt
-        prompt_type: str
-        prompt_text: str
-        prompt_messages: List[PromptMessage]
-        golden: Golden | ConversationalGolden
-        feedback_text: str
-    Non applicable fields are set to None.
-    """
-    return {
-        # scoring context
-        "golden": golden,
-        # rewriter context
-        "feedback_text": feedback_text,
-        # shared
-        "prompt": prompt,
-        "prompt_text": prompt_text,
-        "prompt_messages": prompt_messages,
-    }
 def invoke_model_callback(
     *,
-    hook: str,
-    model_callback: Callable[
-        ...,
-        Union[
-            str,
-            Dict,
-            Tuple[Union[str, Dict], float],
-        ],
-    ],
-    candidate_kwargs: Dict[str, Any],
-) -> Union[
-    str,
-    Dict,
-    Tuple[Union[str, Dict], float],
-]:
+    model_callback: ModelCallback,
+    prompt: Prompt,
+    golden: Union["Golden", "ConversationalGolden"],
+) -> str:
     """
     Call a user provided model_callback in a synchronous context.
-    - Filters kwargs to only those the callback accepts.
-    - Injects `hook` if the callback declares it.
-    - Raises if the callback returns an awaitable; callers must use async
-      helpers for async callbacks.
+    Raises if the callback returns an awaitable.
     """
-    sig = inspect.signature(model_callback)
-    supported = set(sig.parameters.keys())
-    filtered = {
-        key: value
-        for key, value in candidate_kwargs.items()
-        if key in supported
-    }
-    if "hook" in supported:
-        filtered["hook"] = hook
-    result = model_callback(**filtered)
+    result = model_callback(prompt, golden)
     if inspect.isawaitable(result):
         raise DeepEvalError(
             "model_callback returned an awaitable from a synchronous context. "
-            "Either declare the callback as `async def` and use async GEPA, or call "
+            "Either declare the callback as `async def` and use async optimization, or call "
             "`model.generate(...)` instead of `model.a_generate(...)` inside a sync callback."
         )
     return result
@@ -239,41 +179,16 @@ def invoke_model_callback(
 async def a_invoke_model_callback(
     *,
-    hook: str,
-    model_callback: Callable[
-        ...,
-        Union[
-            str,
-            Dict,
-            Tuple[Union[str, Dict], float],
-        ],
-    ],
-    candidate_kwargs: Dict[str, Any],
-) -> Union[
-    str,
-    Dict,
-    Tuple[Union[str, Dict], float],
-]:
+    model_callback: ModelCallback,
+    prompt: Prompt,
+    golden: Union["Golden", "ConversationalGolden"],
+) -> str:
     """
     Call a user provided model_callback in an async context.
-    - Filters kwargs to only those the callback accepts.
-    - Injects `hook` if the callback declares it.
-    - Supports both sync and async callbacks.
+    Supports both sync and async callbacks.
     """
-    sig = inspect.signature(model_callback)
-    supported = set(sig.parameters.keys())
-    filtered = {
-        key: value
-        for key, value in candidate_kwargs.items()
-        if key in supported
-    }
-    if "hook" in supported:
-        filtered["hook"] = hook
-    result = model_callback(**filtered)
+    result = model_callback(prompt, golden)
     if inspect.isawaitable(result):
         return await result
     return result
@@ -288,58 +203,17 @@ def build_prompt_config_snapshots(
     prompt_configurations_by_id: Dict[
         PromptConfigurationId, "PromptConfiguration"
     ],
-) -> Dict[PromptConfigurationId, Dict[str, Any]]:
+) -> Dict[PromptConfigurationId, PromptConfigSnapshot]:
     """
-    Build a serializable snapshot of all prompt configurations.
-    Shape matches the docs for `prompt_configurations`:
-    {
-      "<config_id>": {
-        "parent": "<parent_id or None>",
-        "prompts": {
-          "<module_id>": {
-            "type": "TEXT",
-            "text_template": "...",
-          }
-          # or
-          "<module_id>": {
-            "type": "LIST",
-            "messages": [
-              {"role": "system", "content": "..."},
-              ...
-            ],
-          },
-        },
-      },
-      ...
-    }
+    Build snapshots of all prompt configurations.
     """
-    snapshots: Dict[PromptConfigurationId, Dict[str, Any]] = {}
+    snapshots: Dict[PromptConfigurationId, PromptConfigSnapshot] = {}
     for cfg_id, cfg in prompt_configurations_by_id.items():
-        prompts_snapshot: Dict[str, Any] = {}
-        for module_id, prompt in cfg.prompts.items():
-            if prompt.type is PromptType.LIST:
-                messages = [
-                    {"role": msg.role, "content": (msg.content or "")}
-                    for msg in (prompt.messages_template or [])
-                ]
-                prompts_snapshot[module_id] = {
-                    "type": "LIST",
-                    "messages": messages,
-                }
-            else:
-                prompts_snapshot[module_id] = {
-                    "type": "TEXT",
-                    "text_template": (prompt.text_template or ""),
-                }
-        snapshots[cfg_id] = {
-            "parent": cfg.parent,
-            "prompts": prompts_snapshot,
-        }
+        snapshots[cfg_id] = PromptConfigSnapshot(
+            parent=cfg.parent,
+            prompts=dict(cfg.prompts),
+        )
     return snapshots
@@ -494,17 +368,8 @@ def validate_sequence_of(
 def validate_callback(
     *,
     component: str,
-    model_callback: Optional[
-        Callable[
-            ...,
-            Union[
-                str,
-                Dict,
-                Tuple[Union[str, Dict], float],
-            ],
-        ]
-    ],
-) -> Callable[..., Union[str, Dict, Tuple[Union[str, Dict], float]]]:
+    model_callback: Optional[ModelCallback],
+) -> ModelCallback:
     """
     Ensure that `model_callback` is provided.
@@ -596,3 +461,20 @@ def validate_int_in_range(
         )
     return value
+##############
+# Aggregates #
+##############
+class Aggregator(Protocol):
+    def __call__(self, scores: Sequence[float]) -> float: ...
+def mean_of_all(scores: Sequence[float]) -> float:
+    return statistics.fmean(scores) if scores else 0.0
+def median_of_all(scores: Sequence[float]) -> float:
+    return statistics.median(scores) if scores else 0.0

deepeval/prompt/prompt.py CHANGED Viewed

@@ -4,7 +4,7 @@ import json
 import os
 from enum import Enum
-from typing import Optional, List, Dict, Type, Literal, TYPE_CHECKING
+from typing import Optional, List, Dict, Type, Literal
 from rich.progress import Progress, SpinnerColumn, TextColumn, BarColumn
 from rich.console import Console
 from pydantic import BaseModel, ValidationError
@@ -34,10 +34,6 @@ from deepeval.prompt.utils import (
 from deepeval.confident.api import Api, Endpoints, HttpMethods
 from deepeval.constants import HIDDEN_DIR
-if TYPE_CHECKING:
-    from deepeval.optimization.types import OptimizationReport
 logger = logging.getLogger(__name__)
 portalocker = None
@@ -117,6 +113,7 @@ class Prompt:
         model_settings: Optional[ModelSettings] = None,
         output_type: Optional[OutputType] = None,
         output_schema: Optional[Type[BaseModel]] = None,
+        interpolation_type: Optional[PromptInterpolationType] = None,
     ):
         if text_template and messages_template:
             raise TypeError(
@@ -129,7 +126,9 @@ class Prompt:
         self.output_type: Optional[OutputType] = output_type
         self.output_schema: Optional[Type[BaseModel]] = output_schema
         self.label: Optional[str] = None
-        self.interpolation_type: Optional[PromptInterpolationType] = None
+        self.interpolation_type: PromptInterpolationType = (
+            interpolation_type or PromptInterpolationType.FSTRING
+        )
         self._version = None
         self._prompt_version_id: Optional[str] = None
@@ -145,9 +144,6 @@ class Prompt:
         elif messages_template:
             self.type = PromptType.LIST
-        # updated after optimization runs
-        self.optimization_report: Optional["OptimizationReport"] = None
     def __del__(self):
         """Cleanup polling tasks when instance is destroyed"""
         try:

deepeval/test_case/__init__.py CHANGED Viewed

@@ -3,13 +3,13 @@ from .llm_test_case import (
     LLMTestCaseParams,
     ToolCall,
     ToolCallParams,
+    MLLMImage,
 )
 from .conversational_test_case import (
     ConversationalTestCase,
     Turn,
     TurnParams,
 )
-from .mllm_test_case import MLLMTestCase, MLLMTestCaseParams, MLLMImage
 from .arena_test_case import ArenaTestCase, Contestant
 from .mcp import (
     MCPServer,
@@ -31,8 +31,6 @@ __all__ = [
     "MCPPromptCall",
     "MCPResourceCall",
     "MCPToolCall",
-    "MLLMTestCase",
-    "MLLMTestCaseParams",
     "MLLMImage",
     "ArenaTestCase",
     "Contestant",

deepeval/test_case/api.py CHANGED Viewed

@@ -10,9 +10,9 @@ from deepeval.test_run.api import (
 from deepeval.test_case import (
     LLMTestCase,
     ConversationalTestCase,
-    MLLMTestCase,
     Turn,
 )
+from deepeval.test_case.llm_test_case import _MLLM_IMAGE_REGISTRY
 from deepeval.constants import PYTEST_RUN_TEST_NAME
@@ -29,10 +29,12 @@ def create_api_turn(turn: Turn, index: int) -> TurnApi:
 def create_api_test_case(
-    test_case: Union[LLMTestCase, ConversationalTestCase, MLLMTestCase],
+    test_case: Union[LLMTestCase, ConversationalTestCase],
     trace: Optional[TraceApi] = None,
     index: Optional[int] = None,
 ) -> Union[LLMApiTestCase, ConversationalApiTestCase]:
+    from deepeval.utils import convert_to_multi_modal_array
     if isinstance(test_case, ConversationalTestCase):
         order = (
             test_case._dataset_rank
@@ -84,7 +86,7 @@ def create_api_test_case(
             name = os.getenv(PYTEST_RUN_TEST_NAME, f"test_case_{order}")
         metrics_data = []
-        if isinstance(test_case, LLMTestCase):
+        if isinstance(test_case, LLMTestCase) and test_case.multimodal is False:
             api_test_case = LLMApiTestCase(
                 name=name,
                 input=test_case.input,
@@ -106,15 +108,15 @@ def create_api_test_case(
                 comments=test_case.comments,
                 trace=trace,
             )
-        elif isinstance(test_case, MLLMTestCase):
+        elif isinstance(test_case, LLMTestCase) and test_case.multimodal:
             api_test_case = LLMApiTestCase(
                 name=name,
-                input="",
-                multimodalInput=test_case.input,
-                multimodalActualOutput=test_case.actual_output,
-                multimodalExpectedOutput=test_case.expected_output,
-                multimodalRetrievalContext=test_case.retrieval_context,
-                multimodalContext=test_case.context,
+                input=test_case.input,
+                actualOutput=test_case.actual_output,
+                expectedOutput=test_case.expected_output,
+                retrievalContext=test_case.retrieval_context,
+                context=test_case.context,
+                imagesMapping=_MLLM_IMAGE_REGISTRY,
                 toolsCalled=test_case.tools_called,
                 expectedTools=test_case.expected_tools,
                 tokenCost=test_case.token_cost,

deepeval/test_case/conversational_test_case.py CHANGED Viewed

@@ -9,7 +9,7 @@ from typing import List, Optional, Dict, Literal
 from copy import deepcopy
 from enum import Enum
-from deepeval.test_case import ToolCall
+from deepeval.test_case import ToolCall, MLLMImage
 from deepeval.test_case.mcp import (
     MCPServer,
     MCPPromptCall,
@@ -156,11 +156,29 @@ class ConversationalTestCase(BaseModel):
     comments: Optional[str] = Field(default=None)
     tags: Optional[List[str]] = Field(default=None)
     mcp_servers: Optional[List[MCPServer]] = Field(default=None)
+    multimodal: bool = False
     _dataset_rank: Optional[int] = PrivateAttr(default=None)
     _dataset_alias: Optional[str] = PrivateAttr(default=None)
     _dataset_id: Optional[str] = PrivateAttr(default=None)
+    @model_validator(mode="after")
+    def set_is_multimodal(self):
+        import re
+        if self.multimodal is True:
+            return self
+        pattern = r"\[DEEPEVAL:IMAGE:(.*?)\]"
+        self.multimodal = any(
+            [
+                re.search(pattern, turn.content) is not None
+                for turn in self.turns
+            ]
+        )
+        return self
     @model_validator(mode="before")
     def validate_input(cls, data):
         turns = data.get("turns")

deepeval/test_case/llm_test_case.py CHANGED Viewed

@@ -9,7 +9,12 @@ from typing import List, Optional, Dict, Any
 from enum import Enum
 import json
 import uuid
+import re
+import os
+import mimetypes
+import base64
+from dataclasses import dataclass, field
+from urllib.parse import urlparse, unquote
 from deepeval.utils import make_model_config
 from deepeval.test_case.mcp import (
@@ -20,6 +25,128 @@ from deepeval.test_case.mcp import (
     validate_mcp_servers,
 )
+_MLLM_IMAGE_REGISTRY: Dict[str, "MLLMImage"] = {}
+@dataclass
+class MLLMImage:
+    dataBase64: Optional[str] = None
+    mimeType: Optional[str] = None
+    url: Optional[str] = None
+    local: Optional[bool] = None
+    filename: Optional[str] = None
+    _id: str = field(default_factory=lambda: uuid.uuid4().hex)
+    def __post_init__(self):
+        if not self.url and not self.dataBase64:
+            raise ValueError(
+                "You must provide either a 'url' or both 'dataBase64' and 'mimeType' to create an MLLMImage."
+            )
+        if self.dataBase64 is not None:
+            if self.mimeType is None:
+                raise ValueError(
+                    "mimeType must be provided when initializing from Base64 data."
+                )
+        else:
+            is_local = self.is_local_path(self.url)
+            if self.local is not None:
+                assert self.local == is_local, "Local path mismatch"
+            else:
+                self.local = is_local
+            # compute filename, mime_type, and Base64 data
+            if self.local:
+                path = self.process_url(self.url)
+                self.filename = os.path.basename(path)
+                self.mimeType = (
+                    mimetypes.guess_type(path)[0] or "application/octet-stream"
+                )
+                with open(path, "rb") as f:
+                    raw = f.read()
+                self.dataBase64 = base64.b64encode(raw).decode("ascii")
+            else:
+                self.filename = None
+                self.mimeType = None
+                self.dataBase64 = None
+        _MLLM_IMAGE_REGISTRY[self._id] = self
+    def _placeholder(self) -> str:
+        return f"[DEEPEVAL:IMAGE:{self._id}]"
+    def __str__(self) -> str:
+        return self._placeholder()
+    def __repr__(self) -> str:
+        return self._placeholder()
+    def __format__(self, format_spec: str) -> str:
+        return self._placeholder()
+    @staticmethod
+    def process_url(url: str) -> str:
+        if os.path.exists(url):
+            return url
+        parsed = urlparse(url)
+        if parsed.scheme == "file":
+            raw_path = (
+                f"//{parsed.netloc}{parsed.path}"
+                if parsed.netloc
+                else parsed.path
+            )
+            path = unquote(raw_path)
+            return path
+        return url
+    @staticmethod
+    def is_local_path(url: str) -> bool:
+        if os.path.exists(url):
+            return True
+        parsed = urlparse(url)
+        if parsed.scheme == "file":
+            raw_path = (
+                f"//{parsed.netloc}{parsed.path}"
+                if parsed.netloc
+                else parsed.path
+            )
+            path = unquote(raw_path)
+            return os.path.exists(path)
+        return False
+    def parse_multimodal_string(s: str):
+        pattern = r"\[DEEPEVAL:IMAGE:(.*?)\]"
+        matches = list(re.finditer(pattern, s))
+        result = []
+        last_end = 0
+        for m in matches:
+            start, end = m.span()
+            if start > last_end:
+                result.append(s[last_end:start])
+            img_id = m.group(1)
+            if img_id not in _MLLM_IMAGE_REGISTRY:
+                MLLMImage(url=img_id, _id=img_id)
+            result.append(_MLLM_IMAGE_REGISTRY[img_id])
+            last_end = end
+        if last_end < len(s):
+            result.append(s[last_end:])
+        return result
+    def as_data_uri(self) -> Optional[str]:
+        """Return the image as a data URI string, if Base64 data is available."""
+        if not self.dataBase64 or not self.mimeType:
+            return None
+        return f"data:{self.mimeType};base64,{self.dataBase64}"
 class LLMTestCaseParams(Enum):
     INPUT = "input"
@@ -208,6 +335,7 @@ class LLMTestCase(BaseModel):
         serialization_alias="completionTime",
         validation_alias=AliasChoices("completionTime", "completion_time"),
     )
+    multimodal: bool = Field(default=False)
     name: Optional[str] = Field(default=None)
     tags: Optional[List[str]] = Field(default=None)
     mcp_servers: Optional[List[MCPServer]] = Field(default=None)
@@ -229,6 +357,29 @@ class LLMTestCase(BaseModel):
         default_factory=lambda: str(uuid.uuid4())
     )
+    @model_validator(mode="after")
+    def set_is_multimodal(self):
+        import re
+        if self.multimodal is True:
+            return self
+        pattern = r"\[DEEPEVAL:IMAGE:(.*?)\]"
+        auto_detect = (
+            any(
+                [
+                    re.search(pattern, self.input or "") is not None,
+                    re.search(pattern, self.actual_output or "") is not None,
+                ]
+            )
+            if isinstance(self.input, str)
+            else self.multimodal
+        )
+        self.multimodal = auto_detect
+        return self
     @model_validator(mode="before")
     def validate_input(cls, data):
         input = data.get("input")

deepeval/test_case/utils.py CHANGED Viewed

@@ -1,24 +1,20 @@
 from typing import Union, List
-from deepeval.test_case import LLMTestCase, MLLMTestCase, ConversationalTestCase
+from deepeval.test_case import LLMTestCase, ConversationalTestCase
 def check_valid_test_cases_type(
-    test_cases: Union[
-        List[Union[LLMTestCase, MLLMTestCase]], List[ConversationalTestCase]
-    ],
+    test_cases: Union[List[LLMTestCase], List[ConversationalTestCase]],
 ):
     llm_test_case_count = 0
     conversational_test_case_count = 0
     for test_case in test_cases:
-        if isinstance(test_case, LLMTestCase) or isinstance(
-            test_case, MLLMTestCase
-        ):
+        if isinstance(test_case, LLMTestCase):
             llm_test_case_count += 1
         else:
             conversational_test_case_count += 1
     if llm_test_case_count > 0 and conversational_test_case_count > 0:
         raise ValueError(
-            "You cannot supply a mixture of `LLMTestCase`/`MLLMTestCase`(s) and `ConversationalTestCase`(s) as the list of test cases."
+            "You cannot supply a mixture of `LLMTestCase`(s) and `ConversationalTestCase`(s) as the list of test cases."
         )

deepeval 3.7.4__py3-none-any.whl → 3.7.5__py3-none-any.whl

deepeval 3.7.4py3-none-any.whl → 3.7.5py3-none-any.whl