PyPI - deepeval - Versions diffs - 3.7.4__py3-none-any.whl → 3.7.5__py3-none-any.whl - Mend

deepeval 3.7.4py3-none-any.whl → 3.7.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (155) hide show

deepeval/_version.py +1 -1
deepeval/dataset/golden.py +54 -2
deepeval/evaluate/evaluate.py +16 -8
deepeval/evaluate/execute.py +70 -26
deepeval/evaluate/utils.py +26 -22
deepeval/integrations/pydantic_ai/agent.py +19 -2
deepeval/integrations/pydantic_ai/instrumentator.py +62 -23
deepeval/metrics/__init__.py +14 -12
deepeval/metrics/answer_relevancy/answer_relevancy.py +74 -29
deepeval/metrics/answer_relevancy/template.py +188 -92
deepeval/metrics/base_metric.py +2 -5
deepeval/metrics/contextual_precision/contextual_precision.py +53 -15
deepeval/metrics/contextual_precision/template.py +115 -66
deepeval/metrics/contextual_recall/contextual_recall.py +50 -13
deepeval/metrics/contextual_recall/template.py +106 -55
deepeval/metrics/contextual_relevancy/contextual_relevancy.py +47 -15
deepeval/metrics/contextual_relevancy/template.py +87 -58
deepeval/metrics/dag/templates.py +2 -2
deepeval/metrics/faithfulness/faithfulness.py +70 -27
deepeval/metrics/faithfulness/schema.py +1 -1
deepeval/metrics/faithfulness/template.py +200 -115
deepeval/metrics/g_eval/utils.py +2 -2
deepeval/metrics/indicator.py +4 -4
deepeval/metrics/multimodal_metrics/__init__.py +0 -18
deepeval/metrics/multimodal_metrics/image_coherence/image_coherence.py +24 -17
deepeval/metrics/multimodal_metrics/image_editing/image_editing.py +26 -21
deepeval/metrics/multimodal_metrics/image_helpfulness/image_helpfulness.py +24 -17
deepeval/metrics/multimodal_metrics/image_reference/image_reference.py +24 -17
deepeval/metrics/multimodal_metrics/multimodal_g_eval/multimodal_g_eval.py +19 -19
deepeval/metrics/multimodal_metrics/multimodal_g_eval/template.py +63 -78
deepeval/metrics/multimodal_metrics/multimodal_g_eval/utils.py +20 -20
deepeval/metrics/multimodal_metrics/text_to_image/text_to_image.py +71 -50
deepeval/metrics/ragas.py +3 -3
deepeval/metrics/tool_correctness/tool_correctness.py +2 -2
deepeval/metrics/turn_contextual_precision/schema.py +21 -0
deepeval/metrics/turn_contextual_precision/template.py +187 -0
deepeval/metrics/turn_contextual_precision/turn_contextual_precision.py +550 -0
deepeval/metrics/turn_contextual_recall/schema.py +21 -0
deepeval/metrics/turn_contextual_recall/template.py +178 -0
deepeval/metrics/turn_contextual_recall/turn_contextual_recall.py +520 -0
deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_contextual_relevancy}/schema.py +7 -1
deepeval/metrics/turn_contextual_relevancy/template.py +161 -0
deepeval/metrics/turn_contextual_relevancy/turn_contextual_relevancy.py +535 -0
deepeval/metrics/{multimodal_metrics/multimodal_faithfulness → turn_faithfulness}/schema.py +11 -3
deepeval/metrics/turn_faithfulness/template.py +218 -0
deepeval/metrics/turn_faithfulness/turn_faithfulness.py +596 -0
deepeval/metrics/utils.py +39 -58
deepeval/models/__init__.py +0 -12
deepeval/models/base_model.py +16 -38
deepeval/models/embedding_models/__init__.py +7 -0
deepeval/models/embedding_models/azure_embedding_model.py +52 -28
deepeval/models/embedding_models/local_embedding_model.py +18 -14
deepeval/models/embedding_models/ollama_embedding_model.py +38 -16
deepeval/models/embedding_models/openai_embedding_model.py +40 -21
deepeval/models/llms/amazon_bedrock_model.py +1 -2
deepeval/models/llms/anthropic_model.py +44 -23
deepeval/models/llms/azure_model.py +121 -36
deepeval/models/llms/deepseek_model.py +18 -13
deepeval/models/llms/gemini_model.py +129 -43
deepeval/models/llms/grok_model.py +18 -13
deepeval/models/llms/kimi_model.py +18 -13
deepeval/models/llms/litellm_model.py +42 -22
deepeval/models/llms/local_model.py +12 -7
deepeval/models/llms/ollama_model.py +114 -12
deepeval/models/llms/openai_model.py +137 -41
deepeval/models/llms/portkey_model.py +24 -7
deepeval/models/llms/utils.py +5 -3
deepeval/models/retry_policy.py +17 -14
deepeval/models/utils.py +46 -1
deepeval/optimizer/__init__.py +5 -0
deepeval/optimizer/algorithms/__init__.py +6 -0
deepeval/optimizer/algorithms/base.py +29 -0
deepeval/optimizer/algorithms/configs.py +18 -0
deepeval/optimizer/algorithms/copro/__init__.py +5 -0
deepeval/{optimization/copro/loop.py → optimizer/algorithms/copro/copro.py} +112 -113
deepeval/optimizer/algorithms/gepa/__init__.py +5 -0
deepeval/{optimization/gepa/loop.py → optimizer/algorithms/gepa/gepa.py} +175 -115
deepeval/optimizer/algorithms/miprov2/__init__.py +17 -0
deepeval/optimizer/algorithms/miprov2/bootstrapper.py +435 -0
deepeval/optimizer/algorithms/miprov2/miprov2.py +752 -0
deepeval/optimizer/algorithms/miprov2/proposer.py +301 -0
deepeval/optimizer/algorithms/simba/__init__.py +5 -0
deepeval/{optimization/simba/loop.py → optimizer/algorithms/simba/simba.py} +128 -112
deepeval/{optimization → optimizer}/configs.py +5 -8
deepeval/{optimization/policies/selection.py → optimizer/policies.py} +63 -2
deepeval/optimizer/prompt_optimizer.py +263 -0
deepeval/optimizer/rewriter/__init__.py +5 -0
deepeval/optimizer/rewriter/rewriter.py +124 -0
deepeval/optimizer/rewriter/utils.py +214 -0
deepeval/optimizer/scorer/__init__.py +5 -0
deepeval/optimizer/scorer/base.py +86 -0
deepeval/optimizer/scorer/scorer.py +316 -0
deepeval/optimizer/scorer/utils.py +30 -0
deepeval/optimizer/types.py +148 -0
deepeval/{optimization → optimizer}/utils.py +47 -165
deepeval/prompt/prompt.py +5 -9
deepeval/test_case/__init__.py +1 -3
deepeval/test_case/api.py +12 -10
deepeval/test_case/conversational_test_case.py +19 -1
deepeval/test_case/llm_test_case.py +152 -1
deepeval/test_case/utils.py +4 -8
deepeval/test_run/api.py +15 -14
deepeval/test_run/test_run.py +3 -3
deepeval/tracing/patchers.py +9 -4
deepeval/tracing/tracing.py +2 -2
deepeval/utils.py +65 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/METADATA +1 -4
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/RECORD +116 -125
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/multimodal_answer_relevancy.py +0 -343
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/schema.py +0 -19
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/template.py +0 -122
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/multimodal_contextual_precision.py +0 -301
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/template.py +0 -132
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/multimodal_contextual_recall.py +0 -285
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/template.py +0 -112
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/multimodal_contextual_relevancy.py +0 -282
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/template.py +0 -102
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/multimodal_faithfulness.py +0 -356
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/template.py +0 -175
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/multimodal_tool_correctness.py +0 -290
deepeval/models/mlllms/__init__.py +0 -4
deepeval/models/mlllms/azure_model.py +0 -343
deepeval/models/mlllms/gemini_model.py +0 -313
deepeval/models/mlllms/ollama_model.py +0 -175
deepeval/models/mlllms/openai_model.py +0 -309
deepeval/optimization/__init__.py +0 -13
deepeval/optimization/adapters/__init__.py +0 -2
deepeval/optimization/adapters/deepeval_scoring_adapter.py +0 -588
deepeval/optimization/aggregates.py +0 -14
deepeval/optimization/copro/configs.py +0 -31
deepeval/optimization/gepa/__init__.py +0 -7
deepeval/optimization/gepa/configs.py +0 -115
deepeval/optimization/miprov2/configs.py +0 -134
deepeval/optimization/miprov2/loop.py +0 -785
deepeval/optimization/mutations/__init__.py +0 -0
deepeval/optimization/mutations/prompt_rewriter.py +0 -458
deepeval/optimization/policies/__init__.py +0 -16
deepeval/optimization/policies/tie_breaker.py +0 -67
deepeval/optimization/prompt_optimizer.py +0 -462
deepeval/optimization/simba/__init__.py +0 -0
deepeval/optimization/simba/configs.py +0 -33
deepeval/optimization/types.py +0 -361
deepeval/test_case/mllm_test_case.py +0 -170
/deepeval/metrics/{multimodal_metrics/multimodal_answer_relevancy → turn_contextual_precision}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_precision → turn_contextual_recall}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_recall → turn_contextual_relevancy}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_faithfulness}/__init__.py +0 -0
/deepeval/{optimization → optimizer/algorithms}/simba/types.py +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/LICENSE.md +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/WHEEL +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/entry_points.txt +0 -0

deepeval/test_run/api.py CHANGED Viewed

@@ -18,20 +18,21 @@ class LLMApiTestCase(BaseModel):
     token_cost: Optional[float] = Field(None, alias="tokenCost")
     completion_time: Optional[float] = Field(None, alias="completionTime")
     tags: Optional[List[str]] = Field(None)
-    multimodal_input: Optional[List[Union[str, MLLMImage]]] = Field(
-        None, alias="multimodalInput"
-    )
-    multimodal_input_actual_output: Optional[List[Union[str, MLLMImage]]] = (
-        Field(None, alias="multimodalActualOutput")
-    )
-    multimodal_expected_output: Optional[List[Union[str, MLLMImage]]] = Field(
-        None, alias="multimodalExpectedOutput"
-    )
-    multimodal_retrieval_context: Optional[List[Union[str, MLLMImage]]] = Field(
-        None, alias="multimodalRetrievalContext"
-    )
-    multimodal_context: Optional[List[Union[str, MLLMImage]]] = Field(
-        None, alias="multimodalContext"
+    # multimodal_input: Optional[str] = Field(None, alias="multimodalInput")
+    # multimodal_input_actual_output: Optional[str] = Field(
+    #     None, alias="multimodalActualOutput"
+    # )
+    # multimodal_expected_output: Optional[str] = Field(
+    #     None, alias="multimodalExpectedOutput"
+    # )
+    # multimodal_retrieval_context: Optional[List[str]] = Field(
+    #     None, alias="multimodalRetrievalContext"
+    # )
+    # multimodal_context: Optional[List[str]] = Field(
+    #     None, alias="multimodalContext"
+    # )
+    images_mapping: Optional[Dict[str, MLLMImage]] = Field(
+        None, alias="imagesMapping"
     )
     # make these optional, not all test cases in a conversation will be evaluated

deepeval/test_run/test_run.py CHANGED Viewed

@@ -21,7 +21,7 @@ from deepeval.test_run.api import (
 )
 from deepeval.tracing.utils import make_json_serializable
 from deepeval.tracing.api import SpanApiType, span_api_type_literals
-from deepeval.test_case import LLMTestCase, ConversationalTestCase, MLLMTestCase
+from deepeval.test_case import LLMTestCase, ConversationalTestCase
 from deepeval.utils import (
     delete_file_if_exists,
     get_is_running_deepeval,
@@ -182,7 +182,7 @@ class TestRun(BaseModel):
     def set_dataset_properties(
         self,
-        test_case: Union[LLMTestCase, ConversationalTestCase, MLLMTestCase],
+        test_case: Union[LLMTestCase, ConversationalTestCase],
     ):
         if self.dataset_alias is None:
             self.dataset_alias = test_case._dataset_alias
@@ -538,7 +538,7 @@ class TestRunManager:
     def update_test_run(
         self,
         api_test_case: Union[LLMApiTestCase, ConversationalApiTestCase],
-        test_case: Union[LLMTestCase, ConversationalTestCase, MLLMTestCase],
+        test_case: Union[LLMTestCase, ConversationalTestCase],
     ):
         if (
             api_test_case.metrics_data is not None

deepeval/tracing/patchers.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import functools
-from anthropic import Anthropic
+from typing import TYPE_CHECKING
 from openai import OpenAI
 from deepeval.tracing.context import update_current_span, update_llm_span
@@ -8,6 +9,10 @@ from deepeval.tracing.context import current_span_context
 from deepeval.tracing.types import LlmSpan
+if TYPE_CHECKING:
+    from anthropic import Anthropic
 def patch_openai_client(client: OpenAI):
     original_methods = {}
@@ -61,7 +66,7 @@ def patch_openai_client(client: OpenAI):
                     output = None
                     try:
                         output = response.choices[0].message.content
-                    except Exception as e:
+                    except Exception:
                         pass
                     # extract input output token counts
@@ -70,7 +75,7 @@ def patch_openai_client(client: OpenAI):
                     try:
                         input_token_count = response.usage.prompt_tokens
                         output_token_count = response.usage.completion_tokens
-                    except Exception as e:
+                    except Exception:
                         pass
                     update_current_span(
@@ -86,7 +91,7 @@ def patch_openai_client(client: OpenAI):
             setattr(current_obj, method_name, wrapped_method)
-def patch_anthropic_client(client: Anthropic):
+def patch_anthropic_client(client: "Anthropic"):
     """
     Patch an Anthropic client instance to add tracing capabilities.

deepeval/tracing/tracing.py CHANGED Viewed

@@ -19,7 +19,6 @@ import random
 import atexit
 import queue
 import uuid
-from anthropic import Anthropic
 from openai import OpenAI
 from rich.console import Console
 from rich.progress import Progress
@@ -74,6 +73,7 @@ from deepeval.tracing.trace_test_manager import trace_testing_manager
 if TYPE_CHECKING:
     from deepeval.dataset.golden import Golden
+    from anthropic import Anthropic
 EVAL_DUMMY_SPAN_NAME = "evals_iterator"
@@ -154,7 +154,7 @@ class TraceManager:
         environment: Optional[str] = None,
         sampling_rate: Optional[float] = None,
         confident_api_key: Optional[str] = None,
-        anthropic_client: Optional[Anthropic] = None,
+        anthropic_client: Optional["Anthropic"] = None,
         openai_client: Optional[OpenAI] = None,
         tracing_enabled: Optional[bool] = None,
     ) -> None:

deepeval/utils.py CHANGED Viewed

@@ -14,6 +14,7 @@ import logging
 from contextvars import ContextVar
 from enum import Enum
+from importlib import import_module
 from typing import Any, Dict, List, Optional, Protocol, Sequence, Union
 from collections.abc import Iterable
 from dataclasses import asdict, is_dataclass
@@ -537,6 +538,25 @@ def shorten(
     return stext[:cut] + suffix
+def convert_to_multi_modal_array(input: Union[str, List[str]]):
+    from deepeval.test_case import MLLMImage
+    if isinstance(input, str):
+        return MLLMImage.parse_multimodal_string(input)
+    elif isinstance(input, list):
+        new_list = []
+        for context in input:
+            parsed_array = MLLMImage.parse_multimodal_string(context)
+            new_list.extend(parsed_array)
+        return new_list
+def check_if_multimodal(input: str):
+    pattern = r"\[DEEPEVAL:IMAGE:(.*?)\]"
+    matches = list(re.finditer(pattern, input))
+    return bool(matches)
 def format_turn(
     turn: TurnLike,
     *,
@@ -829,7 +849,22 @@ def require_param(
     env_var_name: str,
     param_hint: str,
 ) -> Any:
+    """
+    Ensures that a required parameter is provided. If the parameter is `None`, raises a
+    `DeepEvalError` with a helpful message indicating the missing parameter and how to resolve it.
+    Args:
+        param (Optional[Any]): The parameter to validate.
+        provider_label (str): A label for the provider to be used in the error message.
+        env_var_name (str): The name of the environment variable where the parameter can be set.
+        param_hint (str): A hint for the parameter, usually the name of the argument.
+    Raises:
+        DeepEvalError: If the `param` is `None`, indicating that a required parameter is missing.
+    Returns:
+        Any: The value of `param` if it is provided.
+    """
     if param is None:
         raise DeepEvalError(
             f"{provider_label} is missing a required parameter. "
@@ -838,3 +873,33 @@ def require_param(
         )
     return param
+def require_dependency(
+    module_name: str,
+    *,
+    provider_label: str,
+    install_hint: Optional[str] = None,
+) -> Any:
+    """
+    Imports an optional dependency module or raises a `DeepEvalError` if the module is not found.
+    The error message includes a suggestion on how to install the missing module.
+    Args:
+        module_name (str): The name of the module to import.
+        provider_label (str): A label for the provider to be used in the error message.
+        install_hint (Optional[str]): A hint on how to install the missing module, usually a pip command.
+    Raises:
+        DeepEvalError: If the module cannot be imported, indicating that the dependency is missing.
+    Returns:
+        Any: The imported module if successful.
+    """
+    try:
+        return import_module(module_name)
+    except ImportError as exc:
+        hint = install_hint or f"Install it with `pip install {module_name}`."
+        raise DeepEvalError(
+            f"{provider_label} requires the `{module_name}` package. {hint}"
+        ) from exc

{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: deepeval
-Version: 3.7.4
+Version: 3.7.5
 Summary: The LLM Evaluation Framework
 Home-page: https://github.com/confident-ai/deepeval
 License: Apache-2.0
@@ -13,13 +13,10 @@ Classifier: Programming Language :: Python :: 3.9
 Classifier: Programming Language :: Python :: 3.10
 Classifier: Programming Language :: Python :: 3.11
 Requires-Dist: aiohttp
-Requires-Dist: anthropic
 Requires-Dist: click (>=8.0.0,<8.3.0)
-Requires-Dist: google-genai (>=1.9.0,<2.0.0)
 Requires-Dist: grpcio (>=1.67.1,<2.0.0)
 Requires-Dist: jinja2
 Requires-Dist: nest_asyncio
-Requires-Dist: ollama
 Requires-Dist: openai
 Requires-Dist: opentelemetry-api (>=1.24.0,<2.0.0)
 Requires-Dist: opentelemetry-exporter-otlp-proto-grpc (>=1.24.0,<2.0.0)

deepeval 3.7.4__py3-none-any.whl → 3.7.5__py3-none-any.whl

deepeval 3.7.4py3-none-any.whl → 3.7.5py3-none-any.whl