PyPI - deepeval - Versions diffs - 3.7.4__py3-none-any.whl → 3.7.6__py3-none-any.whl - Mend

deepeval 3.7.4py3-none-any.whl → 3.7.6py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (224) hide show

deepeval/_version.py +1 -1
deepeval/config/settings.py +35 -1
deepeval/dataset/api.py +23 -1
deepeval/dataset/golden.py +139 -2
deepeval/evaluate/evaluate.py +16 -11
deepeval/evaluate/execute.py +13 -181
deepeval/evaluate/utils.py +6 -26
deepeval/integrations/pydantic_ai/agent.py +19 -2
deepeval/integrations/pydantic_ai/instrumentator.py +62 -23
deepeval/key_handler.py +3 -0
deepeval/metrics/__init__.py +14 -16
deepeval/metrics/answer_relevancy/answer_relevancy.py +118 -116
deepeval/metrics/answer_relevancy/template.py +22 -3
deepeval/metrics/arena_g_eval/arena_g_eval.py +98 -96
deepeval/metrics/arena_g_eval/template.py +17 -1
deepeval/metrics/argument_correctness/argument_correctness.py +81 -87
deepeval/metrics/argument_correctness/template.py +19 -2
deepeval/metrics/base_metric.py +13 -44
deepeval/metrics/bias/bias.py +102 -108
deepeval/metrics/bias/template.py +14 -2
deepeval/metrics/contextual_precision/contextual_precision.py +96 -94
deepeval/metrics/contextual_precision/template.py +115 -66
deepeval/metrics/contextual_recall/contextual_recall.py +94 -84
deepeval/metrics/contextual_recall/template.py +106 -55
deepeval/metrics/contextual_relevancy/contextual_relevancy.py +86 -84
deepeval/metrics/contextual_relevancy/template.py +87 -58
deepeval/metrics/conversation_completeness/conversation_completeness.py +101 -119
deepeval/metrics/conversation_completeness/template.py +23 -3
deepeval/metrics/conversational_dag/conversational_dag.py +12 -8
deepeval/metrics/conversational_dag/nodes.py +66 -123
deepeval/metrics/conversational_dag/templates.py +16 -0
deepeval/metrics/conversational_g_eval/conversational_g_eval.py +47 -66
deepeval/metrics/dag/dag.py +10 -0
deepeval/metrics/dag/nodes.py +63 -126
deepeval/metrics/dag/templates.py +16 -2
deepeval/metrics/exact_match/exact_match.py +9 -1
deepeval/metrics/faithfulness/faithfulness.py +138 -149
deepeval/metrics/faithfulness/schema.py +1 -1
deepeval/metrics/faithfulness/template.py +200 -115
deepeval/metrics/g_eval/g_eval.py +87 -78
deepeval/metrics/g_eval/template.py +18 -1
deepeval/metrics/g_eval/utils.py +7 -6
deepeval/metrics/goal_accuracy/goal_accuracy.py +91 -76
deepeval/metrics/goal_accuracy/template.py +21 -3
deepeval/metrics/hallucination/hallucination.py +60 -75
deepeval/metrics/hallucination/template.py +13 -0
deepeval/metrics/indicator.py +7 -10
deepeval/metrics/json_correctness/json_correctness.py +40 -38
deepeval/metrics/json_correctness/template.py +10 -0
deepeval/metrics/knowledge_retention/knowledge_retention.py +60 -97
deepeval/metrics/knowledge_retention/schema.py +9 -3
deepeval/metrics/knowledge_retention/template.py +12 -0
deepeval/metrics/mcp/mcp_task_completion.py +68 -38
deepeval/metrics/mcp/multi_turn_mcp_use_metric.py +92 -74
deepeval/metrics/mcp/template.py +52 -0
deepeval/metrics/mcp_use_metric/mcp_use_metric.py +58 -64
deepeval/metrics/mcp_use_metric/template.py +12 -0
deepeval/metrics/misuse/misuse.py +77 -97
deepeval/metrics/misuse/template.py +15 -0
deepeval/metrics/multimodal_metrics/__init__.py +0 -19
deepeval/metrics/multimodal_metrics/image_coherence/image_coherence.py +59 -53
deepeval/metrics/multimodal_metrics/image_editing/image_editing.py +79 -95
deepeval/metrics/multimodal_metrics/image_helpfulness/image_helpfulness.py +59 -53
deepeval/metrics/multimodal_metrics/image_reference/image_reference.py +59 -53
deepeval/metrics/multimodal_metrics/text_to_image/text_to_image.py +111 -109
deepeval/metrics/non_advice/non_advice.py +79 -105
deepeval/metrics/non_advice/template.py +12 -0
deepeval/metrics/pattern_match/pattern_match.py +12 -4
deepeval/metrics/pii_leakage/pii_leakage.py +75 -106
deepeval/metrics/pii_leakage/template.py +14 -0
deepeval/metrics/plan_adherence/plan_adherence.py +63 -89
deepeval/metrics/plan_adherence/template.py +11 -0
deepeval/metrics/plan_quality/plan_quality.py +63 -87
deepeval/metrics/plan_quality/template.py +9 -0
deepeval/metrics/prompt_alignment/prompt_alignment.py +72 -83
deepeval/metrics/prompt_alignment/template.py +12 -0
deepeval/metrics/ragas.py +3 -3
deepeval/metrics/role_adherence/role_adherence.py +48 -71
deepeval/metrics/role_adherence/template.py +14 -0
deepeval/metrics/role_violation/role_violation.py +75 -108
deepeval/metrics/role_violation/template.py +12 -0
deepeval/metrics/step_efficiency/step_efficiency.py +55 -65
deepeval/metrics/step_efficiency/template.py +11 -0
deepeval/metrics/summarization/summarization.py +115 -183
deepeval/metrics/summarization/template.py +19 -0
deepeval/metrics/task_completion/task_completion.py +67 -73
deepeval/metrics/tool_correctness/tool_correctness.py +45 -44
deepeval/metrics/tool_use/tool_use.py +42 -66
deepeval/metrics/topic_adherence/template.py +13 -0
deepeval/metrics/topic_adherence/topic_adherence.py +53 -67
deepeval/metrics/toxicity/template.py +13 -0
deepeval/metrics/toxicity/toxicity.py +80 -99
deepeval/metrics/turn_contextual_precision/schema.py +21 -0
deepeval/metrics/turn_contextual_precision/template.py +187 -0
deepeval/metrics/turn_contextual_precision/turn_contextual_precision.py +592 -0
deepeval/metrics/turn_contextual_recall/schema.py +21 -0
deepeval/metrics/turn_contextual_recall/template.py +178 -0
deepeval/metrics/turn_contextual_recall/turn_contextual_recall.py +563 -0
deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_contextual_relevancy}/schema.py +7 -1
deepeval/metrics/turn_contextual_relevancy/template.py +161 -0
deepeval/metrics/turn_contextual_relevancy/turn_contextual_relevancy.py +576 -0
deepeval/metrics/{multimodal_metrics/multimodal_faithfulness → turn_faithfulness}/schema.py +11 -3
deepeval/metrics/turn_faithfulness/template.py +218 -0
deepeval/metrics/turn_faithfulness/turn_faithfulness.py +627 -0
deepeval/metrics/turn_relevancy/template.py +14 -0
deepeval/metrics/turn_relevancy/turn_relevancy.py +56 -69
deepeval/metrics/utils.py +158 -122
deepeval/models/__init__.py +0 -12
deepeval/models/base_model.py +49 -33
deepeval/models/embedding_models/__init__.py +7 -0
deepeval/models/embedding_models/azure_embedding_model.py +79 -33
deepeval/models/embedding_models/local_embedding_model.py +39 -20
deepeval/models/embedding_models/ollama_embedding_model.py +52 -19
deepeval/models/embedding_models/openai_embedding_model.py +42 -22
deepeval/models/llms/amazon_bedrock_model.py +226 -72
deepeval/models/llms/anthropic_model.py +178 -63
deepeval/models/llms/azure_model.py +218 -60
deepeval/models/llms/constants.py +2032 -0
deepeval/models/llms/deepseek_model.py +95 -40
deepeval/models/llms/gemini_model.py +209 -64
deepeval/models/llms/grok_model.py +139 -68
deepeval/models/llms/kimi_model.py +140 -90
deepeval/models/llms/litellm_model.py +131 -37
deepeval/models/llms/local_model.py +125 -21
deepeval/models/llms/ollama_model.py +147 -24
deepeval/models/llms/openai_model.py +222 -269
deepeval/models/llms/portkey_model.py +81 -22
deepeval/models/llms/utils.py +8 -3
deepeval/models/retry_policy.py +17 -14
deepeval/models/utils.py +106 -5
deepeval/optimizer/__init__.py +5 -0
deepeval/optimizer/algorithms/__init__.py +6 -0
deepeval/optimizer/algorithms/base.py +29 -0
deepeval/optimizer/algorithms/configs.py +18 -0
deepeval/optimizer/algorithms/copro/__init__.py +5 -0
deepeval/{optimization/copro/loop.py → optimizer/algorithms/copro/copro.py} +112 -113
deepeval/optimizer/algorithms/gepa/__init__.py +5 -0
deepeval/{optimization/gepa/loop.py → optimizer/algorithms/gepa/gepa.py} +175 -115
deepeval/optimizer/algorithms/miprov2/__init__.py +17 -0
deepeval/optimizer/algorithms/miprov2/bootstrapper.py +435 -0
deepeval/optimizer/algorithms/miprov2/miprov2.py +752 -0
deepeval/optimizer/algorithms/miprov2/proposer.py +301 -0
deepeval/optimizer/algorithms/simba/__init__.py +5 -0
deepeval/{optimization/simba/loop.py → optimizer/algorithms/simba/simba.py} +128 -112
deepeval/{optimization → optimizer}/configs.py +5 -8
deepeval/{optimization/policies/selection.py → optimizer/policies.py} +63 -2
deepeval/optimizer/prompt_optimizer.py +263 -0
deepeval/optimizer/rewriter/__init__.py +5 -0
deepeval/optimizer/rewriter/rewriter.py +124 -0
deepeval/optimizer/rewriter/utils.py +214 -0
deepeval/optimizer/scorer/__init__.py +5 -0
deepeval/optimizer/scorer/base.py +86 -0
deepeval/optimizer/scorer/scorer.py +316 -0
deepeval/optimizer/scorer/utils.py +30 -0
deepeval/optimizer/types.py +148 -0
deepeval/{optimization → optimizer}/utils.py +47 -165
deepeval/prompt/prompt.py +5 -9
deepeval/simulator/conversation_simulator.py +43 -0
deepeval/simulator/template.py +13 -0
deepeval/test_case/__init__.py +1 -3
deepeval/test_case/api.py +26 -45
deepeval/test_case/arena_test_case.py +7 -2
deepeval/test_case/conversational_test_case.py +68 -1
deepeval/test_case/llm_test_case.py +206 -1
deepeval/test_case/utils.py +4 -8
deepeval/test_run/api.py +18 -14
deepeval/test_run/test_run.py +3 -3
deepeval/tracing/patchers.py +9 -4
deepeval/tracing/tracing.py +2 -2
deepeval/utils.py +65 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/METADATA +1 -4
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/RECORD +180 -193
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/multimodal_answer_relevancy.py +0 -343
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/schema.py +0 -19
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/template.py +0 -122
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/multimodal_contextual_precision.py +0 -301
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/template.py +0 -132
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/multimodal_contextual_recall.py +0 -285
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/template.py +0 -112
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/multimodal_contextual_relevancy.py +0 -282
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/template.py +0 -102
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/multimodal_faithfulness.py +0 -356
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/template.py +0 -175
deepeval/metrics/multimodal_metrics/multimodal_g_eval/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_g_eval/multimodal_g_eval.py +0 -386
deepeval/metrics/multimodal_metrics/multimodal_g_eval/schema.py +0 -11
deepeval/metrics/multimodal_metrics/multimodal_g_eval/template.py +0 -148
deepeval/metrics/multimodal_metrics/multimodal_g_eval/utils.py +0 -68
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/multimodal_tool_correctness.py +0 -290
deepeval/models/mlllms/__init__.py +0 -4
deepeval/models/mlllms/azure_model.py +0 -343
deepeval/models/mlllms/gemini_model.py +0 -313
deepeval/models/mlllms/ollama_model.py +0 -175
deepeval/models/mlllms/openai_model.py +0 -309
deepeval/optimization/__init__.py +0 -13
deepeval/optimization/adapters/__init__.py +0 -2
deepeval/optimization/adapters/deepeval_scoring_adapter.py +0 -588
deepeval/optimization/aggregates.py +0 -14
deepeval/optimization/copro/configs.py +0 -31
deepeval/optimization/gepa/__init__.py +0 -7
deepeval/optimization/gepa/configs.py +0 -115
deepeval/optimization/miprov2/configs.py +0 -134
deepeval/optimization/miprov2/loop.py +0 -785
deepeval/optimization/mutations/__init__.py +0 -0
deepeval/optimization/mutations/prompt_rewriter.py +0 -458
deepeval/optimization/policies/__init__.py +0 -16
deepeval/optimization/policies/tie_breaker.py +0 -67
deepeval/optimization/prompt_optimizer.py +0 -462
deepeval/optimization/simba/__init__.py +0 -0
deepeval/optimization/simba/configs.py +0 -33
deepeval/optimization/types.py +0 -361
deepeval/test_case/mllm_test_case.py +0 -170
/deepeval/metrics/{multimodal_metrics/multimodal_answer_relevancy → turn_contextual_precision}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_precision → turn_contextual_recall}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_recall → turn_contextual_relevancy}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_faithfulness}/__init__.py +0 -0
/deepeval/{optimization → optimizer/algorithms}/simba/types.py +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/LICENSE.md +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/WHEEL +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/entry_points.txt +0 -0

deepeval/optimization/gepa/configs.py DELETED Viewed

@@ -1,115 +0,0 @@
-from __future__ import annotations
-import time
-from typing import Optional
-from pydantic import (
-    BaseModel,
-    confloat,
-    conint,
-    Field,
-    field_validator,
-    PositiveInt,
-)
-from deepeval.optimization.policies.tie_breaker import (
-    TieBreaker as TieBreakerPolicy,
-)
-class GEPAConfig(BaseModel):
-    """
-    Core configuration for the GEPA optimization loop.
-    This controls:
-      - The iteration budget and acceptance threshold (iterations, min_delta).
-      - How D_train is split into a Pareto validation subset (D_pareto)
-        versus a feedback subset (D_feedback) (pareto_size).
-      - How minibatches are drawn from D_feedback, either with a fixed size
-        or dynamically from a ratio and min/max bounds (minibatch_* fields).
-      - How ties on aggregate scores are treated (tie_tolerance, tie_breaker).
-      - Randomness and rewrite instruction length (random_seed,
-        rewrite_instruction_max_chars).
-    See individual field descriptions for precise behavior.
-    """
-    iterations: PositiveInt = Field(
-        default=5,
-        description="Total number of GEPA loop iterations (mutation attempts). "
-        "This acts as the optimization budget B in the GEPA paper.",
-    )
-    minibatch_size: Optional[conint(ge=1)] = Field(
-        default=None,
-        description="Fixed minibatch size drawn from D_feedback. When set, this "
-        "overrides dynamic sizing based on `minibatch_ratio`, "
-        "`minibatch_min_size`, and `minibatch_max_size`.",
-    )
-    minibatch_min_size: conint(ge=1) = Field(
-        default=4,
-        description="Hard lower bound on the minibatch size used for D_feedback "
-        "when dynamic sizing is in effect.",
-    )
-    minibatch_max_size: PositiveInt = Field(
-        default=32,
-        description="Hard upper bound on the minibatch size used for D_feedback "
-        "when dynamic sizing is in effect.",
-    )
-    minibatch_ratio: confloat(gt=0.0, le=1.0) = Field(
-        default=0.05,
-        description=(
-            "Target fraction of |D_feedback| used to compute a dynamic "
-            "minibatch size when `minibatch_size` is None. The effective "
-            "size is round(len(D_feedback) * minibatch_ratio) bounded "
-            "between `minibatch_min_size` and `minibatch_max_size` and not "
-            "exceeding len(D_feedback). D_feedback is the subset of the "
-            "provided goldens that is not allocated to D_pareto by "
-            "`split_goldens(...)`."
-        ),
-    )
-    pareto_size: conint(ge=1) = Field(
-        default=3,
-        description="Size of the Pareto validation subset D_pareto. The splitter "
-        "will bind this between [0, len(goldens)], and the runner requires "
-        "at least 2 total goldens to run GEPA.",
-    )
-    random_seed: conint(ge=0) = Field(
-        default=0,
-        description="Non-negative RNG seed for reproducibility. "
-        "If you explicitly pass None, it is replaced with a seed "
-        "derived from time.time_ns() via the field validator.",
-    )
-    min_delta: confloat(ge=0.0) = Field(
-        default=0.0,
-        description="Minimum improvement required for a child configuration to be "
-        "accepted, e.g. σ_child >= σ_parent + min_delta. A small jitter "
-        "is applied internally to avoid floating-point edge cases.",
-    )
-    # Two candidates are considered tied if their aggregate scores are within tie_tolerance.
-    tie_tolerance: confloat(ge=0.0) = Field(
-        1e-9,
-        description="Two candidates are considered tied on aggregate score if "
-        "their values differ by at most this tolerance.",
-    )
-    tie_breaker: TieBreakerPolicy = Field(
-        TieBreakerPolicy.PREFER_CHILD,
-        description="Policy used to break ties when multiple prompt configurations "
-        "share the best aggregate score. See `GEPAConfig.TieBreaker` "
-        "for the available options. ",
-    )
-    rewrite_instruction_max_chars: PositiveInt = Field(
-        default=4096,
-        description=(
-            "Maximum number of characters from prompt, feedback, and related text "
-            "included in rewrite instructions."
-        ),
-    )
-    @field_validator("random_seed", mode="before")
-    @classmethod
-    def _coerce_random_seed(cls, seed):
-        if seed is None:
-            return time.time_ns()
-        else:
-            return seed
-GEPAConfig.TieBreaker = TieBreakerPolicy

deepeval/optimization/miprov2/configs.py DELETED Viewed

@@ -1,134 +0,0 @@
-from __future__ import annotations
-import time
-from typing import Optional
-from pydantic import (
-    BaseModel,
-    Field,
-    PositiveInt,
-    conint,
-    confloat,
-    field_validator,
-)
-class MIPROConfig(BaseModel):
-    """
-    Configuration for 0-shot MIPRO style prompt optimization.
-    This is adapted to the DeepEval setting where we optimize a single Prompt
-    (instruction) against a list of Goldens, using mini-batch evaluation and a
-    simple surrogate over prompt candidates.
-    Fields
-    ------
-    iterations:
-        Total number of optimization trials. Each iteration selects
-        a parent candidate, proposes a child via the PromptRewriter,
-        evaluates it on a mini-batch, and updates the surrogate stats.
-    minibatch_size:
-        Fixed minibatch size drawn from the full set of goldens. When set,
-        this overrides dynamic sizing based on `minibatch_ratio`,
-        `minibatch_min_size`, and `minibatch_max_size`.
-    minibatch_min_size:
-        Hard lower bound on minibatch size when dynamic sizing is in effect.
-    minibatch_max_size:
-        Hard upper bound on minibatch size when dynamic sizing is in effect.
-    minibatch_ratio:
-        Target fraction of len(goldens) used to compute a dynamic minibatch
-        size. The final size is bounded between `minibatch_min_size` and
-        `minibatch_max_size`.
-    random_seed:
-        RNG seed for reproducibility. If set to None, a seed is derived from
-        time.time_ns() by the validator.
-    exploration_probability:
-        Epsilon greedy exploration rate for candidate selection. With this
-        probability the runner picks a random candidate; otherwise it picks
-        the candidate with the highest mean minibatch score.
-    full_eval_every:
-        If set, every `full_eval_every` trials the runner fully evaluates the
-        current best candidate (by mean minibatch score) on the full set of
-        goldens, storing scores per-instance. If None, only a final full
-        evaluation is done at the end.
-    rewrite_instruction_max_chars:
-        Maximum number of characters pulled into rewrite instructions
-        (prompt text + feedback) when using PromptRewriter.
-    min_delta:
-        Minimum improvement on minibatch mean required for a child
-        configuration to be accepted over its parent.
-    """
-    iterations: PositiveInt = Field(
-        default=5,
-        description="Total number of MIPRO trials or prompt proposals.",
-    )
-    minibatch_size: Optional[conint(ge=1)] = Field(
-        default=None,
-        description=(
-            "Fixed minibatch size for goldens; when set, overrides dynamic sizing."
-        ),
-    )
-    minibatch_min_size: conint(ge=1) = Field(
-        default=4,
-        description="Hard lower bound on minibatch size.",
-    )
-    minibatch_max_size: PositiveInt = Field(
-        default=32,
-        description="Hard upper bound on minibatch size.",
-    )
-    minibatch_ratio: confloat(gt=0.0, le=1.0) = Field(
-        default=0.05,
-        description=(
-            "Target fraction of len(goldens) used to compute a dynamic minibatch "
-            "size; bounded between minibatch_min_size and minibatch_max_size."
-        ),
-    )
-    random_seed: conint(ge=0) = 0
-    min_delta: confloat(ge=0.0) = Field(
-        default=0.0,
-        description=(
-            "Minimum improvement in minibatch score required for a child "
-            "prompt to be accepted over its parent."
-        ),
-    )
-    exploration_probability: confloat(ge=0.0, le=1.0) = Field(
-        default=0.2,
-        description=(
-            "Probability of sampling a random candidate instead of "
-            "the best-by-mean minibatch score."
-        ),
-    )
-    full_eval_every: Optional[PositiveInt] = Field(
-        default=5,
-        description=(
-            "If set, the runner fully evaluates the current best candidate on the "
-            "full goldens every N trials. If None, only a single full evaluation "
-            "is performed at the end."
-        ),
-    )
-    rewrite_instruction_max_chars: PositiveInt = Field(
-        default=4096,
-        description=(
-            "Maximum number of characters from prompt, feedback, and related "
-            "text included in rewrite instructions."
-        ),
-    )
-    @field_validator("random_seed", mode="before")
-    @classmethod
-    def _coerce_random_seed(cls, seed):
-        if seed is None:
-            return time.time_ns()
-        return seed

deepeval 3.7.4__py3-none-any.whl → 3.7.6__py3-none-any.whl

deepeval 3.7.4py3-none-any.whl → 3.7.6py3-none-any.whl