PyPI - deepeval - Versions diffs - 3.7.3__py3-none-any.whl → 3.7.4__py3-none-any.whl - Mend

deepeval 3.7.3py3-none-any.whl → 3.7.4py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (84) hide show

deepeval/_version.py +1 -1
deepeval/cli/test.py +1 -1
deepeval/config/settings.py +102 -13
deepeval/evaluate/configs.py +1 -1
deepeval/evaluate/execute.py +4 -1
deepeval/metrics/answer_relevancy/template.py +4 -4
deepeval/metrics/argument_correctness/template.py +2 -2
deepeval/metrics/bias/template.py +3 -3
deepeval/metrics/contextual_precision/template.py +6 -6
deepeval/metrics/contextual_recall/template.py +2 -2
deepeval/metrics/contextual_relevancy/template.py +3 -3
deepeval/metrics/conversation_completeness/template.py +2 -2
deepeval/metrics/conversational_dag/templates.py +4 -4
deepeval/metrics/conversational_g_eval/template.py +4 -3
deepeval/metrics/dag/templates.py +4 -4
deepeval/metrics/faithfulness/template.py +4 -4
deepeval/metrics/hallucination/template.py +4 -4
deepeval/metrics/misuse/template.py +2 -2
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/template.py +7 -7
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/template.py +6 -6
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/template.py +2 -2
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/template.py +3 -3
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/template.py +9 -9
deepeval/metrics/multimodal_metrics/multimodal_g_eval/template.py +4 -4
deepeval/metrics/non_advice/template.py +2 -2
deepeval/metrics/pii_leakage/template.py +2 -2
deepeval/metrics/prompt_alignment/template.py +4 -4
deepeval/metrics/role_violation/template.py +2 -2
deepeval/metrics/step_efficiency/step_efficiency.py +1 -1
deepeval/metrics/toxicity/template.py +4 -4
deepeval/metrics/turn_relevancy/template.py +2 -2
deepeval/models/embedding_models/azure_embedding_model.py +28 -15
deepeval/models/embedding_models/local_embedding_model.py +23 -10
deepeval/models/embedding_models/ollama_embedding_model.py +8 -6
deepeval/models/embedding_models/openai_embedding_model.py +18 -2
deepeval/models/llms/anthropic_model.py +17 -5
deepeval/models/llms/azure_model.py +30 -18
deepeval/models/llms/deepseek_model.py +22 -12
deepeval/models/llms/gemini_model.py +120 -87
deepeval/models/llms/grok_model.py +23 -16
deepeval/models/llms/kimi_model.py +23 -12
deepeval/models/llms/litellm_model.py +63 -25
deepeval/models/llms/local_model.py +26 -18
deepeval/models/llms/ollama_model.py +17 -7
deepeval/models/llms/openai_model.py +22 -17
deepeval/models/llms/portkey_model.py +132 -0
deepeval/models/mlllms/azure_model.py +28 -19
deepeval/models/mlllms/gemini_model.py +102 -73
deepeval/models/mlllms/ollama_model.py +40 -9
deepeval/models/mlllms/openai_model.py +65 -14
deepeval/models/utils.py +48 -3
deepeval/optimization/__init__.py +13 -0
deepeval/optimization/adapters/__init__.py +2 -0
deepeval/optimization/adapters/deepeval_scoring_adapter.py +588 -0
deepeval/optimization/aggregates.py +14 -0
deepeval/optimization/configs.py +34 -0
deepeval/optimization/copro/configs.py +31 -0
deepeval/optimization/copro/loop.py +837 -0
deepeval/optimization/gepa/__init__.py +7 -0
deepeval/optimization/gepa/configs.py +115 -0
deepeval/optimization/gepa/loop.py +677 -0
deepeval/optimization/miprov2/configs.py +134 -0
deepeval/optimization/miprov2/loop.py +785 -0
deepeval/optimization/mutations/__init__.py +0 -0
deepeval/optimization/mutations/prompt_rewriter.py +458 -0
deepeval/optimization/policies/__init__.py +16 -0
deepeval/optimization/policies/selection.py +166 -0
deepeval/optimization/policies/tie_breaker.py +67 -0
deepeval/optimization/prompt_optimizer.py +462 -0
deepeval/optimization/simba/__init__.py +0 -0
deepeval/optimization/simba/configs.py +33 -0
deepeval/optimization/simba/loop.py +983 -0
deepeval/optimization/simba/types.py +15 -0
deepeval/optimization/types.py +361 -0
deepeval/optimization/utils.py +598 -0
deepeval/prompt/prompt.py +10 -5
deepeval/test_run/cache.py +2 -0
deepeval/test_run/test_run.py +6 -1
deepeval/utils.py +24 -0
{deepeval-3.7.3.dist-info → deepeval-3.7.4.dist-info}/METADATA +1 -1
{deepeval-3.7.3.dist-info → deepeval-3.7.4.dist-info}/RECORD +84 -59
{deepeval-3.7.3.dist-info → deepeval-3.7.4.dist-info}/LICENSE.md +0 -0
{deepeval-3.7.3.dist-info → deepeval-3.7.4.dist-info}/WHEEL +0 -0
{deepeval-3.7.3.dist-info → deepeval-3.7.4.dist-info}/entry_points.txt +0 -0

deepeval/optimization/gepa/__init__.py ADDED Viewed

@@ -0,0 +1,7 @@
+from .configs import GEPAConfig
+from .loop import GEPARunner
+__all__ = [
+    "GEPAConfig",
+    "GEPARunner",
+]

deepeval/optimization/gepa/configs.py ADDED Viewed

@@ -0,0 +1,115 @@
+from __future__ import annotations
+import time
+from typing import Optional
+from pydantic import (
+    BaseModel,
+    confloat,
+    conint,
+    Field,
+    field_validator,
+    PositiveInt,
+)
+from deepeval.optimization.policies.tie_breaker import (
+    TieBreaker as TieBreakerPolicy,
+)
+class GEPAConfig(BaseModel):
+    """
+    Core configuration for the GEPA optimization loop.
+    This controls:
+      - The iteration budget and acceptance threshold (iterations, min_delta).
+      - How D_train is split into a Pareto validation subset (D_pareto)
+        versus a feedback subset (D_feedback) (pareto_size).
+      - How minibatches are drawn from D_feedback, either with a fixed size
+        or dynamically from a ratio and min/max bounds (minibatch_* fields).
+      - How ties on aggregate scores are treated (tie_tolerance, tie_breaker).
+      - Randomness and rewrite instruction length (random_seed,
+        rewrite_instruction_max_chars).
+    See individual field descriptions for precise behavior.
+    """
+    iterations: PositiveInt = Field(
+        default=5,
+        description="Total number of GEPA loop iterations (mutation attempts). "
+        "This acts as the optimization budget B in the GEPA paper.",
+    )
+    minibatch_size: Optional[conint(ge=1)] = Field(
+        default=None,
+        description="Fixed minibatch size drawn from D_feedback. When set, this "
+        "overrides dynamic sizing based on `minibatch_ratio`, "
+        "`minibatch_min_size`, and `minibatch_max_size`.",
+    )
+    minibatch_min_size: conint(ge=1) = Field(
+        default=4,
+        description="Hard lower bound on the minibatch size used for D_feedback "
+        "when dynamic sizing is in effect.",
+    )
+    minibatch_max_size: PositiveInt = Field(
+        default=32,
+        description="Hard upper bound on the minibatch size used for D_feedback "
+        "when dynamic sizing is in effect.",
+    )
+    minibatch_ratio: confloat(gt=0.0, le=1.0) = Field(
+        default=0.05,
+        description=(
+            "Target fraction of |D_feedback| used to compute a dynamic "
+            "minibatch size when `minibatch_size` is None. The effective "
+            "size is round(len(D_feedback) * minibatch_ratio) bounded "
+            "between `minibatch_min_size` and `minibatch_max_size` and not "
+            "exceeding len(D_feedback). D_feedback is the subset of the "
+            "provided goldens that is not allocated to D_pareto by "
+            "`split_goldens(...)`."
+        ),
+    )
+    pareto_size: conint(ge=1) = Field(
+        default=3,
+        description="Size of the Pareto validation subset D_pareto. The splitter "
+        "will bind this between [0, len(goldens)], and the runner requires "
+        "at least 2 total goldens to run GEPA.",
+    )
+    random_seed: conint(ge=0) = Field(
+        default=0,
+        description="Non-negative RNG seed for reproducibility. "
+        "If you explicitly pass None, it is replaced with a seed "
+        "derived from time.time_ns() via the field validator.",
+    )
+    min_delta: confloat(ge=0.0) = Field(
+        default=0.0,
+        description="Minimum improvement required for a child configuration to be "
+        "accepted, e.g. σ_child >= σ_parent + min_delta. A small jitter "
+        "is applied internally to avoid floating-point edge cases.",
+    )
+    # Two candidates are considered tied if their aggregate scores are within tie_tolerance.
+    tie_tolerance: confloat(ge=0.0) = Field(
+        1e-9,
+        description="Two candidates are considered tied on aggregate score if "
+        "their values differ by at most this tolerance.",
+    )
+    tie_breaker: TieBreakerPolicy = Field(
+        TieBreakerPolicy.PREFER_CHILD,
+        description="Policy used to break ties when multiple prompt configurations "
+        "share the best aggregate score. See `GEPAConfig.TieBreaker` "
+        "for the available options. ",
+    )
+    rewrite_instruction_max_chars: PositiveInt = Field(
+        default=4096,
+        description=(
+            "Maximum number of characters from prompt, feedback, and related text "
+            "included in rewrite instructions."
+        ),
+    )
+    @field_validator("random_seed", mode="before")
+    @classmethod
+    def _coerce_random_seed(cls, seed):
+        if seed is None:
+            return time.time_ns()
+        else:
+            return seed
+GEPAConfig.TieBreaker = TieBreakerPolicy

deepeval 3.7.3__py3-none-any.whl → 3.7.4__py3-none-any.whl

deepeval 3.7.3py3-none-any.whl → 3.7.4py3-none-any.whl