PyPI - deepeval - Versions diffs - 3.7.4__py3-none-any.whl → 3.7.6__py3-none-any.whl - Mend

deepeval 3.7.4py3-none-any.whl → 3.7.6py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (224) hide show

deepeval/_version.py +1 -1
deepeval/config/settings.py +35 -1
deepeval/dataset/api.py +23 -1
deepeval/dataset/golden.py +139 -2
deepeval/evaluate/evaluate.py +16 -11
deepeval/evaluate/execute.py +13 -181
deepeval/evaluate/utils.py +6 -26
deepeval/integrations/pydantic_ai/agent.py +19 -2
deepeval/integrations/pydantic_ai/instrumentator.py +62 -23
deepeval/key_handler.py +3 -0
deepeval/metrics/__init__.py +14 -16
deepeval/metrics/answer_relevancy/answer_relevancy.py +118 -116
deepeval/metrics/answer_relevancy/template.py +22 -3
deepeval/metrics/arena_g_eval/arena_g_eval.py +98 -96
deepeval/metrics/arena_g_eval/template.py +17 -1
deepeval/metrics/argument_correctness/argument_correctness.py +81 -87
deepeval/metrics/argument_correctness/template.py +19 -2
deepeval/metrics/base_metric.py +13 -44
deepeval/metrics/bias/bias.py +102 -108
deepeval/metrics/bias/template.py +14 -2
deepeval/metrics/contextual_precision/contextual_precision.py +96 -94
deepeval/metrics/contextual_precision/template.py +115 -66
deepeval/metrics/contextual_recall/contextual_recall.py +94 -84
deepeval/metrics/contextual_recall/template.py +106 -55
deepeval/metrics/contextual_relevancy/contextual_relevancy.py +86 -84
deepeval/metrics/contextual_relevancy/template.py +87 -58
deepeval/metrics/conversation_completeness/conversation_completeness.py +101 -119
deepeval/metrics/conversation_completeness/template.py +23 -3
deepeval/metrics/conversational_dag/conversational_dag.py +12 -8
deepeval/metrics/conversational_dag/nodes.py +66 -123
deepeval/metrics/conversational_dag/templates.py +16 -0
deepeval/metrics/conversational_g_eval/conversational_g_eval.py +47 -66
deepeval/metrics/dag/dag.py +10 -0
deepeval/metrics/dag/nodes.py +63 -126
deepeval/metrics/dag/templates.py +16 -2
deepeval/metrics/exact_match/exact_match.py +9 -1
deepeval/metrics/faithfulness/faithfulness.py +138 -149
deepeval/metrics/faithfulness/schema.py +1 -1
deepeval/metrics/faithfulness/template.py +200 -115
deepeval/metrics/g_eval/g_eval.py +87 -78
deepeval/metrics/g_eval/template.py +18 -1
deepeval/metrics/g_eval/utils.py +7 -6
deepeval/metrics/goal_accuracy/goal_accuracy.py +91 -76
deepeval/metrics/goal_accuracy/template.py +21 -3
deepeval/metrics/hallucination/hallucination.py +60 -75
deepeval/metrics/hallucination/template.py +13 -0
deepeval/metrics/indicator.py +7 -10
deepeval/metrics/json_correctness/json_correctness.py +40 -38
deepeval/metrics/json_correctness/template.py +10 -0
deepeval/metrics/knowledge_retention/knowledge_retention.py +60 -97
deepeval/metrics/knowledge_retention/schema.py +9 -3
deepeval/metrics/knowledge_retention/template.py +12 -0
deepeval/metrics/mcp/mcp_task_completion.py +68 -38
deepeval/metrics/mcp/multi_turn_mcp_use_metric.py +92 -74
deepeval/metrics/mcp/template.py +52 -0
deepeval/metrics/mcp_use_metric/mcp_use_metric.py +58 -64
deepeval/metrics/mcp_use_metric/template.py +12 -0
deepeval/metrics/misuse/misuse.py +77 -97
deepeval/metrics/misuse/template.py +15 -0
deepeval/metrics/multimodal_metrics/__init__.py +0 -19
deepeval/metrics/multimodal_metrics/image_coherence/image_coherence.py +59 -53
deepeval/metrics/multimodal_metrics/image_editing/image_editing.py +79 -95
deepeval/metrics/multimodal_metrics/image_helpfulness/image_helpfulness.py +59 -53
deepeval/metrics/multimodal_metrics/image_reference/image_reference.py +59 -53
deepeval/metrics/multimodal_metrics/text_to_image/text_to_image.py +111 -109
deepeval/metrics/non_advice/non_advice.py +79 -105
deepeval/metrics/non_advice/template.py +12 -0
deepeval/metrics/pattern_match/pattern_match.py +12 -4
deepeval/metrics/pii_leakage/pii_leakage.py +75 -106
deepeval/metrics/pii_leakage/template.py +14 -0
deepeval/metrics/plan_adherence/plan_adherence.py +63 -89
deepeval/metrics/plan_adherence/template.py +11 -0
deepeval/metrics/plan_quality/plan_quality.py +63 -87
deepeval/metrics/plan_quality/template.py +9 -0
deepeval/metrics/prompt_alignment/prompt_alignment.py +72 -83
deepeval/metrics/prompt_alignment/template.py +12 -0
deepeval/metrics/ragas.py +3 -3
deepeval/metrics/role_adherence/role_adherence.py +48 -71
deepeval/metrics/role_adherence/template.py +14 -0
deepeval/metrics/role_violation/role_violation.py +75 -108
deepeval/metrics/role_violation/template.py +12 -0
deepeval/metrics/step_efficiency/step_efficiency.py +55 -65
deepeval/metrics/step_efficiency/template.py +11 -0
deepeval/metrics/summarization/summarization.py +115 -183
deepeval/metrics/summarization/template.py +19 -0
deepeval/metrics/task_completion/task_completion.py +67 -73
deepeval/metrics/tool_correctness/tool_correctness.py +45 -44
deepeval/metrics/tool_use/tool_use.py +42 -66
deepeval/metrics/topic_adherence/template.py +13 -0
deepeval/metrics/topic_adherence/topic_adherence.py +53 -67
deepeval/metrics/toxicity/template.py +13 -0
deepeval/metrics/toxicity/toxicity.py +80 -99
deepeval/metrics/turn_contextual_precision/schema.py +21 -0
deepeval/metrics/turn_contextual_precision/template.py +187 -0
deepeval/metrics/turn_contextual_precision/turn_contextual_precision.py +592 -0
deepeval/metrics/turn_contextual_recall/schema.py +21 -0
deepeval/metrics/turn_contextual_recall/template.py +178 -0
deepeval/metrics/turn_contextual_recall/turn_contextual_recall.py +563 -0
deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_contextual_relevancy}/schema.py +7 -1
deepeval/metrics/turn_contextual_relevancy/template.py +161 -0
deepeval/metrics/turn_contextual_relevancy/turn_contextual_relevancy.py +576 -0
deepeval/metrics/{multimodal_metrics/multimodal_faithfulness → turn_faithfulness}/schema.py +11 -3
deepeval/metrics/turn_faithfulness/template.py +218 -0
deepeval/metrics/turn_faithfulness/turn_faithfulness.py +627 -0
deepeval/metrics/turn_relevancy/template.py +14 -0
deepeval/metrics/turn_relevancy/turn_relevancy.py +56 -69
deepeval/metrics/utils.py +158 -122
deepeval/models/__init__.py +0 -12
deepeval/models/base_model.py +49 -33
deepeval/models/embedding_models/__init__.py +7 -0
deepeval/models/embedding_models/azure_embedding_model.py +79 -33
deepeval/models/embedding_models/local_embedding_model.py +39 -20
deepeval/models/embedding_models/ollama_embedding_model.py +52 -19
deepeval/models/embedding_models/openai_embedding_model.py +42 -22
deepeval/models/llms/amazon_bedrock_model.py +226 -72
deepeval/models/llms/anthropic_model.py +178 -63
deepeval/models/llms/azure_model.py +218 -60
deepeval/models/llms/constants.py +2032 -0
deepeval/models/llms/deepseek_model.py +95 -40
deepeval/models/llms/gemini_model.py +209 -64
deepeval/models/llms/grok_model.py +139 -68
deepeval/models/llms/kimi_model.py +140 -90
deepeval/models/llms/litellm_model.py +131 -37
deepeval/models/llms/local_model.py +125 -21
deepeval/models/llms/ollama_model.py +147 -24
deepeval/models/llms/openai_model.py +222 -269
deepeval/models/llms/portkey_model.py +81 -22
deepeval/models/llms/utils.py +8 -3
deepeval/models/retry_policy.py +17 -14
deepeval/models/utils.py +106 -5
deepeval/optimizer/__init__.py +5 -0
deepeval/optimizer/algorithms/__init__.py +6 -0
deepeval/optimizer/algorithms/base.py +29 -0
deepeval/optimizer/algorithms/configs.py +18 -0
deepeval/optimizer/algorithms/copro/__init__.py +5 -0
deepeval/{optimization/copro/loop.py → optimizer/algorithms/copro/copro.py} +112 -113
deepeval/optimizer/algorithms/gepa/__init__.py +5 -0
deepeval/{optimization/gepa/loop.py → optimizer/algorithms/gepa/gepa.py} +175 -115
deepeval/optimizer/algorithms/miprov2/__init__.py +17 -0
deepeval/optimizer/algorithms/miprov2/bootstrapper.py +435 -0
deepeval/optimizer/algorithms/miprov2/miprov2.py +752 -0
deepeval/optimizer/algorithms/miprov2/proposer.py +301 -0
deepeval/optimizer/algorithms/simba/__init__.py +5 -0
deepeval/{optimization/simba/loop.py → optimizer/algorithms/simba/simba.py} +128 -112
deepeval/{optimization → optimizer}/configs.py +5 -8
deepeval/{optimization/policies/selection.py → optimizer/policies.py} +63 -2
deepeval/optimizer/prompt_optimizer.py +263 -0
deepeval/optimizer/rewriter/__init__.py +5 -0
deepeval/optimizer/rewriter/rewriter.py +124 -0
deepeval/optimizer/rewriter/utils.py +214 -0
deepeval/optimizer/scorer/__init__.py +5 -0
deepeval/optimizer/scorer/base.py +86 -0
deepeval/optimizer/scorer/scorer.py +316 -0
deepeval/optimizer/scorer/utils.py +30 -0
deepeval/optimizer/types.py +148 -0
deepeval/{optimization → optimizer}/utils.py +47 -165
deepeval/prompt/prompt.py +5 -9
deepeval/simulator/conversation_simulator.py +43 -0
deepeval/simulator/template.py +13 -0
deepeval/test_case/__init__.py +1 -3
deepeval/test_case/api.py +26 -45
deepeval/test_case/arena_test_case.py +7 -2
deepeval/test_case/conversational_test_case.py +68 -1
deepeval/test_case/llm_test_case.py +206 -1
deepeval/test_case/utils.py +4 -8
deepeval/test_run/api.py +18 -14
deepeval/test_run/test_run.py +3 -3
deepeval/tracing/patchers.py +9 -4
deepeval/tracing/tracing.py +2 -2
deepeval/utils.py +65 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/METADATA +1 -4
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/RECORD +180 -193
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/multimodal_answer_relevancy.py +0 -343
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/schema.py +0 -19
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/template.py +0 -122
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/multimodal_contextual_precision.py +0 -301
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/template.py +0 -132
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/multimodal_contextual_recall.py +0 -285
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/template.py +0 -112
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/multimodal_contextual_relevancy.py +0 -282
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/template.py +0 -102
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/multimodal_faithfulness.py +0 -356
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/template.py +0 -175
deepeval/metrics/multimodal_metrics/multimodal_g_eval/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_g_eval/multimodal_g_eval.py +0 -386
deepeval/metrics/multimodal_metrics/multimodal_g_eval/schema.py +0 -11
deepeval/metrics/multimodal_metrics/multimodal_g_eval/template.py +0 -148
deepeval/metrics/multimodal_metrics/multimodal_g_eval/utils.py +0 -68
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/multimodal_tool_correctness.py +0 -290
deepeval/models/mlllms/__init__.py +0 -4
deepeval/models/mlllms/azure_model.py +0 -343
deepeval/models/mlllms/gemini_model.py +0 -313
deepeval/models/mlllms/ollama_model.py +0 -175
deepeval/models/mlllms/openai_model.py +0 -309
deepeval/optimization/__init__.py +0 -13
deepeval/optimization/adapters/__init__.py +0 -2
deepeval/optimization/adapters/deepeval_scoring_adapter.py +0 -588
deepeval/optimization/aggregates.py +0 -14
deepeval/optimization/copro/configs.py +0 -31
deepeval/optimization/gepa/__init__.py +0 -7
deepeval/optimization/gepa/configs.py +0 -115
deepeval/optimization/miprov2/configs.py +0 -134
deepeval/optimization/miprov2/loop.py +0 -785
deepeval/optimization/mutations/__init__.py +0 -0
deepeval/optimization/mutations/prompt_rewriter.py +0 -458
deepeval/optimization/policies/__init__.py +0 -16
deepeval/optimization/policies/tie_breaker.py +0 -67
deepeval/optimization/prompt_optimizer.py +0 -462
deepeval/optimization/simba/__init__.py +0 -0
deepeval/optimization/simba/configs.py +0 -33
deepeval/optimization/types.py +0 -361
deepeval/test_case/mllm_test_case.py +0 -170
/deepeval/metrics/{multimodal_metrics/multimodal_answer_relevancy → turn_contextual_precision}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_precision → turn_contextual_recall}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_recall → turn_contextual_relevancy}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_faithfulness}/__init__.py +0 -0
/deepeval/{optimization → optimizer/algorithms}/simba/types.py +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/LICENSE.md +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/WHEEL +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/entry_points.txt +0 -0

deepeval/{optimization/copro/loop.py → optimizer/algorithms/copro/copro.py} RENAMED Viewed

@@ -30,92 +30,119 @@ from typing import (
     Union,
 )
+from deepeval.models.base_model import DeepEvalBaseLLM
 from deepeval.errors import DeepEvalError
-from deepeval.optimization.aggregates import Aggregator, mean_of_all
-from deepeval.optimization.types import (
+from deepeval.optimizer.utils import Aggregator, mean_of_all
+from deepeval.optimizer.types import (
     AcceptedIterationDict,
     ModuleId,
-    OptimizationResult,
+    OptimizationReport,
     PromptConfiguration,
     PromptConfigurationId,
-    RunnerStatusCallbackProtocol,
+    RunnerStatusCallback,
     RunnerStatusType,
     ScoreTable,
-    ScoringAdapter,
 )
-from deepeval.optimization.utils import (
+from deepeval.optimizer.scorer.base import BaseScorer
+from deepeval.optimizer.utils import (
     build_prompt_config_snapshots,
 )
 from deepeval.prompt.api import PromptType
 from deepeval.prompt.prompt import Prompt
-from deepeval.optimization.mutations.prompt_rewriter import PromptRewriter
-from .configs import COPROConfig
+from deepeval.optimizer.rewriter import Rewriter
+from deepeval.optimizer.algorithms.configs import MIPROV2_MIN_DELTA
+from deepeval.optimizer.algorithms.base import BaseAlgorithm
 if TYPE_CHECKING:  # pragma: no cover - type-checking only
     from deepeval.dataset.golden import ConversationalGolden, Golden
-class COPRORunner:
+class COPRO(BaseAlgorithm):
     """
     COPRO style cooperative prompt optimization loop with sync/async execution.
     This runner is intentionally low level and does not know about metrics,
-    models, or async configs. It relies on a preconfigured ScoringAdapter and
-    PromptRewriter, which are typically constructed by PromptOptimizer.
-    - Optimizes a single Prompt (instruction) against a list of Goldens.
-    - Uses mini-batches of goldens for trial scoring and epsilon-greedy
-      selection over prompt candidates based on mean minibatch scores,
-      extended with cooperative proposals:
-        - At each iteration, a parent candidate is selected.
-        - A shared feedback string is computed on a minibatch.
-        - Multiple child prompts are proposed from that parent using the
-          same feedback but different LLM samples.
-        - Any child whose minibatch score improves over the parent by at
-          least ``min_delta`` is added to the candidate pool.
+    models, or async configs. It relies on a preconfigured Scorer and
+    Rewriter, which are typically constructed by PromptOptimizer.
+    Parameters
+    ----------
+    iterations : int
+        Total number of optimization trials. Default is 5.
+    minibatch_size : int
+        Number of examples drawn per iteration. Default is 8.
+    random_seed : int, optional
+        RNG seed for reproducibility. If None, derived from time.time_ns().
+    exploration_probability : float
+        Epsilon greedy exploration rate. Default is 0.2.
+    full_eval_every : int, optional
+        Fully evaluate best candidate every N trials. Default is 5.
+    population_size : int
+        Maximum number of candidates in the pool. Default is 4.
+    proposals_per_step : int
+        Number of child prompts proposed per iteration. Default is 4.
     """
+    name = "COPRO"
     SINGLE_MODULE_ID: ModuleId = "__module__"
     def __init__(
         self,
-        *,
-        config: COPROConfig,
+        iterations: int = 5,
+        minibatch_size: int = 8,
+        random_seed: Optional[int] = None,
+        exploration_probability: float = 0.2,
+        full_eval_every: Optional[int] = 5,
+        population_size: int = 4,
+        proposals_per_step: int = 4,
         aggregate_instances: Aggregator = mean_of_all,
-        scoring_adapter: Optional[ScoringAdapter] = None,
+        scorer: Optional[BaseScorer] = None,
     ) -> None:
-        self.config = config
+        # Validate parameters
+        if iterations < 1:
+            raise ValueError("iterations must be >= 1")
+        if minibatch_size < 1:
+            raise ValueError("minibatch_size must be >= 1")
+        if exploration_probability < 0.0 or exploration_probability > 1.0:
+            raise ValueError(
+                "exploration_probability must be >= 0.0 and <= 1.0"
+            )
+        if full_eval_every is not None and full_eval_every < 1:
+            raise ValueError("full_eval_every must be >= 1")
+        if population_size < 1:
+            raise ValueError("population_size must be >= 1")
+        if proposals_per_step < 1:
+            raise ValueError("proposals_per_step must be >= 1")
+        self.iterations = iterations
+        self.minibatch_size = minibatch_size
+        self.exploration_probability = exploration_probability
+        self.full_eval_every = full_eval_every
+        self.population_size = population_size
+        self.proposals_per_step = proposals_per_step
         self.aggregate_instances = aggregate_instances
-        self.scoring_adapter = scoring_adapter
-        # Random seeded from config is used for minibatch sampling and
-        # epsilon-greedy candidate selection.
-        self.random_state = random.Random(config.random_seed)
+        self.scorer = scorer
-        self.random_state = random.Random(config.random_seed)
+        # If no seed provided, use time-based seed
+        if random_seed is None:
+            random_seed = time.time_ns()
+        self.random_seed = random_seed
+        self.random_state = random.Random(random_seed)
         # Runtime state to be reset between runs
         self.reset_state()
         # Status callback set by PromptOptimizer:
         #   (kind, step_index, total_steps, detail) -> None
-        self.status_callback: Optional[RunnerStatusCallbackProtocol] = None
-        # Model callback used by the rewriter set by PromptOptimizer.
-        self.model_callback: Optional[
-            Callable[
-                ...,
-                Union[
-                    str,
-                    Dict,
-                    Tuple[Union[str, Dict], float],
-                ],
-            ]
-        ] = None
-        # Lazy-loaded PromptRewriter set by PromptOptimizer
-        self._rewriter: Optional[PromptRewriter] = None
+        self.status_callback: Optional[RunnerStatusCallback] = None
+        # Optimizer model used by the rewriter for prompt mutation.
+        # Set by PromptOptimizer.
+        self.optimizer_model: Optional["DeepEvalBaseLLM"] = None
+        # Lazy-loaded Rewriter set by PromptOptimizer
+        self._rewriter: Optional[Rewriter] = None
     ##############
     # Public API #
@@ -123,10 +150,9 @@ class COPRORunner:
     def execute(
         self,
-        *,
         prompt: Prompt,
         goldens: Union[List["Golden"], List["ConversationalGolden"]],
-    ) -> Tuple[Prompt, Dict]:
+    ) -> Tuple[Prompt, OptimizationReport]:
         """
         Synchronous COPRO run from a full list of goldens.
@@ -141,8 +167,7 @@ class COPRORunner:
                 "the optimizer."
             )
-        self._ensure_scoring_adapter()
-        self._ensure_rewriter()
+        self._ensure_scorer()
         self.reset_state()
         # Seed candidate pool with the root prompt configuration.
@@ -168,7 +193,7 @@ class COPRORunner:
             # candidate on the first iteration.
             if not self._minibatch_score_counts:
                 seed_minibatch = self._draw_minibatch(goldens)
-                root_score = self.scoring_adapter.minibatch_score(
+                root_score = self.scorer.score_minibatch(
                     root_prompt_configuration, seed_minibatch
                 )
                 self._record_minibatch_score(
@@ -183,7 +208,7 @@ class COPRORunner:
             # Compute shared feedback for this parent/minibatch that will be
             # used by all cooperative child proposals.
-            feedback_text = self.scoring_adapter.minibatch_feedback(
+            feedback_text = self.scorer.get_minibatch_feedback(
                 parent_prompt_configuration, selected_module_id, minibatch
             )
@@ -191,10 +216,10 @@ class COPRORunner:
                 parent_prompt_configuration.id
             )
             jitter = 1e-6
-            min_delta = max(self.config.min_delta, jitter)
+            min_delta = max(MIPROV2_MIN_DELTA, jitter)
             # 2. Generate multiple cooperative child prompts and evaluate them.
-            num_proposals = int(self.config.proposals_per_step)
+            num_proposals = int(self.proposals_per_step)
             for _ in range(num_proposals):
                 child_prompt = self._generate_child_prompt(
                     selected_module_id,
@@ -211,7 +236,7 @@ class COPRORunner:
                     child_prompt,
                 )
-                child_score = self.scoring_adapter.minibatch_score(
+                child_score = self.scorer.score_minibatch(
                     child_prompt_configuration, minibatch
                 )
@@ -236,8 +261,8 @@ class COPRORunner:
             self.trial_index += 1
             if (
-                self.config.full_eval_every is not None
-                and self.trial_index % self.config.full_eval_every == 0
+                self.full_eval_every is not None
+                and self.trial_index % self.full_eval_every == 0
             ):
                 self._full_evaluate_best(goldens)
@@ -253,7 +278,7 @@ class COPRORunner:
         prompt_config_snapshots = build_prompt_config_snapshots(
             self.prompt_configurations_by_id
         )
-        report = OptimizationResult(
+        report = OptimizationReport(
             optimization_id=self.optimization_id,
             best_id=best.id,
             accepted_iterations=accepted_iterations,
@@ -261,14 +286,13 @@ class COPRORunner:
             parents=self.parents_by_id,
             prompt_configurations=prompt_config_snapshots,
         )
-        return best.prompts[self.SINGLE_MODULE_ID], report.as_dict()
+        return best.prompts[self.SINGLE_MODULE_ID], report
     async def a_execute(
         self,
-        *,
         prompt: Prompt,
         goldens: Union[List["Golden"], List["ConversationalGolden"]],
-    ) -> Tuple[Prompt, Dict]:
+    ) -> Tuple[Prompt, OptimizationReport]:
         """
         Asynchronous twin of execute().
         """
@@ -280,8 +304,7 @@ class COPRORunner:
                 "the optimizer."
             )
-        self._ensure_scoring_adapter()
-        self._ensure_rewriter()
+        self._ensure_scorer()
         self.reset_state()
         seed_prompts_by_module = {self.SINGLE_MODULE_ID: prompt}
@@ -306,7 +329,7 @@ class COPRORunner:
             # candidate on the first iteration.
             if not self._minibatch_score_counts:
                 seed_minibatch = self._draw_minibatch(goldens)
-                root_score = await self.scoring_adapter.a_minibatch_score(
+                root_score = await self.scorer.a_score_minibatch(
                     root_prompt_configuration, seed_minibatch
                 )
                 self._record_minibatch_score(
@@ -318,7 +341,7 @@ class COPRORunner:
             minibatch = self._draw_minibatch(goldens)
-            feedback_text = await self.scoring_adapter.a_minibatch_feedback(
+            feedback_text = await self.scorer.a_get_minibatch_feedback(
                 parent_prompt_configuration, selected_module_id, minibatch
             )
@@ -326,9 +349,9 @@ class COPRORunner:
                 parent_prompt_configuration.id
             )
             jitter = 1e-6
-            min_delta = max(self.config.min_delta, jitter)
+            min_delta = max(MIPROV2_MIN_DELTA, jitter)
-            num_proposals = int(self.config.proposals_per_step)
+            num_proposals = int(self.proposals_per_step)
             for _ in range(num_proposals):
                 child_prompt = await self._a_generate_child_prompt(
                     selected_module_id,
@@ -344,7 +367,7 @@ class COPRORunner:
                     child_prompt,
                 )
-                child_score = await self.scoring_adapter.a_minibatch_score(
+                child_score = await self.scorer.a_score_minibatch(
                     child_prompt_configuration, minibatch
                 )
@@ -366,8 +389,8 @@ class COPRORunner:
             self.trial_index += 1
             if (
-                self.config.full_eval_every is not None
-                and self.trial_index % self.config.full_eval_every == 0
+                self.full_eval_every is not None
+                and self.trial_index % self.full_eval_every == 0
             ):
                 await self._a_full_evaluate_best(goldens)
@@ -382,7 +405,7 @@ class COPRORunner:
         prompt_config_snapshots = build_prompt_config_snapshots(
             self.prompt_configurations_by_id
         )
-        report = OptimizationResult(
+        report = OptimizationReport(
             optimization_id=self.optimization_id,
             best_id=best.id,
             accepted_iterations=accepted_iterations,
@@ -390,7 +413,7 @@ class COPRORunner:
             parents=self.parents_by_id,
             prompt_configurations=prompt_config_snapshots,
         )
-        return best.prompts[self.SINGLE_MODULE_ID], report.as_dict()
+        return best.prompts[self.SINGLE_MODULE_ID], report
     ###################
     # State & helpers #
@@ -414,25 +437,14 @@ class COPRORunner:
         # Trial counter (used for full_eval_every).
         self.trial_index: int = 0
-    def _ensure_scoring_adapter(self) -> None:
-        if self.scoring_adapter is None:
+    def _ensure_scorer(self) -> None:
+        if self.scorer is None:
             raise DeepEvalError(
-                "COPRORunner requires a `scoring_adapter`. "
-                "Construct one (for example, DeepEvalScoringAdapter) in "
-                "PromptOptimizer and assign it to `runner.scoring_adapter`."
+                "COPRORunner requires a `scorer`. "
+                "Construct one (for example, Scorer) in "
+                "PromptOptimizer and assign it to `runner.scorer`."
             )
-    def _ensure_rewriter(self) -> None:
-        if self._rewriter is not None:
-            return
-        # Default basic PromptRewriter; PromptOptimizer can override this and
-        # pass a configured instance (e.g. with list-mutation config).
-        self._rewriter = PromptRewriter(
-            max_chars=self.config.rewrite_instruction_max_chars,
-            random_state=self.random_state,
-        )
     def _prompts_equivalent(
         self,
         old_prompt: Prompt,
@@ -484,9 +496,7 @@ class COPRORunner:
         # If we exceed the population size, iteratively prune the worst
         # (by mean minibatch score), never removing the current best.
-        while (
-            len(self.prompt_configurations_by_id) > self.config.population_size
-        ):
+        while len(self.prompt_configurations_by_id) > self.population_size:
             best_id: Optional[PromptConfigurationId] = None
             best_score = float("-inf")
             for cand_id in self.prompt_configurations_by_id.keys():
@@ -611,7 +621,7 @@ class COPRORunner:
                 "COPRORunner has an empty candidate pool; this should not happen."
             )
-        eps = float(self.config.exploration_probability)
+        eps = float(self.exploration_probability)
         if eps > 0.0 and self.random_state.random() < eps:
             chosen_id = self.random_state.choice(candidate_ids)
         else:
@@ -624,23 +634,14 @@ class COPRORunner:
         goldens: Union[List["Golden"], List["ConversationalGolden"]],
     ) -> Union[List["Golden"], List["ConversationalGolden"]]:
         """
-        Determine effective minibatch size from COPROConfig, bounded by the
-        available goldens, and sample with replacement.
+        Determine effective minibatch size, bounded by the available goldens,
+        and sample with replacement.
         """
         n = len(goldens)
         if n <= 0:
             return []
-        if self.config.minibatch_size is not None:
-            size = self.config.minibatch_size
-        else:
-            dynamic = max(1, int(round(n * self.config.minibatch_ratio)))
-            size = max(
-                self.config.minibatch_min_size,
-                min(dynamic, self.config.minibatch_max_size),
-            )
-        size = max(1, min(size, n))
+        size = min(self.minibatch_size, n)
         return [goldens[self.random_state.randrange(0, n)] for _ in range(size)]
@@ -655,7 +656,7 @@ class COPRORunner:
         if best.id in self.pareto_score_table:
             return
-        scores = await self.scoring_adapter.a_score_on_pareto(best, goldens)
+        scores = await self.scorer.a_score_pareto(best, goldens)
         self.pareto_score_table[best.id] = scores
     def _full_evaluate_best(
@@ -669,7 +670,7 @@ class COPRORunner:
         if best.id in self.pareto_score_table:
             return
-        scores = self.scoring_adapter.score_on_pareto(best, goldens)
+        scores = self.scorer.score_pareto(best, goldens)
         self.pareto_score_table[best.id] = scores
     async def _a_generate_child_prompt(
@@ -688,7 +689,6 @@ class COPRORunner:
             ) from exc
         new_prompt = await self._rewriter.a_rewrite(
-            model_callback=self.model_callback,
             module_id=selected_module_id,
             old_prompt=old_prompt,
             feedback_text=feedback_text,
@@ -718,7 +718,6 @@ class COPRORunner:
             ) from exc
         new_prompt = self._rewriter.rewrite(
-            model_callback=self.model_callback,
             module_id=selected_module_id,
             old_prompt=old_prompt,
             feedback_text=feedback_text,
@@ -788,7 +787,7 @@ class COPRORunner:
         self,
         copro_iteration: Callable[[], bool],
     ) -> None:
-        total_iterations = self.config.iterations
+        total_iterations = self.iterations
         remaining_iterations = total_iterations
         iteration = 0
         self._update_progress(
@@ -814,7 +813,7 @@ class COPRORunner:
         self,
         a_copro_iteration: Callable[[], Awaitable[bool]],
     ) -> None:
-        total_iterations = self.config.iterations
+        total_iterations = self.iterations
         remaining_iterations = total_iterations
         iteration = 0
         self._update_progress(

deepeval/optimizer/algorithms/gepa/__init__.py ADDED Viewed

@@ -0,0 +1,5 @@
+from .gepa import GEPA
+__all__ = [
+    "GEPA",
+]

deepeval 3.7.4__py3-none-any.whl → 3.7.6__py3-none-any.whl

deepeval 3.7.4py3-none-any.whl → 3.7.6py3-none-any.whl