PyPI - deepeval - Versions diffs - 3.7.4__py3-none-any.whl → 3.7.6__py3-none-any.whl - Mend

deepeval 3.7.4py3-none-any.whl → 3.7.6py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (224) hide show

deepeval/_version.py +1 -1
deepeval/config/settings.py +35 -1
deepeval/dataset/api.py +23 -1
deepeval/dataset/golden.py +139 -2
deepeval/evaluate/evaluate.py +16 -11
deepeval/evaluate/execute.py +13 -181
deepeval/evaluate/utils.py +6 -26
deepeval/integrations/pydantic_ai/agent.py +19 -2
deepeval/integrations/pydantic_ai/instrumentator.py +62 -23
deepeval/key_handler.py +3 -0
deepeval/metrics/__init__.py +14 -16
deepeval/metrics/answer_relevancy/answer_relevancy.py +118 -116
deepeval/metrics/answer_relevancy/template.py +22 -3
deepeval/metrics/arena_g_eval/arena_g_eval.py +98 -96
deepeval/metrics/arena_g_eval/template.py +17 -1
deepeval/metrics/argument_correctness/argument_correctness.py +81 -87
deepeval/metrics/argument_correctness/template.py +19 -2
deepeval/metrics/base_metric.py +13 -44
deepeval/metrics/bias/bias.py +102 -108
deepeval/metrics/bias/template.py +14 -2
deepeval/metrics/contextual_precision/contextual_precision.py +96 -94
deepeval/metrics/contextual_precision/template.py +115 -66
deepeval/metrics/contextual_recall/contextual_recall.py +94 -84
deepeval/metrics/contextual_recall/template.py +106 -55
deepeval/metrics/contextual_relevancy/contextual_relevancy.py +86 -84
deepeval/metrics/contextual_relevancy/template.py +87 -58
deepeval/metrics/conversation_completeness/conversation_completeness.py +101 -119
deepeval/metrics/conversation_completeness/template.py +23 -3
deepeval/metrics/conversational_dag/conversational_dag.py +12 -8
deepeval/metrics/conversational_dag/nodes.py +66 -123
deepeval/metrics/conversational_dag/templates.py +16 -0
deepeval/metrics/conversational_g_eval/conversational_g_eval.py +47 -66
deepeval/metrics/dag/dag.py +10 -0
deepeval/metrics/dag/nodes.py +63 -126
deepeval/metrics/dag/templates.py +16 -2
deepeval/metrics/exact_match/exact_match.py +9 -1
deepeval/metrics/faithfulness/faithfulness.py +138 -149
deepeval/metrics/faithfulness/schema.py +1 -1
deepeval/metrics/faithfulness/template.py +200 -115
deepeval/metrics/g_eval/g_eval.py +87 -78
deepeval/metrics/g_eval/template.py +18 -1
deepeval/metrics/g_eval/utils.py +7 -6
deepeval/metrics/goal_accuracy/goal_accuracy.py +91 -76
deepeval/metrics/goal_accuracy/template.py +21 -3
deepeval/metrics/hallucination/hallucination.py +60 -75
deepeval/metrics/hallucination/template.py +13 -0
deepeval/metrics/indicator.py +7 -10
deepeval/metrics/json_correctness/json_correctness.py +40 -38
deepeval/metrics/json_correctness/template.py +10 -0
deepeval/metrics/knowledge_retention/knowledge_retention.py +60 -97
deepeval/metrics/knowledge_retention/schema.py +9 -3
deepeval/metrics/knowledge_retention/template.py +12 -0
deepeval/metrics/mcp/mcp_task_completion.py +68 -38
deepeval/metrics/mcp/multi_turn_mcp_use_metric.py +92 -74
deepeval/metrics/mcp/template.py +52 -0
deepeval/metrics/mcp_use_metric/mcp_use_metric.py +58 -64
deepeval/metrics/mcp_use_metric/template.py +12 -0
deepeval/metrics/misuse/misuse.py +77 -97
deepeval/metrics/misuse/template.py +15 -0
deepeval/metrics/multimodal_metrics/__init__.py +0 -19
deepeval/metrics/multimodal_metrics/image_coherence/image_coherence.py +59 -53
deepeval/metrics/multimodal_metrics/image_editing/image_editing.py +79 -95
deepeval/metrics/multimodal_metrics/image_helpfulness/image_helpfulness.py +59 -53
deepeval/metrics/multimodal_metrics/image_reference/image_reference.py +59 -53
deepeval/metrics/multimodal_metrics/text_to_image/text_to_image.py +111 -109
deepeval/metrics/non_advice/non_advice.py +79 -105
deepeval/metrics/non_advice/template.py +12 -0
deepeval/metrics/pattern_match/pattern_match.py +12 -4
deepeval/metrics/pii_leakage/pii_leakage.py +75 -106
deepeval/metrics/pii_leakage/template.py +14 -0
deepeval/metrics/plan_adherence/plan_adherence.py +63 -89
deepeval/metrics/plan_adherence/template.py +11 -0
deepeval/metrics/plan_quality/plan_quality.py +63 -87
deepeval/metrics/plan_quality/template.py +9 -0
deepeval/metrics/prompt_alignment/prompt_alignment.py +72 -83
deepeval/metrics/prompt_alignment/template.py +12 -0
deepeval/metrics/ragas.py +3 -3
deepeval/metrics/role_adherence/role_adherence.py +48 -71
deepeval/metrics/role_adherence/template.py +14 -0
deepeval/metrics/role_violation/role_violation.py +75 -108
deepeval/metrics/role_violation/template.py +12 -0
deepeval/metrics/step_efficiency/step_efficiency.py +55 -65
deepeval/metrics/step_efficiency/template.py +11 -0
deepeval/metrics/summarization/summarization.py +115 -183
deepeval/metrics/summarization/template.py +19 -0
deepeval/metrics/task_completion/task_completion.py +67 -73
deepeval/metrics/tool_correctness/tool_correctness.py +45 -44
deepeval/metrics/tool_use/tool_use.py +42 -66
deepeval/metrics/topic_adherence/template.py +13 -0
deepeval/metrics/topic_adherence/topic_adherence.py +53 -67
deepeval/metrics/toxicity/template.py +13 -0
deepeval/metrics/toxicity/toxicity.py +80 -99
deepeval/metrics/turn_contextual_precision/schema.py +21 -0
deepeval/metrics/turn_contextual_precision/template.py +187 -0
deepeval/metrics/turn_contextual_precision/turn_contextual_precision.py +592 -0
deepeval/metrics/turn_contextual_recall/schema.py +21 -0
deepeval/metrics/turn_contextual_recall/template.py +178 -0
deepeval/metrics/turn_contextual_recall/turn_contextual_recall.py +563 -0
deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_contextual_relevancy}/schema.py +7 -1
deepeval/metrics/turn_contextual_relevancy/template.py +161 -0
deepeval/metrics/turn_contextual_relevancy/turn_contextual_relevancy.py +576 -0
deepeval/metrics/{multimodal_metrics/multimodal_faithfulness → turn_faithfulness}/schema.py +11 -3
deepeval/metrics/turn_faithfulness/template.py +218 -0
deepeval/metrics/turn_faithfulness/turn_faithfulness.py +627 -0
deepeval/metrics/turn_relevancy/template.py +14 -0
deepeval/metrics/turn_relevancy/turn_relevancy.py +56 -69
deepeval/metrics/utils.py +158 -122
deepeval/models/__init__.py +0 -12
deepeval/models/base_model.py +49 -33
deepeval/models/embedding_models/__init__.py +7 -0
deepeval/models/embedding_models/azure_embedding_model.py +79 -33
deepeval/models/embedding_models/local_embedding_model.py +39 -20
deepeval/models/embedding_models/ollama_embedding_model.py +52 -19
deepeval/models/embedding_models/openai_embedding_model.py +42 -22
deepeval/models/llms/amazon_bedrock_model.py +226 -72
deepeval/models/llms/anthropic_model.py +178 -63
deepeval/models/llms/azure_model.py +218 -60
deepeval/models/llms/constants.py +2032 -0
deepeval/models/llms/deepseek_model.py +95 -40
deepeval/models/llms/gemini_model.py +209 -64
deepeval/models/llms/grok_model.py +139 -68
deepeval/models/llms/kimi_model.py +140 -90
deepeval/models/llms/litellm_model.py +131 -37
deepeval/models/llms/local_model.py +125 -21
deepeval/models/llms/ollama_model.py +147 -24
deepeval/models/llms/openai_model.py +222 -269
deepeval/models/llms/portkey_model.py +81 -22
deepeval/models/llms/utils.py +8 -3
deepeval/models/retry_policy.py +17 -14
deepeval/models/utils.py +106 -5
deepeval/optimizer/__init__.py +5 -0
deepeval/optimizer/algorithms/__init__.py +6 -0
deepeval/optimizer/algorithms/base.py +29 -0
deepeval/optimizer/algorithms/configs.py +18 -0
deepeval/optimizer/algorithms/copro/__init__.py +5 -0
deepeval/{optimization/copro/loop.py → optimizer/algorithms/copro/copro.py} +112 -113
deepeval/optimizer/algorithms/gepa/__init__.py +5 -0
deepeval/{optimization/gepa/loop.py → optimizer/algorithms/gepa/gepa.py} +175 -115
deepeval/optimizer/algorithms/miprov2/__init__.py +17 -0
deepeval/optimizer/algorithms/miprov2/bootstrapper.py +435 -0
deepeval/optimizer/algorithms/miprov2/miprov2.py +752 -0
deepeval/optimizer/algorithms/miprov2/proposer.py +301 -0
deepeval/optimizer/algorithms/simba/__init__.py +5 -0
deepeval/{optimization/simba/loop.py → optimizer/algorithms/simba/simba.py} +128 -112
deepeval/{optimization → optimizer}/configs.py +5 -8
deepeval/{optimization/policies/selection.py → optimizer/policies.py} +63 -2
deepeval/optimizer/prompt_optimizer.py +263 -0
deepeval/optimizer/rewriter/__init__.py +5 -0
deepeval/optimizer/rewriter/rewriter.py +124 -0
deepeval/optimizer/rewriter/utils.py +214 -0
deepeval/optimizer/scorer/__init__.py +5 -0
deepeval/optimizer/scorer/base.py +86 -0
deepeval/optimizer/scorer/scorer.py +316 -0
deepeval/optimizer/scorer/utils.py +30 -0
deepeval/optimizer/types.py +148 -0
deepeval/{optimization → optimizer}/utils.py +47 -165
deepeval/prompt/prompt.py +5 -9
deepeval/simulator/conversation_simulator.py +43 -0
deepeval/simulator/template.py +13 -0
deepeval/test_case/__init__.py +1 -3
deepeval/test_case/api.py +26 -45
deepeval/test_case/arena_test_case.py +7 -2
deepeval/test_case/conversational_test_case.py +68 -1
deepeval/test_case/llm_test_case.py +206 -1
deepeval/test_case/utils.py +4 -8
deepeval/test_run/api.py +18 -14
deepeval/test_run/test_run.py +3 -3
deepeval/tracing/patchers.py +9 -4
deepeval/tracing/tracing.py +2 -2
deepeval/utils.py +65 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/METADATA +1 -4
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/RECORD +180 -193
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/multimodal_answer_relevancy.py +0 -343
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/schema.py +0 -19
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/template.py +0 -122
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/multimodal_contextual_precision.py +0 -301
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/template.py +0 -132
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/multimodal_contextual_recall.py +0 -285
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/template.py +0 -112
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/multimodal_contextual_relevancy.py +0 -282
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/template.py +0 -102
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/multimodal_faithfulness.py +0 -356
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/template.py +0 -175
deepeval/metrics/multimodal_metrics/multimodal_g_eval/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_g_eval/multimodal_g_eval.py +0 -386
deepeval/metrics/multimodal_metrics/multimodal_g_eval/schema.py +0 -11
deepeval/metrics/multimodal_metrics/multimodal_g_eval/template.py +0 -148
deepeval/metrics/multimodal_metrics/multimodal_g_eval/utils.py +0 -68
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/multimodal_tool_correctness.py +0 -290
deepeval/models/mlllms/__init__.py +0 -4
deepeval/models/mlllms/azure_model.py +0 -343
deepeval/models/mlllms/gemini_model.py +0 -313
deepeval/models/mlllms/ollama_model.py +0 -175
deepeval/models/mlllms/openai_model.py +0 -309
deepeval/optimization/__init__.py +0 -13
deepeval/optimization/adapters/__init__.py +0 -2
deepeval/optimization/adapters/deepeval_scoring_adapter.py +0 -588
deepeval/optimization/aggregates.py +0 -14
deepeval/optimization/copro/configs.py +0 -31
deepeval/optimization/gepa/__init__.py +0 -7
deepeval/optimization/gepa/configs.py +0 -115
deepeval/optimization/miprov2/configs.py +0 -134
deepeval/optimization/miprov2/loop.py +0 -785
deepeval/optimization/mutations/__init__.py +0 -0
deepeval/optimization/mutations/prompt_rewriter.py +0 -458
deepeval/optimization/policies/__init__.py +0 -16
deepeval/optimization/policies/tie_breaker.py +0 -67
deepeval/optimization/prompt_optimizer.py +0 -462
deepeval/optimization/simba/__init__.py +0 -0
deepeval/optimization/simba/configs.py +0 -33
deepeval/optimization/types.py +0 -361
deepeval/test_case/mllm_test_case.py +0 -170
/deepeval/metrics/{multimodal_metrics/multimodal_answer_relevancy → turn_contextual_precision}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_precision → turn_contextual_recall}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_recall → turn_contextual_relevancy}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_faithfulness}/__init__.py +0 -0
/deepeval/{optimization → optimizer/algorithms}/simba/types.py +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/LICENSE.md +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/WHEEL +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.6.dist-info}/entry_points.txt +0 -0

deepeval/{optimization/gepa/loop.py → optimizer/algorithms/gepa/gepa.py} RENAMED Viewed

@@ -14,86 +14,118 @@ from typing import (
     Optional,
 )
+from deepeval.models.base_model import DeepEvalBaseLLM
 from deepeval.errors import DeepEvalError
-from deepeval.optimization.aggregates import Aggregator, mean_of_all
-from deepeval.optimization.types import (
+from deepeval.optimizer.utils import Aggregator, mean_of_all
+from deepeval.optimizer.types import (
     AcceptedIterationDict,
     PromptConfiguration,
     PromptConfigurationId,
     ModuleId,
     ScoreTable,
-    ScoringAdapter,
-    OptimizationResult,
+    OptimizationReport,
     RunnerStatusType,
-    RunnerStatusCallbackProtocol,
+    RunnerStatusCallback,
 )
-from deepeval.optimization.utils import (
+from deepeval.optimizer.scorer.base import BaseScorer
+from deepeval.optimizer.algorithms.base import BaseAlgorithm
+from deepeval.optimizer.utils import (
     split_goldens,
     build_prompt_config_snapshots,
 )
-from deepeval.optimization.policies import (
+from deepeval.optimizer.policies import (
     pick_best_with_ties,
     select_prompt_configuration_pareto,
+    frequency_weights,
+    pareto_frontier,
 )
 from deepeval.prompt.api import PromptType
 from deepeval.prompt.prompt import Prompt
-from deepeval.optimization.mutations.prompt_rewriter import (
-    PromptRewriter,
+from deepeval.optimizer.rewriter import Rewriter
+from deepeval.optimizer.policies import TieBreaker
+from deepeval.optimizer.algorithms.configs import (
+    GEPA_MIN_DELTA,
+    GEPA_TIE_TOLERANCE,
+    GEPA_REWRITE_INSTRUCTION_MAX_CHARS,
 )
-from .configs import GEPAConfig
 if TYPE_CHECKING:
     from deepeval.dataset.golden import Golden, ConversationalGolden
-class GEPARunner:
+class GEPA(BaseAlgorithm):
     """
     GEPA loop with sync/async execution.
     This runner is intentionally low level and does not know about metrics,
     models, or async configs. It relies on a preconfigured
-    ScoringAdapter and PromptRewriter, which are typically constructed by
+    Scorer and Rewriter, which are typically constructed by
     the higher-level PromptOptimizer.
+    Parameters
+    ----------
+    iterations : int
+        Total number of GEPA loop iterations (mutation attempts). Default is 5.
+    minibatch_size : int
+        Number of examples drawn from D_feedback per iteration. Default is 8.
+    pareto_size : int
+        Size of the Pareto validation subset D_pareto. Default is 3.
+    random_seed : int, optional
+        RNG seed for reproducibility. If None, derived from time.time_ns().
+    tie_breaker : TieBreaker
+        Policy for breaking ties. Default is TieBreaker.PREFER_CHILD.
     """
+    name = "GEPA"
     SINGLE_MODULE_ID: ModuleId = "__module__"
+    TieBreaker = TieBreaker
     def __init__(
         self,
-        *,
-        config: GEPAConfig,
+        iterations: int = 5,
+        minibatch_size: int = 8,
+        pareto_size: int = 3,
+        random_seed: Optional[int] = None,
+        tie_breaker: TieBreaker = TieBreaker.PREFER_CHILD,
         aggregate_instances: Aggregator = mean_of_all,
-        scoring_adapter: Optional[ScoringAdapter] = None,
+        scorer: Optional[BaseScorer] = None,
     ) -> None:
-        self.config = config
+        # Validate parameters
+        if iterations < 1:
+            raise ValueError("iterations must be >= 1")
+        if minibatch_size < 1:
+            raise ValueError("minibatch_size must be >= 1")
+        if pareto_size < 1:
+            raise ValueError("pareto_size must be >= 1")
+        self.iterations = iterations
+        self.minibatch_size = minibatch_size
+        self.pareto_size = pareto_size
+        self.tie_breaker = tie_breaker
         self.aggregate_instances = aggregate_instances
-        self.scoring_adapter = scoring_adapter
+        self.scorer = scorer
-        # random seeded from config is used for splits, sampling, and tie-breaking.
-        self.random_state = random.Random(config.random_seed)
+        # If no seed provided, use time-based seed
+        if random_seed is None:
+            random_seed = time.time_ns()
+        self.random_seed = random_seed
+        self.random_state = random.Random(random_seed)
         # runtime state to be reset between runs
         self.reset_state()
         # Status callback set by PromptOptimizer:
         #   (kind, step_index, total_steps, detail) -> None
-        self.status_callback: Optional[RunnerStatusCallbackProtocol] = None
-        # Model callback used by the rewriter set by PromptOptimizer.
-        self.model_callback: Optional[
-            Callable[
-                ...,
-                Union[
-                    str,
-                    Dict,
-                    Tuple[Union[str, Dict], float],
-                ],
-            ]
-        ] = None
+        self.status_callback: Optional[RunnerStatusCallback] = None
+        # Optimizer model used by the rewriter for prompt mutation.
+        # Set by PromptOptimizer.
+        self.optimizer_model: Optional["DeepEvalBaseLLM"] = None
         # lazy loaded
-        self._rewriter: Optional[PromptRewriter] = None
+        self._rewriter: Optional[Rewriter] = None
     ##############
     # Public API #
@@ -101,10 +133,9 @@ class GEPARunner:
     def execute(
         self,
-        *,
         prompt: Prompt,
         goldens: Union[List["Golden"], List["ConversationalGolden"]],
-    ) -> Tuple[Prompt, Dict]:
+    ) -> Tuple[Prompt, OptimizationReport]:
         """Synchronous GEPA run from a full list of goldens (splits internally)."""
         total_goldens = len(goldens)
         if total_goldens < 2:
@@ -114,12 +145,11 @@ class GEPARunner:
                 "run the optimizer."
             )
-        self._ensure_scoring_adapter()
-        self._ensure_rewriter()
+        self._ensure_scorer()
         self.reset_state()
         d_feedback, d_pareto = split_goldens(
-            goldens, self.config.pareto_size, random_state=self.random_state
+            goldens, self.pareto_size, random_state=self.random_state
         )
         seed_prompts_by_module = {self.SINGLE_MODULE_ID: prompt}
@@ -139,7 +169,7 @@ class GEPARunner:
             # Seed Pareto scores lazily on first iteration
             if not self.pareto_score_table:
                 self.pareto_score_table[root_prompt_configuration.id] = (
-                    self.scoring_adapter.score_on_pareto(
+                    self.scorer.score_pareto(
                         root_prompt_configuration, d_pareto
                     )
                 )
@@ -154,7 +184,7 @@ class GEPARunner:
             minibatch = self._draw_minibatch(d_feedback)
             # 4. Feedback
-            feedback_text = self.scoring_adapter.minibatch_feedback(
+            feedback_text = self.scorer.get_minibatch_feedback(
                 parent_prompt_configuration, selected_module_id, minibatch
             )
@@ -172,15 +202,16 @@ class GEPARunner:
             )
             # 7. Evaluate parent/child on minibatch
-            parent_score = self.scoring_adapter.minibatch_score(
+            parent_score = self.scorer.score_minibatch(
                 parent_prompt_configuration, minibatch
             )
-            child_score = self.scoring_adapter.minibatch_score(
+            child_score = self.scorer.score_minibatch(
                 child_prompt_configuration, minibatch
             )
             # 8. Acceptance test
-            if self._should_accept_child(parent_score, child_score):
+            accepted = self._should_accept_child(parent_score, child_score)
+            if accepted:
                 accepted_iterations.append(
                     self._accept_child(
                         selected_module_id,
@@ -199,7 +230,7 @@ class GEPARunner:
         prompt_config_snapshots = build_prompt_config_snapshots(
             self.prompt_configurations_by_id
         )
-        report = OptimizationResult(
+        report = OptimizationReport(
             optimization_id=self.optimization_id,
             best_id=best.id,
             accepted_iterations=accepted_iterations,
@@ -207,14 +238,13 @@ class GEPARunner:
             parents=self.parents_by_id,
             prompt_configurations=prompt_config_snapshots,
         )
-        return best.prompts[self.SINGLE_MODULE_ID], report.as_dict()
+        return best.prompts[self.SINGLE_MODULE_ID], report
     async def a_execute(
         self,
-        *,
         prompt: Prompt,
         goldens: Union[List["Golden"], List["ConversationalGolden"]],
-    ) -> Tuple[Prompt, Dict]:
+    ) -> Tuple[Prompt, OptimizationReport]:
         """Asynchronous twin of execute_gepa()."""
         total_goldens = len(goldens)
         if total_goldens < 2:
@@ -224,12 +254,11 @@ class GEPARunner:
                 "run the optimizer."
             )
-        self._ensure_scoring_adapter()
-        self._ensure_rewriter()
+        self._ensure_scorer()
         self.reset_state()
         d_feedback, d_pareto = split_goldens(
-            goldens, self.config.pareto_size, random_state=self.random_state
+            goldens, self.pareto_size, random_state=self.random_state
         )
         seed_prompts_by_module = {self.SINGLE_MODULE_ID: prompt}
@@ -246,13 +275,19 @@ class GEPARunner:
             if not d_feedback:
                 return False
+            iter_start = time.perf_counter()
             # Seed Pareto scores lazily on first iteration
             if not self.pareto_score_table:
+                t0 = time.perf_counter()
                 self.pareto_score_table[root_prompt_configuration.id] = (
-                    await self.scoring_adapter.a_score_on_pareto(
+                    await self.scorer.a_score_pareto(
                         root_prompt_configuration, d_pareto
                     )
                 )
+                print(
+                    f"[DEBUG] Initial pareto scoring ({len(d_pareto)} goldens): {time.perf_counter() - t0:.2f}s"
+                )
             # 1. Pick prompt_configuration via Pareto
             parent_prompt_configuration = self._pick_prompt_configuration()
@@ -262,18 +297,23 @@ class GEPARunner:
             # 3. Draw minibatch
             minibatch = self._draw_minibatch(d_feedback)
+            print(f"[DEBUG] Minibatch size: {len(minibatch)}")
             # 4. Feedback
-            feedback_text = await self.scoring_adapter.a_minibatch_feedback(
+            t0 = time.perf_counter()
+            feedback_text = await self.scorer.a_get_minibatch_feedback(
                 parent_prompt_configuration, selected_module_id, minibatch
             )
+            print(f"[DEBUG] Get feedback: {time.perf_counter() - t0:.2f}s")
             # 5. Rewrite
+            t0 = time.perf_counter()
             child_prompt = await self._a_generate_child_prompt(
                 selected_module_id, parent_prompt_configuration, feedback_text
             )
+            print(f"[DEBUG] Rewrite prompt: {time.perf_counter() - t0:.2f}s")
             if child_prompt is None:
-                # Child prompt matched parent; skip this iteration.
+                print(f"[DEBUG] Child prompt same as parent, skipping")
                 return True
             # 6. Child prompt_configuration
@@ -282,15 +322,29 @@ class GEPARunner:
             )
             # 7. Evaluate parent/child on minibatch
-            parent_score = await self.scoring_adapter.a_minibatch_score(
+            t0 = time.perf_counter()
+            parent_score = await self.scorer.a_score_minibatch(
                 parent_prompt_configuration, minibatch
             )
-            child_score = await self.scoring_adapter.a_minibatch_score(
+            print(
+                f"[DEBUG] Score parent on minibatch: {time.perf_counter() - t0:.2f}s (score={parent_score:.4f})"
+            )
+            t0 = time.perf_counter()
+            child_score = await self.scorer.a_score_minibatch(
                 child_prompt_configuration, minibatch
             )
+            print(
+                f"[DEBUG] Score child on minibatch: {time.perf_counter() - t0:.2f}s (score={child_score:.4f})"
+            )
             # 8. Acceptance test
-            if self._should_accept_child(parent_score, child_score):
+            accepted = self._should_accept_child(parent_score, child_score)
+            print(
+                f"[DEBUG] Acceptance: {'ACCEPTED' if accepted else 'REJECTED'}"
+            )
+            if accepted:
+                t0 = time.perf_counter()
                 accepted_iterations.append(
                     await self._a_accept_child(
                         selected_module_id,
@@ -301,6 +355,13 @@ class GEPARunner:
                         child_score,
                     )
                 )
+                print(
+                    f"[DEBUG] Accept child (pareto scoring): {time.perf_counter() - t0:.2f}s"
+                )
+            print(
+                f"[DEBUG] Total iteration time: {time.perf_counter() - iter_start:.2f}s\n"
+            )
             return True
         await self._a_run_loop_iteration(_one_iteration)
@@ -308,7 +369,7 @@ class GEPARunner:
         prompt_config_snapshots = build_prompt_config_snapshots(
             self.prompt_configurations_by_id
         )
-        report = OptimizationResult(
+        report = OptimizationReport(
             optimization_id=self.optimization_id,
             best_id=best.id,
             accepted_iterations=accepted_iterations,
@@ -316,7 +377,7 @@ class GEPARunner:
             parents=self.parents_by_id,
             prompt_configurations=prompt_config_snapshots,
         )
-        return best.prompts[self.SINGLE_MODULE_ID], report.as_dict()
+        return best.prompts[self.SINGLE_MODULE_ID], report
     ###################
     # State & helpers #
@@ -332,23 +393,14 @@ class GEPARunner:
         ] = {}
         self.pareto_score_table: ScoreTable = {}
-    def _ensure_scoring_adapter(self) -> None:
-        if self.scoring_adapter is None:
+    def _ensure_scorer(self) -> None:
+        if self.scorer is None:
             raise DeepEvalError(
-                "GEPARunner requires a `scoring_adapter`. "
-                "Construct one (for example, DeepEvalScoringAdapter) in "
-                "PromptOptimizer and assign it to `runner.scoring_adapter`."
+                "GEPARunner requires a `scorer`. "
+                "Construct one (for example, Scorer) in "
+                "PromptOptimizer and assign it to `runner.scorer`."
             )
-    def _ensure_rewriter(self) -> None:
-        if self._rewriter is not None:
-            return
-        # For now, always use the basic PromptRewriter. Additional
-        # variants (e.g. for GEPA Alg. 4 crossover) can be introduced
-        # later
-        self._rewriter = PromptRewriter()
     def _prompts_equivalent(
         self, old_prompt: Prompt, new_prompt: Prompt
     ) -> bool:
@@ -413,17 +465,16 @@ class GEPARunner:
             totals,
             self.parents_by_id,
             random_state=self.random_state,
-            tie_tolerance=float(self.config.tie_tolerance),
-            policy=self.config.tie_breaker,
+            tie_tolerance=GEPA_TIE_TOLERANCE,
+            policy=self.tie_breaker,
         )
         if self.status_callback is not None and len(tied) > 1:
             msg = (
                 f"tie on aggregate={max_val:.4f} among {len(tied)} "
                 f"prompt_configurations; using tie_breaker="
-                f"{self.config.tie_breaker.value!r} selected {chosen}. "
-                f"To change, set GEPAConfig.tie_breaker to one of: "
-                f"{[t.value for t in self.config.TieBreaker]} "
-                f"(tie_tolerance={float(self.config.tie_tolerance):g})."
+                f"{self.tie_breaker.value!r} selected {chosen}. "
+                f"To change, set GEPA tie_breaker to one of: "
+                f"{[t.value for t in self.TieBreaker]}."
             )
             self.status_callback(
                 RunnerStatusType.TIE,
@@ -433,9 +484,43 @@ class GEPARunner:
         return self.prompt_configurations_by_id[chosen]
     def _pick_prompt_configuration(self) -> PromptConfiguration:
+        # Log Pareto selection details
+        all_candidates = list(self.pareto_score_table.keys())
+        print(f"[DEBUG] Pareto Selection:")
+        print(f"  - Total candidates in pool: {len(all_candidates)}")
+        # Show score table
+        print(f"  - Score table (per-instance scores):")
+        for cid, scores in self.pareto_score_table.items():
+            is_root = self.parents_by_id.get(cid) is None
+            label = (
+                "(root)"
+                if is_root
+                else f"(child of {self.parents_by_id.get(cid)[:8]}...)"
+            )
+            mean_score = sum(scores) / len(scores) if scores else 0
+            print(
+                f"      {cid[:8]}... {label}: {[round(s, 3) for s in scores]} (mean={mean_score:.3f})"
+            )
+        # Show Pareto frontier
+        frontier = pareto_frontier(all_candidates, self.pareto_score_table)
+        print(f"  - Pareto frontier ({len(frontier)} non-dominated):")
+        for cid in frontier:
+            print(f"      {cid[:8]}...")
+        # Show frequency weights
+        freq = frequency_weights(self.pareto_score_table)
+        print(f"  - Frequency weights (how often each wins an instance):")
+        for cid, weight in freq.items():
+            print(f"      {cid[:8]}...: {weight}")
+        # Do the selection
         selected_prompt_configuration_id = select_prompt_configuration_pareto(
             self.pareto_score_table, random_state=self.random_state
         )
+        print(f"  - Selected: {selected_prompt_configuration_id[:8]}...\n")
         return self.prompt_configurations_by_id[
             selected_prompt_configuration_id
         ]
@@ -443,25 +528,13 @@ class GEPARunner:
     def _draw_minibatch(
         self, d_feedback: Union[List["Golden"], List["ConversationalGolden"]]
     ) -> Union[List["Golden"], List["ConversationalGolden"]]:
-        # Determine effective minibatch size from GEPAConfig, bounded by the
+        # Determine effective minibatch size, bounded by the
         # available feedback set.
         n_feedback = len(d_feedback)
         if n_feedback <= 0:
             return []
-        if self.config.minibatch_size is not None:
-            size = self.config.minibatch_size
-        else:
-            # Dynamic sizing from ratio, bounded between min and max.
-            dynamic = max(
-                1, int(round(n_feedback * self.config.minibatch_ratio))
-            )
-            size = max(
-                self.config.minibatch_min_size,
-                min(dynamic, self.config.minibatch_max_size),
-            )
-        size = max(1, min(size, n_feedback))
+        size = min(self.minibatch_size, n_feedback)
         return [
             d_feedback[self.random_state.randrange(0, n_feedback)]
@@ -479,7 +552,6 @@ class GEPARunner:
         )
         new_prompt = await self._rewriter.a_rewrite(
-            model_callback=self.model_callback,
             module_id=selected_module_id,
             old_prompt=old_prompt,
             feedback_text=feedback_text,
@@ -504,7 +576,6 @@ class GEPARunner:
         )
         new_prompt = self._rewriter.rewrite(
-            model_callback=self.model_callback,
             module_id=selected_module_id,
             old_prompt=old_prompt,
             feedback_text=feedback_text,
@@ -535,7 +606,7 @@ class GEPARunner:
         self, parent_score: float, child_score: float
     ) -> bool:
         jitter = 1e-6
-        return child_score >= parent_score + max(self.config.min_delta, jitter)
+        return child_score >= parent_score + max(GEPA_MIN_DELTA, jitter)
     def _accept_child(
         self,
@@ -548,9 +619,7 @@ class GEPARunner:
     ) -> AcceptedIterationDict:
         self._add_prompt_configuration(child_prompt_configuration)
         self.pareto_score_table[child_prompt_configuration.id] = (
-            self.scoring_adapter.score_on_pareto(
-                child_prompt_configuration, d_pareto
-            )
+            self.scorer.score_pareto(child_prompt_configuration, d_pareto)
         )
         return AcceptedIterationDict(
@@ -572,7 +641,7 @@ class GEPARunner:
     ) -> AcceptedIterationDict:
         self._add_prompt_configuration(child_prompt_configuration)
         self.pareto_score_table[child_prompt_configuration.id] = (
-            await self.scoring_adapter.a_score_on_pareto(
+            await self.scorer.a_score_pareto(
                 child_prompt_configuration, d_pareto
             )
         )
@@ -590,13 +659,12 @@ class GEPARunner:
         total_iterations: int,
         iteration: int,
         remaining_iterations: int,
-        elapsed: float,
     ):
         if self.status_callback is not None:
             detail = (
                 f"(iterations={total_iterations}) "
                 f"• iteration {iteration}/{total_iterations} "
-                f"• {elapsed:.2f}s • remaining={remaining_iterations}"
+                f"• remaining={remaining_iterations}"
             )
             self.status_callback(
                 RunnerStatusType.PROGRESS,
@@ -626,52 +694,44 @@ class GEPARunner:
         self,
         gepa_iteration: Callable[[], bool],
     ) -> None:
-        total_iterations = self.config.iterations
+        total_iterations = self.iterations
         remaining_iterations = total_iterations
         iteration = 0
-        self._update_progress(
-            total_iterations, iteration, remaining_iterations, 0
-        )
+        self._update_progress(total_iterations, iteration, remaining_iterations)
         while remaining_iterations > 0:
             iteration += 1
-            start_time = time.perf_counter()
             try:
                 ok = gepa_iteration()
             except Exception as exc:
                 # Report a user facing error event and halt optimization.
                 self._update_error(total_iterations, iteration, exc)
                 break
-            elapsed = time.perf_counter() - start_time
             if not ok:
                 break
             remaining_iterations -= 1
             self._update_progress(
-                total_iterations, iteration, remaining_iterations, elapsed
+                total_iterations, iteration, remaining_iterations
             )
     async def _a_run_loop_iteration(
         self,
         a_gepa_iteration: Callable[[], Awaitable[bool]],
     ) -> None:
-        total_iterations = self.config.iterations
+        total_iterations = self.iterations
         remaining_iterations = total_iterations
         iteration = 0
-        self._update_progress(
-            total_iterations, iteration, remaining_iterations, 0
-        )
+        self._update_progress(total_iterations, iteration, remaining_iterations)
         while remaining_iterations > 0:
             iteration += 1
-            start_time = time.perf_counter()
             try:
                 ok = await a_gepa_iteration()
             except Exception as exc:
                 # Report a user facing error event and halt optimization.
                 self._update_error(total_iterations, iteration, exc)
                 break
-            elapsed = time.perf_counter() - start_time
             if not ok:
                 break
             remaining_iterations -= 1
             self._update_progress(
-                total_iterations, iteration, remaining_iterations, elapsed
+                total_iterations, iteration, remaining_iterations
             )

deepeval/optimizer/algorithms/miprov2/__init__.py ADDED Viewed

@@ -0,0 +1,17 @@
+from .miprov2 import MIPROV2
+from .proposer import InstructionProposer
+from .bootstrapper import (
+    Demo,
+    DemoSet,
+    DemoBootstrapper,
+    render_prompt_with_demos,
+)
+__all__ = [
+    "MIPROV2",
+    "InstructionProposer",
+    "Demo",
+    "DemoSet",
+    "DemoBootstrapper",
+    "render_prompt_with_demos",
+]

deepeval 3.7.4__py3-none-any.whl → 3.7.6__py3-none-any.whl

deepeval 3.7.4py3-none-any.whl → 3.7.6py3-none-any.whl