PyPI - deepeval - Versions diffs - 3.7.4__py3-none-any.whl → 3.7.5__py3-none-any.whl - Mend

deepeval 3.7.4py3-none-any.whl → 3.7.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (155) hide show

deepeval/_version.py +1 -1
deepeval/dataset/golden.py +54 -2
deepeval/evaluate/evaluate.py +16 -8
deepeval/evaluate/execute.py +70 -26
deepeval/evaluate/utils.py +26 -22
deepeval/integrations/pydantic_ai/agent.py +19 -2
deepeval/integrations/pydantic_ai/instrumentator.py +62 -23
deepeval/metrics/__init__.py +14 -12
deepeval/metrics/answer_relevancy/answer_relevancy.py +74 -29
deepeval/metrics/answer_relevancy/template.py +188 -92
deepeval/metrics/base_metric.py +2 -5
deepeval/metrics/contextual_precision/contextual_precision.py +53 -15
deepeval/metrics/contextual_precision/template.py +115 -66
deepeval/metrics/contextual_recall/contextual_recall.py +50 -13
deepeval/metrics/contextual_recall/template.py +106 -55
deepeval/metrics/contextual_relevancy/contextual_relevancy.py +47 -15
deepeval/metrics/contextual_relevancy/template.py +87 -58
deepeval/metrics/dag/templates.py +2 -2
deepeval/metrics/faithfulness/faithfulness.py +70 -27
deepeval/metrics/faithfulness/schema.py +1 -1
deepeval/metrics/faithfulness/template.py +200 -115
deepeval/metrics/g_eval/utils.py +2 -2
deepeval/metrics/indicator.py +4 -4
deepeval/metrics/multimodal_metrics/__init__.py +0 -18
deepeval/metrics/multimodal_metrics/image_coherence/image_coherence.py +24 -17
deepeval/metrics/multimodal_metrics/image_editing/image_editing.py +26 -21
deepeval/metrics/multimodal_metrics/image_helpfulness/image_helpfulness.py +24 -17
deepeval/metrics/multimodal_metrics/image_reference/image_reference.py +24 -17
deepeval/metrics/multimodal_metrics/multimodal_g_eval/multimodal_g_eval.py +19 -19
deepeval/metrics/multimodal_metrics/multimodal_g_eval/template.py +63 -78
deepeval/metrics/multimodal_metrics/multimodal_g_eval/utils.py +20 -20
deepeval/metrics/multimodal_metrics/text_to_image/text_to_image.py +71 -50
deepeval/metrics/ragas.py +3 -3
deepeval/metrics/tool_correctness/tool_correctness.py +2 -2
deepeval/metrics/turn_contextual_precision/schema.py +21 -0
deepeval/metrics/turn_contextual_precision/template.py +187 -0
deepeval/metrics/turn_contextual_precision/turn_contextual_precision.py +550 -0
deepeval/metrics/turn_contextual_recall/schema.py +21 -0
deepeval/metrics/turn_contextual_recall/template.py +178 -0
deepeval/metrics/turn_contextual_recall/turn_contextual_recall.py +520 -0
deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_contextual_relevancy}/schema.py +7 -1
deepeval/metrics/turn_contextual_relevancy/template.py +161 -0
deepeval/metrics/turn_contextual_relevancy/turn_contextual_relevancy.py +535 -0
deepeval/metrics/{multimodal_metrics/multimodal_faithfulness → turn_faithfulness}/schema.py +11 -3
deepeval/metrics/turn_faithfulness/template.py +218 -0
deepeval/metrics/turn_faithfulness/turn_faithfulness.py +596 -0
deepeval/metrics/utils.py +39 -58
deepeval/models/__init__.py +0 -12
deepeval/models/base_model.py +16 -38
deepeval/models/embedding_models/__init__.py +7 -0
deepeval/models/embedding_models/azure_embedding_model.py +52 -28
deepeval/models/embedding_models/local_embedding_model.py +18 -14
deepeval/models/embedding_models/ollama_embedding_model.py +38 -16
deepeval/models/embedding_models/openai_embedding_model.py +40 -21
deepeval/models/llms/amazon_bedrock_model.py +1 -2
deepeval/models/llms/anthropic_model.py +44 -23
deepeval/models/llms/azure_model.py +121 -36
deepeval/models/llms/deepseek_model.py +18 -13
deepeval/models/llms/gemini_model.py +129 -43
deepeval/models/llms/grok_model.py +18 -13
deepeval/models/llms/kimi_model.py +18 -13
deepeval/models/llms/litellm_model.py +42 -22
deepeval/models/llms/local_model.py +12 -7
deepeval/models/llms/ollama_model.py +114 -12
deepeval/models/llms/openai_model.py +137 -41
deepeval/models/llms/portkey_model.py +24 -7
deepeval/models/llms/utils.py +5 -3
deepeval/models/retry_policy.py +17 -14
deepeval/models/utils.py +46 -1
deepeval/optimizer/__init__.py +5 -0
deepeval/optimizer/algorithms/__init__.py +6 -0
deepeval/optimizer/algorithms/base.py +29 -0
deepeval/optimizer/algorithms/configs.py +18 -0
deepeval/optimizer/algorithms/copro/__init__.py +5 -0
deepeval/{optimization/copro/loop.py → optimizer/algorithms/copro/copro.py} +112 -113
deepeval/optimizer/algorithms/gepa/__init__.py +5 -0
deepeval/{optimization/gepa/loop.py → optimizer/algorithms/gepa/gepa.py} +175 -115
deepeval/optimizer/algorithms/miprov2/__init__.py +17 -0
deepeval/optimizer/algorithms/miprov2/bootstrapper.py +435 -0
deepeval/optimizer/algorithms/miprov2/miprov2.py +752 -0
deepeval/optimizer/algorithms/miprov2/proposer.py +301 -0
deepeval/optimizer/algorithms/simba/__init__.py +5 -0
deepeval/{optimization/simba/loop.py → optimizer/algorithms/simba/simba.py} +128 -112
deepeval/{optimization → optimizer}/configs.py +5 -8
deepeval/{optimization/policies/selection.py → optimizer/policies.py} +63 -2
deepeval/optimizer/prompt_optimizer.py +263 -0
deepeval/optimizer/rewriter/__init__.py +5 -0
deepeval/optimizer/rewriter/rewriter.py +124 -0
deepeval/optimizer/rewriter/utils.py +214 -0
deepeval/optimizer/scorer/__init__.py +5 -0
deepeval/optimizer/scorer/base.py +86 -0
deepeval/optimizer/scorer/scorer.py +316 -0
deepeval/optimizer/scorer/utils.py +30 -0
deepeval/optimizer/types.py +148 -0
deepeval/{optimization → optimizer}/utils.py +47 -165
deepeval/prompt/prompt.py +5 -9
deepeval/test_case/__init__.py +1 -3
deepeval/test_case/api.py +12 -10
deepeval/test_case/conversational_test_case.py +19 -1
deepeval/test_case/llm_test_case.py +152 -1
deepeval/test_case/utils.py +4 -8
deepeval/test_run/api.py +15 -14
deepeval/test_run/test_run.py +3 -3
deepeval/tracing/patchers.py +9 -4
deepeval/tracing/tracing.py +2 -2
deepeval/utils.py +65 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/METADATA +1 -4
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/RECORD +116 -125
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/multimodal_answer_relevancy.py +0 -343
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/schema.py +0 -19
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/template.py +0 -122
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/multimodal_contextual_precision.py +0 -301
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/template.py +0 -132
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/multimodal_contextual_recall.py +0 -285
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/template.py +0 -112
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/multimodal_contextual_relevancy.py +0 -282
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/template.py +0 -102
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/multimodal_faithfulness.py +0 -356
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/template.py +0 -175
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/multimodal_tool_correctness.py +0 -290
deepeval/models/mlllms/__init__.py +0 -4
deepeval/models/mlllms/azure_model.py +0 -343
deepeval/models/mlllms/gemini_model.py +0 -313
deepeval/models/mlllms/ollama_model.py +0 -175
deepeval/models/mlllms/openai_model.py +0 -309
deepeval/optimization/__init__.py +0 -13
deepeval/optimization/adapters/__init__.py +0 -2
deepeval/optimization/adapters/deepeval_scoring_adapter.py +0 -588
deepeval/optimization/aggregates.py +0 -14
deepeval/optimization/copro/configs.py +0 -31
deepeval/optimization/gepa/__init__.py +0 -7
deepeval/optimization/gepa/configs.py +0 -115
deepeval/optimization/miprov2/configs.py +0 -134
deepeval/optimization/miprov2/loop.py +0 -785
deepeval/optimization/mutations/__init__.py +0 -0
deepeval/optimization/mutations/prompt_rewriter.py +0 -458
deepeval/optimization/policies/__init__.py +0 -16
deepeval/optimization/policies/tie_breaker.py +0 -67
deepeval/optimization/prompt_optimizer.py +0 -462
deepeval/optimization/simba/__init__.py +0 -0
deepeval/optimization/simba/configs.py +0 -33
deepeval/optimization/types.py +0 -361
deepeval/test_case/mllm_test_case.py +0 -170
/deepeval/metrics/{multimodal_metrics/multimodal_answer_relevancy → turn_contextual_precision}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_precision → turn_contextual_recall}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_recall → turn_contextual_relevancy}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_faithfulness}/__init__.py +0 -0
/deepeval/{optimization → optimizer/algorithms}/simba/types.py +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/LICENSE.md +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/WHEEL +0 -0
{deepeval-3.7.4.dist-info → deepeval-3.7.5.dist-info}/entry_points.txt +0 -0

deepeval/{optimization/simba/loop.py → optimizer/algorithms/simba/simba.py} RENAMED Viewed

@@ -30,59 +30,109 @@ from typing import (
     Union,
 )
+from deepeval.models.base_model import DeepEvalBaseLLM
 from deepeval.errors import DeepEvalError
 from deepeval.dataset.golden import ConversationalGolden, Golden
-from deepeval.optimization.aggregates import Aggregator, mean_of_all
-from deepeval.optimization.types import (
+from deepeval.optimizer.utils import Aggregator, mean_of_all
+from deepeval.optimizer.types import (
     AcceptedIterationDict,
     ModuleId,
-    OptimizationResult,
+    OptimizationReport,
     PromptConfiguration,
     PromptConfigurationId,
-    RunnerStatusCallbackProtocol,
+    RunnerStatusCallback,
     RunnerStatusType,
     ScoreTable,
-    ScoringAdapter,
 )
-from deepeval.optimization.utils import build_prompt_config_snapshots
+from deepeval.optimizer.scorer.base import BaseScorer
+from deepeval.optimizer.algorithms.base import BaseAlgorithm
+from deepeval.optimizer.utils import build_prompt_config_snapshots
 from deepeval.prompt.api import PromptType
 from deepeval.prompt.prompt import Prompt
-from deepeval.optimization.mutations.prompt_rewriter import PromptRewriter
+from deepeval.optimizer.rewriter import Rewriter
-from .configs import SIMBAConfig
-from .types import SIMBAStrategy
+from deepeval.optimizer.algorithms.configs import (
+    MIPROV2_MIN_DELTA,
+    MIPROV2_REWRITE_INSTRUCTION_MAX_CHARS,
+    SIMBA_DEMO_INPUT_MAX_CHARS,
+)
+from deepeval.optimizer.algorithms.simba.types import SIMBAStrategy
-class SIMBARunner:
+class SIMBA(BaseAlgorithm):
     """
     SIMBA-style cooperative prompt optimization loop with sync/async execution.
     This runner is intentionally low level and does not know about metrics,
-    models, or async configs. It relies on a preconfigured ScoringAdapter and
-    PromptRewriter, which are typically constructed by PromptOptimizer.
-    - Optimizes a single Prompt (instruction) against a list of Goldens.
-    - Uses mini-batches of goldens for trial scoring and epsilon-greedy
-      selection over prompt candidates based on mean minibatch scores.
-    - At each iteration, proposes multiple child prompts using SIMBA-style
-      edit strategies (APPEND_DEMO and APPEND_RULE) by passing different
-      instructions into the PromptRewriter.
+    models, or async configs. It relies on a preconfigured Scorer and
+    Rewriter, which are typically constructed by PromptOptimizer.
+    Parameters
+    ----------
+    iterations : int
+        Total number of optimization trials. Default is 5.
+    minibatch_size : int
+        Number of examples drawn per iteration. Default is 8.
+    random_seed : int, optional
+        RNG seed for reproducibility. If None, derived from time.time_ns().
+    exploration_probability : float
+        Epsilon greedy exploration rate. Default is 0.2.
+    full_eval_every : int, optional
+        Fully evaluate best candidate every N trials. Default is 5.
+    population_size : int
+        Maximum number of candidates in the pool. Default is 4.
+    proposals_per_step : int
+        Number of child prompts proposed per iteration. Default is 4.
+    max_demos_per_proposal : int
+        Maximum demos from minibatch for APPEND_DEMO strategy. Default is 3.
     """
+    name = "SIMBA"
     SINGLE_MODULE_ID: ModuleId = "__module__"
     def __init__(
         self,
-        *,
-        config: SIMBAConfig,
+        iterations: int = 5,
+        minibatch_size: int = 8,
+        random_seed: Optional[int] = None,
+        exploration_probability: float = 0.2,
+        full_eval_every: Optional[int] = 5,
+        population_size: int = 4,
+        proposals_per_step: int = 4,
+        max_demos_per_proposal: int = 3,
         aggregate_instances: Aggregator = mean_of_all,
-        scoring_adapter: Optional[ScoringAdapter] = None,
+        scorer: Optional[BaseScorer] = None,
     ) -> None:
-        self.config = config
+        # Validate parameters
+        if iterations < 1:
+            raise ValueError("iterations must be >= 1")
+        if minibatch_size < 1:
+            raise ValueError("minibatch_size must be >= 1")
+        if exploration_probability < 0.0 or exploration_probability > 1.0:
+            raise ValueError(
+                "exploration_probability must be >= 0.0 and <= 1.0"
+            )
+        if full_eval_every is not None and full_eval_every < 1:
+            raise ValueError("full_eval_every must be >= 1")
+        if population_size < 1:
+            raise ValueError("population_size must be >= 1")
+        if proposals_per_step < 1:
+            raise ValueError("proposals_per_step must be >= 1")
+        if max_demos_per_proposal < 0:
+            raise ValueError("max_demos_per_proposal must be >= 0")
+        self.iterations = iterations
+        self.minibatch_size = minibatch_size
+        self.exploration_probability = exploration_probability
+        self.full_eval_every = full_eval_every
+        self.population_size = population_size
+        self.proposals_per_step = proposals_per_step
+        self.max_demos_per_proposal = max_demos_per_proposal
         self.aggregate_instances = aggregate_instances
-        self.scoring_adapter = scoring_adapter
+        self.scorer = scorer
-        if config.max_demos_per_proposal > 0:
+        if max_demos_per_proposal > 0:
             self._strategies = [
                 SIMBAStrategy.APPEND_DEMO,
                 SIMBAStrategy.APPEND_RULE,
@@ -90,31 +140,25 @@ class SIMBARunner:
         else:
             self._strategies = [SIMBAStrategy.APPEND_RULE]
-        # Random seeded from config is used for minibatch sampling, strategy
-        # selection, and epsilon-greedy candidate selection.
-        self.random_state = random.Random(config.random_seed)
+        # If no seed provided, use time-based seed
+        if random_seed is None:
+            random_seed = time.time_ns()
+        self.random_seed = random_seed
+        self.random_state = random.Random(random_seed)
         # Runtime state to be reset between runs
         self.reset_state()
         # Status callback set by PromptOptimizer:
         #   (kind, step_index, total_steps, detail) -> None
-        self.status_callback: Optional[RunnerStatusCallbackProtocol] = None
-        # Model callback used by the rewriter set by PromptOptimizer.
-        self.model_callback: Optional[
-            Callable[
-                ...,
-                Union[
-                    str,
-                    Dict,
-                    Tuple[Union[str, Dict], float],
-                ],
-            ]
-        ] = None
+        self.status_callback: Optional[RunnerStatusCallback] = None
-        # Lazy-loaded PromptRewriter set by PromptOptimizer
-        self._rewriter: Optional[PromptRewriter] = None
+        # Optimizer model used by the rewriter for prompt mutation.
+        # Set by PromptOptimizer.
+        self.optimizer_model: Optional["DeepEvalBaseLLM"] = None
+        # Lazy-loaded Rewriter set by PromptOptimizer
+        self._rewriter: Optional[Rewriter] = None
     ##############
     # Public API #
@@ -122,10 +166,9 @@ class SIMBARunner:
     def execute(
         self,
-        *,
         prompt: Prompt,
         goldens: Union[List[Golden], List[ConversationalGolden]],
-    ) -> Tuple[Prompt, Dict]:
+    ) -> Tuple[Prompt, OptimizationReport]:
         """
         Synchronous SIMBA run from a full list of goldens.
@@ -140,8 +183,7 @@ class SIMBARunner:
                 "the optimizer."
             )
-        self._ensure_scoring_adapter()
-        self._ensure_rewriter()
+        self._ensure_scorer()
         self.reset_state()
         # Seed candidate pool with the root prompt configuration.
@@ -167,7 +209,7 @@ class SIMBARunner:
             # candidate on the first iteration.
             if not self._minibatch_score_counts:
                 seed_minibatch = self._draw_minibatch(goldens)
-                root_score = self.scoring_adapter.minibatch_score(
+                root_score = self.scorer.score_minibatch(
                     root_prompt_configuration, seed_minibatch
                 )
                 self._record_minibatch_score(
@@ -182,7 +224,7 @@ class SIMBARunner:
             # Compute shared feedback for this parent/minibatch that will be
             # used by all SIMBA proposals in this iteration.
-            feedback_text = self.scoring_adapter.minibatch_feedback(
+            feedback_text = self.scorer.get_minibatch_feedback(
                 parent_prompt_configuration, selected_module_id, minibatch
             )
@@ -190,10 +232,10 @@ class SIMBARunner:
                 parent_prompt_configuration.id
             )
             jitter = 1e-6
-            min_delta = max(self.config.min_delta, jitter)
+            min_delta = max(MIPROV2_MIN_DELTA, jitter)
             # 2. Generate multiple SIMBA child prompts and evaluate them.
-            num_proposals = int(self.config.proposals_per_step)
+            num_proposals = int(self.proposals_per_step)
             for _ in range(num_proposals):
                 strategy = self._sample_strategy()
                 child_prompt = self._generate_child_prompt(
@@ -213,7 +255,7 @@ class SIMBARunner:
                     child_prompt,
                 )
-                child_score = self.scoring_adapter.minibatch_score(
+                child_score = self.scorer.score_minibatch(
                     child_prompt_configuration, minibatch
                 )
@@ -238,8 +280,8 @@ class SIMBARunner:
             self.trial_index += 1
             if (
-                self.config.full_eval_every is not None
-                and self.trial_index % self.config.full_eval_every == 0
+                self.full_eval_every is not None
+                and self.trial_index % self.full_eval_every == 0
             ):
                 self._full_evaluate_best(goldens)
@@ -255,7 +297,7 @@ class SIMBARunner:
         prompt_config_snapshots = build_prompt_config_snapshots(
             self.prompt_configurations_by_id
         )
-        report = OptimizationResult(
+        report = OptimizationReport(
             optimization_id=self.optimization_id,
             best_id=best.id,
             accepted_iterations=accepted_iterations,
@@ -263,14 +305,13 @@ class SIMBARunner:
             parents=self.parents_by_id,
             prompt_configurations=prompt_config_snapshots,
         )
-        return best.prompts[self.SINGLE_MODULE_ID], report.as_dict()
+        return best.prompts[self.SINGLE_MODULE_ID], report
     async def a_execute(
         self,
-        *,
         prompt: Prompt,
         goldens: Union[List[Golden], List[ConversationalGolden]],
-    ) -> Tuple[Prompt, Dict]:
+    ) -> Tuple[Prompt, OptimizationReport]:
         """
         Asynchronous twin of execute().
         """
@@ -282,8 +323,7 @@ class SIMBARunner:
                 "the optimizer."
             )
-        self._ensure_scoring_adapter()
-        self._ensure_rewriter()
+        self._ensure_scorer()
         self.reset_state()
         seed_prompts_by_module = {self.SINGLE_MODULE_ID: prompt}
@@ -303,7 +343,7 @@ class SIMBARunner:
             if not self._minibatch_score_counts:
                 seed_minibatch = self._draw_minibatch(goldens)
-                root_score = await self.scoring_adapter.a_minibatch_score(
+                root_score = await self.scorer.a_score_minibatch(
                     root_prompt_configuration, seed_minibatch
                 )
                 self._record_minibatch_score(
@@ -315,7 +355,7 @@ class SIMBARunner:
             minibatch = self._draw_minibatch(goldens)
-            feedback_text = await self.scoring_adapter.a_minibatch_feedback(
+            feedback_text = await self.scorer.a_get_minibatch_feedback(
                 parent_prompt_configuration, selected_module_id, minibatch
             )
@@ -323,9 +363,9 @@ class SIMBARunner:
                 parent_prompt_configuration.id
             )
             jitter = 1e-6
-            min_delta = max(self.config.min_delta, jitter)
+            min_delta = max(MIPROV2_MIN_DELTA, jitter)
-            num_proposals = int(self.config.proposals_per_step)
+            num_proposals = int(self.proposals_per_step)
             for _ in range(num_proposals):
                 strategy = self._sample_strategy()
                 child_prompt = await self._a_generate_child_prompt(
@@ -344,7 +384,7 @@ class SIMBARunner:
                     child_prompt,
                 )
-                child_score = await self.scoring_adapter.a_minibatch_score(
+                child_score = await self.scorer.a_score_minibatch(
                     child_prompt_configuration, minibatch
                 )
@@ -366,8 +406,8 @@ class SIMBARunner:
             self.trial_index += 1
             if (
-                self.config.full_eval_every is not None
-                and self.trial_index % self.config.full_eval_every == 0
+                self.full_eval_every is not None
+                and self.trial_index % self.full_eval_every == 0
             ):
                 await self._a_full_evaluate_best(goldens)
@@ -382,7 +422,7 @@ class SIMBARunner:
         prompt_config_snapshots = build_prompt_config_snapshots(
             self.prompt_configurations_by_id
         )
-        report = OptimizationResult(
+        report = OptimizationReport(
             optimization_id=self.optimization_id,
             best_id=best.id,
             accepted_iterations=accepted_iterations,
@@ -390,7 +430,7 @@ class SIMBARunner:
             parents=self.parents_by_id,
             prompt_configurations=prompt_config_snapshots,
         )
-        return best.prompts[self.SINGLE_MODULE_ID], report.as_dict()
+        return best.prompts[self.SINGLE_MODULE_ID], report
     ###################
     # State & helpers #
@@ -414,25 +454,14 @@ class SIMBARunner:
         # Trial counter (used for full_eval_every).
         self.trial_index: int = 0
-    def _ensure_scoring_adapter(self) -> None:
-        if self.scoring_adapter is None:
+    def _ensure_scorer(self) -> None:
+        if self.scorer is None:
             raise DeepEvalError(
-                "SIMBARunner requires a `scoring_adapter`. "
-                "Construct one (for example, DeepEvalScoringAdapter) in "
-                "PromptOptimizer and assign it to `runner.scoring_adapter`."
+                "SIMBARunner requires a `scorer`. "
+                "Construct one (for example, Scorer) in "
+                "PromptOptimizer and assign it to `runner.scorer`."
             )
-    def _ensure_rewriter(self) -> None:
-        if self._rewriter is not None:
-            return
-        # Default basic PromptRewriter; PromptOptimizer can override this and
-        # pass a configured instance (e.g. with list-mutation config).
-        self._rewriter = PromptRewriter(
-            max_chars=self.config.rewrite_instruction_max_chars,
-            random_state=self.random_state,
-        )
     def _prompts_equivalent(
         self,
         old_prompt: Prompt,
@@ -484,9 +513,7 @@ class SIMBARunner:
         # If we exceed the population size, iteratively prune the worst
         # (by mean minibatch score), never removing the current best.
-        while (
-            len(self.prompt_configurations_by_id) > self.config.population_size
-        ):
+        while len(self.prompt_configurations_by_id) > self.population_size:
             best_id: Optional[PromptConfigurationId] = None
             best_score = float("-inf")
             for cand_id in self.prompt_configurations_by_id.keys():
@@ -611,7 +638,7 @@ class SIMBARunner:
                 "SIMBARunner has an empty candidate pool; this should not happen."
             )
-        eps = float(self.config.exploration_probability)
+        eps = float(self.exploration_probability)
         if eps > 0.0 and self.random_state.random() < eps:
             chosen_id = self.random_state.choice(candidate_ids)
         else:
@@ -624,23 +651,14 @@ class SIMBARunner:
         goldens: Union[List[Golden], List[ConversationalGolden]],
     ) -> Union[List[Golden], List[ConversationalGolden]]:
         """
-        Determine effective minibatch size from SIMBAConfig, bounded by the
-        available goldens, and sample with replacement.
+        Determine effective minibatch size, bounded by the available goldens,
+        and sample with replacement.
         """
         n = len(goldens)
         if n <= 0:
             return []
-        if self.config.minibatch_size is not None:
-            size = self.config.minibatch_size
-        else:
-            dynamic = max(1, int(round(n * self.config.minibatch_ratio)))
-            size = max(
-                self.config.minibatch_min_size,
-                min(dynamic, self.config.minibatch_max_size),
-            )
-        size = max(1, min(size, n))
+        size = min(self.minibatch_size, n)
         return [goldens[self.random_state.randrange(0, n)] for _ in range(size)]
@@ -655,7 +673,7 @@ class SIMBARunner:
         if best.id in self.pareto_score_table:
             return
-        scores = await self.scoring_adapter.a_score_on_pareto(best, goldens)
+        scores = await self.scorer.a_score_pareto(best, goldens)
         self.pareto_score_table[best.id] = scores
     def _full_evaluate_best(
@@ -669,7 +687,7 @@ class SIMBARunner:
         if best.id in self.pareto_score_table:
             return
-        scores = self.scoring_adapter.score_on_pareto(best, goldens)
+        scores = self.scorer.score_pareto(best, goldens)
         self.pareto_score_table[best.id] = scores
     async def _a_generate_child_prompt(
@@ -694,7 +712,6 @@ class SIMBARunner:
         )
         new_prompt = await self._rewriter.a_rewrite(
-            model_callback=self.model_callback,
             module_id=selected_module_id,
             old_prompt=old_prompt,
             feedback_text=strategy_feedback,
@@ -730,7 +747,6 @@ class SIMBARunner:
         )
         new_prompt = self._rewriter.rewrite(
-            model_callback=self.model_callback,
             module_id=selected_module_id,
             old_prompt=old_prompt,
             feedback_text=strategy_feedback,
@@ -761,7 +777,7 @@ class SIMBARunner:
         Truncate strategy instructions + feedback to the configured character
         budget so the rewriter prompt does not explode.
         """
-        max_chars = self.config.rewrite_instruction_max_chars
+        max_chars = MIPROV2_REWRITE_INSTRUCTION_MAX_CHARS
         if max_chars <= 0:
             return text
         if len(text) <= max_chars:
@@ -788,15 +804,15 @@ class SIMBARunner:
                 Context <- " ".join(golden.context) if present
                 Output  <- golden.expected_outcome
-        All text segments are independently truncated to `demo_input_max_chars`.
+        All text segments are independently truncated to `SIMBA_DEMO_INPUT_MAX_CHARS`.
         """
-        max_demos = self.config.max_demos_per_proposal
+        max_demos = self.max_demos_per_proposal
         if max_demos <= 0:
             return ""
         lines: List[str] = []
         demo_limit = min(max_demos, len(minibatch))
-        max_chars = self.config.demo_input_max_chars
+        max_chars = SIMBA_DEMO_INPUT_MAX_CHARS
         for golden in minibatch[:demo_limit]:
             if isinstance(golden, Golden):
@@ -843,7 +859,7 @@ class SIMBARunner:
     ) -> str:
         """
         Construct a strategy-specific feedback string that is passed into
-        PromptRewriter.rewrite / a_rewrite.
+        Rewriter.rewrite / a_rewrite.
         - APPEND_RULE: emphasize extracting a concise rule from metric feedback.
         - APPEND_DEMO: emphasize appending concrete demos built from goldens.
@@ -934,7 +950,7 @@ class SIMBARunner:
         self,
         simba_iteration: Callable[[], bool],
     ) -> None:
-        total_iterations = self.config.iterations
+        total_iterations = self.iterations
         remaining_iterations = total_iterations
         iteration = 0
         self._update_progress(
@@ -960,7 +976,7 @@ class SIMBARunner:
         self,
         a_simba_iteration: Callable[[], Awaitable[bool]],
     ) -> None:
-        total_iterations = self.config.iterations
+        total_iterations = self.iterations
         remaining_iterations = total_iterations
         iteration = 0
         self._update_progress(

deepeval/{optimization → optimizer}/configs.py RENAMED Viewed

@@ -2,27 +2,24 @@ from __future__ import annotations
 from enum import Enum
 from pydantic import BaseModel, Field, conint
 from typing import Optional
+from deepeval.evaluate.configs import AsyncConfig
-class OptimizerDisplayConfig(BaseModel):
-    """Display controls used by PromptOptimizer for all algorithms."""
+class DisplayConfig(BaseModel):
     show_indicator: bool = True
     announce_ties: bool = Field(
         False, description="Print a one-line note when a tie is detected"
     )
-class PromptListMutationTargetType(Enum):
+class MutationTargetType(Enum):
     RANDOM = "random"
     FIXED_INDEX = "fixed_index"
 # default all messages
-class PromptListMutationConfig(BaseModel):
-    target_type: PromptListMutationTargetType = (
-        PromptListMutationTargetType.RANDOM
-    )
+class MutationConfig(BaseModel):
+    target_type: MutationTargetType = MutationTargetType.RANDOM
     # should be list
     target_role: Optional[str] = Field(
         default=None,

deepeval/{optimization/policies/selection.py → optimizer/policies.py} RENAMED Viewed

@@ -1,9 +1,10 @@
 from __future__ import annotations
-from typing import Dict, List, Sequence
+from enum import Enum
 import random
+from typing import Dict, List, Sequence, Optional, Tuple
 from deepeval.errors import DeepEvalError
-from deepeval.optimization.types import PromptConfigurationId, ScoreTable
+from deepeval.optimizer.types import PromptConfigurationId, ScoreTable
 def _is_dominated(
@@ -164,3 +165,63 @@ def select_prompt_configuration_pareto(
     """
     freq = frequency_weights(score_table)
     return sample_by_frequency(freq, random_state=random_state)
+class TieBreaker(str, Enum):
+    PREFER_ROOT = "prefer_root"
+    PREFER_CHILD = "prefer_child"
+    RANDOM = "random"
+def pick_best_with_ties(
+    totals: Dict[PromptConfigurationId, float],
+    parents_by_id: Dict[PromptConfigurationId, Optional[PromptConfigurationId]],
+    *,
+    random_state: random.Random,
+    tie_tolerance: float = 1e-9,
+    policy: TieBreaker = TieBreaker.PREFER_ROOT,
+) -> Tuple[PromptConfigurationId, List[PromptConfigurationId], float]:
+    """
+    Choose the best candidate by aggregate score with deterministic tie handling.
+    Returns: (chosen_id, tied_ids, max_score)
+    - tied_ids includes everyone within tie_tolerance of max_score
+    """
+    if not totals:
+        raise DeepEvalError("No candidate prompt configuration to choose from.")
+    max_score = max(totals.values())
+    tied = [
+        prompt_configuration_id
+        for prompt_configuration_id, score in totals.items()
+        if abs(score - max_score) <= tie_tolerance
+    ]
+    if len(tied) == 1:
+        return tied[0], tied, max_score
+    # Resolve tie by policy
+    if policy == TieBreaker.PREFER_CHILD:
+        # Prefer any non root. When multiple children exist, use the most recent
+        child_ids = [
+            prompt_configuration_id
+            for prompt_configuration_id in tied
+            if parents_by_id.get(prompt_configuration_id) is not None
+        ]
+        if child_ids:
+            # choose the newest child deterministically by order
+            for prompt_configuration_id in reversed(list(totals.keys())):
+                if prompt_configuration_id in child_ids:
+                    return prompt_configuration_id, tied, max_score
+    if policy == TieBreaker.RANDOM:
+        return random_state.choice(tied), tied, max_score
+    # by default prefer a root if present, otherwise the first tied
+    root_ids = [
+        prompt_configuration_id
+        for prompt_configuration_id in tied
+        if parents_by_id.get(prompt_configuration_id) is None
+    ]
+    chosen = root_ids[0] if root_ids else tied[0]
+    return chosen, tied, max_score

deepeval 3.7.4__py3-none-any.whl → 3.7.5__py3-none-any.whl

deepeval 3.7.4py3-none-any.whl → 3.7.5py3-none-any.whl