PyPI - deepeval - Versions diffs - 3.7.3__py3-none-any.whl → 3.7.5__py3-none-any.whl - Mend

deepeval 3.7.3py3-none-any.whl → 3.7.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (156) hide show

deepeval/_version.py +1 -1
deepeval/cli/test.py +1 -1
deepeval/config/settings.py +102 -13
deepeval/dataset/golden.py +54 -2
deepeval/evaluate/configs.py +1 -1
deepeval/evaluate/evaluate.py +16 -8
deepeval/evaluate/execute.py +74 -27
deepeval/evaluate/utils.py +26 -22
deepeval/integrations/pydantic_ai/agent.py +19 -2
deepeval/integrations/pydantic_ai/instrumentator.py +62 -23
deepeval/metrics/__init__.py +14 -12
deepeval/metrics/answer_relevancy/answer_relevancy.py +74 -29
deepeval/metrics/answer_relevancy/template.py +188 -92
deepeval/metrics/argument_correctness/template.py +2 -2
deepeval/metrics/base_metric.py +2 -5
deepeval/metrics/bias/template.py +3 -3
deepeval/metrics/contextual_precision/contextual_precision.py +53 -15
deepeval/metrics/contextual_precision/template.py +115 -66
deepeval/metrics/contextual_recall/contextual_recall.py +50 -13
deepeval/metrics/contextual_recall/template.py +106 -55
deepeval/metrics/contextual_relevancy/contextual_relevancy.py +47 -15
deepeval/metrics/contextual_relevancy/template.py +87 -58
deepeval/metrics/conversation_completeness/template.py +2 -2
deepeval/metrics/conversational_dag/templates.py +4 -4
deepeval/metrics/conversational_g_eval/template.py +4 -3
deepeval/metrics/dag/templates.py +5 -5
deepeval/metrics/faithfulness/faithfulness.py +70 -27
deepeval/metrics/faithfulness/schema.py +1 -1
deepeval/metrics/faithfulness/template.py +200 -115
deepeval/metrics/g_eval/utils.py +2 -2
deepeval/metrics/hallucination/template.py +4 -4
deepeval/metrics/indicator.py +4 -4
deepeval/metrics/misuse/template.py +2 -2
deepeval/metrics/multimodal_metrics/__init__.py +0 -18
deepeval/metrics/multimodal_metrics/image_coherence/image_coherence.py +24 -17
deepeval/metrics/multimodal_metrics/image_editing/image_editing.py +26 -21
deepeval/metrics/multimodal_metrics/image_helpfulness/image_helpfulness.py +24 -17
deepeval/metrics/multimodal_metrics/image_reference/image_reference.py +24 -17
deepeval/metrics/multimodal_metrics/multimodal_g_eval/multimodal_g_eval.py +19 -19
deepeval/metrics/multimodal_metrics/multimodal_g_eval/template.py +63 -78
deepeval/metrics/multimodal_metrics/multimodal_g_eval/utils.py +20 -20
deepeval/metrics/multimodal_metrics/text_to_image/text_to_image.py +71 -50
deepeval/metrics/non_advice/template.py +2 -2
deepeval/metrics/pii_leakage/template.py +2 -2
deepeval/metrics/prompt_alignment/template.py +4 -4
deepeval/metrics/ragas.py +3 -3
deepeval/metrics/role_violation/template.py +2 -2
deepeval/metrics/step_efficiency/step_efficiency.py +1 -1
deepeval/metrics/tool_correctness/tool_correctness.py +2 -2
deepeval/metrics/toxicity/template.py +4 -4
deepeval/metrics/turn_contextual_precision/schema.py +21 -0
deepeval/metrics/turn_contextual_precision/template.py +187 -0
deepeval/metrics/turn_contextual_precision/turn_contextual_precision.py +550 -0
deepeval/metrics/turn_contextual_recall/schema.py +21 -0
deepeval/metrics/turn_contextual_recall/template.py +178 -0
deepeval/metrics/turn_contextual_recall/turn_contextual_recall.py +520 -0
deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_contextual_relevancy}/schema.py +7 -1
deepeval/metrics/turn_contextual_relevancy/template.py +161 -0
deepeval/metrics/turn_contextual_relevancy/turn_contextual_relevancy.py +535 -0
deepeval/metrics/{multimodal_metrics/multimodal_faithfulness → turn_faithfulness}/schema.py +11 -3
deepeval/metrics/turn_faithfulness/template.py +218 -0
deepeval/metrics/turn_faithfulness/turn_faithfulness.py +596 -0
deepeval/metrics/turn_relevancy/template.py +2 -2
deepeval/metrics/utils.py +39 -58
deepeval/models/__init__.py +0 -12
deepeval/models/base_model.py +16 -38
deepeval/models/embedding_models/__init__.py +7 -0
deepeval/models/embedding_models/azure_embedding_model.py +69 -32
deepeval/models/embedding_models/local_embedding_model.py +39 -22
deepeval/models/embedding_models/ollama_embedding_model.py +42 -18
deepeval/models/embedding_models/openai_embedding_model.py +50 -15
deepeval/models/llms/amazon_bedrock_model.py +1 -2
deepeval/models/llms/anthropic_model.py +53 -20
deepeval/models/llms/azure_model.py +140 -43
deepeval/models/llms/deepseek_model.py +38 -23
deepeval/models/llms/gemini_model.py +222 -103
deepeval/models/llms/grok_model.py +39 -27
deepeval/models/llms/kimi_model.py +39 -23
deepeval/models/llms/litellm_model.py +103 -45
deepeval/models/llms/local_model.py +35 -22
deepeval/models/llms/ollama_model.py +129 -17
deepeval/models/llms/openai_model.py +151 -50
deepeval/models/llms/portkey_model.py +149 -0
deepeval/models/llms/utils.py +5 -3
deepeval/models/retry_policy.py +17 -14
deepeval/models/utils.py +94 -4
deepeval/optimizer/__init__.py +5 -0
deepeval/optimizer/algorithms/__init__.py +6 -0
deepeval/optimizer/algorithms/base.py +29 -0
deepeval/optimizer/algorithms/configs.py +18 -0
deepeval/optimizer/algorithms/copro/__init__.py +5 -0
deepeval/optimizer/algorithms/copro/copro.py +836 -0
deepeval/optimizer/algorithms/gepa/__init__.py +5 -0
deepeval/optimizer/algorithms/gepa/gepa.py +737 -0
deepeval/optimizer/algorithms/miprov2/__init__.py +17 -0
deepeval/optimizer/algorithms/miprov2/bootstrapper.py +435 -0
deepeval/optimizer/algorithms/miprov2/miprov2.py +752 -0
deepeval/optimizer/algorithms/miprov2/proposer.py +301 -0
deepeval/optimizer/algorithms/simba/__init__.py +5 -0
deepeval/optimizer/algorithms/simba/simba.py +999 -0
deepeval/optimizer/algorithms/simba/types.py +15 -0
deepeval/optimizer/configs.py +31 -0
deepeval/optimizer/policies.py +227 -0
deepeval/optimizer/prompt_optimizer.py +263 -0
deepeval/optimizer/rewriter/__init__.py +5 -0
deepeval/optimizer/rewriter/rewriter.py +124 -0
deepeval/optimizer/rewriter/utils.py +214 -0
deepeval/optimizer/scorer/__init__.py +5 -0
deepeval/optimizer/scorer/base.py +86 -0
deepeval/optimizer/scorer/scorer.py +316 -0
deepeval/optimizer/scorer/utils.py +30 -0
deepeval/optimizer/types.py +148 -0
deepeval/optimizer/utils.py +480 -0
deepeval/prompt/prompt.py +7 -6
deepeval/test_case/__init__.py +1 -3
deepeval/test_case/api.py +12 -10
deepeval/test_case/conversational_test_case.py +19 -1
deepeval/test_case/llm_test_case.py +152 -1
deepeval/test_case/utils.py +4 -8
deepeval/test_run/api.py +15 -14
deepeval/test_run/cache.py +2 -0
deepeval/test_run/test_run.py +9 -4
deepeval/tracing/patchers.py +9 -4
deepeval/tracing/tracing.py +2 -2
deepeval/utils.py +89 -0
{deepeval-3.7.3.dist-info → deepeval-3.7.5.dist-info}/METADATA +1 -4
{deepeval-3.7.3.dist-info → deepeval-3.7.5.dist-info}/RECORD +134 -118
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/multimodal_answer_relevancy.py +0 -343
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/schema.py +0 -19
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/template.py +0 -122
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/multimodal_contextual_precision.py +0 -301
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/template.py +0 -132
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/multimodal_contextual_recall.py +0 -285
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/schema.py +0 -15
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/template.py +0 -112
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/multimodal_contextual_relevancy.py +0 -282
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/template.py +0 -102
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/multimodal_faithfulness.py +0 -356
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/template.py +0 -175
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/__init__.py +0 -0
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/multimodal_tool_correctness.py +0 -290
deepeval/models/mlllms/__init__.py +0 -4
deepeval/models/mlllms/azure_model.py +0 -334
deepeval/models/mlllms/gemini_model.py +0 -284
deepeval/models/mlllms/ollama_model.py +0 -144
deepeval/models/mlllms/openai_model.py +0 -258
deepeval/test_case/mllm_test_case.py +0 -170
/deepeval/metrics/{multimodal_metrics/multimodal_answer_relevancy → turn_contextual_precision}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_precision → turn_contextual_recall}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_recall → turn_contextual_relevancy}/__init__.py +0 -0
/deepeval/metrics/{multimodal_metrics/multimodal_contextual_relevancy → turn_faithfulness}/__init__.py +0 -0
{deepeval-3.7.3.dist-info → deepeval-3.7.5.dist-info}/LICENSE.md +0 -0
{deepeval-3.7.3.dist-info → deepeval-3.7.5.dist-info}/WHEEL +0 -0
{deepeval-3.7.3.dist-info → deepeval-3.7.5.dist-info}/entry_points.txt +0 -0

deepeval/optimizer/algorithms/miprov2/proposer.py ADDED Viewed

@@ -0,0 +1,301 @@
+# Instruction Proposer for MIPROv2
+#
+# This module generates N diverse instruction candidates upfront,
+# following the original MIPROv2 paper approach. Each candidate is
+# generated with different "tips" (e.g., "be creative", "be concise")
+# to encourage diversity in the instruction space.
+from __future__ import annotations
+import asyncio
+import random
+from typing import List, Optional, Union, TYPE_CHECKING
+from deepeval.models.base_model import DeepEvalBaseLLM
+from deepeval.prompt.prompt import Prompt
+from deepeval.prompt.api import PromptType
+if TYPE_CHECKING:
+    from deepeval.dataset.golden import Golden, ConversationalGolden
+# Tips for encouraging diverse instruction generation (from DSPy MIPROv2)
+INSTRUCTION_TIPS = [
+    "Be creative and think outside the box.",
+    "Be concise and direct.",
+    "Use step-by-step reasoning.",
+    "Focus on clarity and precision.",
+    "Include specific examples where helpful.",
+    "Emphasize the most important aspects.",
+    "Consider edge cases and exceptions.",
+    "Use structured formatting when appropriate.",
+    "Be thorough but avoid unnecessary details.",
+    "Prioritize accuracy over creativity.",
+    "Make the instruction self-contained.",
+    "Use natural, conversational language.",
+    "Be explicit about expected output format.",
+    "Include context about common mistakes to avoid.",
+    "Focus on the user's intent and goals.",
+]
+class InstructionProposer:
+    """
+    Generates N diverse instruction candidates for a given prompt.
+    Following the MIPROv2 paper, this proposer:
+    1. Analyzes the current prompt and task
+    2. Optionally uses example inputs/outputs from goldens
+    3. Applies different "tips" to encourage diversity
+    4. Generates N candidate instructions
+    """
+    def __init__(
+        self,
+        optimizer_model: DeepEvalBaseLLM,
+        random_state: Optional[Union[int, random.Random]] = None,
+    ):
+        self.optimizer_model = optimizer_model
+        if isinstance(random_state, int):
+            self.random_state = random.Random(random_state)
+        else:
+            self.random_state = random_state or random.Random()
+    def _format_prompt(self, prompt: Prompt) -> str:
+        """Format the prompt for the proposer context."""
+        if prompt.type == PromptType.LIST:
+            parts = []
+            for msg in prompt.messages_template:
+                role = msg.role or "unknown"
+                content = msg.content or ""
+                parts.append(f"[{role}]: {content}")
+            return "\n".join(parts)
+        else:
+            return prompt.text_template or ""
+    def _format_examples(
+        self,
+        goldens: Union[List["Golden"], List["ConversationalGolden"]],
+        max_examples: int = 3,
+    ) -> str:
+        """Format example inputs/outputs from goldens."""
+        if not goldens:
+            return "No examples available."
+        examples = []
+        sample = self.random_state.sample(
+            goldens, min(max_examples, len(goldens))
+        )
+        for i, golden in enumerate(sample, 1):
+            # Handle both Golden and ConversationalGolden
+            if hasattr(golden, "input"):
+                inp = str(golden.input)
+                out = str(golden.expected_output or "")
+                examples.append(
+                    f"Example {i}:\n  Input: {inp}\n  Expected: {out}"
+                )
+            elif hasattr(golden, "messages"):
+                # ConversationalGolden
+                msgs = golden.messages[:2] if golden.messages else []
+                msg_str = " | ".join(str(m) for m in msgs)
+                examples.append(f"Example {i}: {msg_str}")
+        return "\n".join(examples) if examples else "No examples available."
+    def _compose_proposer_prompt(
+        self,
+        current_prompt: Prompt,
+        goldens: Union[List["Golden"], List["ConversationalGolden"]],
+        tip: str,
+        candidate_index: int,
+    ) -> str:
+        """Compose the prompt for generating an instruction candidate."""
+        prompt_text = self._format_prompt(current_prompt)
+        examples_text = self._format_examples(goldens)
+        return f"""You are an expert prompt engineer. Your task is to propose an improved instruction/prompt for an LLM task.
+[CURRENT PROMPT]
+{prompt_text}
+[EXAMPLE INPUTS/OUTPUTS FROM THE TASK]
+{examples_text}
+[GENERATION TIP]
+{tip}
+[INSTRUCTIONS]
+Based on the current prompt, the example task inputs/outputs, and the generation tip above, propose an improved version of the prompt.
+This is candidate #{candidate_index + 1}. Make it meaningfully different from trivial variations.
+Focus on improving clarity, effectiveness, and alignment with the task requirements.
+Return ONLY the new prompt text, with no explanations or meta-commentary."""
+    def propose(
+        self,
+        prompt: Prompt,
+        goldens: Union[List["Golden"], List["ConversationalGolden"]],
+        num_candidates: int,
+    ) -> List[Prompt]:
+        """
+        Generate N instruction candidates synchronously.
+        Args:
+            prompt: The original prompt to improve
+            goldens: Example inputs/outputs for context
+            num_candidates: Number of candidates to generate
+        Returns:
+            List of Prompt candidates (including the original)
+        """
+        candidates: List[Prompt] = [prompt]  # Always include original
+        # Select tips for diversity
+        tips = self._select_tips(num_candidates - 1)
+        for i, tip in enumerate(tips):
+            proposer_prompt = self._compose_proposer_prompt(
+                current_prompt=prompt,
+                goldens=goldens,
+                tip=tip,
+                candidate_index=i,
+            )
+            try:
+                output = self.optimizer_model.generate(proposer_prompt)
+                new_text = self._normalize_output(output)
+                if new_text and new_text.strip():
+                    new_prompt = self._create_prompt_from_text(prompt, new_text)
+                    if not self._is_duplicate(new_prompt, candidates):
+                        candidates.append(new_prompt)
+            except Exception:
+                # Skip failed generations
+                continue
+        return candidates
+    async def a_propose(
+        self,
+        prompt: Prompt,
+        goldens: Union[List["Golden"], List["ConversationalGolden"]],
+        num_candidates: int,
+    ) -> List[Prompt]:
+        """
+        Generate N instruction candidates asynchronously (concurrently).
+        """
+        candidates: List[Prompt] = [prompt]  # Always include original
+        tips = self._select_tips(num_candidates - 1)
+        # Build all proposer prompts upfront
+        proposer_prompts = [
+            self._compose_proposer_prompt(
+                current_prompt=prompt,
+                goldens=goldens,
+                tip=tip,
+                candidate_index=i,
+            )
+            for i, tip in enumerate(tips)
+        ]
+        # Generate all candidates concurrently
+        async def generate_one(proposer_prompt: str) -> Optional[str]:
+            try:
+                output = await self.optimizer_model.a_generate(proposer_prompt)
+                return self._normalize_output(output)
+            except Exception:
+                return None
+        results = await asyncio.gather(
+            *[generate_one(p) for p in proposer_prompts]
+        )
+        # Collect successful, non-duplicate candidates
+        for new_text in results:
+            if new_text and new_text.strip():
+                new_prompt = self._create_prompt_from_text(prompt, new_text)
+                if not self._is_duplicate(new_prompt, candidates):
+                    candidates.append(new_prompt)
+        return candidates
+    def _select_tips(self, count: int) -> List[str]:
+        """Select diverse tips for candidate generation."""
+        if count <= 0:
+            return []
+        if count >= len(INSTRUCTION_TIPS):
+            # Use all tips, possibly repeating
+            tips = list(INSTRUCTION_TIPS)
+            while len(tips) < count:
+                tips.append(self.random_state.choice(INSTRUCTION_TIPS))
+            return tips[:count]
+        return self.random_state.sample(INSTRUCTION_TIPS, count)
+    def _normalize_output(self, output) -> str:
+        """Normalize LLM output to string."""
+        if isinstance(output, str):
+            return output.strip()
+        if isinstance(output, tuple):
+            return str(output[0]).strip() if output else ""
+        if isinstance(output, list):
+            return str(output[0]).strip() if output else ""
+        return str(output).strip()
+    def _create_prompt_from_text(
+        self, original: Prompt, new_text: str
+    ) -> Prompt:
+        """Create a new Prompt from generated text, preserving structure."""
+        if original.type == PromptType.LIST:
+            # For LIST prompts, update the system or first assistant message
+            new_messages = []
+            updated = False
+            for msg in original.messages_template:
+                if not updated and msg.role in ("system", "assistant"):
+                    new_msg = type(msg)(role=msg.role, content=new_text)
+                    new_messages.append(new_msg)
+                    updated = True
+                else:
+                    new_messages.append(msg)
+            if not updated and new_messages:
+                # Update the first message if no system/assistant found
+                first = new_messages[0]
+                new_messages[0] = type(first)(role=first.role, content=new_text)
+            return Prompt(messages_template=new_messages)
+        else:
+            return Prompt(text_template=new_text)
+    def _is_duplicate(self, new_prompt: Prompt, existing: List[Prompt]) -> bool:
+        """Check if a prompt is a duplicate of existing candidates."""
+        new_text = self._get_prompt_text(new_prompt).strip().lower()
+        for p in existing:
+            existing_text = self._get_prompt_text(p).strip().lower()
+            # Consider duplicates if >90% similar
+            if new_text == existing_text:
+                return True
+            # Simple similarity check
+            if len(new_text) > 0 and len(existing_text) > 0:
+                shorter = min(len(new_text), len(existing_text))
+                longer = max(len(new_text), len(existing_text))
+                if shorter / longer > 0.9:
+                    # Check prefix similarity
+                    if new_text[:shorter] == existing_text[:shorter]:
+                        return True
+        return False
+    def _get_prompt_text(self, prompt: Prompt) -> str:
+        """Extract text from a prompt for comparison."""
+        if prompt.type == PromptType.LIST:
+            parts = []
+            for msg in prompt.messages_template:
+                parts.append(msg.content or "")
+            return " ".join(parts)
+        return prompt.text_template or ""

deepeval/optimizer/algorithms/simba/__init__.py ADDED Viewed

@@ -0,0 +1,5 @@
+from .simba import SIMBA
+__all__ = [
+    "SIMBA",
+]

deepeval 3.7.3__py3-none-any.whl → 3.7.5__py3-none-any.whl

deepeval 3.7.3py3-none-any.whl → 3.7.5py3-none-any.whl