PyPI - deepeval - Versions diffs - 3.6.6__py3-none-any.whl → 3.6.8__py3-none-any.whl - Mend

deepeval 3.6.6py3-none-any.whl → 3.6.8py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (134) hide show

deepeval/_version.py +1 -1
deepeval/benchmarks/equity_med_qa/equity_med_qa.py +1 -0
deepeval/cli/main.py +42 -0
deepeval/confident/api.py +1 -0
deepeval/config/settings.py +22 -4
deepeval/constants.py +8 -1
deepeval/dataset/dataset.py +2 -11
deepeval/dataset/utils.py +1 -1
deepeval/errors.py +20 -2
deepeval/evaluate/evaluate.py +5 -1
deepeval/evaluate/execute.py +811 -248
deepeval/evaluate/types.py +1 -0
deepeval/evaluate/utils.py +33 -119
deepeval/integrations/crewai/__init__.py +7 -1
deepeval/integrations/crewai/handler.py +1 -1
deepeval/integrations/crewai/subs.py +51 -0
deepeval/integrations/crewai/tool.py +71 -0
deepeval/integrations/crewai/wrapper.py +45 -5
deepeval/integrations/llama_index/__init__.py +0 -4
deepeval/integrations/llama_index/handler.py +20 -21
deepeval/integrations/pydantic_ai/instrumentator.py +125 -76
deepeval/metrics/__init__.py +13 -0
deepeval/metrics/answer_relevancy/answer_relevancy.py +12 -3
deepeval/metrics/api.py +281 -0
deepeval/metrics/argument_correctness/argument_correctness.py +12 -2
deepeval/metrics/base_metric.py +1 -0
deepeval/metrics/bias/bias.py +12 -3
deepeval/metrics/contextual_precision/contextual_precision.py +39 -24
deepeval/metrics/contextual_recall/contextual_recall.py +12 -3
deepeval/metrics/contextual_relevancy/contextual_relevancy.py +12 -1
deepeval/metrics/conversation_completeness/conversation_completeness.py +12 -0
deepeval/metrics/conversational_dag/conversational_dag.py +12 -0
deepeval/metrics/conversational_dag/nodes.py +12 -4
deepeval/metrics/conversational_g_eval/__init__.py +3 -0
deepeval/metrics/conversational_g_eval/conversational_g_eval.py +84 -66
deepeval/metrics/dag/dag.py +12 -0
deepeval/metrics/dag/nodes.py +12 -4
deepeval/metrics/dag/schema.py +1 -1
deepeval/metrics/dag/templates.py +2 -2
deepeval/metrics/faithfulness/faithfulness.py +12 -1
deepeval/metrics/g_eval/g_eval.py +11 -0
deepeval/metrics/goal_accuracy/__init__.py +1 -0
deepeval/metrics/goal_accuracy/goal_accuracy.py +349 -0
deepeval/metrics/goal_accuracy/schema.py +17 -0
deepeval/metrics/goal_accuracy/template.py +235 -0
deepeval/metrics/hallucination/hallucination.py +20 -9
deepeval/metrics/indicator.py +8 -2
deepeval/metrics/json_correctness/json_correctness.py +12 -1
deepeval/metrics/knowledge_retention/knowledge_retention.py +12 -0
deepeval/metrics/mcp/mcp_task_completion.py +20 -2
deepeval/metrics/mcp/multi_turn_mcp_use_metric.py +29 -6
deepeval/metrics/mcp_use_metric/mcp_use_metric.py +14 -2
deepeval/metrics/misuse/misuse.py +12 -1
deepeval/metrics/multimodal_metrics/image_coherence/image_coherence.py +3 -0
deepeval/metrics/multimodal_metrics/image_editing/image_editing.py +3 -0
deepeval/metrics/multimodal_metrics/image_helpfulness/image_helpfulness.py +3 -0
deepeval/metrics/multimodal_metrics/image_reference/image_reference.py +3 -0
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/multimodal_answer_relevancy.py +6 -1
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/multimodal_contextual_precision.py +38 -25
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/multimodal_contextual_recall.py +3 -0
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/multimodal_contextual_relevancy.py +3 -0
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/multimodal_faithfulness.py +3 -0
deepeval/metrics/multimodal_metrics/multimodal_g_eval/multimodal_g_eval.py +3 -0
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/multimodal_tool_correctness.py +10 -5
deepeval/metrics/non_advice/non_advice.py +12 -0
deepeval/metrics/pii_leakage/pii_leakage.py +12 -1
deepeval/metrics/plan_adherence/__init__.py +1 -0
deepeval/metrics/plan_adherence/plan_adherence.py +292 -0
deepeval/metrics/plan_adherence/schema.py +11 -0
deepeval/metrics/plan_adherence/template.py +170 -0
deepeval/metrics/plan_quality/__init__.py +1 -0
deepeval/metrics/plan_quality/plan_quality.py +292 -0
deepeval/metrics/plan_quality/schema.py +11 -0
deepeval/metrics/plan_quality/template.py +101 -0
deepeval/metrics/prompt_alignment/prompt_alignment.py +12 -1
deepeval/metrics/role_adherence/role_adherence.py +12 -0
deepeval/metrics/role_violation/role_violation.py +12 -0
deepeval/metrics/step_efficiency/__init__.py +1 -0
deepeval/metrics/step_efficiency/schema.py +11 -0
deepeval/metrics/step_efficiency/step_efficiency.py +234 -0
deepeval/metrics/step_efficiency/template.py +256 -0
deepeval/metrics/summarization/summarization.py +12 -1
deepeval/metrics/task_completion/task_completion.py +4 -0
deepeval/metrics/tool_correctness/schema.py +6 -0
deepeval/metrics/tool_correctness/template.py +88 -0
deepeval/metrics/tool_correctness/tool_correctness.py +233 -21
deepeval/metrics/tool_use/__init__.py +1 -0
deepeval/metrics/tool_use/schema.py +19 -0
deepeval/metrics/tool_use/template.py +220 -0
deepeval/metrics/tool_use/tool_use.py +458 -0
deepeval/metrics/topic_adherence/__init__.py +1 -0
deepeval/metrics/topic_adherence/schema.py +16 -0
deepeval/metrics/topic_adherence/template.py +162 -0
deepeval/metrics/topic_adherence/topic_adherence.py +355 -0
deepeval/metrics/toxicity/toxicity.py +12 -0
deepeval/metrics/turn_relevancy/turn_relevancy.py +12 -0
deepeval/models/embedding_models/azure_embedding_model.py +37 -36
deepeval/models/embedding_models/local_embedding_model.py +30 -32
deepeval/models/embedding_models/ollama_embedding_model.py +18 -20
deepeval/models/embedding_models/openai_embedding_model.py +22 -31
deepeval/models/llms/grok_model.py +1 -1
deepeval/models/llms/openai_model.py +2 -0
deepeval/openai/__init__.py +14 -32
deepeval/openai/extractors.py +85 -50
deepeval/openai/patch.py +258 -167
deepeval/openai/types.py +20 -0
deepeval/openai/utils.py +205 -56
deepeval/prompt/__init__.py +19 -1
deepeval/prompt/api.py +160 -0
deepeval/prompt/prompt.py +245 -62
deepeval/prompt/utils.py +186 -15
deepeval/synthesizer/chunking/context_generator.py +209 -152
deepeval/synthesizer/chunking/doc_chunker.py +46 -12
deepeval/synthesizer/synthesizer.py +19 -15
deepeval/test_case/api.py +131 -0
deepeval/test_case/llm_test_case.py +6 -2
deepeval/test_run/__init__.py +1 -0
deepeval/test_run/hyperparameters.py +47 -8
deepeval/test_run/test_run.py +292 -206
deepeval/tracing/__init__.py +2 -1
deepeval/tracing/api.py +3 -1
deepeval/tracing/otel/exporter.py +3 -4
deepeval/tracing/otel/utils.py +24 -5
deepeval/tracing/trace_context.py +89 -5
deepeval/tracing/tracing.py +74 -3
deepeval/tracing/types.py +20 -2
deepeval/tracing/utils.py +8 -0
deepeval/utils.py +21 -0
{deepeval-3.6.6.dist-info → deepeval-3.6.8.dist-info}/METADATA +1 -1
{deepeval-3.6.6.dist-info → deepeval-3.6.8.dist-info}/RECORD +133 -103
deepeval/integrations/llama_index/agent/patched.py +0 -68
{deepeval-3.6.6.dist-info → deepeval-3.6.8.dist-info}/LICENSE.md +0 -0
{deepeval-3.6.6.dist-info → deepeval-3.6.8.dist-info}/WHEEL +0 -0
{deepeval-3.6.6.dist-info → deepeval-3.6.8.dist-info}/entry_points.txt +0 -0

deepeval/openai/patch.py CHANGED Viewed

@@ -1,204 +1,295 @@
-from typing import Callable, List, Optional
+from typing import Callable, List
 from functools import wraps
-from deepeval.openai.utils import (
-    get_attr_path,
-    set_attr_path,
-    add_test_case,
-    create_child_tool_spans,
-)
 from deepeval.openai.extractors import (
-    extract_output_parameters,
-    extract_input_parameters,
+    safe_extract_output_parameters,
+    safe_extract_input_parameters,
     InputParameters,
-    ToolCall,
+    OutputParameters,
+)
+from deepeval.test_case.llm_test_case import ToolCall
+from deepeval.tracing.context import (
+    current_trace_context,
+    update_current_span,
+    update_llm_span,
 )
-from deepeval.tracing.context import update_current_span, update_llm_span
-from deepeval.tracing import trace_manager, observe
-from deepeval.metrics.base_metric import BaseMetric
-from deepeval.test_case import LLMTestCase
+from deepeval.tracing import observe
+from deepeval.tracing.trace_context import current_llm_context
+# Store original methods for safety and potential unpatching
+_ORIGINAL_METHODS = {}
+_OPENAI_PATCHED = False
+def patch_openai_classes():
+    """Monkey patch OpenAI resource classes directly."""
+    global _OPENAI_PATCHED
-def patch_openai(openai_module):
-    if getattr(openai_module, "_deepeval_patched", False):
+    # Single guard - if already patched, return immediately
+    if _OPENAI_PATCHED:
         return
-    openai_module._deepeval_patched = True
-    openai_class = getattr(openai_module, "OpenAI", None)
-    async_openai_class = getattr(openai_module, "AsyncOpenAI", None)
-    if openai_class:
-        patch_openai_client(openai_class, is_async=False)
-    if async_openai_class:
-        patch_openai_client(async_openai_class, is_async=True)
-def patch_openai_client(openai_class, is_async: bool):
-    original_init = openai_class.__init__
-    @wraps(original_init)
-    def new_init(self, *args, **kwargs):
-        original_init(self, *args, **kwargs)
-        method_paths = {
-            # path → is_completion_method
-            "chat.completions.create": True,
-            "beta.chat.completions.parse": True,
-            "responses.create": False,
-        }
-        for path, is_completion in method_paths.items():
-            method = get_attr_path(self, path)
-            if not callable(method):
-                continue
-            if is_async:
-                patched_method = patch_async_openai_client_method(
-                    orig_method=method,
-                    is_completion_method=is_completion,
-                )
-            else:
-                patched_method = patch_sync_openai_client_method(
-                    orig_method=method,
-                    is_completion_method=is_completion,
-                )
-            set_attr_path(self, path, patched_method)
-    openai_class.__init__ = new_init
-def patch_async_openai_client_method(
+    try:
+        from openai.resources.chat.completions import (
+            Completions,
+            AsyncCompletions,
+        )
+        # Store original methods before patching
+        if hasattr(Completions, "create"):
+            _ORIGINAL_METHODS["Completions.create"] = Completions.create
+            Completions.create = _create_sync_wrapper(
+                Completions.create, is_completion_method=True
+            )
+        if hasattr(Completions, "parse"):
+            _ORIGINAL_METHODS["Completions.parse"] = Completions.parse
+            Completions.parse = _create_sync_wrapper(
+                Completions.parse, is_completion_method=True
+            )
+        if hasattr(AsyncCompletions, "create"):
+            _ORIGINAL_METHODS["AsyncCompletions.create"] = (
+                AsyncCompletions.create
+            )
+            AsyncCompletions.create = _create_async_wrapper(
+                AsyncCompletions.create, is_completion_method=True
+            )
+        if hasattr(AsyncCompletions, "parse"):
+            _ORIGINAL_METHODS["AsyncCompletions.parse"] = AsyncCompletions.parse
+            AsyncCompletions.parse = _create_async_wrapper(
+                AsyncCompletions.parse, is_completion_method=True
+            )
+    except ImportError:
+        pass
+    try:
+        from openai.resources.responses import Responses, AsyncResponses
+        if hasattr(Responses, "create"):
+            _ORIGINAL_METHODS["Responses.create"] = Responses.create
+            Responses.create = _create_sync_wrapper(
+                Responses.create, is_completion_method=False
+            )
+        if hasattr(AsyncResponses, "create"):
+            _ORIGINAL_METHODS["AsyncResponses.create"] = AsyncResponses.create
+            AsyncResponses.create = _create_async_wrapper(
+                AsyncResponses.create, is_completion_method=False
+            )
+    except ImportError:
+        pass
+    # Set flag at the END after successful patching
+    _OPENAI_PATCHED = True
+def _create_sync_wrapper(original_method, is_completion_method: bool):
+    """Create a wrapper for sync methods - called ONCE during patching."""
+    @wraps(original_method)
+    def method_wrapper(self, *args, **kwargs):
+        bound_method = original_method.__get__(self, type(self))
+        patched = _patch_sync_openai_client_method(
+            orig_method=bound_method, is_completion_method=is_completion_method
+        )
+        return patched(*args, **kwargs)
+    return method_wrapper
+def _create_async_wrapper(original_method, is_completion_method: bool):
+    """Create a wrapper for async methods - called ONCE during patching."""
+    @wraps(original_method)
+    async def method_wrapper(self, *args, **kwargs):
+        bound_method = original_method.__get__(self, type(self))
+        patched = _patch_async_openai_client_method(
+            orig_method=bound_method, is_completion_method=is_completion_method
+        )
+        return await patched(*args, **kwargs)
+    return method_wrapper
+def _patch_async_openai_client_method(
     orig_method: Callable,
     is_completion_method: bool = False,
 ):
     @wraps(orig_method)
-    async def patched_async_openai_method(
-        metrics: Optional[List[BaseMetric]] = None,
-        context: Optional[List[str]] = None,
-        retrieval_context: Optional[List[str]] = None,
-        expected_output: Optional[str] = None,
-        expected_tools: Optional[List[ToolCall]] = None,
-        *args,
-        **kwargs
-    ):
-        input_parameters: InputParameters = extract_input_parameters(
+    async def patched_async_openai_method(*args, **kwargs):
+        input_parameters: InputParameters = safe_extract_input_parameters(
             is_completion_method, kwargs
         )
-        is_traced = len(trace_manager.traces) > 0
-        if is_traced:
-            @observe(type="llm", model=input_parameters.model, metrics=metrics)
-            async def llm_generation(*args, **kwargs):
-                response = await orig_method(*args, **kwargs)
-                output_parameters = extract_output_parameters(
-                    is_completion_method, response, input_parameters
-                )
-                update_current_span(
-                    input=input_parameters.input
-                    or input_parameters.messages
-                    or "NA",
-                    output=output_parameters.output or "NA",
-                    expected_output=expected_output,
-                    retrieval_context=retrieval_context,
-                    context=context,
-                    tools_called=output_parameters.tools_called,
-                    expected_tools=expected_tools,
-                )
-                update_llm_span(
-                    input_token_count=output_parameters.prompt_tokens,
-                    output_token_count=output_parameters.completion_tokens,
-                )
-                create_child_tool_spans(output_parameters)
-                return response
-            return await llm_generation(*args, **kwargs)
-        else:
+        llm_context = current_llm_context.get()
+        @observe(
+            type="llm",
+            model=input_parameters.model,
+            metrics=llm_context.metrics,
+            metric_collection=llm_context.metric_collection,
+        )
+        async def llm_generation(*args, **kwargs):
             response = await orig_method(*args, **kwargs)
-            output_parameters = extract_output_parameters(
+            output_parameters = safe_extract_output_parameters(
                 is_completion_method, response, input_parameters
             )
-            test_case = LLMTestCase(
-                input=input_parameters.input,
-                actual_output=output_parameters.output,
-                expected_output=expected_output,
-                retrieval_context=retrieval_context,
-                context=context,
-                tools_called=output_parameters.tools_called,
-                expected_tools=expected_tools,
-            )
-            add_test_case(
-                test_case=test_case,
-                metrics=metrics,
-                input_parameters=input_parameters,
+            _update_all_attributes(
+                input_parameters,
+                output_parameters,
+                llm_context.expected_tools,
+                llm_context.expected_output,
+                llm_context.context,
+                llm_context.retrieval_context,
             )
             return response
+        return await llm_generation(*args, **kwargs)
     return patched_async_openai_method
-def patch_sync_openai_client_method(
+def _patch_sync_openai_client_method(
     orig_method: Callable,
     is_completion_method: bool = False,
 ):
     @wraps(orig_method)
-    def patched_sync_openai_method(
-        metrics: Optional[List[BaseMetric]] = None,
-        context: Optional[List[str]] = None,
-        retrieval_context: Optional[List[str]] = None,
-        expected_output: Optional[str] = None,
-        expected_tools: Optional[List[ToolCall]] = None,
-        *args,
-        **kwargs
-    ):
-        input_parameters: InputParameters = extract_input_parameters(
+    def patched_sync_openai_method(*args, **kwargs):
+        input_parameters: InputParameters = safe_extract_input_parameters(
             is_completion_method, kwargs
         )
-        is_traced = len(trace_manager.traces) > 0
-        if is_traced:
-            @observe(type="llm", model=input_parameters.model, metrics=metrics)
-            def llm_generation(*args, **kwargs):
-                response = orig_method(*args, **kwargs)
-                output_parameters = extract_output_parameters(
-                    is_completion_method, response, input_parameters
-                )
-                update_current_span(
-                    input=input_parameters.input
-                    or input_parameters.messages
-                    or "NA",
-                    output=output_parameters.output or "NA",
-                    expected_output=expected_output,
-                    retrieval_context=retrieval_context,
-                    context=context,
-                    tools_called=output_parameters.tools_called,
-                    expected_tools=expected_tools,
-                )
-                update_llm_span(
-                    input_token_count=output_parameters.prompt_tokens,
-                    output_token_count=output_parameters.completion_tokens,
-                )
-                create_child_tool_spans(output_parameters)
-                return response
-            return llm_generation(*args, **kwargs)
-        else:
+        llm_context = current_llm_context.get()
+        @observe(
+            type="llm",
+            model=input_parameters.model,
+            metrics=llm_context.metrics,
+            metric_collection=llm_context.metric_collection,
+        )
+        def llm_generation(*args, **kwargs):
             response = orig_method(*args, **kwargs)
-            output_parameters = extract_output_parameters(
+            output_parameters = safe_extract_output_parameters(
                 is_completion_method, response, input_parameters
             )
-            test_case = LLMTestCase(
-                input=input_parameters.input,
-                actual_output=output_parameters.output,
-                expected_output=expected_output,
-                retrieval_context=retrieval_context,
-                context=context,
-                tools_called=output_parameters.tools_called,
-                expected_tools=expected_tools,
-            )
-            add_test_case(
-                test_case=test_case,
-                metrics=metrics,
-                input_parameters=input_parameters,
+            _update_all_attributes(
+                input_parameters,
+                output_parameters,
+                llm_context.expected_tools,
+                llm_context.expected_output,
+                llm_context.context,
+                llm_context.retrieval_context,
             )
             return response
+        return llm_generation(*args, **kwargs)
     return patched_sync_openai_method
+def _update_all_attributes(
+    input_parameters: InputParameters,
+    output_parameters: OutputParameters,
+    expected_tools: List[ToolCall],
+    expected_output: str,
+    context: List[str],
+    retrieval_context: List[str],
+):
+    """Update span and trace attributes with input/output parameters."""
+    update_current_span(
+        input=input_parameters.messages,
+        output=output_parameters.output or output_parameters.tools_called,
+        tools_called=output_parameters.tools_called,
+        # attributes to be added
+        expected_output=expected_output,
+        expected_tools=expected_tools,
+        context=context,
+        retrieval_context=retrieval_context,
+    )
+    llm_context = current_llm_context.get()
+    update_llm_span(
+        input_token_count=output_parameters.prompt_tokens,
+        output_token_count=output_parameters.completion_tokens,
+        prompt=llm_context.prompt,
+    )
+    __update_input_and_output_of_current_trace(
+        input_parameters, output_parameters
+    )
+def __update_input_and_output_of_current_trace(
+    input_parameters: InputParameters, output_parameters: OutputParameters
+):
+    current_trace = current_trace_context.get()
+    if current_trace:
+        if current_trace.input is None:
+            current_trace.input = (
+                input_parameters.input or input_parameters.messages
+            )
+        if current_trace.output is None:
+            current_trace.output = output_parameters.output
+    return
+def unpatch_openai_classes():
+    """Restore OpenAI resource classes to their original state."""
+    global _OPENAI_PATCHED
+    # If not patched, nothing to do
+    if not _OPENAI_PATCHED:
+        return
+    try:
+        from openai.resources.chat.completions import (
+            Completions,
+            AsyncCompletions,
+        )
+        # Restore original methods for Completions
+        if "Completions.create" in _ORIGINAL_METHODS:
+            Completions.create = _ORIGINAL_METHODS["Completions.create"]
+        if "Completions.parse" in _ORIGINAL_METHODS:
+            Completions.parse = _ORIGINAL_METHODS["Completions.parse"]
+        # Restore original methods for AsyncCompletions
+        if "AsyncCompletions.create" in _ORIGINAL_METHODS:
+            AsyncCompletions.create = _ORIGINAL_METHODS[
+                "AsyncCompletions.create"
+            ]
+        if "AsyncCompletions.parse" in _ORIGINAL_METHODS:
+            AsyncCompletions.parse = _ORIGINAL_METHODS["AsyncCompletions.parse"]
+    except ImportError:
+        pass
+    try:
+        from openai.resources.responses import Responses, AsyncResponses
+        # Restore original methods for Responses
+        if "Responses.create" in _ORIGINAL_METHODS:
+            Responses.create = _ORIGINAL_METHODS["Responses.create"]
+        # Restore original methods for AsyncResponses
+        if "AsyncResponses.create" in _ORIGINAL_METHODS:
+            AsyncResponses.create = _ORIGINAL_METHODS["AsyncResponses.create"]
+    except ImportError:
+        pass
+    # Reset the patched flag
+    _OPENAI_PATCHED = False

deepeval/openai/types.py ADDED Viewed

@@ -0,0 +1,20 @@
+from typing import Any, Optional, List, Dict
+from pydantic import BaseModel
+from deepeval.test_case.llm_test_case import ToolCall
+class InputParameters(BaseModel):
+    model: Optional[str] = None
+    input: Optional[str] = None
+    tools: Optional[List[Dict[str, Any]]] = None
+    instructions: Optional[str] = None
+    messages: Optional[List[Dict[str, Any]]] = None
+    tool_descriptions: Optional[Dict[str, str]] = None
+class OutputParameters(BaseModel):
+    output: Optional[Any] = None
+    prompt_tokens: Optional[int] = None
+    completion_tokens: Optional[int] = None
+    tools_called: Optional[List[ToolCall]] = None

deepeval 3.6.6__py3-none-any.whl → 3.6.8__py3-none-any.whl

deepeval 3.6.6py3-none-any.whl → 3.6.8py3-none-any.whl