PyPI - deepeval - Versions diffs - 3.6.6__py3-none-any.whl → 3.6.8__py3-none-any.whl - Mend

deepeval 3.6.6py3-none-any.whl → 3.6.8py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (134) hide show

deepeval/_version.py +1 -1
deepeval/benchmarks/equity_med_qa/equity_med_qa.py +1 -0
deepeval/cli/main.py +42 -0
deepeval/confident/api.py +1 -0
deepeval/config/settings.py +22 -4
deepeval/constants.py +8 -1
deepeval/dataset/dataset.py +2 -11
deepeval/dataset/utils.py +1 -1
deepeval/errors.py +20 -2
deepeval/evaluate/evaluate.py +5 -1
deepeval/evaluate/execute.py +811 -248
deepeval/evaluate/types.py +1 -0
deepeval/evaluate/utils.py +33 -119
deepeval/integrations/crewai/__init__.py +7 -1
deepeval/integrations/crewai/handler.py +1 -1
deepeval/integrations/crewai/subs.py +51 -0
deepeval/integrations/crewai/tool.py +71 -0
deepeval/integrations/crewai/wrapper.py +45 -5
deepeval/integrations/llama_index/__init__.py +0 -4
deepeval/integrations/llama_index/handler.py +20 -21
deepeval/integrations/pydantic_ai/instrumentator.py +125 -76
deepeval/metrics/__init__.py +13 -0
deepeval/metrics/answer_relevancy/answer_relevancy.py +12 -3
deepeval/metrics/api.py +281 -0
deepeval/metrics/argument_correctness/argument_correctness.py +12 -2
deepeval/metrics/base_metric.py +1 -0
deepeval/metrics/bias/bias.py +12 -3
deepeval/metrics/contextual_precision/contextual_precision.py +39 -24
deepeval/metrics/contextual_recall/contextual_recall.py +12 -3
deepeval/metrics/contextual_relevancy/contextual_relevancy.py +12 -1
deepeval/metrics/conversation_completeness/conversation_completeness.py +12 -0
deepeval/metrics/conversational_dag/conversational_dag.py +12 -0
deepeval/metrics/conversational_dag/nodes.py +12 -4
deepeval/metrics/conversational_g_eval/__init__.py +3 -0
deepeval/metrics/conversational_g_eval/conversational_g_eval.py +84 -66
deepeval/metrics/dag/dag.py +12 -0
deepeval/metrics/dag/nodes.py +12 -4
deepeval/metrics/dag/schema.py +1 -1
deepeval/metrics/dag/templates.py +2 -2
deepeval/metrics/faithfulness/faithfulness.py +12 -1
deepeval/metrics/g_eval/g_eval.py +11 -0
deepeval/metrics/goal_accuracy/__init__.py +1 -0
deepeval/metrics/goal_accuracy/goal_accuracy.py +349 -0
deepeval/metrics/goal_accuracy/schema.py +17 -0
deepeval/metrics/goal_accuracy/template.py +235 -0
deepeval/metrics/hallucination/hallucination.py +20 -9
deepeval/metrics/indicator.py +8 -2
deepeval/metrics/json_correctness/json_correctness.py +12 -1
deepeval/metrics/knowledge_retention/knowledge_retention.py +12 -0
deepeval/metrics/mcp/mcp_task_completion.py +20 -2
deepeval/metrics/mcp/multi_turn_mcp_use_metric.py +29 -6
deepeval/metrics/mcp_use_metric/mcp_use_metric.py +14 -2
deepeval/metrics/misuse/misuse.py +12 -1
deepeval/metrics/multimodal_metrics/image_coherence/image_coherence.py +3 -0
deepeval/metrics/multimodal_metrics/image_editing/image_editing.py +3 -0
deepeval/metrics/multimodal_metrics/image_helpfulness/image_helpfulness.py +3 -0
deepeval/metrics/multimodal_metrics/image_reference/image_reference.py +3 -0
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/multimodal_answer_relevancy.py +6 -1
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/multimodal_contextual_precision.py +38 -25
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/multimodal_contextual_recall.py +3 -0
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/multimodal_contextual_relevancy.py +3 -0
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/multimodal_faithfulness.py +3 -0
deepeval/metrics/multimodal_metrics/multimodal_g_eval/multimodal_g_eval.py +3 -0
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/multimodal_tool_correctness.py +10 -5
deepeval/metrics/non_advice/non_advice.py +12 -0
deepeval/metrics/pii_leakage/pii_leakage.py +12 -1
deepeval/metrics/plan_adherence/__init__.py +1 -0
deepeval/metrics/plan_adherence/plan_adherence.py +292 -0
deepeval/metrics/plan_adherence/schema.py +11 -0
deepeval/metrics/plan_adherence/template.py +170 -0
deepeval/metrics/plan_quality/__init__.py +1 -0
deepeval/metrics/plan_quality/plan_quality.py +292 -0
deepeval/metrics/plan_quality/schema.py +11 -0
deepeval/metrics/plan_quality/template.py +101 -0
deepeval/metrics/prompt_alignment/prompt_alignment.py +12 -1
deepeval/metrics/role_adherence/role_adherence.py +12 -0
deepeval/metrics/role_violation/role_violation.py +12 -0
deepeval/metrics/step_efficiency/__init__.py +1 -0
deepeval/metrics/step_efficiency/schema.py +11 -0
deepeval/metrics/step_efficiency/step_efficiency.py +234 -0
deepeval/metrics/step_efficiency/template.py +256 -0
deepeval/metrics/summarization/summarization.py +12 -1
deepeval/metrics/task_completion/task_completion.py +4 -0
deepeval/metrics/tool_correctness/schema.py +6 -0
deepeval/metrics/tool_correctness/template.py +88 -0
deepeval/metrics/tool_correctness/tool_correctness.py +233 -21
deepeval/metrics/tool_use/__init__.py +1 -0
deepeval/metrics/tool_use/schema.py +19 -0
deepeval/metrics/tool_use/template.py +220 -0
deepeval/metrics/tool_use/tool_use.py +458 -0
deepeval/metrics/topic_adherence/__init__.py +1 -0
deepeval/metrics/topic_adherence/schema.py +16 -0
deepeval/metrics/topic_adherence/template.py +162 -0
deepeval/metrics/topic_adherence/topic_adherence.py +355 -0
deepeval/metrics/toxicity/toxicity.py +12 -0
deepeval/metrics/turn_relevancy/turn_relevancy.py +12 -0
deepeval/models/embedding_models/azure_embedding_model.py +37 -36
deepeval/models/embedding_models/local_embedding_model.py +30 -32
deepeval/models/embedding_models/ollama_embedding_model.py +18 -20
deepeval/models/embedding_models/openai_embedding_model.py +22 -31
deepeval/models/llms/grok_model.py +1 -1
deepeval/models/llms/openai_model.py +2 -0
deepeval/openai/__init__.py +14 -32
deepeval/openai/extractors.py +85 -50
deepeval/openai/patch.py +258 -167
deepeval/openai/types.py +20 -0
deepeval/openai/utils.py +205 -56
deepeval/prompt/__init__.py +19 -1
deepeval/prompt/api.py +160 -0
deepeval/prompt/prompt.py +245 -62
deepeval/prompt/utils.py +186 -15
deepeval/synthesizer/chunking/context_generator.py +209 -152
deepeval/synthesizer/chunking/doc_chunker.py +46 -12
deepeval/synthesizer/synthesizer.py +19 -15
deepeval/test_case/api.py +131 -0
deepeval/test_case/llm_test_case.py +6 -2
deepeval/test_run/__init__.py +1 -0
deepeval/test_run/hyperparameters.py +47 -8
deepeval/test_run/test_run.py +292 -206
deepeval/tracing/__init__.py +2 -1
deepeval/tracing/api.py +3 -1
deepeval/tracing/otel/exporter.py +3 -4
deepeval/tracing/otel/utils.py +24 -5
deepeval/tracing/trace_context.py +89 -5
deepeval/tracing/tracing.py +74 -3
deepeval/tracing/types.py +20 -2
deepeval/tracing/utils.py +8 -0
deepeval/utils.py +21 -0
{deepeval-3.6.6.dist-info → deepeval-3.6.8.dist-info}/METADATA +1 -1
{deepeval-3.6.6.dist-info → deepeval-3.6.8.dist-info}/RECORD +133 -103
deepeval/integrations/llama_index/agent/patched.py +0 -68
{deepeval-3.6.6.dist-info → deepeval-3.6.8.dist-info}/LICENSE.md +0 -0
{deepeval-3.6.6.dist-info → deepeval-3.6.8.dist-info}/WHEEL +0 -0
{deepeval-3.6.6.dist-info → deepeval-3.6.8.dist-info}/entry_points.txt +0 -0

deepeval/evaluate/types.py CHANGED Viewed

@@ -10,6 +10,7 @@ from deepeval.test_case import MLLMImage
 class TestResult:
     """Returned from run_test"""
+    __test__ = False
     name: str
     success: bool
     metrics_data: Union[List[MetricData], None]

deepeval/evaluate/utils.py CHANGED Viewed

@@ -5,8 +5,6 @@ import os
 import time
 from deepeval.utils import format_turn
-from deepeval.test_case.conversational_test_case import Turn
-from deepeval.test_run.api import TurnApi
 from deepeval.test_run.test_run import TestRunResultDisplay
 from deepeval.dataset import Golden
 from deepeval.metrics import (
@@ -28,7 +26,6 @@ from deepeval.evaluate.types import TestResult
 from deepeval.tracing.api import TraceApi, BaseApiSpan, TraceSpanApiStatus
 from deepeval.tracing.tracing import BaseSpan, Trace
 from deepeval.tracing.types import TraceSpanStatus
-from deepeval.constants import PYTEST_RUN_TEST_NAME
 from deepeval.tracing.utils import (
     perf_counter_to_datetime,
     to_zod_compatible_iso,
@@ -133,121 +130,6 @@ def create_test_result(
             )
-def create_api_turn(turn: Turn, index: int) -> TurnApi:
-    return TurnApi(
-        role=turn.role,
-        content=turn.content,
-        user_id=turn.user_id,
-        retrievalContext=turn.retrieval_context,
-        toolsCalled=turn.tools_called,
-        additionalMetadata=turn.additional_metadata,
-        order=index,
-    )
-def create_api_test_case(
-    test_case: Union[LLMTestCase, ConversationalTestCase, MLLMTestCase],
-    trace: Optional[TraceApi] = None,
-    index: Optional[int] = None,
-) -> Union[LLMApiTestCase, ConversationalApiTestCase]:
-    if isinstance(test_case, ConversationalTestCase):
-        order = (
-            test_case._dataset_rank
-            if test_case._dataset_rank is not None
-            else index
-        )
-        if test_case.name:
-            name = test_case.name
-        else:
-            name = os.getenv(
-                PYTEST_RUN_TEST_NAME, f"conversational_test_case_{order}"
-            )
-        api_test_case = ConversationalApiTestCase(
-            name=name,
-            success=True,
-            metricsData=[],
-            runDuration=0,
-            evaluationCost=None,
-            order=order,
-            scenario=test_case.scenario,
-            expectedOutcome=test_case.expected_outcome,
-            userDescription=test_case.user_description,
-            context=test_case.context,
-            tags=test_case.tags,
-            comments=test_case.comments,
-            additionalMetadata=test_case.additional_metadata,
-        )
-        api_test_case.turns = [
-            create_api_turn(
-                turn=turn,
-                index=index,
-            )
-            for index, turn in enumerate(test_case.turns)
-        ]
-        return api_test_case
-    else:
-        order = (
-            test_case._dataset_rank
-            if test_case._dataset_rank is not None
-            else index
-        )
-        success = True
-        if test_case.name is not None:
-            name = test_case.name
-        else:
-            name = os.getenv(PYTEST_RUN_TEST_NAME, f"test_case_{order}")
-        metrics_data = []
-        if isinstance(test_case, LLMTestCase):
-            api_test_case = LLMApiTestCase(
-                name=name,
-                input=test_case.input,
-                actualOutput=test_case.actual_output,
-                expectedOutput=test_case.expected_output,
-                context=test_case.context,
-                retrievalContext=test_case.retrieval_context,
-                toolsCalled=test_case.tools_called,
-                expectedTools=test_case.expected_tools,
-                tokenCost=test_case.token_cost,
-                completionTime=test_case.completion_time,
-                tags=test_case.tags,
-                success=success,
-                metricsData=metrics_data,
-                runDuration=None,
-                evaluationCost=None,
-                order=order,
-                additionalMetadata=test_case.additional_metadata,
-                comments=test_case.comments,
-                trace=trace,
-            )
-        elif isinstance(test_case, MLLMTestCase):
-            api_test_case = LLMApiTestCase(
-                name=name,
-                input="",
-                multimodalInput=test_case.input,
-                multimodalActualOutput=test_case.actual_output,
-                multimodalExpectedOutput=test_case.expected_output,
-                multimodalRetrievalContext=test_case.retrieval_context,
-                multimodalContext=test_case.context,
-                toolsCalled=test_case.tools_called,
-                expectedTools=test_case.expected_tools,
-                tokenCost=test_case.token_cost,
-                completionTime=test_case.completion_time,
-                success=success,
-                metricsData=metrics_data,
-                runDuration=None,
-                evaluationCost=None,
-                order=order,
-                additionalMetadata=test_case.additional_metadata,
-                comments=test_case.comments,
-            )
-        # llm_test_case_lookup_map[instance_id] = api_test_case
-        return api_test_case
 def create_api_trace(trace: Trace, golden: Golden) -> TraceApi:
     return TraceApi(
         uuid=trace.uuid,
@@ -309,6 +191,26 @@ def validate_assert_test_inputs(
             "Both 'test_case' and 'metrics' must be provided together."
         )
+    if test_case and metrics:
+        if isinstance(test_case, LLMTestCase) and not all(
+            isinstance(metric, BaseMetric) for metric in metrics
+        ):
+            raise ValueError(
+                "All 'metrics' for an 'LLMTestCase' must be instances of 'BaseMetric' only."
+            )
+        if isinstance(test_case, ConversationalTestCase) and not all(
+            isinstance(metric, BaseConversationalMetric) for metric in metrics
+        ):
+            raise ValueError(
+                "All 'metrics' for an 'ConversationalTestCase' must be instances of 'BaseConversationalMetric' only."
+            )
+        if isinstance(test_case, MLLMTestCase) and not all(
+            isinstance(metric, BaseMultimodalMetric) for metric in metrics
+        ):
+            raise ValueError(
+                "All 'metrics' for an 'MLLMTestCase' must be instances of 'BaseMultimodalMetric' only."
+            )
     if not ((golden and observed_callback) or (test_case and metrics)):
         raise ValueError(
             "You must provide either ('golden' + 'observed_callback') or ('test_case' + 'metrics')."
@@ -577,6 +479,18 @@ def count_metrics_in_trace(trace: Trace) -> int:
     return sum(count_metrics_recursive(span) for span in trace.root_spans)
+def count_total_metrics_for_trace(trace: Trace) -> int:
+    """Span subtree metrics + trace-level metrics."""
+    return count_metrics_in_trace(trace=trace) + len(trace.metrics or [])
+def count_metrics_in_span_subtree(span: BaseSpan) -> int:
+    total = len(span.metrics or [])
+    for c in span.children or []:
+        total += count_metrics_in_span_subtree(c)
+    return total
 def extract_trace_test_results(trace_api: TraceApi) -> List[TestResult]:
     test_results: List[TestResult] = []
     # extract trace result
@@ -619,7 +533,7 @@ def extract_span_test_results(span_api: BaseApiSpan) -> List[TestResult]:
         test_results.append(
             TestResult(
                 name=span_api.name,
-                success=span_api.status == "SUCCESS",
+                success=span_api.status == TraceSpanApiStatus.SUCCESS,
                 metrics_data=span_api.metrics_data,
                 input=span_api.input,
                 actual_output=span_api.output,

deepeval/integrations/crewai/__init__.py CHANGED Viewed

@@ -1,3 +1,9 @@
 from .handler import instrument_crewai
+from .subs import (
+    DeepEvalCrew as Crew,
+    DeepEvalAgent as Agent,
+    DeepEvalLLM as LLM,
+)
+from .tool import tool
-__all__ = ["instrument_crewai"]
+__all__ = ["instrument_crewai", "Crew", "Agent", "LLM", "tool"]

deepeval/integrations/crewai/handler.py CHANGED Viewed

@@ -13,7 +13,7 @@ logger = logging.getLogger(__name__)
 try:
-    from crewai.utilities.events.base_event_listener import BaseEventListener
+    from crewai.events import BaseEventListener
     from crewai.events import (
         CrewKickoffStartedEvent,
         CrewKickoffCompletedEvent,

deepeval/integrations/crewai/subs.py ADDED Viewed

@@ -0,0 +1,51 @@
+from typing import List, Optional, Type, TypeVar
+from pydantic import PrivateAttr
+from deepeval.metrics.base_metric import BaseMetric
+try:
+    from crewai import Crew, Agent, LLM
+    is_crewai_installed = True
+except ImportError:
+    is_crewai_installed = False
+def is_crewai_installed():
+    if not is_crewai_installed:
+        raise ImportError(
+            "CrewAI is not installed. Please install it with `pip install crewai`."
+        )
+T = TypeVar("T")
+def create_deepeval_class(base_class: Type[T], class_name: str) -> Type[T]:
+    """Factory function to create DeepEval-enabled CrewAI classes"""
+    class DeepEvalClass(base_class):
+        _metric_collection: Optional[str] = PrivateAttr(default=None)
+        _metrics: Optional[List[BaseMetric]] = PrivateAttr(default=None)
+        def __init__(
+            self,
+            *args,
+            metrics: Optional[List[BaseMetric]] = None,
+            metric_collection: Optional[str] = None,
+            **kwargs
+        ):
+            is_crewai_installed()
+            super().__init__(*args, **kwargs)
+            self._metric_collection = metric_collection
+            self._metrics = metrics
+    DeepEvalClass.__name__ = class_name
+    DeepEvalClass.__qualname__ = class_name
+    return DeepEvalClass
+# Create the classes
+DeepEvalCrew = create_deepeval_class(Crew, "DeepEvalCrew")
+DeepEvalAgent = create_deepeval_class(Agent, "DeepEvalAgent")
+DeepEvalLLM = create_deepeval_class(LLM, "DeepEvalLLM")

deepeval/integrations/crewai/tool.py ADDED Viewed

@@ -0,0 +1,71 @@
+import functools
+from typing import Callable
+from crewai.tools import tool as crewai_tool
+from deepeval.tracing.context import current_span_context
+from deepeval.tracing.types import ToolSpan
+def tool(*args, metric=None, metric_collection=None, **kwargs) -> Callable:
+    """
+    Simple wrapper around crewai.tools.tool that:
+      - prints the original function's input and output
+      - accepts additional parameters: metric and metric_collection (unused, for compatibility)
+      - remains backward compatible with CrewAI's decorator usage patterns
+    """
+    crewai_kwargs = kwargs
+    # Case 1: @tool (function passed directly)
+    if len(args) == 1 and callable(args[0]):
+        f = args[0]
+        tool_name = f.__name__
+        @functools.wraps(f)
+        def wrapped(*f_args, **f_kwargs):
+            current_span = current_span_context.get()
+            if current_span and isinstance(current_span, ToolSpan):
+                current_span.metric_collection = metric_collection
+                current_span.metrics = metric
+            result = f(*f_args, **f_kwargs)
+            return result
+        return crewai_tool(tool_name, **crewai_kwargs)(wrapped)
+    # Case 2: @tool("name")
+    if len(args) == 1 and isinstance(args[0], str):
+        tool_name = args[0]
+        def _decorator(f: Callable) -> Callable:
+            @functools.wraps(f)
+            def wrapped(*f_args, **f_kwargs):
+                current_span = current_span_context.get()
+                if current_span and isinstance(current_span, ToolSpan):
+                    current_span.metric_collection = metric_collection
+                    current_span.metrics = metric
+                result = f(*f_args, **f_kwargs)
+                return result
+            return crewai_tool(tool_name, **crewai_kwargs)(wrapped)
+        return _decorator
+    # Case 3: @tool(result_as_answer=True, ...) — kwargs only
+    if len(args) == 0:
+        def _decorator(f: Callable) -> Callable:
+            tool_name = f.__name__
+            @functools.wraps(f)
+            def wrapped(*f_args, **f_kwargs):
+                current_span = current_span_context.get()
+                if current_span and isinstance(current_span, ToolSpan):
+                    current_span.metric_collection = metric_collection
+                    current_span.metrics = metric
+                result = f(*f_args, **f_kwargs)
+                return result
+            return crewai_tool(tool_name, **crewai_kwargs)(wrapped)
+        return _decorator
+    raise ValueError("Invalid arguments")

deepeval/integrations/crewai/wrapper.py CHANGED Viewed

@@ -3,6 +3,7 @@ from crewai.crew import Crew
 from crewai.agent import Agent
 from functools import wraps
 from deepeval.tracing.tracing import Observer
+from typing import Any
 def wrap_crew_kickoff():
@@ -10,7 +11,13 @@ def wrap_crew_kickoff():
     @wraps(original_kickoff)
     def wrapper(self, *args, **kwargs):
-        with Observer(span_type="crew", func_name="kickoff"):
+        metric_collection, metrics = _check_metrics_and_metric_collection(self)
+        with Observer(
+            span_type="crew",
+            func_name="kickoff",
+            metric_collection=metric_collection,
+            metrics=metrics,
+        ):
             result = original_kickoff(self, *args, **kwargs)
         return result
@@ -23,7 +30,13 @@ def wrap_crew_kickoff_for_each():
     @wraps(original_kickoff_for_each)
     def wrapper(self, *args, **kwargs):
-        with Observer(span_type="crew", func_name="kickoff_for_each"):
+        metric_collection, metrics = _check_metrics_and_metric_collection(self)
+        with Observer(
+            span_type="crew",
+            func_name="kickoff_for_each",
+            metric_collection=metric_collection,
+            metrics=metrics,
+        ):
             result = original_kickoff_for_each(self, *args, **kwargs)
         return result
@@ -36,7 +49,13 @@ def wrap_crew_kickoff_async():
     @wraps(original_kickoff_async)
     async def wrapper(self, *args, **kwargs):
-        with Observer(span_type="crew", func_name="kickoff_async"):
+        metric_collection, metrics = _check_metrics_and_metric_collection(self)
+        with Observer(
+            span_type="crew",
+            func_name="kickoff_async",
+            metric_collection=metric_collection,
+            metrics=metrics,
+        ):
             result = await original_kickoff_async(self, *args, **kwargs)
         return result
@@ -49,7 +68,13 @@ def wrap_crew_kickoff_for_each_async():
     @wraps(original_kickoff_for_each_async)
     async def wrapper(self, *args, **kwargs):
-        with Observer(span_type="crew", func_name="kickoff_for_each_async"):
+        metric_collection, metrics = _check_metrics_and_metric_collection(self)
+        with Observer(
+            span_type="crew",
+            func_name="kickoff_for_each_async",
+            metric_collection=metric_collection,
+            metrics=metrics,
+        ):
             result = await original_kickoff_for_each_async(
                 self, *args, **kwargs
             )
@@ -64,10 +89,13 @@ def wrap_llm_call():
     @wraps(original_llm_call)
     def wrapper(self, *args, **kwargs):
+        metric_collection, metrics = _check_metrics_and_metric_collection(self)
         with Observer(
             span_type="llm",
             func_name="call",
             observe_kwargs={"model": "temp_model"},
+            metric_collection=metric_collection,
+            metrics=metrics,
         ):
             result = original_llm_call(self, *args, **kwargs)
         return result
@@ -80,8 +108,20 @@ def wrap_agent_execute_task():
     @wraps(original_execute_task)
     def wrapper(self, *args, **kwargs):
-        with Observer(span_type="agent", func_name="execute_task"):
+        metric_collection, metrics = _check_metrics_and_metric_collection(self)
+        with Observer(
+            span_type="agent",
+            func_name="execute_task",
+            metric_collection=metric_collection,
+            metrics=metrics,
+        ):
             result = original_execute_task(self, *args, **kwargs)
         return result
     Agent.execute_task = wrapper
+def _check_metrics_and_metric_collection(obj: Any):
+    metric_collection = getattr(obj, "_metric_collection", None)
+    metrics = getattr(obj, "_metrics", None)
+    return metric_collection, metrics

deepeval/integrations/llama_index/__init__.py CHANGED Viewed

@@ -1,10 +1,6 @@
 from .handler import instrument_llama_index
-from .agent.patched import FunctionAgent, ReActAgent, CodeActAgent
 __all__ = [
     "instrument_llama_index",
-    "FunctionAgent",
-    "ReActAgent",
-    "CodeActAgent",
 ]

deepeval/integrations/llama_index/handler.py CHANGED Viewed

@@ -5,6 +5,10 @@ import uuid
 from deepeval.telemetry import capture_tracing_integration
 from deepeval.tracing import trace_manager
 from deepeval.tracing.types import AgentSpan, BaseSpan, LlmSpan, TraceSpanStatus
+from deepeval.tracing.trace_context import (
+    current_llm_context,
+    current_agent_context,
+)
 try:
     from llama_index.core.instrumentation.events.base import BaseEvent
@@ -22,11 +26,6 @@ try:
         LLMChatEndEvent,
     )
     from llama_index_instrumentation.dispatcher import Dispatcher
-    from deepeval.integrations.llama_index.agent.patched import (
-        FunctionAgent as PatchedFunctionAgent,
-        ReActAgent as PatchedReActAgent,
-        CodeActAgent as PatchedCodeActAgent,
-    )
     from deepeval.integrations.llama_index.utils import (
         parse_id,
         prepare_input_llm_test_case_params,
@@ -67,6 +66,7 @@ class LLamaIndexHandler(BaseEventHandler, BaseSpanHandler):
                 ).strip()
                 input_messages.append({"role": role, "content": content})
+            llm_span_context = current_llm_context.get()
             # create the span
             llm_span = LlmSpan(
                 name="ConfidentLLMSpan",
@@ -83,6 +83,12 @@ class LLamaIndexHandler(BaseEventHandler, BaseSpanHandler):
                 ),  # check the model name not coming in this option
                 input=input_messages,
                 output="",
+                metrics=llm_span_context.metrics if llm_span_context else None,
+                metric_collection=(
+                    llm_span_context.metric_collection
+                    if llm_span_context
+                    else None
+                ),
             )
             trace_manager.add_span(llm_span)
             trace_manager.add_span_to_trace(llm_span)
@@ -144,6 +150,7 @@ class LLamaIndexHandler(BaseEventHandler, BaseSpanHandler):
         # conditions to qualify as agent start run span
         if method_name == "run":
+            agent_span_context = current_agent_context.get()
             span = AgentSpan(
                 uuid=id_,
                 status=TraceSpanStatus.IN_PROGRESS,
@@ -153,24 +160,16 @@ class LLamaIndexHandler(BaseEventHandler, BaseSpanHandler):
                 start_time=perf_counter(),
                 name="Agent",  # TODO: decide the name of the span
                 input=bound_args.arguments,
+                metrics=(
+                    agent_span_context.metrics if agent_span_context else None
+                ),
+                metric_collection=(
+                    agent_span_context.metric_collection
+                    if agent_span_context
+                    else None
+                ),
             )
-            # check if the instance is a PatchedFunctionAgent
-            if isinstance(instance, PatchedFunctionAgent):
-                span.name = "FunctionAgent"
-                span.metric_collection = instance.metric_collection
-                span.metrics = instance.metrics
-            if isinstance(instance, PatchedReActAgent):
-                span.name = "ReActAgent"
-                span.metric_collection = instance.metric_collection
-                span.metrics = instance.metrics
-            if isinstance(instance, PatchedCodeActAgent):
-                span.name = "CodeActAgent"
-                span.metric_collection = instance.metric_collection
-                span.metrics = instance.metrics
         # prepare input test case params for the span
         prepare_input_llm_test_case_params(
             class_name, method_name, span, bound_args.arguments

deepeval 3.6.6__py3-none-any.whl → 3.6.8__py3-none-any.whl

deepeval 3.6.6py3-none-any.whl → 3.6.8py3-none-any.whl