PyPI - deepeval - Versions diffs - 3.6.6__py3-none-any.whl → 3.6.7__py3-none-any.whl - Mend

deepeval 3.6.6py3-none-any.whl → 3.6.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (92) hide show

deepeval/_version.py +1 -1
deepeval/benchmarks/equity_med_qa/equity_med_qa.py +1 -0
deepeval/cli/main.py +42 -0
deepeval/confident/api.py +1 -0
deepeval/config/settings.py +22 -4
deepeval/constants.py +8 -1
deepeval/dataset/dataset.py +2 -11
deepeval/dataset/utils.py +1 -1
deepeval/evaluate/evaluate.py +5 -1
deepeval/evaluate/execute.py +97 -42
deepeval/evaluate/utils.py +20 -116
deepeval/integrations/crewai/__init__.py +6 -1
deepeval/integrations/crewai/handler.py +1 -1
deepeval/integrations/crewai/subs.py +51 -0
deepeval/integrations/crewai/wrapper.py +45 -5
deepeval/metrics/answer_relevancy/answer_relevancy.py +12 -3
deepeval/metrics/api.py +281 -0
deepeval/metrics/argument_correctness/argument_correctness.py +12 -2
deepeval/metrics/bias/bias.py +12 -3
deepeval/metrics/contextual_precision/contextual_precision.py +12 -3
deepeval/metrics/contextual_recall/contextual_recall.py +12 -3
deepeval/metrics/contextual_relevancy/contextual_relevancy.py +12 -1
deepeval/metrics/conversation_completeness/conversation_completeness.py +12 -0
deepeval/metrics/conversational_dag/conversational_dag.py +12 -0
deepeval/metrics/conversational_dag/nodes.py +12 -4
deepeval/metrics/conversational_g_eval/conversational_g_eval.py +73 -59
deepeval/metrics/dag/dag.py +12 -0
deepeval/metrics/dag/nodes.py +12 -4
deepeval/metrics/faithfulness/faithfulness.py +12 -1
deepeval/metrics/g_eval/g_eval.py +11 -0
deepeval/metrics/hallucination/hallucination.py +12 -1
deepeval/metrics/indicator.py +8 -2
deepeval/metrics/json_correctness/json_correctness.py +12 -1
deepeval/metrics/knowledge_retention/knowledge_retention.py +12 -0
deepeval/metrics/mcp/mcp_task_completion.py +13 -0
deepeval/metrics/mcp/multi_turn_mcp_use_metric.py +13 -0
deepeval/metrics/mcp_use_metric/mcp_use_metric.py +12 -1
deepeval/metrics/misuse/misuse.py +12 -1
deepeval/metrics/multimodal_metrics/image_coherence/image_coherence.py +3 -0
deepeval/metrics/multimodal_metrics/image_editing/image_editing.py +3 -0
deepeval/metrics/multimodal_metrics/image_helpfulness/image_helpfulness.py +3 -0
deepeval/metrics/multimodal_metrics/image_reference/image_reference.py +3 -0
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/multimodal_answer_relevancy.py +6 -1
deepeval/metrics/multimodal_metrics/multimodal_contextual_precision/multimodal_contextual_precision.py +6 -1
deepeval/metrics/multimodal_metrics/multimodal_contextual_recall/multimodal_contextual_recall.py +3 -0
deepeval/metrics/multimodal_metrics/multimodal_contextual_relevancy/multimodal_contextual_relevancy.py +3 -0
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/multimodal_faithfulness.py +3 -0
deepeval/metrics/multimodal_metrics/multimodal_g_eval/multimodal_g_eval.py +3 -0
deepeval/metrics/multimodal_metrics/multimodal_tool_correctness/multimodal_tool_correctness.py +10 -5
deepeval/metrics/non_advice/non_advice.py +12 -0
deepeval/metrics/pii_leakage/pii_leakage.py +12 -1
deepeval/metrics/prompt_alignment/prompt_alignment.py +12 -1
deepeval/metrics/role_adherence/role_adherence.py +12 -0
deepeval/metrics/role_violation/role_violation.py +12 -0
deepeval/metrics/summarization/summarization.py +12 -1
deepeval/metrics/task_completion/task_completion.py +3 -0
deepeval/metrics/tool_correctness/tool_correctness.py +8 -0
deepeval/metrics/toxicity/toxicity.py +12 -0
deepeval/metrics/turn_relevancy/turn_relevancy.py +12 -0
deepeval/models/llms/grok_model.py +1 -1
deepeval/models/llms/openai_model.py +2 -0
deepeval/openai/__init__.py +14 -32
deepeval/openai/extractors.py +24 -34
deepeval/openai/patch.py +256 -161
deepeval/openai/types.py +20 -0
deepeval/openai/utils.py +98 -56
deepeval/prompt/__init__.py +19 -1
deepeval/prompt/api.py +160 -0
deepeval/prompt/prompt.py +244 -62
deepeval/prompt/utils.py +144 -2
deepeval/synthesizer/chunking/context_generator.py +209 -152
deepeval/synthesizer/chunking/doc_chunker.py +46 -12
deepeval/synthesizer/synthesizer.py +8 -5
deepeval/test_case/api.py +131 -0
deepeval/test_run/__init__.py +1 -0
deepeval/test_run/hyperparameters.py +47 -8
deepeval/test_run/test_run.py +104 -1
deepeval/tracing/api.py +3 -1
deepeval/tracing/message_types/__init__.py +10 -0
deepeval/tracing/message_types/base.py +6 -0
deepeval/tracing/message_types/messages.py +14 -0
deepeval/tracing/message_types/tools.py +18 -0
deepeval/tracing/otel/utils.py +1 -1
deepeval/tracing/trace_context.py +73 -4
deepeval/tracing/tracing.py +51 -3
deepeval/tracing/types.py +16 -0
deepeval/tracing/utils.py +8 -0
{deepeval-3.6.6.dist-info → deepeval-3.6.7.dist-info}/METADATA +1 -1
{deepeval-3.6.6.dist-info → deepeval-3.6.7.dist-info}/RECORD +92 -84
{deepeval-3.6.6.dist-info → deepeval-3.6.7.dist-info}/LICENSE.md +0 -0
{deepeval-3.6.6.dist-info → deepeval-3.6.7.dist-info}/WHEEL +0 -0
{deepeval-3.6.6.dist-info → deepeval-3.6.7.dist-info}/entry_points.txt +0 -0

deepeval/openai/utils.py CHANGED Viewed

@@ -1,67 +1,39 @@
-from typing import List
+import json
 import uuid
+from typing import Any, List, Optional
 from deepeval.tracing.types import ToolSpan, TraceSpanStatus
-from deepeval.openai.extractors import InputParameters, OutputParameters
 from deepeval.tracing.context import current_span_context
-from deepeval.test_case import LLMTestCase
-from deepeval.metrics import BaseMetric
-from deepeval.tracing.types import TestCaseMetricPair
-openai_test_case_pairs: List[TestCaseMetricPair] = []
-def set_attr_path(obj, attr_path: str, value):
-    *pre_path, final_attr = attr_path.split(".")
-    for attr in pre_path:
-        obj = getattr(obj, attr, None)
-        if obj is None:
-            return
-    setattr(obj, final_attr, value)
-def get_attr_path(obj, attr_path: str):
-    for attr in attr_path.split("."):
-        obj = getattr(obj, attr, None)
-        if obj is None:
-            return None
-    return obj
-def add_test_case(
-    test_case: LLMTestCase,
-    metrics: List[BaseMetric],
-    input_parameters: InputParameters,
-):
-    openai_test_case_pairs.append(
-        TestCaseMetricPair(
-            test_case=test_case,
-            metrics=metrics,
-            hyperparameters=create_hyperparameters_map(input_parameters),
+from deepeval.utils import shorten, len_long
+from deepeval.openai.types import OutputParameters
+_URL_MAX = 200
+_JSON_MAX = max(
+    len_long(), 400
+)  # <- make this bigger by increasing DEEPEVAL_MAXLEN_LONG above 400
+def _compact_dump(value: Any) -> str:
+    try:
+        dumped = json.dumps(
+            value, ensure_ascii=False, default=str, separators=(",", ":")
         )
-    )
-def create_hyperparameters_map(input_parameters: InputParameters):
-    hyperparameters = {"model": input_parameters.model}
-    if input_parameters.instructions:
-        hyperparameters["system_prompt"] = input_parameters.instructions
-    elif input_parameters.messages:
-        system_messages = [
-            m["content"]
-            for m in input_parameters.messages
-            if m["role"] == "system"
-        ]
-        if system_messages:
-            hyperparameters["system_prompt"] = (
-                system_messages[0]
-                if len(system_messages) == 1
-                else str(system_messages)
-            )
-    return hyperparameters
+    except Exception:
+        dumped = repr(value)
+    return shorten(dumped, max_len=_JSON_MAX)
+def _fmt_url(url: Optional[str]) -> str:
+    if not url:
+        return ""
+    if url.startswith("data:"):
+        return "[data-uri]"
+    return shorten(url, max_len=_URL_MAX)
 def create_child_tool_spans(output_parameters: OutputParameters):
     if output_parameters.tools_called is None:
         return
@@ -84,3 +56,73 @@ def create_child_tool_spans(output_parameters: OutputParameters):
             }
         )
         current_span.children.append(tool_span)
+def stringify_multimodal_content(content: Any) -> str:
+    """
+    Return a short, human-readable summary string for an OpenAI-style multimodal `content` value.
+    This is used to populate span summaries, such as `InputParameters.input`. It never raises and
+    never returns huge blobs.
+    Notes:
+    - Data URIs are redacted to "[data-uri]".
+    - Output is capped via `deepeval.utils.shorten` (configurable through settings).
+    - Fields that are not explicitly handled are returned as size-capped JSON dumps
+    - This string is for display/summary only, not intended to be parsable.
+    Args:
+        content: The value of an OpenAI message `content`, may be a str or list of typed parts,
+                 or any nested structure.
+    Returns:
+        A short, readable `str` summary.
+    """
+    if content is None:
+        return ""
+    if isinstance(content, str):
+        return content
+    if isinstance(content, (bytes, bytearray)):
+        return f"[bytes:{len(content)}]"
+    # list of parts for Chat & Responses
+    if isinstance(content, list):
+        parts: List[str] = []
+        for part in content:
+            s = stringify_multimodal_content(part)
+            if s:
+                parts.append(s)
+        return "\n".join(parts)
+    # documented dict shapes (Chat & Responses)
+    if isinstance(content, dict):
+        t = content.get("type")
+        # Chat Completions
+        if t == "text":
+            return str(content.get("text", ""))
+        if t == "image_url":
+            image_url = content.get("image_url")
+            if isinstance(image_url, str):
+                url = image_url
+            else:
+                url = (image_url or {}).get("url") or content.get("url")
+            return f"[image:{_fmt_url(url)}]"
+        # Responses API variants
+        if t == "input_text":
+            return str(content.get("text", ""))
+        if t == "input_image":
+            image_url = content.get("image_url")
+            if isinstance(image_url, str):
+                url = image_url
+            else:
+                url = (image_url or {}).get("url") or content.get("url")
+            return f"[image:{_fmt_url(url)}]"
+        # readability for other input_* types we don't currently handle
+        if t and t.startswith("input_"):
+            return f"[{t}]"
+    # unknown dicts and types returned as shortened JSON
+    return _compact_dump(content)

deepeval/prompt/__init__.py CHANGED Viewed

@@ -1,3 +1,21 @@
 from .prompt import Prompt
+from .api import (
+    PromptMessage,
+    ModelSettings,
+    ModelProvider,
+    Verbosity,
+    ReasoningEffort,
+    OutputType,
+    PromptInterpolationType,
+)
-__all__ = ["Prompt"]
+__all__ = [
+    "Prompt",
+    "PromptMessage",
+    "ModelSettings",
+    "ModelProvider",
+    "Verbosity",
+    "ReasoningEffort",
+    "OutputType",
+    "PromptInterpolationType",
+]

deepeval/prompt/api.py CHANGED Viewed

@@ -1,6 +1,119 @@
 from pydantic import BaseModel, Field, AliasChoices
 from enum import Enum
 from typing import List, Optional
+from pydantic import TypeAdapter
+###################################
+# Model Settings
+###################################
+class ReasoningEffort(Enum):
+    MINIMAL = "MINIMAL"
+    LOW = "LOW"
+    MEDIUM = "MEDIUM"
+    HIGH = "HIGH"
+class Verbosity(Enum):
+    LOW = "LOW"
+    MEDIUM = "MEDIUM"
+    HIGH = "HIGH"
+class ModelProvider(Enum):
+    OPEN_AI = "OPEN_AI"
+    ANTHROPIC = "ANTHROPIC"
+    GEMINI = "GEMINI"
+    X_AI = "X_AI"
+    DEEPSEEK = "DEEPSEEK"
+    BEDROCK = "BEDROCK"
+class ModelSettings(BaseModel):
+    provider: Optional[ModelProvider] = None
+    name: Optional[str] = None
+    temperature: Optional[float] = None
+    max_tokens: Optional[int] = Field(
+        default=None,
+        serialization_alias="maxTokens",
+        validation_alias=AliasChoices("max_tokens", "maxTokens"),
+    )
+    top_p: Optional[float] = Field(
+        default=None,
+        serialization_alias="topP",
+        validation_alias=AliasChoices("top_p", "topP"),
+    )
+    frequency_penalty: Optional[float] = Field(
+        default=None,
+        serialization_alias="frequencyPenalty",
+        validation_alias=AliasChoices("frequency_penalty", "frequencyPenalty"),
+    )
+    presence_penalty: Optional[float] = Field(
+        default=None,
+        serialization_alias="presencePenalty",
+        validation_alias=AliasChoices("presence_penalty", "presencePenalty"),
+    )
+    stop_sequence: Optional[List[str]] = Field(
+        default=None,
+        serialization_alias="stopSequence",
+        validation_alias=AliasChoices("stop_sequence", "stopSequence"),
+    )
+    reasoning_effort: Optional[ReasoningEffort] = Field(
+        default=None,
+        serialization_alias="reasoningEffort",
+        validation_alias=AliasChoices("reasoning_effort", "reasoningEffort"),
+    )
+    verbosity: Optional[Verbosity] = Field(
+        default=None,
+        serialization_alias="verbosity",
+        validation_alias=AliasChoices("verbosity", "verbosity"),
+    )
+###################################
+# Output Settings
+###################################
+class OutputType(Enum):
+    TEXT = "TEXT"
+    JSON = "JSON"
+    SCHEMA = "SCHEMA"
+class SchemaDataType(Enum):
+    OBJECT = "OBJECT"
+    STRING = "STRING"
+    FLOAT = "FLOAT"
+    INTEGER = "INTEGER"
+    BOOLEAN = "BOOLEAN"
+    NULL = "NULL"
+class OutputSchemaField(BaseModel):
+    id: str
+    type: SchemaDataType
+    name: str
+    required: Optional[bool] = False
+    parent_id: Optional[str] = Field(
+        default=None,
+        serialization_alias="parentId",
+        validation_alias=AliasChoices("parent_id", "parentId"),
+    )
+    class Config:
+        use_enum_values = True
+class OutputSchema(BaseModel):
+    fields: Optional[List[OutputSchemaField]] = None
+    name: str
+###################################
+# Prompt
+###################################
 class PromptInterpolationType(Enum):
@@ -16,6 +129,9 @@ class PromptMessage(BaseModel):
     content: str
+PromptMessageList = TypeAdapter(List[PromptMessage])
 class PromptType(Enum):
     TEXT = "TEXT"
     LIST = "LIST"
@@ -53,6 +169,21 @@ class PromptHttpResponse(BaseModel):
         serialization_alias="interpolationType"
     )
     type: PromptType
+    model_settings: Optional[ModelSettings] = Field(
+        default=None,
+        serialization_alias="modelSettings",
+        validation_alias=AliasChoices("model_settings", "modelSettings"),
+    )
+    output_type: Optional[OutputType] = Field(
+        default=None,
+        serialization_alias="outputType",
+        validation_alias=AliasChoices("output_type", "outputType"),
+    )
+    output_schema: Optional[OutputSchema] = Field(
+        default=None,
+        serialization_alias="outputSchema",
+        validation_alias=AliasChoices("output_schema", "outputSchema"),
+    )
 class PromptPushRequest(BaseModel):
@@ -62,6 +193,35 @@ class PromptPushRequest(BaseModel):
     interpolation_type: PromptInterpolationType = Field(
         serialization_alias="interpolationType"
     )
+    model_settings: Optional[ModelSettings] = Field(
+        default=None, serialization_alias="modelSettings"
+    )
+    output_schema: Optional[OutputSchema] = Field(
+        default=None, serialization_alias="outputSchema"
+    )
+    output_type: Optional[OutputType] = Field(
+        default=None, serialization_alias="outputType"
+    )
+    class Config:
+        use_enum_values = True
+class PromptUpdateRequest(BaseModel):
+    text: Optional[str] = None
+    messages: Optional[List[PromptMessage]] = None
+    interpolation_type: PromptInterpolationType = Field(
+        serialization_alias="interpolationType"
+    )
+    model_settings: Optional[ModelSettings] = Field(
+        default=None, serialization_alias="modelSettings"
+    )
+    output_schema: Optional[OutputSchema] = Field(
+        default=None, serialization_alias="outputSchema"
+    )
+    output_type: Optional[OutputType] = Field(
+        default=None, serialization_alias="outputType"
+    )
     class Config:
         use_enum_values = True

deepeval 3.6.6__py3-none-any.whl → 3.6.7__py3-none-any.whl

deepeval 3.6.6py3-none-any.whl → 3.6.7py3-none-any.whl