PyPI - deepeval - Versions diffs - 3.4.8__py3-none-any.whl → 3.5.0__py3-none-any.whl - Mend

deepeval 3.4.8py3-none-any.whl → 3.5.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (47) hide show

deepeval/__init__.py +8 -5
deepeval/_version.py +1 -1
deepeval/benchmarks/drop/drop.py +2 -3
deepeval/benchmarks/hellaswag/hellaswag.py +2 -2
deepeval/benchmarks/logi_qa/logi_qa.py +2 -2
deepeval/benchmarks/math_qa/math_qa.py +2 -2
deepeval/benchmarks/mmlu/mmlu.py +2 -2
deepeval/benchmarks/truthful_qa/truthful_qa.py +2 -2
deepeval/cli/main.py +561 -727
deepeval/confident/api.py +30 -14
deepeval/config/__init__.py +0 -0
deepeval/config/settings.py +565 -0
deepeval/config/settings_manager.py +133 -0
deepeval/config/utils.py +86 -0
deepeval/dataset/__init__.py +1 -0
deepeval/dataset/dataset.py +70 -10
deepeval/dataset/test_run_tracer.py +82 -0
deepeval/dataset/utils.py +23 -0
deepeval/integrations/pydantic_ai/__init__.py +2 -4
deepeval/integrations/pydantic_ai/{setup.py → otel.py} +0 -8
deepeval/integrations/pydantic_ai/patcher.py +376 -0
deepeval/key_handler.py +1 -0
deepeval/metrics/answer_relevancy/template.py +7 -2
deepeval/metrics/faithfulness/template.py +11 -8
deepeval/metrics/multimodal_metrics/multimodal_answer_relevancy/template.py +6 -4
deepeval/metrics/multimodal_metrics/multimodal_faithfulness/template.py +6 -4
deepeval/metrics/tool_correctness/tool_correctness.py +7 -3
deepeval/models/llms/amazon_bedrock_model.py +24 -3
deepeval/models/llms/grok_model.py +1 -1
deepeval/models/llms/kimi_model.py +1 -1
deepeval/models/llms/openai_model.py +37 -41
deepeval/models/retry_policy.py +280 -0
deepeval/openai_agents/agent.py +4 -2
deepeval/test_run/api.py +1 -0
deepeval/tracing/otel/exporter.py +20 -8
deepeval/tracing/otel/utils.py +57 -0
deepeval/tracing/perf_epoch_bridge.py +4 -4
deepeval/tracing/tracing.py +37 -16
deepeval/tracing/utils.py +98 -1
deepeval/utils.py +111 -70
{deepeval-3.4.8.dist-info → deepeval-3.5.0.dist-info}/METADATA +16 -13
{deepeval-3.4.8.dist-info → deepeval-3.5.0.dist-info}/RECORD +45 -40
deepeval/env.py +0 -35
deepeval/integrations/pydantic_ai/agent.py +0 -364
{deepeval-3.4.8.dist-info → deepeval-3.5.0.dist-info}/LICENSE.md +0 -0
{deepeval-3.4.8.dist-info → deepeval-3.5.0.dist-info}/WHEEL +0 -0
{deepeval-3.4.8.dist-info → deepeval-3.5.0.dist-info}/entry_points.txt +0 -0

deepeval/__init__.py CHANGED Viewed

@@ -3,9 +3,9 @@ import warnings
 import re
 # load environment variables before other imports
-from .env import autoload_dotenv as _autoload_dotenv
+from deepeval.config.settings import autoload_dotenv, get_settings
-_autoload_dotenv()
+autoload_dotenv()
 from ._version import __version__
 from deepeval.evaluate import evaluate, assert_test
@@ -14,9 +14,12 @@ from deepeval.test_run import on_test_run_end, log_hyperparameters
 from deepeval.utils import login
 from deepeval.telemetry import *
-if os.getenv("DEEPEVAL_GRPC_LOGGING") != "1":
-    os.environ["GRPC_VERBOSITY"] = "ERROR"
-    os.environ["GRPC_TRACE"] = ""
+settings = get_settings()
+if not settings.DEEPEVAL_GRPC_LOGGING:
+    os.environ.setdefault("GRPC_VERBOSITY", "ERROR")
+    os.environ.setdefault("GRPC_TRACE", "")
 __all__ = [
     "login",

deepeval/_version.py CHANGED Viewed

	@@ -1 +1 @@
1	- __version__: str = "3.4.8"
1	+ __version__: str = "3.5.0"

deepeval/benchmarks/drop/drop.py CHANGED Viewed

@@ -1,6 +1,5 @@
-from typing import List, Optional, Dict
+from typing import List, Optional, Dict, Union
 from tqdm import tqdm
-from typing import Union
 from deepeval.dataset import Golden
 from deepeval.benchmarks.base_benchmark import (
@@ -50,7 +49,7 @@ class DROP(DeepEvalBaseBenchmark):
         self,
         model: DeepEvalBaseLLM,
         *args,
-        batch_size: int | None = None,
+        batch_size: Union[int, None] = None,
         **kwargs,
     ) -> DeepEvalBaseBenchmarkResult:
         import pandas as pd

deepeval/benchmarks/hellaswag/hellaswag.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from typing import List, Dict, Optional
+from typing import List, Dict, Optional, Union
 from tqdm import tqdm
 from deepeval.dataset import Golden
@@ -51,7 +51,7 @@ class HellaSwag(DeepEvalBaseBenchmark):
         self,
         model: DeepEvalBaseLLM,
         *args,
-        batch_size: int | None = None,
+        batch_size: Union[int, None] = None,
         **kwargs,
     ) -> DeepEvalBaseBenchmarkResult:
         import pandas as pd

deepeval/benchmarks/logi_qa/logi_qa.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from typing import List, Optional, Dict
+from typing import List, Optional, Dict, Union
 from tqdm import tqdm
 import requests
 import json
@@ -52,7 +52,7 @@ class LogiQA(DeepEvalBaseBenchmark):
         self,
         model: DeepEvalBaseLLM,
         *args,
-        batch_size: int | None = None,
+        batch_size: Union[int, None] = None,
         **kwargs,
     ) -> DeepEvalBaseBenchmarkResult:
         import pandas as pd

deepeval/benchmarks/math_qa/math_qa.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from typing import List, Optional, Dict
+from typing import List, Optional, Dict, Union
 from tqdm import tqdm
 from deepeval.dataset import Golden
@@ -50,7 +50,7 @@ class MathQA(DeepEvalBaseBenchmark):
         self,
         model: DeepEvalBaseLLM,
         *args,
-        batch_size: int | None = None,
+        batch_size: Union[int, None] = None,
         **kwargs,
     ) -> DeepEvalBaseBenchmarkResult:
         import pandas as pd

deepeval/benchmarks/mmlu/mmlu.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from typing import List, Optional, Dict
+from typing import List, Optional, Dict, Union
 from tqdm import tqdm
 from deepeval.dataset import Golden
@@ -49,7 +49,7 @@ class MMLU(DeepEvalBaseBenchmark):
         self,
         model: DeepEvalBaseLLM,
         *args,
-        batch_size: int | None = None,
+        batch_size: Union[int, None] = None,
         **kwargs,
     ) -> DeepEvalBaseBenchmarkResult:
         import pandas as pd

deepeval/benchmarks/truthful_qa/truthful_qa.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from typing import List, Dict, Optional
+from typing import List, Dict, Optional, Union
 from tqdm import tqdm
 from deepeval.dataset import Golden
@@ -59,7 +59,7 @@ class TruthfulQA(DeepEvalBaseBenchmark):
         self,
         model: DeepEvalBaseLLM,
         *args,
-        batch_size: int | None = None,
+        batch_size: Union[int, None] = None,
         **kwargs,
     ) -> DeepEvalBaseBenchmarkResult:
         import pandas as pd

deepeval 3.4.8__py3-none-any.whl → 3.5.0__py3-none-any.whl

deepeval 3.4.8py3-none-any.whl → 3.5.0py3-none-any.whl