PyPI - uipath - Versions diffs - 2.1.108__py3-none-any.whl → 2.1.109__py3-none-any.whl - Mend

uipath 2.1.108py3-none-any.whl → 2.1.109py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of uipath might be problematic. Click here for more details.

Files changed (69) hide show

uipath/_cli/__init__.py +4 -0
uipath/_cli/_evals/_console_progress_reporter.py +2 -2
uipath/_cli/_evals/_evaluator_factory.py +314 -29
uipath/_cli/_evals/_helpers.py +194 -0
uipath/_cli/_evals/_models/_evaluation_set.py +73 -7
uipath/_cli/_evals/_models/_evaluator.py +183 -9
uipath/_cli/_evals/_models/_evaluator_base_params.py +3 -3
uipath/_cli/_evals/_models/_output.py +87 -3
uipath/_cli/_evals/_progress_reporter.py +288 -28
uipath/_cli/_evals/_runtime.py +80 -26
uipath/_cli/_evals/mocks/input_mocker.py +1 -3
uipath/_cli/_evals/mocks/llm_mocker.py +2 -2
uipath/_cli/_evals/mocks/mocker_factory.py +2 -2
uipath/_cli/_evals/mocks/mockito_mocker.py +2 -2
uipath/_cli/_evals/mocks/mocks.py +5 -3
uipath/_cli/_push/models.py +17 -0
uipath/_cli/_push/sw_file_handler.py +336 -3
uipath/_cli/_templates/custom_evaluator.py.template +65 -0
uipath/_cli/_utils/_eval_set.py +30 -9
uipath/_cli/_utils/_resources.py +21 -0
uipath/_cli/_utils/_studio_project.py +18 -0
uipath/_cli/cli_add.py +114 -0
uipath/_cli/cli_eval.py +5 -1
uipath/_cli/cli_pull.py +11 -26
uipath/_cli/cli_push.py +2 -0
uipath/_cli/cli_register.py +45 -0
uipath/_events/_events.py +6 -5
uipath/_utils/constants.py +4 -0
uipath/eval/_helpers/evaluators_helpers.py +494 -0
uipath/eval/_helpers/helpers.py +30 -2
uipath/eval/evaluators/__init__.py +60 -5
uipath/eval/evaluators/base_evaluator.py +546 -44
uipath/eval/evaluators/contains_evaluator.py +80 -0
uipath/eval/evaluators/exact_match_evaluator.py +43 -12
uipath/eval/evaluators/json_similarity_evaluator.py +41 -12
uipath/eval/evaluators/legacy_base_evaluator.py +89 -0
uipath/eval/evaluators/{deterministic_evaluator_base.py → legacy_deterministic_evaluator_base.py} +2 -2
uipath/eval/evaluators/legacy_exact_match_evaluator.py +37 -0
uipath/eval/evaluators/legacy_json_similarity_evaluator.py +151 -0
uipath/eval/evaluators/legacy_llm_as_judge_evaluator.py +137 -0
uipath/eval/evaluators/{trajectory_evaluator.py → legacy_trajectory_evaluator.py} +5 -6
uipath/eval/evaluators/llm_as_judge_evaluator.py +143 -78
uipath/eval/evaluators/llm_judge_output_evaluator.py +112 -0
uipath/eval/evaluators/llm_judge_trajectory_evaluator.py +142 -0
uipath/eval/evaluators/output_evaluator.py +117 -0
uipath/eval/evaluators/tool_call_args_evaluator.py +82 -0
uipath/eval/evaluators/tool_call_count_evaluator.py +87 -0
uipath/eval/evaluators/tool_call_order_evaluator.py +84 -0
uipath/eval/evaluators/tool_call_output_evaluator.py +87 -0
uipath/eval/evaluators_types/ContainsEvaluator.json +73 -0
uipath/eval/evaluators_types/ExactMatchEvaluator.json +89 -0
uipath/eval/evaluators_types/JsonSimilarityEvaluator.json +81 -0
uipath/eval/evaluators_types/LLMJudgeOutputEvaluator.json +110 -0
uipath/eval/evaluators_types/LLMJudgeSimulationTrajectoryEvaluator.json +88 -0
uipath/eval/evaluators_types/LLMJudgeStrictJSONSimilarityOutputEvaluator.json +110 -0
uipath/eval/evaluators_types/LLMJudgeTrajectoryEvaluator.json +88 -0
uipath/eval/evaluators_types/ToolCallArgsEvaluator.json +131 -0
uipath/eval/evaluators_types/ToolCallCountEvaluator.json +104 -0
uipath/eval/evaluators_types/ToolCallOrderEvaluator.json +100 -0
uipath/eval/evaluators_types/ToolCallOutputEvaluator.json +124 -0
uipath/eval/evaluators_types/generate_types.py +31 -0
uipath/eval/models/__init__.py +16 -1
uipath/eval/models/llm_judge_types.py +196 -0
uipath/eval/models/models.py +109 -7
{uipath-2.1.108.dist-info → uipath-2.1.109.dist-info}/METADATA +1 -1
{uipath-2.1.108.dist-info → uipath-2.1.109.dist-info}/RECORD +69 -37
{uipath-2.1.108.dist-info → uipath-2.1.109.dist-info}/WHEEL +0 -0
{uipath-2.1.108.dist-info → uipath-2.1.109.dist-info}/entry_points.txt +0 -0
{uipath-2.1.108.dist-info → uipath-2.1.109.dist-info}/licenses/LICENSE +0 -0

uipath/eval/_helpers/helpers.py CHANGED Viewed

@@ -1,10 +1,13 @@
+import functools
 import json
 import os
+import time
+from collections.abc import Callable
+from typing import Any
 import click
-from uipath._cli._utils._console import ConsoleLogger
-from uipath._utils.constants import UIPATH_CONFIG_FILE
+from ..models import ErrorEvaluationResult, EvaluationResult
 def auto_discover_entrypoint() -> str:
@@ -16,6 +19,9 @@ def auto_discover_entrypoint() -> str:
     Raises:
         ValueError: If no entrypoint found or multiple entrypoints exist
     """
+    from uipath._cli._utils._console import ConsoleLogger
+    from uipath._utils.constants import UIPATH_CONFIG_FILE
     console = ConsoleLogger()
     if not os.path.isfile(UIPATH_CONFIG_FILE):
@@ -45,3 +51,25 @@ def auto_discover_entrypoint() -> str:
         f"Auto-discovered agent entrypoint: {click.style(entrypoint, fg='cyan')}"
     )
     return entrypoint
+def track_evaluation_metrics(func: Callable[..., Any]) -> Callable[..., Any]:
+    """Decorator to track evaluation metrics and handle errors gracefully."""
+    @functools.wraps(func)
+    async def wrapper(*args: Any, **kwargs: Any) -> EvaluationResult:
+        start_time = time.time()
+        try:
+            result = await func(*args, **kwargs)
+        except Exception as e:
+            result = ErrorEvaluationResult(
+                details="Exception thrown by evaluator: {}".format(e),
+                evaluation_time=time.time() - start_time,
+            )
+        end_time = time.time()
+        execution_time = end_time - start_time
+        result.evaluation_time = execution_time
+        return result
+    return wrapper

uipath/eval/evaluators/__init__.py CHANGED Viewed

@@ -1,15 +1,70 @@
 """UiPath evaluator implementations for agent performance evaluation."""
-from .base_evaluator import BaseEvaluator
+from typing import Any
+# Current coded evaluators
+from .base_evaluator import BaseEvaluationCriteria, BaseEvaluator, BaseEvaluatorConfig
+from .contains_evaluator import ContainsEvaluator
 from .exact_match_evaluator import ExactMatchEvaluator
 from .json_similarity_evaluator import JsonSimilarityEvaluator
-from .llm_as_judge_evaluator import LlmAsAJudgeEvaluator
-from .trajectory_evaluator import TrajectoryEvaluator
+# Legacy evaluators
+from .legacy_base_evaluator import LegacyBaseEvaluator
+from .legacy_exact_match_evaluator import LegacyExactMatchEvaluator
+from .legacy_json_similarity_evaluator import LegacyJsonSimilarityEvaluator
+from .legacy_llm_as_judge_evaluator import LegacyLlmAsAJudgeEvaluator
+from .legacy_trajectory_evaluator import LegacyTrajectoryEvaluator
+from .llm_judge_output_evaluator import (
+    BaseLLMOutputEvaluator,
+    LLMJudgeOutputEvaluator,
+    LLMJudgeStrictJSONSimilarityOutputEvaluator,
+)
+from .llm_judge_trajectory_evaluator import (
+    BaseLLMTrajectoryEvaluator,
+    LLMJudgeTrajectoryEvaluator,
+    LLMJudgeTrajectorySimulationEvaluator,
+)
+from .tool_call_args_evaluator import ToolCallArgsEvaluator
+from .tool_call_count_evaluator import ToolCallCountEvaluator
+from .tool_call_order_evaluator import ToolCallOrderEvaluator
+from .tool_call_output_evaluator import ToolCallOutputEvaluator
+EVALUATORS: list[type[BaseEvaluator[Any, Any, Any]]] = [
+    ExactMatchEvaluator,
+    ContainsEvaluator,
+    JsonSimilarityEvaluator,
+    LLMJudgeOutputEvaluator,
+    LLMJudgeStrictJSONSimilarityOutputEvaluator,
+    LLMJudgeTrajectoryEvaluator,
+    LLMJudgeTrajectorySimulationEvaluator,
+    ToolCallOrderEvaluator,
+    ToolCallArgsEvaluator,
+    ToolCallCountEvaluator,
+    ToolCallOutputEvaluator,
+]
 __all__ = [
+    # Legacy evaluators
+    "LegacyBaseEvaluator",
+    "LegacyExactMatchEvaluator",
+    "LegacyJsonSimilarityEvaluator",
+    "LegacyLlmAsAJudgeEvaluator",
+    "LegacyTrajectoryEvaluator",
+    # Current coded evaluators
     "BaseEvaluator",
+    "ContainsEvaluator",
     "ExactMatchEvaluator",
     "JsonSimilarityEvaluator",
-    "LlmAsAJudgeEvaluator",
-    "TrajectoryEvaluator",
+    "BaseLLMOutputEvaluator",
+    "LLMJudgeOutputEvaluator",
+    "LLMJudgeStrictJSONSimilarityOutputEvaluator",
+    "BaseLLMTrajectoryEvaluator",
+    "LLMJudgeTrajectoryEvaluator",
+    "LLMJudgeTrajectorySimulationEvaluator",
+    "ToolCallOrderEvaluator",
+    "ToolCallArgsEvaluator",
+    "ToolCallCountEvaluator",
+    "ToolCallOutputEvaluator",
+    "BaseEvaluationCriteria",
+    "BaseEvaluatorConfig",
 ]

uipath 2.1.108__py3-none-any.whl → 2.1.109__py3-none-any.whl

Potentially problematic release.

uipath 2.1.108py3-none-any.whl → 2.1.109py3-none-any.whl