PyPI - nvidia-nat - Versions diffs - 1.3.0.dev2__py3-none-any.whl → 1.3.0rc2__py3-none-any.whl - Mend

nvidia-nat 1.3.0.dev2py3-none-any.whl → 1.3.0rc2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (250) hide show

aiq/__init__.py +2 -2
nat/agent/base.py +24 -15
nat/agent/dual_node.py +9 -4
nat/agent/prompt_optimizer/prompt.py +68 -0
nat/agent/prompt_optimizer/register.py +149 -0
nat/agent/react_agent/agent.py +79 -47
nat/agent/react_agent/register.py +50 -22
nat/agent/reasoning_agent/reasoning_agent.py +11 -9
nat/agent/register.py +1 -1
nat/agent/rewoo_agent/agent.py +326 -148
nat/agent/rewoo_agent/prompt.py +19 -22
nat/agent/rewoo_agent/register.py +54 -27
nat/agent/tool_calling_agent/agent.py +84 -28
nat/agent/tool_calling_agent/register.py +51 -28
nat/authentication/api_key/api_key_auth_provider.py +2 -2
nat/authentication/credential_validator/bearer_token_validator.py +557 -0
nat/authentication/http_basic_auth/http_basic_auth_provider.py +1 -1
nat/authentication/interfaces.py +5 -2
nat/authentication/oauth2/oauth2_auth_code_flow_provider.py +69 -36
nat/authentication/oauth2/oauth2_resource_server_config.py +124 -0
nat/authentication/register.py +0 -1
nat/builder/builder.py +56 -24
nat/builder/component_utils.py +9 -5
nat/builder/context.py +68 -17
nat/builder/eval_builder.py +16 -11
nat/builder/framework_enum.py +1 -0
nat/builder/front_end.py +1 -1
nat/builder/function.py +378 -8
nat/builder/function_base.py +3 -3
nat/builder/function_info.py +6 -8
nat/builder/user_interaction_manager.py +2 -2
nat/builder/workflow.py +13 -1
nat/builder/workflow_builder.py +281 -76
nat/cli/cli_utils/config_override.py +2 -2
nat/cli/commands/evaluate.py +1 -1
nat/cli/commands/info/info.py +16 -6
nat/cli/commands/info/list_channels.py +1 -1
nat/cli/commands/info/list_components.py +7 -8
nat/cli/commands/mcp/__init__.py +14 -0
nat/cli/commands/mcp/mcp.py +986 -0
nat/cli/commands/object_store/__init__.py +14 -0
nat/cli/commands/object_store/object_store.py +227 -0
nat/cli/commands/optimize.py +90 -0
nat/cli/commands/registry/publish.py +2 -2
nat/cli/commands/registry/pull.py +2 -2
nat/cli/commands/registry/remove.py +2 -2
nat/cli/commands/registry/search.py +15 -17
nat/cli/commands/start.py +16 -5
nat/cli/commands/uninstall.py +1 -1
nat/cli/commands/workflow/templates/config.yml.j2 +14 -13
nat/cli/commands/workflow/templates/pyproject.toml.j2 +4 -1
nat/cli/commands/workflow/templates/register.py.j2 +2 -3
nat/cli/commands/workflow/templates/workflow.py.j2 +35 -21
nat/cli/commands/workflow/workflow_commands.py +62 -22
nat/cli/entrypoint.py +8 -10
nat/cli/main.py +3 -0
nat/cli/register_workflow.py +38 -4
nat/cli/type_registry.py +75 -6
nat/control_flow/__init__.py +0 -0
nat/control_flow/register.py +20 -0
nat/control_flow/router_agent/__init__.py +0 -0
nat/control_flow/router_agent/agent.py +329 -0
nat/control_flow/router_agent/prompt.py +48 -0
nat/control_flow/router_agent/register.py +91 -0
nat/control_flow/sequential_executor.py +166 -0
nat/data_models/agent.py +34 -0
nat/data_models/api_server.py +74 -66
nat/data_models/authentication.py +23 -9
nat/data_models/common.py +1 -1
nat/data_models/component.py +2 -0
nat/data_models/component_ref.py +11 -0
nat/data_models/config.py +41 -17
nat/data_models/dataset_handler.py +1 -1
nat/data_models/discovery_metadata.py +4 -4
nat/data_models/evaluate.py +4 -1
nat/data_models/function.py +34 -0
nat/data_models/function_dependencies.py +14 -6
nat/data_models/gated_field_mixin.py +242 -0
nat/data_models/intermediate_step.py +3 -3
nat/data_models/optimizable.py +119 -0
nat/data_models/optimizer.py +149 -0
nat/data_models/span.py +41 -3
nat/data_models/swe_bench_model.py +1 -1
nat/data_models/temperature_mixin.py +44 -0
nat/data_models/thinking_mixin.py +86 -0
nat/data_models/top_p_mixin.py +44 -0
nat/embedder/nim_embedder.py +1 -1
nat/embedder/openai_embedder.py +1 -1
nat/embedder/register.py +0 -1
nat/eval/config.py +3 -1
nat/eval/dataset_handler/dataset_handler.py +71 -7
nat/eval/evaluate.py +86 -31
nat/eval/evaluator/base_evaluator.py +1 -1
nat/eval/evaluator/evaluator_model.py +13 -0
nat/eval/intermediate_step_adapter.py +1 -1
nat/eval/rag_evaluator/evaluate.py +2 -2
nat/eval/rag_evaluator/register.py +3 -3
nat/eval/register.py +4 -1
nat/eval/remote_workflow.py +3 -3
nat/eval/runtime_evaluator/__init__.py +14 -0
nat/eval/runtime_evaluator/evaluate.py +123 -0
nat/eval/runtime_evaluator/register.py +100 -0
nat/eval/swe_bench_evaluator/evaluate.py +6 -6
nat/eval/trajectory_evaluator/evaluate.py +1 -1
nat/eval/trajectory_evaluator/register.py +1 -1
nat/eval/tunable_rag_evaluator/evaluate.py +4 -7
nat/eval/utils/eval_trace_ctx.py +89 -0
nat/eval/utils/weave_eval.py +18 -9
nat/experimental/decorators/experimental_warning_decorator.py +27 -7
nat/experimental/test_time_compute/functions/plan_select_execute_function.py +7 -3
nat/experimental/test_time_compute/functions/ttc_tool_orchestration_function.py +3 -3
nat/experimental/test_time_compute/functions/ttc_tool_wrapper_function.py +1 -1
nat/experimental/test_time_compute/models/strategy_base.py +5 -4
nat/experimental/test_time_compute/register.py +0 -1
nat/experimental/test_time_compute/selection/llm_based_output_merging_selector.py +1 -3
nat/front_ends/console/authentication_flow_handler.py +82 -30
nat/front_ends/console/console_front_end_plugin.py +8 -5
nat/front_ends/fastapi/auth_flow_handlers/websocket_flow_handler.py +52 -17
nat/front_ends/fastapi/dask_client_mixin.py +65 -0
nat/front_ends/fastapi/fastapi_front_end_config.py +36 -5
nat/front_ends/fastapi/fastapi_front_end_controller.py +4 -4
nat/front_ends/fastapi/fastapi_front_end_plugin.py +135 -4
nat/front_ends/fastapi/fastapi_front_end_plugin_worker.py +452 -282
nat/front_ends/fastapi/job_store.py +518 -99
nat/front_ends/fastapi/main.py +11 -19
nat/front_ends/fastapi/message_handler.py +13 -14
nat/front_ends/fastapi/message_validator.py +19 -19
nat/front_ends/fastapi/response_helpers.py +4 -4
nat/front_ends/fastapi/step_adaptor.py +2 -2
nat/front_ends/fastapi/utils.py +57 -0
nat/front_ends/mcp/introspection_token_verifier.py +73 -0
nat/front_ends/mcp/mcp_front_end_config.py +10 -1
nat/front_ends/mcp/mcp_front_end_plugin.py +45 -13
nat/front_ends/mcp/mcp_front_end_plugin_worker.py +116 -8
nat/front_ends/mcp/tool_converter.py +44 -14
nat/front_ends/register.py +0 -1
nat/front_ends/simple_base/simple_front_end_plugin_base.py +3 -1
nat/llm/aws_bedrock_llm.py +24 -12
nat/llm/azure_openai_llm.py +13 -6
nat/llm/litellm_llm.py +69 -0
nat/llm/nim_llm.py +20 -8
nat/llm/openai_llm.py +14 -6
nat/llm/register.py +4 -1
nat/llm/utils/env_config_value.py +2 -3
nat/llm/utils/thinking.py +215 -0
nat/meta/pypi.md +9 -9
nat/object_store/register.py +0 -1
nat/observability/exporter/base_exporter.py +3 -3
nat/observability/exporter/file_exporter.py +1 -1
nat/observability/exporter/processing_exporter.py +309 -81
nat/observability/exporter/span_exporter.py +35 -15
nat/observability/exporter_manager.py +7 -7
nat/observability/mixin/file_mixin.py +7 -7
nat/observability/mixin/redaction_config_mixin.py +42 -0
nat/observability/mixin/tagging_config_mixin.py +62 -0
nat/observability/mixin/type_introspection_mixin.py +420 -107
nat/observability/processor/batching_processor.py +5 -7
nat/observability/processor/falsy_batch_filter_processor.py +55 -0
nat/observability/processor/processor.py +3 -0
nat/observability/processor/processor_factory.py +70 -0
nat/observability/processor/redaction/__init__.py +24 -0
nat/observability/processor/redaction/contextual_redaction_processor.py +125 -0
nat/observability/processor/redaction/contextual_span_redaction_processor.py +66 -0
nat/observability/processor/redaction/redaction_processor.py +177 -0
nat/observability/processor/redaction/span_header_redaction_processor.py +92 -0
nat/observability/processor/span_tagging_processor.py +68 -0
nat/observability/register.py +6 -4
nat/profiler/calc/calc_runner.py +3 -4
nat/profiler/callbacks/agno_callback_handler.py +1 -1
nat/profiler/callbacks/langchain_callback_handler.py +6 -6
nat/profiler/callbacks/llama_index_callback_handler.py +3 -3
nat/profiler/callbacks/semantic_kernel_callback_handler.py +3 -3
nat/profiler/data_frame_row.py +1 -1
nat/profiler/decorators/framework_wrapper.py +62 -13
nat/profiler/decorators/function_tracking.py +160 -3
nat/profiler/forecasting/models/forecasting_base_model.py +3 -1
nat/profiler/forecasting/models/linear_model.py +1 -1
nat/profiler/forecasting/models/random_forest_regressor.py +1 -1
nat/profiler/inference_optimization/bottleneck_analysis/nested_stack_analysis.py +1 -1
nat/profiler/inference_optimization/bottleneck_analysis/simple_stack_analysis.py +1 -1
nat/profiler/inference_optimization/data_models.py +3 -3
nat/profiler/inference_optimization/experimental/prefix_span_analysis.py +8 -9
nat/profiler/inference_optimization/token_uniqueness.py +1 -1
nat/profiler/parameter_optimization/__init__.py +0 -0
nat/profiler/parameter_optimization/optimizable_utils.py +93 -0
nat/profiler/parameter_optimization/optimizer_runtime.py +67 -0
nat/profiler/parameter_optimization/parameter_optimizer.py +153 -0
nat/profiler/parameter_optimization/parameter_selection.py +107 -0
nat/profiler/parameter_optimization/pareto_visualizer.py +380 -0
nat/profiler/parameter_optimization/prompt_optimizer.py +384 -0
nat/profiler/parameter_optimization/update_helpers.py +66 -0
nat/profiler/profile_runner.py +14 -9
nat/profiler/utils.py +4 -2
nat/registry_handlers/local/local_handler.py +2 -2
nat/registry_handlers/package_utils.py +1 -2
nat/registry_handlers/pypi/pypi_handler.py +23 -26
nat/registry_handlers/register.py +3 -4
nat/registry_handlers/rest/rest_handler.py +12 -13
nat/retriever/milvus/retriever.py +2 -2
nat/retriever/nemo_retriever/retriever.py +1 -1
nat/retriever/register.py +0 -1
nat/runtime/loader.py +2 -2
nat/runtime/runner.py +106 -8
nat/runtime/session.py +69 -8
nat/settings/global_settings.py +16 -5
nat/tool/chat_completion.py +5 -2
nat/tool/code_execution/local_sandbox/local_sandbox_server.py +3 -3
nat/tool/datetime_tools.py +49 -9
nat/tool/document_search.py +2 -2
nat/tool/github_tools.py +450 -0
nat/tool/memory_tools/get_memory_tool.py +1 -1
nat/tool/nvidia_rag.py +1 -1
nat/tool/register.py +2 -9
nat/tool/retriever.py +3 -2
nat/utils/callable_utils.py +70 -0
nat/utils/data_models/schema_validator.py +3 -3
nat/utils/decorators.py +210 -0
nat/utils/exception_handlers/automatic_retries.py +104 -51
nat/utils/exception_handlers/schemas.py +1 -1
nat/utils/io/yaml_tools.py +2 -2
nat/utils/log_levels.py +25 -0
nat/utils/reactive/base/observable_base.py +2 -2
nat/utils/reactive/base/observer_base.py +1 -1
nat/utils/reactive/observable.py +2 -2
nat/utils/reactive/observer.py +4 -4
nat/utils/reactive/subscription.py +1 -1
nat/utils/settings/global_settings.py +6 -8
nat/utils/type_converter.py +4 -3
nat/utils/type_utils.py +9 -5
{nvidia_nat-1.3.0.dev2.dist-info → nvidia_nat-1.3.0rc2.dist-info}/METADATA +42 -18
{nvidia_nat-1.3.0.dev2.dist-info → nvidia_nat-1.3.0rc2.dist-info}/RECORD +238 -196
{nvidia_nat-1.3.0.dev2.dist-info → nvidia_nat-1.3.0rc2.dist-info}/entry_points.txt +1 -0
nat/cli/commands/info/list_mcp.py +0 -304
nat/tool/github_tools/create_github_commit.py +0 -133
nat/tool/github_tools/create_github_issue.py +0 -87
nat/tool/github_tools/create_github_pr.py +0 -106
nat/tool/github_tools/get_github_file.py +0 -106
nat/tool/github_tools/get_github_issue.py +0 -166
nat/tool/github_tools/get_github_pr.py +0 -256
nat/tool/github_tools/update_github_issue.py +0 -100
nat/tool/mcp/exceptions.py +0 -142
nat/tool/mcp/mcp_client.py +0 -255
nat/tool/mcp/mcp_tool.py +0 -96
nat/utils/exception_handlers/mcp.py +0 -211
/nat/{tool/github_tools → agent/prompt_optimizer}/__init__.py +0 -0
/nat/{tool/mcp → authentication/credential_validator}/__init__.py +0 -0
{nvidia_nat-1.3.0.dev2.dist-info → nvidia_nat-1.3.0rc2.dist-info}/WHEEL +0 -0
{nvidia_nat-1.3.0.dev2.dist-info → nvidia_nat-1.3.0rc2.dist-info}/licenses/LICENSE-3rd-party.txt +0 -0
{nvidia_nat-1.3.0.dev2.dist-info → nvidia_nat-1.3.0rc2.dist-info}/licenses/LICENSE.md +0 -0
{nvidia_nat-1.3.0.dev2.dist-info → nvidia_nat-1.3.0rc2.dist-info}/top_level.txt +0 -0

nat/eval/remote_workflow.py CHANGED Viewed

@@ -74,7 +74,7 @@ class EvaluationRemoteWorkflowHandler:
                             if chunk_data.get("value"):
                                 final_response = chunk_data.get("value")
                         except json.JSONDecodeError as e:
-                            logger.error("Failed to parse generate response chunk: %s", e)
+                            logger.exception("Failed to parse generate response chunk: %s", e)
                             continue
                     elif line.startswith(INTERMEDIATE_DATA_PREFIX):
                         # This is an intermediate step
@@ -90,12 +90,12 @@ class EvaluationRemoteWorkflowHandler:
                                                                  payload=payload)
                             intermediate_steps.append(intermediate_step)
                         except (json.JSONDecodeError, ValidationError) as e:
-                            logger.error("Failed to parse intermediate step: %s", e)
+                            logger.exception("Failed to parse intermediate step: %s", e)
                             continue
         except aiohttp.ClientError as e:
             # Handle connection or HTTP-related errors
-            logger.error("Request failed for question %s: %s", question, e)
+            logger.exception("Request failed for question %s: %s", question, e)
             item.output_obj = None
             item.trajectory = []
             return

nat/eval/runtime_evaluator/__init__.py ADDED Viewed

@@ -0,0 +1,14 @@
+# SPDX-FileCopyrightText: Copyright (c) 2025, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: Apache-2.0
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.

nat/eval/runtime_evaluator/evaluate.py ADDED Viewed

@@ -0,0 +1,123 @@
+# SPDX-FileCopyrightText: Copyright (c) 2025, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: Apache-2.0
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+from __future__ import annotations
+from collections import defaultdict
+from dataclasses import dataclass
+from nat.data_models.intermediate_step import IntermediateStepType
+from nat.eval.evaluator.base_evaluator import BaseEvaluator
+from nat.eval.evaluator.evaluator_model import EvalInputItem
+from nat.eval.evaluator.evaluator_model import EvalOutputItem
+from nat.profiler.intermediate_property_adapter import IntermediatePropertyAdaptor
+@dataclass
+class _CallTiming:
+    start_ts: float | None = None
+    end_ts: float | None = None
+    @property
+    def latency(self) -> float | None:
+        if self.start_ts is None or self.end_ts is None:
+            return None
+        return max(0.0, self.end_ts - self.start_ts)
+class AverageLLMLatencyEvaluator(BaseEvaluator):
+    """
+    Mean difference between connected LLM_START and LLM_END events (same UUID).
+    The score is the average latency in seconds for the item. Reasoning contains per-call latencies.
+    """
+    def __init__(self, max_concurrency: int = 8):
+        super().__init__(max_concurrency=max_concurrency, tqdm_desc="Evaluating Avg LLM Latency")
+    async def evaluate_item(self, item: EvalInputItem) -> EvalOutputItem:  # noqa: D401
+        calls: dict[str, _CallTiming] = defaultdict(_CallTiming)
+        for step in (IntermediatePropertyAdaptor.from_intermediate_step(s) for s in item.trajectory):
+            if step.event_type == IntermediateStepType.LLM_START:
+                calls[step.UUID].start_ts = step.event_timestamp
+            elif step.event_type == IntermediateStepType.LLM_END:
+                calls[step.UUID].end_ts = step.event_timestamp
+        latencies = [ct.latency for ct in calls.values() if ct.latency is not None]
+        avg_latency = sum(latencies) / len(latencies) if latencies else 0.0
+        reasoning = {
+            "num_llm_calls": len(latencies),
+            "latencies": latencies,
+        }
+        return EvalOutputItem(id=item.id, score=round(avg_latency, 4), reasoning=reasoning)
+class AverageWorkflowRuntimeEvaluator(BaseEvaluator):
+    """
+    Average workflow runtime per item: max(event_timestamp) - min(event_timestamp) across the trajectory.
+    The score is the runtime in seconds for the item.
+    """
+    def __init__(self, max_concurrency: int = 8):
+        super().__init__(max_concurrency=max_concurrency, tqdm_desc="Evaluating Avg Workflow Runtime")
+    async def evaluate_item(self, item: EvalInputItem) -> EvalOutputItem:  # noqa: D401
+        if not item.trajectory:
+            return EvalOutputItem(id=item.id, score=0.0, reasoning={"note": "no steps"})
+        timestamps = [s.event_timestamp for s in item.trajectory]
+        runtime = max(timestamps) - min(timestamps)
+        return EvalOutputItem(id=item.id, score=round(max(0.0, runtime), 4), reasoning={"steps": len(timestamps)})
+class AverageNumberOfLLMCallsEvaluator(BaseEvaluator):
+    """
+    Average number of LLM calls per item. The score is the count for the item.
+    """
+    def __init__(self, max_concurrency: int = 8):
+        super().__init__(max_concurrency=max_concurrency, tqdm_desc="Evaluating Avg # LLM Calls")
+    async def evaluate_item(self, item: EvalInputItem) -> EvalOutputItem:  # noqa: D401
+        num_calls = sum(1 for s in item.trajectory if s.event_type == IntermediateStepType.LLM_END)
+        return EvalOutputItem(id=item.id, score=float(num_calls), reasoning={"num_llm_end": num_calls})
+class AverageTokensPerLLMEndEvaluator(BaseEvaluator):
+    """
+    Average total tokens per LLM_END event: sum of prompt and completion tokens if available.
+    The score is the average tokens per LLM_END for the item (0 if none).
+    """
+    def __init__(self, max_concurrency: int = 8):
+        super().__init__(max_concurrency=max_concurrency, tqdm_desc="Evaluating Avg Tokens/LLM_END")
+    async def evaluate_item(self, item: EvalInputItem) -> EvalOutputItem:  # noqa: D401
+        totals: list[int] = []
+        for step in (IntermediatePropertyAdaptor.from_intermediate_step(s) for s in item.trajectory):
+            if step.event_type == IntermediateStepType.LLM_END:
+                total_tokens = step.token_usage.total_tokens
+                # If framework doesn't set total, compute from prompt+completion
+                if total_tokens == 0:
+                    total_tokens = step.token_usage.prompt_tokens + step.token_usage.completion_tokens
+                totals.append(total_tokens)
+        avg_tokens = (sum(totals) / len(totals)) if totals else 0.0
+        reasoning = {
+            "num_llm_end": len(totals),
+            "totals": totals,
+        }
+        return EvalOutputItem(id=item.id, score=round(avg_tokens, 2), reasoning=reasoning)

nat/eval/runtime_evaluator/register.py ADDED Viewed

@@ -0,0 +1,100 @@
+# SPDX-FileCopyrightText: Copyright (c) 2025, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: Apache-2.0
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+from pydantic import Field
+from nat.builder.builder import EvalBuilder
+from nat.builder.evaluator import EvaluatorInfo
+from nat.cli.register_workflow import register_evaluator
+from nat.data_models.evaluator import EvaluatorBaseConfig
+from nat.eval.evaluator.evaluator_model import EvalInput
+from nat.eval.evaluator.evaluator_model import EvalOutput
+class AverageLLMLatencyConfig(EvaluatorBaseConfig, name="avg_llm_latency"):
+    """Mean difference between connected LLM_START and LLM_END events (same UUID)."""
+    max_concurrency: int = Field(default=8, description="Max concurrency for evaluation.")
+class AverageWorkflowRuntimeConfig(EvaluatorBaseConfig, name="avg_workflow_runtime"):
+    """Average workflow runtime per item (max timestamp - min timestamp)."""
+    max_concurrency: int = Field(default=8, description="Max concurrency for evaluation.")
+class AverageNumberOfLLMCallsConfig(EvaluatorBaseConfig, name="avg_num_llm_calls"):
+    """Average number of LLM calls per item (count of LLM_END)."""
+    max_concurrency: int = Field(default=8, description="Max concurrency for evaluation.")
+class AverageTokensPerLLMEndConfig(EvaluatorBaseConfig, name="avg_tokens_per_llm_end"):
+    """Average total tokens per LLM_END event (prompt + completion if available)."""
+    max_concurrency: int = Field(default=8, description="Max concurrency for evaluation.")
+@register_evaluator(config_type=AverageLLMLatencyConfig)
+async def register_avg_llm_latency_evaluator(config: AverageLLMLatencyConfig, builder: EvalBuilder):
+    from .evaluate import AverageLLMLatencyEvaluator
+    evaluator = AverageLLMLatencyEvaluator(max_concurrency=config.max_concurrency or builder.get_max_concurrency())
+    async def evaluate_fn(eval_input: EvalInput) -> EvalOutput:
+        return await evaluator.evaluate(eval_input)
+    yield EvaluatorInfo(config=config,
+                        evaluate_fn=evaluate_fn,
+                        description="Average LLM latency (s) from LLM_START to LLM_END")
+@register_evaluator(config_type=AverageWorkflowRuntimeConfig)
+async def register_avg_workflow_runtime_evaluator(config: AverageWorkflowRuntimeConfig, builder: EvalBuilder):
+    from .evaluate import AverageWorkflowRuntimeEvaluator
+    evaluator = AverageWorkflowRuntimeEvaluator(max_concurrency=config.max_concurrency or builder.get_max_concurrency())
+    async def evaluate_fn(eval_input: EvalInput) -> EvalOutput:
+        return await evaluator.evaluate(eval_input)
+    yield EvaluatorInfo(config=config, evaluate_fn=evaluate_fn, description="Average workflow runtime (s)")
+@register_evaluator(config_type=AverageNumberOfLLMCallsConfig)
+async def register_avg_num_llm_calls_evaluator(config: AverageNumberOfLLMCallsConfig, builder: EvalBuilder):
+    from .evaluate import AverageNumberOfLLMCallsEvaluator
+    evaluator = AverageNumberOfLLMCallsEvaluator(
+        max_concurrency=config.max_concurrency or builder.get_max_concurrency())
+    async def evaluate_fn(eval_input: EvalInput) -> EvalOutput:
+        return await evaluator.evaluate(eval_input)
+    yield EvaluatorInfo(config=config, evaluate_fn=evaluate_fn, description="Average number of LLM calls")
+@register_evaluator(config_type=AverageTokensPerLLMEndConfig)
+async def register_avg_tokens_per_llm_end_evaluator(config: AverageTokensPerLLMEndConfig, builder: EvalBuilder):
+    from .evaluate import AverageTokensPerLLMEndEvaluator
+    evaluator = AverageTokensPerLLMEndEvaluator(max_concurrency=config.max_concurrency or builder.get_max_concurrency())
+    async def evaluate_fn(eval_input: EvalInput) -> EvalOutput:
+        return await evaluator.evaluate(eval_input)
+    yield EvaluatorInfo(config=config,
+                        evaluate_fn=evaluate_fn,
+                        description="Average total tokens per LLM_END (prompt + completion)")

nat/eval/swe_bench_evaluator/evaluate.py CHANGED Viewed

@@ -69,13 +69,13 @@ class SweBenchEvaluator:
         try:
             shutil.move(swe_bench_report_file, report_dir)
         except Exception as e:
-            logger.exception("Error moving report file: %s", e, exc_info=True)
+            logger.exception("Error moving report file: %s", e)
         try:
             dest_logs_dir = os.path.join(report_dir, 'logs')
             shutil.move(logs_dir, dest_logs_dir)
         except Exception as e:
-            logger.exception("Error moving logs directory: %s", e, exc_info=True)
+            logger.exception("Error moving logs directory: %s", e)
     def is_repo_supported(self, repo: str, version: str) -> bool:
         """Check if the repo is supported by swebench"""
@@ -106,7 +106,7 @@ class SweBenchEvaluator:
                     self._model_name_or_path = swebench_output.model_name_or_path
             except Exception as e:
-                logger.exception("Failed to parse EvalInputItem %s: %s", item.id, e, exc_info=True)
+                logger.exception("Failed to parse EvalInputItem %s: %s", item.id, e)
         # Filter out repos/version not supported by SWEBench
         supported_inputs = [
@@ -114,7 +114,7 @@ class SweBenchEvaluator:
         ]
         if not supported_inputs:
-            logger.error("No supported instances; nothing to evaluate")
+            logger.exception("No supported instances; nothing to evaluate")
             return None, None
         if len(supported_inputs) < len(swebench_inputs):
@@ -135,7 +135,7 @@ class SweBenchEvaluator:
         filtered_outputs = [output for output in swebench_outputs if output.instance_id in valid_instance_ids]
         if not filtered_outputs:
-            logger.error("No supported outputs; nothing to evaluate")
+            logger.error("No supported outputs; nothing to evaluate", exc_info=True)
             return None, None
         # Write SWEBenchOutput to file
@@ -204,7 +204,7 @@ class SweBenchEvaluator:
         # if report file is not present, return empty EvalOutput
         avg_score = 0.0
         if report_file.exists():
-            with open(report_file, "r", encoding="utf-8") as f:
+            with open(report_file, encoding="utf-8") as f:
                 report = json.load(f)
                 resolved_instances = report.get("resolved_instances", 0)
                 total_instances = report.get("total_instances", 0)

nat/eval/trajectory_evaluator/evaluate.py CHANGED Viewed

@@ -65,7 +65,7 @@ class TrajectoryEvaluator(BaseEvaluator):
                 prediction=generated_answer,
             )
         except Exception as e:
-            logger.exception("Error evaluating trajectory for question: %s, Error: %s", question, e, exc_info=True)
+            logger.exception("Error evaluating trajectory for question: %s, Error: %s", question, e)
             return EvalOutputItem(id=item.id, score=0.0, reasoning=f"Error evaluating trajectory: {e}")
         reasoning = {

nat/eval/trajectory_evaluator/register.py CHANGED Viewed

@@ -33,7 +33,7 @@ async def register_trajectory_evaluator(config: TrajectoryEvaluatorConfig, build
     from .evaluate import TrajectoryEvaluator
     llm = await builder.get_llm(config.llm_name, wrapper_type=LLMFrameworkEnum.LANGCHAIN)
-    tools = builder.get_all_tools(wrapper_type=LLMFrameworkEnum.LANGCHAIN)
+    tools = await builder.get_all_tools(wrapper_type=LLMFrameworkEnum.LANGCHAIN)
     _evaluator = TrajectoryEvaluator(llm, tools, builder.get_max_concurrency())

nat/eval/tunable_rag_evaluator/evaluate.py CHANGED Viewed

@@ -13,9 +13,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
-import asyncio
 import logging
-from typing import Callable
+from collections.abc import Callable
 from langchain.output_parsers import ResponseSchema
 from langchain.output_parsers import StructuredOutputParser
@@ -23,7 +22,6 @@ from langchain.schema import HumanMessage
 from langchain.schema import SystemMessage
 from langchain_core.language_models import BaseChatModel
 from langchain_core.runnables import RunnableLambda
-from tqdm import tqdm
 from nat.eval.evaluator.base_evaluator import BaseEvaluator
 from nat.eval.evaluator.evaluator_model import EvalInputItem
@@ -31,7 +29,6 @@ from nat.eval.evaluator.evaluator_model import EvalOutputItem
 logger = logging.getLogger(__name__)
-# pylint: disable=line-too-long
 # flake8: noqa: E501
@@ -185,8 +182,8 @@ class TunableRagEvaluator(BaseEvaluator):
                     relevance_score = parsed_response["relevance_score"]
                     reasoning = parsed_response["reasoning"]
                 except KeyError as e:
-                    logger.error("Missing required keys in default scoring response: %s",
-                                 ", ".join(str(arg) for arg in e.args))
+                    logger.exception("Missing required keys in default scoring response: %s",
+                                     ", ".join(str(arg) for arg in e.args))
                     reasoning = f"Error in evaluator from parsing judge LLM response. Missing required key(s): {', '.join(str(arg) for arg in e.args)}"
                 coverage_weight = self.default_score_weights.get("coverage", 1 / 3)
@@ -218,7 +215,7 @@ class TunableRagEvaluator(BaseEvaluator):
                     reasoning = f"Error in evaluator from parsing judge LLM response. Missing required key(s): {', '.join(str(arg) for arg in e.args)}"
                     raise
         except (KeyError, ValueError) as e:
-            logger.error("Error parsing judge LLM response: %s", e)
+            logger.exception("Error parsing judge LLM response: %s", e)
             score = 0.0
             reasoning = "Error in evaluator from parsing judge LLM response."

nat/eval/utils/eval_trace_ctx.py ADDED Viewed

@@ -0,0 +1,89 @@
+# SPDX-FileCopyrightText: Copyright (c) 2025, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: Apache-2.0
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import logging
+from collections.abc import Callable
+from contextlib import contextmanager
+from typing import Any
+logger = logging.getLogger(__name__)
+# Type alias for evaluation call objects that have an optional 'id' attribute
+EvalCallType = Any  # Could be Weave Call object or other tracing framework objects
+class EvalTraceContext:
+    """
+    Evaluation trace context manager for coordinating traces.
+    This class provides a framework-agnostic way to:
+    1. Track evaluation calls/contexts
+    2. Ensure proper parent-child relationships in traces
+    """
+    def __init__(self):
+        self.eval_call: EvalCallType | None = None  # Store the evaluation call/context for propagation
+    def set_eval_call(self, eval_call: EvalCallType | None) -> None:
+        """Set the evaluation call/context for propagation to traces."""
+        self.eval_call = eval_call
+        if eval_call:
+            logger.debug("Set evaluation call context: %s", getattr(eval_call, 'id', str(eval_call)))
+    def get_eval_call(self) -> EvalCallType | None:
+        """Get the current evaluation call/context."""
+        return self.eval_call
+    @contextmanager
+    def evaluation_context(self):
+        """
+        Context manager that can be overridden by framework-specific implementations.
+        Default implementation is a no-op.
+        """
+        yield
+class WeaveEvalTraceContext(EvalTraceContext):
+    """
+    Weave-specific implementation of evaluation trace context.
+    """
+    def __init__(self):
+        super().__init__()
+        self.available = False
+        self.set_call_stack: Callable[[list[EvalCallType]], Any] | None = None
+        try:
+            from weave.trace.context.call_context import set_call_stack
+            self.set_call_stack = set_call_stack
+            self.available = True
+        except ImportError:
+            self.available = False
+            logger.debug("Weave not available for trace context")
+    @contextmanager
+    def evaluation_context(self):
+        """Set the evaluation call as active context for Weave traces."""
+        if self.available and self.eval_call and self.set_call_stack:
+            try:
+                with self.set_call_stack([self.eval_call]):
+                    logger.debug("Set Weave evaluation call context: %s",
+                                 getattr(self.eval_call, 'id', str(self.eval_call)))
+                    yield
+            except Exception as e:
+                logger.warning("Failed to set Weave evaluation call context: %s", e)
+                yield
+        else:
+            yield

nat/eval/utils/weave_eval.py CHANGED Viewed

@@ -15,6 +15,7 @@
 import asyncio
 import logging
+from typing import TYPE_CHECKING
 from typing import Any
 from nat.eval.evaluator.evaluator_model import EvalInput
@@ -24,26 +25,28 @@ from nat.eval.usage_stats import UsageStats
 from nat.eval.usage_stats import UsageStatsItem
 from nat.profiler.data_models import ProfilerResults
+if TYPE_CHECKING:
+    from nat.eval.utils.eval_trace_ctx import EvalTraceContext
 logger = logging.getLogger(__name__)
-class WeaveEvaluationIntegration:  # pylint: disable=too-many-public-methods
+class WeaveEvaluationIntegration:
     """
     Class to handle all Weave integration functionality.
     """
-    def __init__(self):
+    def __init__(self, eval_trace_context: "EvalTraceContext"):
         self.available = False
         self.client = None
         self.eval_logger = None
         self.pred_loggers = {}
+        self.eval_trace_context = eval_trace_context
         try:
-            from weave.flow.eval_imperative import EvaluationLogger
-            from weave.flow.eval_imperative import ScoreLogger
+            from weave import EvaluationLogger
             from weave.trace.context import weave_client_context
-            self.EvaluationLogger = EvaluationLogger
-            self.ScoreLogger = ScoreLogger
+            self.evaluation_logger_cls = EvaluationLogger
             self.weave_client_context = weave_client_context
             self.available = True
         except ImportError:
@@ -89,9 +92,15 @@ class WeaveEvaluationIntegration:  # pylint: disable=too-many-public-methods
             weave_dataset = self._get_weave_dataset(eval_input)
             config_dict = config.model_dump(mode="json")
             config_dict["name"] = workflow_alias
-            self.eval_logger = self.EvaluationLogger(model=config_dict, dataset=weave_dataset)
+            self.eval_logger = self.evaluation_logger_cls(model=config_dict,
+                                                          dataset=weave_dataset,
+                                                          name=workflow_alias,
+                                                          eval_attributes={})
             self.pred_loggers = {}
+            # Capture the current evaluation call for context propagation
+            self.eval_trace_context.set_eval_call(self.eval_logger._evaluate_call)
             return True
         except Exception as e:
             self.eval_logger = None
@@ -137,7 +146,7 @@ class WeaveEvaluationIntegration:  # pylint: disable=too-many-public-methods
             await asyncio.gather(*coros)
     async def afinish_loggers(self):
-        """Finish all prediction loggers."""
+        """Finish all prediction loggers and wait for exports."""
         if not self.eval_logger:
             return
@@ -157,7 +166,6 @@ class WeaveEvaluationIntegration:  # pylint: disable=too-many-public-methods
         if profiler_results.workflow_runtime_metrics:
             profile_metrics["wf_runtime_p95"] = profiler_results.workflow_runtime_metrics.p95
-        # TODO:get the LLM tokens from the usage stats and log them
         profile_metrics["total_runtime"] = usage_stats.total_runtime
         return profile_metrics
@@ -182,3 +190,4 @@ class WeaveEvaluationIntegration:  # pylint: disable=too-many-public-methods
         # Log the summary to finish the evaluation, disable auto-summarize
         # as we will be adding profiler metrics to the summary
         self.eval_logger.log_summary(summary, auto_summarize=False)
+        logger.info("Logged Evaluation Summary to Weave")

nat/experimental/decorators/experimental_warning_decorator.py CHANGED Viewed

@@ -16,7 +16,12 @@
 import functools
 import inspect
 import logging
+from collections.abc import AsyncGenerator
+from collections.abc import Callable
+from collections.abc import Generator
 from typing import Any
+from typing import TypeVar
+from typing import overload
 logger = logging.getLogger(__name__)
@@ -25,6 +30,9 @@ BASE_WARNING_MESSAGE = ("is experimental and the API may change in future releas
 _warning_issued = set()
+# Type variables for overloads
+F = TypeVar('F', bound=Callable[..., Any])
 def issue_experimental_warning(function_name: str,
                                feature_name: str | None = None,
@@ -53,7 +61,20 @@ def issue_experimental_warning(function_name: str,
         _warning_issued.add(function_name)
-def experimental(func: Any = None, *, feature_name: str | None = None, metadata: dict[str, Any] | None = None):
+# Overloads for different function types
+@overload
+def experimental(func: F, *, feature_name: str | None = None, metadata: dict[str, Any] | None = None) -> F:
+    """Overload for when a function is passed directly."""
+    ...
+@overload
+def experimental(*, feature_name: str | None = None, metadata: dict[str, Any] | None = None) -> Callable[[F], F]:
+    """Overload for decorator factory usage (when called with parentheses)."""
+    ...
+def experimental(func: Any = None, *, feature_name: str | None = None, metadata: dict[str, Any] | None = None) -> Any:
     """
     Decorator that can wrap any type of function (sync, async, generator,
     async generator) and logs a warning that the function is experimental.
@@ -90,7 +111,7 @@ def experimental(func: Any = None, *, feature_name: str | None = None, metadata:
         # ---------------------
         @functools.wraps(func)
-        async def async_gen_wrapper(*args, **kwargs):
+        async def async_gen_wrapper(*args, **kwargs) -> AsyncGenerator[Any, Any]:
             issue_experimental_warning(function_name, feature_name, metadata)
             async for item in func(*args, **kwargs):
                 yield item  # yield the original item
@@ -102,7 +123,7 @@ def experimental(func: Any = None, *, feature_name: str | None = None, metadata:
         # ASYNC FUNCTION
         # ---------------------
         @functools.wraps(func)
-        async def async_wrapper(*args, **kwargs):
+        async def async_wrapper(*args, **kwargs) -> Any:
             issue_experimental_warning(function_name, feature_name, metadata)
             result = await func(*args, **kwargs)
             return result
@@ -114,15 +135,14 @@ def experimental(func: Any = None, *, feature_name: str | None = None, metadata:
         # SYNC GENERATOR
         # ---------------------
         @functools.wraps(func)
-        def sync_gen_wrapper(*args, **kwargs):
+        def sync_gen_wrapper(*args, **kwargs) -> Generator[Any, Any, Any]:
             issue_experimental_warning(function_name, feature_name, metadata)
-            for item in func(*args, **kwargs):
-                yield item  # yield the original item
+            yield from func(*args, **kwargs)  # yield the original item
         return sync_gen_wrapper
     @functools.wraps(func)
-    def sync_wrapper(*args, **kwargs):
+    def sync_wrapper(*args, **kwargs) -> Any:
         issue_experimental_warning(function_name, feature_name, metadata)
         result = func(*args, **kwargs)
         return result

nat/experimental/test_time_compute/functions/plan_select_execute_function.py CHANGED Viewed

@@ -86,7 +86,7 @@ async def plan_select_execute_function(config: PlanSelectExecuteFunctionConfig,
                           "This error can be resolved by installing nvidia-nat-langchain.")
     # Get the augmented function's description
-    augmented_function = builder.get_function(config.augmented_fn)
+    augmented_function = await builder.get_function(config.augmented_fn)
     # For now, we rely on runtime checking for type conversion
@@ -97,11 +97,15 @@ async def plan_select_execute_function(config: PlanSelectExecuteFunctionConfig,
                          f"function without a description.")
     # Get the function dependencies of the augmented function
-    function_used_tools = builder.get_function_dependencies(config.augmented_fn).functions
+    function_dependencies = builder.get_function_dependencies(config.augmented_fn)
+    function_used_tools = set(function_dependencies.functions)
+    for function_group in function_dependencies.function_groups:
+        function_used_tools.update(builder.get_function_group_dependencies(function_group).functions)
     tool_list = "Tool: Description\n"
     for tool in function_used_tools:
-        tool_impl = builder.get_function(tool)
+        tool_impl = await builder.get_function(tool)
         tool_list += f"- {tool}: {tool_impl.description if hasattr(tool_impl, 'description') else ''}\n"
     # Draft the reasoning prompt for the augmented function

nvidia-nat 1.3.0.dev2__py3-none-any.whl → 1.3.0rc2__py3-none-any.whl

nvidia-nat 1.3.0.dev2py3-none-any.whl → 1.3.0rc2py3-none-any.whl