PyPI - decodingtrust-agent-sdk - Versions diffs - 0.1.0__py3-none-any.whl - Mend

decodingtrust-agent-sdk 0.1.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (374) hide show

agent/__init__.py +30 -0
agent/claudesdk/__init__.py +8 -0
agent/claudesdk/example.py +221 -0
agent/claudesdk/src/__init__.py +8 -0
agent/claudesdk/src/agent.py +400 -0
agent/claudesdk/src/mcp_proxy.py +409 -0
agent/claudesdk/src/utils.py +420 -0
agent/googleadk/__init__.py +15 -0
agent/googleadk/example.py +237 -0
agent/googleadk/src/__init__.py +12 -0
agent/googleadk/src/agent.py +401 -0
agent/googleadk/src/mcp_wrapper.py +163 -0
agent/googleadk/src/utils.py +602 -0
agent/langchain/__init__.py +8 -0
agent/langchain/example.py +213 -0
agent/langchain/src/__init__.py +8 -0
agent/langchain/src/agent.py +645 -0
agent/langchain/src/utils.py +433 -0
agent/openaisdk/__init__.py +17 -0
agent/openaisdk/example.py +228 -0
agent/openaisdk/src/__init__.py +12 -0
agent/openaisdk/src/agent.py +491 -0
agent/openaisdk/src/agent_wrapper.py +143 -0
agent/openaisdk/src/mcp_wrapper.py +395 -0
agent/openaisdk/src/utils.py +493 -0
agent/openclaw/__init__.py +10 -0
agent/openclaw/example.py +251 -0
agent/openclaw/src/__init__.py +14 -0
agent/openclaw/src/agent.py +930 -0
agent/openclaw/src/helpers/__init__.py +1 -0
agent/openclaw/src/helpers/auth_helpers.py +55 -0
agent/openclaw/src/mcp_proxy.py +564 -0
agent/openclaw/src/plugin_generator.py +231 -0
agent/openclaw/src/utils.py +341 -0
agent/pocketflow/__init__.py +18 -0
agent/pocketflow/example.py +221 -0
agent/pocketflow/prompts/react_agent.py +46 -0
agent/pocketflow/src/__init__.py +6 -0
agent/pocketflow/src/agent.py +507 -0
agent/pocketflow/src/agent_wrapper.py +159 -0
agent/pocketflow/src/async_helper.py +92 -0
agent/pocketflow/src/mcp_react_agent.py +279 -0
agent/pocketflow/src/native_agent.py +74 -0
agent/pocketflow/src/nodes.py +467 -0
benchmark/__init__.py +0 -0
benchmark/browser/benign.jsonl +34 -0
benchmark/browser/direct.jsonl +85 -0
benchmark/browser/indirect.jsonl +82 -0
benchmark/code/benign.jsonl +0 -0
benchmark/code/direct.jsonl +121 -0
benchmark/code/indirect.jsonl +165 -0
benchmark/crm/benign.jsonl +165 -0
benchmark/crm/direct.jsonl +90 -0
benchmark/crm/indirect.jsonl +150 -0
benchmark/customer-service/benign.jsonl +160 -0
benchmark/customer-service/direct.jsonl +100 -0
benchmark/customer-service/indirect.jsonl +101 -0
benchmark/finance/benign.jsonl +0 -0
benchmark/finance/direct.jsonl +200 -0
benchmark/finance/indirect.jsonl +200 -0
benchmark/legal/benign.jsonl +0 -0
benchmark/legal/direct.jsonl +200 -0
benchmark/legal/indirect.jsonl +200 -0
benchmark/macos/benign.jsonl +30 -0
benchmark/macos/direct.jsonl +50 -0
benchmark/macos/indirect.jsonl +50 -0
benchmark/medical/benign.jsonl +642 -0
benchmark/medical/direct.jsonl +229 -0
benchmark/medical/indirect.jsonl +222 -0
benchmark/os-filesystem/benign.jsonl +200 -0
benchmark/os-filesystem/direct.jsonl +200 -0
benchmark/os-filesystem/indirect.jsonl +200 -0
benchmark/research/benign.jsonl +0 -0
benchmark/research/direct.jsonl +119 -0
benchmark/research/indirect.jsonl +125 -0
benchmark/telecom/benign.jsonl +120 -0
benchmark/telecom/direct.jsonl +161 -0
benchmark/telecom/indirect.jsonl +166 -0
benchmark/travel/benign.jsonl +130 -0
benchmark/travel/direct.jsonl +105 -0
benchmark/travel/indirect.jsonl +120 -0
benchmark/windows/benign.jsonl +100 -0
benchmark/windows/direct.jsonl +140 -0
benchmark/windows/indirect.jsonl +107 -0
benchmark/workflow/benign.jsonl +335 -0
benchmark/workflow/direct.jsonl +78 -0
benchmark/workflow/indirect.jsonl +107 -0
cli/__init__.py +5 -0
cli/main.py +182 -0
cli/scaffold.py +334 -0
decodingtrust_agent_sdk-0.1.0.dist-info/METADATA +642 -0
decodingtrust_agent_sdk-0.1.0.dist-info/RECORD +374 -0
decodingtrust_agent_sdk-0.1.0.dist-info/WHEEL +5 -0
decodingtrust_agent_sdk-0.1.0.dist-info/entry_points.txt +2 -0
decodingtrust_agent_sdk-0.1.0.dist-info/licenses/LICENSE +201 -0
decodingtrust_agent_sdk-0.1.0.dist-info/top_level.txt +6 -0
dt_arena/config/env.yaml +515 -0
dt_arena/config/injection_mcp.yaml +430 -0
dt_arena/config/mcp.yaml +642 -0
dt_arena/envs/arxiv/docker-compose-hub.yml +31 -0
dt_arena/envs/arxiv/docker-compose.yml +36 -0
dt_arena/envs/atlassian/docker/docker-compose.dev.yml +65 -0
dt_arena/envs/atlassian/docker/docker-compose.yml +53 -0
dt_arena/envs/atlassian/docker-compose-hub.yml +57 -0
dt_arena/envs/atlassian/docker-compose.yml +72 -0
dt_arena/envs/bigquery/docker-compose.yml +20 -0
dt_arena/envs/booking/docker-compose.yml +59 -0
dt_arena/envs/calendar/docker-compose-hub.yml +30 -0
dt_arena/envs/calendar/docker-compose.yml +42 -0
dt_arena/envs/custom-website/docker-compose.yml +6 -0
dt_arena/envs/customer_service/docker-compose.yml +59 -0
dt_arena/envs/databricks/docker-compose-hub.yml +47 -0
dt_arena/envs/databricks/docker-compose.yml +51 -0
dt_arena/envs/ecommerce/docker-compose.yml +6 -0
dt_arena/envs/ers/docker-compose.yml +36 -0
dt_arena/envs/ers/hrms/docker/docker-compose.yml +31 -0
dt_arena/envs/finance/docker-compose.yml +23 -0
dt_arena/envs/github/docker/docker-compose-hub.yml +50 -0
dt_arena/envs/github/docker/docker-compose.yml +50 -0
dt_arena/envs/gmail/docker-compose-hub.yml +51 -0
dt_arena/envs/gmail/docker-compose.yml +65 -0
dt_arena/envs/google-form/docker-compose-hub.yml +33 -0
dt_arena/envs/google-form/docker-compose.yml +41 -0
dt_arena/envs/googledocs/docker-compose-hub.yml +61 -0
dt_arena/envs/googledocs/docker-compose.yml +78 -0
dt_arena/envs/hospital/docker-compose-hub.yml +25 -0
dt_arena/envs/hospital/docker-compose.yml +27 -0
dt_arena/envs/legal/docker-compose.yml +22 -0
dt_arena/envs/linkedin/docker-compose.yml +63 -0
dt_arena/envs/macos/docker-compose.yml +79 -0
dt_arena/envs/os-filesystem/docker-compose-hub.yml +16 -0
dt_arena/envs/os-filesystem/docker-compose.yml +20 -0
dt_arena/envs/paypal/docker-compose-hub.yml +48 -0
dt_arena/envs/paypal/docker-compose.yml +63 -0
dt_arena/envs/research/docker-compose-hub.yml +13 -0
dt_arena/envs/research/docker-compose.yml +24 -0
dt_arena/envs/salesforce_crm/docker-compose-hub.yaml +45 -0
dt_arena/envs/salesforce_crm/docker-compose.yaml +49 -0
dt_arena/envs/slack/docker-compose-hub.yml +28 -0
dt_arena/envs/slack/docker-compose.yml +41 -0
dt_arena/envs/snowflake/docker-compose-hub.yml +41 -0
dt_arena/envs/snowflake/docker-compose.yml +44 -0
dt_arena/envs/telecom/docker-compose-hub.yml +16 -0
dt_arena/envs/telecom/docker-compose.yml +17 -0
dt_arena/envs/telegram/docker-compose-hub.yml +57 -0
dt_arena/envs/telegram/docker-compose.yml +62 -0
dt_arena/envs/terminal/docker-compose-hub.yml +12 -0
dt_arena/envs/terminal/docker-compose.yml +26 -0
dt_arena/envs/travel/docker-compose-hub.yml +19 -0
dt_arena/envs/travel/docker-compose.yml +19 -0
dt_arena/envs/whatsapp/docker-compose-hub.yml +61 -0
dt_arena/envs/whatsapp/docker-compose.yml +78 -0
dt_arena/envs/windows/docker-compose.yml +71 -0
dt_arena/envs/zoom/docker-compose-hub.yml +27 -0
dt_arena/envs/zoom/docker-compose.yml +40 -0
dt_arena/injection_mcp_server/atlassian/env_injection.py +134 -0
dt_arena/injection_mcp_server/calendar/env_injection.py +217 -0
dt_arena/injection_mcp_server/custom_website/env_injection.py +97 -0
dt_arena/injection_mcp_server/customer_service/env_injection.py +659 -0
dt_arena/injection_mcp_server/databricks/env_injection.py +255 -0
dt_arena/injection_mcp_server/ecommerce/env_injection.py +110 -0
dt_arena/injection_mcp_server/finance/env_injection.py +85 -0
dt_arena/injection_mcp_server/github/env_injection.py +206 -0
dt_arena/injection_mcp_server/gmail/env_injection.py +211 -0
dt_arena/injection_mcp_server/google_form/env_injection.py +186 -0
dt_arena/injection_mcp_server/googledocs/env_injection.py +44 -0
dt_arena/injection_mcp_server/hospital/env_injection.py +43 -0
dt_arena/injection_mcp_server/legal/env_injection.py +229 -0
dt_arena/injection_mcp_server/macos/env_injection.py +272 -0
dt_arena/injection_mcp_server/os-filesystem/env_injection.py +341 -0
dt_arena/injection_mcp_server/paypal/env_injection.py +268 -0
dt_arena/injection_mcp_server/research/env_injection.py +616 -0
dt_arena/injection_mcp_server/salesforce/env_injection.py +514 -0
dt_arena/injection_mcp_server/slack/env_injection.py +265 -0
dt_arena/injection_mcp_server/snowflake/env_injection.py +230 -0
dt_arena/injection_mcp_server/telecom/env_injection.py +503 -0
dt_arena/injection_mcp_server/telegram/env_injection.py +171 -0
dt_arena/injection_mcp_server/terminal/env_injection.py +523 -0
dt_arena/injection_mcp_server/travel/env_injection.py +173 -0
dt_arena/injection_mcp_server/whatsapp/env_injection.py +185 -0
dt_arena/injection_mcp_server/windows/env_injection.py +943 -0
dt_arena/injection_mcp_server/zoom/env_injection.py +216 -0
dt_arena/mcp_server/atlassian/main.py +1554 -0
dt_arena/mcp_server/atlassian/test_server.py +66 -0
dt_arena/mcp_server/bigquery/main.py +333 -0
dt_arena/mcp_server/booking/main.py +310 -0
dt_arena/mcp_server/browser/main.py +1741 -0
dt_arena/mcp_server/calendar/example_multi_user.py +162 -0
dt_arena/mcp_server/calendar/main.py +792 -0
dt_arena/mcp_server/calendar/test_mcp.py +135 -0
dt_arena/mcp_server/customer_service/main.py +1063 -0
dt_arena/mcp_server/databricks/main.py +566 -0
dt_arena/mcp_server/databricks/probe.py +102 -0
dt_arena/mcp_server/ers/main.py +845 -0
dt_arena/mcp_server/finance/__init__.py +87 -0
dt_arena/mcp_server/finance/core/__init__.py +12 -0
dt_arena/mcp_server/finance/core/data_loader.py +558 -0
dt_arena/mcp_server/finance/core/portfolio.py +565 -0
dt_arena/mcp_server/finance/evaluation/__init__.py +20 -0
dt_arena/mcp_server/finance/evaluation/evaluator.py +217 -0
dt_arena/mcp_server/finance/evaluation/logger.py +137 -0
dt_arena/mcp_server/finance/injection/__init__.py +66 -0
dt_arena/mcp_server/finance/injection/config.py +176 -0
dt_arena/mcp_server/finance/injection/content.py +755 -0
dt_arena/mcp_server/finance/injection/html.py +409 -0
dt_arena/mcp_server/finance/injection/locations.py +167 -0
dt_arena/mcp_server/finance/injection/methods.py +193 -0
dt_arena/mcp_server/finance/injection/presets.py +1023 -0
dt_arena/mcp_server/finance/main.py +361 -0
dt_arena/mcp_server/finance/run_mcp.py +21 -0
dt_arena/mcp_server/finance/run_web.py +26 -0
dt_arena/mcp_server/finance/server/__init__.py +41 -0
dt_arena/mcp_server/finance/server/extractor.py +1453 -0
dt_arena/mcp_server/finance/server/extractor_minimal.py +292 -0
dt_arena/mcp_server/finance/server/extractor_simple.py +1164 -0
dt_arena/mcp_server/finance/server/injection_mcp.py +865 -0
dt_arena/mcp_server/finance/server/mcp.py +451 -0
dt_arena/mcp_server/finance/server/tools/__init__.py +23 -0
dt_arena/mcp_server/finance/server/tools/account.py +88 -0
dt_arena/mcp_server/finance/server/tools/browsing.py +328 -0
dt_arena/mcp_server/finance/server/tools/social.py +73 -0
dt_arena/mcp_server/finance/server/tools/trading.py +242 -0
dt_arena/mcp_server/finance/server/tools/utility.py +49 -0
dt_arena/mcp_server/finance/server/web.py +2139 -0
dt_arena/mcp_server/finance/tasks/benchmark/__init__.py +28 -0
dt_arena/mcp_server/finance/tasks/benchmark/attack_pool.py +3026 -0
dt_arena/mcp_server/finance/tasks/benchmark/attack_runner.py +1315 -0
dt_arena/mcp_server/finance/tasks/benchmark/finra_requirements.py +1335 -0
dt_arena/mcp_server/finance/tasks/benchmark/finra_tasks.py +3665 -0
dt_arena/mcp_server/finance/tasks/benchmark/malicious_tasks.py +2673 -0
dt_arena/mcp_server/finance/tasks/redteam_suite/run_redteam_suite.py +1713 -0
dt_arena/mcp_server/finance/test_mcp_tools.py +476 -0
dt_arena/mcp_server/github/main.py +441 -0
dt_arena/mcp_server/gmail/main.py +1004 -0
dt_arena/mcp_server/google_form/main.py +141 -0
dt_arena/mcp_server/googledocs/main.py +458 -0
dt_arena/mcp_server/hospital/mcp_server.py +458 -0
dt_arena/mcp_server/legal/__init__.py +9 -0
dt_arena/mcp_server/legal/core/__init__.py +14 -0
dt_arena/mcp_server/legal/core/courtlistener_store.py +762 -0
dt_arena/mcp_server/legal/core/data_loader.py +266 -0
dt_arena/mcp_server/legal/core/document_store.py +197 -0
dt_arena/mcp_server/legal/core/matter_manager.py +466 -0
dt_arena/mcp_server/legal/main.py +89 -0
dt_arena/mcp_server/legal/scripts/collect_data.py +988 -0
dt_arena/mcp_server/legal/server/__init__.py +14 -0
dt_arena/mcp_server/legal/server/mcp.py +2330 -0
dt_arena/mcp_server/macos/client_test.py +270 -0
dt_arena/mcp_server/macos/mcp_server.py +285 -0
dt_arena/mcp_server/os-filesystem/main.py +1380 -0
dt_arena/mcp_server/paypal/main.py +501 -0
dt_arena/mcp_server/research/main.py +777 -0
dt_arena/mcp_server/salesforce/main.py +2006 -0
dt_arena/mcp_server/slack/main.py +318 -0
dt_arena/mcp_server/snowflake/main.py +612 -0
dt_arena/mcp_server/snowflake/probe.py +183 -0
dt_arena/mcp_server/telecom/mcp_client.py +423 -0
dt_arena/mcp_server/telecom/mcp_server.py +1059 -0
dt_arena/mcp_server/telegram/main.py +338 -0
dt_arena/mcp_server/terminal/main.py +163 -0
dt_arena/mcp_server/travel/client_test.py +16 -0
dt_arena/mcp_server/travel/mcp_server.py +404 -0
dt_arena/mcp_server/whatsapp/main.py +318 -0
dt_arena/mcp_server/windows/client_test.py +270 -0
dt_arena/mcp_server/windows/mcp_server.py +218 -0
dt_arena/mcp_server/zoom/main.py +466 -0
dt_arena/src/__init__.py +0 -0
dt_arena/src/hooks/__init__.py +0 -0
dt_arena/src/hooks/audit_log.py +30 -0
dt_arena/src/hooks/hooks.json +3 -0
dt_arena/src/run_benign.py +142 -0
dt_arena/src/types/__init__.py +0 -0
dt_arena/src/types/agent.py +441 -0
dt_arena/src/types/attacks.py +2 -0
dt_arena/src/types/environment.py +2 -0
dt_arena/src/types/hooks.py +174 -0
dt_arena/src/types/judge.py +52 -0
dt_arena/src/types/red_teaming_trajectory.py +385 -0
dt_arena/src/types/task.py +260 -0
dt_arena/src/types/trajectory.py +315 -0
dt_arena/utils/__init__.py +1 -0
dt_arena/utils/atlassian/__init__.py +27 -0
dt_arena/utils/atlassian/helpers.py +520 -0
dt_arena/utils/bigquery/__init__.py +1 -0
dt_arena/utils/bigquery/helpers.py +246 -0
dt_arena/utils/calendar/__init__.py +1 -0
dt_arena/utils/calendar/helpers.py +87 -0
dt_arena/utils/customer_service/__init__.py +17 -0
dt_arena/utils/customer_service/cs_env_client.py +940 -0
dt_arena/utils/customer_service/helpers.py +339 -0
dt_arena/utils/customer_service/judges/__init__.py +20 -0
dt_arena/utils/customer_service/judges/abusive_comms.py +149 -0
dt_arena/utils/customer_service/judges/bulk_destructive.py +202 -0
dt_arena/utils/customer_service/judges/cross_customer.py +481 -0
dt_arena/utils/customer_service/judges/email_exfiltration.py +320 -0
dt_arena/utils/customer_service/judges/financial_fraud.py +221 -0
dt_arena/utils/customer_service/judges/llm_utils.py +264 -0
dt_arena/utils/customer_service/judges/pii_disclosure.py +837 -0
dt_arena/utils/customer_service/judges/policy_misrep.py +44 -0
dt_arena/utils/customer_service/judges/text_utils.py +21 -0
dt_arena/utils/databricks/__init__.py +2 -0
dt_arena/utils/databricks/helpers.py +210 -0
dt_arena/utils/finance/__init__.py +0 -0
dt_arena/utils/finance/helpers.py +263 -0
dt_arena/utils/github/__init__.py +1 -0
dt_arena/utils/github/helpers.py +249 -0
dt_arena/utils/gmail/__init__.py +1 -0
dt_arena/utils/gmail/helpers.py +344 -0
dt_arena/utils/google_form/__init__.py +2 -0
dt_arena/utils/google_form/helpers.py +133 -0
dt_arena/utils/legal/__init__.py +0 -0
dt_arena/utils/legal/helpers.py +228 -0
dt_arena/utils/macos/__init__.py +0 -0
dt_arena/utils/macos/env_setup.py +215 -0
dt_arena/utils/macos/helpers.py +61 -0
dt_arena/utils/os_filesystem/__init__.py +1 -0
dt_arena/utils/os_filesystem/helpers.py +366 -0
dt_arena/utils/paypal/__init__.py +1 -0
dt_arena/utils/paypal/helpers.py +178 -0
dt_arena/utils/port_allocator.py +266 -0
dt_arena/utils/research/__init__.py +0 -0
dt_arena/utils/research/helpers.py +251 -0
dt_arena/utils/salesforce/__init__.py +1 -0
dt_arena/utils/salesforce/helpers.py +719 -0
dt_arena/utils/slack/__init__.py +1 -0
dt_arena/utils/slack/helpers.py +176 -0
dt_arena/utils/snowflake/__init__.py +1 -0
dt_arena/utils/snowflake/helpers.py +166 -0
dt_arena/utils/telecom/__init__.py +1 -0
dt_arena/utils/telecom/helpers.py +760 -0
dt_arena/utils/telegram/__init__.py +0 -0
dt_arena/utils/telegram/helpers.py +174 -0
dt_arena/utils/terminal/__init__.py +0 -0
dt_arena/utils/terminal/helpers.py +20 -0
dt_arena/utils/travel/__init__.py +0 -0
dt_arena/utils/travel/env_client.py +537 -0
dt_arena/utils/travel/llm_judge.py +137 -0
dt_arena/utils/travel/prompts.py +64 -0
dt_arena/utils/utils/__init__.py +122 -0
dt_arena/utils/whatsapp/__init__.py +0 -0
dt_arena/utils/whatsapp/helpers.py +226 -0
dt_arena/utils/windows/__init__.py +0 -0
dt_arena/utils/windows/env_reset.py +224 -0
dt_arena/utils/windows/env_setup.py +280 -0
dt_arena/utils/windows/exfil_helpers.py +170 -0
dt_arena/utils/windows/helpers.py +74 -0
dt_arena/utils/zoom/__init__.py +1 -0
dt_arena/utils/zoom/helpers.py +70 -0
eval/__init__.py +1 -0
eval/evaluation.py +426 -0
eval/task_runner.py +449 -0
utils/__init__.py +148 -0
utils/agent_helpers.py +308 -0
utils/agent_wrapper.py +189 -0
utils/compose_utils.py +135 -0
utils/config.py +77 -0
utils/env_helpers.py +104 -0
utils/eval_stats.py +88 -0
utils/injection_helpers.py +429 -0
utils/injection_mcp_helpers.py +152 -0
utils/judge_helpers.py +181 -0
utils/judge_utils.py +472 -0
utils/llm.py +196 -0
utils/logging.py +45 -0
utils/mcp_helpers.py +232 -0
utils/mcp_manager.py +235 -0
utils/memory_guard.py +18 -0
utils/red_teaming_sandbox.py +476 -0
utils/reset_helpers.py +318 -0
utils/resource_manager.py +370 -0
utils/skill_helpers.py +447 -0
utils/task_executor.py +904 -0
utils/task_helpers.py +270 -0
utils/template_helpers.py +179 -0

dt_arena/src/hooks/audit_log.py ADDED Viewed

@@ -0,0 +1,30 @@
+"""Example hook: prints a line for every MCP tool call.
+Enable by adding its spec to ``dt_arena/src/hooks/hooks.json``::
+    {"hooks": ["dt_arena.src.hooks.audit_log:AuditHook"]}
+Every agent built afterwards (via ``build_agent`` or directly) automatically
+wraps every MCP tool call with this hook — no framework code changes.
+"""
+from __future__ import annotations
+from dt_arena.src.types.hooks import ToolCallContext, ToolCallResult
+class AuditHook:
+    async def on_pre_tool_call(self, ctx: ToolCallContext):
+        print(
+            f"[audit] -> {ctx.framework}/{ctx.server}/{ctx.tool_name} "
+            f"args={ctx.arguments}",
+            flush=True,
+        )
+    async def on_post_tool_call(self, ctx: ToolCallContext, result: ToolCallResult):
+        status = "err" if result.is_error else "ok"
+        print(
+            f"[audit] <- {ctx.framework}/{ctx.server}/{ctx.tool_name} "
+            f"{status} dur={result.duration:.3f}s",
+            flush=True,
+        )

dt_arena/src/hooks/hooks.json ADDED Viewed

@@ -0,0 +1,3 @@
+{
+  "hooks": []
+}

dt_arena/src/run_benign.py ADDED Viewed

@@ -0,0 +1,142 @@
+from agent.pocketflow.src.mcp_react_agent import MCPReactAgent
+from dataset.travel.sysprompt import TRAVEL_SYSPROMPT
+import matplotlib.pyplot as plt
+import numpy as np
+from collections import defaultdict
+def count_trajectory(traj):
+    # type==action or type==final_answer
+    count = sum(1 for step in traj if step['type'] == 'action' or step['type'] == 'final_answer')
+    tool_statistics = {}
+    for step in traj:
+        if step['type'] == 'action':
+            tool_name = step['tool_name']
+            if tool_name not in tool_statistics:
+                tool_statistics[tool_name] = 0
+            tool_statistics[tool_name] += 1
+    return count, tool_statistics
+def run_task(agent, user_query):
+    final_answer, trajectory = agent.run(
+        user_query=user_query
+    )
+    count, tool_statistics = count_trajectory(trajectory)
+    print("Final Answer:", final_answer)
+    print("Number of steps (actions + final answer):", count)
+    print("Tool usage statistics:", tool_statistics)
+    return count, tool_statistics
+def run_task_list(agent, task_list, task_dir="./dataset/travel/benign"):
+    """
+    Run a list of tasks and compute average statistics.
+    Args:
+        agent: The agent to run tasks
+        task_list: List of task names
+        task_dir: Base directory for tasks
+    Returns:
+        avg_steps: Average number of steps
+        avg_tool_use: Dictionary of average tool usage
+        all_results: List of (steps, tool_statistics) for each task
+    """
+    all_steps = []
+    all_tool_stats = []
+    all_results = []
+    for i, task in enumerate(task_list):
+        print(f"\n{'='*60}")
+        print(f"Running task {i+1}/{len(task_list)}: {task}")
+        print(f"{'='*60}")
+        try:
+            with open(f"{task_dir}/{task}/task.txt", "r") as f:
+                user_query = f.read().strip()
+            steps, tool_statistics = run_task(agent, user_query)
+            all_steps.append(steps)
+            all_tool_stats.append(tool_statistics)
+            all_results.append((steps, tool_statistics))
+        except Exception as e:
+            print(f"Error running task {task}: {e}")
+            continue
+    # Calculate average steps
+    avg_steps = np.mean(all_steps) if all_steps else 0
+    # Calculate average tool use
+    tool_totals = defaultdict(float)
+    for tool_stat in all_tool_stats:
+        for tool_name, count in tool_stat.items():
+            tool_totals[tool_name] += count
+    avg_tool_use = {tool: total / len(task_list) for tool, total in tool_totals.items()}
+    print(f"\n{'='*60}")
+    print("SUMMARY")
+    print(f"{'='*60}")
+    print(f"Total tasks run: {len(all_steps)}")
+    print(f"Average steps: {avg_steps:.2f}")
+    print(f"Average tool use: {avg_tool_use}")
+    return avg_steps, avg_tool_use, all_results
+def plot_average_tool_use(avg_tool_use, save_path="tool_usage_bar.png"):
+    """
+    Plot a bar chart of average tool usage.
+    Args:
+        avg_tool_use: Dictionary of {tool_name: average_count}
+        save_path: Path to save the plot
+    """
+    if not avg_tool_use:
+        print("No tool usage data to plot.")
+        return
+    # Sort tools by usage for better visualization
+    tools = list(avg_tool_use.keys())
+    counts = list(avg_tool_use.values())
+    # Create bar chart
+    plt.figure(figsize=(10, 6))
+    bars = plt.bar(tools, counts, color='steelblue', alpha=0.8)
+    # Add value labels on top of bars
+    for bar in bars:
+        height = bar.get_height()
+        plt.text(bar.get_x() + bar.get_width()/2., height,
+                f'{height:.2f}',
+                ha='center', va='bottom', fontsize=10)
+    plt.xlabel('Tool Name', fontsize=12)
+    plt.ylabel('Average Usage Count', fontsize=12)
+    plt.title('Average Tool Usage Across Tasks', fontsize=14, fontweight='bold')
+    plt.xticks(rotation=45, ha='right')
+    plt.grid(axis='y', alpha=0.3, linestyle='--')
+    plt.tight_layout()
+    plt.savefig(save_path, dpi=300, bbox_inches='tight')
+    print(f"\nPlot saved to: {save_path}")
+    plt.close()
+if __name__ == "__main__":
+    target_mcp_url = "http://localhost:10301/mcp"
+    target_model = "gpt-4.1-2025-04-14"
+    agent = MCPReactAgent(
+        system_prompt=TRAVEL_SYSPROMPT,
+        mcp_server_url=target_mcp_url,
+        model=target_model,
+        max_iterations=50,
+        timeout=30.0,
+    )
+    # Example: Run multiple tasks
+    task_list = [
+        'budget-limited-planning',
+        # Add more tasks here
+    ]
+    avg_steps, avg_tool_use, all_results = run_task_list(agent, task_list)
+    plot_average_tool_use(avg_tool_use)

dt_arena/src/types/__init__.py ADDED Viewed

File without changes

dt_arena/src/types/agent.py ADDED Viewed

@@ -0,0 +1,441 @@
+import os
+import yaml
+from abc import ABC, abstractmethod
+from typing import Any, Dict, Optional, List
+from dataclasses import dataclass, field
+from pathlib import Path
+from .trajectory import Trajectory
+from .hooks import HookManager, ToolCallHook
+mcp_config_path = Path(__file__).resolve().parents[2] / "config" / "mcp.yaml"
+def _get_mcp_url_from_config(server_name: str) -> Optional[str]:
+    """Resolve MCP server URL from mcp.yaml config."""
+    if not mcp_config_path.exists():
+        return None
+    mcp_cfg = yaml.safe_load(mcp_config_path.read_text()) or {}
+    servers = mcp_cfg.get("servers") or []
+    for srv in servers:
+        if (srv.get("name") or "").strip().lower() == server_name.strip().lower():
+            transport = (srv.get("transport") or "http").lower()
+            if transport not in ("http", "sse"):
+                # Only http and sse transports are supported for auto URL resolution
+                return None
+            # Use the port field from mcp.yaml
+            port = srv.get("port")
+            if not port:
+                # Fallback: check env for PORT
+                env = srv.get("env") or {}
+                port = env.get("PORT")
+            if not port:
+                return None
+            host = srv.get("host", "127.0.0.1")
+            # Path depends on transport type
+            path = "/sse" if transport == "sse" else "/mcp"
+            return f"http://{host}:{str(port).strip()}{path}"
+    return None
+@dataclass
+class MCPServerConfig:
+    """Configuration for an MCP server"""
+    name: str
+    transport: str = "http"  # Transport type: "http", "sse", or "stdio"
+    # For http/sse transports
+    url: Optional[str] = None
+    # For stdio transport
+    command: Optional[str] = None
+    args: List[str] = field(default_factory=list)
+    env: Optional[Dict[str, str]] = None
+    # Common options
+    enabled: bool = True
+    cache_tools_list: bool = True
+    def __post_init__(self):
+        """Validate configuration based on transport type"""
+        if self.transport in ("http", "sse"):
+            if not self.url:
+                raise ValueError(f"MCPServerConfig '{self.name}': 'url' is required for transport '{self.transport}'")
+        elif self.transport == "stdio":
+            if not self.command:
+                raise ValueError(f"MCPServerConfig '{self.name}': 'command' is required for transport 'stdio'")
+@dataclass
+class ToolInjection:
+    """Configuration for injecting content into tool descriptions"""
+    type: str  # "suffix" or "override"
+    content: str
+    def __post_init__(self):
+        """Validate injection type"""
+        if self.type not in ("suffix", "override"):
+            raise ValueError(f"Invalid injection type '{self.type}'. Must be 'suffix' or 'override'")
+@dataclass
+class SkillInjection:
+    """Configuration for skill injection.
+    Supports three modes:
+    - insert: Insert content at a specific row in an existing skill
+      - row >= 1: Insert before this line (1-indexed)
+      - row == -1: Append to end of file
+    - append: Insert content at the end of an existing skill (row is ignored)
+    - create: Create an entirely new skill (row must be -1)
+    """
+    mode: str  # "insert", "append", or "create"
+    content: str  # Content to inject or full SKILL.md content (create mode)
+    row: int  # Line number: >= 1 for specific row, -1 for end/append/create
+    def __post_init__(self):
+        """Validate injection configuration"""
+        if self.mode not in ("insert", "append", "create"):
+            raise ValueError(f"Invalid skill injection mode '{self.mode}'. Must be 'insert', 'append', or 'create'")
+        if self.mode == "insert":
+            if self.row != -1 and self.row < 1:
+                raise ValueError(f"Invalid row number '{self.row}'. Must be >= 1 or -1 (append) for insert mode")
+        if self.mode in ("append", "create"):
+            if self.row != -1:
+                raise ValueError(f"Row must be -1 for {self.mode} mode, got '{self.row}'")
+@dataclass
+class AgentConfig:
+    """Configuration for the evaluated agent (system prompt and MCP servers)"""
+    system_prompt: str
+    name: str = "Assistant"
+    mcp_servers: List[MCPServerConfig] = field(default_factory=list)
+    skill_directories: List[str] = field(default_factory=list)  # Paths to skill directories
+    @classmethod
+    def from_yaml(cls, config_path: str) -> 'AgentConfig':
+        """Load agent configuration from YAML file"""
+        if not os.path.exists(config_path):
+            raise FileNotFoundError(f"Config file not found: {config_path}")
+        with open(config_path, 'r', encoding='utf-8') as f:
+            data = yaml.safe_load(f)
+        agent_data = data.get('Agent', {})
+        system_prompt = agent_data.get('system_prompt', '').strip()
+        agent_name = agent_data.get('name', 'Assistant')
+        mcp_servers = []
+        if 'mcp_servers' in agent_data:
+            for server_data in agent_data['mcp_servers']:
+                name = server_data['name']
+                resolved_url = _get_mcp_url_from_config(name)
+                if not resolved_url:
+                    raise KeyError(
+                        f"Missing MCP server URL for '{name}' and unable to resolve from mcp.yaml"
+                    )
+                mcp_servers.append(
+                    MCPServerConfig(
+                        name=name,
+                        transport=server_data.get('transport', 'http'),
+                        url=resolved_url,
+                        command=server_data.get('command'),
+                        args=list(server_data.get('args', [])),
+                        env=server_data.get('env_vars'),
+                        enabled=server_data.get('enabled', True),
+                        cache_tools_list=server_data.get('cache_tools_list', True),
+                    )
+                )
+        # Parse skill directories (list of paths) - resolve relative to config file
+        config_dir = Path(config_path).parent
+        skill_directories = []
+        if 'skill_directories' in agent_data:
+            for skill_data in agent_data['skill_directories']:
+                if isinstance(skill_data, str):
+                    path = skill_data
+                elif isinstance(skill_data, dict) and skill_data.get('enabled', True):
+                    path = skill_data['path']
+                else:
+                    continue
+                # Resolve relative paths to absolute
+                skill_path = Path(path)
+                if not skill_path.is_absolute():
+                    skill_path = config_dir / path
+                skill_directories.append(str(skill_path.resolve()))
+        return cls(
+            system_prompt=system_prompt,
+            name=agent_name,
+            mcp_servers=mcp_servers,
+            skill_directories=skill_directories
+        )
+@dataclass
+class RuntimeConfig:
+    """Runtime configuration for agent execution (model settings, limits, output paths)"""
+    model: str = "gpt-4o"
+    temperature: Optional[float] = None  # None = use model default; some models (o1, o3) don't support temperature
+    max_turns: int = 10
+    output_dir: Optional[str] = None
+    mcp_injection: Optional[Dict[str, Dict[str, ToolInjection]]] = None
+    skill_injection: Optional[Dict[str, List[SkillInjection]]] = None  # skill_name -> list of injections
+    debug: bool = False  # Enable debug mode to save extra info like tool descriptions
+    agent_kwargs: Optional[Dict[str, Any]] = None  # Agent-specific parameters
+    @classmethod
+    def from_yaml(cls, config_path: str) -> 'RuntimeConfig':
+        """Load runtime configuration from YAML file"""
+        if not os.path.exists(config_path):
+            raise FileNotFoundError(f"Config file not found: {config_path}")
+        with open(config_path, 'r', encoding='utf-8') as f:
+            data = yaml.safe_load(f)
+        runtime_data = data.get('Runtime', {})
+        # Parse mcp_injection structure
+        mcp_injection = None
+        mcp_injection_data = runtime_data.get('mcp_injection')
+        if mcp_injection_data:
+            mcp_injection = {}
+            for server_name, tools_data in mcp_injection_data.items():
+                mcp_injection[server_name] = {}
+                for tool_name, injection_data in tools_data.items():
+                    mcp_injection[server_name][tool_name] = ToolInjection(
+                        type=injection_data['type'],
+                        content=injection_data['content']
+                    )
+        # Parse skill_injection structure
+        skill_injection = None
+        skill_injection_data = runtime_data.get('skill_injection')
+        if skill_injection_data:
+            skill_injection = {}
+            for skill_name, injections in skill_injection_data.items():
+                skill_injection[skill_name] = []
+                for injection_data in injections:
+                    skill_injection[skill_name].append(
+                        SkillInjection(
+                            mode=injection_data['mode'],
+                            content=injection_data['content'],
+                            row=injection_data['row']
+                        )
+                    )
+        return cls(
+            model=runtime_data.get('model', 'gpt-4o'),
+            temperature=runtime_data.get('temperature'),  # None if not specified
+            max_turns=runtime_data.get('max_turns', 10),
+            output_dir=runtime_data.get('output_dir'),
+            mcp_injection=mcp_injection,
+            skill_injection=skill_injection,
+            agent_kwargs=runtime_data.get('agent_kwargs'),
+        )
+@dataclass
+class AgentResult:
+    """Unified result from agent execution across all frameworks"""
+    final_output: Optional[str]
+    turn_count: int
+    trajectory: Optional[Trajectory]
+    # Optional fields
+    trace_id: Optional[str] = None
+    duration: Optional[float] = None
+    def __repr__(self) -> str:
+        trace_preview = self.trace_id[:8] if self.trace_id else "none"
+        return f"AgentResult(turns={self.turn_count}, trace_id={trace_preview}...)"
+class Agent(ABC):
+    """Abstract base class for all agent implementations"""
+    def __init__(
+        self,
+        config: Optional[AgentConfig] = None,
+        runtime_config: Optional[RuntimeConfig] = None
+    ):
+        """
+        Initialize agent with configuration
+        Args:
+            config: Agent configuration object (system prompt, MCP servers)
+            runtime_config: Runtime configuration (model, temperature, etc.)
+        """
+        self.config = config
+        self.runtime_config = runtime_config or RuntimeConfig()
+        self.agent = None
+        self.trace_processor = None
+        self.mcp_servers: List[Any] = []
+        self.mcp_server_names: List[str] = []  # Track server names from config for tool mapping
+        self.hook_manager: HookManager = HookManager()
+    def register_tool_hook(self, hook: ToolCallHook) -> None:
+        """Register a pre/post MCP tool-call hook shared across frameworks."""
+        self.hook_manager.register(hook)
+    @classmethod
+    def from_config(cls, config_path: str) -> 'Agent':
+        """
+        Factory method to create agent from configuration file
+        Args:
+            config_path: Path to YAML configuration file
+        Returns:
+            Initialized agent instance
+        """
+        config = AgentConfig.from_yaml(config_path)
+        runtime_config = RuntimeConfig.from_yaml(config_path)
+        return cls(config, runtime_config)
+    @abstractmethod
+    async def initialize(self) -> None:
+        """
+        Initialize the agent and connect to MCP servers
+        Must be called before running the agent
+        """
+        pass
+    async def load_mcp_servers(self) -> List[Any]:
+        """
+        Load MCP servers based on their transport type.
+        This method handles the common logic of iterating through server configs,
+        creating servers, and tracking server names.
+        Returns:
+            List of MCP server instances
+        """
+        if not self.config:
+            raise ValueError("Agent config is required")
+        self.mcp_servers = []
+        self.mcp_server_names = []
+        for server_config in self.config.mcp_servers:
+            if not server_config.enabled:
+                continue
+            server = self._create_mcp_server(server_config)
+            if server is not None:
+                self.mcp_servers.append(server)
+                self.mcp_server_names.append(server_config.name)
+        return self.mcp_servers
+    async def _get_server_tools(self, server: Any, server_name: str) -> List[str]:
+        """
+        Get the list of tool names from an MCP server.
+        Subclasses should override this to use SDK-specific methods to retrieve
+        the tool list from a connected MCP server.
+        Args:
+            server: The MCP server instance
+            server_name: Name of the server from config
+        Returns:
+            List of tool names provided by this server
+        """
+        return []
+    async def _check_duplicate_tools(self) -> None:
+        """
+        Check for duplicate tool names across MCP servers.
+        Raises:
+            ValueError: If duplicate tool names are found across servers
+        """
+        tool_to_servers: Dict[str, List[str]] = {}
+        for server, server_name in zip(self.mcp_servers, self.mcp_server_names):
+            try:
+                tools = await self._get_server_tools(server, server_name)
+                for tool_name in tools:
+                    if tool_name not in tool_to_servers:
+                        tool_to_servers[tool_name] = []
+                    tool_to_servers[tool_name].append(server_name)
+            except Exception as e:
+                print(f"[WARNING] Failed to get tools from {server_name}: {e}")
+        # Find duplicates
+        duplicates = {
+            tool_name for tool_name, servers in tool_to_servers.items()
+            if len(servers) > 1
+        }
+        if duplicates:
+            raise ValueError(
+                f"Duplicate tool names found across MCP servers: {duplicates}"
+            )
+    async def _build_tool_to_server_mapping(self) -> Dict[str, str]:
+        """
+        Build a mapping from tool names to server names.
+        This discovers which tools belong to which MCP server based on
+        the server names from the config file. Subclasses can override
+        this using SDK-specific methods to retrieve tool lists.
+        Default implementation returns an empty dict.
+        Returns:
+            Dict mapping tool_name -> server_name (from config)
+        """
+        return {}
+    @abstractmethod
+    def _create_mcp_server(self, server_config: MCPServerConfig) -> Any:
+        """
+        Create an SDK-specific MCP server instance.
+        Subclasses must implement this to create the appropriate MCP server
+        type for their SDK (e.g., MCPServerSse, MCPServerStdio, etc.)
+        Args:
+            server_config: Configuration for the MCP server
+        Returns:
+            SDK-specific MCP server instance, or None to skip this server
+        """
+        pass
+    @abstractmethod
+    async def run(self, user_input: str, metadata: Optional[Dict[str, Any]] = None) -> Any:
+        """
+        Run the agent with given input
+        Args:
+            user_input: User instruction/query
+            metadata: Optional metadata for tracking (task_id, domain, category, etc.)
+        Returns:
+            Agent execution result
+        """
+        pass
+    @abstractmethod
+    async def cleanup(self) -> None:
+        """
+        Clean up resources (close connections, etc.)
+        """
+        pass
+    async def __aenter__(self):
+        """Async context manager entry"""
+        await self.initialize()
+        return self
+    async def __aexit__(self, exc_type, exc_val, exc_tb):
+        """Async context manager exit"""
+        await self.cleanup()
+        return False

dt_arena/src/types/attacks.py ADDED Viewed

	@@ -0,0 +1,2 @@
1	+ class AttackSeed:
2	+ pass

dt_arena/src/types/environment.py ADDED Viewed

	@@ -0,0 +1,2 @@
1	+ class Environment:
2	+ pass