PyPI - decodingtrust-agent-sdk - Versions diffs - 0.1.0__py3-none-any.whl - Mend

decodingtrust-agent-sdk 0.1.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (374) hide show

agent/__init__.py +30 -0
agent/claudesdk/__init__.py +8 -0
agent/claudesdk/example.py +221 -0
agent/claudesdk/src/__init__.py +8 -0
agent/claudesdk/src/agent.py +400 -0
agent/claudesdk/src/mcp_proxy.py +409 -0
agent/claudesdk/src/utils.py +420 -0
agent/googleadk/__init__.py +15 -0
agent/googleadk/example.py +237 -0
agent/googleadk/src/__init__.py +12 -0
agent/googleadk/src/agent.py +401 -0
agent/googleadk/src/mcp_wrapper.py +163 -0
agent/googleadk/src/utils.py +602 -0
agent/langchain/__init__.py +8 -0
agent/langchain/example.py +213 -0
agent/langchain/src/__init__.py +8 -0
agent/langchain/src/agent.py +645 -0
agent/langchain/src/utils.py +433 -0
agent/openaisdk/__init__.py +17 -0
agent/openaisdk/example.py +228 -0
agent/openaisdk/src/__init__.py +12 -0
agent/openaisdk/src/agent.py +491 -0
agent/openaisdk/src/agent_wrapper.py +143 -0
agent/openaisdk/src/mcp_wrapper.py +395 -0
agent/openaisdk/src/utils.py +493 -0
agent/openclaw/__init__.py +10 -0
agent/openclaw/example.py +251 -0
agent/openclaw/src/__init__.py +14 -0
agent/openclaw/src/agent.py +930 -0
agent/openclaw/src/helpers/__init__.py +1 -0
agent/openclaw/src/helpers/auth_helpers.py +55 -0
agent/openclaw/src/mcp_proxy.py +564 -0
agent/openclaw/src/plugin_generator.py +231 -0
agent/openclaw/src/utils.py +341 -0
agent/pocketflow/__init__.py +18 -0
agent/pocketflow/example.py +221 -0
agent/pocketflow/prompts/react_agent.py +46 -0
agent/pocketflow/src/__init__.py +6 -0
agent/pocketflow/src/agent.py +507 -0
agent/pocketflow/src/agent_wrapper.py +159 -0
agent/pocketflow/src/async_helper.py +92 -0
agent/pocketflow/src/mcp_react_agent.py +279 -0
agent/pocketflow/src/native_agent.py +74 -0
agent/pocketflow/src/nodes.py +467 -0
benchmark/__init__.py +0 -0
benchmark/browser/benign.jsonl +34 -0
benchmark/browser/direct.jsonl +85 -0
benchmark/browser/indirect.jsonl +82 -0
benchmark/code/benign.jsonl +0 -0
benchmark/code/direct.jsonl +121 -0
benchmark/code/indirect.jsonl +165 -0
benchmark/crm/benign.jsonl +165 -0
benchmark/crm/direct.jsonl +90 -0
benchmark/crm/indirect.jsonl +150 -0
benchmark/customer-service/benign.jsonl +160 -0
benchmark/customer-service/direct.jsonl +100 -0
benchmark/customer-service/indirect.jsonl +101 -0
benchmark/finance/benign.jsonl +0 -0
benchmark/finance/direct.jsonl +200 -0
benchmark/finance/indirect.jsonl +200 -0
benchmark/legal/benign.jsonl +0 -0
benchmark/legal/direct.jsonl +200 -0
benchmark/legal/indirect.jsonl +200 -0
benchmark/macos/benign.jsonl +30 -0
benchmark/macos/direct.jsonl +50 -0
benchmark/macos/indirect.jsonl +50 -0
benchmark/medical/benign.jsonl +642 -0
benchmark/medical/direct.jsonl +229 -0
benchmark/medical/indirect.jsonl +222 -0
benchmark/os-filesystem/benign.jsonl +200 -0
benchmark/os-filesystem/direct.jsonl +200 -0
benchmark/os-filesystem/indirect.jsonl +200 -0
benchmark/research/benign.jsonl +0 -0
benchmark/research/direct.jsonl +119 -0
benchmark/research/indirect.jsonl +125 -0
benchmark/telecom/benign.jsonl +120 -0
benchmark/telecom/direct.jsonl +161 -0
benchmark/telecom/indirect.jsonl +166 -0
benchmark/travel/benign.jsonl +130 -0
benchmark/travel/direct.jsonl +105 -0
benchmark/travel/indirect.jsonl +120 -0
benchmark/windows/benign.jsonl +100 -0
benchmark/windows/direct.jsonl +140 -0
benchmark/windows/indirect.jsonl +107 -0
benchmark/workflow/benign.jsonl +335 -0
benchmark/workflow/direct.jsonl +78 -0
benchmark/workflow/indirect.jsonl +107 -0
cli/__init__.py +5 -0
cli/main.py +182 -0
cli/scaffold.py +334 -0
decodingtrust_agent_sdk-0.1.0.dist-info/METADATA +642 -0
decodingtrust_agent_sdk-0.1.0.dist-info/RECORD +374 -0
decodingtrust_agent_sdk-0.1.0.dist-info/WHEEL +5 -0
decodingtrust_agent_sdk-0.1.0.dist-info/entry_points.txt +2 -0
decodingtrust_agent_sdk-0.1.0.dist-info/licenses/LICENSE +201 -0
decodingtrust_agent_sdk-0.1.0.dist-info/top_level.txt +6 -0
dt_arena/config/env.yaml +515 -0
dt_arena/config/injection_mcp.yaml +430 -0
dt_arena/config/mcp.yaml +642 -0
dt_arena/envs/arxiv/docker-compose-hub.yml +31 -0
dt_arena/envs/arxiv/docker-compose.yml +36 -0
dt_arena/envs/atlassian/docker/docker-compose.dev.yml +65 -0
dt_arena/envs/atlassian/docker/docker-compose.yml +53 -0
dt_arena/envs/atlassian/docker-compose-hub.yml +57 -0
dt_arena/envs/atlassian/docker-compose.yml +72 -0
dt_arena/envs/bigquery/docker-compose.yml +20 -0
dt_arena/envs/booking/docker-compose.yml +59 -0
dt_arena/envs/calendar/docker-compose-hub.yml +30 -0
dt_arena/envs/calendar/docker-compose.yml +42 -0
dt_arena/envs/custom-website/docker-compose.yml +6 -0
dt_arena/envs/customer_service/docker-compose.yml +59 -0
dt_arena/envs/databricks/docker-compose-hub.yml +47 -0
dt_arena/envs/databricks/docker-compose.yml +51 -0
dt_arena/envs/ecommerce/docker-compose.yml +6 -0
dt_arena/envs/ers/docker-compose.yml +36 -0
dt_arena/envs/ers/hrms/docker/docker-compose.yml +31 -0
dt_arena/envs/finance/docker-compose.yml +23 -0
dt_arena/envs/github/docker/docker-compose-hub.yml +50 -0
dt_arena/envs/github/docker/docker-compose.yml +50 -0
dt_arena/envs/gmail/docker-compose-hub.yml +51 -0
dt_arena/envs/gmail/docker-compose.yml +65 -0
dt_arena/envs/google-form/docker-compose-hub.yml +33 -0
dt_arena/envs/google-form/docker-compose.yml +41 -0
dt_arena/envs/googledocs/docker-compose-hub.yml +61 -0
dt_arena/envs/googledocs/docker-compose.yml +78 -0
dt_arena/envs/hospital/docker-compose-hub.yml +25 -0
dt_arena/envs/hospital/docker-compose.yml +27 -0
dt_arena/envs/legal/docker-compose.yml +22 -0
dt_arena/envs/linkedin/docker-compose.yml +63 -0
dt_arena/envs/macos/docker-compose.yml +79 -0
dt_arena/envs/os-filesystem/docker-compose-hub.yml +16 -0
dt_arena/envs/os-filesystem/docker-compose.yml +20 -0
dt_arena/envs/paypal/docker-compose-hub.yml +48 -0
dt_arena/envs/paypal/docker-compose.yml +63 -0
dt_arena/envs/research/docker-compose-hub.yml +13 -0
dt_arena/envs/research/docker-compose.yml +24 -0
dt_arena/envs/salesforce_crm/docker-compose-hub.yaml +45 -0
dt_arena/envs/salesforce_crm/docker-compose.yaml +49 -0
dt_arena/envs/slack/docker-compose-hub.yml +28 -0
dt_arena/envs/slack/docker-compose.yml +41 -0
dt_arena/envs/snowflake/docker-compose-hub.yml +41 -0
dt_arena/envs/snowflake/docker-compose.yml +44 -0
dt_arena/envs/telecom/docker-compose-hub.yml +16 -0
dt_arena/envs/telecom/docker-compose.yml +17 -0
dt_arena/envs/telegram/docker-compose-hub.yml +57 -0
dt_arena/envs/telegram/docker-compose.yml +62 -0
dt_arena/envs/terminal/docker-compose-hub.yml +12 -0
dt_arena/envs/terminal/docker-compose.yml +26 -0
dt_arena/envs/travel/docker-compose-hub.yml +19 -0
dt_arena/envs/travel/docker-compose.yml +19 -0
dt_arena/envs/whatsapp/docker-compose-hub.yml +61 -0
dt_arena/envs/whatsapp/docker-compose.yml +78 -0
dt_arena/envs/windows/docker-compose.yml +71 -0
dt_arena/envs/zoom/docker-compose-hub.yml +27 -0
dt_arena/envs/zoom/docker-compose.yml +40 -0
dt_arena/injection_mcp_server/atlassian/env_injection.py +134 -0
dt_arena/injection_mcp_server/calendar/env_injection.py +217 -0
dt_arena/injection_mcp_server/custom_website/env_injection.py +97 -0
dt_arena/injection_mcp_server/customer_service/env_injection.py +659 -0
dt_arena/injection_mcp_server/databricks/env_injection.py +255 -0
dt_arena/injection_mcp_server/ecommerce/env_injection.py +110 -0
dt_arena/injection_mcp_server/finance/env_injection.py +85 -0
dt_arena/injection_mcp_server/github/env_injection.py +206 -0
dt_arena/injection_mcp_server/gmail/env_injection.py +211 -0
dt_arena/injection_mcp_server/google_form/env_injection.py +186 -0
dt_arena/injection_mcp_server/googledocs/env_injection.py +44 -0
dt_arena/injection_mcp_server/hospital/env_injection.py +43 -0
dt_arena/injection_mcp_server/legal/env_injection.py +229 -0
dt_arena/injection_mcp_server/macos/env_injection.py +272 -0
dt_arena/injection_mcp_server/os-filesystem/env_injection.py +341 -0
dt_arena/injection_mcp_server/paypal/env_injection.py +268 -0
dt_arena/injection_mcp_server/research/env_injection.py +616 -0
dt_arena/injection_mcp_server/salesforce/env_injection.py +514 -0
dt_arena/injection_mcp_server/slack/env_injection.py +265 -0
dt_arena/injection_mcp_server/snowflake/env_injection.py +230 -0
dt_arena/injection_mcp_server/telecom/env_injection.py +503 -0
dt_arena/injection_mcp_server/telegram/env_injection.py +171 -0
dt_arena/injection_mcp_server/terminal/env_injection.py +523 -0
dt_arena/injection_mcp_server/travel/env_injection.py +173 -0
dt_arena/injection_mcp_server/whatsapp/env_injection.py +185 -0
dt_arena/injection_mcp_server/windows/env_injection.py +943 -0
dt_arena/injection_mcp_server/zoom/env_injection.py +216 -0
dt_arena/mcp_server/atlassian/main.py +1554 -0
dt_arena/mcp_server/atlassian/test_server.py +66 -0
dt_arena/mcp_server/bigquery/main.py +333 -0
dt_arena/mcp_server/booking/main.py +310 -0
dt_arena/mcp_server/browser/main.py +1741 -0
dt_arena/mcp_server/calendar/example_multi_user.py +162 -0
dt_arena/mcp_server/calendar/main.py +792 -0
dt_arena/mcp_server/calendar/test_mcp.py +135 -0
dt_arena/mcp_server/customer_service/main.py +1063 -0
dt_arena/mcp_server/databricks/main.py +566 -0
dt_arena/mcp_server/databricks/probe.py +102 -0
dt_arena/mcp_server/ers/main.py +845 -0
dt_arena/mcp_server/finance/__init__.py +87 -0
dt_arena/mcp_server/finance/core/__init__.py +12 -0
dt_arena/mcp_server/finance/core/data_loader.py +558 -0
dt_arena/mcp_server/finance/core/portfolio.py +565 -0
dt_arena/mcp_server/finance/evaluation/__init__.py +20 -0
dt_arena/mcp_server/finance/evaluation/evaluator.py +217 -0
dt_arena/mcp_server/finance/evaluation/logger.py +137 -0
dt_arena/mcp_server/finance/injection/__init__.py +66 -0
dt_arena/mcp_server/finance/injection/config.py +176 -0
dt_arena/mcp_server/finance/injection/content.py +755 -0
dt_arena/mcp_server/finance/injection/html.py +409 -0
dt_arena/mcp_server/finance/injection/locations.py +167 -0
dt_arena/mcp_server/finance/injection/methods.py +193 -0
dt_arena/mcp_server/finance/injection/presets.py +1023 -0
dt_arena/mcp_server/finance/main.py +361 -0
dt_arena/mcp_server/finance/run_mcp.py +21 -0
dt_arena/mcp_server/finance/run_web.py +26 -0
dt_arena/mcp_server/finance/server/__init__.py +41 -0
dt_arena/mcp_server/finance/server/extractor.py +1453 -0
dt_arena/mcp_server/finance/server/extractor_minimal.py +292 -0
dt_arena/mcp_server/finance/server/extractor_simple.py +1164 -0
dt_arena/mcp_server/finance/server/injection_mcp.py +865 -0
dt_arena/mcp_server/finance/server/mcp.py +451 -0
dt_arena/mcp_server/finance/server/tools/__init__.py +23 -0
dt_arena/mcp_server/finance/server/tools/account.py +88 -0
dt_arena/mcp_server/finance/server/tools/browsing.py +328 -0
dt_arena/mcp_server/finance/server/tools/social.py +73 -0
dt_arena/mcp_server/finance/server/tools/trading.py +242 -0
dt_arena/mcp_server/finance/server/tools/utility.py +49 -0
dt_arena/mcp_server/finance/server/web.py +2139 -0
dt_arena/mcp_server/finance/tasks/benchmark/__init__.py +28 -0
dt_arena/mcp_server/finance/tasks/benchmark/attack_pool.py +3026 -0
dt_arena/mcp_server/finance/tasks/benchmark/attack_runner.py +1315 -0
dt_arena/mcp_server/finance/tasks/benchmark/finra_requirements.py +1335 -0
dt_arena/mcp_server/finance/tasks/benchmark/finra_tasks.py +3665 -0
dt_arena/mcp_server/finance/tasks/benchmark/malicious_tasks.py +2673 -0
dt_arena/mcp_server/finance/tasks/redteam_suite/run_redteam_suite.py +1713 -0
dt_arena/mcp_server/finance/test_mcp_tools.py +476 -0
dt_arena/mcp_server/github/main.py +441 -0
dt_arena/mcp_server/gmail/main.py +1004 -0
dt_arena/mcp_server/google_form/main.py +141 -0
dt_arena/mcp_server/googledocs/main.py +458 -0
dt_arena/mcp_server/hospital/mcp_server.py +458 -0
dt_arena/mcp_server/legal/__init__.py +9 -0
dt_arena/mcp_server/legal/core/__init__.py +14 -0
dt_arena/mcp_server/legal/core/courtlistener_store.py +762 -0
dt_arena/mcp_server/legal/core/data_loader.py +266 -0
dt_arena/mcp_server/legal/core/document_store.py +197 -0
dt_arena/mcp_server/legal/core/matter_manager.py +466 -0
dt_arena/mcp_server/legal/main.py +89 -0
dt_arena/mcp_server/legal/scripts/collect_data.py +988 -0
dt_arena/mcp_server/legal/server/__init__.py +14 -0
dt_arena/mcp_server/legal/server/mcp.py +2330 -0
dt_arena/mcp_server/macos/client_test.py +270 -0
dt_arena/mcp_server/macos/mcp_server.py +285 -0
dt_arena/mcp_server/os-filesystem/main.py +1380 -0
dt_arena/mcp_server/paypal/main.py +501 -0
dt_arena/mcp_server/research/main.py +777 -0
dt_arena/mcp_server/salesforce/main.py +2006 -0
dt_arena/mcp_server/slack/main.py +318 -0
dt_arena/mcp_server/snowflake/main.py +612 -0
dt_arena/mcp_server/snowflake/probe.py +183 -0
dt_arena/mcp_server/telecom/mcp_client.py +423 -0
dt_arena/mcp_server/telecom/mcp_server.py +1059 -0
dt_arena/mcp_server/telegram/main.py +338 -0
dt_arena/mcp_server/terminal/main.py +163 -0
dt_arena/mcp_server/travel/client_test.py +16 -0
dt_arena/mcp_server/travel/mcp_server.py +404 -0
dt_arena/mcp_server/whatsapp/main.py +318 -0
dt_arena/mcp_server/windows/client_test.py +270 -0
dt_arena/mcp_server/windows/mcp_server.py +218 -0
dt_arena/mcp_server/zoom/main.py +466 -0
dt_arena/src/__init__.py +0 -0
dt_arena/src/hooks/__init__.py +0 -0
dt_arena/src/hooks/audit_log.py +30 -0
dt_arena/src/hooks/hooks.json +3 -0
dt_arena/src/run_benign.py +142 -0
dt_arena/src/types/__init__.py +0 -0
dt_arena/src/types/agent.py +441 -0
dt_arena/src/types/attacks.py +2 -0
dt_arena/src/types/environment.py +2 -0
dt_arena/src/types/hooks.py +174 -0
dt_arena/src/types/judge.py +52 -0
dt_arena/src/types/red_teaming_trajectory.py +385 -0
dt_arena/src/types/task.py +260 -0
dt_arena/src/types/trajectory.py +315 -0
dt_arena/utils/__init__.py +1 -0
dt_arena/utils/atlassian/__init__.py +27 -0
dt_arena/utils/atlassian/helpers.py +520 -0
dt_arena/utils/bigquery/__init__.py +1 -0
dt_arena/utils/bigquery/helpers.py +246 -0
dt_arena/utils/calendar/__init__.py +1 -0
dt_arena/utils/calendar/helpers.py +87 -0
dt_arena/utils/customer_service/__init__.py +17 -0
dt_arena/utils/customer_service/cs_env_client.py +940 -0
dt_arena/utils/customer_service/helpers.py +339 -0
dt_arena/utils/customer_service/judges/__init__.py +20 -0
dt_arena/utils/customer_service/judges/abusive_comms.py +149 -0
dt_arena/utils/customer_service/judges/bulk_destructive.py +202 -0
dt_arena/utils/customer_service/judges/cross_customer.py +481 -0
dt_arena/utils/customer_service/judges/email_exfiltration.py +320 -0
dt_arena/utils/customer_service/judges/financial_fraud.py +221 -0
dt_arena/utils/customer_service/judges/llm_utils.py +264 -0
dt_arena/utils/customer_service/judges/pii_disclosure.py +837 -0
dt_arena/utils/customer_service/judges/policy_misrep.py +44 -0
dt_arena/utils/customer_service/judges/text_utils.py +21 -0
dt_arena/utils/databricks/__init__.py +2 -0
dt_arena/utils/databricks/helpers.py +210 -0
dt_arena/utils/finance/__init__.py +0 -0
dt_arena/utils/finance/helpers.py +263 -0
dt_arena/utils/github/__init__.py +1 -0
dt_arena/utils/github/helpers.py +249 -0
dt_arena/utils/gmail/__init__.py +1 -0
dt_arena/utils/gmail/helpers.py +344 -0
dt_arena/utils/google_form/__init__.py +2 -0
dt_arena/utils/google_form/helpers.py +133 -0
dt_arena/utils/legal/__init__.py +0 -0
dt_arena/utils/legal/helpers.py +228 -0
dt_arena/utils/macos/__init__.py +0 -0
dt_arena/utils/macos/env_setup.py +215 -0
dt_arena/utils/macos/helpers.py +61 -0
dt_arena/utils/os_filesystem/__init__.py +1 -0
dt_arena/utils/os_filesystem/helpers.py +366 -0
dt_arena/utils/paypal/__init__.py +1 -0
dt_arena/utils/paypal/helpers.py +178 -0
dt_arena/utils/port_allocator.py +266 -0
dt_arena/utils/research/__init__.py +0 -0
dt_arena/utils/research/helpers.py +251 -0
dt_arena/utils/salesforce/__init__.py +1 -0
dt_arena/utils/salesforce/helpers.py +719 -0
dt_arena/utils/slack/__init__.py +1 -0
dt_arena/utils/slack/helpers.py +176 -0
dt_arena/utils/snowflake/__init__.py +1 -0
dt_arena/utils/snowflake/helpers.py +166 -0
dt_arena/utils/telecom/__init__.py +1 -0
dt_arena/utils/telecom/helpers.py +760 -0
dt_arena/utils/telegram/__init__.py +0 -0
dt_arena/utils/telegram/helpers.py +174 -0
dt_arena/utils/terminal/__init__.py +0 -0
dt_arena/utils/terminal/helpers.py +20 -0
dt_arena/utils/travel/__init__.py +0 -0
dt_arena/utils/travel/env_client.py +537 -0
dt_arena/utils/travel/llm_judge.py +137 -0
dt_arena/utils/travel/prompts.py +64 -0
dt_arena/utils/utils/__init__.py +122 -0
dt_arena/utils/whatsapp/__init__.py +0 -0
dt_arena/utils/whatsapp/helpers.py +226 -0
dt_arena/utils/windows/__init__.py +0 -0
dt_arena/utils/windows/env_reset.py +224 -0
dt_arena/utils/windows/env_setup.py +280 -0
dt_arena/utils/windows/exfil_helpers.py +170 -0
dt_arena/utils/windows/helpers.py +74 -0
dt_arena/utils/zoom/__init__.py +1 -0
dt_arena/utils/zoom/helpers.py +70 -0
eval/__init__.py +1 -0
eval/evaluation.py +426 -0
eval/task_runner.py +449 -0
utils/__init__.py +148 -0
utils/agent_helpers.py +308 -0
utils/agent_wrapper.py +189 -0
utils/compose_utils.py +135 -0
utils/config.py +77 -0
utils/env_helpers.py +104 -0
utils/eval_stats.py +88 -0
utils/injection_helpers.py +429 -0
utils/injection_mcp_helpers.py +152 -0
utils/judge_helpers.py +181 -0
utils/judge_utils.py +472 -0
utils/llm.py +196 -0
utils/logging.py +45 -0
utils/mcp_helpers.py +232 -0
utils/mcp_manager.py +235 -0
utils/memory_guard.py +18 -0
utils/red_teaming_sandbox.py +476 -0
utils/reset_helpers.py +318 -0
utils/resource_manager.py +370 -0
utils/skill_helpers.py +447 -0
utils/task_executor.py +904 -0
utils/task_helpers.py +270 -0
utils/template_helpers.py +179 -0

agent/openclaw/src/agent.py ADDED Viewed

@@ -0,0 +1,930 @@
+import os
+import sys
+import json
+import asyncio
+import uuid
+import subprocess
+import shutil
+import time
+from functools import partial
+from datetime import datetime
+from pathlib import Path
+from typing import Dict, Any, Optional, List, Union
+import aiohttp
+# Add parent directory to path to import types
+sys.path.insert(0, os.path.join(os.path.dirname(__file__), '../../..'))
+from dt_arena.src.types.agent import Agent, AgentConfig, RuntimeConfig, MCPServerConfig, AgentResult
+from dt_arena.src.types.trajectory import Trajectory
+from .mcp_proxy import MCPProxyManager
+from .utils import OpenClawTrajectoryConverter
+from .plugin_generator import StaticPluginGenerator, MCPServerTools, MCPTool
+from .helpers.auth_helpers import populate_openclaw_profile_auth
+from utils.skill_helpers import (
+    create_injected_skills_directory,
+    cleanup_temp_directory,
+)
+# Default timeout for OpenClaw operations (increased from 120s for complex multi-tool tasks)
+OPENCLAW_TIMEOUT_SECONDS: float = float(os.getenv("OPENCLAW_TIMEOUT_SECONDS", "1000"))
+OPENCLAW_TRAJECTORY_CONVERSION_TIMEOUT_SECONDS: float = float(
+    os.getenv("OPENCLAW_TRAJECTORY_CONVERSION_TIMEOUT_SECONDS", "15")
+)
+# OpenClaw config path
+OPENCLAW_CONFIG_PATH = Path.home() / ".openclaw" / "openclaw.json"
+class OpenClawAgent(Agent):
+    """
+    This agent integrates with the OpenClaw CLI to execute instructions and interact with MCP servers.
+    """
+    # Valid thinking levels for OpenClaw CLI
+    VALID_THINKING_LEVELS = ("off", "minimal", "low", "medium", "high")
+    def __init__(
+        self,
+        agent_config: AgentConfig,
+        runtime_config: Optional[RuntimeConfig] = None,
+    ):
+        """
+        Initialize OpenClaw Agent.
+        Args:
+            agent_config: Agent configuration (system_prompt and mcp_servers)
+            runtime_config: Runtime configuration (model, temperature, max_turns, output_dir)
+        """
+        super().__init__(agent_config, runtime_config)
+        # Setup output directories
+        output_dir = self.runtime_config.output_dir or os.path.join(os.getcwd(), "results")
+        self.output_dir = output_dir
+        self.traces_dir = os.path.join(self.output_dir, "traces")
+        self._runtime_trace_dir = os.path.join(self.traces_dir, "openclaw_runtime")
+        self.trajectories_dir = self.output_dir
+        os.makedirs(self.traces_dir, exist_ok=True)
+        os.makedirs(self._runtime_trace_dir, exist_ok=True)
+        os.makedirs(self.trajectories_dir, exist_ok=True)
+        # Initialize timestamp and trajectory converter
+        self.timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
+        # Initialize trajectory converter
+        self.trajectory_converter = OpenClawTrajectoryConverter(
+            self.trajectories_dir,
+            self.timestamp
+        )
+        # Session management
+        self._session_id: str = f"dt-arena-{uuid.uuid4().hex[:8]}"
+        self._conversation_history: List[Dict[str, Any]] = []
+        # Unique profile name for isolation (prevents plugin conflicts in parallel execution)
+        self._profile_name: str = f"task-{uuid.uuid4().hex[:8]}"
+        self._profile_dir: str = os.path.expanduser(f"~/.openclaw-{self._profile_name}")
+        self._profile_extensions_dir: str = os.path.join(self._profile_dir, "extensions")
+        # Execution state
+        self._turn_count: int = 0
+        self._trace_metadata: Optional[Dict[str, Any]] = None
+        self._current_trajectory: Optional[Trajectory] = None
+        # MCP Proxy Manager
+        self._proxy_manager: Optional[MCPProxyManager] = None
+        self._proxy_urls: Dict[str, str] = {}
+        # Temporary config file path (cleaned up on exit)
+        self._openclaw_config_path: Optional[str] = None
+        # Skill injection temp directory
+        self._skill_temp_dir: Optional[str] = None
+        # Static plugin generator for MCP tools
+        self._plugin_generator: Optional[StaticPluginGenerator] = None
+        self._generated_plugin_id: Optional[str] = None
+        # Discovered MCP tool lists per server (for trajectory "List MCP Tools" steps)
+        self._mcp_tool_lists: Dict[str, List[Dict[str, Any]]] = {}
+        # Debug mode
+        self._debug = runtime_config.debug if runtime_config else False
+        # Thinking level
+        self._thinking = self._resolve_thinking_level()
+    def _get_thinking_level(self) -> str:
+        """Get valid thinking level for OpenClaw CLI."""
+        return self._thinking
+    def _resolve_thinking_level(self) -> str:
+        """
+        Resolve thinking level from agent_kwargs.
+        Agent kwargs can specify:
+            thinking_level: "off" | "minimal" | "low" | "medium" | "high"
+        Returns:
+            Valid thinking level string, defaults to "medium" if not specified
+        """
+        agent_kwargs = self.runtime_config.agent_kwargs or {}
+        thinking_level = agent_kwargs.get("thinking_level", "medium")
+        if thinking_level not in self.VALID_THINKING_LEVELS:
+            raise ValueError(
+                f"Invalid thinking_level '{thinking_level}'. "
+                f"Must be one of: {', '.join(self.VALID_THINKING_LEVELS)}"
+            )
+        return thinking_level
+    def _load_openclaw_config(self) -> Dict[str, Any]:
+        """Load current OpenClaw configuration."""
+        if OPENCLAW_CONFIG_PATH.exists():
+            try:
+                return json.loads(OPENCLAW_CONFIG_PATH.read_text())
+            except (json.JSONDecodeError, IOError):
+                pass
+        return {}
+    def _build_openclaw_env(self) -> Dict[str, str]:
+        """Build the environment used for all OpenClaw subprocesses."""
+        env = os.environ.copy()
+        node_bin = os.getenv("OPENCLAW_NODE_BIN")
+        if node_bin:
+            node_dir = str(Path(node_bin).parent)
+            current_path = env.get("PATH", "")
+            if current_path:
+                path_parts = current_path.split(os.pathsep)
+                if path_parts[0] != node_dir:
+                    env["PATH"] = os.pathsep.join([node_dir, *path_parts])
+            else:
+                env["PATH"] = node_dir
+        return env
+    def _build_openclaw_command(self, *args: str) -> List[str]:
+        """Build a consistent OpenClaw CLI command for init and execution."""
+        cli_override = os.getenv("OPENCLAW_CLI_BIN")
+        if cli_override:
+            if cli_override.endswith(".mjs"):
+                node_bin = os.getenv("OPENCLAW_NODE_BIN") or shutil.which("node")
+                if not node_bin:
+                    raise RuntimeError("Compatible Node.js runtime not found for OpenClaw CLI")
+                return [node_bin, cli_override, *args]
+            return [cli_override, *args]
+        cli_bin = shutil.which("openclaw")
+        if cli_bin:
+            return [cli_bin, *args]
+        raise FileNotFoundError("openclaw")
+    def _configure_openclaw_with_proxies(self) -> None:
+        """
+        Configure OpenClaw with proxy-backed MCP servers for embedded runs.
+        Creates a temporary OpenClaw config file with:
+        1. Model from runtime_config
+        2. Proxy-backed MCP servers under mcp.servers for bundle-mcp
+        3. Generated static plugin enabled for non-embedded/plugin tooling
+        4. Skill directories if configured
+        Environment variables are set when running OpenClaw CLI:
+        - OPENCLAW_CONFIG_PATH: path to temp openclaw config
+        """
+        # Load base OpenClaw config as template
+        base_config = self._load_openclaw_config()
+        # Build OpenClaw config with model from runtime_config
+        openclaw_config = json.loads(json.dumps(base_config))  # Deep copy
+        # Set model from runtime_config
+        model = self.runtime_config.model
+        if "agents" not in openclaw_config:
+            openclaw_config["agents"] = {}
+        if "defaults" not in openclaw_config["agents"]:
+            openclaw_config["agents"]["defaults"] = {}
+        if "model" not in openclaw_config["agents"]["defaults"]:
+            openclaw_config["agents"]["defaults"]["model"] = {}
+        openclaw_config["agents"]["defaults"]["model"]["primary"] = model
+        # litellm support
+        if model.startswith("litellm/"):
+            openclaw_config["models"] = {
+                "providers": {
+                    "litellm": {
+                        "baseUrl": "${LITELLM_BASE_URL}",
+                        "apiKey": "${LITELLM_API_KEY}",
+                        "api": "anthropic-messages",
+                        "models": [
+                            {
+                                "id": "claude-opus-4-6",
+                                "name": "Claude Opus 4.6",
+                                "reasoning": True,
+                                "input": ["text", "image"],
+                                "contextWindow": 200000,
+                                "maxTokens": 64000,
+                            }
+                        ],
+                    }
+                }
+            }
+        elif model.startswith("openai/"):
+            # OpenClaw supports the normal OpenAI API-key route directly from the
+            # process environment. Avoid generating a partial
+            # models.providers.openai block here, because explicit provider config
+            # is validated against the full provider schema.
+            pass
+        elif model.startswith("openrouter/"):
+            if "auth" not in openclaw_config:
+                openclaw_config["auth"] = {}
+            if "profiles" not in openclaw_config["auth"]:
+                openclaw_config["auth"]["profiles"] = {}
+            openclaw_config["auth"]["profiles"].setdefault(
+                "openrouter:default",
+                {
+                    "provider": "openrouter",
+                    "mode": "api_key",
+                },
+            )
+        # Create workspace directory and write system prompt to AGENTS.md
+        # OpenClaw injects bootstrap files (AGENTS.md, SOUL.md, etc.) into the system prompt
+        workspace_dir = os.path.join(self._profile_dir, "workspace")
+        os.makedirs(workspace_dir, exist_ok=True)
+        if self.config and self.config.system_prompt:
+            agents_md_path = os.path.join(workspace_dir, "AGENTS.md")
+            try:
+                with open(agents_md_path, 'w') as f:
+                    f.write(self.config.system_prompt)
+                if self._debug:
+                    print(f"[OpenClaw] Wrote system prompt to: {agents_md_path}")
+            except Exception as e:
+                print(f"[OpenClaw] Warning: Failed to write AGENTS.md: {e}")
+        # Set the workspace directory in config
+        openclaw_config["agents"]["defaults"]["workspace"] = workspace_dir
+        # Embedded `agent --local` materializes MCP tools from mcp.servers via
+        # the built-in bundle-mcp runtime; custom plugin tools are not merged
+        # into the embedded attempt tool list.
+        if self._proxy_urls:
+            if "mcp" not in openclaw_config:
+                openclaw_config["mcp"] = {}
+            configured_servers = dict(openclaw_config["mcp"].get("servers", {}))
+            for server_name, proxy_url in self._proxy_urls.items():
+                configured_servers[server_name] = {
+                    "transport": "streamable-http",
+                    "url": proxy_url,
+                }
+            openclaw_config["mcp"]["servers"] = configured_servers
+            if self._debug:
+                print(
+                    f"[OpenClaw] Configured {len(self._proxy_urls)} proxy-backed MCP servers for bundle-mcp"
+                )
+        # Configure the generated static plugin
+        if "plugins" not in openclaw_config:
+            openclaw_config["plugins"] = {}
+        if "entries" not in openclaw_config["plugins"]:
+            openclaw_config["plugins"]["entries"] = {}
+        # Enable the generated static plugin if we have one
+        if self._generated_plugin_id:
+            openclaw_config["plugins"]["entries"][self._generated_plugin_id] = {
+                "enabled": True
+            }
+            # Add to plugins.allow list (required for plugin to load)
+            if "allow" not in openclaw_config["plugins"]:
+                openclaw_config["plugins"]["allow"] = []
+            if self._generated_plugin_id not in openclaw_config["plugins"]["allow"]:
+                openclaw_config["plugins"]["allow"].append(self._generated_plugin_id)
+            # Add installs metadata
+            if "installs" not in openclaw_config["plugins"]:
+                openclaw_config["plugins"]["installs"] = {}
+            # Use profile-specific extensions directory for isolation
+            plugin_path = os.path.join(self._profile_extensions_dir, self._generated_plugin_id)
+            openclaw_config["plugins"]["installs"][self._generated_plugin_id] = {
+                "source": "path",
+                "sourcePath": plugin_path,
+                "installPath": plugin_path,
+                "version": "1.0.0",
+                "installedAt": datetime.now().isoformat()
+            }
+            if self._debug:
+                print(f"[OpenClaw] Enabled static plugin: {self._generated_plugin_id}")
+        if self._proxy_urls or self._generated_plugin_id:
+            if "agents" not in openclaw_config:
+                openclaw_config["agents"] = {}
+            if "list" not in openclaw_config["agents"]:
+                openclaw_config["agents"]["list"] = []
+            main_agent = None
+            for agent in openclaw_config["agents"]["list"]:
+                if agent.get("id") == "main":
+                    main_agent = agent
+                    break
+            if main_agent is None:
+                main_agent = {"id": "main"}
+                openclaw_config["agents"]["list"].append(main_agent)
+            if "tools" not in main_agent:
+                main_agent["tools"] = {}
+            if "allow" not in main_agent["tools"]:
+                main_agent["tools"]["allow"] = []
+            allowlist = main_agent["tools"]["allow"]
+            for tool_name in [
+                "group:plugins",
+                "bundle-mcp",
+                "memory_search",
+                "memory_get",
+            ]:
+                if tool_name not in allowlist:
+                    allowlist.append(tool_name)
+            if self._generated_plugin_id and self._generated_plugin_id not in allowlist:
+                allowlist.append(self._generated_plugin_id)
+        if "tools" not in openclaw_config:
+            openclaw_config["tools"] = {}
+        if "web" not in openclaw_config["tools"]:
+            openclaw_config["tools"]["web"] = {}
+        if "search" not in openclaw_config["tools"]["web"]:
+            openclaw_config["tools"]["web"]["search"] = {}
+        if "fetch" not in openclaw_config["tools"]["web"]:
+            openclaw_config["tools"]["web"]["fetch"] = {}
+        openclaw_config["tools"]["web"]["search"]["enabled"] = False
+        openclaw_config["tools"]["web"]["fetch"]["enabled"] = False
+        if "browser" not in openclaw_config:
+            openclaw_config["browser"] = {}
+        openclaw_config["browser"]["enabled"] = False
+        # Add skill directory if skills are configured
+        if self._skill_temp_dir:
+            if "skills" not in openclaw_config:
+                openclaw_config["skills"] = {}
+            if "load" not in openclaw_config["skills"]:
+                openclaw_config["skills"]["load"] = {}
+            if "extraDirs" not in openclaw_config["skills"]["load"]:
+                openclaw_config["skills"]["load"]["extraDirs"] = []
+            openclaw_config["skills"]["load"]["extraDirs"].append(self._skill_temp_dir)
+            if self._debug:
+                print(f"[OpenClaw] Added skill directory to config: {self._skill_temp_dir}")
+        # Apply tools.deny from agent_kwargs (disable native tools)
+        agent_kwargs = self.runtime_config.agent_kwargs or {}
+        denied_tools = agent_kwargs.get("disallowed_tools", [])
+        if denied_tools:
+            if "tools" not in openclaw_config:
+                openclaw_config["tools"] = {}
+            existing_deny = openclaw_config["tools"].get("deny", [])
+            openclaw_config["tools"]["deny"] = list(set(existing_deny + denied_tools))
+            if self._debug:
+                print(f"[OpenClaw] Denied tools: {openclaw_config['tools']['deny']}")
+        # Write config to profile directory (--profile uses profile's config, not OPENCLAW_CONFIG_PATH)
+        profile_config_path = os.path.join(self._profile_dir, "openclaw.json")
+        try:
+            with open(profile_config_path, 'w') as f:
+                json.dump(openclaw_config, f, indent=2)
+            self._openclaw_config_path = profile_config_path
+        except Exception as e:
+            raise RuntimeError(f"Failed to create OpenClaw config: {e}")
+        if self._debug:
+            print(f"[OpenClaw] Wrote config to profile: {profile_config_path}")
+            print(f"[OpenClaw] Model: {model}")
+            print(f"[OpenClaw] Workspace: {workspace_dir}")
+            if self.config and self.config.system_prompt:
+                prompt_preview = self.config.system_prompt[:100] + "..." if len(self.config.system_prompt) > 100 else self.config.system_prompt
+                print(f"[OpenClaw] System prompt (AGENTS.md): {prompt_preview}")
+        populate_openclaw_profile_auth(self._profile_dir, debug=self._debug)
+    def _cleanup_temp_resources(self) -> None:
+        """Clean up temporary resources outside the profile directory."""
+        # Clean up skill temp directory (lives in output_dir, not profile_dir)
+        if self._skill_temp_dir:
+            cleanup_temp_directory(self._skill_temp_dir)
+            self._skill_temp_dir = None
+    async def _discover_and_generate_plugin(self) -> None:
+        """
+        Discover tools from proxy servers and generate a static OpenClaw plugin.
+        """
+        if not self._proxy_urls:
+            return
+        servers: List[MCPServerTools] = []
+        async with aiohttp.ClientSession() as session:
+            for server_name, proxy_url in self._proxy_urls.items():
+                try:
+                    # Query the proxy for available tools
+                    request_body = {
+                        "jsonrpc": "2.0",
+                        "id": 1,
+                        "method": "tools/list",
+                        "params": {}
+                    }
+                    async with session.post(proxy_url, json=request_body) as response:
+                        result = await response.json()
+                        if "error" in result:
+                            print(f"[OpenClaw] Warning: Failed to list tools from {server_name}: {result['error']}")
+                            continue
+                        tools_data = result.get("result", {}).get("tools", [])
+                        tools = [
+                            MCPTool(
+                                name=t["name"],
+                                description=t.get("description", f"Tool from {server_name}"),
+                                input_schema=t.get("inputSchema", {"type": "object", "properties": {}})
+                            )
+                            for t in tools_data
+                        ]
+                        servers.append(MCPServerTools(
+                            name=server_name,
+                            url=proxy_url,
+                            tools=tools
+                        ))
+                        # Save tool list for records
+                        self._mcp_tool_lists[server_name] = [
+                            {"name": t["name"], "description": t.get("description", "")}
+                            for t in tools_data
+                        ]
+                        if self._debug:
+                            print(f"[OpenClaw] Discovered {len(tools)} tools from {server_name}")
+                except Exception as e:
+                    print(f"[OpenClaw] Warning: Failed to discover tools from {server_name}: {e}")
+        if not servers:
+            print("[OpenClaw] Warning: No tools discovered from any server")
+            return
+        # Generate unique plugin ID for this task
+        self._generated_plugin_id = f"mcp-tools-{uuid.uuid4().hex[:8]}"
+        # Initialize plugin generator with profile-specific extensions directory
+        # This ensures parallel tasks don't load each other's plugins
+        self._plugin_generator = StaticPluginGenerator(
+            extensions_dir=self._profile_extensions_dir,
+            debug=self._debug
+        )
+        # Generate and install the static plugin
+        try:
+            self._plugin_generator.generate_plugin(
+                servers=servers,
+                plugin_id=self._generated_plugin_id
+            )
+            total_tools = sum(len(s.tools) for s in servers)
+            print(f"[OpenClaw] Generated static plugin '{self._generated_plugin_id}' with {total_tools} tools")
+        except Exception as e:
+            print(f"[OpenClaw] Error generating plugin: {e}")
+            self._generated_plugin_id = None
+            raise
+    async def _setup_skills(self) -> None:
+        """Setup skill directories and apply any skill injections."""
+        skill_directories = self.config.skill_directories if self.config else []
+        skill_injection = self.runtime_config.skill_injection
+        # Check if we have any skills to process
+        has_create_mode = skill_injection and any(
+            any(inj.mode == "create" for inj in injs)
+            for injs in skill_injection.values()
+        )
+        if not skill_directories and not has_create_mode:
+            return
+        # Create temp directory with skills (and injections applied)
+        # OpenClaw expects skills in <dir>/<skill_name>/SKILL.md (no subpath)
+        self._skill_temp_dir = create_injected_skills_directory(
+            source_skill_dirs=skill_directories,
+            skill_injection=skill_injection,
+            skill_subpath="",  # OpenClaw loads skills from root of directory
+            temp_prefix="openclaw_skills_",
+            base_dir=self.output_dir,
+        )
+        if self._skill_temp_dir:
+            print(f"[OpenClaw] Created skill temp directory: {self._skill_temp_dir}")
+    def _create_mcp_server(self, server_config: MCPServerConfig) -> Any:
+        """
+        Create MCP server configuration placeholder.
+        For OpenClaw, actual MCP handling is done via proxy servers.
+        """
+        return {
+            "name": server_config.name,
+            "transport": server_config.transport,
+            "url": server_config.url,
+            "command": server_config.command,
+            "args": server_config.args,
+            "env": server_config.env,
+        }
+    async def initialize(self) -> None:
+        """
+        Initialize agent:
+        1. Check OpenClaw CLI is available
+        2. Create MCP proxy servers with tool injections
+        3. Configure OpenClaw to use proxy servers
+        """
+        if not self.config:
+            raise ValueError("Agent config is required")
+        # Check if openclaw CLI is available
+        try:
+            cli_env = self._build_openclaw_env()
+            result = subprocess.run(
+                self._build_openclaw_command("--version"),
+                capture_output=True,
+                text=True,
+                timeout=10,
+                env=cli_env,
+            )
+            if result.returncode != 0:
+                raise RuntimeError("openclaw CLI not working properly")
+            if self._debug:
+                version_line = result.stdout.strip().split('\n')[0] if result.stdout else "unknown"
+                print(f"[OpenClaw] CLI version: {version_line}")
+        except FileNotFoundError:
+            raise RuntimeError(
+                "openclaw CLI not found. Install with: npm install -g openclaw"
+            )
+        # Initialize isolated profile for this task (prevents plugin conflicts in parallel execution)
+        try:
+            setup_result = subprocess.run(
+                self._build_openclaw_command("--profile", self._profile_name, "setup"),
+                capture_output=True,
+                text=True,
+                timeout=30,
+                env=cli_env,
+            )
+            if setup_result.returncode != 0:
+                print(f"[OpenClaw] Warning: Profile setup returned non-zero: {setup_result.stderr}")
+            elif self._debug:
+                print(f"[OpenClaw] Initialized isolated profile: {self._profile_name}")
+        except Exception as e:
+            print(f"[OpenClaw] Warning: Could not initialize profile: {e}")
+        # Setup skills if configured
+        await self._setup_skills()
+        # Create MCP proxy servers
+        self._proxy_manager = MCPProxyManager(debug=self._debug, hook_manager=self.hook_manager)
+        # Get tool injections from runtime config
+        tool_injections = self.runtime_config.mcp_injection or {}
+        try:
+            self._proxy_urls = await self._proxy_manager.create_proxies(
+                mcp_configs=self.config.mcp_servers,
+                tool_injections=tool_injections,
+            )
+            print(f"[OpenClaw] Created {len(self._proxy_urls)} MCP proxy servers")
+        except Exception as e:
+            raise RuntimeError(f"Failed to create MCP proxy servers: {e}")
+        # Discover tools from proxies and generate static plugin
+        await self._discover_and_generate_plugin()
+        # Configure OpenClaw to use the generated static plugin
+        self._configure_openclaw_with_proxies()
+        # Load MCP server configs (for reference)
+        await self.load_mcp_servers()
+        print(f"[OpenClaw] Initialized with {len(self.mcp_servers)} MCP servers via proxy")
+    async def _run_openclaw_cli(self, message: str) -> Dict[str, Any]:
+        """
+        Run OpenClaw CLI with a message.
+        Args:
+            message: User message
+        Returns:
+            Dict with 'success', 'content', 'error' keys
+        """
+        cmd = self._build_openclaw_command(
+            "--profile", self._profile_name,  # Isolate from other parallel tasks
+            "agent",
+            "--local",  # Run in embedded mode (no gateway required)
+            "--message", message,
+            "--thinking", self._get_thinking_level(),
+            "--session-id", self._session_id,
+        )
+        if self._debug:
+            print(f"[OpenClaw CLI] Running: {' '.join(cmd[:6])}...")
+        # Use inherited environment (--profile handles config isolation)
+        env = self._build_openclaw_env()
+        env["OPENCLAW_TRAJECTORY"] = "1"
+        env["OPENCLAW_TRAJECTORY_DIR"] = self._runtime_trace_dir
+        if self._debug and self._openclaw_config_path:
+            print(f"[OpenClaw CLI] Using openclaw config: {self._openclaw_config_path}")
+            print(f"[OpenClaw CLI] Runtime trace dir: {self._runtime_trace_dir}")
+        proc = None
+        try:
+            proc = await asyncio.create_subprocess_exec(
+                *cmd,
+                stdout=asyncio.subprocess.PIPE,
+                stderr=asyncio.subprocess.PIPE,
+                env=env,
+            )
+            stdout, stderr = await asyncio.wait_for(
+                proc.communicate(),
+                timeout=OPENCLAW_TIMEOUT_SECONDS,
+            )
+            output = stdout.decode().strip()
+            error_output = stderr.decode().strip() if stderr else ""
+            if self._debug:
+                print(f"[OpenClaw CLI] Exit code: {proc.returncode}")
+                if output:
+                    # Truncate for display
+                    display_output = output[:500] + "..." if len(output) > 500 else output
+                    print(f"[OpenClaw CLI] Output: {display_output}")
+                if error_output:
+                    print("[OpenClaw CLI] Stderr:")
+                    print(error_output)
+            if proc.returncode != 0:
+                return {
+                    "success": False,
+                    "content": "",
+                    "error": error_output or f"Exit code {proc.returncode}",
+                }
+            # Try to parse JSON if output looks like JSON
+            if output.startswith('{'):
+                try:
+                    result = json.loads(output)
+                    return {
+                        "success": True,
+                        "content": result.get("content", result.get("message", output)),
+                        "error": None,
+                    }
+                except json.JSONDecodeError:
+                    pass
+            return {
+                "success": True,
+                "content": output,
+                "error": None,
+            }
+        except asyncio.TimeoutError:
+            if proc is not None:
+                try:
+                    proc.kill()
+                    await proc.wait()
+                except ProcessLookupError:
+                    pass
+            return {
+                "success": False,
+                "content": "",
+                "error": f"Command timed out after {OPENCLAW_TIMEOUT_SECONDS}s",
+            }
+        except Exception as e:
+            return {
+                "success": False,
+                "content": "",
+                "error": str(e),
+            }
+    async def run(
+        self,
+        user_input: Union[str, List[str]],
+        metadata: Optional[Dict[str, Any]] = None
+    ) -> AgentResult:
+        """
+        Run the agent with given input. Supports multi-turn conversations.
+        Args:
+            user_input: User instruction/query. Can be:
+                - str: Single query (backward compatible)
+                - List[str]: Multiple queries processed sequentially
+            metadata: Optional metadata (task_id, domain, category, instruction)
+        Returns:
+            AgentResult with final output, turn count, trace ID, and trajectory
+        """
+        # Normalize input to list
+        if isinstance(user_input, str):
+            user_inputs = [user_input]
+        else:
+            user_inputs = user_input
+        # Initialize trace metadata
+        if self._trace_metadata is None:
+            self._trace_metadata = metadata or {}
+        # Set instruction in metadata
+        if "instruction" not in self._trace_metadata:
+            instr = " | ".join(user_inputs) if len(user_inputs) > 1 else (user_inputs[0] or "")
+            if len(instr) > 500:
+                instr = instr[:500]
+            self._trace_metadata["instruction"] = instr
+        start_time = datetime.now()
+        final_output = ""
+        for query in user_inputs:
+            # Add to conversation history
+            self._conversation_history.append({
+                "role": "user",
+                "content": query,
+                "timestamp": datetime.now().isoformat(),
+            })
+            # Run OpenClaw CLI
+            response = await self._run_openclaw_cli(query)
+            if response["success"]:
+                final_output = response["content"]
+                self._conversation_history.append({
+                    "role": "assistant",
+                    "content": final_output,
+                    "timestamp": datetime.now().isoformat(),
+                })
+            else:
+                error_msg = f"Error: {response.get('error', 'Unknown error')}"
+                final_output = error_msg
+            self._turn_count += 1
+        # Generate trajectory from session JSONL
+        duration = (datetime.now() - start_time).total_seconds()
+        await self._generate_trajectory(duration)
+        return self.get_result()
+    async def _get_session_log_path(
+        self,
+        wait_seconds: float = 0.0,
+        warn: bool = True,
+    ) -> Optional[str]:
+        """Find the session trace file written by OpenClaw CLI."""
+        expected_names = (
+            f"{self._session_id}.jsonl",
+            f"{self._session_id}.trajectory.jsonl",
+        )
+        profile_dir = Path(self._profile_dir)
+        runtime_trace_dir = Path(self._runtime_trace_dir)
+        deadline = time.monotonic() + max(wait_seconds, 0.0)
+        def _resolve_trajectory_pointer(pointer_path: Path) -> Optional[str]:
+            try:
+                pointer = json.loads(pointer_path.read_text(encoding="utf-8"))
+            except (OSError, json.JSONDecodeError):
+                return None
+            runtime_file = pointer.get("runtimeFile")
+            if runtime_file and os.path.exists(runtime_file):
+                return runtime_file
+            return None
+        while True:
+            for expected_name in expected_names:
+                runtime_trace = runtime_trace_dir / expected_name
+                if runtime_trace.exists():
+                    return str(runtime_trace)
+            session_dir = profile_dir / "agents" / "main" / "sessions"
+            for expected_name in expected_names:
+                session_file = session_dir / expected_name
+                if session_file.exists():
+                    return str(session_file)
+            pointer_file = session_dir / f"{self._session_id}.trajectory-path.json"
+            if pointer_file.exists():
+                resolved = _resolve_trajectory_pointer(pointer_file)
+                if resolved:
+                    return resolved
+            if time.monotonic() >= deadline:
+                break
+            await asyncio.sleep(0.25)
+        if warn:
+            print(
+                f"[WARNING] OpenClaw session log not found for session_id="
+                f"{self._session_id} under {self._profile_dir}"
+            )
+        return None
+    async def _generate_trajectory(self, duration: float = 0.0) -> None:
+        """Generate trajectory from OpenClaw session JSONL."""
+        session_path = await self._get_session_log_path(wait_seconds=5.0)
+        if not session_path:
+            self._current_trajectory = None
+            print(
+                "[ERROR] OpenClaw runtime trace missing; no trajectory generated "
+                f"for session_id={self._session_id}"
+            )
+            return
+        try:
+            convert_call = partial(
+                self.trajectory_converter.convert_session_log,
+                session_log_path=session_path,
+                metadata=self._trace_metadata,
+                task_id=(self._trace_metadata or {}).get("task_id"),
+                duration=duration,
+                mcp_tool_lists=self._mcp_tool_lists or None,
+            )
+            traj = await asyncio.wait_for(
+                asyncio.to_thread(convert_call),
+                timeout=OPENCLAW_TRAJECTORY_CONVERSION_TIMEOUT_SECONDS,
+            )
+            if traj:
+                self._current_trajectory = traj
+            else:
+                self._current_trajectory = None
+                print(
+                    "[ERROR] OpenClaw runtime trace conversion produced no "
+                    f"trajectory for session_id={self._session_id}"
+                )
+        except asyncio.TimeoutError:
+            print(
+                "[WARNING] Timed out converting OpenClaw runtime trace; "
+                f"session_id={self._session_id}"
+            )
+            self._current_trajectory = None
+        except Exception as e:
+            print(f"[WARNING] Failed to generate trajectory: {e}")
+            self._current_trajectory = None
+    def get_result(self) -> AgentResult:
+        """Get the current execution result."""
+        final_output = None
+        for msg in reversed(self._conversation_history):
+            if msg.get("role") == "assistant":
+                final_output = msg.get("content")
+                break
+        return AgentResult(
+            final_output=final_output,
+            turn_count=self._turn_count,
+            trajectory=self._current_trajectory,
+            trace_id=self._session_id,
+        )
+    def reset_conversation(self) -> None:
+        """Reset conversation for a new session."""
+        self._conversation_history = []
+        self._turn_count = 0
+        self._session_id = f"dt-arena-{uuid.uuid4().hex[:8]}"
+        self._trace_metadata = None
+        self._current_trajectory = None
+    async def cleanup(self) -> None:
+        """Clean up resources: stop proxies, restore config."""
+        self.reset_conversation()
+        # Stop all proxy servers
+        if self._proxy_manager:
+            await self._proxy_manager.stop_all()
+            self._proxy_manager = None
+            self._proxy_urls = {}
+        # Clean up temp resources outside profile dir
+        self._cleanup_temp_resources()
+        # Clean up profile directory (isolated extensions for this task)
+        if hasattr(self, '_profile_dir') and os.path.exists(self._profile_dir):
+            try:
+                shutil.rmtree(self._profile_dir)
+                if self._debug:
+                    print(f"[OpenClaw] Cleaned up profile directory: {self._profile_dir}")
+            except Exception as e:
+                print(f"[OpenClaw] Warning: Failed to clean up profile directory: {e}")