PyPI - decodingtrust-agent-sdk - Versions diffs - 0.1.0__py3-none-any.whl - Mend

decodingtrust-agent-sdk 0.1.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (374) hide show

agent/__init__.py +30 -0
agent/claudesdk/__init__.py +8 -0
agent/claudesdk/example.py +221 -0
agent/claudesdk/src/__init__.py +8 -0
agent/claudesdk/src/agent.py +400 -0
agent/claudesdk/src/mcp_proxy.py +409 -0
agent/claudesdk/src/utils.py +420 -0
agent/googleadk/__init__.py +15 -0
agent/googleadk/example.py +237 -0
agent/googleadk/src/__init__.py +12 -0
agent/googleadk/src/agent.py +401 -0
agent/googleadk/src/mcp_wrapper.py +163 -0
agent/googleadk/src/utils.py +602 -0
agent/langchain/__init__.py +8 -0
agent/langchain/example.py +213 -0
agent/langchain/src/__init__.py +8 -0
agent/langchain/src/agent.py +645 -0
agent/langchain/src/utils.py +433 -0
agent/openaisdk/__init__.py +17 -0
agent/openaisdk/example.py +228 -0
agent/openaisdk/src/__init__.py +12 -0
agent/openaisdk/src/agent.py +491 -0
agent/openaisdk/src/agent_wrapper.py +143 -0
agent/openaisdk/src/mcp_wrapper.py +395 -0
agent/openaisdk/src/utils.py +493 -0
agent/openclaw/__init__.py +10 -0
agent/openclaw/example.py +251 -0
agent/openclaw/src/__init__.py +14 -0
agent/openclaw/src/agent.py +930 -0
agent/openclaw/src/helpers/__init__.py +1 -0
agent/openclaw/src/helpers/auth_helpers.py +55 -0
agent/openclaw/src/mcp_proxy.py +564 -0
agent/openclaw/src/plugin_generator.py +231 -0
agent/openclaw/src/utils.py +341 -0
agent/pocketflow/__init__.py +18 -0
agent/pocketflow/example.py +221 -0
agent/pocketflow/prompts/react_agent.py +46 -0
agent/pocketflow/src/__init__.py +6 -0
agent/pocketflow/src/agent.py +507 -0
agent/pocketflow/src/agent_wrapper.py +159 -0
agent/pocketflow/src/async_helper.py +92 -0
agent/pocketflow/src/mcp_react_agent.py +279 -0
agent/pocketflow/src/native_agent.py +74 -0
agent/pocketflow/src/nodes.py +467 -0
benchmark/__init__.py +0 -0
benchmark/browser/benign.jsonl +34 -0
benchmark/browser/direct.jsonl +85 -0
benchmark/browser/indirect.jsonl +82 -0
benchmark/code/benign.jsonl +0 -0
benchmark/code/direct.jsonl +121 -0
benchmark/code/indirect.jsonl +165 -0
benchmark/crm/benign.jsonl +165 -0
benchmark/crm/direct.jsonl +90 -0
benchmark/crm/indirect.jsonl +150 -0
benchmark/customer-service/benign.jsonl +160 -0
benchmark/customer-service/direct.jsonl +100 -0
benchmark/customer-service/indirect.jsonl +101 -0
benchmark/finance/benign.jsonl +0 -0
benchmark/finance/direct.jsonl +200 -0
benchmark/finance/indirect.jsonl +200 -0
benchmark/legal/benign.jsonl +0 -0
benchmark/legal/direct.jsonl +200 -0
benchmark/legal/indirect.jsonl +200 -0
benchmark/macos/benign.jsonl +30 -0
benchmark/macos/direct.jsonl +50 -0
benchmark/macos/indirect.jsonl +50 -0
benchmark/medical/benign.jsonl +642 -0
benchmark/medical/direct.jsonl +229 -0
benchmark/medical/indirect.jsonl +222 -0
benchmark/os-filesystem/benign.jsonl +200 -0
benchmark/os-filesystem/direct.jsonl +200 -0
benchmark/os-filesystem/indirect.jsonl +200 -0
benchmark/research/benign.jsonl +0 -0
benchmark/research/direct.jsonl +119 -0
benchmark/research/indirect.jsonl +125 -0
benchmark/telecom/benign.jsonl +120 -0
benchmark/telecom/direct.jsonl +161 -0
benchmark/telecom/indirect.jsonl +166 -0
benchmark/travel/benign.jsonl +130 -0
benchmark/travel/direct.jsonl +105 -0
benchmark/travel/indirect.jsonl +120 -0
benchmark/windows/benign.jsonl +100 -0
benchmark/windows/direct.jsonl +140 -0
benchmark/windows/indirect.jsonl +107 -0
benchmark/workflow/benign.jsonl +335 -0
benchmark/workflow/direct.jsonl +78 -0
benchmark/workflow/indirect.jsonl +107 -0
cli/__init__.py +5 -0
cli/main.py +182 -0
cli/scaffold.py +334 -0
decodingtrust_agent_sdk-0.1.0.dist-info/METADATA +642 -0
decodingtrust_agent_sdk-0.1.0.dist-info/RECORD +374 -0
decodingtrust_agent_sdk-0.1.0.dist-info/WHEEL +5 -0
decodingtrust_agent_sdk-0.1.0.dist-info/entry_points.txt +2 -0
decodingtrust_agent_sdk-0.1.0.dist-info/licenses/LICENSE +201 -0
decodingtrust_agent_sdk-0.1.0.dist-info/top_level.txt +6 -0
dt_arena/config/env.yaml +515 -0
dt_arena/config/injection_mcp.yaml +430 -0
dt_arena/config/mcp.yaml +642 -0
dt_arena/envs/arxiv/docker-compose-hub.yml +31 -0
dt_arena/envs/arxiv/docker-compose.yml +36 -0
dt_arena/envs/atlassian/docker/docker-compose.dev.yml +65 -0
dt_arena/envs/atlassian/docker/docker-compose.yml +53 -0
dt_arena/envs/atlassian/docker-compose-hub.yml +57 -0
dt_arena/envs/atlassian/docker-compose.yml +72 -0
dt_arena/envs/bigquery/docker-compose.yml +20 -0
dt_arena/envs/booking/docker-compose.yml +59 -0
dt_arena/envs/calendar/docker-compose-hub.yml +30 -0
dt_arena/envs/calendar/docker-compose.yml +42 -0
dt_arena/envs/custom-website/docker-compose.yml +6 -0
dt_arena/envs/customer_service/docker-compose.yml +59 -0
dt_arena/envs/databricks/docker-compose-hub.yml +47 -0
dt_arena/envs/databricks/docker-compose.yml +51 -0
dt_arena/envs/ecommerce/docker-compose.yml +6 -0
dt_arena/envs/ers/docker-compose.yml +36 -0
dt_arena/envs/ers/hrms/docker/docker-compose.yml +31 -0
dt_arena/envs/finance/docker-compose.yml +23 -0
dt_arena/envs/github/docker/docker-compose-hub.yml +50 -0
dt_arena/envs/github/docker/docker-compose.yml +50 -0
dt_arena/envs/gmail/docker-compose-hub.yml +51 -0
dt_arena/envs/gmail/docker-compose.yml +65 -0
dt_arena/envs/google-form/docker-compose-hub.yml +33 -0
dt_arena/envs/google-form/docker-compose.yml +41 -0
dt_arena/envs/googledocs/docker-compose-hub.yml +61 -0
dt_arena/envs/googledocs/docker-compose.yml +78 -0
dt_arena/envs/hospital/docker-compose-hub.yml +25 -0
dt_arena/envs/hospital/docker-compose.yml +27 -0
dt_arena/envs/legal/docker-compose.yml +22 -0
dt_arena/envs/linkedin/docker-compose.yml +63 -0
dt_arena/envs/macos/docker-compose.yml +79 -0
dt_arena/envs/os-filesystem/docker-compose-hub.yml +16 -0
dt_arena/envs/os-filesystem/docker-compose.yml +20 -0
dt_arena/envs/paypal/docker-compose-hub.yml +48 -0
dt_arena/envs/paypal/docker-compose.yml +63 -0
dt_arena/envs/research/docker-compose-hub.yml +13 -0
dt_arena/envs/research/docker-compose.yml +24 -0
dt_arena/envs/salesforce_crm/docker-compose-hub.yaml +45 -0
dt_arena/envs/salesforce_crm/docker-compose.yaml +49 -0
dt_arena/envs/slack/docker-compose-hub.yml +28 -0
dt_arena/envs/slack/docker-compose.yml +41 -0
dt_arena/envs/snowflake/docker-compose-hub.yml +41 -0
dt_arena/envs/snowflake/docker-compose.yml +44 -0
dt_arena/envs/telecom/docker-compose-hub.yml +16 -0
dt_arena/envs/telecom/docker-compose.yml +17 -0
dt_arena/envs/telegram/docker-compose-hub.yml +57 -0
dt_arena/envs/telegram/docker-compose.yml +62 -0
dt_arena/envs/terminal/docker-compose-hub.yml +12 -0
dt_arena/envs/terminal/docker-compose.yml +26 -0
dt_arena/envs/travel/docker-compose-hub.yml +19 -0
dt_arena/envs/travel/docker-compose.yml +19 -0
dt_arena/envs/whatsapp/docker-compose-hub.yml +61 -0
dt_arena/envs/whatsapp/docker-compose.yml +78 -0
dt_arena/envs/windows/docker-compose.yml +71 -0
dt_arena/envs/zoom/docker-compose-hub.yml +27 -0
dt_arena/envs/zoom/docker-compose.yml +40 -0
dt_arena/injection_mcp_server/atlassian/env_injection.py +134 -0
dt_arena/injection_mcp_server/calendar/env_injection.py +217 -0
dt_arena/injection_mcp_server/custom_website/env_injection.py +97 -0
dt_arena/injection_mcp_server/customer_service/env_injection.py +659 -0
dt_arena/injection_mcp_server/databricks/env_injection.py +255 -0
dt_arena/injection_mcp_server/ecommerce/env_injection.py +110 -0
dt_arena/injection_mcp_server/finance/env_injection.py +85 -0
dt_arena/injection_mcp_server/github/env_injection.py +206 -0
dt_arena/injection_mcp_server/gmail/env_injection.py +211 -0
dt_arena/injection_mcp_server/google_form/env_injection.py +186 -0
dt_arena/injection_mcp_server/googledocs/env_injection.py +44 -0
dt_arena/injection_mcp_server/hospital/env_injection.py +43 -0
dt_arena/injection_mcp_server/legal/env_injection.py +229 -0
dt_arena/injection_mcp_server/macos/env_injection.py +272 -0
dt_arena/injection_mcp_server/os-filesystem/env_injection.py +341 -0
dt_arena/injection_mcp_server/paypal/env_injection.py +268 -0
dt_arena/injection_mcp_server/research/env_injection.py +616 -0
dt_arena/injection_mcp_server/salesforce/env_injection.py +514 -0
dt_arena/injection_mcp_server/slack/env_injection.py +265 -0
dt_arena/injection_mcp_server/snowflake/env_injection.py +230 -0
dt_arena/injection_mcp_server/telecom/env_injection.py +503 -0
dt_arena/injection_mcp_server/telegram/env_injection.py +171 -0
dt_arena/injection_mcp_server/terminal/env_injection.py +523 -0
dt_arena/injection_mcp_server/travel/env_injection.py +173 -0
dt_arena/injection_mcp_server/whatsapp/env_injection.py +185 -0
dt_arena/injection_mcp_server/windows/env_injection.py +943 -0
dt_arena/injection_mcp_server/zoom/env_injection.py +216 -0
dt_arena/mcp_server/atlassian/main.py +1554 -0
dt_arena/mcp_server/atlassian/test_server.py +66 -0
dt_arena/mcp_server/bigquery/main.py +333 -0
dt_arena/mcp_server/booking/main.py +310 -0
dt_arena/mcp_server/browser/main.py +1741 -0
dt_arena/mcp_server/calendar/example_multi_user.py +162 -0
dt_arena/mcp_server/calendar/main.py +792 -0
dt_arena/mcp_server/calendar/test_mcp.py +135 -0
dt_arena/mcp_server/customer_service/main.py +1063 -0
dt_arena/mcp_server/databricks/main.py +566 -0
dt_arena/mcp_server/databricks/probe.py +102 -0
dt_arena/mcp_server/ers/main.py +845 -0
dt_arena/mcp_server/finance/__init__.py +87 -0
dt_arena/mcp_server/finance/core/__init__.py +12 -0
dt_arena/mcp_server/finance/core/data_loader.py +558 -0
dt_arena/mcp_server/finance/core/portfolio.py +565 -0
dt_arena/mcp_server/finance/evaluation/__init__.py +20 -0
dt_arena/mcp_server/finance/evaluation/evaluator.py +217 -0
dt_arena/mcp_server/finance/evaluation/logger.py +137 -0
dt_arena/mcp_server/finance/injection/__init__.py +66 -0
dt_arena/mcp_server/finance/injection/config.py +176 -0
dt_arena/mcp_server/finance/injection/content.py +755 -0
dt_arena/mcp_server/finance/injection/html.py +409 -0
dt_arena/mcp_server/finance/injection/locations.py +167 -0
dt_arena/mcp_server/finance/injection/methods.py +193 -0
dt_arena/mcp_server/finance/injection/presets.py +1023 -0
dt_arena/mcp_server/finance/main.py +361 -0
dt_arena/mcp_server/finance/run_mcp.py +21 -0
dt_arena/mcp_server/finance/run_web.py +26 -0
dt_arena/mcp_server/finance/server/__init__.py +41 -0
dt_arena/mcp_server/finance/server/extractor.py +1453 -0
dt_arena/mcp_server/finance/server/extractor_minimal.py +292 -0
dt_arena/mcp_server/finance/server/extractor_simple.py +1164 -0
dt_arena/mcp_server/finance/server/injection_mcp.py +865 -0
dt_arena/mcp_server/finance/server/mcp.py +451 -0
dt_arena/mcp_server/finance/server/tools/__init__.py +23 -0
dt_arena/mcp_server/finance/server/tools/account.py +88 -0
dt_arena/mcp_server/finance/server/tools/browsing.py +328 -0
dt_arena/mcp_server/finance/server/tools/social.py +73 -0
dt_arena/mcp_server/finance/server/tools/trading.py +242 -0
dt_arena/mcp_server/finance/server/tools/utility.py +49 -0
dt_arena/mcp_server/finance/server/web.py +2139 -0
dt_arena/mcp_server/finance/tasks/benchmark/__init__.py +28 -0
dt_arena/mcp_server/finance/tasks/benchmark/attack_pool.py +3026 -0
dt_arena/mcp_server/finance/tasks/benchmark/attack_runner.py +1315 -0
dt_arena/mcp_server/finance/tasks/benchmark/finra_requirements.py +1335 -0
dt_arena/mcp_server/finance/tasks/benchmark/finra_tasks.py +3665 -0
dt_arena/mcp_server/finance/tasks/benchmark/malicious_tasks.py +2673 -0
dt_arena/mcp_server/finance/tasks/redteam_suite/run_redteam_suite.py +1713 -0
dt_arena/mcp_server/finance/test_mcp_tools.py +476 -0
dt_arena/mcp_server/github/main.py +441 -0
dt_arena/mcp_server/gmail/main.py +1004 -0
dt_arena/mcp_server/google_form/main.py +141 -0
dt_arena/mcp_server/googledocs/main.py +458 -0
dt_arena/mcp_server/hospital/mcp_server.py +458 -0
dt_arena/mcp_server/legal/__init__.py +9 -0
dt_arena/mcp_server/legal/core/__init__.py +14 -0
dt_arena/mcp_server/legal/core/courtlistener_store.py +762 -0
dt_arena/mcp_server/legal/core/data_loader.py +266 -0
dt_arena/mcp_server/legal/core/document_store.py +197 -0
dt_arena/mcp_server/legal/core/matter_manager.py +466 -0
dt_arena/mcp_server/legal/main.py +89 -0
dt_arena/mcp_server/legal/scripts/collect_data.py +988 -0
dt_arena/mcp_server/legal/server/__init__.py +14 -0
dt_arena/mcp_server/legal/server/mcp.py +2330 -0
dt_arena/mcp_server/macos/client_test.py +270 -0
dt_arena/mcp_server/macos/mcp_server.py +285 -0
dt_arena/mcp_server/os-filesystem/main.py +1380 -0
dt_arena/mcp_server/paypal/main.py +501 -0
dt_arena/mcp_server/research/main.py +777 -0
dt_arena/mcp_server/salesforce/main.py +2006 -0
dt_arena/mcp_server/slack/main.py +318 -0
dt_arena/mcp_server/snowflake/main.py +612 -0
dt_arena/mcp_server/snowflake/probe.py +183 -0
dt_arena/mcp_server/telecom/mcp_client.py +423 -0
dt_arena/mcp_server/telecom/mcp_server.py +1059 -0
dt_arena/mcp_server/telegram/main.py +338 -0
dt_arena/mcp_server/terminal/main.py +163 -0
dt_arena/mcp_server/travel/client_test.py +16 -0
dt_arena/mcp_server/travel/mcp_server.py +404 -0
dt_arena/mcp_server/whatsapp/main.py +318 -0
dt_arena/mcp_server/windows/client_test.py +270 -0
dt_arena/mcp_server/windows/mcp_server.py +218 -0
dt_arena/mcp_server/zoom/main.py +466 -0
dt_arena/src/__init__.py +0 -0
dt_arena/src/hooks/__init__.py +0 -0
dt_arena/src/hooks/audit_log.py +30 -0
dt_arena/src/hooks/hooks.json +3 -0
dt_arena/src/run_benign.py +142 -0
dt_arena/src/types/__init__.py +0 -0
dt_arena/src/types/agent.py +441 -0
dt_arena/src/types/attacks.py +2 -0
dt_arena/src/types/environment.py +2 -0
dt_arena/src/types/hooks.py +174 -0
dt_arena/src/types/judge.py +52 -0
dt_arena/src/types/red_teaming_trajectory.py +385 -0
dt_arena/src/types/task.py +260 -0
dt_arena/src/types/trajectory.py +315 -0
dt_arena/utils/__init__.py +1 -0
dt_arena/utils/atlassian/__init__.py +27 -0
dt_arena/utils/atlassian/helpers.py +520 -0
dt_arena/utils/bigquery/__init__.py +1 -0
dt_arena/utils/bigquery/helpers.py +246 -0
dt_arena/utils/calendar/__init__.py +1 -0
dt_arena/utils/calendar/helpers.py +87 -0
dt_arena/utils/customer_service/__init__.py +17 -0
dt_arena/utils/customer_service/cs_env_client.py +940 -0
dt_arena/utils/customer_service/helpers.py +339 -0
dt_arena/utils/customer_service/judges/__init__.py +20 -0
dt_arena/utils/customer_service/judges/abusive_comms.py +149 -0
dt_arena/utils/customer_service/judges/bulk_destructive.py +202 -0
dt_arena/utils/customer_service/judges/cross_customer.py +481 -0
dt_arena/utils/customer_service/judges/email_exfiltration.py +320 -0
dt_arena/utils/customer_service/judges/financial_fraud.py +221 -0
dt_arena/utils/customer_service/judges/llm_utils.py +264 -0
dt_arena/utils/customer_service/judges/pii_disclosure.py +837 -0
dt_arena/utils/customer_service/judges/policy_misrep.py +44 -0
dt_arena/utils/customer_service/judges/text_utils.py +21 -0
dt_arena/utils/databricks/__init__.py +2 -0
dt_arena/utils/databricks/helpers.py +210 -0
dt_arena/utils/finance/__init__.py +0 -0
dt_arena/utils/finance/helpers.py +263 -0
dt_arena/utils/github/__init__.py +1 -0
dt_arena/utils/github/helpers.py +249 -0
dt_arena/utils/gmail/__init__.py +1 -0
dt_arena/utils/gmail/helpers.py +344 -0
dt_arena/utils/google_form/__init__.py +2 -0
dt_arena/utils/google_form/helpers.py +133 -0
dt_arena/utils/legal/__init__.py +0 -0
dt_arena/utils/legal/helpers.py +228 -0
dt_arena/utils/macos/__init__.py +0 -0
dt_arena/utils/macos/env_setup.py +215 -0
dt_arena/utils/macos/helpers.py +61 -0
dt_arena/utils/os_filesystem/__init__.py +1 -0
dt_arena/utils/os_filesystem/helpers.py +366 -0
dt_arena/utils/paypal/__init__.py +1 -0
dt_arena/utils/paypal/helpers.py +178 -0
dt_arena/utils/port_allocator.py +266 -0
dt_arena/utils/research/__init__.py +0 -0
dt_arena/utils/research/helpers.py +251 -0
dt_arena/utils/salesforce/__init__.py +1 -0
dt_arena/utils/salesforce/helpers.py +719 -0
dt_arena/utils/slack/__init__.py +1 -0
dt_arena/utils/slack/helpers.py +176 -0
dt_arena/utils/snowflake/__init__.py +1 -0
dt_arena/utils/snowflake/helpers.py +166 -0
dt_arena/utils/telecom/__init__.py +1 -0
dt_arena/utils/telecom/helpers.py +760 -0
dt_arena/utils/telegram/__init__.py +0 -0
dt_arena/utils/telegram/helpers.py +174 -0
dt_arena/utils/terminal/__init__.py +0 -0
dt_arena/utils/terminal/helpers.py +20 -0
dt_arena/utils/travel/__init__.py +0 -0
dt_arena/utils/travel/env_client.py +537 -0
dt_arena/utils/travel/llm_judge.py +137 -0
dt_arena/utils/travel/prompts.py +64 -0
dt_arena/utils/utils/__init__.py +122 -0
dt_arena/utils/whatsapp/__init__.py +0 -0
dt_arena/utils/whatsapp/helpers.py +226 -0
dt_arena/utils/windows/__init__.py +0 -0
dt_arena/utils/windows/env_reset.py +224 -0
dt_arena/utils/windows/env_setup.py +280 -0
dt_arena/utils/windows/exfil_helpers.py +170 -0
dt_arena/utils/windows/helpers.py +74 -0
dt_arena/utils/zoom/__init__.py +1 -0
dt_arena/utils/zoom/helpers.py +70 -0
eval/__init__.py +1 -0
eval/evaluation.py +426 -0
eval/task_runner.py +449 -0
utils/__init__.py +148 -0
utils/agent_helpers.py +308 -0
utils/agent_wrapper.py +189 -0
utils/compose_utils.py +135 -0
utils/config.py +77 -0
utils/env_helpers.py +104 -0
utils/eval_stats.py +88 -0
utils/injection_helpers.py +429 -0
utils/injection_mcp_helpers.py +152 -0
utils/judge_helpers.py +181 -0
utils/judge_utils.py +472 -0
utils/llm.py +196 -0
utils/logging.py +45 -0
utils/mcp_helpers.py +232 -0
utils/mcp_manager.py +235 -0
utils/memory_guard.py +18 -0
utils/red_teaming_sandbox.py +476 -0
utils/reset_helpers.py +318 -0
utils/resource_manager.py +370 -0
utils/skill_helpers.py +447 -0
utils/task_executor.py +904 -0
utils/task_helpers.py +270 -0
utils/template_helpers.py +179 -0

utils/task_executor.py ADDED Viewed

@@ -0,0 +1,904 @@
+import asyncio
+import grp
+import json
+import os
+import time
+from collections import defaultdict
+from dataclasses import dataclass, field
+from enum import Enum
+from pathlib import Path
+from typing import Any, Callable, Coroutine, Dict, FrozenSet, List, Optional, Set, Tuple
+import yaml
+from .memory_guard import check_memory_before_launch
+from .reset_helpers import reset_environment
+def _needs_sudo_for_docker() -> bool:
+    """Check if we need sudo to run docker commands."""
+    import subprocess
+    # First, try running docker directly
+    try:
+        result = subprocess.run(
+            ["docker", "ps"],
+            capture_output=True,
+            timeout=5
+        )
+        if result.returncode == 0:
+            return False
+    except (subprocess.SubprocessError, FileNotFoundError):
+        pass
+    # Fallback to group check
+    try:
+        docker_gid = grp.getgrnam("docker").gr_gid
+        if docker_gid in os.getgroups():
+            return False
+    except (KeyError, OSError):
+        pass
+    # Default to using sudo
+    return True
+# Cache the result since it won't change during execution
+_USE_SUDO = _needs_sudo_for_docker()
+def get_task_environments(task_dir: Path) -> List[str]:
+    """
+    Determine which environments a task needs based on its config.yaml.
+    Uses the 'environment' field in mcp.yaml to directly map MCP servers
+    to their required Docker environments.
+    Args:
+        task_dir: Path to the task directory
+    Returns:
+        List of environment names (e.g., ["gmail", "slack"])
+    """
+    config_path = task_dir / "config.yaml"
+    if not config_path.exists():
+        return []
+    try:
+        config = yaml.safe_load(config_path.read_text()) or {}
+    except yaml.YAMLError as e:
+        raise ValueError(f"Failed to parse {config_path}: {e}")
+    agent_cfg = config.get("Agent", {})
+    mcp_servers = agent_cfg.get("mcp_servers", []) or config.get("mcp_servers", [])
+    server_names = [
+        srv.get("name", "").lower()
+        for srv in mcp_servers
+        if srv.get("enabled", True)
+    ]
+    project_root = Path(__file__).resolve().parent.parent
+    mcp_config_path = project_root / "dt_arena" / "config" / "mcp.yaml"
+    if not mcp_config_path.exists():
+        return server_names
+    try:
+        mcp_cfg = yaml.safe_load(mcp_config_path.read_text()) or {}
+    except yaml.YAMLError as e:
+        raise ValueError(f"Failed to parse {mcp_config_path}: {e}")
+    mcp_servers_cfg = {srv["name"].lower(): srv for srv in mcp_cfg.get("servers", [])}
+    needed_envs: Set[str] = set()
+    for srv_name in server_names:
+        srv_cfg = mcp_servers_cfg.get(srv_name, {})
+        env_value = srv_cfg.get("environment")
+        if env_value:
+            # Support both single string and list of environments
+            if isinstance(env_value, list):
+                needed_envs.update(env_value)
+            else:
+                needed_envs.add(env_value)
+    return list(needed_envs)
+class EnvState(Enum):
+    """Environment instance lifecycle states."""
+    STARTING = "starting"
+    AVAILABLE = "available"
+    IN_USE = "in_use"
+    STOPPING = "stopping"
+@dataclass
+class EnvInstance:
+    """A running instance of a Docker environment."""
+    instance_id: str  # Unique ID like "gmail:pool_gmail_1_12345"
+    env_name: str  # Environment type like "gmail", "slack"
+    project_name: str  # Docker compose project name
+    compose_file: Path
+    state: EnvState = EnvState.STARTING
+    ports: Dict[str, int] = field(default_factory=dict)
+    current_task_id: Optional[str] = None
+    use_count: int = 0
+    last_used: float = field(default_factory=time.time)
+@dataclass
+class ScheduledTask:
+    """A task with its environment requirements."""
+    task_dir: Path
+    environments: FrozenSet[str]
+    original_index: int
+    domain: Optional[str] = None
+    task_type: Optional[str] = None
+    threat_model: Optional[str] = None
+    risk_category: Optional[str] = None
+    task_id: Optional[str] = None
+@dataclass
+class RunningTask:
+    """A task currently being executed."""
+    task: ScheduledTask
+    task_id: str
+    instances: List[EnvInstance]
+    start_time: float = field(default_factory=time.time)
+    future: Optional[asyncio.Future] = None
+@dataclass
+class ExecutorStats:
+    """Statistics about the executor state."""
+    total_tasks: int
+    pending_tasks: int
+    running_tasks: int
+    completed_tasks: int
+    total_instances: int
+    available_instances: int
+    in_use_instances: int
+    instances_by_env: Dict[str, int]
+class TaskExecutor:
+    """
+    Task-based parallel executor with environment instance pooling.
+    Key features:
+    - Controls parallelism by max_parallel_tasks (not max environments)
+    - Creates environment instances on demand
+    - Reuses available instances when possible
+    - Stops instances when no pending task needs them
+    - Respects per-environment instance limits (e.g., max 1 Windows VM)
+    """
+    def __init__(self, max_parallel: int = 5):
+        self.max_parallel = max_parallel
+        self._lock = asyncio.Lock()
+        # Task tracking
+        self._pending: List[ScheduledTask] = []
+        self._running: Dict[str, RunningTask] = {}  # task_id -> RunningTask
+        self._completed: List[Tuple[ScheduledTask, int]] = []  # (task, return_code)
+        # Environment instance tracking
+        self._instances: Dict[str, EnvInstance] = {}  # instance_id -> EnvInstance
+        self._env_instances: Dict[str, List[str]] = defaultdict(list)  # env_name -> [instance_ids]
+        self._task_instances: Dict[str, List[str]] = {}  # task_id -> [instance_ids]
+        # Configuration
+        self._env_config: Dict = {}
+        self._env_limits: Dict[str, int] = {}  # env_name -> max_instances
+        self._default_max_instances: Optional[int] = None
+        self._project_counter = 0
+        self._pool_id = str(os.getpid())
+        # Load configuration
+        self._load_config()
+    def _load_config(self) -> None:
+        """Load environment configuration including instance limits."""
+        project_root = Path(__file__).resolve().parent.parent
+        env_config_path = project_root / "dt_arena" / "config" / "env.yaml"
+        if not env_config_path.exists():
+            return
+        try:
+            self._env_config = yaml.safe_load(env_config_path.read_text()) or {}
+        except Exception as e:
+            print(f"[EXECUTOR] Warning: Failed to load env config: {e}")
+            return
+        # Load default max instances
+        self._default_max_instances = self._env_config.get("default_max_instances")
+        # Load per-environment limits
+        environments = self._env_config.get("environments", {})
+        for env_name, env_def in environments.items():
+            if "max_instances" in env_def:
+                self._env_limits[env_name] = env_def["max_instances"]
+    def _get_max_instances(self, env_name: str) -> Optional[int]:
+        """Get max instances for an environment (None = unlimited)."""
+        if env_name in self._env_limits:
+            return self._env_limits[env_name]
+        return self._default_max_instances
+    def _get_compose_file(self, env_name: str) -> Optional[Path]:
+        """Get the docker-compose file path for an environment."""
+        project_root = Path(__file__).resolve().parent.parent
+        environments = self._env_config.get("environments", {})
+        if env_name in environments:
+            compose_rel = environments[env_name].get("docker_compose")
+            if compose_rel:
+                return (project_root / compose_rel).resolve()
+        # Fallback: check standard location
+        env_path = project_root / "dt_arena" / "envs" / env_name
+        for name in ["docker-compose.yml", "docker-compose.yaml"]:
+            compose = env_path / name
+            if compose.exists():
+                return compose
+        return None
+    def _generate_project_name(self, env_name: str) -> str:
+        """Generate unique project name for a new instance."""
+        self._project_counter += 1
+        return f"pool_{env_name}_{self._project_counter}_{self._pool_id}"
+    def _allocate_ports(self, env_name: str) -> Dict[str, int]:
+        """Allocate ports for a new instance."""
+        from .resource_manager import ResourceManager
+        mgr = ResourceManager.instance()
+        environments = self._env_config.get("environments", {})
+        env_def = environments.get(env_name, {})
+        ports_cfg = env_def.get("ports", {})
+        allocated = {}
+        container_id = f"pool_{env_name}_{self._project_counter}"
+        for var_name, meta in ports_cfg.items():
+            default = int(meta.get("default", meta.get("container_port", 8000)))
+            port = mgr.allocate_port(container_id, var_name, default=default)
+            allocated[var_name] = port
+        return allocated
+    def _validate_env_requirements(self, compose_file: Path) -> bool:
+        """
+        Validate environment-specific requirements before starting.
+        Looks for a validate.py in the environment directory and calls its
+        validate(env_dir) function if present.
+        Returns:
+            True if validation passes, False otherwise
+        """
+        import importlib.util
+        env_dir = compose_file.parent
+        validate_script = env_dir / "validate.py"
+        if not validate_script.exists():
+            return True
+        try:
+            spec = importlib.util.spec_from_file_location("validate", validate_script)
+            if spec is None or spec.loader is None:
+                return True
+            module = importlib.util.module_from_spec(spec)
+            spec.loader.exec_module(module)
+            if hasattr(module, "validate"):
+                success, message = module.validate(env_dir)
+                if not success:
+                    print(message, flush=True)
+                    return False
+        except Exception as e:
+            print(f"[EXECUTOR] Warning: Failed to run {validate_script}: {e}", flush=True)
+        return True
+    async def _start_instance(self, env_name: str, max_retries: int = 5, wait_time: int = 30) -> Optional[EnvInstance]:
+        """Start a new environment instance."""
+        # Memory guard: wait for sufficient memory before launching
+        for attempt in range(max_retries):
+            try:
+                check_memory_before_launch()
+                break
+            except RuntimeError as e:
+                if attempt == max_retries - 1:
+                    print(f"[EXECUTOR] Memory guard blocked launch after {max_retries} retries: {e}", flush=True)
+                    return None
+                wait = wait_time * (attempt + 1)
+                print(f"[EXECUTOR] Low memory, waiting {wait}s before retry ({attempt+1}/{max_retries})...", flush=True)
+                await asyncio.sleep(wait)
+        compose_file = self._get_compose_file(env_name)
+        if not compose_file or not compose_file.exists():
+            print(f"[EXECUTOR] No docker-compose file found for {env_name}", flush=True)
+            return None
+        # Pre-start validation (calls validate.py if present in env directory)
+        if not self._validate_env_requirements(compose_file):
+            return None
+        project_name = self._generate_project_name(env_name)
+        instance_id = f"{env_name}:{project_name}"
+        ports = self._allocate_ports(env_name)
+        instance = EnvInstance(
+            instance_id=instance_id,
+            env_name=env_name,
+            project_name=project_name,
+            compose_file=compose_file,
+            state=EnvState.STARTING,
+            ports=ports,
+        )
+        print(f"[EXECUTOR] Starting instance {instance_id}", flush=True)
+        # Track the new instance
+        self._instances[instance.instance_id] = instance
+        self._env_instances[env_name].append(instance.instance_id)
+        try:
+            # Build docker compose command
+            if _USE_SUDO:
+                # Use sudo with 'env' command to ensure env vars are properly passed
+                cmd = ["sudo", "env"] + [f"{k}={v}" for k, v in ports.items()] + [
+                    "docker", "compose", "-p", project_name, "-f", str(compose_file), "up", "-d"
+                ]
+                proc = await asyncio.create_subprocess_exec(
+                    *cmd,
+                    cwd=str(compose_file.parent),
+                    stdout=asyncio.subprocess.PIPE,
+                    stderr=asyncio.subprocess.PIPE,
+                )
+            else:
+                # Set port environment variables when not using sudo
+                env = os.environ.copy()
+                for var_name, port in ports.items():
+                    env[var_name] = str(port)
+                proc = await asyncio.create_subprocess_exec(
+                    "docker", "compose", "-p", project_name, "-f", str(compose_file), "up", "-d",
+                    cwd=str(compose_file.parent),
+                    env=env,
+                    stdout=asyncio.subprocess.PIPE,
+                    stderr=asyncio.subprocess.PIPE,
+                )
+            stdout, stderr = await proc.communicate()
+            if proc.returncode != 0:
+                print(f"[EXECUTOR] Start failed for {instance_id}: {stderr.decode()}", flush=True)
+                return None
+            # Wait for containers to be healthy
+            # Get timeout from env config (default 120s, Windows needs 240s+)
+            environments = self._env_config.get("environments", {})
+            env_def = environments.get(env_name, {})
+            health_timeout = env_def.get("health_timeout", 120)
+            await self._wait_for_healthy(project_name, compose_file, timeout=health_timeout)
+            instance.state = EnvState.AVAILABLE
+            print(f"[EXECUTOR] Instance {instance_id} started successfully", flush=True)
+            return instance
+        except Exception as e:
+            print(f"[EXECUTOR] Failed to start instance {instance_id}: {e}", flush=True)
+            return None
+    async def _wait_for_healthy(
+        self,
+        project_name: str,
+        compose_file: Path,
+        timeout: int = 120,
+    ) -> bool:
+        """Wait for all containers in the project to be healthy."""
+        print(f"[EXECUTOR] Waiting for containers to be healthy...", flush=True)
+        start_time = time.time()
+        while time.time() - start_time < timeout:
+            # Check container health status
+            cmd = ["docker", "compose", "-p", project_name, "-f", str(compose_file), "ps", "--format", "json"]
+            if _USE_SUDO:
+                cmd = ["sudo"] + cmd
+            proc = await asyncio.create_subprocess_exec(
+                *cmd,
+                cwd=str(compose_file.parent),
+                stdout=asyncio.subprocess.PIPE,
+                stderr=asyncio.subprocess.PIPE,
+            )
+            stdout, stderr = await proc.communicate()
+            if proc.returncode != 0:
+                await asyncio.sleep(2)
+                continue
+            # Parse JSON output (one JSON object per line)
+            all_healthy = True
+            output = stdout.decode().strip()
+            if not output:
+                await asyncio.sleep(2)
+                continue
+            for line in output.split('\n'):
+                if not line.strip():
+                    continue
+                try:
+                    container = json.loads(line)
+                    health = container.get("Health", "")
+                    state = container.get("State", "")
+                    # Container is ready if: no healthcheck (health empty) and running, OR healthy
+                    if state != "running":
+                        all_healthy = False
+                        break
+                    if health and health != "healthy":
+                        all_healthy = False
+                        break
+                except json.JSONDecodeError:
+                    continue
+            if all_healthy:
+                print(f"[EXECUTOR] All containers healthy", flush=True)
+                return True
+            await asyncio.sleep(2)
+        print(f"[EXECUTOR] Timeout waiting for containers to be healthy", flush=True)
+        return False
+    async def _stop_instance(self, instance: EnvInstance) -> bool:
+        """Stop and remove an environment instance."""
+        instance.state = EnvState.STOPPING
+        print(f"[EXECUTOR] Stopping instance {instance.instance_id}", flush=True)
+        try:
+            cmd = ["docker", "compose", "-p", instance.project_name,
+                   "-f", str(instance.compose_file), "down", "--remove-orphans", "--volumes"]
+            if _USE_SUDO:
+                cmd = ["sudo"] + cmd
+            proc = await asyncio.create_subprocess_exec(
+                *cmd,
+                cwd=str(instance.compose_file.parent),
+                stdout=asyncio.subprocess.PIPE,
+                stderr=asyncio.subprocess.PIPE,
+            )
+            await asyncio.wait_for(proc.wait(), timeout=60)
+            # Remove from tracking
+            if instance.instance_id in self._instances:
+                del self._instances[instance.instance_id]
+            if instance.instance_id in self._env_instances.get(instance.env_name, []):
+                self._env_instances[instance.env_name].remove(instance.instance_id)
+            print(f"[EXECUTOR] Instance {instance.instance_id} stopped", flush=True)
+            return True
+        except Exception as e:
+            print(f"[EXECUTOR] Error stopping instance {instance.instance_id}: {e}", flush=True)
+            return False
+    def _get_disable_reuse_flag(self, env_name: str) -> bool:
+        """Get disable reuse flag from env config."""
+        environments = self._env_config.get("environments", {})
+        env_def = environments.get(env_name, {})
+        return env_def.get("disable_reuse", False)
+    def _get_reset_scripts(self, env_name: str) -> Dict[str, str]:
+        """Get reset script paths for each service from env config."""
+        environments = self._env_config.get("environments", {})
+        env_def = environments.get(env_name, {})
+        return env_def.get("reset_scripts", {})
+    def _get_reset_endpoints(self, env_name: str) -> Dict[str, Dict[str, Any]]:
+        """
+        Get reset API endpoints from env config.
+        Returns a dict mapping endpoint names to their config:
+        {
+            "endpoint_name": {
+                "url": "http://localhost:${PORT}/api/v1/reset",
+                "method": "POST",  # optional, defaults to POST
+                "port_var": "SALESFORCE_API_PORT"  # which port variable to use
+            }
+        }
+        """
+        environments = self._env_config.get("environments", {})
+        env_def = environments.get(env_name, {})
+        return env_def.get("reset_endpoints", {})
+    async def _reset_instance(self, instance: EnvInstance) -> None:
+        """
+        Reset an instance's data state.
+        Delegates to reset_environment from reset_helpers module which handles:
+        1. API endpoints (reset_endpoints) - preferred, safer
+        2. Docker exec scripts (reset_scripts) - fallback
+        Raises:
+            RuntimeError: If reset fails (both endpoints and scripts failed)
+        """
+        print(f"[EXECUTOR] Resetting instance {instance.instance_id}", flush=True)
+        # Read per-environment script timeout (e.g. Windows loadvm needs ~60s)
+        environments = self._env_config.get("environments", {})
+        env_def = environments.get(instance.env_name, {})
+        script_timeout = env_def.get("reset_script_timeout", 60)
+        await reset_environment(
+            env_name=instance.env_name,
+            ports=instance.ports,
+            env_config=self._env_config,
+            project_name=instance.project_name,
+            compose_file=instance.compose_file,
+            script_timeout=script_timeout,
+        )
+    def _count_env_instances(self, env_name: str, exclude_stopping: bool = True) -> int:
+        """Count running instances of an environment type."""
+        count = 0
+        for inst_id in self._env_instances.get(env_name, []):
+            inst = self._instances.get(inst_id)
+            if inst:
+                if exclude_stopping and inst.state == EnvState.STOPPING:
+                    continue
+                count += 1
+        return count
+    def _find_available_instance(self, env_name: str) -> Optional[EnvInstance]:
+        """Find an available instance of the given environment type."""
+        for inst_id in self._env_instances.get(env_name, []):
+            inst = self._instances.get(inst_id)
+            if inst and inst.state == EnvState.AVAILABLE:
+                return inst
+        return None
+    def _get_needed_envs(self) -> Set[str]:
+        """Get all environment types needed by pending tasks."""
+        needed = set()
+        for task in self._pending:
+            needed.update(task.environments)
+        return needed
+    def _can_start_task(self, task: ScheduledTask) -> bool:
+        """Check if a task can start given current env limits."""
+        for env_name in task.environments:
+            # Check if we have an available instance
+            if self._find_available_instance(env_name):
+                continue
+            # Check if we can create a new instance
+            max_inst = self._get_max_instances(env_name)
+            if max_inst is not None:
+                current_count = self._count_env_instances(env_name)
+                if current_count >= max_inst:
+                    return False
+        return True
+    def _calculate_task_priority(
+        self,
+        task: ScheduledTask,
+        available_envs: Set[str],
+    ) -> Tuple[int, int]:
+        """
+        Calculate priority for a task.
+        Returns (negative_reuse_count, original_index) for sorting.
+        Lower values = higher priority.
+        """
+        # Count how many environments can be reused
+        reusable = sum(1 for env in task.environments if env in available_envs)
+        return (-reusable, task.original_index)
+    def _pick_next_task(self) -> Optional[ScheduledTask]:
+        """Pick the best pending task to run next."""
+        if not self._pending:
+            return None
+        # Get currently available environment types
+        available_envs = set()
+        for inst in self._instances.values():
+            if inst.state == EnvState.AVAILABLE:
+                available_envs.add(inst.env_name)
+        # Filter to tasks that can actually start
+        candidates = [t for t in self._pending if self._can_start_task(t)]
+        if not candidates:
+            return None
+        # Sort by priority (max reuse, then FIFO)
+        candidates.sort(key=lambda t: self._calculate_task_priority(t, available_envs))
+        chosen = candidates[0]
+        self._pending.remove(chosen)
+        return chosen
+    async def _acquire_instances_for_task(
+        self,
+        task: ScheduledTask,
+        task_id: str,
+    ) -> Optional[List[EnvInstance]]:
+        """Acquire all required instances for a task."""
+        acquired: List[EnvInstance] = []
+        for env_name in task.environments:
+            # Try to find an available instance
+            instance = self._find_available_instance(env_name)
+            disable_reuse = self._get_disable_reuse_flag(env_name)
+            if instance and disable_reuse:
+                print(f"[EXECUTOR] Reuse disabled for {env_name}, stopping instance {instance.instance_id}", flush=True)
+                await self._stop_instance(instance)
+                instance = None
+            if instance:
+                # Reuse existing instance
+                instance.state = EnvState.IN_USE
+                instance.current_task_id = task_id
+                instance.use_count += 1
+                instance.last_used = time.time()
+                acquired.append(instance)
+                # Track early so release works even if reset fails
+                self._task_instances[task_id] = [inst.instance_id for inst in acquired]
+                # Reset before reuse (with configurable retries)
+                environments = self._env_config.get("environments", {})
+                env_def = environments.get(env_name, {})
+                max_retries = env_def.get("reset_retries", 1)
+                retry_delay = env_def.get("reset_retry_delay", 10)
+                for attempt in range(1 + max_retries):
+                    try:
+                        await self._reset_instance(instance)
+                        break
+                    except Exception as e:
+                        if attempt < max_retries:
+                            print(f"[EXECUTOR] Reset failed for {instance.instance_id} (attempt {attempt + 1}/{1 + max_retries}), retrying in {retry_delay}s: {e}", flush=True)
+                            await asyncio.sleep(retry_delay)
+                        else:
+                            raise
+                print(f"[EXECUTOR] Reusing instance {instance.instance_id} for task {task_id} (use #{instance.use_count})", flush=True)
+            else:
+                # Start new instance (release lock during slow operation)
+                self._lock.release()
+                try:
+                    instance = await self._start_instance(env_name)
+                finally:
+                    await self._lock.acquire()
+                if not instance:
+                    # Rollback acquired instances
+                    for inst in acquired:
+                        inst.state = EnvState.AVAILABLE
+                        inst.current_task_id = None
+                    return None
+                instance.state = EnvState.IN_USE
+                instance.current_task_id = task_id
+                instance.use_count = 1
+                acquired.append(instance)
+                # Track early so release works even if reset fails
+                self._task_instances[task_id] = [inst.instance_id for inst in acquired]
+                # Reset after start
+                await self._reset_instance(instance)
+                print(f"[EXECUTOR] Started new instance {instance.instance_id} for task {task_id}", flush=True)
+        # Final update of tracking (in case multiple environments)
+        self._task_instances[task_id] = [inst.instance_id for inst in acquired]
+        return acquired
+    async def _release_instances_for_task(self, task_id: str) -> Set[str]:
+        """Release instances used by a task. Returns released env names."""
+        instance_ids = self._task_instances.pop(task_id, [])
+        released_envs = set()
+        for inst_id in instance_ids:
+            inst = self._instances.get(inst_id)
+            if inst and inst.state == EnvState.IN_USE:
+                inst.state = EnvState.AVAILABLE
+                inst.current_task_id = None
+                inst.last_used = time.time()
+                released_envs.add(inst.env_name)
+                print(f"[EXECUTOR] Released instance {inst_id}", flush=True)
+        return released_envs
+    async def _cleanup_unused_instances(self, released_envs: Set[str]) -> None:
+        """Stop instances for environments no longer needed by pending tasks."""
+        needed_envs = self._get_needed_envs()
+        for env_name in released_envs:
+            if env_name not in needed_envs:
+                # Stop all available instances of this env type
+                for inst_id in list(self._env_instances.get(env_name, [])):
+                    inst = self._instances.get(inst_id)
+                    if inst and inst.state == EnvState.AVAILABLE:
+                        # Release lock during slow stop operation
+                        self._lock.release()
+                        try:
+                            await self._stop_instance(inst)
+                        finally:
+                            await self._lock.acquire()
+    async def _run_single_task(
+        self,
+        task: ScheduledTask,
+        task_id: str,
+        run_fn: Callable[[ScheduledTask, Dict[str, EnvInstance]], Coroutine[Any, Any, int]],
+    ) -> int:
+        """Run a single task and handle completion."""
+        instances: Optional[List[EnvInstance]] = None
+        try:
+            # Acquire instances
+            async with self._lock:
+                instances = await self._acquire_instances_for_task(task, task_id)
+            if not instances:
+                print(f"[EXECUTOR] Failed to acquire instances for task {task_id}", flush=True)
+                return 1
+            # Build env_name -> instance mapping for the task
+            env_instances = {inst.env_name: inst for inst in instances}
+            # Run the task
+            return_code = await run_fn(task, env_instances)
+            return return_code
+        except Exception as e:
+            print(f"[EXECUTOR] Error running task {task_id}: {e}", flush=True)
+            return 1
+        finally:
+            # Release instances and cleanup
+            async with self._lock:
+                released_envs = await self._release_instances_for_task(task_id)
+                await self._cleanup_unused_instances(released_envs)
+    async def _worker(
+        self,
+        run_fn: Callable[[ScheduledTask, Dict[str, EnvInstance]], Coroutine[Any, Any, int]],
+        results: List[Tuple[ScheduledTask, int]],
+        slot_available: asyncio.Event,
+    ) -> None:
+        """Worker that processes tasks from the pending queue."""
+        while True:
+            task: Optional[ScheduledTask] = None
+            task_id: Optional[str] = None
+            async with self._lock:
+                # Check if we should exit
+                if not self._pending and not self._running:
+                    return
+                # Try to pick a task
+                if len(self._running) < self.max_parallel:
+                    task = self._pick_next_task()
+                    if task:
+                        task_id = f"{task.task_dir.name}_{id(task)}"
+                        self._running[task_id] = RunningTask(
+                            task=task,
+                            task_id=task_id,
+                            instances=[],
+                        )
+            if task and task_id:
+                # Run the task outside lock
+                return_code = await self._run_single_task(task, task_id, run_fn)
+                async with self._lock:
+                    # Record result
+                    results.append((task, return_code))
+                    del self._running[task_id]
+                    # Signal that a slot is available
+                    slot_available.set()
+            else:
+                # Wait for a slot to become available
+                slot_available.clear()
+                await slot_available.wait()
+    async def run_all(
+        self,
+        tasks: List[ScheduledTask],
+        run_fn: Callable[[ScheduledTask, Dict[str, EnvInstance]], Coroutine[Any, Any, int]],
+    ) -> List[Tuple[ScheduledTask, int]]:
+        """
+        Run all tasks with optimal parallelism and environment reuse.
+        Args:
+            tasks: List of tasks to run
+            run_fn: Async function that takes (task, env_instances) and returns exit code
+        Returns:
+            List of (task, return_code) tuples
+        """
+        if not tasks:
+            return []
+        # Initialize pending queue (maintain original order)
+        self._pending = list(tasks)
+        self._running.clear()
+        results: List[Tuple[ScheduledTask, int]] = []
+        print(f"[EXECUTOR] Starting {len(tasks)} tasks with max_parallel={self.max_parallel}", flush=True)
+        # Create worker coordination
+        slot_available = asyncio.Event()
+        slot_available.set()  # Start with slots available
+        # Create workers
+        workers = [
+            asyncio.create_task(self._worker(run_fn, results, slot_available))
+            for _ in range(self.max_parallel)
+        ]
+        # Wait for all workers to complete
+        await asyncio.gather(*workers)
+        return results
+    def stats(self) -> ExecutorStats:
+        """Get current executor statistics."""
+        instances_by_env: Dict[str, int] = defaultdict(int)
+        available = in_use = 0
+        for inst in self._instances.values():
+            instances_by_env[inst.env_name] += 1
+            if inst.state == EnvState.AVAILABLE:
+                available += 1
+            elif inst.state == EnvState.IN_USE:
+                in_use += 1
+        return ExecutorStats(
+            total_tasks=len(self._pending) + len(self._running) + len(self._completed),
+            pending_tasks=len(self._pending),
+            running_tasks=len(self._running),
+            completed_tasks=len(self._completed),
+            total_instances=len(self._instances),
+            available_instances=available,
+            in_use_instances=in_use,
+            instances_by_env=dict(instances_by_env),
+        )
+    async def shutdown(self) -> None:
+        """Shutdown all instances."""
+        async with self._lock:
+            print(f"[EXECUTOR] Shutting down {len(self._instances)} instance(s)...", flush=True)
+            # Stop all instances concurrently
+            stop_tasks = []
+            for inst in list(self._instances.values()):
+                if inst.state != EnvState.STOPPING:
+                    stop_tasks.append(self._stop_instance(inst))
+            if stop_tasks:
+                # Release lock during shutdown
+                self._lock.release()
+                try:
+                    await asyncio.gather(*stop_tasks, return_exceptions=True)
+                finally:
+                    await self._lock.acquire()
+            self._instances.clear()
+            self._env_instances.clear()
+            self._task_instances.clear()
+            print("[EXECUTOR] Shutdown complete", flush=True)