PyPI - openadapt-ml - Versions diffs - 0.2.0__py3-none-any.whl → 0.2.2__py3-none-any.whl - Mend

openadapt-ml 0.2.0py3-none-any.whl → 0.2.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (95) hide show

openadapt_ml/baselines/__init__.py +121 -0
openadapt_ml/baselines/adapter.py +185 -0
openadapt_ml/baselines/cli.py +314 -0
openadapt_ml/baselines/config.py +448 -0
openadapt_ml/baselines/parser.py +922 -0
openadapt_ml/baselines/prompts.py +787 -0
openadapt_ml/benchmarks/__init__.py +13 -115
openadapt_ml/benchmarks/agent.py +265 -421
openadapt_ml/benchmarks/azure.py +28 -19
openadapt_ml/benchmarks/azure_ops_tracker.py +521 -0
openadapt_ml/benchmarks/cli.py +1722 -4847
openadapt_ml/benchmarks/trace_export.py +631 -0
openadapt_ml/benchmarks/viewer.py +22 -5
openadapt_ml/benchmarks/vm_monitor.py +530 -29
openadapt_ml/benchmarks/waa_deploy/Dockerfile +47 -53
openadapt_ml/benchmarks/waa_deploy/api_agent.py +21 -20
openadapt_ml/cloud/azure_inference.py +3 -5
openadapt_ml/cloud/lambda_labs.py +722 -307
openadapt_ml/cloud/local.py +2038 -487
openadapt_ml/cloud/ssh_tunnel.py +68 -26
openadapt_ml/datasets/next_action.py +40 -30
openadapt_ml/evals/grounding.py +8 -3
openadapt_ml/evals/plot_eval_metrics.py +15 -13
openadapt_ml/evals/trajectory_matching.py +41 -26
openadapt_ml/experiments/demo_prompt/format_demo.py +16 -6
openadapt_ml/experiments/demo_prompt/run_experiment.py +26 -16
openadapt_ml/experiments/representation_shootout/__init__.py +70 -0
openadapt_ml/experiments/representation_shootout/conditions.py +708 -0
openadapt_ml/experiments/representation_shootout/config.py +390 -0
openadapt_ml/experiments/representation_shootout/evaluator.py +659 -0
openadapt_ml/experiments/representation_shootout/runner.py +687 -0
openadapt_ml/experiments/waa_demo/runner.py +29 -14
openadapt_ml/export/parquet.py +36 -24
openadapt_ml/grounding/detector.py +18 -14
openadapt_ml/ingest/__init__.py +8 -6
openadapt_ml/ingest/capture.py +25 -22
openadapt_ml/ingest/loader.py +7 -4
openadapt_ml/ingest/synthetic.py +189 -100
openadapt_ml/models/api_adapter.py +14 -4
openadapt_ml/models/base_adapter.py +10 -2
openadapt_ml/models/providers/__init__.py +288 -0
openadapt_ml/models/providers/anthropic.py +266 -0
openadapt_ml/models/providers/base.py +299 -0
openadapt_ml/models/providers/google.py +376 -0
openadapt_ml/models/providers/openai.py +342 -0
openadapt_ml/models/qwen_vl.py +46 -19
openadapt_ml/perception/__init__.py +35 -0
openadapt_ml/perception/integration.py +399 -0
openadapt_ml/retrieval/demo_retriever.py +50 -24
openadapt_ml/retrieval/embeddings.py +9 -8
openadapt_ml/retrieval/retriever.py +3 -1
openadapt_ml/runtime/__init__.py +50 -0
openadapt_ml/runtime/policy.py +18 -5
openadapt_ml/runtime/safety_gate.py +471 -0
openadapt_ml/schema/__init__.py +9 -0
openadapt_ml/schema/converters.py +74 -27
openadapt_ml/schema/episode.py +31 -18
openadapt_ml/scripts/capture_screenshots.py +530 -0
openadapt_ml/scripts/compare.py +85 -54
openadapt_ml/scripts/demo_policy.py +4 -1
openadapt_ml/scripts/eval_policy.py +15 -9
openadapt_ml/scripts/make_gif.py +1 -1
openadapt_ml/scripts/prepare_synthetic.py +3 -1
openadapt_ml/scripts/train.py +21 -9
openadapt_ml/segmentation/README.md +920 -0
openadapt_ml/segmentation/__init__.py +97 -0
openadapt_ml/segmentation/adapters/__init__.py +5 -0
openadapt_ml/segmentation/adapters/capture_adapter.py +420 -0
openadapt_ml/segmentation/annotator.py +610 -0
openadapt_ml/segmentation/cache.py +290 -0
openadapt_ml/segmentation/cli.py +674 -0
openadapt_ml/segmentation/deduplicator.py +656 -0
openadapt_ml/segmentation/frame_describer.py +788 -0
openadapt_ml/segmentation/pipeline.py +340 -0
openadapt_ml/segmentation/schemas.py +622 -0
openadapt_ml/segmentation/segment_extractor.py +634 -0
openadapt_ml/training/azure_ops_viewer.py +1097 -0
openadapt_ml/training/benchmark_viewer.py +52 -41
openadapt_ml/training/shared_ui.py +7 -7
openadapt_ml/training/stub_provider.py +57 -35
openadapt_ml/training/trainer.py +143 -86
openadapt_ml/training/trl_trainer.py +70 -21
openadapt_ml/training/viewer.py +323 -108
openadapt_ml/training/viewer_components.py +180 -0
{openadapt_ml-0.2.0.dist-info → openadapt_ml-0.2.2.dist-info}/METADATA +215 -14
openadapt_ml-0.2.2.dist-info/RECORD +116 -0
openadapt_ml/benchmarks/base.py +0 -366
openadapt_ml/benchmarks/data_collection.py +0 -432
openadapt_ml/benchmarks/live_tracker.py +0 -180
openadapt_ml/benchmarks/runner.py +0 -418
openadapt_ml/benchmarks/waa.py +0 -761
openadapt_ml/benchmarks/waa_live.py +0 -619
openadapt_ml-0.2.0.dist-info/RECORD +0 -86
{openadapt_ml-0.2.0.dist-info → openadapt_ml-0.2.2.dist-info}/WHEEL +0 -0
{openadapt_ml-0.2.0.dist-info → openadapt_ml-0.2.2.dist-info}/licenses/LICENSE +0 -0

openadapt_ml/training/viewer_components.py ADDED Viewed

@@ -0,0 +1,180 @@
+"""Adapter module for openadapt-viewer components.
+This module provides wrapper functions that adapt openadapt-viewer components
+for openadapt-ml specific use cases, particularly for training visualization.
+Migration Approach:
+------------------
+Phase 1 (Foundation): Create this adapter module to establish patterns
+Phase 2 (Integration): Gradually migrate viewer.py to use these adapters
+Phase 3 (Consolidation): Remove duplicate code from viewer.py
+Phase 4 (Completion): Full dependency on openadapt-viewer
+Design Principles:
+-----------------
+1. Each function wraps openadapt-viewer components with ML-specific context
+2. Functions accept openadapt-ml data structures (TrainingState, predictions, etc.)
+3. No breaking changes to existing viewer.py code
+4. Can be incrementally adopted in future phases
+"""
+from __future__ import annotations
+from pathlib import Path
+from typing import Any
+# Import openadapt-viewer components
+from openadapt_viewer.components import (
+    screenshot_display as _screenshot_display,
+    playback_controls as _playback_controls,
+    metrics_grid as _metrics_grid,
+    badge as _badge,
+)
+def screenshot_with_predictions(
+    screenshot_path: str | Path,
+    human_action: dict[str, Any] | None = None,
+    predicted_action: dict[str, Any] | None = None,
+    step_number: int | None = None,
+    show_difference: bool = True,
+) -> str:
+    """Generate screenshot display with human and AI action overlays."""
+    overlays = []
+    if human_action:
+        overlays.append(
+            {
+                "type": human_action.get("type", "click"),
+                "x": human_action.get("x", 0),
+                "y": human_action.get("y", 0),
+                "label": "H",
+                "variant": "human",
+                "color": "#34d399",
+            }
+        )
+    if predicted_action:
+        overlays.append(
+            {
+                "type": predicted_action.get("type", "click"),
+                "x": predicted_action.get("x", 0),
+                "y": predicted_action.get("y", 0),
+                "label": "AI",
+                "variant": "predicted",
+                "color": "#00d4aa",
+            }
+        )
+    caption = f"Step {step_number}" if step_number is not None else None
+    return _screenshot_display(
+        image_path=str(screenshot_path),
+        overlays=overlays,
+        caption=caption,
+    )
+def training_metrics(
+    epoch: int | None = None,
+    loss: float | None = None,
+    accuracy: float | None = None,
+    elapsed_time: float | None = None,
+    learning_rate: float | None = None,
+    **additional_metrics: Any,
+) -> str:
+    """Generate metrics grid for training statistics."""
+    metrics = []
+    if epoch is not None:
+        metrics.append({"label": "Epoch", "value": epoch})
+    if loss is not None:
+        color = "success" if loss < 0.1 else "warning" if loss < 0.5 else "error"
+        metrics.append({"label": "Loss", "value": f"{loss:.4f}", "color": color})
+    if accuracy is not None:
+        color = (
+            "success" if accuracy > 0.9 else "warning" if accuracy > 0.7 else "error"
+        )
+        metrics.append(
+            {"label": "Accuracy", "value": f"{accuracy:.2%}", "color": color}
+        )
+    if elapsed_time is not None:
+        hours = int(elapsed_time // 3600)
+        minutes = int((elapsed_time % 3600) // 60)
+        seconds = int(elapsed_time % 60)
+        time_str = f"{hours}h {minutes}m {seconds}s"
+        metrics.append({"label": "Elapsed", "value": time_str})
+    if learning_rate is not None:
+        metrics.append({"label": "LR", "value": f"{learning_rate:.2e}"})
+    for key, value in additional_metrics.items():
+        label = key.replace("_", " ").title()
+        metrics.append({"label": label, "value": str(value)})
+    return _metrics_grid(metrics)
+def playback_controls(
+    step_count: int,
+    initial_step: int = 0,
+) -> str:
+    """Generate playback controls for step-by-step viewer."""
+    return _playback_controls(
+        step_count=step_count,
+        initial_step=initial_step,
+    )
+def correctness_badge(is_correct: bool, show_label: bool = True) -> str:
+    """Generate a badge indicating prediction correctness."""
+    if is_correct:
+        text = "Correct" if show_label else "✓"
+        color = "success"
+    else:
+        text = "Incorrect" if show_label else "✗"
+        color = "error"
+    return _badge(text=text, color=color)
+def generate_comparison_summary(
+    total_steps: int,
+    correct_steps: int,
+    model_name: str | None = None,
+) -> str:
+    """Generate a summary card for model comparison results."""
+    accuracy = correct_steps / total_steps if total_steps > 0 else 0
+    incorrect_steps = total_steps - correct_steps
+    metrics = [
+        {"label": "Total Steps", "value": total_steps},
+        {"label": "Correct", "value": correct_steps, "color": "success"},
+        {
+            "label": "Incorrect",
+            "value": incorrect_steps,
+            "color": "error" if incorrect_steps > 0 else "muted",
+        },
+        {
+            "label": "Accuracy",
+            "value": f"{accuracy:.1%}",
+            "color": "success" if accuracy > 0.9 else "warning",
+        },
+    ]
+    if model_name:
+        metrics.insert(0, {"label": "Model", "value": model_name})
+    return _metrics_grid(metrics)
+__all__ = [
+    "screenshot_with_predictions",
+    "training_metrics",
+    "playback_controls",
+    "correctness_badge",
+    "generate_comparison_summary",
+]

{openadapt_ml-0.2.0.dist-info → openadapt_ml-0.2.2.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: openadapt-ml
-Version: 0.2.0
+Version: 0.2.2
 Summary: Model-agnostic, domain-agnostic ML engine for GUI automation agents
 Project-URL: Homepage, https://github.com/OpenAdaptAI/openadapt-ml
 Project-URL: Repository, https://github.com/OpenAdaptAI/openadapt-ml
@@ -13,18 +13,22 @@ Classifier: Development Status :: 3 - Alpha
 Classifier: Intended Audience :: Developers
 Classifier: License :: OSI Approved :: MIT License
 Classifier: Programming Language :: Python :: 3
+Classifier: Programming Language :: Python :: 3.10
+Classifier: Programming Language :: Python :: 3.11
 Classifier: Programming Language :: Python :: 3.12
 Classifier: Topic :: Scientific/Engineering :: Artificial Intelligence
 Classifier: Topic :: Software Development :: Libraries :: Python Modules
-Requires-Python: >=3.12
+Requires-Python: >=3.10
 Requires-Dist: azure-ai-ml>=1.30.0
 Requires-Dist: azure-identity>=1.25.1
 Requires-Dist: bitsandbytes>=0.41.0
+Requires-Dist: click>=8.1.0
 Requires-Dist: google-generativeai>=0.8.5
 Requires-Dist: matplotlib>=3.10.7
 Requires-Dist: openadapt-capture>=0.1.0
 Requires-Dist: peft>=0.18.0
 Requires-Dist: pillow>=12.0.0
+Requires-Dist: pyautogui>=0.9.54
 Requires-Dist: pydantic-settings>=2.0.0
 Requires-Dist: pytest>=9.0.2
 Requires-Dist: pyyaml>=6.0.3
@@ -38,6 +42,8 @@ Requires-Dist: pydantic-settings>=2.0.0; extra == 'api'
 Provides-Extra: azure
 Requires-Dist: azure-ai-ml>=1.0.0; extra == 'azure'
 Requires-Dist: azure-identity>=1.0.0; extra == 'azure'
+Provides-Extra: benchmarks
+Requires-Dist: openadapt-evals>=0.1.1; extra == 'benchmarks'
 Provides-Extra: dev
 Requires-Dist: pytest>=9.0.0; extra == 'dev'
 Requires-Dist: ruff>=0.1.0; extra == 'dev'
@@ -52,17 +58,19 @@ Description-Content-Type: text/markdown
 # OpenAdapt-ML
-[![PyPI version](https://badge.fury.io/py/openadapt-ml.svg)](https://badge.fury.io/py/openadapt-ml)
+[![Build Status](https://github.com/OpenAdaptAI/openadapt-ml/actions/workflows/publish.yml/badge.svg)](https://github.com/OpenAdaptAI/openadapt-ml/actions/workflows/publish.yml)
+[![PyPI version](https://img.shields.io/pypi/v/openadapt-ml.svg)](https://pypi.org/project/openadapt-ml/)
+[![Downloads](https://img.shields.io/pypi/dm/openadapt-ml.svg)](https://pypi.org/project/openadapt-ml/)
 [![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT)
-[![Python Version](https://img.shields.io/badge/python-3.12-blue)](https://www.python.org/)
+[![Python 3.12+](https://img.shields.io/badge/python-3.12%2B-blue)](https://www.python.org/downloads/)
 OpenAdapt-ML is a **model-agnostic, domain-agnostic ML engine** for GUI
 automation agents. It sits above **TRL + Unsloth** (which we use directly for training performance) and provides the GUI-specific layer:
 - **Episode semantics**: Step/action/observation alignment, screenshot-action coupling, termination handling
-- **Demo-conditioned inference**: Retrieval-augmented prompting (validated: 33% → 100% first-action accuracy)
+- **Demo-conditioned inference**: Retrieval-augmented prompting (in early experiments: 46.7% -> 100% first-action accuracy on a controlled macOS benchmark where all 45 tasks share the same navigation entry point - see [publication roadmap](https://github.com/OpenAdaptAI/OpenAdapt/blob/main/docs/publication-roadmap.md) for methodology and limitations)
 - **Benchmark adapters**: WAA today, OSWorld/WebArena planned
-- **VLM adapters**: Updated with leading GUI-agent SOTA open-source models
+- **VLM adapters**: Supports open-source GUI-agent models (Qwen3-VL, Qwen2.5-VL)
 - **Training pipeline**: TRL + Unsloth integration for 2x faster training with 50% less VRAM
 OpenAdapt-ML is **not** a training framework, optimizer, hardware orchestrator, or experiment manager. We use TRL/Unsloth, Lambda Labs/Azure, and W&B/MLflow for those.
@@ -254,7 +262,9 @@ simple login flow.
 ### 5.1 Synthetic scenarios
 OpenAdapt-ML includes synthetic UI generators for structured GUI automation benchmarks.
-Currently two scenarios are supported:
+Currently two scenarios are supported.
+> **Note:** These are **synthetic, controlled benchmarks** designed for rapid iteration and debugging, not real-world evaluation. The 100% accuracy results below demonstrate that fine-tuning works on simple scenarios with known ground truth - they do not represent performance on production UIs or standard benchmarks like WAA. See section 14 (Limitations) for details.
 #### Login Scenario (6 steps, 3 elements)
@@ -437,15 +447,18 @@ It exposes step-level performance metrics, which let us visually answer the ques
 | Claude Sonnet 4.5   | API          | 0.121           | 0.757       | 0.000          |
 | GPT-5.1             | API          | 0.183           | 0.057       | 0.600          |
-**Key findings:**
-1. **Fine-tuning delivers massive gains**: Both 2B and 8B models show 2-3x improvement in action accuracy after fine-tuning
-2. **Small fine-tuned models beat large APIs**: Qwen3-VL-2B FT (469% base) outperforms both Claude Sonnet 4.5 (121%) and GPT-5.1 (183%)
-3. **Precision matters**: Fine-tuned models have excellent click precision (85-100% hit rate, <0.05 coord error) while API models struggle with the action format
-4. **Size vs specialization**: The fine-tuned 2B model outperforms the general-purpose Claude Sonnet 4.5, showing that domain-specific fine-tuning trumps raw model size
+**Observations on synthetic login benchmark:**
+> **Important:** These findings are from a synthetic benchmark with ~3 UI elements and a fixed action sequence. They demonstrate the training pipeline works, but should not be extrapolated to real-world GUI automation performance. Evaluation on standard benchmarks (WAA, WebArena) is ongoing.
+1. **Fine-tuning improves synthetic task performance**: Both 2B and 8B models show 2-3x improvement in action accuracy after fine-tuning on this specific task
+2. **On this synthetic benchmark, fine-tuned models outperform zero-shot API calls**: This is expected since the task is simple and the models are trained on it directly
+3. **Coordinate precision is learnable**: Fine-tuned models achieve low coordinate error on training distribution
+4. **API models struggle with custom action format**: Without fine-tuning on the specific DSL (CLICK/TYPE/DONE), API models have high format-error rates
-### 6.4 Set-of-Marks (SoM) Mode: 100% Accuracy
+### 6.4 Set-of-Marks (SoM) Mode: 100% Accuracy on Synthetic Benchmarks
-With **Set-of-Marks** visual prompting, fine-tuned Qwen3-VL-2B achieves **100% accuracy** on both login (6-step) and registration (12-step) scenarios:
+With **Set-of-Marks** visual prompting, fine-tuned Qwen3-VL-2B achieves **100% accuracy** on both login (6-step) and registration (12-step) synthetic scenarios. Note that these are controlled, toy benchmarks with a small number of UI elements:
 | Scenario | Steps | Elements | Action Acc | Element Acc | Episode Success |
 |----------|-------|----------|------------|-------------|-----------------|
@@ -826,6 +839,194 @@ uv run python -m openadapt_ml.cloud.local serve --port 8080 --open
 *View benchmark evaluation results with task-level filtering, success/failure status, and run comparison. Shows Claude achieving 30% on mock evaluation tasks (simulated environment for testing the pipeline - real WAA evaluation requires Windows VMs).*
+### 13.4 VM Monitoring Dashboard
+For managing Azure VMs used in benchmark evaluations, the `vm monitor` command provides a comprehensive dashboard:
+```bash
+# Start VM monitoring dashboard (auto-opens browser)
+uv run python -m openadapt_ml.benchmarks.cli vm monitor
+# Show detailed information (evaluation history, daily/weekly costs)
+uv run python -m openadapt_ml.benchmarks.cli vm monitor --details
+```
+**VM Monitor Dashboard (Full View):**
+![VM Monitor Dashboard](docs/screenshots/vm_monitor_dashboard_full.png)
+*The VM monitor dashboard shows: (1) VM status (name, IP, size, state), (2) Current activity (idle/benchmark running), (3) Cost tracking (uptime, hourly rate, total cost), (4) Recent Azure ML jobs from last 7 days, and (6) Dashboard & access URLs.*
+**VM Monitor Dashboard (With --details Flag):**
+![VM Monitor Dashboard Details](docs/screenshots/vm_monitor_details.png)
+*The --details flag adds: (5) Evaluation history with success rates and agent types, plus extended cost information (daily/weekly projections).*
+**Features:**
+- **Real-time VM status** - Shows VM size, power state, and IP address
+- **Activity detection** - Identifies if VM is idle, running benchmarks, or in setup
+- **Cost tracking** - Displays uptime hours, hourly rate, and total cost for current session
+- **Azure ML jobs** - Lists recent jobs from last 7 days with status indicators
+- **Evaluation history** - Shows past benchmark runs with success rates (with --details flag)
+- **Dashboard & tunnels** - Auto-starts web dashboard and SSH/VNC tunnels for accessing Windows VM
+**Mock mode for testing:**
+```bash
+# Generate screenshots or test dashboard without a VM running
+uv run python -m openadapt_ml.benchmarks.cli vm monitor --mock
+```
+**Auto-shutdown option:**
+```bash
+# Automatically deallocate VM after 2 hours to prevent runaway costs
+uv run python -m openadapt_ml.benchmarks.cli vm monitor --auto-shutdown-hours 2
+```
+### 13.5 Benchmark Execution Logs
+View benchmark execution progress and logs:
+```bash
+# View WAA container status and Docker logs
+uv run python -m openadapt_ml.benchmarks.cli logs
+# View WAA benchmark execution logs (task progress, agent actions)
+uv run python -m openadapt_ml.benchmarks.cli logs --run
+# Stream execution logs live
+uv run python -m openadapt_ml.benchmarks.cli logs --run -f
+# Show last N lines of execution logs
+uv run python -m openadapt_ml.benchmarks.cli logs --run --tail 100
+# Show benchmark progress and ETA
+uv run python -m openadapt_ml.benchmarks.cli logs --progress
+```
+**Example: Container status (`logs`)**
+```
+WAA Status (20.12.180.208)
+============================================================
+[Docker Images]
+REPOSITORY              TAG       SIZE
+waa-auto                latest    25.4GB
+windowsarena/winarena   latest    25.8GB
+[Container]
+  Status: Up 49 minutes
+[Storage]
+  Total: 21G
+  Disk image: 64G
+[QEMU VM]
+  Status: Running (PID 1471)
+  CPU: 176%, MEM: 51.6%, Uptime: 47:28
+[WAA Server]
+  "status": "Probe successful"
+ (READY)
+```
+**Example: Benchmark execution logs (`logs --run -f`)**
+```
+Run log: /home/azureuser/cli_logs/run_20260128_175507.log
+------------------------------------------------------------
+Streaming log (Ctrl+C to stop)...
+[2026-01-28 23:05:10,303 INFO agent/401-MainProcess] Thinking...
+[2026-01-28 23:05:17,318 INFO python/62-MainProcess] Updated computer successfully
+[2026-01-28 23:05:17,318 INFO lib_run_single/56-MainProcess] Step 9: computer.window_manager.switch_to_application("Summer Trip - File Explorer")
+```
+**Example: Benchmark progress (`logs --progress`)**
+```
+=== WAA Benchmark Progress ===
+Log: /home/azureuser/cli_logs/run_20260128_175507.log
+Started: 2026-01-28 22:55:14
+Latest:  2026-01-28 23:28:37
+Tasks completed: 1 / 154
+Elapsed: 33 minutes
+Avg time per task: ~33 min
+Remaining tasks: 153
+Estimated remaining: ~84h 9m
+Progress: 0% [1/154]
+```
+**Other useful commands:**
+```bash
+# Check WAA server status (probe endpoint)
+uv run python -m openadapt_ml.benchmarks.cli probe
+# Check VM/Azure status
+uv run python -m openadapt_ml.benchmarks.cli status
+# Download benchmark results from VM
+uv run python -m openadapt_ml.benchmarks.cli download
+# Analyze downloaded results
+uv run python -m openadapt_ml.benchmarks.cli analyze
+```
+**Running benchmarks:**
+```bash
+# Run full benchmark (154 tasks)
+uv run python -m openadapt_ml.benchmarks.cli run --num-tasks 154
+# Run specific domain
+uv run python -m openadapt_ml.benchmarks.cli run --domain notepad --num-tasks 5
+# Run single task
+uv run python -m openadapt_ml.benchmarks.cli run --task notepad_1
+```
+For complete VM management commands and Azure setup instructions, see [`CLAUDE.md`](CLAUDE.md) and [`docs/azure_waa_setup.md`](docs/azure_waa_setup.md).
+### 13.6 Screenshot Capture Tool
+Capture screenshots of dashboards and VMs for documentation and PR purposes:
+```bash
+# Capture all available targets
+uv run python -m openadapt_ml.benchmarks.cli screenshot
+# List available targets
+uv run python -m openadapt_ml.benchmarks.cli screenshot --list
+# Capture specific targets
+uv run python -m openadapt_ml.benchmarks.cli screenshot --target terminal
+uv run python -m openadapt_ml.benchmarks.cli screenshot --target azure-ops --target vnc
+# Custom output directory
+uv run python -m openadapt_ml.benchmarks.cli screenshot --output /path/to/screenshots
+# Without timestamp in filename
+uv run python -m openadapt_ml.benchmarks.cli screenshot --target terminal --no-timestamp
+```
+**Available targets:**
+| Target | Description |
+|--------|-------------|
+| `azure-ops` | Azure ops dashboard (localhost:8765) |
+| `vnc` | VNC viewer (localhost:8006) - Windows VM |
+| `terminal` | VM monitor terminal output (mock mode) |
+| `terminal-live` | VM monitor terminal output (live, requires running VM) |
+| `training` | Training dashboard (localhost:8080) |
+| `vm-screen` | Windows VM screen capture via QEMU |
+**Notes:**
+- Terminal screenshots use PIL to render terminal output as PNG images
+- Web page screenshots work best with playwright installed (`uv add playwright && playwright install chromium`)
+- On macOS, interactive capture using `screencapture` is available as a fallback
+- Screenshots are saved to `docs/screenshots/` by default with timestamps
 ---
 ## 14. Limitations & Notes

openadapt_ml-0.2.2.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,116 @@
+openadapt_ml/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+openadapt_ml/config.py,sha256=eH5WTKRPkkidjkNb25Wn_dUAizUQTsVPMYLDq_ekPJQ,1865
+openadapt_ml/baselines/__init__.py,sha256=psXRe8N-TTum0Io09miXQdPx4wxEFnmqjbamK6M-KaE,3137
+openadapt_ml/baselines/adapter.py,sha256=sfJuHfrr-o2jWwFEBKyujXvhzbZ9jHeO92CcqcQIysM,5975
+openadapt_ml/baselines/cli.py,sha256=T0LN2XcJcL-YingNxLoU3LCjDsjIoGyjFPX3xdPmfY4,7868
+openadapt_ml/baselines/config.py,sha256=R2mf-H687l6njQK4Ugyr7QMwjlk5vfUhgvsFDtW4ljY,14085
+openadapt_ml/baselines/parser.py,sha256=xMRFoqXdOYvO0bV92vGoUJ1Jewv_HzTcIjBg97SALb4,31191
+openadapt_ml/baselines/prompts.py,sha256=w7N2jrfmf-FYHfuv1vGT7QtXMF1Ahuy3uAsfjPoo6Ho,24453
+openadapt_ml/benchmarks/__init__.py,sha256=FaEGc7pRM-eLUXEEpJXcIckwkIWKhfaDkaxGM9VC4Os,877
+openadapt_ml/benchmarks/agent.py,sha256=8UcS9skCy6l18fGYaYt0JzJmYSGNB_WxDWhApbM7QH0,26940
+openadapt_ml/benchmarks/azure.py,sha256=dCrxi90X5NmFNMTT-2WG4AF3-IOO4zQs7yPpnqR-jLc,28238
+openadapt_ml/benchmarks/azure_ops_tracker.py,sha256=NOW21LPagOWIThSCIotI5cBvve92dtIktRIDLuyJ2CI,19309
+openadapt_ml/benchmarks/cli.py,sha256=t4cIGN68GdphCX0AGkWJa_M6D4oUO_M0rfJDzD_POGA,62730
+openadapt_ml/benchmarks/trace_export.py,sha256=Zx-pryEuLe734YHY8MgJsNdj3I3TcTY61OQ9iurgGB0,21746
+openadapt_ml/benchmarks/viewer.py,sha256=Jztt_IoDW1u0WjPqlikfR8dunYzj66xCx0bMDDzJHQ8,41586
+openadapt_ml/benchmarks/vm_monitor.py,sha256=FzmRrzqm0sZTcydfqMtRefBLfTr4fjoyWCxdHLovUj0,35733
+openadapt_ml/benchmarks/waa_deploy/Dockerfile,sha256=F4GzVUoAUHvGlTFj-gGIPSlncG-JIz1_JyeaHvTnLpA,10853
+openadapt_ml/benchmarks/waa_deploy/__init__.py,sha256=KV71HrrgETytfY0i4vFSi-yM0KjoQP2hd9Bl03cZ9yc,320
+openadapt_ml/benchmarks/waa_deploy/api_agent.py,sha256=A5ZFhtBTKz0Q1GarNV51JhkEJwAgJfm9tK4CTJ1UEnE,20040
+openadapt_ml/benchmarks/waa_deploy/start_waa_server.bat,sha256=YxgrSWh76zLijlpxEpulWf9To2JtJ-yR42lr2WyTXiY,1496
+openadapt_ml/cloud/__init__.py,sha256=XYrvxivJeZ8qYnuGod5kodMlm3iT2OK2GAApO3CNB0c,133
+openadapt_ml/cloud/azure_inference.py,sha256=2EQ9fCGJA2hzH7mEcSXVK1U2mO4PwBrQHxUCsGCDJVM,15696
+openadapt_ml/cloud/lambda_labs.py,sha256=NGjVHjpY2nO8F9dHHFi_CVjY1nAwk5kOiguOSSYZkCw,107872
+openadapt_ml/cloud/local.py,sha256=s3grqrpTkcT73tIoDt-HJonoCRwx0zBL7M8vSNYL3nU,166047
+openadapt_ml/cloud/ssh_tunnel.py,sha256=PTcyl9cDmbszTJbOD2MAj21AWXqoJt-2Iz26HAPdxRE,21740
+openadapt_ml/datasets/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+openadapt_ml/datasets/next_action.py,sha256=2u1fRtOQzYdWZ6N_ebmOtPqWL9LnDun5STGuLmkcxrE,21252
+openadapt_ml/evals/__init__.py,sha256=Kx7bSvPHwmoGVI3q1wS_lC17W2S32YHj0459JRqu6Ow,573
+openadapt_ml/evals/grounding.py,sha256=tqjNWdinbj190vt_mPdc_w452z0AwgR81FDhkmKjDvs,8542
+openadapt_ml/evals/plot_eval_metrics.py,sha256=GO-zhYpUJijb4Hp6fI-8lBR3TgjIDpCaOC4iQ-v9VO0,5259
+openadapt_ml/evals/trajectory_matching.py,sha256=eiWPjMZAAWFmdDwQHVM689I98Kw5ensnAJrfEo_QZZ4,20764
+openadapt_ml/experiments/demo_prompt/__init__.py,sha256=dwS0bI53jXMzHE-DPhb_mhmPdoqSZRIcNbV79wt8KPM,454
+openadapt_ml/experiments/demo_prompt/format_demo.py,sha256=baXgqR-oJG9_hanlDPcPYKdMFLw2KSxJ5ERvl3FAwZ8,6691
+openadapt_ml/experiments/demo_prompt/run_experiment.py,sha256=q_8k6WJeR50vrhS_jPmx_TkbPsk1OrTkwUrRkT_PqLM,16574
+openadapt_ml/experiments/demo_prompt/results/experiment_20251231_002125.json,sha256=08oryOF126toTQDN9xciodavvfsaWNnXuBs0aULwpfI,5326
+openadapt_ml/experiments/demo_prompt/results/experiment_n30_20251231_165958.json,sha256=u03VgYTQia_HzilzNjxdGLpUSdbo4SzmHqI-GXlvurg,26915
+openadapt_ml/experiments/demo_prompt/results/multistep_20251231_025051.json,sha256=FA1JgXXLor6on3lHlfJdNSuKzBca30ggH8IWSJEmmfA,11517
+openadapt_ml/experiments/representation_shootout/__init__.py,sha256=flQ8VdNGZ-Nc5sDofSPpGh65O9Iytwk-9DsOVmTMcHE,1874
+openadapt_ml/experiments/representation_shootout/conditions.py,sha256=77AUh2U1t1ZGTHNLoLUO0WDp_17hLp3uZMUkTb2JYow,22866
+openadapt_ml/experiments/representation_shootout/config.py,sha256=df29SNCSPYXsUK2aYQhvRpb9DtmKtoGmCDlp1rWafZU,13043
+openadapt_ml/experiments/representation_shootout/evaluator.py,sha256=ijza5ky-r0CVBfw-amyztX_122N5ZRZsy_rCzMWLELw,22947
+openadapt_ml/experiments/representation_shootout/runner.py,sha256=gvZkq3Opl_6i5pjc-danV-Q7PLLBdwMmnrwVxQ5fNlI,23413
+openadapt_ml/experiments/waa_demo/__init__.py,sha256=9M8iLxO9GWAw-FIB-0tzsqaweLcO5EVP1Sc5BoK16iU,363
+openadapt_ml/experiments/waa_demo/demos.py,sha256=UwO0EYy8wUEggaBaI_cXuYe_jwSB1hx3ZtPf-z9bhjc,13796
+openadapt_ml/experiments/waa_demo/runner.py,sha256=qe0iP6bvI65-FPpw6--yGZ83ASKKtTGlEL7EoO24MiM,24399
+openadapt_ml/experiments/waa_demo/tasks.py,sha256=jw1QwbOt8xmWBW2lmBWcJzKBXssjv_e0j49MlC2rVJY,5425
+openadapt_ml/export/__init__.py,sha256=mKehKHOio4jGcK-3r0-pb446GdKMPs0O9hAu4S0_R7s,266
+openadapt_ml/export/__main__.py,sha256=0ObtWcdzf6p7gPwhNlCKpNm2FIhmusdYNkuk8tyt77U,149
+openadapt_ml/export/cli.py,sha256=goTKNq9cOO9wsdNluLMH_-f9kdWShH3FPP8sCZ6KaPI,2331
+openadapt_ml/export/parquet.py,sha256=oQfyRAhUUS-EpiOWa7S7s8HaHibhfTSoNPYfKb2HDrA,9897
+openadapt_ml/grounding/__init__.py,sha256=uMvcALFRXmKD6PHhqLZ24Y6zhRUs46_PnWYqiqJP5cM,1412
+openadapt_ml/grounding/base.py,sha256=mnjT25nxltZCD0VBzgIgj2kuCcB4sgXBN97MBaW5P6c,7688
+openadapt_ml/grounding/detector.py,sha256=gu-clpHfHNsbeeVwuM54yxF23lAUPThOZStnOdq8-Es,19890
+openadapt_ml/ingest/__init__.py,sha256=P1Z9-rEBZC8wviMlmu6Fgc-R_83Ku7scVDs5YRejMVE,1481
+openadapt_ml/ingest/capture.py,sha256=hiUTbvGGF90KMUNof-z58azywNcHi-xJxQwHYIRb_4Q,10342
+openadapt_ml/ingest/loader.py,sha256=T3gE4EP-SYXmpeOFCK-VCku1lvzfa6AbPJ5hMBDdAVc,9866
+openadapt_ml/ingest/synthetic.py,sha256=ZX3eoMS08fpCFas07kYKUIMb7Bkp1zsaI9Bnuhis-I8,40482
+openadapt_ml/models/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+openadapt_ml/models/api_adapter.py,sha256=G7S847hmYl6AQ8_4oTP5aMV4YhYBN_k-Sj3RVo1w9Bs,6679
+openadapt_ml/models/base_adapter.py,sha256=vvasd-WhFxQNc2utqnXC_YMHABouXXNF4SwK9CUxpOc,2113
+openadapt_ml/models/dummy_adapter.py,sha256=h4Zu-rjWgtG1r8jRtcsrX-FZm8iImrhrTQ7TsLfjE8A,1581
+openadapt_ml/models/qwen_vl.py,sha256=0QcYqTraUMzT6W6No5aomeat9aUxpRqHai9aCX9-6dM,17652
+openadapt_ml/models/providers/__init__.py,sha256=SBd4ZDSi3tYf7DBxTUOFw66Qr15idjuk45TM0bGAKOQ,8216
+openadapt_ml/models/providers/anthropic.py,sha256=iUZceqn4yrD0s0FlMhgcENze4_AgJJ5u8du_1Ke7qy8,8348
+openadapt_ml/models/providers/base.py,sha256=iGVEYSdzP9w3WRE7LM_vbG9ESXWKoJ5qSLx-ZB2ZcOw,8178
+openadapt_ml/models/providers/google.py,sha256=OGXTaQwWonPy-3kLrBC8wLgIQytPtPDQiDkVqsUf70Y,12081
+openadapt_ml/models/providers/openai.py,sha256=1LJJoWxkVNouowebs_N7iI4i8iSCHAjKvPOSAovC3p0,10487
+openadapt_ml/perception/__init__.py,sha256=goR5qA_O7jvO8-gK5XPwib9TsqYfWIbljcmXao8mzRw,847
+openadapt_ml/perception/integration.py,sha256=F9X4ysYn2RdFN6Wh3rXt5kl-cq0tf_6KdFViz2lAAnA,13296
+openadapt_ml/retrieval/README.md,sha256=j4gXhTo6yH-5cuw4ER4174V-U6TQakOVT6Hj4kj7B0I,5696
+openadapt_ml/retrieval/USAGE.md,sha256=XDIrX-94Z5nC-wvnBY5yF5gTqUYixxCC3wwUFvQx5YM,9278
+openadapt_ml/retrieval/__init__.py,sha256=xocb84riKLUCezUioKssFRhAQsnvexh4W932o368_qg,2726
+openadapt_ml/retrieval/demo_retriever.py,sha256=C4pLZ0HaJGkZ9H3_pQdeQcaQOOAU_YzGukx79WaFyZI,29493
+openadapt_ml/retrieval/embeddings.py,sha256=B2tQq4VwN166H-P3s1kvOrhVlLvi4SAfXsMoxhXV8HE,19239
+openadapt_ml/retrieval/index.py,sha256=UBFnSxp5T5eKt2txFcd0FytKCw1qxONZfxnFJVrduRQ,5710
+openadapt_ml/retrieval/retriever.py,sha256=nDWeVLpfsHWWp2TE9dI_w56FebKI5bNXZPsh79BiQos,4609
+openadapt_ml/runtime/__init__.py,sha256=Lpu29HgUvAVPW_dkRHRkk18BeMHlwZD-gQ3dZYNGzGo,1294
+openadapt_ml/runtime/policy.py,sha256=RUB4AqObz-1FPpEZNQ-XUsmxro2RkgTJDAztzM2B_oE,6839
+openadapt_ml/runtime/safety_gate.py,sha256=qODkdgx4HB2t-NL_iGPQbDZ_9hR2SZso_nTQ6KuMSfo,16729
+openadapt_ml/schema/__init__.py,sha256=bL6Mi0z-qBV3cw-rfEaVP-sfzzZOvywO0H9IPWtSdN8,3097
+openadapt_ml/schema/converters.py,sha256=ftXPNngd27PkALQyqukMsGpHdpB2sWBOlVz69rGyNkM,19157
+openadapt_ml/schema/episode.py,sha256=2WFCdnIkcCRodvJiR6irmBaGhKzMB5XEQzS6iQJk2gY,15501
+openadapt_ml/scripts/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+openadapt_ml/scripts/capture_screenshots.py,sha256=qVxMuIBuH8jT035tQqjfqLRm6OkLhwRvoGBooPGm09E,15283
+openadapt_ml/scripts/compare.py,sha256=rPe_fQrHyINCbqkO9FXtjRsbQGwzlppEnmCK5YfGjgg,57316
+openadapt_ml/scripts/demo_policy.py,sha256=luALfaJhPIh5aFHXdubSMCzPJk04dNzwfdwcCJeNhUk,2120
+openadapt_ml/scripts/eval_policy.py,sha256=DHfQOIyO-mvrsA_zzlVEVwfsX1mLedFVsYvEpgITB5k,10397
+openadapt_ml/scripts/make_gif.py,sha256=fg6jX2BwW4CIVLfWvq3WHjDE5H7tbRYnhZOHSIxhGWo,4433
+openadapt_ml/scripts/prepare_synthetic.py,sha256=2luW436IejDDR2re73yUhtF5Zjf9McAqi2I0z4zs_CE,1123
+openadapt_ml/scripts/run_qwen_login_benchmark.py,sha256=NWIhCAFSX5pYKFRCec7RkrYtzvz2LNMqhDfXcKxlagM,5655
+openadapt_ml/scripts/train.py,sha256=1clpSt07fiMl1sMW57DO5Gco6LV8Oz2_SNGyiwRqcrQ,6759
+openadapt_ml/segmentation/README.md,sha256=lBb3bkOh5Je2Ba_3MMuhB0QUeY44zLROA_S5JTbf7So,26055
+openadapt_ml/segmentation/__init__.py,sha256=iodD7_Is5oLZm4oZttQd_CnLDofzRGbIhkCV1sgBjEU,2567
+openadapt_ml/segmentation/annotator.py,sha256=d50yyxk3HTY1vP_-WXl5aLdmFk3EkdmoMiTqlkIsL78,21648
+openadapt_ml/segmentation/cache.py,sha256=--1M4aoDdWOUYPBIfEnPdNkn9kfoECESs9JwNq5B_NQ,8696
+openadapt_ml/segmentation/cli.py,sha256=L3YbxqTKAE797RYoZj5mxB9s50F7onAnGjbp4GbN-1M,24187
+openadapt_ml/segmentation/deduplicator.py,sha256=aniwrp9IpcrMKfZh6Rx0Ihj_pu_4LepU_RT_eYiRGHI,22826
+openadapt_ml/segmentation/frame_describer.py,sha256=LhgrdEsQ_tMQE7GiwECXWVY0WozEC6Z1Pr8CRTqtINI,26963
+openadapt_ml/segmentation/pipeline.py,sha256=3ztfKt8xZ011xGL5rIIW6dmOyfJp7Af32XdgXuN-QYc,11890
+openadapt_ml/segmentation/schemas.py,sha256=HKf5ImcXRpjM1hB6vJ825OJjUF5QDA5ITSJwcZklscM,19989
+openadapt_ml/segmentation/segment_extractor.py,sha256=R2fI-sD5JsDE9Y3o4o9rpmldrq-TkRsmGrUJEg413vY,22213
+openadapt_ml/segmentation/adapters/__init__.py,sha256=QOLlVvzjmZJP0fhtEZ4yXCvnJSNbWHZP8pV56Zs_5e4,171
+openadapt_ml/segmentation/adapters/capture_adapter.py,sha256=8QDe9pyiRr3e2xuvvYowlNgBsz-NI3xepFL1ZFIAeAU,14353
+openadapt_ml/training/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+openadapt_ml/training/azure_ops_viewer.py,sha256=B_Tlye1Z86xdTwc99nGtPqQzcJoDYOU4n7bQI0L-D0E,37679
+openadapt_ml/training/benchmark_viewer.py,sha256=CVQa7c3rts_-a-xarwZ9EneR2i0G0n66f4RiK6wKcjg,174367
+openadapt_ml/training/shared_ui.py,sha256=Ghjpx02k_HuZsyyOnZo6LD08ZIHD5ze7fU4centDMNY,4823
+openadapt_ml/training/stub_provider.py,sha256=wyK4ApK88CCzgjZGl0jkNUrUfuSY-axA_XZMYzeeUpg,10932
+openadapt_ml/training/trainer.py,sha256=yGK79alY9Z0xGRQ2r9EaiWbzGlmE5WZJQL_2TWgc8jU,91358
+openadapt_ml/training/trl_trainer.py,sha256=AL1KFWXMub4vWE2w8eoAoQbSgm2fXO82CIqXULLYwVo,13223
+openadapt_ml/training/viewer.py,sha256=rXpREFbDK_tsu719VUej6iXrgnB8eNP0SEuvB9NUUhA,128104
+openadapt_ml/training/viewer_components.py,sha256=XilaX7r4YXFMT1QkooNnPWqR14SpsiTf7YbrN_g-Lq0,5478
+openadapt_ml-0.2.2.dist-info/METADATA,sha256=XNDolFy-sWkfPPCZ36qFRUwKzMRLk9WhzLMVufPp8i8,36696
+openadapt_ml-0.2.2.dist-info/WHEEL,sha256=WLgqFyCfm_KASv4WHyYy0P3pM_m7J5L9k2skdKLirC8,87
+openadapt_ml-0.2.2.dist-info/licenses/LICENSE,sha256=2E5UY67RVLedJuNnwGudkAMtfM3LZNUcHgmaL89TAfw,1068
+openadapt_ml-0.2.2.dist-info/RECORD,,

openadapt-ml 0.2.0__py3-none-any.whl → 0.2.2__py3-none-any.whl

openadapt-ml 0.2.0py3-none-any.whl → 0.2.2py3-none-any.whl