PyPI - openadapt-ml - Versions diffs - 0.2.0__py3-none-any.whl → 0.2.1__py3-none-any.whl - Mend

openadapt-ml 0.2.0py3-none-any.whl → 0.2.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (95) hide show

openadapt_ml/baselines/__init__.py +121 -0
openadapt_ml/baselines/adapter.py +185 -0
openadapt_ml/baselines/cli.py +314 -0
openadapt_ml/baselines/config.py +448 -0
openadapt_ml/baselines/parser.py +922 -0
openadapt_ml/baselines/prompts.py +787 -0
openadapt_ml/benchmarks/__init__.py +13 -115
openadapt_ml/benchmarks/agent.py +265 -421
openadapt_ml/benchmarks/azure.py +28 -19
openadapt_ml/benchmarks/azure_ops_tracker.py +521 -0
openadapt_ml/benchmarks/cli.py +1722 -4847
openadapt_ml/benchmarks/trace_export.py +631 -0
openadapt_ml/benchmarks/viewer.py +22 -5
openadapt_ml/benchmarks/vm_monitor.py +530 -29
openadapt_ml/benchmarks/waa_deploy/Dockerfile +47 -53
openadapt_ml/benchmarks/waa_deploy/api_agent.py +21 -20
openadapt_ml/cloud/azure_inference.py +3 -5
openadapt_ml/cloud/lambda_labs.py +722 -307
openadapt_ml/cloud/local.py +2038 -487
openadapt_ml/cloud/ssh_tunnel.py +68 -26
openadapt_ml/datasets/next_action.py +40 -30
openadapt_ml/evals/grounding.py +8 -3
openadapt_ml/evals/plot_eval_metrics.py +15 -13
openadapt_ml/evals/trajectory_matching.py +41 -26
openadapt_ml/experiments/demo_prompt/format_demo.py +16 -6
openadapt_ml/experiments/demo_prompt/run_experiment.py +26 -16
openadapt_ml/experiments/representation_shootout/__init__.py +70 -0
openadapt_ml/experiments/representation_shootout/conditions.py +708 -0
openadapt_ml/experiments/representation_shootout/config.py +390 -0
openadapt_ml/experiments/representation_shootout/evaluator.py +659 -0
openadapt_ml/experiments/representation_shootout/runner.py +687 -0
openadapt_ml/experiments/waa_demo/runner.py +29 -14
openadapt_ml/export/parquet.py +36 -24
openadapt_ml/grounding/detector.py +18 -14
openadapt_ml/ingest/__init__.py +8 -6
openadapt_ml/ingest/capture.py +25 -22
openadapt_ml/ingest/loader.py +7 -4
openadapt_ml/ingest/synthetic.py +189 -100
openadapt_ml/models/api_adapter.py +14 -4
openadapt_ml/models/base_adapter.py +10 -2
openadapt_ml/models/providers/__init__.py +288 -0
openadapt_ml/models/providers/anthropic.py +266 -0
openadapt_ml/models/providers/base.py +299 -0
openadapt_ml/models/providers/google.py +376 -0
openadapt_ml/models/providers/openai.py +342 -0
openadapt_ml/models/qwen_vl.py +46 -19
openadapt_ml/perception/__init__.py +35 -0
openadapt_ml/perception/integration.py +399 -0
openadapt_ml/retrieval/demo_retriever.py +50 -24
openadapt_ml/retrieval/embeddings.py +9 -8
openadapt_ml/retrieval/retriever.py +3 -1
openadapt_ml/runtime/__init__.py +50 -0
openadapt_ml/runtime/policy.py +18 -5
openadapt_ml/runtime/safety_gate.py +471 -0
openadapt_ml/schema/__init__.py +9 -0
openadapt_ml/schema/converters.py +74 -27
openadapt_ml/schema/episode.py +31 -18
openadapt_ml/scripts/capture_screenshots.py +530 -0
openadapt_ml/scripts/compare.py +85 -54
openadapt_ml/scripts/demo_policy.py +4 -1
openadapt_ml/scripts/eval_policy.py +15 -9
openadapt_ml/scripts/make_gif.py +1 -1
openadapt_ml/scripts/prepare_synthetic.py +3 -1
openadapt_ml/scripts/train.py +21 -9
openadapt_ml/segmentation/README.md +920 -0
openadapt_ml/segmentation/__init__.py +97 -0
openadapt_ml/segmentation/adapters/__init__.py +5 -0
openadapt_ml/segmentation/adapters/capture_adapter.py +420 -0
openadapt_ml/segmentation/annotator.py +610 -0
openadapt_ml/segmentation/cache.py +290 -0
openadapt_ml/segmentation/cli.py +674 -0
openadapt_ml/segmentation/deduplicator.py +656 -0
openadapt_ml/segmentation/frame_describer.py +788 -0
openadapt_ml/segmentation/pipeline.py +340 -0
openadapt_ml/segmentation/schemas.py +622 -0
openadapt_ml/segmentation/segment_extractor.py +634 -0
openadapt_ml/training/azure_ops_viewer.py +1097 -0
openadapt_ml/training/benchmark_viewer.py +52 -41
openadapt_ml/training/shared_ui.py +7 -7
openadapt_ml/training/stub_provider.py +57 -35
openadapt_ml/training/trainer.py +143 -86
openadapt_ml/training/trl_trainer.py +70 -21
openadapt_ml/training/viewer.py +323 -108
openadapt_ml/training/viewer_components.py +180 -0
{openadapt_ml-0.2.0.dist-info → openadapt_ml-0.2.1.dist-info}/METADATA +215 -14
openadapt_ml-0.2.1.dist-info/RECORD +116 -0
openadapt_ml/benchmarks/base.py +0 -366
openadapt_ml/benchmarks/data_collection.py +0 -432
openadapt_ml/benchmarks/live_tracker.py +0 -180
openadapt_ml/benchmarks/runner.py +0 -418
openadapt_ml/benchmarks/waa.py +0 -761
openadapt_ml/benchmarks/waa_live.py +0 -619
openadapt_ml-0.2.0.dist-info/RECORD +0 -86
{openadapt_ml-0.2.0.dist-info → openadapt_ml-0.2.1.dist-info}/WHEEL +0 -0
{openadapt_ml-0.2.0.dist-info → openadapt_ml-0.2.1.dist-info}/licenses/LICENSE +0 -0

openadapt_ml/models/providers/openai.py ADDED Viewed

@@ -0,0 +1,342 @@
+"""OpenAI (GPT) API provider.
+Supports GPT-5.2, GPT-5.1, GPT-4o, and other OpenAI models with vision.
+Implements the BaseAPIProvider interface for the Chat Completions API.
+"""
+from __future__ import annotations
+import logging
+from typing import TYPE_CHECKING, Any
+from openadapt_ml.models.providers.base import (
+    BaseAPIProvider,
+    AuthenticationError,
+    ModelNotFoundError,
+    ProviderError,
+    RateLimitError,
+)
+if TYPE_CHECKING:
+    from PIL import Image
+logger = logging.getLogger(__name__)
+# Default models
+DEFAULT_MODEL = "gpt-4o"
+# Supported models with their properties
+SUPPORTED_MODELS = {
+    "gpt-5.2": {"context": 128_000, "description": "Latest GPT model"},
+    "gpt-5.1": {"context": 128_000, "description": "Previous GPT-5"},
+    "gpt-4o": {"context": 128_000, "description": "Vision-capable, fast"},
+    "gpt-4o-mini": {"context": 128_000, "description": "Cheaper, fast"},
+    "gpt-4-turbo": {"context": 128_000, "description": "Previous gen turbo"},
+}
+class OpenAIProvider(BaseAPIProvider):
+    """Provider for OpenAI's GPT models.
+    Implements vision support via data URL encoded images in the Chat Completions API.
+    Supports both standard chat and vision-enabled models.
+    Supported models:
+        - gpt-5.2: Latest and most capable
+        - gpt-5.1: Previous generation GPT-5
+        - gpt-4o: Fast, vision-capable
+        - gpt-4o-mini: Cost-effective, vision-capable
+    Example:
+        >>> provider = OpenAIProvider()
+        >>> client = provider.create_client(api_key)
+        >>> response = provider.send_message(
+        ...     client,
+        ...     model="gpt-5.2",
+        ...     system="You are a GUI agent.",
+        ...     content=[
+        ...         {"type": "text", "text": "Click the submit button"},
+        ...         provider.encode_image(screenshot),
+        ...     ],
+        ... )
+    Note:
+        OpenAI uses data URLs for images (data:image/png;base64,...).
+        This differs from Anthropic's explicit source object format.
+    Attributes:
+        name: Returns 'openai'.
+    """
+    @property
+    def name(self) -> str:
+        """Provider name."""
+        return "openai"
+    @property
+    def env_key_name(self) -> str:
+        """Environment variable name for API key."""
+        return "OPENAI_API_KEY"
+    @property
+    def default_model(self) -> str:
+        """Default model to use."""
+        return DEFAULT_MODEL
+    @property
+    def supported_models(self) -> dict[str, dict[str, Any]]:
+        """Dictionary of supported models and their properties."""
+        return SUPPORTED_MODELS
+    def create_client(self, api_key: str) -> Any:
+        """Create OpenAI client.
+        Args:
+            api_key: OpenAI API key.
+        Returns:
+            OpenAI client instance.
+        Raises:
+            ImportError: If openai package not installed.
+            AuthenticationError: If API key is empty.
+        """
+        try:
+            from openai import OpenAI
+        except ImportError as e:
+            raise ImportError(
+                "openai package is required for provider='openai'. "
+                "Install with: uv add openai"
+            ) from e
+        if not api_key or not api_key.strip():
+            raise AuthenticationError(
+                "OpenAI API key cannot be empty. "
+                "Get a key from https://platform.openai.com/api-keys"
+            )
+        logger.debug("Creating OpenAI client")
+        return OpenAI(api_key=api_key)
+    def send_message(
+        self,
+        client: Any,
+        model: str,
+        system: str,
+        content: list[dict[str, Any]],
+        max_tokens: int = 1024,
+        temperature: float = 0.1,
+    ) -> str:
+        """Send message using OpenAI Chat Completions API.
+        Args:
+            client: OpenAI client from create_client().
+            model: Model ID (e.g., 'gpt-5.2', 'gpt-4o').
+            system: System prompt.
+            content: List of content blocks (text and images).
+            max_tokens: Max response tokens.
+            temperature: Sampling temperature (0.0-2.0 for OpenAI).
+        Returns:
+            Model response text.
+        Raises:
+            AuthenticationError: If API key is invalid.
+            RateLimitError: If rate limit exceeded.
+            ModelNotFoundError: If model doesn't exist.
+            ProviderError: For other API errors.
+        """
+        logger.debug(f"Sending message to {model} with {len(content)} content blocks")
+        messages = []
+        if system:
+            messages.append({"role": "system", "content": system})
+        messages.append({"role": "user", "content": content})
+        try:
+            response = client.chat.completions.create(
+                model=model,
+                messages=messages,
+                max_completion_tokens=max_tokens,
+                temperature=temperature,
+            )
+            result = response.choices[0].message.content or ""
+            logger.debug(f"Received response: {len(result)} chars")
+            return result
+        except Exception as e:
+            error_str = str(e).lower()
+            # Map common errors to specific exceptions
+            if (
+                "authentication" in error_str
+                or "api_key" in error_str
+                or "invalid_api_key" in error_str
+            ):
+                raise AuthenticationError(f"OpenAI authentication failed: {e}") from e
+            elif "rate_limit" in error_str or "429" in error_str:
+                raise RateLimitError(f"OpenAI rate limit exceeded: {e}") from e
+            elif "model_not_found" in error_str or "does not exist" in error_str:
+                raise ModelNotFoundError(f"Model '{model}' not found: {e}") from e
+            else:
+                raise ProviderError(f"OpenAI API error: {e}") from e
+    def encode_image(self, image: "Image") -> dict[str, Any]:
+        """Encode image for OpenAI API.
+        OpenAI uses data URLs for images in the format:
+        data:image/<type>;base64,<data>
+        Args:
+            image: PIL Image.
+        Returns:
+            Image content block for OpenAI API in format:
+            {
+                "type": "image_url",
+                "image_url": {
+                    "url": "data:image/png;base64,..."
+                }
+            }
+        """
+        base64_data = self.image_to_base64(image, "PNG")
+        return {
+            "type": "image_url",
+            "image_url": {
+                "url": f"data:image/png;base64,{base64_data}",
+            },
+        }
+    def encode_image_with_detail(
+        self,
+        image: "Image",
+        detail: str = "auto",
+    ) -> dict[str, Any]:
+        """Encode image with detail level specification.
+        OpenAI supports different detail levels for vision processing:
+        - "low": Fixed 512x512, 85 tokens, fast
+        - "high": Scaled up to 2048x2048, more tokens, detailed
+        - "auto": Let the model decide based on image size
+        Args:
+            image: PIL Image.
+            detail: Detail level ("low", "high", "auto").
+        Returns:
+            Image content block with detail specification.
+        """
+        base64_data = self.image_to_base64(image, "PNG")
+        return {
+            "type": "image_url",
+            "image_url": {
+                "url": f"data:image/png;base64,{base64_data}",
+                "detail": detail,
+            },
+        }
+    def encode_image_from_url(
+        self,
+        url: str,
+        detail: str = "auto",
+    ) -> dict[str, Any]:
+        """Create image content block from URL.
+        OpenAI natively supports URL-based images, so no fetching needed.
+        Args:
+            url: Image URL.
+            detail: Detail level ("low", "high", "auto").
+        Returns:
+            Image content block for OpenAI API.
+        """
+        return {
+            "type": "image_url",
+            "image_url": {
+                "url": url,
+                "detail": detail,
+            },
+        }
+    def encode_image_from_bytes(
+        self,
+        image_bytes: bytes,
+        media_type: str = "image/png",
+    ) -> dict[str, Any]:
+        """Encode raw image bytes for OpenAI API.
+        Args:
+            image_bytes: Raw image bytes.
+            media_type: MIME type of the image.
+        Returns:
+            Image content block for OpenAI API.
+        """
+        import base64
+        base64_data = base64.b64encode(image_bytes).decode("utf-8")
+        return {
+            "type": "image_url",
+            "image_url": {
+                "url": f"data:{media_type};base64,{base64_data}",
+            },
+        }
+    def send_with_tools(
+        self,
+        client: Any,
+        model: str,
+        messages: list[dict[str, Any]],
+        tools: list[dict[str, Any]],
+        tool_choice: str | dict[str, Any] = "auto",
+        max_tokens: int = 1024,
+        temperature: float = 0.1,
+    ) -> Any:
+        """Send message with function calling/tools support.
+        OpenAI supports function calling which can be useful for structured
+        action extraction in GUI automation.
+        Args:
+            client: OpenAI client.
+            model: Model ID.
+            messages: Chat messages.
+            tools: Tool definitions.
+            tool_choice: Tool choice strategy.
+            max_tokens: Max response tokens.
+            temperature: Sampling temperature.
+        Returns:
+            Raw API response (for tool call handling).
+        Example:
+            >>> tools = [{
+            ...     "type": "function",
+            ...     "function": {
+            ...         "name": "click",
+            ...         "parameters": {
+            ...             "type": "object",
+            ...             "properties": {
+            ...                 "x": {"type": "number"},
+            ...                 "y": {"type": "number"}
+            ...             }
+            ...         }
+            ...     }
+            ... }]
+            >>> response = provider.send_with_tools(client, model, messages, tools)
+        """
+        try:
+            return client.chat.completions.create(
+                model=model,
+                messages=messages,
+                tools=tools,
+                tool_choice=tool_choice,
+                max_completion_tokens=max_tokens,
+                temperature=temperature,
+            )
+        except Exception as e:
+            raise ProviderError(f"OpenAI tools API error: {e}") from e

openadapt_ml/models/qwen_vl.py CHANGED Viewed

@@ -2,15 +2,20 @@ from __future__ import annotations
 from typing import Any, Dict, List, Optional
-from PIL import Image
 import torch
 from peft import LoraConfig, PeftModel, get_peft_model
-from transformers import AutoProcessor, Qwen3VLForConditionalGeneration, Qwen2_5_VLForConditionalGeneration
+from transformers import (
+    AutoProcessor,
+    Qwen3VLForConditionalGeneration,
+    Qwen2_5_VLForConditionalGeneration,
+)
 from openadapt_ml.models.base_adapter import BaseVLMAdapter, get_default_device
-def _process_vision_info(messages: List[Dict[str, Any]]) -> tuple[list[list[Any]], list[list[Any]]]:
+def _process_vision_info(
+    messages: List[Dict[str, Any]],
+) -> tuple[list[list[Any]], list[list[Any]]]:
     """Minimal stand-in for qwen_vl_utils.process_vision_info.
     For our use case we only need to extract image/video entries from the
@@ -100,10 +105,12 @@ class QwenVLAdapter(BaseVLMAdapter):
         processor = AutoProcessor.from_pretrained(model_name)
         # Configure image resolution for faster training
-        if max_pixels is not None and hasattr(processor, 'image_processor'):
+        if max_pixels is not None and hasattr(processor, "image_processor"):
             processor.image_processor.max_pixels = max_pixels
-            print(f"Set max_pixels to {max_pixels} ({int(max_pixels**0.5)}x{int(max_pixels**0.5)} approx)")
-        if min_pixels is not None and hasattr(processor, 'image_processor'):
+            print(
+                f"Set max_pixels to {max_pixels} ({int(max_pixels**0.5)}x{int(max_pixels**0.5)} approx)"
+            )
+        if min_pixels is not None and hasattr(processor, "image_processor"):
             processor.image_processor.min_pixels = min_pixels
         model_kwargs: Dict[str, Any] = {}
@@ -121,7 +128,9 @@ class QwenVLAdapter(BaseVLMAdapter):
         if lora_config is not None:
             if isinstance(lora_config, dict):
                 lora_weights_path = lora_config.get("weights_path")
-                lora_cfg_clean = {k: v for k, v in lora_config.items() if k != "weights_path"}
+                lora_cfg_clean = {
+                    k: v for k, v in lora_config.items() if k != "weights_path"
+                }
             else:
                 lora_cfg_clean = lora_config
@@ -184,10 +193,12 @@ class QwenVLAdapter(BaseVLMAdapter):
                     },
                 ]
                 if assistant_text:
-                    qwen_messages_full.append({
-                        "role": "assistant",
-                        "content": [{"type": "text", "text": assistant_text}],
-                    })
+                    qwen_messages_full.append(
+                        {
+                            "role": "assistant",
+                            "content": [{"type": "text", "text": assistant_text}],
+                        }
+                    )
                 batch_messages_full.append(qwen_messages_full)
                 # User-only messages (for label masking)
@@ -250,7 +261,11 @@ class QwenVLAdapter(BaseVLMAdapter):
                     # Padding token is typically 0 or a special value
                     # For Qwen, we look for the first occurrence of pad token
                     pad_token_id = self.processor.tokenizer.pad_token_id
-                    user_ids_no_pad = user_ids[user_ids != pad_token_id] if pad_token_id is not None else user_ids
+                    user_ids_no_pad = (
+                        user_ids[user_ids != pad_token_id]
+                        if pad_token_id is not None
+                        else user_ids
+                    )
                     user_len = len(user_ids_no_pad)
                     # Check if user sequence is a prefix of full sequence
@@ -261,7 +276,10 @@ class QwenVLAdapter(BaseVLMAdapter):
                         labels[i, user_len:] = full_ids[user_len:]
             # Ensure padding tokens are masked in labels
-            if hasattr(self.processor.tokenizer, 'pad_token_id') and self.processor.tokenizer.pad_token_id is not None:
+            if (
+                hasattr(self.processor.tokenizer, "pad_token_id")
+                and self.processor.tokenizer.pad_token_id is not None
+            ):
                 labels[input_ids_full == self.processor.tokenizer.pad_token_id] = -100
             inputs_full["labels"] = labels
@@ -300,10 +318,12 @@ class QwenVLAdapter(BaseVLMAdapter):
                     }
                 ]
                 if assistant_text:
-                    qwen_messages.append({
-                        "role": "assistant",
-                        "content": [{"type": "text", "text": assistant_text}],
-                    })
+                    qwen_messages.append(
+                        {
+                            "role": "assistant",
+                            "content": [{"type": "text", "text": assistant_text}],
+                        }
+                    )
                 batch_messages.append(qwen_messages)
@@ -339,14 +359,20 @@ class QwenVLAdapter(BaseVLMAdapter):
             labels = input_ids.clone()
             # Mask padding tokens
-            if hasattr(self.processor.tokenizer, 'pad_token_id') and self.processor.tokenizer.pad_token_id is not None:
+            if (
+                hasattr(self.processor.tokenizer, "pad_token_id")
+                and self.processor.tokenizer.pad_token_id is not None
+            ):
                 labels[input_ids == self.processor.tokenizer.pad_token_id] = -100
             inputs["labels"] = labels
             return inputs
     def compute_loss(self, inputs: Dict[str, Any]) -> torch.Tensor:  # type: ignore[override]
-        inputs = {k: v.to(self.device) if isinstance(v, torch.Tensor) else v for k, v in inputs.items()}
+        inputs = {
+            k: v.to(self.device) if isinstance(v, torch.Tensor) else v
+            for k, v in inputs.items()
+        }
         outputs = self.model(**inputs)
         # Hugging Face causal LM models return `loss` when `labels` are provided.
         return outputs.loss  # type: ignore[no-any-return]
@@ -420,6 +446,7 @@ class QwenVLAdapter(BaseVLMAdapter):
     def save_checkpoint(self, path: str) -> None:
         """Save the LoRA adapter weights to a directory."""
         from pathlib import Path
         save_path = Path(path)
         save_path.mkdir(parents=True, exist_ok=True)
         # Save the PEFT adapter (LoRA weights only, not base model)

openadapt_ml/perception/__init__.py ADDED Viewed

@@ -0,0 +1,35 @@
+"""
+Perception Integration Module
+Bridges openadapt-grounding (UI element detection) with openadapt-ml (ML schema).
+This module provides:
+- UIElementGraph: A wrapper class for parsed UI elements
+- Conversion utilities between grounding types and ML schema types
+Usage:
+    from openadapt_ml.perception import UIElementGraph
+    # From parser output
+    graph = UIElementGraph.from_parser_output(elements, source="omniparser")
+    # Access elements
+    for element in graph.elements:
+        print(f"{element.role}: {element.name}")
+Requires:
+    pip install openadapt-grounding
+    # or: uv add openadapt-grounding
+"""
+from openadapt_ml.perception.integration import (
+    UIElementGraph,
+    element_to_ui_element,
+    ui_element_to_element,
+)
+__all__ = [
+    "UIElementGraph",
+    "element_to_ui_element",
+    "ui_element_to_element",
+]

openadapt-ml 0.2.0__py3-none-any.whl → 0.2.1__py3-none-any.whl

openadapt-ml 0.2.0py3-none-any.whl → 0.2.1py3-none-any.whl