PyPI - hud-python - Versions diffs - 0.4.1__py3-none-any.whl → 0.4.3__py3-none-any.whl - Mend

hud-python 0.4.1py3-none-any.whl → 0.4.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of hud-python might be problematic. Click here for more details.

Files changed (130) hide show

hud/__init__.py +22 -22
hud/agents/__init__.py +13 -15
hud/agents/base.py +599 -599
hud/agents/claude.py +373 -373
hud/agents/langchain.py +261 -250
hud/agents/misc/__init__.py +7 -7
hud/agents/misc/response_agent.py +82 -80
hud/agents/openai.py +352 -352
hud/agents/openai_chat_generic.py +154 -154
hud/agents/tests/__init__.py +1 -1
hud/agents/tests/test_base.py +742 -742
hud/agents/tests/test_claude.py +324 -324
hud/agents/tests/test_client.py +363 -363
hud/agents/tests/test_openai.py +237 -237
hud/cli/__init__.py +617 -617
hud/cli/__main__.py +8 -8
hud/cli/analyze.py +371 -371
hud/cli/analyze_metadata.py +230 -230
hud/cli/build.py +498 -427
hud/cli/clone.py +185 -185
hud/cli/cursor.py +92 -92
hud/cli/debug.py +392 -392
hud/cli/docker_utils.py +83 -83
hud/cli/init.py +280 -281
hud/cli/interactive.py +353 -353
hud/cli/mcp_server.py +764 -756
hud/cli/pull.py +330 -336
hud/cli/push.py +404 -370
hud/cli/remote_runner.py +311 -311
hud/cli/runner.py +160 -160
hud/cli/tests/__init__.py +3 -3
hud/cli/tests/test_analyze.py +284 -284
hud/cli/tests/test_cli_init.py +265 -265
hud/cli/tests/test_cli_main.py +27 -27
hud/cli/tests/test_clone.py +142 -142
hud/cli/tests/test_cursor.py +253 -253
hud/cli/tests/test_debug.py +453 -453
hud/cli/tests/test_mcp_server.py +139 -139
hud/cli/tests/test_utils.py +388 -388
hud/cli/utils.py +263 -263
hud/clients/README.md +143 -143
hud/clients/__init__.py +16 -16
hud/clients/base.py +378 -379
hud/clients/fastmcp.py +222 -222
hud/clients/mcp_use.py +298 -278
hud/clients/tests/__init__.py +1 -1
hud/clients/tests/test_client_integration.py +111 -111
hud/clients/tests/test_fastmcp.py +342 -342
hud/clients/tests/test_protocol.py +188 -188
hud/clients/utils/__init__.py +1 -1
hud/clients/utils/retry_transport.py +160 -160
hud/datasets.py +327 -322
hud/misc/__init__.py +1 -1
hud/misc/claude_plays_pokemon.py +292 -292
hud/otel/__init__.py +35 -35
hud/otel/collector.py +142 -142
hud/otel/config.py +164 -164
hud/otel/context.py +536 -536
hud/otel/exporters.py +366 -366
hud/otel/instrumentation.py +97 -97
hud/otel/processors.py +118 -118
hud/otel/tests/__init__.py +1 -1
hud/otel/tests/test_processors.py +197 -197
hud/server/__init__.py +5 -5
hud/server/context.py +114 -114
hud/server/helper/__init__.py +5 -5
hud/server/low_level.py +132 -132
hud/server/server.py +170 -166
hud/server/tests/__init__.py +3 -3
hud/settings.py +73 -73
hud/shared/__init__.py +5 -5
hud/shared/exceptions.py +180 -180
hud/shared/requests.py +264 -264
hud/shared/tests/test_exceptions.py +157 -157
hud/shared/tests/test_requests.py +275 -275
hud/telemetry/__init__.py +25 -25
hud/telemetry/instrument.py +379 -379
hud/telemetry/job.py +309 -309
hud/telemetry/replay.py +74 -74
hud/telemetry/trace.py +83 -83
hud/tools/__init__.py +33 -33
hud/tools/base.py +365 -365
hud/tools/bash.py +161 -161
hud/tools/computer/__init__.py +15 -15
hud/tools/computer/anthropic.py +437 -437
hud/tools/computer/hud.py +376 -376
hud/tools/computer/openai.py +295 -295
hud/tools/computer/settings.py +82 -82
hud/tools/edit.py +314 -314
hud/tools/executors/__init__.py +30 -30
hud/tools/executors/base.py +539 -539
hud/tools/executors/pyautogui.py +621 -621
hud/tools/executors/tests/__init__.py +1 -1
hud/tools/executors/tests/test_base_executor.py +338 -338
hud/tools/executors/tests/test_pyautogui_executor.py +165 -165
hud/tools/executors/xdo.py +511 -511
hud/tools/playwright.py +412 -412
hud/tools/tests/__init__.py +3 -3
hud/tools/tests/test_base.py +282 -282
hud/tools/tests/test_bash.py +158 -158
hud/tools/tests/test_bash_extended.py +197 -197
hud/tools/tests/test_computer.py +425 -425
hud/tools/tests/test_computer_actions.py +34 -34
hud/tools/tests/test_edit.py +259 -259
hud/tools/tests/test_init.py +27 -27
hud/tools/tests/test_playwright_tool.py +183 -183
hud/tools/tests/test_tools.py +145 -145
hud/tools/tests/test_utils.py +156 -156
hud/tools/types.py +72 -72
hud/tools/utils.py +50 -50
hud/types.py +136 -136
hud/utils/__init__.py +10 -10
hud/utils/async_utils.py +65 -65
hud/utils/design.py +236 -168
hud/utils/mcp.py +55 -55
hud/utils/progress.py +149 -149
hud/utils/telemetry.py +66 -66
hud/utils/tests/test_async_utils.py +173 -173
hud/utils/tests/test_init.py +17 -17
hud/utils/tests/test_progress.py +261 -261
hud/utils/tests/test_telemetry.py +82 -82
hud/utils/tests/test_version.py +8 -8
hud/version.py +7 -7
{hud_python-0.4.1.dist-info → hud_python-0.4.3.dist-info}/METADATA +10 -8
hud_python-0.4.3.dist-info/RECORD +131 -0
{hud_python-0.4.1.dist-info → hud_python-0.4.3.dist-info}/licenses/LICENSE +21 -21
hud/agents/art.py +0 -101
hud_python-0.4.1.dist-info/RECORD +0 -132
{hud_python-0.4.1.dist-info → hud_python-0.4.3.dist-info}/WHEEL +0 -0
{hud_python-0.4.1.dist-info → hud_python-0.4.3.dist-info}/entry_points.txt +0 -0

hud/tools/executors/pyautogui.py CHANGED Viewed

@@ -1,621 +1,621 @@
-from __future__ import annotations
-import asyncio
-import base64
-import logging
-import os
-from io import BytesIO
-from typing import Any, Literal
-from hud.tools.types import ContentResult
-from .base import BaseExecutor
-logger = logging.getLogger(__name__)
-# Lazy loading for pyautogui
-_pyautogui = None
-_pyautogui_available = None
-def _get_pyautogui() -> Any | None:
-    """Lazily import and return pyautogui module."""
-    global _pyautogui, _pyautogui_available
-    if _pyautogui_available is False:
-        return None
-    if _pyautogui is None:
-        # Set display if not already set
-        if "DISPLAY" not in os.environ:
-            try:
-                from hud.tools.computer import computer_settings
-                os.environ["DISPLAY"] = str(computer_settings.DISPLAY_NUM)
-            except (ImportError, AttributeError):
-                os.environ["DISPLAY"] = ":0"
-        try:
-            import pyautogui  # type: ignore[import-not-found]
-            _pyautogui = pyautogui
-            _pyautogui_available = True
-            # Configure PyAutoGUI settings
-            _pyautogui.FAILSAFE = False  # Disable fail-safe feature
-            _pyautogui.PAUSE = 0.1  # Small pause between actions
-        except ImportError:
-            _pyautogui_available = False
-            logger.warning("PyAutoGUI is not available")
-            return None
-        except Exception as e:
-            _pyautogui_available = False
-            logger.warning("Failed to initialize PyAutoGUI: %s", e)
-            return None
-    return _pyautogui
-# Map CLA standard keys to PyAutoGUI keys (only where they differ)
-CLA_TO_PYAUTOGUI = {
-    # Most keys are the same in PyAutoGUI, only map the differences
-    "escape": "esc",
-    "enter": "return",
-    "pageup": "pgup",
-    "pagedown": "pgdn",
-    "printscreen": "prtscr",
-    "prtsc": "prtscr",
-    "super": "win",
-    "command": "cmd",
-}
-class PyAutoGUIExecutor(BaseExecutor):
-    """
-    Cross-platform executor using PyAutoGUI.
-    Works on Windows, macOS, and Linux.
-    This executor should only be instantiated when PyAutoGUI is available and functional.
-    """
-    def __init__(self, display_num: int | None = None) -> None:
-        """
-        Initialize the executor.
-        Args:
-            display_num: X display number (used only on Linux, ignored on Windows/macOS)
-        """
-        super().__init__(display_num)
-        self._pyautogui = None
-        logger.info("PyAutoGUIExecutor initialized")
-    @property
-    def pyautogui(self) -> Any:
-        """Get the pyautogui module, importing it lazily if needed."""
-        if self._pyautogui is None:
-            self._pyautogui = _get_pyautogui()
-            if self._pyautogui is None:
-                raise RuntimeError("PyAutoGUI is not available")
-        return self._pyautogui
-    def _map_key(self, key: str) -> str:
-        """Map CLA standard key to PyAutoGUI key."""
-        return CLA_TO_PYAUTOGUI.get(key.lower(), key.lower())
-    def _map_keys(self, keys: list[str]) -> list[str]:
-        """Map CLA standard keys to PyAutoGUI keys."""
-        mapped_keys = []
-        for key in keys:
-            # Handle key combinations like "ctrl+a"
-            if "+" in key:
-                parts = key.split("+")
-                mapped_parts = [self._map_key(part) for part in parts]
-                mapped_keys.append("+".join(mapped_parts))
-            else:
-                mapped_keys.append(self._map_key(key))
-        return mapped_keys
-    @classmethod
-    def is_available(cls) -> bool:
-        """
-        Check if PyAutoGUI is available and functional.
-        Returns:
-            True if PyAutoGUI is available and functional, False otherwise
-        """
-        pyautogui = _get_pyautogui()
-        if not pyautogui:
-            return False
-        try:
-            # Try to get screen size as a simple test
-            pyautogui.size()
-            return True
-        except Exception:
-            return False
-    async def screenshot(self) -> str | None:
-        """
-        Take a screenshot and return base64 encoded image.
-        Returns:
-            Base64 encoded PNG image or None if failed
-        """
-        try:
-            # Take screenshot using PyAutoGUI
-            screenshot = self.pyautogui.screenshot()
-            # Convert to base64
-            buffer = BytesIO()
-            screenshot.save(buffer, format="PNG")
-            image_data = buffer.getvalue()
-            return base64.b64encode(image_data).decode()
-        except Exception as e:
-            logger.error("Failed to take screenshot: %s", e)
-            return None
-    # ===== Helper Methods =====
-    def _hold_keys_context(self, keys: list[str] | None) -> None:
-        """
-        Press and hold keys.
-        Args:
-            keys: List of keys to hold
-        """
-        if keys:
-            for key in keys:
-                self.pyautogui.keyDown(key)
-    def _release_keys(self, keys: list[str] | None) -> None:
-        """Release held keys."""
-        if keys:
-            for key in reversed(keys):  # Release in reverse order
-                self.pyautogui.keyUp(key)
-    # ===== CLA Action Implementations =====
-    async def click(
-        self,
-        x: int | None = None,
-        y: int | None = None,
-        button: Literal["left", "right", "middle", "back", "forward"] = "left",
-        pattern: list[int] | None = None,
-        hold_keys: list[str] | None = None,
-        take_screenshot: bool = True,
-    ) -> ContentResult:
-        """Click at specified coordinates or current position."""
-        try:
-            # Map button names (PyAutoGUI doesn't support back/forward)
-            button_map = {
-                "left": "left",
-                "right": "right",
-                "middle": "middle",
-                "back": "left",
-                "forward": "right",
-            }  # Fallback for unsupported
-            button_name = button_map.get(button, "left")
-            # Hold keys if specified
-            self._hold_keys_context(hold_keys)
-            try:
-                # Handle multi-clicks based on pattern
-                if pattern:
-                    clicks = len(pattern) + 1
-                    interval = pattern[0] / 1000.0 if pattern else 0.1  # Convert ms to seconds
-                    if x is not None and y is not None:
-                        self.pyautogui.click(
-                            x=x, y=y, clicks=clicks, interval=interval, button=button_name
-                        )
-                    else:
-                        self.pyautogui.click(clicks=clicks, interval=interval, button=button_name)
-                else:
-                    # Single click
-                    if x is not None and y is not None:
-                        self.pyautogui.click(x=x, y=y, button=button_name)
-                    else:
-                        self.pyautogui.click(button=button_name)
-            finally:
-                # Release held keys
-                self._release_keys(hold_keys)
-            result = ContentResult(
-                output=f"Clicked {button} button at ({x}, {y})" if x else f"Clicked {button} button"
-            )
-            if take_screenshot:
-                await asyncio.sleep(self._screenshot_delay)
-                screenshot = await self.screenshot()
-                if screenshot:
-                    result = ContentResult(
-                        output=result.output, error=result.error, base64_image=screenshot
-                    )
-            return result
-        except Exception as e:
-            return ContentResult(error=str(e))
-    async def write(
-        self, text: str, enter_after: bool = False, delay: int = 12, take_screenshot: bool = True
-    ) -> ContentResult:
-        """Type text with specified delay between keystrokes."""
-        try:
-            # Convert delay from milliseconds to seconds for PyAutoGUI
-            interval = delay / 1000.0
-            self.pyautogui.typewrite(text, interval=interval)
-            if enter_after:
-                self.pyautogui.press("enter")
-            result = ContentResult(
-                output=f"Typed: '{text}'" + (" and pressed Enter" if enter_after else "")
-            )
-            if take_screenshot:
-                await asyncio.sleep(self._screenshot_delay)
-                screenshot = await self.screenshot()
-                if screenshot:
-                    result = ContentResult(
-                        output=result.output, error=result.error, base64_image=screenshot
-                    )
-            return result
-        except Exception as e:
-            return ContentResult(error=str(e))
-    async def key(self, key_sequence: str, take_screenshot: bool = True) -> ContentResult:
-        """Press a key or key combination."""
-        try:
-            # Handle key combinations (e.g., "ctrl+c")
-            if "+" in key_sequence:
-                keys = key_sequence.split("+")
-                self.pyautogui.hotkey(*keys)
-                result = ContentResult(output=f"Pressed hotkey: {key_sequence}")
-            else:
-                # Map common key names from xdotool to PyAutoGUI
-                key = key_sequence.lower()
-                self.pyautogui.press(CLA_TO_PYAUTOGUI.get(key, key))
-                result = ContentResult(output=f"Pressed key: {key_sequence}")
-            if take_screenshot:
-                await asyncio.sleep(self._screenshot_delay)
-                screenshot = await self.screenshot()
-                if screenshot:
-                    result = ContentResult(
-                        output=result.output, error=result.error, base64_image=screenshot
-                    )
-            return result
-        except Exception as e:
-            return ContentResult(error=str(e))
-    async def press(self, keys: list[str], take_screenshot: bool = True) -> ContentResult:
-        """Press a key combination (hotkey)."""
-        try:
-            # Map CLA keys to PyAutoGUI keys
-            mapped_keys = self._map_keys(keys)
-            # Handle single key or combination
-            if len(mapped_keys) == 1 and "+" not in mapped_keys[0]:
-                self.pyautogui.press(mapped_keys[0])
-                result = ContentResult(output=f"Pressed key: {keys[0]}")
-            else:
-                # For combinations, use hotkey
-                hotkey_parts = []
-                for key in mapped_keys:
-                    if "+" in key:
-                        hotkey_parts.extend(key.split("+"))
-                    else:
-                        hotkey_parts.append(key)
-                self.pyautogui.hotkey(*hotkey_parts)
-                result = ContentResult(output=f"Pressed hotkey: {'+'.join(keys)}")
-            if take_screenshot:
-                await asyncio.sleep(self._screenshot_delay)
-                screenshot = await self.screenshot()
-                if screenshot:
-                    result = ContentResult(
-                        output=result.output, error=result.error, base64_image=screenshot
-                    )
-            return result
-        except Exception as e:
-            return ContentResult(error=str(e))
-    async def keydown(self, keys: list[str], take_screenshot: bool = True) -> ContentResult:
-        """Press and hold keys."""
-        try:
-            # Map CLA keys to PyAutoGUI keys
-            mapped_keys = self._map_keys(keys)
-            for key in mapped_keys:
-                self.pyautogui.keyDown(key)
-            result = ContentResult(output=f"Keys down: {', '.join(keys)}")
-            if take_screenshot:
-                await asyncio.sleep(self._screenshot_delay)
-                screenshot = await self.screenshot()
-                if screenshot:
-                    result = ContentResult(
-                        output=result.output, error=result.error, base64_image=screenshot
-                    )
-            return result
-        except Exception as e:
-            return ContentResult(error=str(e))
-    async def keyup(self, keys: list[str], take_screenshot: bool = True) -> ContentResult:
-        """Release held keys."""
-        try:
-            # Map CLA keys to PyAutoGUI keys
-            mapped_keys = self._map_keys(keys)
-            for key in reversed(mapped_keys):  # Release in reverse order
-                self.pyautogui.keyUp(key)
-            result = ContentResult(output=f"Keys up: {', '.join(keys)}")
-            if take_screenshot:
-                await asyncio.sleep(self._screenshot_delay)
-                screenshot = await self.screenshot()
-                if screenshot:
-                    result = ContentResult(
-                        output=result.output, error=result.error, base64_image=screenshot
-                    )
-            return result
-        except Exception as e:
-            return ContentResult(error=str(e))
-    async def scroll(
-        self,
-        x: int | None = None,
-        y: int | None = None,
-        scroll_x: int | None = None,
-        scroll_y: int | None = None,
-        hold_keys: list[str] | None = None,
-        take_screenshot: bool = True,
-    ) -> ContentResult:
-        """Scroll at specified position."""
-        try:
-            # Move to position if specified
-            if x is not None and y is not None:
-                self.pyautogui.moveTo(x, y)
-            # Hold keys if specified
-            self._hold_keys_context(hold_keys)
-            try:
-                msg_parts = []
-                # Perform vertical scroll
-                if scroll_y and scroll_y != 0:
-                    # PyAutoGUI: positive = up, negative = down (opposite of our convention)
-                    self.pyautogui.scroll(-scroll_y)
-                    msg_parts.append(f"vertically by {scroll_y}")
-                # Perform horizontal scroll (if supported)
-                if scroll_x and scroll_x != 0:
-                    # PyAutoGUI horizontal scroll might not work on all platforms
-                    try:
-                        self.pyautogui.hscroll(scroll_x)
-                        msg_parts.append(f"horizontally by {scroll_x}")
-                    except AttributeError:
-                        # hscroll not available
-                        msg_parts.append(f"horizontally by {scroll_x} (not supported)")
-                if not msg_parts:
-                    return ContentResult(output="No scroll amount specified")
-                msg = "Scrolled " + " and ".join(msg_parts)
-                if x is not None and y is not None:
-                    msg += f" at ({x}, {y})"
-                if hold_keys:
-                    msg += f" while holding {hold_keys}"
-            finally:
-                # Release held keys
-                self._release_keys(hold_keys)
-            result = ContentResult(output=msg)
-            if take_screenshot:
-                await asyncio.sleep(self._screenshot_delay)
-                screenshot = await self.screenshot()
-                if screenshot:
-                    result = ContentResult(
-                        output=result.output, error=result.error, base64_image=screenshot
-                    )
-            return result
-        except Exception as e:
-            return ContentResult(error=str(e))
-    async def move(
-        self,
-        x: int | None = None,
-        y: int | None = None,
-        offset_x: int | None = None,
-        offset_y: int | None = None,
-        take_screenshot: bool = True,
-    ) -> ContentResult:
-        """Move mouse cursor."""
-        try:
-            if x is not None and y is not None:
-                # Absolute move
-                self.pyautogui.moveTo(x, y, duration=0.1)
-                result = ContentResult(output=f"Moved mouse to ({x}, {y})")
-            elif offset_x is not None or offset_y is not None:
-                # Relative move
-                offset_x = offset_x or 0
-                offset_y = offset_y or 0
-                self.pyautogui.moveRel(xOffset=offset_x, yOffset=offset_y, duration=0.1)
-                result = ContentResult(output=f"Moved mouse by offset ({offset_x}, {offset_y})")
-            else:
-                return ContentResult(output="No move coordinates specified")
-            if take_screenshot:
-                await asyncio.sleep(self._screenshot_delay)
-                screenshot = await self.screenshot()
-                if screenshot:
-                    result = ContentResult(
-                        output=result.output, error=result.error, base64_image=screenshot
-                    )
-            return result
-        except Exception as e:
-            return ContentResult(error=str(e))
-    async def drag(
-        self,
-        path: list[tuple[int, int]],
-        pattern: list[int] | None = None,
-        hold_keys: list[str] | None = None,
-        take_screenshot: bool = True,
-    ) -> ContentResult:
-        """Drag along a path."""
-        if len(path) < 2:
-            return ContentResult(error="Drag path must have at least 2 points")
-        try:
-            # Hold keys if specified
-            self._hold_keys_context(hold_keys)
-            try:
-                # Move to start
-                start_x, start_y = path[0]
-                self.pyautogui.moveTo(start_x, start_y)
-                # Handle multi-point drag
-                if len(path) == 2:
-                    # Simple drag
-                    end_x, end_y = path[1]
-                    self.pyautogui.dragTo(end_x, end_y, duration=0.5, button="left")
-                    result = ContentResult(
-                        output=f"Dragged from ({start_x}, {start_y}) to ({end_x}, {end_y})"
-                    )
-                else:
-                    # Multi-point drag
-                    self.pyautogui.mouseDown(button="left")
-                    for i, (x, y) in enumerate(path[1:], 1):
-                        duration = 0.1
-                        if pattern and i - 1 < len(pattern):
-                            duration = pattern[i - 1] / 1000.0  # Convert ms to seconds
-                        self.pyautogui.moveTo(x, y, duration=duration)
-                    self.pyautogui.mouseUp(button="left")
-                    result = ContentResult(output=f"Dragged along {len(path)} points")
-                if hold_keys:
-                    result = ContentResult(output=f"{result.output} while holding {hold_keys}")
-            finally:
-                # Release held keys
-                self._release_keys(hold_keys)
-            if take_screenshot:
-                await asyncio.sleep(self._screenshot_delay)
-                screenshot = await self.screenshot()
-                if screenshot:
-                    result = ContentResult(
-                        output=result.output, error=result.error, base64_image=screenshot
-                    )
-            return result
-        except Exception as e:
-            return ContentResult(error=str(e))
-    async def mouse_down(
-        self,
-        button: Literal["left", "right", "middle", "back", "forward"] = "left",
-        take_screenshot: bool = True,
-    ) -> ContentResult:
-        """Press and hold a mouse button."""
-        try:
-            # Map button names (PyAutoGUI doesn't support back/forward)
-            button_map = {
-                "left": "left",
-                "right": "right",
-                "middle": "middle",
-                "back": "left",
-                "forward": "right",
-            }  # Fallback for unsupported
-            button_name = button_map.get(button, "left")
-            self.pyautogui.mouseDown(button=button_name)
-            result = ContentResult(output=f"Mouse down: {button} button")
-            if take_screenshot:
-                await asyncio.sleep(self._screenshot_delay)
-                screenshot = await self.screenshot()
-                if screenshot:
-                    result = ContentResult(
-                        output=result.output, error=result.error, base64_image=screenshot
-                    )
-            return result
-        except Exception as e:
-            return ContentResult(error=str(e))
-    async def mouse_up(
-        self,
-        button: Literal["left", "right", "middle", "back", "forward"] = "left",
-        take_screenshot: bool = True,
-    ) -> ContentResult:
-        """Release a mouse button."""
-        try:
-            # Map button names (PyAutoGUI doesn't support back/forward)
-            button_map = {
-                "left": "left",
-                "right": "right",
-                "middle": "middle",
-                "back": "left",
-                "forward": "right",
-            }  # Fallback for unsupported
-            button_name = button_map.get(button, "left")
-            self.pyautogui.mouseUp(button=button_name)
-            result = ContentResult(output=f"Mouse up: {button} button")
-            if take_screenshot:
-                await asyncio.sleep(self._screenshot_delay)
-                screenshot = await self.screenshot()
-                if screenshot:
-                    result = ContentResult(
-                        output=result.output, error=result.error, base64_image=screenshot
-                    )
-            return result
-        except Exception as e:
-            return ContentResult(error=str(e))
-    async def hold_key(
-        self, key: str, duration: float, take_screenshot: bool = True
-    ) -> ContentResult:
-        """Hold a key for a specified duration."""
-        try:
-            # Map CLA key to PyAutoGUI key
-            mapped_key = self._map_key(key)
-            self.pyautogui.keyDown(mapped_key)
-            await asyncio.sleep(duration)
-            self.pyautogui.keyUp(mapped_key)
-            result = ContentResult(output=f"Held key '{key}' for {duration} seconds")
-            if take_screenshot:
-                screenshot = await self.screenshot()
-                if screenshot:
-                    result = ContentResult(
-                        output=result.output, error=result.error, base64_image=screenshot
-                    )
-            return result
-        except Exception as e:
-            return ContentResult(error=str(e))
-    async def position(self) -> ContentResult:
-        """Get current cursor position."""
-        try:
-            x, y = self.pyautogui.position()
-            return ContentResult(output=f"Mouse position: ({x}, {y})")
-        except Exception as e:
-            return ContentResult(error=str(e))
+from __future__ import annotations
+import asyncio
+import base64
+import logging
+import os
+from io import BytesIO
+from typing import Any, Literal
+from hud.tools.types import ContentResult
+from .base import BaseExecutor
+logger = logging.getLogger(__name__)
+# Lazy loading for pyautogui
+_pyautogui = None
+_pyautogui_available = None
+def _get_pyautogui() -> Any | None:
+    """Lazily import and return pyautogui module."""
+    global _pyautogui, _pyautogui_available
+    if _pyautogui_available is False:
+        return None
+    if _pyautogui is None:
+        # Set display if not already set
+        if "DISPLAY" not in os.environ:
+            try:
+                from hud.tools.computer import computer_settings
+                os.environ["DISPLAY"] = str(computer_settings.DISPLAY_NUM)
+            except (ImportError, AttributeError):
+                os.environ["DISPLAY"] = ":0"
+        try:
+            import pyautogui  # type: ignore[import-not-found]
+            _pyautogui = pyautogui
+            _pyautogui_available = True
+            # Configure PyAutoGUI settings
+            _pyautogui.FAILSAFE = False  # Disable fail-safe feature
+            _pyautogui.PAUSE = 0.1  # Small pause between actions
+        except ImportError:
+            _pyautogui_available = False
+            logger.warning("PyAutoGUI is not available")
+            return None
+        except Exception as e:
+            _pyautogui_available = False
+            logger.warning("Failed to initialize PyAutoGUI: %s", e)
+            return None
+    return _pyautogui
+# Map CLA standard keys to PyAutoGUI keys (only where they differ)
+CLA_TO_PYAUTOGUI = {
+    # Most keys are the same in PyAutoGUI, only map the differences
+    "escape": "esc",
+    "enter": "return",
+    "pageup": "pgup",
+    "pagedown": "pgdn",
+    "printscreen": "prtscr",
+    "prtsc": "prtscr",
+    "super": "win",
+    "command": "cmd",
+}
+class PyAutoGUIExecutor(BaseExecutor):
+    """
+    Cross-platform executor using PyAutoGUI.
+    Works on Windows, macOS, and Linux.
+    This executor should only be instantiated when PyAutoGUI is available and functional.
+    """
+    def __init__(self, display_num: int | None = None) -> None:
+        """
+        Initialize the executor.
+        Args:
+            display_num: X display number (used only on Linux, ignored on Windows/macOS)
+        """
+        super().__init__(display_num)
+        self._pyautogui = None
+        logger.info("PyAutoGUIExecutor initialized")
+    @property
+    def pyautogui(self) -> Any:
+        """Get the pyautogui module, importing it lazily if needed."""
+        if self._pyautogui is None:
+            self._pyautogui = _get_pyautogui()
+            if self._pyautogui is None:
+                raise RuntimeError("PyAutoGUI is not available")
+        return self._pyautogui
+    def _map_key(self, key: str) -> str:
+        """Map CLA standard key to PyAutoGUI key."""
+        return CLA_TO_PYAUTOGUI.get(key.lower(), key.lower())
+    def _map_keys(self, keys: list[str]) -> list[str]:
+        """Map CLA standard keys to PyAutoGUI keys."""
+        mapped_keys = []
+        for key in keys:
+            # Handle key combinations like "ctrl+a"
+            if "+" in key:
+                parts = key.split("+")
+                mapped_parts = [self._map_key(part) for part in parts]
+                mapped_keys.append("+".join(mapped_parts))
+            else:
+                mapped_keys.append(self._map_key(key))
+        return mapped_keys
+    @classmethod
+    def is_available(cls) -> bool:
+        """
+        Check if PyAutoGUI is available and functional.
+        Returns:
+            True if PyAutoGUI is available and functional, False otherwise
+        """
+        pyautogui = _get_pyautogui()
+        if not pyautogui:
+            return False
+        try:
+            # Try to get screen size as a simple test
+            pyautogui.size()
+            return True
+        except Exception:
+            return False
+    async def screenshot(self) -> str | None:
+        """
+        Take a screenshot and return base64 encoded image.
+        Returns:
+            Base64 encoded PNG image or None if failed
+        """
+        try:
+            # Take screenshot using PyAutoGUI
+            screenshot = self.pyautogui.screenshot()
+            # Convert to base64
+            buffer = BytesIO()
+            screenshot.save(buffer, format="PNG")
+            image_data = buffer.getvalue()
+            return base64.b64encode(image_data).decode()
+        except Exception as e:
+            logger.error("Failed to take screenshot: %s", e)
+            return None
+    # ===== Helper Methods =====
+    def _hold_keys_context(self, keys: list[str] | None) -> None:
+        """
+        Press and hold keys.
+        Args:
+            keys: List of keys to hold
+        """
+        if keys:
+            for key in keys:
+                self.pyautogui.keyDown(key)
+    def _release_keys(self, keys: list[str] | None) -> None:
+        """Release held keys."""
+        if keys:
+            for key in reversed(keys):  # Release in reverse order
+                self.pyautogui.keyUp(key)
+    # ===== CLA Action Implementations =====
+    async def click(
+        self,
+        x: int | None = None,
+        y: int | None = None,
+        button: Literal["left", "right", "middle", "back", "forward"] = "left",
+        pattern: list[int] | None = None,
+        hold_keys: list[str] | None = None,
+        take_screenshot: bool = True,
+    ) -> ContentResult:
+        """Click at specified coordinates or current position."""
+        try:
+            # Map button names (PyAutoGUI doesn't support back/forward)
+            button_map = {
+                "left": "left",
+                "right": "right",
+                "middle": "middle",
+                "back": "left",
+                "forward": "right",
+            }  # Fallback for unsupported
+            button_name = button_map.get(button, "left")
+            # Hold keys if specified
+            self._hold_keys_context(hold_keys)
+            try:
+                # Handle multi-clicks based on pattern
+                if pattern:
+                    clicks = len(pattern) + 1
+                    interval = pattern[0] / 1000.0 if pattern else 0.1  # Convert ms to seconds
+                    if x is not None and y is not None:
+                        self.pyautogui.click(
+                            x=x, y=y, clicks=clicks, interval=interval, button=button_name
+                        )
+                    else:
+                        self.pyautogui.click(clicks=clicks, interval=interval, button=button_name)
+                else:
+                    # Single click
+                    if x is not None and y is not None:
+                        self.pyautogui.click(x=x, y=y, button=button_name)
+                    else:
+                        self.pyautogui.click(button=button_name)
+            finally:
+                # Release held keys
+                self._release_keys(hold_keys)
+            result = ContentResult(
+                output=f"Clicked {button} button at ({x}, {y})" if x else f"Clicked {button} button"
+            )
+            if take_screenshot:
+                await asyncio.sleep(self._screenshot_delay)
+                screenshot = await self.screenshot()
+                if screenshot:
+                    result = ContentResult(
+                        output=result.output, error=result.error, base64_image=screenshot
+                    )
+            return result
+        except Exception as e:
+            return ContentResult(error=str(e))
+    async def write(
+        self, text: str, enter_after: bool = False, delay: int = 12, take_screenshot: bool = True
+    ) -> ContentResult:
+        """Type text with specified delay between keystrokes."""
+        try:
+            # Convert delay from milliseconds to seconds for PyAutoGUI
+            interval = delay / 1000.0
+            self.pyautogui.typewrite(text, interval=interval)
+            if enter_after:
+                self.pyautogui.press("enter")
+            result = ContentResult(
+                output=f"Typed: '{text}'" + (" and pressed Enter" if enter_after else "")
+            )
+            if take_screenshot:
+                await asyncio.sleep(self._screenshot_delay)
+                screenshot = await self.screenshot()
+                if screenshot:
+                    result = ContentResult(
+                        output=result.output, error=result.error, base64_image=screenshot
+                    )
+            return result
+        except Exception as e:
+            return ContentResult(error=str(e))
+    async def key(self, key_sequence: str, take_screenshot: bool = True) -> ContentResult:
+        """Press a key or key combination."""
+        try:
+            # Handle key combinations (e.g., "ctrl+c")
+            if "+" in key_sequence:
+                keys = key_sequence.split("+")
+                self.pyautogui.hotkey(*keys)
+                result = ContentResult(output=f"Pressed hotkey: {key_sequence}")
+            else:
+                # Map common key names from xdotool to PyAutoGUI
+                key = key_sequence.lower()
+                self.pyautogui.press(CLA_TO_PYAUTOGUI.get(key, key))
+                result = ContentResult(output=f"Pressed key: {key_sequence}")
+            if take_screenshot:
+                await asyncio.sleep(self._screenshot_delay)
+                screenshot = await self.screenshot()
+                if screenshot:
+                    result = ContentResult(
+                        output=result.output, error=result.error, base64_image=screenshot
+                    )
+            return result
+        except Exception as e:
+            return ContentResult(error=str(e))
+    async def press(self, keys: list[str], take_screenshot: bool = True) -> ContentResult:
+        """Press a key combination (hotkey)."""
+        try:
+            # Map CLA keys to PyAutoGUI keys
+            mapped_keys = self._map_keys(keys)
+            # Handle single key or combination
+            if len(mapped_keys) == 1 and "+" not in mapped_keys[0]:
+                self.pyautogui.press(mapped_keys[0])
+                result = ContentResult(output=f"Pressed key: {keys[0]}")
+            else:
+                # For combinations, use hotkey
+                hotkey_parts = []
+                for key in mapped_keys:
+                    if "+" in key:
+                        hotkey_parts.extend(key.split("+"))
+                    else:
+                        hotkey_parts.append(key)
+                self.pyautogui.hotkey(*hotkey_parts)
+                result = ContentResult(output=f"Pressed hotkey: {'+'.join(keys)}")
+            if take_screenshot:
+                await asyncio.sleep(self._screenshot_delay)
+                screenshot = await self.screenshot()
+                if screenshot:
+                    result = ContentResult(
+                        output=result.output, error=result.error, base64_image=screenshot
+                    )
+            return result
+        except Exception as e:
+            return ContentResult(error=str(e))
+    async def keydown(self, keys: list[str], take_screenshot: bool = True) -> ContentResult:
+        """Press and hold keys."""
+        try:
+            # Map CLA keys to PyAutoGUI keys
+            mapped_keys = self._map_keys(keys)
+            for key in mapped_keys:
+                self.pyautogui.keyDown(key)
+            result = ContentResult(output=f"Keys down: {', '.join(keys)}")
+            if take_screenshot:
+                await asyncio.sleep(self._screenshot_delay)
+                screenshot = await self.screenshot()
+                if screenshot:
+                    result = ContentResult(
+                        output=result.output, error=result.error, base64_image=screenshot
+                    )
+            return result
+        except Exception as e:
+            return ContentResult(error=str(e))
+    async def keyup(self, keys: list[str], take_screenshot: bool = True) -> ContentResult:
+        """Release held keys."""
+        try:
+            # Map CLA keys to PyAutoGUI keys
+            mapped_keys = self._map_keys(keys)
+            for key in reversed(mapped_keys):  # Release in reverse order
+                self.pyautogui.keyUp(key)
+            result = ContentResult(output=f"Keys up: {', '.join(keys)}")
+            if take_screenshot:
+                await asyncio.sleep(self._screenshot_delay)
+                screenshot = await self.screenshot()
+                if screenshot:
+                    result = ContentResult(
+                        output=result.output, error=result.error, base64_image=screenshot
+                    )
+            return result
+        except Exception as e:
+            return ContentResult(error=str(e))
+    async def scroll(
+        self,
+        x: int | None = None,
+        y: int | None = None,
+        scroll_x: int | None = None,
+        scroll_y: int | None = None,
+        hold_keys: list[str] | None = None,
+        take_screenshot: bool = True,
+    ) -> ContentResult:
+        """Scroll at specified position."""
+        try:
+            # Move to position if specified
+            if x is not None and y is not None:
+                self.pyautogui.moveTo(x, y)
+            # Hold keys if specified
+            self._hold_keys_context(hold_keys)
+            try:
+                msg_parts = []
+                # Perform vertical scroll
+                if scroll_y and scroll_y != 0:
+                    # PyAutoGUI: positive = up, negative = down (opposite of our convention)
+                    self.pyautogui.scroll(-scroll_y)
+                    msg_parts.append(f"vertically by {scroll_y}")
+                # Perform horizontal scroll (if supported)
+                if scroll_x and scroll_x != 0:
+                    # PyAutoGUI horizontal scroll might not work on all platforms
+                    try:
+                        self.pyautogui.hscroll(scroll_x)
+                        msg_parts.append(f"horizontally by {scroll_x}")
+                    except AttributeError:
+                        # hscroll not available
+                        msg_parts.append(f"horizontally by {scroll_x} (not supported)")
+                if not msg_parts:
+                    return ContentResult(output="No scroll amount specified")
+                msg = "Scrolled " + " and ".join(msg_parts)
+                if x is not None and y is not None:
+                    msg += f" at ({x}, {y})"
+                if hold_keys:
+                    msg += f" while holding {hold_keys}"
+            finally:
+                # Release held keys
+                self._release_keys(hold_keys)
+            result = ContentResult(output=msg)
+            if take_screenshot:
+                await asyncio.sleep(self._screenshot_delay)
+                screenshot = await self.screenshot()
+                if screenshot:
+                    result = ContentResult(
+                        output=result.output, error=result.error, base64_image=screenshot
+                    )
+            return result
+        except Exception as e:
+            return ContentResult(error=str(e))
+    async def move(
+        self,
+        x: int | None = None,
+        y: int | None = None,
+        offset_x: int | None = None,
+        offset_y: int | None = None,
+        take_screenshot: bool = True,
+    ) -> ContentResult:
+        """Move mouse cursor."""
+        try:
+            if x is not None and y is not None:
+                # Absolute move
+                self.pyautogui.moveTo(x, y, duration=0.1)
+                result = ContentResult(output=f"Moved mouse to ({x}, {y})")
+            elif offset_x is not None or offset_y is not None:
+                # Relative move
+                offset_x = offset_x or 0
+                offset_y = offset_y or 0
+                self.pyautogui.moveRel(xOffset=offset_x, yOffset=offset_y, duration=0.1)
+                result = ContentResult(output=f"Moved mouse by offset ({offset_x}, {offset_y})")
+            else:
+                return ContentResult(output="No move coordinates specified")
+            if take_screenshot:
+                await asyncio.sleep(self._screenshot_delay)
+                screenshot = await self.screenshot()
+                if screenshot:
+                    result = ContentResult(
+                        output=result.output, error=result.error, base64_image=screenshot
+                    )
+            return result
+        except Exception as e:
+            return ContentResult(error=str(e))
+    async def drag(
+        self,
+        path: list[tuple[int, int]],
+        pattern: list[int] | None = None,
+        hold_keys: list[str] | None = None,
+        take_screenshot: bool = True,
+    ) -> ContentResult:
+        """Drag along a path."""
+        if len(path) < 2:
+            return ContentResult(error="Drag path must have at least 2 points")
+        try:
+            # Hold keys if specified
+            self._hold_keys_context(hold_keys)
+            try:
+                # Move to start
+                start_x, start_y = path[0]
+                self.pyautogui.moveTo(start_x, start_y)
+                # Handle multi-point drag
+                if len(path) == 2:
+                    # Simple drag
+                    end_x, end_y = path[1]
+                    self.pyautogui.dragTo(end_x, end_y, duration=0.5, button="left")
+                    result = ContentResult(
+                        output=f"Dragged from ({start_x}, {start_y}) to ({end_x}, {end_y})"
+                    )
+                else:
+                    # Multi-point drag
+                    self.pyautogui.mouseDown(button="left")
+                    for i, (x, y) in enumerate(path[1:], 1):
+                        duration = 0.1
+                        if pattern and i - 1 < len(pattern):
+                            duration = pattern[i - 1] / 1000.0  # Convert ms to seconds
+                        self.pyautogui.moveTo(x, y, duration=duration)
+                    self.pyautogui.mouseUp(button="left")
+                    result = ContentResult(output=f"Dragged along {len(path)} points")
+                if hold_keys:
+                    result = ContentResult(output=f"{result.output} while holding {hold_keys}")
+            finally:
+                # Release held keys
+                self._release_keys(hold_keys)
+            if take_screenshot:
+                await asyncio.sleep(self._screenshot_delay)
+                screenshot = await self.screenshot()
+                if screenshot:
+                    result = ContentResult(
+                        output=result.output, error=result.error, base64_image=screenshot
+                    )
+            return result
+        except Exception as e:
+            return ContentResult(error=str(e))
+    async def mouse_down(
+        self,
+        button: Literal["left", "right", "middle", "back", "forward"] = "left",
+        take_screenshot: bool = True,
+    ) -> ContentResult:
+        """Press and hold a mouse button."""
+        try:
+            # Map button names (PyAutoGUI doesn't support back/forward)
+            button_map = {
+                "left": "left",
+                "right": "right",
+                "middle": "middle",
+                "back": "left",
+                "forward": "right",
+            }  # Fallback for unsupported
+            button_name = button_map.get(button, "left")
+            self.pyautogui.mouseDown(button=button_name)
+            result = ContentResult(output=f"Mouse down: {button} button")
+            if take_screenshot:
+                await asyncio.sleep(self._screenshot_delay)
+                screenshot = await self.screenshot()
+                if screenshot:
+                    result = ContentResult(
+                        output=result.output, error=result.error, base64_image=screenshot
+                    )
+            return result
+        except Exception as e:
+            return ContentResult(error=str(e))
+    async def mouse_up(
+        self,
+        button: Literal["left", "right", "middle", "back", "forward"] = "left",
+        take_screenshot: bool = True,
+    ) -> ContentResult:
+        """Release a mouse button."""
+        try:
+            # Map button names (PyAutoGUI doesn't support back/forward)
+            button_map = {
+                "left": "left",
+                "right": "right",
+                "middle": "middle",
+                "back": "left",
+                "forward": "right",
+            }  # Fallback for unsupported
+            button_name = button_map.get(button, "left")
+            self.pyautogui.mouseUp(button=button_name)
+            result = ContentResult(output=f"Mouse up: {button} button")
+            if take_screenshot:
+                await asyncio.sleep(self._screenshot_delay)
+                screenshot = await self.screenshot()
+                if screenshot:
+                    result = ContentResult(
+                        output=result.output, error=result.error, base64_image=screenshot
+                    )
+            return result
+        except Exception as e:
+            return ContentResult(error=str(e))
+    async def hold_key(
+        self, key: str, duration: float, take_screenshot: bool = True
+    ) -> ContentResult:
+        """Hold a key for a specified duration."""
+        try:
+            # Map CLA key to PyAutoGUI key
+            mapped_key = self._map_key(key)
+            self.pyautogui.keyDown(mapped_key)
+            await asyncio.sleep(duration)
+            self.pyautogui.keyUp(mapped_key)
+            result = ContentResult(output=f"Held key '{key}' for {duration} seconds")
+            if take_screenshot:
+                screenshot = await self.screenshot()
+                if screenshot:
+                    result = ContentResult(
+                        output=result.output, error=result.error, base64_image=screenshot
+                    )
+            return result
+        except Exception as e:
+            return ContentResult(error=str(e))
+    async def position(self) -> ContentResult:
+        """Get current cursor position."""
+        try:
+            x, y = self.pyautogui.position()
+            return ContentResult(output=f"Mouse position: ({x}, {y})")
+        except Exception as e:
+            return ContentResult(error=str(e))

hud-python 0.4.1__py3-none-any.whl → 0.4.3__py3-none-any.whl

Potentially problematic release.

hud-python 0.4.1py3-none-any.whl → 0.4.3py3-none-any.whl