PyPI - hud-python - Versions diffs - 0.4.45__py3-none-any.whl → 0.5.1__py3-none-any.whl - Mend

hud-python 0.4.45py3-none-any.whl → 0.5.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (274) hide show

hud/__init__.py +27 -7
hud/agents/__init__.py +11 -5
hud/agents/base.py +220 -500
hud/agents/claude.py +200 -240
hud/agents/gemini.py +275 -0
hud/agents/gemini_cua.py +335 -0
hud/agents/grounded_openai.py +98 -100
hud/agents/misc/integration_test_agent.py +51 -20
hud/agents/misc/response_agent.py +41 -36
hud/agents/openai.py +291 -292
hud/agents/{openai_chat_generic.py → openai_chat.py} +80 -34
hud/agents/operator.py +211 -0
hud/agents/tests/conftest.py +133 -0
hud/agents/tests/test_base.py +300 -622
hud/agents/tests/test_base_runtime.py +233 -0
hud/agents/tests/test_claude.py +379 -210
hud/agents/tests/test_client.py +9 -10
hud/agents/tests/test_gemini.py +369 -0
hud/agents/tests/test_grounded_openai_agent.py +65 -50
hud/agents/tests/test_openai.py +376 -140
hud/agents/tests/test_operator.py +362 -0
hud/agents/tests/test_run_eval.py +179 -0
hud/cli/__init__.py +461 -545
hud/cli/analyze.py +43 -5
hud/cli/build.py +664 -110
hud/cli/debug.py +8 -5
hud/cli/dev.py +882 -734
hud/cli/eval.py +782 -668
hud/cli/flows/dev.py +167 -0
hud/cli/flows/init.py +191 -0
hud/cli/flows/tasks.py +153 -56
hud/cli/flows/templates.py +151 -0
hud/cli/flows/tests/__init__.py +1 -0
hud/cli/flows/tests/test_dev.py +126 -0
hud/cli/init.py +60 -58
hud/cli/push.py +29 -11
hud/cli/rft.py +311 -0
hud/cli/rft_status.py +145 -0
hud/cli/tests/test_analyze.py +5 -5
hud/cli/tests/test_analyze_metadata.py +3 -2
hud/cli/tests/test_analyze_module.py +120 -0
hud/cli/tests/test_build.py +108 -6
hud/cli/tests/test_build_failure.py +41 -0
hud/cli/tests/test_build_module.py +50 -0
hud/cli/tests/test_cli_init.py +6 -1
hud/cli/tests/test_cli_more_wrappers.py +30 -0
hud/cli/tests/test_cli_root.py +140 -0
hud/cli/tests/test_convert.py +361 -0
hud/cli/tests/test_debug.py +12 -10
hud/cli/tests/test_dev.py +197 -0
hud/cli/tests/test_eval.py +251 -0
hud/cli/tests/test_eval_bedrock.py +51 -0
hud/cli/tests/test_init.py +124 -0
hud/cli/tests/test_main_module.py +11 -5
hud/cli/tests/test_mcp_server.py +12 -100
hud/cli/tests/test_push_happy.py +74 -0
hud/cli/tests/test_push_wrapper.py +23 -0
hud/cli/tests/test_registry.py +1 -1
hud/cli/tests/test_utils.py +1 -1
hud/cli/{rl → utils}/celebrate.py +14 -12
hud/cli/utils/config.py +18 -1
hud/cli/utils/docker.py +130 -4
hud/cli/utils/env_check.py +9 -9
hud/cli/utils/git.py +136 -0
hud/cli/utils/interactive.py +39 -5
hud/cli/utils/metadata.py +69 -0
hud/cli/utils/runner.py +1 -1
hud/cli/utils/server.py +2 -2
hud/cli/utils/source_hash.py +3 -3
hud/cli/utils/tasks.py +4 -1
hud/cli/utils/tests/__init__.py +0 -0
hud/cli/utils/tests/test_config.py +58 -0
hud/cli/utils/tests/test_docker.py +93 -0
hud/cli/utils/tests/test_docker_hints.py +71 -0
hud/cli/utils/tests/test_env_check.py +74 -0
hud/cli/utils/tests/test_environment.py +42 -0
hud/cli/utils/tests/test_git.py +142 -0
hud/cli/utils/tests/test_interactive_module.py +60 -0
hud/cli/utils/tests/test_local_runner.py +50 -0
hud/cli/utils/tests/test_logging_utils.py +23 -0
hud/cli/utils/tests/test_metadata.py +49 -0
hud/cli/utils/tests/test_package_runner.py +35 -0
hud/cli/utils/tests/test_registry_utils.py +49 -0
hud/cli/utils/tests/test_remote_runner.py +25 -0
hud/cli/utils/tests/test_runner_modules.py +52 -0
hud/cli/utils/tests/test_source_hash.py +36 -0
hud/cli/utils/tests/test_tasks.py +80 -0
hud/cli/utils/version_check.py +258 -0
hud/cli/{rl → utils}/viewer.py +2 -2
hud/clients/README.md +12 -11
hud/clients/__init__.py +4 -3
hud/clients/base.py +166 -26
hud/clients/environment.py +51 -0
hud/clients/fastmcp.py +13 -6
hud/clients/mcp_use.py +40 -15
hud/clients/tests/test_analyze_scenarios.py +206 -0
hud/clients/tests/test_protocol.py +9 -3
hud/datasets/__init__.py +23 -20
hud/datasets/loader.py +327 -0
hud/datasets/runner.py +192 -105
hud/datasets/tests/__init__.py +0 -0
hud/datasets/tests/test_loader.py +221 -0
hud/datasets/tests/test_utils.py +315 -0
hud/datasets/utils.py +270 -90
hud/environment/__init__.py +50 -0
hud/environment/connection.py +206 -0
hud/environment/connectors/__init__.py +33 -0
hud/environment/connectors/base.py +68 -0
hud/environment/connectors/local.py +177 -0
hud/environment/connectors/mcp_config.py +109 -0
hud/environment/connectors/openai.py +101 -0
hud/environment/connectors/remote.py +172 -0
hud/environment/environment.py +694 -0
hud/environment/integrations/__init__.py +45 -0
hud/environment/integrations/adk.py +67 -0
hud/environment/integrations/anthropic.py +196 -0
hud/environment/integrations/gemini.py +92 -0
hud/environment/integrations/langchain.py +82 -0
hud/environment/integrations/llamaindex.py +68 -0
hud/environment/integrations/openai.py +238 -0
hud/environment/mock.py +306 -0
hud/environment/router.py +112 -0
hud/environment/scenarios.py +493 -0
hud/environment/tests/__init__.py +1 -0
hud/environment/tests/test_connection.py +317 -0
hud/environment/tests/test_connectors.py +218 -0
hud/environment/tests/test_environment.py +161 -0
hud/environment/tests/test_integrations.py +257 -0
hud/environment/tests/test_local_connectors.py +201 -0
hud/environment/tests/test_scenarios.py +280 -0
hud/environment/tests/test_tools.py +208 -0
hud/environment/types.py +23 -0
hud/environment/utils/__init__.py +35 -0
hud/environment/utils/formats.py +215 -0
hud/environment/utils/schema.py +171 -0
hud/environment/utils/tool_wrappers.py +113 -0
hud/eval/__init__.py +67 -0
hud/eval/context.py +674 -0
hud/eval/display.py +299 -0
hud/eval/instrument.py +185 -0
hud/eval/manager.py +466 -0
hud/eval/parallel.py +268 -0
hud/eval/task.py +340 -0
hud/eval/tests/__init__.py +1 -0
hud/eval/tests/test_context.py +178 -0
hud/eval/tests/test_eval.py +210 -0
hud/eval/tests/test_manager.py +152 -0
hud/eval/tests/test_parallel.py +168 -0
hud/eval/tests/test_task.py +145 -0
hud/eval/types.py +63 -0
hud/eval/utils.py +183 -0
hud/patches/__init__.py +19 -0
hud/patches/mcp_patches.py +151 -0
hud/patches/warnings.py +54 -0
hud/samples/browser.py +4 -4
hud/server/__init__.py +2 -1
hud/server/low_level.py +2 -1
hud/server/router.py +164 -0
hud/server/server.py +567 -80
hud/server/tests/test_mcp_server_integration.py +11 -11
hud/server/tests/test_mcp_server_more.py +1 -1
hud/server/tests/test_server_extra.py +2 -0
hud/settings.py +45 -3
hud/shared/exceptions.py +36 -10
hud/shared/hints.py +26 -1
hud/shared/requests.py +15 -3
hud/shared/tests/test_exceptions.py +40 -31
hud/shared/tests/test_hints.py +167 -0
hud/telemetry/__init__.py +20 -19
hud/telemetry/exporter.py +201 -0
hud/telemetry/instrument.py +158 -253
hud/telemetry/tests/test_eval_telemetry.py +356 -0
hud/telemetry/tests/test_exporter.py +258 -0
hud/telemetry/tests/test_instrument.py +401 -0
hud/tools/__init__.py +16 -2
hud/tools/apply_patch.py +639 -0
hud/tools/base.py +54 -4
hud/tools/bash.py +2 -2
hud/tools/computer/__init__.py +4 -0
hud/tools/computer/anthropic.py +2 -2
hud/tools/computer/gemini.py +385 -0
hud/tools/computer/hud.py +23 -6
hud/tools/computer/openai.py +20 -21
hud/tools/computer/qwen.py +434 -0
hud/tools/computer/settings.py +37 -0
hud/tools/edit.py +3 -7
hud/tools/executors/base.py +4 -2
hud/tools/executors/pyautogui.py +1 -1
hud/tools/grounding/grounded_tool.py +13 -18
hud/tools/grounding/grounder.py +10 -31
hud/tools/grounding/tests/test_grounded_tool.py +26 -44
hud/tools/jupyter.py +330 -0
hud/tools/playwright.py +18 -3
hud/tools/shell.py +308 -0
hud/tools/tests/test_apply_patch.py +718 -0
hud/tools/tests/test_computer.py +4 -9
hud/tools/tests/test_computer_actions.py +24 -2
hud/tools/tests/test_jupyter_tool.py +181 -0
hud/tools/tests/test_shell.py +596 -0
hud/tools/tests/test_submit.py +85 -0
hud/tools/tests/test_types.py +193 -0
hud/tools/types.py +21 -1
hud/types.py +167 -57
hud/utils/__init__.py +2 -0
hud/utils/env.py +67 -0
hud/utils/hud_console.py +61 -3
hud/utils/mcp.py +15 -58
hud/utils/strict_schema.py +162 -0
hud/utils/tests/test_init.py +1 -2
hud/utils/tests/test_mcp.py +1 -28
hud/utils/tests/test_pretty_errors.py +186 -0
hud/utils/tests/test_tool_shorthand.py +154 -0
hud/utils/tests/test_version.py +1 -1
hud/utils/types.py +20 -0
hud/version.py +1 -1
hud_python-0.5.1.dist-info/METADATA +264 -0
hud_python-0.5.1.dist-info/RECORD +299 -0
{hud_python-0.4.45.dist-info → hud_python-0.5.1.dist-info}/WHEEL +1 -1
hud/agents/langchain.py +0 -261
hud/agents/lite_llm.py +0 -72
hud/cli/rl/__init__.py +0 -180
hud/cli/rl/config.py +0 -101
hud/cli/rl/display.py +0 -133
hud/cli/rl/gpu.py +0 -63
hud/cli/rl/gpu_utils.py +0 -321
hud/cli/rl/local_runner.py +0 -595
hud/cli/rl/presets.py +0 -96
hud/cli/rl/remote_runner.py +0 -463
hud/cli/rl/rl_api.py +0 -150
hud/cli/rl/vllm.py +0 -177
hud/cli/rl/wait_utils.py +0 -89
hud/datasets/parallel.py +0 -687
hud/misc/__init__.py +0 -1
hud/misc/claude_plays_pokemon.py +0 -292
hud/otel/__init__.py +0 -35
hud/otel/collector.py +0 -142
hud/otel/config.py +0 -181
hud/otel/context.py +0 -570
hud/otel/exporters.py +0 -369
hud/otel/instrumentation.py +0 -135
hud/otel/processors.py +0 -121
hud/otel/tests/__init__.py +0 -1
hud/otel/tests/test_processors.py +0 -197
hud/rl/README.md +0 -30
hud/rl/__init__.py +0 -1
hud/rl/actor.py +0 -176
hud/rl/buffer.py +0 -405
hud/rl/chat_template.jinja +0 -101
hud/rl/config.py +0 -192
hud/rl/distributed.py +0 -132
hud/rl/learner.py +0 -637
hud/rl/tests/__init__.py +0 -1
hud/rl/tests/test_learner.py +0 -186
hud/rl/train.py +0 -382
hud/rl/types.py +0 -101
hud/rl/utils/start_vllm_server.sh +0 -30
hud/rl/utils.py +0 -524
hud/rl/vllm_adapter.py +0 -143
hud/telemetry/job.py +0 -352
hud/telemetry/replay.py +0 -74
hud/telemetry/tests/test_replay.py +0 -40
hud/telemetry/tests/test_trace.py +0 -63
hud/telemetry/trace.py +0 -158
hud/utils/agent_factories.py +0 -86
hud/utils/async_utils.py +0 -65
hud/utils/group_eval.py +0 -223
hud/utils/progress.py +0 -149
hud/utils/tasks.py +0 -127
hud/utils/tests/test_async_utils.py +0 -173
hud/utils/tests/test_progress.py +0 -261
hud_python-0.4.45.dist-info/METADATA +0 -552
hud_python-0.4.45.dist-info/RECORD +0 -228
{hud_python-0.4.45.dist-info → hud_python-0.5.1.dist-info}/entry_points.txt +0 -0
{hud_python-0.4.45.dist-info → hud_python-0.5.1.dist-info}/licenses/LICENSE +0 -0

hud/tools/grounding/grounded_tool.py CHANGED Viewed

@@ -3,14 +3,15 @@
 from __future__ import annotations
 import logging
-from typing import Any
+from typing import TYPE_CHECKING, Any
 from mcp import ErrorData, McpError
 from mcp.types import INVALID_PARAMS, ContentBlock
-from hud.clients.base import AgentMCPClient  # noqa: TC001
 from hud.tools.grounding.grounder import Grounder  # noqa: TC001
-from hud.types import MCPToolCall
+if TYPE_CHECKING:
+    from hud.environment import Environment
 logger = logging.getLogger(__name__)
@@ -33,18 +34,18 @@ class GroundedComputerTool:
         self,
         *,
         grounder: Grounder,
-        mcp_client: AgentMCPClient,
+        ctx: Environment,
         computer_tool_name: str = "computer",
     ) -> None:
         """Initialize the grounded computer tool.
         Args:
             grounder: Grounder instance for visual grounding
-            mcp_client: MCP client to call the environment's computer tool
+            ctx: Environment or EvalContext to call tools through
             computer_tool_name: Name of the computer tool in the environment
         """
         self._grounder = grounder
-        self._mcp_client = mcp_client
+        self._ctx = ctx
         self._computer_tool_name = computer_tool_name
     def get_openai_tool_schema(self) -> dict:
@@ -172,10 +173,8 @@ class GroundedComputerTool:
                 if keys is not None:
                     computer_args["keys"] = keys
-                result = await self._mcp_client.call_tool(
-                    MCPToolCall(
-                        name=self._computer_tool_name, arguments={**computer_args, **kwargs}
-                    )
+                result = await self._ctx.call_tool(
+                    (self._computer_tool_name, {**computer_args, **kwargs})
                 )
                 return result.content
@@ -224,10 +223,8 @@ class GroundedComputerTool:
                 if scroll_y is not None:
                     computer_args["scroll_y"] = scroll_y
-                result = await self._mcp_client.call_tool(
-                    MCPToolCall(
-                        name=self._computer_tool_name, arguments={**computer_args, **kwargs}
-                    )
+                result = await self._ctx.call_tool(
+                    (self._computer_tool_name, {**computer_args, **kwargs})
                 )
                 return result.content
@@ -292,10 +289,8 @@ class GroundedComputerTool:
                 if button:
                     computer_args["button"] = button
-                result = await self._mcp_client.call_tool(
-                    MCPToolCall(
-                        name=self._computer_tool_name, arguments={**computer_args, **kwargs}
-                    )
+                result = await self._ctx.call_tool(
+                    (self._computer_tool_name, {**computer_args, **kwargs})
                 )
                 return result.content

hud/tools/grounding/grounder.py CHANGED Viewed

@@ -4,15 +4,15 @@ from __future__ import annotations
 import base64
 import io
-import json
+import logging
 import re
 from openai import AsyncOpenAI
-from opentelemetry import trace
-from hud import instrument
 from hud.tools.grounding.config import GrounderConfig  # noqa: TC001
+logger = logging.getLogger(__name__)
 class Grounder:
     """Grounder that uses AsyncOpenAI to call vLLM or other model endpoints for visual grounding.
@@ -181,12 +181,6 @@ class Grounder:
         return (final_x, final_y)
-    @instrument(
-        name="Grounding.predict_click",
-        span_type="agent",
-        record_args=True,
-        record_result=True,
-    )
     async def predict_click(
         self, *, image_b64: str, instruction: str, max_retries: int = 3
     ) -> tuple[int, int] | None:
@@ -247,12 +241,7 @@ class Grounder:
                 # Extract response text
                 response_text = response.choices[0].message.content
-                # Manually record the raw response in the span
-                span = trace.get_current_span()
-                if span and span.is_recording():
-                    span.set_attribute("grounder.raw_response", json.dumps(response.model_dump()))
-                    span.set_attribute("grounder.attempt", attempt + 1)
+                logger.debug("Grounder attempt %d response: %s", attempt + 1, response_text)
                 # Parse coordinates from response
                 if response_text is None:
@@ -277,26 +266,16 @@ class Grounder:
                     y = max(0, min(y, original_size[1] - 1))
                     pixel_coords = (x, y)
-                # Record successful grounding in span
-                span = trace.get_current_span()
-                if span and span.is_recording():
-                    span.set_attribute("grounder.success", True)
-                    span.set_attribute(
-                        "grounder.final_coords", f"{pixel_coords[0]},{pixel_coords[1]}"
-                    )
-                    span.set_attribute("grounder.total_attempts", attempt + 1)
+                logger.debug(
+                    "Grounder success: coords=%s after %d attempts",
+                    pixel_coords,
+                    attempt + 1,
+                )
                 return pixel_coords
             except Exception:
                 if attempt < max_retries - 1:
                     continue
-        # Record failure in span
-        span = trace.get_current_span()
-        if span and span.is_recording():
-            span.set_attribute("grounder.success", False)
-            span.set_attribute("grounder.total_attempts", max_retries)
-            span.set_attribute("grounder.failure_reason", "All attempts exhausted")
+        logger.debug("Grounder failed after %d attempts", max_retries)
         return None

hud/tools/grounding/tests/test_grounded_tool.py CHANGED Viewed

@@ -7,7 +7,7 @@ import mcp.types as types
 import pytest
 from hud.tools.grounding.grounded_tool import GroundedComputerTool
-from hud.types import MCPToolCall, MCPToolResult
+from hud.types import MCPToolResult
 @dataclass
@@ -17,36 +17,18 @@ class FakeResult:
     structuredContent: dict | None = None
-class FakeMCPClient:
-    """Fake MCP client that implements AgentMCPClient protocol."""
-    _initialized: bool
+class FakeEnvironment:
+    """Fake Environment that implements the call_tool interface."""
     def __init__(self) -> None:
         self.calls: list[tuple[str, dict[str, Any]]] = []
-        self._initialized = False
-    @property
-    def mcp_config(self) -> dict[str, dict[str, Any]]:
-        return {"test": {"command": "echo", "args": ["test"]}}
-    @property
-    def is_connected(self) -> bool:
-        return self._initialized
-    async def initialize(self, mcp_config: dict[str, dict[str, Any]] | None = None) -> None:
-        self._initialized = True
-    async def list_tools(self) -> list[types.Tool]:
-        return [types.Tool(name="computer", description="Test tool", inputSchema={})]
-    async def call_tool(self, tool_call: MCPToolCall) -> MCPToolResult:
-        self.calls.append((tool_call.name, tool_call.arguments or {}))
+    async def call_tool(self, call: tuple[str, dict[str, Any]], /, **kwargs: Any) -> MCPToolResult:
+        """Record the tool call and return a fake result."""
+        tool_name, tool_args = call
+        self.calls.append((tool_name, tool_args))
         return MCPToolResult(content=[types.TextContent(text="ok", type="text")], isError=False)
-    async def shutdown(self) -> None:
-        self._initialized = False
 class FakeGrounder:
     """Fake grounder that implements Grounder interface."""
@@ -72,9 +54,9 @@ def _png_b64() -> str:
 @pytest.mark.asyncio
 async def test_click_action_grounds_and_calls_mcp() -> None:
-    client = FakeMCPClient()
+    ctx = FakeEnvironment()
     grounder = FakeGrounder(coords=(123, 456))
-    tool = GroundedComputerTool(grounder=grounder, mcp_client=client)  # type: ignore
+    tool = GroundedComputerTool(grounder=grounder, ctx=ctx)  # type: ignore
     blocks = await tool(
         action="click",
@@ -87,14 +69,14 @@ async def test_click_action_grounds_and_calls_mcp() -> None:
     # Grounder called once
     assert len(grounder.calls) == 1
     # MCP called with resolved coordinates
-    assert client.calls == [("computer", {"action": "click", "x": 123, "y": 456, "button": "left"})]
+    assert ctx.calls == [("computer", {"action": "click", "x": 123, "y": 456, "button": "left"})]
 @pytest.mark.asyncio
 async def test_move_and_scroll_require_element_description_and_screenshot() -> None:
-    client = FakeMCPClient()
+    ctx = FakeEnvironment()
     grounder = FakeGrounder(coords=(5, 6))
-    tool = GroundedComputerTool(grounder=grounder, mcp_client=client)  # type: ignore
+    tool = GroundedComputerTool(grounder=grounder, ctx=ctx)  # type: ignore
     # Missing element_description
     with pytest.raises(Exception) as ei:
@@ -109,9 +91,9 @@ async def test_move_and_scroll_require_element_description_and_screenshot() -> N
 @pytest.mark.asyncio
 async def test_drag_grounds_both_points_and_calls_mcp() -> None:
-    client = FakeMCPClient()
+    ctx = FakeEnvironment()
     grounder = FakeGrounder(coords=(10, 20))
-    tool = GroundedComputerTool(grounder=grounder, mcp_client=client)  # type: ignore
+    tool = GroundedComputerTool(grounder=grounder, ctx=ctx)  # type: ignore
     await tool(
         action="drag",
@@ -124,7 +106,7 @@ async def test_drag_grounds_both_points_and_calls_mcp() -> None:
     # Two grounding calls (start and end)
     assert len(grounder.calls) == 2
     # Drag path contains two points, same coords from fake grounder
-    name, args = client.calls[0]
+    name, args = ctx.calls[0]
     assert name == "computer"
     assert args["action"] == "drag"
     assert args["button"] == "left"
@@ -133,9 +115,9 @@ async def test_drag_grounds_both_points_and_calls_mcp() -> None:
 @pytest.mark.asyncio
 async def test_drag_requires_both_descriptions_and_screenshot() -> None:
-    client = FakeMCPClient()
+    ctx = FakeEnvironment()
     grounder = FakeGrounder()
-    tool = GroundedComputerTool(grounder=grounder, mcp_client=client)  # type: ignore
+    tool = GroundedComputerTool(grounder=grounder, ctx=ctx)  # type: ignore
     with pytest.raises(Exception) as ei:
         await tool(action="drag", start_element_description="a", screenshot_b64=_png_b64())
@@ -152,9 +134,9 @@ async def test_drag_requires_both_descriptions_and_screenshot() -> None:
 @pytest.mark.asyncio
 async def test_direct_actions_bypass_grounding_and_call_mcp() -> None:
-    client = FakeMCPClient()
+    ctx = FakeEnvironment()
     grounder = FakeGrounder()
-    tool = GroundedComputerTool(grounder=grounder, mcp_client=client)  # type: ignore
+    tool = GroundedComputerTool(grounder=grounder, ctx=ctx)  # type: ignore
     # Actions that bypass grounding
     for action, extra in [
@@ -166,19 +148,19 @@ async def test_direct_actions_bypass_grounding_and_call_mcp() -> None:
         ("get_dimensions", {}),
         ("get_environment", {}),
     ]:
-        client.calls.clear()
+        ctx.calls.clear()
         _ = await tool(action=action, **extra)
-        assert client.calls and client.calls[0][0] == "computer"
-        assert client.calls[0][1]["action"] == action
+        assert ctx.calls and ctx.calls[0][0] == "computer"
+        assert ctx.calls[0][1]["action"] == action
     # Grounder not invoked for these
     assert grounder.calls == []
 @pytest.mark.asyncio
 async def test_unsupported_action_raises() -> None:
-    client = FakeMCPClient()
+    ctx = FakeEnvironment()
     grounder = FakeGrounder()
-    tool = GroundedComputerTool(grounder=grounder, mcp_client=client)  # type: ignore
+    tool = GroundedComputerTool(grounder=grounder, ctx=ctx)  # type: ignore
     with pytest.raises(Exception) as ei:
         await tool(action="zoom")
@@ -187,9 +169,9 @@ async def test_unsupported_action_raises() -> None:
 @pytest.mark.asyncio
 async def test_grounding_failure_propagates_as_error() -> None:
-    client = FakeMCPClient()
+    ctx = FakeEnvironment()
     grounder = FakeGrounder(coords=None)
-    tool = GroundedComputerTool(grounder=grounder, mcp_client=client)  # type: ignore
+    tool = GroundedComputerTool(grounder=grounder, ctx=ctx)  # type: ignore
     with pytest.raises(Exception) as ei:
         await tool(action="click", element_description="x", screenshot_b64=_png_b64())

hud/tools/jupyter.py ADDED Viewed

@@ -0,0 +1,330 @@
+"""Jupyter execution tool.
+Requires the [agents] extra: pip install hud-python[agents]
+"""
+from __future__ import annotations
+import asyncio
+import logging
+import re
+from typing import TYPE_CHECKING, Any, ClassVar
+from uuid import uuid4
+from hud.tools.base import BaseTool
+from hud.tools.types import ContentResult, ToolError
+if TYPE_CHECKING:
+    from mcp.types import ContentBlock
+logger = logging.getLogger(__name__)
+def strip_ansi(output: str) -> str:
+    """Remove ANSI escape sequences from string output."""
+    pattern = re.compile(r"\x1B\[\d+(;\d+){0,2}m")
+    return pattern.sub("", output)
+class JupyterTool(BaseTool):
+    """
+    Execute Python code in a Jupyter kernel.
+    """
+    # Class-level kernel registry for sharing kernels
+    _kernel_registry: ClassVar[dict[str, str]] = {}
+    @classmethod
+    def register_shared_kernel(cls, registry_name: str, kernel_id: str) -> None:
+        """Register a kernel_id with a name for reuse.
+        Args:
+            registry_name: Name to register the kernel under
+            kernel_id: The kernel ID to register
+        """
+        cls._kernel_registry[registry_name] = kernel_id
+        logger.info("Registered kernel '%s': %s", registry_name, kernel_id)
+    @classmethod
+    def from_shared_kernel(cls, registry_name: str, **kwargs: Any) -> JupyterTool:
+        """Connect to a kernel using its registry name.
+        Args:
+            registry_name: Name of the registered kernel
+            **kwargs: Additional parameters for JupyterTool (url_suffix, kernel_name)
+        Returns:
+            JupyterTool instance connected to the registered kernel
+        """
+        kernel_id = cls._kernel_registry.get(registry_name)
+        if not kernel_id:
+            raise ValueError(f"No kernel registered with name '{registry_name}'")
+        logger.info("Connecting to registered kernel '%s': %s", registry_name, kernel_id)
+        return cls(kernel_id=kernel_id, **kwargs)
+    def __init__(
+        self,
+        url_suffix: str = "localhost:8888",
+        kernel_name: str = "python3",
+        kernel_id: str = "",
+    ) -> None:
+        """Initialize JupyterTool with connection parameters.
+        Args:
+            url_suffix: (Optional) Kernel gateway host:port (default: localhost:8888)
+            kernel_name: (Optional) Kernel name to use (default: python3)
+            kernel_id: (Optional) If set, connect to the existed kernel with kernel_id.
+                If empty, create new kernel
+        """
+        # Check tornado is available
+        try:
+            import tornado  # noqa: F401
+        except ImportError as e:
+            raise ImportError(
+                "JupyterTool requires the [agents] extra. "
+                "Install with: pip install hud-python[agents]"
+            ) from e
+        super().__init__(
+            env=None,
+            name="jupyter",
+            title="Jupyter Code Execution",
+            description="Execute Python code in a Jupyter kernel",
+        )
+        # Connection parameters
+        self._base_url = f"http://{url_suffix}"
+        self._base_ws_url = f"ws://{url_suffix}"
+        self._kernel_name = kernel_name
+        # Kernel state (reuse existing or create new)
+        self._kernel_id = kernel_id
+        self._ws: Any = None
+        self._initialized = False
+        # WebSocket heartbeat
+        self._heartbeat_interval = 10000  # 10 seconds
+        self._heartbeat_callback: Any = None
+    async def __call__(self, code: str, execution_timeout: int = 15) -> list[ContentBlock]:
+        """Execute Python code in the Jupyter kernel.
+        Args:
+            code: Python code to execute
+            execution_timeout: Execution timeout in seconds (default: 15)
+        Returns:
+            List of ContentBlock with execution results
+        """
+        try:
+            # Ensure kernel is ready (lazy initialization)
+            await self._ensure_kernel()
+            # Execute code
+            result = await self._execute(code, execution_timeout)
+            # Check for timeout
+            if result.startswith("[Execution timed out"):
+                return ContentResult(error=result).to_content_blocks()
+            # Return result
+            output = result if result.strip() else "Code executed successfully (no output)"
+            return ContentResult(output=output).to_content_blocks()
+        except Exception as e:
+            logger.error("Jupyter execution error: %s", e)
+            raise ToolError(f"Execution failed: {e!s}") from e
+    async def _ensure_kernel(self) -> None:
+        """Ensure kernel is initialized and connected."""
+        if not self._initialized:
+            logger.info("Initializing Jupyter kernel connection")
+            await self._connect()
+            self._initialized = True
+            logger.info("Jupyter kernel connected successfully")
+    async def _connect(self) -> None:
+        """Connect to Jupyter kernel via WebSocket."""
+        import tornado.iostream
+        from tornado.escape import json_decode, json_encode, url_escape
+        from tornado.httpclient import AsyncHTTPClient, HTTPRequest
+        from tornado.ioloop import PeriodicCallback
+        from tornado.websocket import websocket_connect
+        if self._ws:
+            self._ws.close()
+            self._ws = None
+        client = AsyncHTTPClient()
+        if not self._kernel_id:
+            # Start a new kernel
+            n_tries = 5
+            while n_tries > 0:
+                try:
+                    response = await client.fetch(
+                        f"{self._base_url}/api/kernels",
+                        method="POST",
+                        body=json_encode({"name": self._kernel_name}),
+                    )
+                    kernel = json_decode(response.body)
+                    self._kernel_id = kernel["id"]
+                    logger.info("Kernel started with ID: %s", self._kernel_id)
+                    break
+                except Exception as e:
+                    logger.warning("Kernel connection attempt failed: %s", e)
+                    n_tries -= 1
+                    await asyncio.sleep(1)
+            if n_tries == 0:
+                raise ConnectionRefusedError("Failed to connect to kernel gateway")
+        # Connect WebSocket to kernel
+        ws_req = HTTPRequest(
+            url=f"{self._base_ws_url}/api/kernels/{url_escape(self._kernel_id)}/channels"
+        )
+        self._ws = await websocket_connect(ws_req)
+        logger.info("WebSocket connected to kernel")
+        # Setup heartbeat to keep connection alive
+        if self._heartbeat_callback:
+            self._heartbeat_callback.stop()
+        async def heartbeat() -> None:
+            if not self._ws:
+                return
+            try:
+                self._ws.ping()
+            except tornado.iostream.StreamClosedError:
+                try:
+                    await self._connect()
+                except ConnectionRefusedError:
+                    logger.warning(
+                        "Failed to reconnect to kernel websocket - Is the kernel still running?"
+                    )
+        self._heartbeat_callback = PeriodicCallback(heartbeat, self._heartbeat_interval)
+        self._heartbeat_callback.start()
+    async def _execute(self, code: str, execution_timeout: int = 15) -> str:
+        """Execute code in Jupyter kernel and return output.
+        Args:
+            code: Python code to execute
+            execution_timeout: Execution timeout in seconds
+        Returns:
+            String output from the kernel
+        """
+        from tornado.escape import json_decode, json_encode
+        from tornado.httpclient import AsyncHTTPClient
+        if not self._ws:
+            await self._connect()
+        msg_id = uuid4().hex
+        self._ws.write_message(
+            json_encode(
+                {
+                    "header": {
+                        "username": "",
+                        "version": "5.0",
+                        "session": "",
+                        "msg_id": msg_id,
+                        "msg_type": "execute_request",
+                    },
+                    "parent_header": {},
+                    "channel": "shell",
+                    "content": {
+                        "code": code,
+                        "silent": False,
+                        "store_history": False,
+                        "user_expressions": {},
+                        "allow_stdin": False,
+                    },
+                    "metadata": {},
+                    "buffers": {},
+                }
+            )
+        )
+        outputs: list[str] = []
+        async def wait_for_messages() -> bool:
+            execution_done = False
+            while not execution_done:
+                msg = await self._ws.read_message()
+                msg = json_decode(msg)
+                msg_type = msg["msg_type"]
+                parent_msg_id = msg["parent_header"].get("msg_id", None)
+                if parent_msg_id != msg_id:
+                    continue
+                if msg_type == "error":
+                    traceback = "\n\n\n\n".join(msg["content"]["traceback"])
+                    outputs.append(traceback)
+                    execution_done = True
+                elif msg_type == "stream":
+                    outputs.append(msg["content"]["text"])
+                elif msg_type in ["execute_result", "display_data"]:
+                    outputs.append(msg["content"]["data"]["text/plain"])
+                    # Handle image outputs
+                    if "image/png" in msg["content"]["data"]:
+                        outputs.append(
+                            f"![image](data:image/png;base64,{msg['content']['data']['image/png']})"
+                        )
+                elif msg_type == "execute_reply":
+                    execution_done = True
+            return execution_done
+        async def interrupt_kernel() -> None:
+            client = AsyncHTTPClient()
+            interrupt_response = await client.fetch(
+                f"{self._base_url}/api/kernels/{self._kernel_id}/interrupt",
+                method="POST",
+                body=json_encode({"kernel_id": self._kernel_id}),
+            )
+            logger.info("Kernel interrupted: %s", interrupt_response)
+        try:
+            await asyncio.wait_for(wait_for_messages(), execution_timeout)
+        except TimeoutError:
+            await interrupt_kernel()
+            return f"[Execution timed out ({execution_timeout} seconds).]"
+        ret = "".join(outputs)
+        # Remove ANSI escape sequences
+        return strip_ansi(ret)
+    async def shutdown(self) -> None:
+        """Shutdown the kernel connection."""
+        from tornado.httpclient import AsyncHTTPClient
+        if self._kernel_id:
+            client = AsyncHTTPClient()
+            try:
+                await client.fetch(
+                    f"{self._base_url}/api/kernels/{self._kernel_id}",
+                    method="DELETE",
+                )
+                logger.info("Kernel %s shut down", self._kernel_id)
+            except Exception as e:
+                logger.warning("Error shutting down kernel: %s", e)
+            self._kernel_id = ""
+            if self._heartbeat_callback:
+                self._heartbeat_callback.stop()
+                self._heartbeat_callback = None
+            if self._ws:
+                self._ws.close()
+                self._ws = None
+        self._initialized = False
+    def get_kernel_id(self) -> str:
+        """Get the jupyter kernel id."""
+        return self._kernel_id

hud-python 0.4.45__py3-none-any.whl → 0.5.1__py3-none-any.whl

hud-python 0.4.45py3-none-any.whl → 0.5.1py3-none-any.whl