PyPI - hud-python - Versions diffs - 0.4.45__py3-none-any.whl → 0.5.1__py3-none-any.whl - Mend

hud-python 0.4.45py3-none-any.whl → 0.5.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (274) hide show

hud/__init__.py +27 -7
hud/agents/__init__.py +11 -5
hud/agents/base.py +220 -500
hud/agents/claude.py +200 -240
hud/agents/gemini.py +275 -0
hud/agents/gemini_cua.py +335 -0
hud/agents/grounded_openai.py +98 -100
hud/agents/misc/integration_test_agent.py +51 -20
hud/agents/misc/response_agent.py +41 -36
hud/agents/openai.py +291 -292
hud/agents/{openai_chat_generic.py → openai_chat.py} +80 -34
hud/agents/operator.py +211 -0
hud/agents/tests/conftest.py +133 -0
hud/agents/tests/test_base.py +300 -622
hud/agents/tests/test_base_runtime.py +233 -0
hud/agents/tests/test_claude.py +379 -210
hud/agents/tests/test_client.py +9 -10
hud/agents/tests/test_gemini.py +369 -0
hud/agents/tests/test_grounded_openai_agent.py +65 -50
hud/agents/tests/test_openai.py +376 -140
hud/agents/tests/test_operator.py +362 -0
hud/agents/tests/test_run_eval.py +179 -0
hud/cli/__init__.py +461 -545
hud/cli/analyze.py +43 -5
hud/cli/build.py +664 -110
hud/cli/debug.py +8 -5
hud/cli/dev.py +882 -734
hud/cli/eval.py +782 -668
hud/cli/flows/dev.py +167 -0
hud/cli/flows/init.py +191 -0
hud/cli/flows/tasks.py +153 -56
hud/cli/flows/templates.py +151 -0
hud/cli/flows/tests/__init__.py +1 -0
hud/cli/flows/tests/test_dev.py +126 -0
hud/cli/init.py +60 -58
hud/cli/push.py +29 -11
hud/cli/rft.py +311 -0
hud/cli/rft_status.py +145 -0
hud/cli/tests/test_analyze.py +5 -5
hud/cli/tests/test_analyze_metadata.py +3 -2
hud/cli/tests/test_analyze_module.py +120 -0
hud/cli/tests/test_build.py +108 -6
hud/cli/tests/test_build_failure.py +41 -0
hud/cli/tests/test_build_module.py +50 -0
hud/cli/tests/test_cli_init.py +6 -1
hud/cli/tests/test_cli_more_wrappers.py +30 -0
hud/cli/tests/test_cli_root.py +140 -0
hud/cli/tests/test_convert.py +361 -0
hud/cli/tests/test_debug.py +12 -10
hud/cli/tests/test_dev.py +197 -0
hud/cli/tests/test_eval.py +251 -0
hud/cli/tests/test_eval_bedrock.py +51 -0
hud/cli/tests/test_init.py +124 -0
hud/cli/tests/test_main_module.py +11 -5
hud/cli/tests/test_mcp_server.py +12 -100
hud/cli/tests/test_push_happy.py +74 -0
hud/cli/tests/test_push_wrapper.py +23 -0
hud/cli/tests/test_registry.py +1 -1
hud/cli/tests/test_utils.py +1 -1
hud/cli/{rl → utils}/celebrate.py +14 -12
hud/cli/utils/config.py +18 -1
hud/cli/utils/docker.py +130 -4
hud/cli/utils/env_check.py +9 -9
hud/cli/utils/git.py +136 -0
hud/cli/utils/interactive.py +39 -5
hud/cli/utils/metadata.py +69 -0
hud/cli/utils/runner.py +1 -1
hud/cli/utils/server.py +2 -2
hud/cli/utils/source_hash.py +3 -3
hud/cli/utils/tasks.py +4 -1
hud/cli/utils/tests/__init__.py +0 -0
hud/cli/utils/tests/test_config.py +58 -0
hud/cli/utils/tests/test_docker.py +93 -0
hud/cli/utils/tests/test_docker_hints.py +71 -0
hud/cli/utils/tests/test_env_check.py +74 -0
hud/cli/utils/tests/test_environment.py +42 -0
hud/cli/utils/tests/test_git.py +142 -0
hud/cli/utils/tests/test_interactive_module.py +60 -0
hud/cli/utils/tests/test_local_runner.py +50 -0
hud/cli/utils/tests/test_logging_utils.py +23 -0
hud/cli/utils/tests/test_metadata.py +49 -0
hud/cli/utils/tests/test_package_runner.py +35 -0
hud/cli/utils/tests/test_registry_utils.py +49 -0
hud/cli/utils/tests/test_remote_runner.py +25 -0
hud/cli/utils/tests/test_runner_modules.py +52 -0
hud/cli/utils/tests/test_source_hash.py +36 -0
hud/cli/utils/tests/test_tasks.py +80 -0
hud/cli/utils/version_check.py +258 -0
hud/cli/{rl → utils}/viewer.py +2 -2
hud/clients/README.md +12 -11
hud/clients/__init__.py +4 -3
hud/clients/base.py +166 -26
hud/clients/environment.py +51 -0
hud/clients/fastmcp.py +13 -6
hud/clients/mcp_use.py +40 -15
hud/clients/tests/test_analyze_scenarios.py +206 -0
hud/clients/tests/test_protocol.py +9 -3
hud/datasets/__init__.py +23 -20
hud/datasets/loader.py +327 -0
hud/datasets/runner.py +192 -105
hud/datasets/tests/__init__.py +0 -0
hud/datasets/tests/test_loader.py +221 -0
hud/datasets/tests/test_utils.py +315 -0
hud/datasets/utils.py +270 -90
hud/environment/__init__.py +50 -0
hud/environment/connection.py +206 -0
hud/environment/connectors/__init__.py +33 -0
hud/environment/connectors/base.py +68 -0
hud/environment/connectors/local.py +177 -0
hud/environment/connectors/mcp_config.py +109 -0
hud/environment/connectors/openai.py +101 -0
hud/environment/connectors/remote.py +172 -0
hud/environment/environment.py +694 -0
hud/environment/integrations/__init__.py +45 -0
hud/environment/integrations/adk.py +67 -0
hud/environment/integrations/anthropic.py +196 -0
hud/environment/integrations/gemini.py +92 -0
hud/environment/integrations/langchain.py +82 -0
hud/environment/integrations/llamaindex.py +68 -0
hud/environment/integrations/openai.py +238 -0
hud/environment/mock.py +306 -0
hud/environment/router.py +112 -0
hud/environment/scenarios.py +493 -0
hud/environment/tests/__init__.py +1 -0
hud/environment/tests/test_connection.py +317 -0
hud/environment/tests/test_connectors.py +218 -0
hud/environment/tests/test_environment.py +161 -0
hud/environment/tests/test_integrations.py +257 -0
hud/environment/tests/test_local_connectors.py +201 -0
hud/environment/tests/test_scenarios.py +280 -0
hud/environment/tests/test_tools.py +208 -0
hud/environment/types.py +23 -0
hud/environment/utils/__init__.py +35 -0
hud/environment/utils/formats.py +215 -0
hud/environment/utils/schema.py +171 -0
hud/environment/utils/tool_wrappers.py +113 -0
hud/eval/__init__.py +67 -0
hud/eval/context.py +674 -0
hud/eval/display.py +299 -0
hud/eval/instrument.py +185 -0
hud/eval/manager.py +466 -0
hud/eval/parallel.py +268 -0
hud/eval/task.py +340 -0
hud/eval/tests/__init__.py +1 -0
hud/eval/tests/test_context.py +178 -0
hud/eval/tests/test_eval.py +210 -0
hud/eval/tests/test_manager.py +152 -0
hud/eval/tests/test_parallel.py +168 -0
hud/eval/tests/test_task.py +145 -0
hud/eval/types.py +63 -0
hud/eval/utils.py +183 -0
hud/patches/__init__.py +19 -0
hud/patches/mcp_patches.py +151 -0
hud/patches/warnings.py +54 -0
hud/samples/browser.py +4 -4
hud/server/__init__.py +2 -1
hud/server/low_level.py +2 -1
hud/server/router.py +164 -0
hud/server/server.py +567 -80
hud/server/tests/test_mcp_server_integration.py +11 -11
hud/server/tests/test_mcp_server_more.py +1 -1
hud/server/tests/test_server_extra.py +2 -0
hud/settings.py +45 -3
hud/shared/exceptions.py +36 -10
hud/shared/hints.py +26 -1
hud/shared/requests.py +15 -3
hud/shared/tests/test_exceptions.py +40 -31
hud/shared/tests/test_hints.py +167 -0
hud/telemetry/__init__.py +20 -19
hud/telemetry/exporter.py +201 -0
hud/telemetry/instrument.py +158 -253
hud/telemetry/tests/test_eval_telemetry.py +356 -0
hud/telemetry/tests/test_exporter.py +258 -0
hud/telemetry/tests/test_instrument.py +401 -0
hud/tools/__init__.py +16 -2
hud/tools/apply_patch.py +639 -0
hud/tools/base.py +54 -4
hud/tools/bash.py +2 -2
hud/tools/computer/__init__.py +4 -0
hud/tools/computer/anthropic.py +2 -2
hud/tools/computer/gemini.py +385 -0
hud/tools/computer/hud.py +23 -6
hud/tools/computer/openai.py +20 -21
hud/tools/computer/qwen.py +434 -0
hud/tools/computer/settings.py +37 -0
hud/tools/edit.py +3 -7
hud/tools/executors/base.py +4 -2
hud/tools/executors/pyautogui.py +1 -1
hud/tools/grounding/grounded_tool.py +13 -18
hud/tools/grounding/grounder.py +10 -31
hud/tools/grounding/tests/test_grounded_tool.py +26 -44
hud/tools/jupyter.py +330 -0
hud/tools/playwright.py +18 -3
hud/tools/shell.py +308 -0
hud/tools/tests/test_apply_patch.py +718 -0
hud/tools/tests/test_computer.py +4 -9
hud/tools/tests/test_computer_actions.py +24 -2
hud/tools/tests/test_jupyter_tool.py +181 -0
hud/tools/tests/test_shell.py +596 -0
hud/tools/tests/test_submit.py +85 -0
hud/tools/tests/test_types.py +193 -0
hud/tools/types.py +21 -1
hud/types.py +167 -57
hud/utils/__init__.py +2 -0
hud/utils/env.py +67 -0
hud/utils/hud_console.py +61 -3
hud/utils/mcp.py +15 -58
hud/utils/strict_schema.py +162 -0
hud/utils/tests/test_init.py +1 -2
hud/utils/tests/test_mcp.py +1 -28
hud/utils/tests/test_pretty_errors.py +186 -0
hud/utils/tests/test_tool_shorthand.py +154 -0
hud/utils/tests/test_version.py +1 -1
hud/utils/types.py +20 -0
hud/version.py +1 -1
hud_python-0.5.1.dist-info/METADATA +264 -0
hud_python-0.5.1.dist-info/RECORD +299 -0
{hud_python-0.4.45.dist-info → hud_python-0.5.1.dist-info}/WHEEL +1 -1
hud/agents/langchain.py +0 -261
hud/agents/lite_llm.py +0 -72
hud/cli/rl/__init__.py +0 -180
hud/cli/rl/config.py +0 -101
hud/cli/rl/display.py +0 -133
hud/cli/rl/gpu.py +0 -63
hud/cli/rl/gpu_utils.py +0 -321
hud/cli/rl/local_runner.py +0 -595
hud/cli/rl/presets.py +0 -96
hud/cli/rl/remote_runner.py +0 -463
hud/cli/rl/rl_api.py +0 -150
hud/cli/rl/vllm.py +0 -177
hud/cli/rl/wait_utils.py +0 -89
hud/datasets/parallel.py +0 -687
hud/misc/__init__.py +0 -1
hud/misc/claude_plays_pokemon.py +0 -292
hud/otel/__init__.py +0 -35
hud/otel/collector.py +0 -142
hud/otel/config.py +0 -181
hud/otel/context.py +0 -570
hud/otel/exporters.py +0 -369
hud/otel/instrumentation.py +0 -135
hud/otel/processors.py +0 -121
hud/otel/tests/__init__.py +0 -1
hud/otel/tests/test_processors.py +0 -197
hud/rl/README.md +0 -30
hud/rl/__init__.py +0 -1
hud/rl/actor.py +0 -176
hud/rl/buffer.py +0 -405
hud/rl/chat_template.jinja +0 -101
hud/rl/config.py +0 -192
hud/rl/distributed.py +0 -132
hud/rl/learner.py +0 -637
hud/rl/tests/__init__.py +0 -1
hud/rl/tests/test_learner.py +0 -186
hud/rl/train.py +0 -382
hud/rl/types.py +0 -101
hud/rl/utils/start_vllm_server.sh +0 -30
hud/rl/utils.py +0 -524
hud/rl/vllm_adapter.py +0 -143
hud/telemetry/job.py +0 -352
hud/telemetry/replay.py +0 -74
hud/telemetry/tests/test_replay.py +0 -40
hud/telemetry/tests/test_trace.py +0 -63
hud/telemetry/trace.py +0 -158
hud/utils/agent_factories.py +0 -86
hud/utils/async_utils.py +0 -65
hud/utils/group_eval.py +0 -223
hud/utils/progress.py +0 -149
hud/utils/tasks.py +0 -127
hud/utils/tests/test_async_utils.py +0 -173
hud/utils/tests/test_progress.py +0 -261
hud_python-0.4.45.dist-info/METADATA +0 -552
hud_python-0.4.45.dist-info/RECORD +0 -228
{hud_python-0.4.45.dist-info → hud_python-0.5.1.dist-info}/entry_points.txt +0 -0
{hud_python-0.4.45.dist-info → hud_python-0.5.1.dist-info}/licenses/LICENSE +0 -0

hud/agents/tests/test_openai.py CHANGED Viewed

@@ -2,212 +2,448 @@
 from __future__ import annotations
-from unittest.mock import AsyncMock, MagicMock, patch
+from typing import TYPE_CHECKING, Any, cast
+from unittest.mock import AsyncMock, patch
 import pytest
 from mcp import types
-from hud.agents.openai import OperatorAgent
+from openai import AsyncOpenAI
+from openai.types.responses import (
+    ResponseFunctionToolCall,
+    ResponseOutputMessage,
+    ResponseOutputText,
+    ResponseReasoningItem,
+)
+from openai.types.responses.response_reasoning_item import Summary
+from hud.agents.openai import OpenAIAgent
+from hud.environment.router import ToolRouter
+from hud.eval.context import EvalContext
 from hud.types import MCPToolCall, MCPToolResult
+if TYPE_CHECKING:
+    from collections.abc import Generator
+class MockEvalContext(EvalContext):
+    """Mock EvalContext for testing."""
+    def __init__(self, tools: list[types.Tool] | None = None) -> None:
+        # Core attributes
+        self.prompt = "Test prompt"
+        self._tools = tools or []
+        self._submitted: str | None = None
+        self.reward: float | None = None
+        # Environment attributes
+        self._router = ToolRouter()
+        self._agent_include: list[str] | None = None
+        self._agent_exclude: list[str] | None = None
+        # EvalContext attributes
+        self._task = None
+        self.trace_id = "test-trace-id"
+        self.eval_name = "test-eval"
+        self.job_id: str | None = None
+        self.group_id: str | None = None
+        self.index = 0
+        self.variants: dict[str, Any] = {}
+        self.answer: str | None = None
+        self.system_prompt: str | None = None
+        self.error: BaseException | None = None
+        self.metadata: dict[str, Any] = {}
+        self.results: list[Any] = []
+        self._is_summary = False
+    def as_tools(self) -> list[types.Tool]:
+        return self._tools
+    @property
+    def has_scenario(self) -> bool:
+        return False
+    async def list_tools(self) -> list[types.Tool]:
+        return self._tools
+    async def call_tool(self, call: Any, /, **kwargs: Any) -> MCPToolResult:
+        return MCPToolResult(
+            content=[types.TextContent(type="text", text="ok")],
+            isError=False,
+        )
-class TestOperatorAgent:
-    """Test OperatorAgent class."""
+    async def submit(self, answer: str) -> None:
+        self._submitted = answer
-    @pytest.fixture
-    def mock_mcp_client(self):
-        """Create a mock MCP client."""
-        mcp_client = AsyncMock()
-        # Set up the mcp_config attribute as a regular dict, not a coroutine
-        mcp_client.mcp_config = {"test_server": {"url": "http://test"}}
-        # Mock list_tools to return the required openai_computer tool
-        mcp_client.list_tools = AsyncMock(
-            return_value=[
-                types.Tool(
-                    name="openai_computer", description="OpenAI computer use tool", inputSchema={}
-                )
-            ]
-        )
-        mcp_client.initialize = AsyncMock()
-        return mcp_client
+class TestOpenAIAgent:
+    """Test OpenAIAgent class."""
     @pytest.fixture
-    def mock_openai(self):
-        """Create a mock OpenAI client."""
-        with patch("hud.agents.openai.AsyncOpenAI") as mock:
-            client = AsyncMock()
-            mock.return_value = client
-            yield client
+    def mock_openai(self) -> Generator[AsyncOpenAI, None, None]:  # type: ignore[misc]
+        """Create a stub OpenAI client."""
+        with patch("hud.agents.openai.AsyncOpenAI") as mock_class:
+            client = AsyncOpenAI(api_key="test", base_url="http://localhost")
+            client.chat.completions.create = AsyncMock()
+            client.responses.create = AsyncMock()
+            mock_class.return_value = client
+            yield client  # type: ignore[misc]
     @pytest.mark.asyncio
-    async def test_init(self, mock_mcp_client):
-        """Test agent initialization."""
-        mock_model_client = MagicMock()
-        agent = OperatorAgent(
-            mcp_client=mock_mcp_client,
-            model_client=mock_model_client,
-            model="gpt-4",
-            validate_api_key=False,  # Skip validation in tests
+    async def test_init_with_client(self, mock_openai: AsyncOpenAI) -> None:
+        """Test agent initialization with provided client."""
+        agent = OpenAIAgent.create(
+            model_client=mock_openai,
+            model="gpt-4o",
+            validate_api_key=False,
         )
-        assert agent.model_name == "openai-gpt-4"
-        assert agent.model == "gpt-4"
-        assert agent.openai_client == mock_model_client
+        assert agent.model_name == "OpenAI"
+        assert agent.config.model == "gpt-4o"
+        assert agent.model == "gpt-4o"
+        assert agent.openai_client == mock_openai
+        assert agent.max_output_tokens is None
+        assert agent.temperature is None
+    @pytest.mark.asyncio
+    async def test_init_with_parameters(self, mock_openai: AsyncOpenAI) -> None:
+        """Test agent initialization with various parameters."""
+        agent = OpenAIAgent.create(
+            model_client=mock_openai,
+            model="gpt-4o",
+            max_output_tokens=2048,
+            temperature=0.7,
+            reasoning={"effort": "high"},
+            tool_choice="auto",
+            parallel_tool_calls=True,
+            validate_api_key=False,
+        )
+        assert agent.max_output_tokens == 2048
+        assert agent.temperature == 0.7
+        assert agent.reasoning == {"effort": "high"}
+        assert agent.tool_choice == "auto"
+        assert agent.parallel_tool_calls is True
+    @pytest.mark.asyncio
+    async def test_init_without_client_no_api_key(self) -> None:
+        """Test agent initialization fails without API key."""
+        with patch("hud.agents.openai.settings") as mock_settings:
+            mock_settings.openai_api_key = None
+            with pytest.raises(ValueError, match="OpenAI API key not found"):
+                OpenAIAgent.create()
     @pytest.mark.asyncio
-    async def test_format_blocks(self, mock_mcp_client):
-        """Test formatting content blocks."""
-        mock_model_client = MagicMock()
-        agent = OperatorAgent(
-            mcp_client=mock_mcp_client,
-            model_client=mock_model_client,
-            validate_api_key=False,  # Skip validation in tests
+    async def test_format_blocks_text_only(self, mock_openai: AsyncOpenAI) -> None:
+        """Test formatting text content blocks."""
+        agent = OpenAIAgent.create(
+            model_client=mock_openai,
+            validate_api_key=False,
         )
-        # Test with text blocks
         blocks: list[types.ContentBlock] = [
-            types.TextContent(type="text", text="Hello, GPT!"),
-            types.TextContent(type="text", text="Another message"),
+            types.TextContent(type="text", text="Hello, world!"),
+            types.TextContent(type="text", text="How are you?"),
         ]
         messages = await agent.format_blocks(blocks)
-        assert len(messages) == 2
-        assert messages[0] == {"type": "input_text", "text": "Hello, GPT!"}
-        assert messages[1] == {"type": "input_text", "text": "Another message"}
+        assert len(messages) == 1
+        assert messages[0]["role"] == "user"
+        assert len(messages[0]["content"]) == 2
+        assert messages[0]["content"][0]["type"] == "input_text"
+        assert messages[0]["content"][0]["text"] == "Hello, world!"
-        # Test with mixed content
-        blocks = [
-            types.TextContent(type="text", text="Text content"),
+    @pytest.mark.asyncio
+    async def test_format_blocks_with_image(self, mock_openai: AsyncOpenAI) -> None:
+        """Test formatting image content blocks."""
+        agent = OpenAIAgent.create(
+            model_client=mock_openai,
+            validate_api_key=False,
+        )
+        blocks: list[types.ContentBlock] = [
+            types.TextContent(type="text", text="Look at this:"),
             types.ImageContent(type="image", data="base64data", mimeType="image/png"),
         ]
         messages = await agent.format_blocks(blocks)
-        assert len(messages) == 2
-        assert messages[0] == {"type": "input_text", "text": "Text content"}
-        assert messages[1] == {
-            "type": "input_image",
-            "image_url": "data:image/png;base64,base64data",
-        }
-    @pytest.mark.asyncio
-    async def test_format_tool_results(self, mock_mcp_client, mock_openai):
-        """Test formatting tool results."""
-        agent = OperatorAgent(
-            mcp_client=mock_mcp_client,
+        assert len(messages) == 1
+        assert len(messages[0]["content"]) == 2
+        assert messages[0]["content"][1]["type"] == "input_image"
+        assert messages[0]["content"][1]["image_url"] == "data:image/png;base64,base64data"  # type: ignore[typeddict-item]
+    @pytest.mark.asyncio
+    async def test_format_blocks_empty(self, mock_openai: AsyncOpenAI) -> None:
+        """Test formatting empty content blocks."""
+        agent = OpenAIAgent.create(
             model_client=mock_openai,
-            validate_api_key=False,  # Skip validation in tests
+            validate_api_key=False,
         )
-        tool_calls = [
-            MCPToolCall(name="test_tool", arguments={}, id="call_123"),  # type: ignore
-            MCPToolCall(name="screenshot", arguments={}, id="call_456"),  # type: ignore
-        ]
+        messages = await agent.format_blocks([])
+        assert len(messages) == 1
+        # Empty blocks produce a single empty text item
+        assert len(messages[0]["content"]) == 1
+        assert messages[0]["content"][0]["type"] == "input_text"
+        assert messages[0]["content"][0]["text"] == ""
+    @pytest.mark.asyncio
+    async def test_format_tool_results_text(self, mock_openai: AsyncOpenAI) -> None:
+        """Test formatting tool results with text content."""
+        agent = OpenAIAgent.create(
+            model_client=mock_openai,
+            validate_api_key=False,
+        )
+        tool_calls = [MCPToolCall(id="call_123", name="test_tool", arguments={})]
         tool_results = [
-            MCPToolResult(content=[types.TextContent(type="text", text="Success")], isError=False),
             MCPToolResult(
-                content=[types.ImageContent(type="image", data="base64data", mimeType="image/png")],
+                content=[types.TextContent(type="text", text="Tool output")],
                 isError=False,
-            ),
+            )
         ]
         messages = await agent.format_tool_results(tool_calls, tool_results)
-        # OpenAI's format_tool_results returns input_image with screenshot
         assert len(messages) == 1
-        assert messages[0]["type"] == "input_image"
-        assert "image_url" in messages[0]
-        assert messages[0]["image_url"] == "data:image/png;base64,base64data"
+        assert messages[0]["type"] == "function_call_output"
+        assert messages[0]["call_id"] == "call_123"
+        # Output is a list of content items
+        assert len(messages[0]["output"]) == 1
+        assert messages[0]["output"][0]["text"] == "Tool output"  # type: ignore[index]
     @pytest.mark.asyncio
-    async def test_format_tool_results_with_error(self, mock_mcp_client, mock_openai):
-        """Test formatting tool results with errors."""
-        agent = OperatorAgent(
-            mcp_client=mock_mcp_client,
+    async def test_format_tool_results_with_error(self, mock_openai: AsyncOpenAI) -> None:
+        """Test formatting tool results with error."""
+        agent = OpenAIAgent.create(
             model_client=mock_openai,
-            validate_api_key=False,  # Skip validation in tests
+            validate_api_key=False,
         )
-        tool_calls = [
-            MCPToolCall(name="failing_tool", arguments={}, id="call_error"),  # type: ignore
-        ]
+        tool_calls = [MCPToolCall(id="call_123", name="test_tool", arguments={})]
         tool_results = [
             MCPToolResult(
-                content=[types.TextContent(type="text", text="Something went wrong")], isError=True
-            ),
+                content=[types.TextContent(type="text", text="Error message")],
+                isError=True,
+            )
         ]
         messages = await agent.format_tool_results(tool_calls, tool_results)
+        assert len(messages) == 1
+        # Output is a list; first item is error indicator, second is the message
+        msg = cast("dict[str, Any]", messages[0])
+        output = cast("list[dict[str, Any]]", msg["output"])
+        assert any(item.get("text") == "[tool_error] true" for item in output)
+        assert any(item.get("text") == "Error message" for item in output)
+    @pytest.mark.asyncio
+    async def test_get_system_messages(self, mock_openai: AsyncOpenAI) -> None:
+        """Test getting system messages - OpenAI uses instructions field instead."""
+        agent = OpenAIAgent.create(
+            model_client=mock_openai,
+            system_prompt="You are a helpful assistant.",
+            validate_api_key=False,
+        )
-        # Since the result has isError=True and no screenshot, returns empty list
+        # OpenAI agent returns empty list - system prompt is passed via instructions
+        messages = await agent.get_system_messages()
         assert len(messages) == 0
     @pytest.mark.asyncio
-    async def test_get_model_response(self, mock_mcp_client, mock_openai):
-        """Test getting model response from OpenAI API."""
-        # Disable telemetry for this test to avoid backend configuration issues
-        with patch("hud.settings.settings.telemetry_enabled", False):
-            agent = OperatorAgent(
-                mcp_client=mock_mcp_client,
-                model_client=mock_openai,
-                validate_api_key=False,  # Skip validation in tests
+    async def test_convert_tools_for_openai(self, mock_openai: AsyncOpenAI) -> None:
+        """Test converting MCP tools to OpenAI format."""
+        tools = [
+            types.Tool(
+                name="my_tool",
+                description="A test tool",
+                inputSchema={"type": "object", "properties": {"x": {"type": "string"}}},
             )
+        ]
+        ctx = MockEvalContext(tools=tools)
+        agent = OpenAIAgent.create(
+            model_client=mock_openai,
+            validate_api_key=False,
+        )
-            # Set up available tools so agent doesn't return "No computer use tools available"
-            agent._available_tools = [
-                types.Tool(name="computer_openai", description="Computer tool", inputSchema={})
-            ]
+        # Initialize with context to trigger tool conversion
+        agent.ctx = ctx
+        await agent._initialize_from_ctx(ctx)
-            # Mock OpenAI API response for a successful computer use response
-            mock_response = MagicMock()
-            mock_response.id = "response_123"
-            mock_response.state = "completed"
-            # Mock the output message structure
-            mock_output_text = MagicMock()
-            mock_output_text.type = "output_text"
-            mock_output_text.text = "I can see the screen content."
+        # Check that tools were converted
+        assert len(agent._openai_tools) >= 1
+        # Find our tool
+        tool = next((t for t in agent._openai_tools if t.get("name") == "my_tool"), None)
+        assert tool is not None
+        assert tool["type"] == "function"
-            mock_output_message = MagicMock()
-            mock_output_message.type = "message"
-            mock_output_message.content = [mock_output_text]
+    @pytest.mark.asyncio
+    async def test_convert_tools_raises_on_incomplete(self, mock_openai: AsyncOpenAI) -> None:
+        """Test that tools without description raise error."""
+        tools = [
+            types.Tool(
+                name="incomplete_tool",
+                description=None,  # Missing description
+                inputSchema={"type": "object"},
+            )
+        ]
+        ctx = MockEvalContext(tools=tools)
+        agent = OpenAIAgent.create(
+            model_client=mock_openai,
+            validate_api_key=False,
+        )
-            mock_response.output = [mock_output_message]
+        agent.ctx = ctx
+        with pytest.raises(ValueError, match="requires both a description"):
+            await agent._initialize_from_ctx(ctx)
-            mock_openai.responses.create = AsyncMock(return_value=mock_response)
+    @pytest.mark.asyncio
+    async def test_get_response_with_text(self, mock_openai: AsyncOpenAI) -> None:
+        """Test getting response with text output."""
+        # Setup mock response
+        mock_response = AsyncMock()
+        mock_response.output = [
+            ResponseOutputMessage(
+                id="msg_123",
+                type="message",
+                role="assistant",
+                status="completed",
+                content=[ResponseOutputText(type="output_text", text="Hello!", annotations=[])],
+            )
+        ]
+        mock_openai.responses.create = AsyncMock(return_value=mock_response)
-            messages = [{"prompt": "What's on the screen?", "screenshot": None}]
-            response = await agent.get_response(messages)
+        agent = OpenAIAgent.create(
+            model_client=mock_openai,
+            validate_api_key=False,
+        )
+        # Set empty tools to avoid needing initialization
+        agent._openai_tools = []
+        agent._initialized = True
-            # The test should verify that the response is processed correctly
-            # Since the isinstance checks will fail, content will be empty, but done should be True
-            assert response.done is True
-            assert response.tool_calls == []
+        response = await agent.get_response([])
+        assert response.content == "Hello!"
+        assert response.done is True
+        assert len(response.tool_calls) == 0
     @pytest.mark.asyncio
-    async def test_handle_empty_response(self, mock_mcp_client, mock_openai):
-        """Test handling empty response from API."""
-        agent = OperatorAgent(
-            mcp_client=mock_mcp_client,
+    async def test_get_response_with_tool_call(self, mock_openai: AsyncOpenAI) -> None:
+        """Test getting response with tool call."""
+        mock_response = AsyncMock()
+        # Tool calls come as separate output items, not inside message content
+        mock_response.output = [
+            ResponseFunctionToolCall(
+                id="call_123",
+                type="function_call",
+                call_id="call_123",
+                name="my_tool",
+                arguments='{"x": "value"}',
+            )
+        ]
+        mock_openai.responses.create = AsyncMock(return_value=mock_response)
+        agent = OpenAIAgent.create(
+            model_client=mock_openai,
+            validate_api_key=False,
+        )
+        agent._openai_tools = []
+        agent._tool_name_map = {"my_tool": "my_tool"}
+        agent._initialized = True
+        response = await agent.get_response([])
+        assert response.done is False
+        assert len(response.tool_calls) == 1
+        assert response.tool_calls[0].name == "my_tool"
+        assert response.tool_calls[0].arguments == {"x": "value"}
+    @pytest.mark.asyncio
+    async def test_get_response_with_reasoning(self, mock_openai: AsyncOpenAI) -> None:
+        """Test getting response with reasoning."""
+        mock_response = AsyncMock()
+        mock_response.output = [
+            ResponseReasoningItem(
+                id="reason_123",
+                type="reasoning",
+                summary=[Summary(type="summary_text", text="Thinking about it...")],
+            ),
+            ResponseOutputMessage(
+                id="msg_123",
+                type="message",
+                role="assistant",
+                status="completed",
+                content=[ResponseOutputText(type="output_text", text="Answer!", annotations=[])],
+            ),
+        ]
+        mock_openai.responses.create = AsyncMock(return_value=mock_response)
+        agent = OpenAIAgent.create(
             model_client=mock_openai,
-            validate_api_key=False,  # Skip validation in tests
+            validate_api_key=False,
         )
+        agent._openai_tools = []
+        agent._initialized = True
+        response = await agent.get_response([])
+        # Reasoning is stored separately from content
+        assert response.reasoning == "Thinking about it..."
+        assert response.content == "Answer!"
-        # Set up available tools
-        agent._available_tools = [
-            types.Tool(name="openai_computer", description="Computer tool", inputSchema={})
+class TestOpenAIToolConversion:
+    """Tests for tool conversion to OpenAI format."""
+    @pytest.fixture
+    def mock_openai(self) -> Generator[AsyncOpenAI, None, None]:  # type: ignore[misc]
+        """Create a stub OpenAI client."""
+        with patch("hud.agents.openai.AsyncOpenAI") as mock_class:
+            client = AsyncOpenAI(api_key="test", base_url="http://localhost")
+            client.responses.create = AsyncMock()
+            mock_class.return_value = client
+            yield client  # type: ignore[misc]
+    @pytest.mark.asyncio
+    async def test_shell_tool_conversion(self, mock_openai: AsyncOpenAI) -> None:
+        """Test that shell tool is converted to native format."""
+        tools = [
+            types.Tool(
+                name="shell",
+                description="Execute shell commands",
+                inputSchema={"type": "object"},
+            )
         ]
+        ctx = MockEvalContext(tools=tools)
+        agent = OpenAIAgent.create(
+            model_client=mock_openai,
+            validate_api_key=False,
+        )
-        # Mock empty response
-        mock_response = MagicMock()
-        mock_response.id = "response_empty"
-        mock_response.state = "completed"
-        mock_response.output = []  # Empty output
+        agent.ctx = ctx
+        await agent._initialize_from_ctx(ctx)
-        mock_openai.responses.create = AsyncMock(return_value=mock_response)
+        # Check for native shell tool
+        shell_tool = next((t for t in agent._openai_tools if t.get("type") == "shell"), None)
+        assert shell_tool is not None
+    @pytest.mark.asyncio
+    async def test_computer_tool_conversion(self, mock_openai: AsyncOpenAI) -> None:
+        """Test that computer tool is converted to function format."""
+        tools = [
+            types.Tool(
+                name="computer",
+                description="Control computer",
+                inputSchema={"type": "object"},
+            )
+        ]
+        ctx = MockEvalContext(tools=tools)
+        agent = OpenAIAgent.create(
+            model_client=mock_openai,
+            validate_api_key=False,
+        )
-        messages = [{"prompt": "Hi", "screenshot": None}]
-        response = await agent.get_response(messages)
+        agent.ctx = ctx
+        await agent._initialize_from_ctx(ctx)
-        assert response.content == ""
-        assert response.tool_calls == []
+        # Computer tool is converted to a regular function tool
+        computer_tool = next(
+            (t for t in agent._openai_tools if t.get("name") == "computer"),
+            None,
+        )
+        assert computer_tool is not None
+        assert computer_tool.get("type") == "function"

hud-python 0.4.45__py3-none-any.whl → 0.5.1__py3-none-any.whl

hud-python 0.4.45py3-none-any.whl → 0.5.1py3-none-any.whl