PyPI - hud-python - Versions diffs - 0.4.45__py3-none-any.whl → 0.5.1__py3-none-any.whl - Mend

hud-python 0.4.45py3-none-any.whl → 0.5.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (274) hide show

hud/__init__.py +27 -7
hud/agents/__init__.py +11 -5
hud/agents/base.py +220 -500
hud/agents/claude.py +200 -240
hud/agents/gemini.py +275 -0
hud/agents/gemini_cua.py +335 -0
hud/agents/grounded_openai.py +98 -100
hud/agents/misc/integration_test_agent.py +51 -20
hud/agents/misc/response_agent.py +41 -36
hud/agents/openai.py +291 -292
hud/agents/{openai_chat_generic.py → openai_chat.py} +80 -34
hud/agents/operator.py +211 -0
hud/agents/tests/conftest.py +133 -0
hud/agents/tests/test_base.py +300 -622
hud/agents/tests/test_base_runtime.py +233 -0
hud/agents/tests/test_claude.py +379 -210
hud/agents/tests/test_client.py +9 -10
hud/agents/tests/test_gemini.py +369 -0
hud/agents/tests/test_grounded_openai_agent.py +65 -50
hud/agents/tests/test_openai.py +376 -140
hud/agents/tests/test_operator.py +362 -0
hud/agents/tests/test_run_eval.py +179 -0
hud/cli/__init__.py +461 -545
hud/cli/analyze.py +43 -5
hud/cli/build.py +664 -110
hud/cli/debug.py +8 -5
hud/cli/dev.py +882 -734
hud/cli/eval.py +782 -668
hud/cli/flows/dev.py +167 -0
hud/cli/flows/init.py +191 -0
hud/cli/flows/tasks.py +153 -56
hud/cli/flows/templates.py +151 -0
hud/cli/flows/tests/__init__.py +1 -0
hud/cli/flows/tests/test_dev.py +126 -0
hud/cli/init.py +60 -58
hud/cli/push.py +29 -11
hud/cli/rft.py +311 -0
hud/cli/rft_status.py +145 -0
hud/cli/tests/test_analyze.py +5 -5
hud/cli/tests/test_analyze_metadata.py +3 -2
hud/cli/tests/test_analyze_module.py +120 -0
hud/cli/tests/test_build.py +108 -6
hud/cli/tests/test_build_failure.py +41 -0
hud/cli/tests/test_build_module.py +50 -0
hud/cli/tests/test_cli_init.py +6 -1
hud/cli/tests/test_cli_more_wrappers.py +30 -0
hud/cli/tests/test_cli_root.py +140 -0
hud/cli/tests/test_convert.py +361 -0
hud/cli/tests/test_debug.py +12 -10
hud/cli/tests/test_dev.py +197 -0
hud/cli/tests/test_eval.py +251 -0
hud/cli/tests/test_eval_bedrock.py +51 -0
hud/cli/tests/test_init.py +124 -0
hud/cli/tests/test_main_module.py +11 -5
hud/cli/tests/test_mcp_server.py +12 -100
hud/cli/tests/test_push_happy.py +74 -0
hud/cli/tests/test_push_wrapper.py +23 -0
hud/cli/tests/test_registry.py +1 -1
hud/cli/tests/test_utils.py +1 -1
hud/cli/{rl → utils}/celebrate.py +14 -12
hud/cli/utils/config.py +18 -1
hud/cli/utils/docker.py +130 -4
hud/cli/utils/env_check.py +9 -9
hud/cli/utils/git.py +136 -0
hud/cli/utils/interactive.py +39 -5
hud/cli/utils/metadata.py +69 -0
hud/cli/utils/runner.py +1 -1
hud/cli/utils/server.py +2 -2
hud/cli/utils/source_hash.py +3 -3
hud/cli/utils/tasks.py +4 -1
hud/cli/utils/tests/__init__.py +0 -0
hud/cli/utils/tests/test_config.py +58 -0
hud/cli/utils/tests/test_docker.py +93 -0
hud/cli/utils/tests/test_docker_hints.py +71 -0
hud/cli/utils/tests/test_env_check.py +74 -0
hud/cli/utils/tests/test_environment.py +42 -0
hud/cli/utils/tests/test_git.py +142 -0
hud/cli/utils/tests/test_interactive_module.py +60 -0
hud/cli/utils/tests/test_local_runner.py +50 -0
hud/cli/utils/tests/test_logging_utils.py +23 -0
hud/cli/utils/tests/test_metadata.py +49 -0
hud/cli/utils/tests/test_package_runner.py +35 -0
hud/cli/utils/tests/test_registry_utils.py +49 -0
hud/cli/utils/tests/test_remote_runner.py +25 -0
hud/cli/utils/tests/test_runner_modules.py +52 -0
hud/cli/utils/tests/test_source_hash.py +36 -0
hud/cli/utils/tests/test_tasks.py +80 -0
hud/cli/utils/version_check.py +258 -0
hud/cli/{rl → utils}/viewer.py +2 -2
hud/clients/README.md +12 -11
hud/clients/__init__.py +4 -3
hud/clients/base.py +166 -26
hud/clients/environment.py +51 -0
hud/clients/fastmcp.py +13 -6
hud/clients/mcp_use.py +40 -15
hud/clients/tests/test_analyze_scenarios.py +206 -0
hud/clients/tests/test_protocol.py +9 -3
hud/datasets/__init__.py +23 -20
hud/datasets/loader.py +327 -0
hud/datasets/runner.py +192 -105
hud/datasets/tests/__init__.py +0 -0
hud/datasets/tests/test_loader.py +221 -0
hud/datasets/tests/test_utils.py +315 -0
hud/datasets/utils.py +270 -90
hud/environment/__init__.py +50 -0
hud/environment/connection.py +206 -0
hud/environment/connectors/__init__.py +33 -0
hud/environment/connectors/base.py +68 -0
hud/environment/connectors/local.py +177 -0
hud/environment/connectors/mcp_config.py +109 -0
hud/environment/connectors/openai.py +101 -0
hud/environment/connectors/remote.py +172 -0
hud/environment/environment.py +694 -0
hud/environment/integrations/__init__.py +45 -0
hud/environment/integrations/adk.py +67 -0
hud/environment/integrations/anthropic.py +196 -0
hud/environment/integrations/gemini.py +92 -0
hud/environment/integrations/langchain.py +82 -0
hud/environment/integrations/llamaindex.py +68 -0
hud/environment/integrations/openai.py +238 -0
hud/environment/mock.py +306 -0
hud/environment/router.py +112 -0
hud/environment/scenarios.py +493 -0
hud/environment/tests/__init__.py +1 -0
hud/environment/tests/test_connection.py +317 -0
hud/environment/tests/test_connectors.py +218 -0
hud/environment/tests/test_environment.py +161 -0
hud/environment/tests/test_integrations.py +257 -0
hud/environment/tests/test_local_connectors.py +201 -0
hud/environment/tests/test_scenarios.py +280 -0
hud/environment/tests/test_tools.py +208 -0
hud/environment/types.py +23 -0
hud/environment/utils/__init__.py +35 -0
hud/environment/utils/formats.py +215 -0
hud/environment/utils/schema.py +171 -0
hud/environment/utils/tool_wrappers.py +113 -0
hud/eval/__init__.py +67 -0
hud/eval/context.py +674 -0
hud/eval/display.py +299 -0
hud/eval/instrument.py +185 -0
hud/eval/manager.py +466 -0
hud/eval/parallel.py +268 -0
hud/eval/task.py +340 -0
hud/eval/tests/__init__.py +1 -0
hud/eval/tests/test_context.py +178 -0
hud/eval/tests/test_eval.py +210 -0
hud/eval/tests/test_manager.py +152 -0
hud/eval/tests/test_parallel.py +168 -0
hud/eval/tests/test_task.py +145 -0
hud/eval/types.py +63 -0
hud/eval/utils.py +183 -0
hud/patches/__init__.py +19 -0
hud/patches/mcp_patches.py +151 -0
hud/patches/warnings.py +54 -0
hud/samples/browser.py +4 -4
hud/server/__init__.py +2 -1
hud/server/low_level.py +2 -1
hud/server/router.py +164 -0
hud/server/server.py +567 -80
hud/server/tests/test_mcp_server_integration.py +11 -11
hud/server/tests/test_mcp_server_more.py +1 -1
hud/server/tests/test_server_extra.py +2 -0
hud/settings.py +45 -3
hud/shared/exceptions.py +36 -10
hud/shared/hints.py +26 -1
hud/shared/requests.py +15 -3
hud/shared/tests/test_exceptions.py +40 -31
hud/shared/tests/test_hints.py +167 -0
hud/telemetry/__init__.py +20 -19
hud/telemetry/exporter.py +201 -0
hud/telemetry/instrument.py +158 -253
hud/telemetry/tests/test_eval_telemetry.py +356 -0
hud/telemetry/tests/test_exporter.py +258 -0
hud/telemetry/tests/test_instrument.py +401 -0
hud/tools/__init__.py +16 -2
hud/tools/apply_patch.py +639 -0
hud/tools/base.py +54 -4
hud/tools/bash.py +2 -2
hud/tools/computer/__init__.py +4 -0
hud/tools/computer/anthropic.py +2 -2
hud/tools/computer/gemini.py +385 -0
hud/tools/computer/hud.py +23 -6
hud/tools/computer/openai.py +20 -21
hud/tools/computer/qwen.py +434 -0
hud/tools/computer/settings.py +37 -0
hud/tools/edit.py +3 -7
hud/tools/executors/base.py +4 -2
hud/tools/executors/pyautogui.py +1 -1
hud/tools/grounding/grounded_tool.py +13 -18
hud/tools/grounding/grounder.py +10 -31
hud/tools/grounding/tests/test_grounded_tool.py +26 -44
hud/tools/jupyter.py +330 -0
hud/tools/playwright.py +18 -3
hud/tools/shell.py +308 -0
hud/tools/tests/test_apply_patch.py +718 -0
hud/tools/tests/test_computer.py +4 -9
hud/tools/tests/test_computer_actions.py +24 -2
hud/tools/tests/test_jupyter_tool.py +181 -0
hud/tools/tests/test_shell.py +596 -0
hud/tools/tests/test_submit.py +85 -0
hud/tools/tests/test_types.py +193 -0
hud/tools/types.py +21 -1
hud/types.py +167 -57
hud/utils/__init__.py +2 -0
hud/utils/env.py +67 -0
hud/utils/hud_console.py +61 -3
hud/utils/mcp.py +15 -58
hud/utils/strict_schema.py +162 -0
hud/utils/tests/test_init.py +1 -2
hud/utils/tests/test_mcp.py +1 -28
hud/utils/tests/test_pretty_errors.py +186 -0
hud/utils/tests/test_tool_shorthand.py +154 -0
hud/utils/tests/test_version.py +1 -1
hud/utils/types.py +20 -0
hud/version.py +1 -1
hud_python-0.5.1.dist-info/METADATA +264 -0
hud_python-0.5.1.dist-info/RECORD +299 -0
{hud_python-0.4.45.dist-info → hud_python-0.5.1.dist-info}/WHEEL +1 -1
hud/agents/langchain.py +0 -261
hud/agents/lite_llm.py +0 -72
hud/cli/rl/__init__.py +0 -180
hud/cli/rl/config.py +0 -101
hud/cli/rl/display.py +0 -133
hud/cli/rl/gpu.py +0 -63
hud/cli/rl/gpu_utils.py +0 -321
hud/cli/rl/local_runner.py +0 -595
hud/cli/rl/presets.py +0 -96
hud/cli/rl/remote_runner.py +0 -463
hud/cli/rl/rl_api.py +0 -150
hud/cli/rl/vllm.py +0 -177
hud/cli/rl/wait_utils.py +0 -89
hud/datasets/parallel.py +0 -687
hud/misc/__init__.py +0 -1
hud/misc/claude_plays_pokemon.py +0 -292
hud/otel/__init__.py +0 -35
hud/otel/collector.py +0 -142
hud/otel/config.py +0 -181
hud/otel/context.py +0 -570
hud/otel/exporters.py +0 -369
hud/otel/instrumentation.py +0 -135
hud/otel/processors.py +0 -121
hud/otel/tests/__init__.py +0 -1
hud/otel/tests/test_processors.py +0 -197
hud/rl/README.md +0 -30
hud/rl/__init__.py +0 -1
hud/rl/actor.py +0 -176
hud/rl/buffer.py +0 -405
hud/rl/chat_template.jinja +0 -101
hud/rl/config.py +0 -192
hud/rl/distributed.py +0 -132
hud/rl/learner.py +0 -637
hud/rl/tests/__init__.py +0 -1
hud/rl/tests/test_learner.py +0 -186
hud/rl/train.py +0 -382
hud/rl/types.py +0 -101
hud/rl/utils/start_vllm_server.sh +0 -30
hud/rl/utils.py +0 -524
hud/rl/vllm_adapter.py +0 -143
hud/telemetry/job.py +0 -352
hud/telemetry/replay.py +0 -74
hud/telemetry/tests/test_replay.py +0 -40
hud/telemetry/tests/test_trace.py +0 -63
hud/telemetry/trace.py +0 -158
hud/utils/agent_factories.py +0 -86
hud/utils/async_utils.py +0 -65
hud/utils/group_eval.py +0 -223
hud/utils/progress.py +0 -149
hud/utils/tasks.py +0 -127
hud/utils/tests/test_async_utils.py +0 -173
hud/utils/tests/test_progress.py +0 -261
hud_python-0.4.45.dist-info/METADATA +0 -552
hud_python-0.4.45.dist-info/RECORD +0 -228
{hud_python-0.4.45.dist-info → hud_python-0.5.1.dist-info}/entry_points.txt +0 -0
{hud_python-0.4.45.dist-info → hud_python-0.5.1.dist-info}/licenses/LICENSE +0 -0

hud/server/server.py CHANGED Viewed

@@ -13,9 +13,13 @@ from typing import TYPE_CHECKING, Any
 import anyio
 from fastmcp.server.server import FastMCP, Transport
+from starlette.requests import Request
 from starlette.responses import JSONResponse, Response
+from hud.datasets import run_dataset
+from hud.eval.task import Task
 from hud.server.low_level import LowLevelServerWithInit
+from hud.types import LegacyTask
 if TYPE_CHECKING:
     from collections.abc import AsyncGenerator, Callable
@@ -133,7 +137,9 @@ class MCPServer(FastMCP):
        FastMCP ``FunctionTool`` interface.
     """
-    def __init__(self, *, name: str | None = None, **fastmcp_kwargs: Any) -> None:
+    def __init__(
+        self, name: str | None = None, instructions: str | None = None, **fastmcp_kwargs: Any
+    ) -> None:
         # Store shutdown function placeholder before super().__init__
         self._shutdown_fn: Callable | None = None
@@ -179,7 +185,7 @@ class MCPServer(FastMCP):
             fastmcp_kwargs["lifespan"] = _lifespan
-        super().__init__(name=name, **fastmcp_kwargs)
+        super().__init__(name=name, instructions=instructions, **fastmcp_kwargs)
         self._initializer_fn: Callable | None = None
         self._did_init = False
         self._replaced_server = False
@@ -237,6 +243,7 @@ class MCPServer(FastMCP):
         old_notification_handlers = self._mcp_server.notification_handlers
         self._mcp_server = LowLevelServerWithInit(
+            self,  # Pass FastMCP instance as required by parent class
             name=self.name,
             version=self.version,
             instructions=self.instructions,
@@ -309,11 +316,35 @@ class MCPServer(FastMCP):
         if transport is None:
             transport = "stdio"
-        # Register HTTP helpers for HTTP transport
+        # Register HTTP helpers and CORS for HTTP transport
         if transport in ("http", "sse"):
             self._register_hud_helpers()
             logger.info("Registered HUD helper endpoints at /hud/*")
+            # Add CORS middleware if not already provided
+            from starlette.middleware import Middleware
+            from starlette.middleware.cors import CORSMiddleware
+            # Get or create middleware list
+            middleware = transport_kwargs.get("middleware", [])
+            if isinstance(middleware, list):
+                # Check if CORS is already configured
+                has_cors = any(
+                    isinstance(m, Middleware) and m.cls == CORSMiddleware for m in middleware
+                )
+                if not has_cors:
+                    # Add CORS with permissive defaults for dev
+                    cors_middleware = Middleware(
+                        CORSMiddleware,
+                        allow_origins=["*"],
+                        allow_methods=["GET", "POST", "DELETE", "OPTIONS"],
+                        allow_headers=["*"],
+                        expose_headers=["Mcp-Session-Id"],
+                    )
+                    middleware = [cors_middleware, *middleware]
+                    transport_kwargs["middleware"] = middleware
+                    logger.info("Added CORS middleware for browser compatibility")
         try:
             await super().run_async(
                 transport=transport, show_banner=show_banner, **transport_kwargs
@@ -382,90 +413,546 @@ class MCPServer(FastMCP):
         return _wrapper
+    def include_router(
+        self,
+        router: FastMCP,
+        prefix: str | None = None,
+        hidden: bool = False,
+        **kwargs: Any,
+    ) -> None:
+        """Include a router's tools/resources with optional hidden dispatcher pattern.
+        Uses import_server for fast static composition (unlike mount which is slower).
+        Args:
+            router: FastMCP router to include
+            prefix: Optional prefix for tools/resources (ignored if hidden=True)
+            hidden: If True, wrap in HiddenRouter (single dispatcher tool that calls sub-tools)
+            **kwargs: Additional arguments passed to import_server()
+        Examples:
+            # Direct include - tools appear at top level
+            mcp.include_router(tools_router)
+            # Prefixed include - tools get prefix
+            mcp.include_router(admin_router, prefix="admin")
+            # Hidden include - single dispatcher tool
+            mcp.include_router(setup_router, hidden=True)
+        """
+        if not hidden:
+            # Synchronous composition - directly copy tools/resources
+            self._sync_import_router(router, hidden=False, prefix=prefix, **kwargs)
+            return
+        # Hidden pattern: wrap in HiddenRouter before importing
+        from .router import HiddenRouter
+        # Import the hidden router (synchronous)
+        self._sync_import_router(HiddenRouter(router), hidden=True, prefix=prefix, **kwargs)
+    def _sync_import_router(
+        self,
+        router: FastMCP,
+        hidden: bool = False,
+        prefix: str | None = None,
+        **kwargs: Any,
+    ) -> None:
+        """Synchronously import tools/resources from a router.
+        This is a synchronous alternative to import_server for use at module import time.
+        """
+        import re
+        # Import tools directly - use internal dict to preserve keys
+        tools = (
+            router._tool_manager._tools.items() if not hidden else router._sync_list_tools().items()  # type: ignore
+        )
+        for key, tool in tools:
+            # Validate tool name
+            if not re.match(r"^[a-zA-Z0-9_-]{1,128}$", key):
+                raise ValueError(
+                    f"Tool name '{key}' must match ^[a-zA-Z0-9_-]{{1,128}}$ "
+                    "(letters, numbers, underscore, hyphen only, 1-128 chars)"
+                )
+            new_key = f"{prefix}_{key}" if prefix else key
+            self._tool_manager._tools[new_key] = tool
+        # Import resources directly
+        for key, resource in router._resource_manager._resources.items():
+            new_key = f"{prefix}_{key}" if prefix else key
+            self._resource_manager._resources[new_key] = resource
+        # Import prompts directly
+        for key, prompt in router._prompt_manager._prompts.items():
+            new_key = f"{prefix}_{key}" if prefix else key
+            self._prompt_manager._prompts[new_key] = prompt
+    def _get_docker_logs(
+        self,
+        tail: int = 100,
+        since: str | None = None,
+        until: str | None = None,
+        timestamps: bool = False,
+    ) -> dict[str, Any]:
+        """Helper function to get Docker container logs.
+        Args:
+            tail: Number of lines to show from the end of the logs
+            since: Show logs since timestamp or relative time
+            until: Show logs before a timestamp or relative time
+            timestamps: Show timestamps in log output
+        Returns:
+            Dictionary with logs data or error information
+        """
+        import subprocess
+        container_name = os.environ.get("_HUD_DEV_DOCKER_CONTAINER")
+        if not container_name:
+            return {"items": [], "container_name": None, "error": "No container name found"}
+        # Build docker logs command
+        cmd = ["docker", "logs", "--tail", str(tail)]
+        if since:
+            cmd.extend(["--since", since])
+        if until:
+            cmd.extend(["--until", until])
+        if timestamps:
+            cmd.append("--timestamps")
+        cmd.append(container_name)
+        try:
+            # Run docker logs to get output
+            result = subprocess.run(  # noqa: S603
+                cmd,
+                stdout=subprocess.PIPE,
+                stderr=subprocess.STDOUT,
+                text=True,
+                encoding="utf-8",
+                errors="replace",
+                timeout=5,
+            )
+            # Parse logs into items
+            items = []
+            lines = result.stdout.strip().split("\n") if result.stdout else []
+            for i, line in enumerate(lines):
+                if line.strip():
+                    items.append(
+                        {
+                            "id": i,
+                            "stream": "mixed",
+                            "log": line,
+                            "container_name": container_name,
+                        }
+                    )
+            return {
+                "items": items,
+                "container_name": container_name,
+                "total_lines": len(items),
+            }
+        except subprocess.TimeoutExpired:
+            return {"error": "Docker logs timeout", "container_name": container_name, "items": []}
+        except Exception as e:
+            return {
+                "error": f"Failed to get logs: {e!s}",
+                "container_name": container_name,
+                "items": [],
+            }
     def _register_hud_helpers(self) -> None:
-        """Register HUD helper HTTP routes.
+        """Register development helper endpoints.
         This adds:
-        - GET /hud - Overview of available endpoints
-        - GET /hud/tools - List all registered tools with their schemas
-        - GET /hud/resources - List all registered resources
-        - GET /hud/prompts - List all registered prompts
+        - GET /docs - Interactive documentation and tool testing
+        - POST /api/tools/{name} - REST wrappers for MCP tools
+        - GET /openapi.json - OpenAPI spec for REST endpoints
+        - GET /logs - Development log endpoint (when provided by dev runtime)
+        - hud-logs tool - MCP tool for fetching logs (when in Docker mode)
         """
-        @self.custom_route("/hud/tools", methods=["GET"])
-        async def list_tools(request: Request) -> Response:
-            """List all registered tools with their names, descriptions, and schemas."""
-            tools = []
-            # _tools is a mapping of tool_name -> FunctionTool/Tool instance
+        # Register REST wrapper for each tool
+        def create_tool_endpoint(key: str) -> Any:
+            """Create a REST endpoint for an MCP tool."""
+            async def tool_endpoint(request: Request) -> Response:
+                """Call MCP tool via REST endpoint."""
+                try:
+                    data = await request.json()
+                except Exception:
+                    data = {}
+                try:
+                    result = await self._tool_manager.call_tool(key, data)
+                    # Recursively serialize MCP objects
+                    def serialize_obj(obj: Any) -> Any:
+                        """Recursively serialize MCP objects to JSON-compatible format."""
+                        if obj is None or isinstance(obj, str | int | float | bool):
+                            return obj
+                        if isinstance(obj, list | tuple):
+                            return [serialize_obj(item) for item in obj]
+                        if isinstance(obj, dict):
+                            return {k: serialize_obj(v) for k, v in obj.items()}
+                        if hasattr(obj, "model_dump"):
+                            # Pydantic v2
+                            return serialize_obj(obj.model_dump())
+                        if hasattr(obj, "dict"):
+                            # Pydantic v1
+                            return serialize_obj(obj.dict())
+                        if hasattr(obj, "__dict__"):
+                            # Dataclass or regular class
+                            return serialize_obj(obj.__dict__)
+                        # Fallback: convert to string
+                        return str(obj)
+                    serialized = serialize_obj(result)
+                    # Return the serialized CallToolResult directly (no wrapper)
+                    return JSONResponse(serialized)
+                except Exception as e:
+                    # Return a simple error object
+                    return JSONResponse({"error": str(e)}, status_code=400)
+            return tool_endpoint
+        for tool_key in self._tool_manager._tools.keys():  # noqa: SIM118
+            endpoint = create_tool_endpoint(tool_key)
+            self.custom_route(f"/api/tools/{tool_key}", methods=["POST"])(endpoint)
+        # Development endpoints - only if dev runtime set a provider
+        provider = os.environ.get("_HUD_DEV_LOGS_PROVIDER")
+        if provider == "enabled":
+            @self.custom_route("/logs", methods=["GET"])
+            async def get_logs(request: Request) -> Response:
+                """Return Docker container logs on demand.
+                Query params:
+                  - limit: max number of lines to return (default 100)
+                  - tail: number of lines from end to return (default 100)
+                """
+                # Get query params
+                params = request.query_params
+                tail = int(params.get("tail", "100"))
+                # Use helper function to get logs
+                result = self._get_docker_logs(tail=tail)
+                # Add 'next' field for compatibility with existing API
+                if "error" in result:
+                    return JSONResponse(result, status_code=500)
+                else:
+                    items = result.get("items", [])
+                    return JSONResponse(
+                        {
+                            "items": items,
+                            "next": len(items) - 1 if items else None,
+                        }
+                    )
+            # Import existing types from the codebase
+            from pydantic import BaseModel
+            from hud.types import AgentType
+            class EvalRequest(BaseModel):
+                """Request model for /eval endpoint."""
+                tasks: list[dict[str, Any]] = []
+                agent: str = "claude"
+                model: str | None = None
+                max_steps: int = 10
+                verbose: bool = False
+                group_size: int = 1
+                name: str | None = None
+            @self.custom_route("/eval", methods=["POST"])
+            async def run_eval(request: Request) -> Response:
+                """Run evaluation on tasks using the current Docker environment."""
+                import asyncio
+                import json
+                try:
+                    body = await request.body()
+                    data = json.loads(body)
+                    # Validate request using Pydantic model
+                    try:
+                        eval_request = EvalRequest(**data)
+                    except Exception as e:
+                        return JSONResponse({"error": f"Invalid request: {e!s}"}, status_code=400)
+                    # Get the Docker MCP config from environment
+                    docker_mcp_config = os.environ.get("_HUD_DEV_DOCKER_MCP_CONFIG")
+                    if not docker_mcp_config:
+                        return JSONResponse(
+                            {"error": "Docker MCP config not available"}, status_code=500
+                        )
+                    docker_config = json.loads(docker_mcp_config)
+                    # Simplify Docker config for evaluation
+                    if "docker" in docker_config and "args" in docker_config["docker"]:
+                        original_args = docker_config["docker"]["args"]
+                        filtered_args = []
+                        i = 0
+                        while i < len(original_args):
+                            arg = original_args[i]
+                            # Skip volume mounts and their values
+                            if arg in ["-v", "--volume"]:
+                                i += 2  # Skip the flag and its value
+                                continue
+                            # Skip combined volume mount args
+                            if arg.startswith(("-v", "--volume=")):
+                                i += 1
+                                continue
+                            # Skip explicit container name to avoid collisions
+                            if arg == "--name" and i + 1 < len(original_args):
+                                i += 2  # Skip the --name and its value
+                                continue
+                            # Skip dev-specific environment variables
+                            if arg == "-e" and i + 1 < len(original_args):
+                                next_arg = original_args[i + 1]
+                                if next_arg in [
+                                    "PYTHONPATH=/app",
+                                    "HUD_DEV=1",
+                                    "PYTHONUNBUFFERED=1",
+                                ]:
+                                    i += 2  # Skip the -e and its value
+                                    continue
+                            filtered_args.append(arg)
+                            i += 1
+                        # Update the docker args with filtered version
+                        docker_config["docker"]["args"] = filtered_args
+                    try:
+                        agent_type = AgentType(eval_request.agent.lower())
+                    except ValueError:
+                        valid_agents = [
+                            a.value for a in AgentType if a != AgentType.INTEGRATION_TEST
+                        ]
+                        return JSONResponse(
+                            {
+                                "error": f"Invalid agent type: {eval_request.agent}",
+                                "valid_agents": valid_agents,
+                            },
+                            status_code=400,
+                        )
+                    # Add MCP config to each task and validate basic structure
+                    task_objects: list[LegacyTask] = []
+                    for task_data in eval_request.tasks:
+                        task_data["mcp_config"] = docker_config
+                        task_objects.append(LegacyTask.model_validate(task_data))
+                    agent_params: dict[str, Any] = {}
+                    if eval_request.model:
+                        agent_params["checkpoint_name"] = eval_request.model
+                    # Fire and forget - launch evaluation in background
+                    async def run_eval_background() -> None:
+                        await run_dataset(
+                            [Task.from_v4(task) for task in task_objects],
+                            agent_type=agent_type,
+                            agent_params=agent_params,
+                            max_steps=eval_request.max_steps,
+                            group_size=eval_request.group_size,
+                        )
+                    # Start the evaluation in the background (fire and forget)
+                    asyncio.create_task(run_eval_background())  # noqa: RUF006
+                    # Return immediately
+                    response_data = {
+                        "status": "started",
+                        "message": f"Evaluation launched with {len(task_objects)} task(s)",
+                        "agent": eval_request.agent,
+                        "model": eval_request.model,
+                        "max_steps": eval_request.max_steps,
+                        "verbose": eval_request.verbose,
+                    }
+                    # Include group_size if > 1
+                    if eval_request.group_size > 1:
+                        response_data["group_size"] = eval_request.group_size
+                        response_data["total_episodes"] = (
+                            len(task_objects) * eval_request.group_size
+                        )
+                    return JSONResponse(response_data)
+                except json.JSONDecodeError:
+                    return JSONResponse({"error": "Invalid JSON in request body"}, status_code=400)
+                except Exception as e:
+                    return JSONResponse(
+                        {"error": f"Failed to run evaluation: {e!s}"}, status_code=500
+                    )
+        @self.custom_route("/openapi.json", methods=["GET"])
+        async def openapi_spec(request: Request) -> Response:
+            """Generate OpenAPI spec from MCP tools."""
+            spec = {
+                "openapi": "3.1.0",
+                "info": {
+                    "title": f"{self.name or 'MCP Server'} - Testing API",
+                    "version": "1.0.0",
+                    "description": (
+                        "REST API wrappers for testing MCP tools. "
+                        "These endpoints are for development/testing only. "
+                        "Agents should connect via MCP protocol (JSON-RPC over stdio/HTTP)."
+                    ),
+                },
+                "paths": {},
+            }
+            # Convert each MCP tool to an OpenAPI path
             for tool_key, tool in self._tool_manager._tools.items():
-                tool_data = {"name": tool_key}
                 try:
-                    # Prefer converting to MCP model for consistent fields
                     mcp_tool = tool.to_mcp_tool()
-                    tool_data["description"] = getattr(mcp_tool, "description", "")
-                    if hasattr(mcp_tool, "inputSchema") and mcp_tool.inputSchema:
-                        tool_data["input_schema"] = mcp_tool.inputSchema  # type: ignore[assignment]
-                    if hasattr(mcp_tool, "outputSchema") and mcp_tool.outputSchema:
-                        tool_data["output_schema"] = mcp_tool.outputSchema  # type: ignore[assignment]
-                except Exception:
-                    # Fallback to direct attributes on FunctionTool
-                    tool_data["description"] = getattr(tool, "description", "")
-                    params = getattr(tool, "parameters", None)
-                    if params:
-                        tool_data["input_schema"] = params
-                tools.append(tool_data)
-            return JSONResponse({"server": self.name, "tools": tools, "count": len(tools)})
-        @self.custom_route("/hud/resources", methods=["GET"])
-        async def list_resources(request: Request) -> Response:
-            """List all registered resources."""
-            resources = []
-            for resource_key, resource in self._resource_manager._resources.items():
-                resource_data = {
-                    "uri": resource_key,
-                    "name": resource.name,
-                    "description": resource.description,
-                    "mimeType": resource.mime_type,
-                }
-                resources.append(resource_data)
-            return JSONResponse(
-                {"server": self.name, "resources": resources, "count": len(resources)}
-            )
+                    input_schema = mcp_tool.inputSchema or {"type": "object"}
+                    spec["paths"][f"/api/tools/{tool_key}"] = {
+                        "post": {
+                            "summary": tool_key,
+                            "description": mcp_tool.description or "",
+                            "operationId": f"call_{tool_key}",
+                            "requestBody": {
+                                "required": True,
+                                "content": {"application/json": {"schema": input_schema}},
+                            },
+                            "responses": {
+                                "200": {
+                                    "description": "Success",
+                                    "content": {
+                                        "application/json": {
+                                            "schema": {
+                                                "type": "object",
+                                                "properties": {
+                                                    "success": {"type": "boolean"},
+                                                    "result": {"type": "object"},
+                                                },
+                                            }
+                                        }
+                                    },
+                                }
+                            },
+                        }
+                    }
+                except Exception as e:
+                    logger.warning("Failed to generate spec for %s: %s", tool_key, e)
+            return JSONResponse(spec)
+        # Register hud-logs tool when in Docker dev mode
+        container_name = os.environ.get("_HUD_DEV_DOCKER_CONTAINER")
+        if container_name:
+            @self.tool("hud-logs")
+            async def get_docker_logs(
+                tail: int = 100,
+                since: str | None = None,
+                until: str | None = None,
+                timestamps: bool = False,
+            ) -> dict[str, Any]:
+                """Get logs from the Docker container running the HUD environment.
+                Args:
+                    tail: Number of lines to show from the end of the logs (default: 100)
+                    since: Show logs since timestamp (e.g. 2013-01-02T13:23:37Z) or relative (42m)
+                    until: Show logs before timestamp (e.g. 2013-01-02T13:23:37Z) or relative (42m)
+                    timestamps: Show timestamps in log output
+                Returns:
+                    Dictionary with:
+                    - items: List of log entries
+                    - container_name: Name of the container
+                    - total_lines: Total number of log lines returned
+                    - error: Error message if logs could not be retrieved
+                """
+                # Use helper function to get logs
+                return self._get_docker_logs(
+                    tail=tail,
+                    since=since,
+                    until=until,
+                    timestamps=timestamps,
+                )
+        @self.custom_route("/docs", methods=["GET"])
+        async def docs_page(request: Request) -> Response:
+            """Interactive documentation page."""
+            import base64
+            import json
-        @self.custom_route("/hud/prompts", methods=["GET"])
-        async def list_prompts(request: Request) -> Response:
-            """List all registered prompts."""
-            prompts = []
-            for prompt_key, prompt in self._prompt_manager._prompts.items():
-                prompt_data = {
-                    "name": prompt_key,
-                    "description": prompt.description,
-                }
-                # Check if it has arguments
-                if hasattr(prompt, "arguments") and prompt.arguments:
-                    prompt_data["arguments"] = [
-                        {"name": arg.name, "description": arg.description, "required": arg.required}
-                        for arg in prompt.arguments
-                    ]
-                prompts.append(prompt_data)
-            return JSONResponse({"server": self.name, "prompts": prompts, "count": len(prompts)})
-        @self.custom_route("/hud", methods=["GET"])
-        async def hud_info(request: Request) -> Response:
-            """Show available HUD helper endpoints."""
             base_url = str(request.base_url).rstrip("/")
-            return JSONResponse(
-                {
-                    "name": "HUD MCP Development Helpers",
-                    "server": self.name,
-                    "endpoints": {
-                        "tools": f"{base_url}/hud/tools",
-                        "resources": f"{base_url}/hud/resources",
-                        "prompts": f"{base_url}/hud/prompts",
-                    },
-                    "description": "These endpoints help you inspect your MCP server during development.",  # noqa: E501
-                }
-            )
+            tool_count = len(self._tool_manager._tools)
+            resource_count = len(self._resource_manager._resources)
+            # Generate Cursor deeplink
+            server_config = {"url": f"{base_url}/mcp"}
+            config_json = json.dumps(server_config, indent=2)
+            config_base64 = base64.b64encode(config_json.encode()).decode()
+            cursor_deeplink = f"cursor://anysphere.cursor-deeplink/mcp/install?name={self.name or 'mcp-server'}&config={config_base64}"  # noqa: E501
+            html = f"""
+<!DOCTYPE html>
+<html lang="en">
+<head>
+    <meta charset="UTF-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1.0">
+    <title>{self.name or "MCP Server"} - Documentation</title>
+    <link rel="stylesheet" href="https://unpkg.com/swagger-ui-dist@5/swagger-ui.css">
+    <style>
+        body {{ margin: 0; padding: 0; font-family: monospace; }}
+        .header {{ padding: 1.5rem; border-bottom: 1px solid #e0e0e0; background: #fafafa; }}
+        .header h1 {{ margin: 0 0 0.5rem 0; font-size: 1.5rem; color: #000; }}
+        .header .info {{ margin: 0.25rem 0; color: #666; font-size: 0.9rem; }}
+        .header .warning {{ margin: 0.75rem 0 0 0; padding: 0.5rem; background: #fff3cd; border-left: 3px solid #ffc107; color: #856404; font-size: 0.85rem; }}
+        .header a {{ color: #000; text-decoration: underline; }}
+        .header a:hover {{ color: #666; }}
+        .topbar {{ display: none; }}
+    </style>
+</head>
+<body>
+    <div class="header">
+        <h1>{self.name or "MCP Server"} - Development Tools</h1>
+        <div class="info">MCP Endpoint (use this with agents): <a href="{base_url}/mcp">{base_url}/mcp</a></div>
+        <div class="info">Tools: {tool_count} | Resources: {resource_count}</div>
+        <div class="info">Add to Cursor: <a href="{cursor_deeplink}">Click here to install</a></div>
+        <div class="warning">
+            ⚠️ The REST API below is for testing only. Agents connect via MCP protocol at <code>{base_url}/mcp</code>
+        </div>
+    </div>
+    <div id="swagger-ui"></div>
+    <script src="https://unpkg.com/swagger-ui-dist@5/swagger-ui-bundle.js"></script>
+    <script src="https://unpkg.com/swagger-ui-dist@5/swagger-ui-standalone-preset.js"></script>
+    <script>
+        window.onload = function() {{
+            SwaggerUIBundle({{
+                url: '/openapi.json',
+                dom_id: '#swagger-ui',
+                deepLinking: true,
+                presets: [SwaggerUIBundle.presets.apis, SwaggerUIStandalonePreset],
+                layout: "StandaloneLayout",
+                tryItOutEnabled: true
+            }})
+        }}
+    </script>
+</body>
+</html>
+"""  # noqa: E501
+            return Response(content=html, media_type="text/html")

hud-python 0.4.45__py3-none-any.whl → 0.5.1__py3-none-any.whl

hud-python 0.4.45py3-none-any.whl → 0.5.1py3-none-any.whl