PyPI - mcp-hangar - Versions diffs - 0.2.0__py3-none-any.whl - Mend

mcp-hangar 0.2.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (160) hide show

mcp_hangar/__init__.py +139 -0
mcp_hangar/application/__init__.py +1 -0
mcp_hangar/application/commands/__init__.py +67 -0
mcp_hangar/application/commands/auth_commands.py +118 -0
mcp_hangar/application/commands/auth_handlers.py +296 -0
mcp_hangar/application/commands/commands.py +59 -0
mcp_hangar/application/commands/handlers.py +189 -0
mcp_hangar/application/discovery/__init__.py +21 -0
mcp_hangar/application/discovery/discovery_metrics.py +283 -0
mcp_hangar/application/discovery/discovery_orchestrator.py +497 -0
mcp_hangar/application/discovery/lifecycle_manager.py +315 -0
mcp_hangar/application/discovery/security_validator.py +414 -0
mcp_hangar/application/event_handlers/__init__.py +50 -0
mcp_hangar/application/event_handlers/alert_handler.py +191 -0
mcp_hangar/application/event_handlers/audit_handler.py +203 -0
mcp_hangar/application/event_handlers/knowledge_base_handler.py +120 -0
mcp_hangar/application/event_handlers/logging_handler.py +69 -0
mcp_hangar/application/event_handlers/metrics_handler.py +152 -0
mcp_hangar/application/event_handlers/persistent_audit_store.py +217 -0
mcp_hangar/application/event_handlers/security_handler.py +604 -0
mcp_hangar/application/mcp/tooling.py +158 -0
mcp_hangar/application/ports/__init__.py +9 -0
mcp_hangar/application/ports/observability.py +237 -0
mcp_hangar/application/queries/__init__.py +52 -0
mcp_hangar/application/queries/auth_handlers.py +237 -0
mcp_hangar/application/queries/auth_queries.py +118 -0
mcp_hangar/application/queries/handlers.py +227 -0
mcp_hangar/application/read_models/__init__.py +11 -0
mcp_hangar/application/read_models/provider_views.py +139 -0
mcp_hangar/application/sagas/__init__.py +11 -0
mcp_hangar/application/sagas/group_rebalance_saga.py +137 -0
mcp_hangar/application/sagas/provider_failover_saga.py +266 -0
mcp_hangar/application/sagas/provider_recovery_saga.py +172 -0
mcp_hangar/application/services/__init__.py +9 -0
mcp_hangar/application/services/provider_service.py +208 -0
mcp_hangar/application/services/traced_provider_service.py +211 -0
mcp_hangar/bootstrap/runtime.py +328 -0
mcp_hangar/context.py +178 -0
mcp_hangar/domain/__init__.py +117 -0
mcp_hangar/domain/contracts/__init__.py +57 -0
mcp_hangar/domain/contracts/authentication.py +225 -0
mcp_hangar/domain/contracts/authorization.py +229 -0
mcp_hangar/domain/contracts/event_store.py +178 -0
mcp_hangar/domain/contracts/metrics_publisher.py +59 -0
mcp_hangar/domain/contracts/persistence.py +383 -0
mcp_hangar/domain/contracts/provider_runtime.py +146 -0
mcp_hangar/domain/discovery/__init__.py +20 -0
mcp_hangar/domain/discovery/conflict_resolver.py +267 -0
mcp_hangar/domain/discovery/discovered_provider.py +185 -0
mcp_hangar/domain/discovery/discovery_service.py +412 -0
mcp_hangar/domain/discovery/discovery_source.py +192 -0
mcp_hangar/domain/events.py +433 -0
mcp_hangar/domain/exceptions.py +525 -0
mcp_hangar/domain/model/__init__.py +70 -0
mcp_hangar/domain/model/aggregate.py +58 -0
mcp_hangar/domain/model/circuit_breaker.py +152 -0
mcp_hangar/domain/model/event_sourced_api_key.py +413 -0
mcp_hangar/domain/model/event_sourced_provider.py +423 -0
mcp_hangar/domain/model/event_sourced_role_assignment.py +268 -0
mcp_hangar/domain/model/health_tracker.py +183 -0
mcp_hangar/domain/model/load_balancer.py +185 -0
mcp_hangar/domain/model/provider.py +810 -0
mcp_hangar/domain/model/provider_group.py +656 -0
mcp_hangar/domain/model/tool_catalog.py +105 -0
mcp_hangar/domain/policies/__init__.py +19 -0
mcp_hangar/domain/policies/provider_health.py +187 -0
mcp_hangar/domain/repository.py +249 -0
mcp_hangar/domain/security/__init__.py +85 -0
mcp_hangar/domain/security/input_validator.py +710 -0
mcp_hangar/domain/security/rate_limiter.py +387 -0
mcp_hangar/domain/security/roles.py +237 -0
mcp_hangar/domain/security/sanitizer.py +387 -0
mcp_hangar/domain/security/secrets.py +501 -0
mcp_hangar/domain/services/__init__.py +20 -0
mcp_hangar/domain/services/audit_service.py +376 -0
mcp_hangar/domain/services/image_builder.py +328 -0
mcp_hangar/domain/services/provider_launcher.py +1046 -0
mcp_hangar/domain/value_objects.py +1138 -0
mcp_hangar/errors.py +818 -0
mcp_hangar/fastmcp_server.py +1105 -0
mcp_hangar/gc.py +134 -0
mcp_hangar/infrastructure/__init__.py +79 -0
mcp_hangar/infrastructure/async_executor.py +133 -0
mcp_hangar/infrastructure/auth/__init__.py +37 -0
mcp_hangar/infrastructure/auth/api_key_authenticator.py +388 -0
mcp_hangar/infrastructure/auth/event_sourced_store.py +567 -0
mcp_hangar/infrastructure/auth/jwt_authenticator.py +360 -0
mcp_hangar/infrastructure/auth/middleware.py +340 -0
mcp_hangar/infrastructure/auth/opa_authorizer.py +243 -0
mcp_hangar/infrastructure/auth/postgres_store.py +659 -0
mcp_hangar/infrastructure/auth/projections.py +366 -0
mcp_hangar/infrastructure/auth/rate_limiter.py +311 -0
mcp_hangar/infrastructure/auth/rbac_authorizer.py +323 -0
mcp_hangar/infrastructure/auth/sqlite_store.py +624 -0
mcp_hangar/infrastructure/command_bus.py +112 -0
mcp_hangar/infrastructure/discovery/__init__.py +110 -0
mcp_hangar/infrastructure/discovery/docker_source.py +289 -0
mcp_hangar/infrastructure/discovery/entrypoint_source.py +249 -0
mcp_hangar/infrastructure/discovery/filesystem_source.py +383 -0
mcp_hangar/infrastructure/discovery/kubernetes_source.py +247 -0
mcp_hangar/infrastructure/event_bus.py +260 -0
mcp_hangar/infrastructure/event_sourced_repository.py +443 -0
mcp_hangar/infrastructure/event_store.py +396 -0
mcp_hangar/infrastructure/knowledge_base/__init__.py +259 -0
mcp_hangar/infrastructure/knowledge_base/contracts.py +202 -0
mcp_hangar/infrastructure/knowledge_base/memory.py +177 -0
mcp_hangar/infrastructure/knowledge_base/postgres.py +545 -0
mcp_hangar/infrastructure/knowledge_base/sqlite.py +513 -0
mcp_hangar/infrastructure/metrics_publisher.py +36 -0
mcp_hangar/infrastructure/observability/__init__.py +10 -0
mcp_hangar/infrastructure/observability/langfuse_adapter.py +534 -0
mcp_hangar/infrastructure/persistence/__init__.py +33 -0
mcp_hangar/infrastructure/persistence/audit_repository.py +371 -0
mcp_hangar/infrastructure/persistence/config_repository.py +398 -0
mcp_hangar/infrastructure/persistence/database.py +333 -0
mcp_hangar/infrastructure/persistence/database_common.py +330 -0
mcp_hangar/infrastructure/persistence/event_serializer.py +280 -0
mcp_hangar/infrastructure/persistence/event_upcaster.py +166 -0
mcp_hangar/infrastructure/persistence/in_memory_event_store.py +150 -0
mcp_hangar/infrastructure/persistence/recovery_service.py +312 -0
mcp_hangar/infrastructure/persistence/sqlite_event_store.py +386 -0
mcp_hangar/infrastructure/persistence/unit_of_work.py +409 -0
mcp_hangar/infrastructure/persistence/upcasters/README.md +13 -0
mcp_hangar/infrastructure/persistence/upcasters/__init__.py +7 -0
mcp_hangar/infrastructure/query_bus.py +153 -0
mcp_hangar/infrastructure/saga_manager.py +401 -0
mcp_hangar/logging_config.py +209 -0
mcp_hangar/metrics.py +1007 -0
mcp_hangar/models.py +31 -0
mcp_hangar/observability/__init__.py +54 -0
mcp_hangar/observability/health.py +487 -0
mcp_hangar/observability/metrics.py +319 -0
mcp_hangar/observability/tracing.py +433 -0
mcp_hangar/progress.py +542 -0
mcp_hangar/retry.py +613 -0
mcp_hangar/server/__init__.py +120 -0
mcp_hangar/server/__main__.py +6 -0
mcp_hangar/server/auth_bootstrap.py +340 -0
mcp_hangar/server/auth_cli.py +335 -0
mcp_hangar/server/auth_config.py +305 -0
mcp_hangar/server/bootstrap.py +735 -0
mcp_hangar/server/cli.py +161 -0
mcp_hangar/server/config.py +224 -0
mcp_hangar/server/context.py +215 -0
mcp_hangar/server/http_auth_middleware.py +165 -0
mcp_hangar/server/lifecycle.py +467 -0
mcp_hangar/server/state.py +117 -0
mcp_hangar/server/tools/__init__.py +16 -0
mcp_hangar/server/tools/discovery.py +186 -0
mcp_hangar/server/tools/groups.py +75 -0
mcp_hangar/server/tools/health.py +301 -0
mcp_hangar/server/tools/provider.py +939 -0
mcp_hangar/server/tools/registry.py +320 -0
mcp_hangar/server/validation.py +113 -0
mcp_hangar/stdio_client.py +229 -0
mcp_hangar-0.2.0.dist-info/METADATA +347 -0
mcp_hangar-0.2.0.dist-info/RECORD +160 -0
mcp_hangar-0.2.0.dist-info/WHEEL +4 -0
mcp_hangar-0.2.0.dist-info/entry_points.txt +2 -0
mcp_hangar-0.2.0.dist-info/licenses/LICENSE +21 -0

mcp_hangar/domain/model/provider.py ADDED Viewed

@@ -0,0 +1,810 @@
+"""Provider aggregate root - the main domain entity."""
+import threading
+import time
+from typing import Any, Dict, List, Optional
+from ...logging_config import get_logger
+from ..contracts.metrics_publisher import IMetricsPublisher, NullMetricsPublisher
+from ..events import (
+    HealthCheckFailed,
+    HealthCheckPassed,
+    ProviderDegraded,
+    ProviderIdleDetected,
+    ProviderStarted,
+    ProviderStateChanged,
+    ProviderStopped,
+    ToolInvocationCompleted,
+    ToolInvocationFailed,
+    ToolInvocationRequested,
+)
+from ..exceptions import (
+    CannotStartProviderError,
+    InvalidStateTransitionError,
+    ProviderStartError,
+    ToolInvocationError,
+    ToolNotFoundError,
+)
+from ..value_objects import CorrelationId, HealthCheckInterval, IdleTTL, ProviderId, ProviderMode, ProviderState
+from .aggregate import AggregateRoot
+from .health_tracker import HealthTracker
+from .tool_catalog import ToolCatalog, ToolSchema
+logger = get_logger(__name__)
+# Valid state transitions
+VALID_TRANSITIONS = {
+    ProviderState.COLD: {ProviderState.INITIALIZING},
+    ProviderState.INITIALIZING: {
+        ProviderState.READY,
+        ProviderState.DEAD,
+        ProviderState.DEGRADED,
+    },
+    ProviderState.READY: {
+        ProviderState.COLD,
+        ProviderState.DEAD,
+        ProviderState.DEGRADED,
+    },
+    ProviderState.DEGRADED: {ProviderState.INITIALIZING, ProviderState.COLD},
+    ProviderState.DEAD: {ProviderState.INITIALIZING, ProviderState.DEGRADED},
+}
+class Provider(AggregateRoot):
+    """
+    Provider aggregate root.
+    Manages the complete lifecycle of an MCP provider including:
+    - State machine with valid transitions
+    - Health tracking and circuit breaker logic
+    - Tool catalog management
+    - Process/client management
+    All public operations are thread-safe using internal locking.
+    """
+    def __init__(
+        self,
+        provider_id: str,
+        mode: str | ProviderMode,  # Accept both string and enum
+        command: Optional[List[str]] = None,
+        image: Optional[str] = None,
+        endpoint: Optional[str] = None,
+        env: Optional[Dict[str, str]] = None,
+        idle_ttl_s: int | IdleTTL = 300,  # Accept both int and value object
+        health_check_interval_s: int | HealthCheckInterval = 60,  # Accept both int and value object
+        max_consecutive_failures: int = 3,
+        # Container-specific options
+        volumes: Optional[List[str]] = None,
+        build: Optional[Dict[str, str]] = None,
+        resources: Optional[Dict[str, str]] = None,
+        network: str = "none",
+        read_only: bool = True,
+        user: Optional[str] = None,  # UID:GID or username
+        description: Optional[str] = None,  # Description/preprompt for AI models
+        # Pre-defined tools (allows visibility before provider starts)
+        tools: Optional[List[Dict[str, Any]]] = None,
+        # Dependencies
+        metrics_publisher: Optional[IMetricsPublisher] = None,
+    ):
+        super().__init__()
+        # Identity
+        self._id = ProviderId(provider_id)
+        # Mode - normalize to ProviderMode enum (container -> docker)
+        self._mode = ProviderMode.normalize(mode)
+        self._description = description
+        # Configuration - normalize to value objects
+        self._command = command
+        self._image = image
+        self._endpoint = endpoint
+        self._env = env or {}
+        # Idle TTL - normalize to value object
+        if isinstance(idle_ttl_s, IdleTTL):
+            self._idle_ttl = idle_ttl_s
+        else:
+            self._idle_ttl = IdleTTL(idle_ttl_s)
+        # Health check interval - normalize to value object
+        if isinstance(health_check_interval_s, HealthCheckInterval):
+            self._health_check_interval = health_check_interval_s
+        else:
+            self._health_check_interval = HealthCheckInterval(health_check_interval_s)
+        # Container-specific configuration
+        self._volumes = volumes or []
+        self._build = build  # {"dockerfile": "...", "context": "..."}
+        self._resources = resources or {"memory": "512m", "cpu": "1.0"}
+        self._network = network
+        self._read_only = read_only
+        self._user = user
+        # Dependencies (Dependency Inversion Principle)
+        self._metrics_publisher = metrics_publisher or NullMetricsPublisher()
+        # State
+        self._state = ProviderState.COLD
+        self._health = HealthTracker(max_consecutive_failures=max_consecutive_failures)
+        self._tools = ToolCatalog()
+        self._client: Optional[Any] = None  # StdioClient
+        self._meta: Dict[str, Any] = {}
+        self._last_used: float = 0.0
+        # Pre-load tools from configuration (allows visibility before start)
+        self._tools_predefined = False
+        if tools:
+            self._tools.update_from_list(tools)
+            self._tools_predefined = True
+        # Thread safety
+        self._lock = threading.RLock()
+    # --- Properties ---
+    @property
+    def id(self) -> ProviderId:
+        """Provider identifier."""
+        return self._id
+    @property
+    def provider_id(self) -> str:
+        """Provider identifier as string (for backward compatibility)."""
+        return str(self._id)
+    @property
+    def mode(self) -> ProviderMode:
+        """Provider mode enum."""
+        return self._mode
+    @property
+    def mode_str(self) -> str:
+        """Provider mode as string (for backward compatibility)."""
+        return self._mode.value
+    @property
+    def description(self) -> Optional[str]:
+        """Provider description for AI models."""
+        return self._description
+    @property
+    def state(self) -> ProviderState:
+        """Current provider state."""
+        with self._lock:
+            return self._state
+    @property
+    def health(self) -> HealthTracker:
+        """Health tracker."""
+        return self._health
+    @property
+    def tools(self) -> ToolCatalog:
+        """Tool catalog."""
+        return self._tools
+    @property
+    def has_tools(self) -> bool:
+        """Check if provider has any tools registered (predefined or discovered)."""
+        return self._tools.count() > 0
+    @property
+    def tools_predefined(self) -> bool:
+        """Check if tools were predefined in configuration (no startup needed for visibility)."""
+        return self._tools_predefined
+    @property
+    def is_alive(self) -> bool:
+        """Check if provider client is alive."""
+        with self._lock:
+            return self._client is not None and self._client.is_alive()
+    @property
+    def last_used(self) -> float:
+        """Timestamp of last tool invocation."""
+        with self._lock:
+            return self._last_used
+    @property
+    def idle_time(self) -> float:
+        """Time since last use in seconds."""
+        with self._lock:
+            if self._last_used == 0:
+                return 0.0
+            return time.time() - self._last_used
+    @property
+    def is_idle(self) -> bool:
+        """Check if provider has been idle longer than TTL."""
+        with self._lock:
+            if self._state != ProviderState.READY:
+                return False
+            if self._last_used == 0:
+                return False
+            return self.idle_time > self._idle_ttl.seconds
+    @property
+    def meta(self) -> Dict[str, Any]:
+        """Provider metadata."""
+        with self._lock:
+            return dict(self._meta)
+    @property
+    def lock(self) -> threading.RLock:
+        """Get the internal lock (for backward compatibility)."""
+        return self._lock
+    # --- State Management ---
+    def _transition_to(self, new_state: ProviderState) -> None:
+        """
+        Transition to a new state (must hold lock).
+        Validates the transition is valid according to state machine rules.
+        Records a ProviderStateChanged event.
+        """
+        if new_state == self._state:
+            return
+        if new_state not in VALID_TRANSITIONS.get(self._state, set()):
+            raise InvalidStateTransitionError(self.provider_id, str(self._state.value), str(new_state.value))
+        old_state = self._state
+        self._state = new_state
+        self._increment_version()
+        self._record_event(
+            ProviderStateChanged(
+                provider_id=self.provider_id,
+                old_state=str(old_state.value),
+                new_state=str(new_state.value),
+            )
+        )
+    def _can_start(self) -> tuple:
+        """
+        Check if provider can be started (must hold lock).
+        Returns: (can_start, reason, time_until_retry)
+        """
+        if self._state == ProviderState.READY:
+            if self._client and self._client.is_alive():
+                return True, "already_ready", 0
+        if self._state == ProviderState.DEGRADED:
+            if not self._health.can_retry():
+                time_left = self._health.time_until_retry()
+                return False, "backoff_not_elapsed", time_left
+        return True, "", 0
+    # --- Business Operations ---
+    def ensure_ready(self) -> None:
+        """
+        Ensure provider is in READY state, starting if necessary.
+        Thread-safe. Blocks until ready or raises exception.
+        Raises:
+            CannotStartProviderError: If backoff hasn't elapsed
+            ProviderStartError: If provider fails to start
+        """
+        with self._lock:
+            # Fast path - already ready
+            if self._state == ProviderState.READY:
+                if self._client and self._client.is_alive():
+                    return
+                # Client died
+                logger.warning(f"provider_dead: {self.provider_id}")
+                self._state = ProviderState.DEAD
+            # Check if we can start
+            can_start, reason, time_left = self._can_start()
+            if not can_start:
+                raise CannotStartProviderError(
+                    self.provider_id,
+                    f"backoff not elapsed, retry in {time_left:.1f}s",
+                    time_left,
+                )
+            # Start if needed
+            if self._state in (
+                ProviderState.COLD,
+                ProviderState.DEAD,
+                ProviderState.DEGRADED,
+            ):
+                self._start()
+    def _start(self) -> None:
+        """
+        Start provider process (must hold lock).
+        Handles subprocess, docker, container modes.
+        """
+        start_time = time.time()
+        self._transition_to(ProviderState.INITIALIZING)
+        cold_start_time = self._begin_cold_start_tracking()
+        try:
+            client = self._create_client()
+            self._perform_mcp_handshake(client)
+            self._finalize_start(client, start_time)
+            self._end_cold_start_tracking(cold_start_time, success=True)
+        except ProviderStartError:
+            self._end_cold_start_tracking(cold_start_time, success=False)
+            self._handle_start_failure(None)
+            raise
+        except Exception as e:
+            self._end_cold_start_tracking(cold_start_time, success=False)
+            self._handle_start_failure(e)
+            raise ProviderStartError(self.provider_id, str(e)) from e
+    def _begin_cold_start_tracking(self) -> Optional[float]:
+        """Begin tracking cold start metrics. Returns start timestamp."""
+        try:
+            self._metrics_publisher.begin_cold_start(self.provider_id)
+            return time.time()
+        except Exception:
+            return None
+    def _end_cold_start_tracking(self, start_time: Optional[float], success: bool) -> None:
+        """End cold start tracking and record metrics."""
+        if start_time is None:
+            return
+        try:
+            if success:
+                duration = time.time() - start_time
+                self._metrics_publisher.record_cold_start(self.provider_id, duration, self._mode.value)
+            self._metrics_publisher.end_cold_start(self.provider_id)
+        except Exception:
+            pass
+    def _create_client(self) -> Any:
+        """Create and return the appropriate client based on mode."""
+        from ..services.provider_launcher import get_launcher
+        launcher = get_launcher(self._mode.value)
+        config = self._get_launch_config()
+        return launcher.launch(**config)
+    def _get_launch_config(self) -> Dict[str, Any]:
+        """Get launch configuration for the current mode."""
+        if self._mode == ProviderMode.SUBPROCESS:
+            return {"command": self._command, "env": self._env}
+        if self._mode == ProviderMode.DOCKER:
+            return {
+                "image": self._image,
+                "volumes": self._volumes,
+                "env": self._env,
+                "memory_limit": self._resources.get("memory", "512m"),
+                "cpu_limit": self._resources.get("cpu", "1.0"),
+                "network": self._network,
+                "read_only": self._read_only,
+                "user": self._user,
+            }
+        if self._mode.value in ("container", "podman"):
+            return {
+                "image": self._get_container_image(),
+                "volumes": self._volumes,
+                "env": self._env,
+                "memory_limit": self._resources.get("memory", "512m"),
+                "cpu_limit": self._resources.get("cpu", "1.0"),
+                "network": self._network,
+                "read_only": self._read_only,
+                "user": self._user,
+            }
+        raise ValueError(f"unsupported_mode: {self._mode.value}")
+    def _get_container_image(self) -> str:
+        """Get or build container image."""
+        from ..services.image_builder import BuildConfig, get_image_builder
+        if self._build and self._build.get("dockerfile"):
+            runtime = "podman" if self._mode.value == "podman" else "auto"
+            builder = get_image_builder(runtime=runtime)
+            build_config = BuildConfig(
+                dockerfile=self._build["dockerfile"],
+                context=self._build.get("context", "."),
+                tag=self._build.get("tag"),
+            )
+            image = builder.build_if_needed(build_config)
+            logger.info(f"Built image for {self.provider_id}: {image}")
+            return image
+        if not self._image:
+            raise ProviderStartError(
+                self.provider_id,
+                "Container mode requires 'image' or 'build.dockerfile'",
+            )
+        return self._image
+    def _perform_mcp_handshake(self, client: Any) -> None:
+        """Perform MCP initialize and tools/list handshake."""
+        # Initialize
+        init_resp = client.call(
+            "initialize",
+            {
+                "protocolVersion": "2024-11-05",
+                "capabilities": {},
+                "clientInfo": {"name": "mcp-registry", "version": "1.0.0"},
+            },
+            timeout=10.0,
+        )
+        if "error" in init_resp:
+            error_msg = init_resp["error"].get("message", "unknown")
+            self._log_client_error(client, error_msg)
+            raise ProviderStartError(self.provider_id, f"init_failed: {error_msg}")
+        # Discover tools
+        tools_resp = client.call("tools/list", {}, timeout=10.0)
+        if "error" in tools_resp:
+            error_msg = tools_resp["error"].get("message", "unknown")
+            raise ProviderStartError(self.provider_id, f"tools_list_failed: {error_msg}")
+        tool_list = tools_resp.get("result", {}).get("tools", [])
+        self._tools.update_from_list(tool_list)
+    def _log_client_error(self, client: Any, error_msg: str) -> None:
+        """Log detailed error info for debugging (especially in CI)."""
+        if error_msg != "reader_died":
+            return
+        proc = getattr(client, "process", None)
+        if not proc:
+            return
+        # Try to capture stderr
+        stderr = getattr(proc, "stderr", None)
+        if stderr:
+            try:
+                err_bytes = stderr.read()
+                if err_bytes:
+                    err_text = (err_bytes if isinstance(err_bytes, str) else err_bytes.decode(errors="replace")).strip()
+                    if err_text:
+                        logger.error(f"provider_container_stderr: {err_text}")
+            except Exception:
+                pass
+        # Log exit code
+        try:
+            rc = proc.poll()
+            if rc is not None:
+                logger.error(f"provider_process_exit_code: {rc}")
+        except Exception:
+            pass
+    def _finalize_start(self, client: Any, start_time: float) -> None:
+        """Finalize successful provider start."""
+        self._client = client
+        self._meta = {
+            "init_result": {},
+            "tools_count": self._tools.count(),
+            "started_at": time.time(),
+        }
+        self._transition_to(ProviderState.READY)
+        self._health.record_success()
+        self._last_used = time.time()
+        startup_duration_ms = (time.time() - start_time) * 1000
+        self._record_event(
+            ProviderStarted(
+                provider_id=self.provider_id,
+                mode=self._mode.value,
+                tools_count=self._tools.count(),
+                startup_duration_ms=startup_duration_ms,
+            )
+        )
+        logger.info(f"provider_started: {self.provider_id}, mode={self._mode.value}, tools={self._tools.count()}")
+    def _handle_start_failure(self, error: Optional[Exception]) -> None:
+        """Handle start failure (must hold lock)."""
+        # Clean up client if partially started
+        if self._client:
+            try:
+                self._client.close()
+            except Exception:
+                pass
+            self._client = None
+        self._health.record_failure()
+        error_str = str(error) if error else "unknown error"
+        # Determine new state
+        if self._health.should_degrade():
+            # Use direct assignment to avoid transition validation issues
+            self._state = ProviderState.DEGRADED
+            self._increment_version()
+            logger.warning(f"provider_degraded: {self.provider_id}, failures={self._health.consecutive_failures}")
+            self._record_event(
+                ProviderDegraded(
+                    provider_id=self.provider_id,
+                    consecutive_failures=self._health.consecutive_failures,
+                    total_failures=self._health.total_failures,
+                    reason=error_str,
+                )
+            )
+        else:
+            self._state = ProviderState.DEAD
+            self._increment_version()
+        logger.error(f"provider_start_failed: {self.provider_id}, error={error_str}")
+    def invoke_tool(self, tool_name: str, arguments: Dict[str, Any], timeout: float = 30.0) -> Dict[str, Any]:
+        """
+        Invoke a tool on this provider.
+        Thread-safe. Ensures provider is ready before invocation.
+        Args:
+            tool_name: Name of the tool to invoke
+            arguments: Tool arguments
+            timeout: Timeout in seconds
+        Returns:
+            Tool result dictionary
+        Raises:
+            CannotStartProviderError: If provider cannot be started
+            ToolNotFoundError: If tool doesn't exist
+            ToolInvocationError: If invocation fails
+        """
+        correlation_id = str(CorrelationId())
+        with self._lock:
+            # Ensure ready
+            self.ensure_ready()
+            # Check tool exists
+            if not self._tools.has(tool_name):
+                # Try refreshing tools once
+                self._refresh_tools()
+            if not self._tools.has(tool_name):
+                raise ToolNotFoundError(self.provider_id, tool_name)
+            self._health._total_invocations += 1
+            # Record start event
+            self._record_event(
+                ToolInvocationRequested(
+                    provider_id=self.provider_id,
+                    tool_name=tool_name,
+                    correlation_id=correlation_id,
+                    arguments=arguments,
+                )
+            )
+            start_time = time.time()
+            try:
+                response = self._client.call(
+                    "tools/call",
+                    {"name": tool_name, "arguments": arguments},
+                    timeout=timeout,
+                )
+                if "error" in response:
+                    error_msg = response["error"].get("message", "unknown")
+                    self._health.record_invocation_failure()
+                    self._record_event(
+                        ToolInvocationFailed(
+                            provider_id=self.provider_id,
+                            tool_name=tool_name,
+                            correlation_id=correlation_id,
+                            error_message=error_msg,
+                            error_type=str(response["error"].get("code", "unknown")),
+                        )
+                    )
+                    raise ToolInvocationError(
+                        self.provider_id,
+                        f"tool_error: {error_msg}",
+                        {"tool_name": tool_name, "correlation_id": correlation_id},
+                    )
+                # Success
+                duration_ms = (time.time() - start_time) * 1000
+                self._health.record_success()
+                self._last_used = time.time()
+                result = response.get("result", {})
+                self._record_event(
+                    ToolInvocationCompleted(
+                        provider_id=self.provider_id,
+                        tool_name=tool_name,
+                        correlation_id=correlation_id,
+                        duration_ms=duration_ms,
+                        result_size_bytes=len(str(result)),
+                    )
+                )
+                logger.debug(f"tool_invoked: {correlation_id}, provider={self.provider_id}, tool={tool_name}")
+                return result
+            except ToolInvocationError:
+                raise
+            except Exception as e:
+                self._health.record_failure()
+                self._record_event(
+                    ToolInvocationFailed(
+                        provider_id=self.provider_id,
+                        tool_name=tool_name,
+                        correlation_id=correlation_id,
+                        error_message=str(e),
+                        error_type=type(e).__name__,
+                    )
+                )
+                logger.error(
+                    f"tool_invocation_failed: {correlation_id}, "
+                    f"provider={self.provider_id}, tool={tool_name}, error={e}"
+                )
+                raise ToolInvocationError(
+                    self.provider_id,
+                    str(e),
+                    {"tool_name": tool_name, "correlation_id": correlation_id},
+                ) from e
+    def _refresh_tools(self) -> None:
+        """Refresh tool catalog from provider (must hold lock)."""
+        if not self._client or not self._client.is_alive():
+            return
+        try:
+            tools_resp = self._client.call("tools/list", {}, timeout=5.0)
+            if "result" in tools_resp:
+                tool_list = tools_resp.get("result", {}).get("tools", [])
+                self._tools.update_from_list(tool_list)
+        except Exception as e:
+            logger.warning(f"tool_refresh_failed: {self.provider_id}, error={e}")
+    def health_check(self) -> bool:
+        """
+        Perform active health check.
+        Thread-safe. Returns True if healthy.
+        """
+        with self._lock:
+            if self._state != ProviderState.READY:
+                return False
+            if not self._client or not self._client.is_alive():
+                self._state = ProviderState.DEAD
+                self._increment_version()
+                return False
+            try:
+                start_time = time.time()
+                response = self._client.call("tools/list", {}, timeout=5.0)
+                if "error" in response:
+                    raise Exception(response["error"].get("message", "unknown"))
+                duration_ms = (time.time() - start_time) * 1000
+                self._health.record_success()
+                self._record_event(HealthCheckPassed(provider_id=self.provider_id, duration_ms=duration_ms))
+                return True
+            except Exception as e:
+                self._health.record_failure()
+                self._record_event(
+                    HealthCheckFailed(
+                        provider_id=self.provider_id,
+                        consecutive_failures=self._health.consecutive_failures,
+                        error_message=str(e),
+                    )
+                )
+                logger.warning(f"health_check_failed: {self.provider_id}, error={e}")
+                if self._health.should_degrade():
+                    self._state = ProviderState.DEGRADED
+                    self._increment_version()
+                    logger.warning(f"provider_degraded_by_health_check: {self.provider_id}")
+                    self._record_event(
+                        ProviderDegraded(
+                            provider_id=self.provider_id,
+                            consecutive_failures=self._health.consecutive_failures,
+                            total_failures=self._health.total_failures,
+                            reason="health_check_failures",
+                        )
+                    )
+                return False
+    def maybe_shutdown_idle(self) -> bool:
+        """
+        Shutdown if idle past TTL.
+        Thread-safe. Returns True if shutdown was performed.
+        """
+        with self._lock:
+            if self._state != ProviderState.READY:
+                return False
+            idle_time = time.time() - self._last_used
+            if idle_time > self._idle_ttl.seconds:
+                self._record_event(
+                    ProviderIdleDetected(
+                        provider_id=self.provider_id,
+                        idle_duration_s=idle_time,
+                        last_used_at=self._last_used,
+                    )
+                )
+                logger.info(f"provider_idle_shutdown: {self.provider_id}, idle={idle_time:.1f}s")
+                self._shutdown_internal(reason="idle")
+                return True
+            return False
+    def shutdown(self) -> None:
+        """Explicit shutdown (public API). Thread-safe."""
+        with self._lock:
+            self._shutdown_internal(reason="shutdown")
+    def _shutdown_internal(self, reason: str = "shutdown") -> None:
+        """Shutdown implementation (must hold lock)."""
+        if self._client:
+            try:
+                self._client.close()
+            except Exception as e:
+                logger.warning(f"shutdown_error: {self.provider_id}, error={e}")
+            self._client = None
+        self._state = ProviderState.COLD
+        self._increment_version()
+        self._tools.clear()
+        self._meta.clear()
+        self._record_event(ProviderStopped(provider_id=self.provider_id, reason=reason))
+    # --- Compatibility Methods ---
+    def get_tool_names(self) -> List[str]:
+        """Get list of available tool names."""
+        with self._lock:
+            return self._tools.list_names()
+    def get_tools_dict(self) -> Dict[str, ToolSchema]:
+        """Get tools as dictionary (for backward compatibility)."""
+        with self._lock:
+            return self._tools.to_dict()
+    def to_status_dict(self) -> Dict[str, Any]:
+        """Get status as dictionary (for registry.list)."""
+        with self._lock:
+            return {
+                "provider": self.provider_id,
+                "state": self._state.value,
+                "alive": self._client is not None and self._client.is_alive(),
+                "mode": self._mode.value,
+                "image_or_command": self._image or self._command,
+                "tools_cached": self._tools.list_names(),
+                "health": self._health.to_dict(),
+                "meta": dict(self._meta),
+            }