PyPI - wafer-core - Versions diffs - 0.1.27__py3-none-any.whl → 0.1.29__py3-none-any.whl - Mend

wafer-core 0.1.27py3-none-any.whl → 0.1.29py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (19) hide show

wafer_core/lib/trace_compare/aligner.py +13 -6
wafer_core/lib/trace_compare/analyzer.py +12 -3
wafer_core/lib/trace_compare/classifier.py +18 -9
wafer_core/lib/trace_compare/fusion_analyzer.py +424 -275
wafer_core/targets/__init__.py +47 -21
wafer_core/targets/pool.py +181 -0
wafer_core/targets/probe.py +113 -0
wafer_core/targets/providers/__init__.py +46 -0
wafer_core/targets/providers/baremetal.py +72 -0
wafer_core/targets/providers/digitalocean.py +164 -0
wafer_core/targets/providers/runpod.py +250 -0
wafer_core/targets/reconcile.py +90 -0
wafer_core/targets/spec_store.py +200 -0
wafer_core/targets/state_cache.py +150 -0
wafer_core/targets/types.py +141 -0
wafer_core/utils/kernel_utils/targets/config.py +8 -24
{wafer_core-0.1.27.dist-info → wafer_core-0.1.29.dist-info}/METADATA +1 -1
{wafer_core-0.1.27.dist-info → wafer_core-0.1.29.dist-info}/RECORD +19 -9
{wafer_core-0.1.27.dist-info → wafer_core-0.1.29.dist-info}/WHEEL +0 -0

wafer_core/targets/types.py ADDED Viewed

@@ -0,0 +1,141 @@
+"""Target and TargetSpec: the two core concepts for GPU resource management.
+TargetSpec = provisioning blueprint (TOML config, "how to get a GPU")
+Target = live running resource (from provider API, "what's actually running")
+TargetSpec is the existing union of provider-specific frozen dataclasses
+(RunPodTarget, DigitalOceanTarget, BaremetalTarget, etc.), re-exported here
+under the name TargetSpec for clarity.
+Target is always fetched from provider APIs. The spec_name field links a
+live resource back to the spec that created it (None = orphan/unbound).
+"""
+from __future__ import annotations
+from dataclasses import dataclass, field
+from typing import TYPE_CHECKING, Protocol, runtime_checkable
+if TYPE_CHECKING:
+    pass
+# TargetSpec is the existing union type, re-exported under a clearer name.
+# Each variant is a frozen dataclass with provider-specific provisioning params.
+from wafer_core.utils.kernel_utils.targets.config import (  # noqa: E402
+    TargetConfig,
+)
+# TargetSpec = TargetConfig (same union, better name for the new API)
+TargetSpec = TargetConfig
+@dataclass(frozen=True)
+class Target:
+    """A live running GPU resource, fetched from a provider API.
+    This is the runtime counterpart to TargetSpec. A TargetSpec describes
+    *how* to provision a GPU; a Target describes *what's actually running*.
+    The provider API is the source of truth for Target state. Local caches
+    (target_state.json) are performance hints only.
+    Fields:
+        resource_id: Provider's unique ID (pod_id, droplet_id, or
+            "baremetal:{host}:{port}" for SSH targets with no cloud lifecycle).
+        provider: Which cloud provider owns this resource.
+        status: Current state from provider API.
+        public_ip: SSH-reachable IP address (None if not yet assigned).
+        ssh_port: SSH port (None if not yet assigned).
+        ssh_username: SSH user (typically "root" for cloud providers).
+        gpu_type: GPU model name (e.g., "MI300X", "B200").
+        name: Provider-side resource name (e.g., "wafer-runpod-mi300x-1706000000",
+            "kernelbench-pool-0"). Used for spec_name inference.
+        created_at: ISO timestamp of resource creation (None if unknown).
+        spec_name: Name of the TargetSpec that owns this resource.
+            None means unbound (orphan) — running but no spec claims it.
+        price_per_hour: Cost in $/hr (None if unknown or baremetal).
+        labels: Software metadata not available from the provider API's
+            structured fields. Examples: {"rocm_version": "7.0.2",
+            "cuda_version": "12.4", "image": "rocm/pytorch:rocm7.0.2_..."}.
+            Populated from the container image string at provision time,
+            or from SSH probe on demand. Pool queries filter on these.
+    """
+    resource_id: str
+    provider: str
+    status: str
+    public_ip: str | None
+    ssh_port: int | None
+    ssh_username: str
+    gpu_type: str
+    name: str | None = None
+    created_at: str | None = None
+    spec_name: str | None = None
+    price_per_hour: float | None = None
+    labels: dict[str, str] = field(default_factory=dict)
+    def __post_init__(self) -> None:
+        assert self.resource_id, "resource_id cannot be empty"
+        assert self.provider, "provider cannot be empty"
+        assert self.status, "status cannot be empty"
+@dataclass(frozen=True)
+class ReconcileResult:
+    """Result of comparing TargetSpecs to live Targets.
+    Pure data — no side effects. The caller decides what to do:
+    - Display bound/unbound/unprovisioned in CLI
+    - Terminate unbound targets
+    - Provision from unprovisioned specs
+    Fields:
+        bound: Specs matched to live targets (spec, target) pairs.
+        unbound: Live targets with no matching spec (orphans).
+        unprovisioned: Specs with no live target running.
+    """
+    bound: list[tuple[TargetSpec, Target]]
+    unbound: list[Target]
+    unprovisioned: list[TargetSpec]
+@runtime_checkable
+class TargetProvider(Protocol):
+    """Interface for querying and managing live GPU resources from a cloud provider.
+    Each cloud provider (RunPod, DigitalOcean, etc.) implements this protocol.
+    Methods are async because they hit external APIs.
+    Baremetal is a degenerate case: list_targets returns a Target built from
+    the spec's ssh_target, provision/terminate are no-ops.
+    """
+    async def list_targets(self) -> list[Target]:
+        """List all running resources on the provider account.
+        Always hits the provider API — never reads from local cache.
+        """
+        ...
+    async def get_target(self, resource_id: str) -> Target | None:
+        """Get a specific resource by provider ID.
+        Returns None if the resource doesn't exist or is terminated.
+        """
+        ...
+    async def provision(self, spec: TargetSpec) -> Target:
+        """Provision a new resource from a spec.
+        Blocks until the resource is SSH-ready.
+        Raises on failure (no silent None returns).
+        """
+        ...
+    async def terminate(self, resource_id: str) -> bool:
+        """Terminate a resource by provider ID.
+        Returns True if terminated, False if resource not found.
+        """
+        ...

wafer_core/utils/kernel_utils/targets/config.py CHANGED Viewed

@@ -346,25 +346,17 @@ class RunPodTarget:
     ncu_available: bool = False
     def __post_init__(self) -> None:
-        """Validate configuration."""
-        from wafer_core.auth import get_api_key
+        """Validate configuration fields.
+        API key availability is checked at provision/query time, not here —
+        loading a spec from TOML should not require credentials.
+        """
         assert self.name, "name cannot be empty"
         assert self.ssh_key, "ssh_key cannot be empty"
         assert self.gpu_count > 0, "gpu_count must be positive"
         assert self.provision_timeout > 0, "provision_timeout must be positive"
         assert self.eval_timeout > 0, "eval_timeout must be positive"
-        # Check for API key (env var or ~/.wafer/auth.json)
-        api_key = get_api_key("runpod")
-        if not api_key:
-            raise ValueError(
-                "RunPod API key not found.\n"
-                "Set WAFER_RUNPOD_API_KEY environment variable, or run:\n"
-                "  wafer auth login runpod\n"
-                "Get your API key from: https://runpod.io/console/user/settings"
-            )
 @dataclass(frozen=True)
 class LocalTarget:
@@ -468,24 +460,16 @@ class DigitalOceanTarget:
     ncu_available: bool = False
     def __post_init__(self) -> None:
-        """Validate configuration."""
-        from wafer_core.auth import get_api_key
+        """Validate configuration fields.
+        API key availability is checked at provision/query time, not here —
+        loading a spec from TOML should not require credentials.
+        """
         assert self.name, "name cannot be empty"
         assert self.ssh_key, "ssh_key cannot be empty"
         assert self.provision_timeout > 0, "provision_timeout must be positive"
         assert self.eval_timeout > 0, "eval_timeout must be positive"
-        # Check for API key (env var or ~/.wafer/auth.json)
-        api_key = get_api_key("digitalocean")
-        if not api_key:
-            raise ValueError(
-                "DigitalOcean API key not found.\n"
-                "Set WAFER_AMD_DIGITALOCEAN_API_KEY environment variable, or run:\n"
-                "  wafer auth login digitalocean\n"
-                "Get your API key from: https://cloud.digitalocean.com/account/api/tokens"
-            )
 # Union type for target configs
 TargetConfig = (

{wafer_core-0.1.27.dist-info → wafer_core-0.1.29.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: wafer-core
-Version: 0.1.27
+Version: 0.1.29
 Summary: Core utilities and environments for Wafer GPU kernel optimization
 Requires-Python: >=3.10
 Requires-Dist: aiohttp>=3.9.0

{wafer_core-0.1.27.dist-info → wafer_core-0.1.29.dist-info}/RECORD RENAMED Viewed

@@ -320,13 +320,13 @@ wafer_core/lib/rocprofiler/systems/sample/__init__.py,sha256=31rNmLPQ7OVhvlOEEOw
 wafer_core/lib/rocprofiler/systems/sample/profiler.py,sha256=CYZPTzNXd48LoCfmY6h_5RSYEdWYccuv3-t4YncHJLE,7384
 wafer_core/lib/trace_compare/PERFORMANCE.md,sha256=jkJh7ApZi8H7NKTcz8v0LNtwSFtIUqY88e3QbL749ww,3823
 wafer_core/lib/trace_compare/__init__.py,sha256=CyUPbPQDYhVLCFFA7S_jNSilG3OgqYjmHSKfR5X11go,1377
-wafer_core/lib/trace_compare/aligner.py,sha256=6HplOHCUIb0cMXA-Lu-91T-hKVTMK4bk8Ei-v7HE1G4,13471
-wafer_core/lib/trace_compare/analyzer.py,sha256=m-waAiU5S72M9J4kUwIy9fPWUecg_oOUczri8Na6xUY,29360
+wafer_core/lib/trace_compare/aligner.py,sha256=1S8Ob3RaEsIjN0HdqEx0yGsW5uf_lMrJVSH_MnZhKok,13788
+wafer_core/lib/trace_compare/analyzer.py,sha256=YkuOPA3HFX_7mNUEhE9CMOtEMGLQd12lvUkvqqeQF14,29698
 wafer_core/lib/trace_compare/api.py,sha256=JSRTcd7eZK1Z8l18TFEiA5A8ENJS1TMz7oIiw1KBbAs,8796
 wafer_core/lib/trace_compare/architecture.py,sha256=8bqlAJQeJLBHblyXvFV-w55PIKiVQDPjDQZ8Jx4tuGg,2110
-wafer_core/lib/trace_compare/classifier.py,sha256=CDGzY9TY-I5wRuEGsu4mTCdljqVTOnLWyFLyNgmkGXI,16864
+wafer_core/lib/trace_compare/classifier.py,sha256=cYAmDW8S75N6cE3mJNZM-UKCJSX7rFP-8klVrukBvNQ,17504
 wafer_core/lib/trace_compare/formatter.py,sha256=GNrCZ45ueBN05CEXjOtTuKvTI8z-g-ZZFil-ni3sWVY,37962
-wafer_core/lib/trace_compare/fusion_analyzer.py,sha256=bD_CJ3JoVg_N6vxJJULd6G8l_-O5qnLuXKDEDItcQtg,15489
+wafer_core/lib/trace_compare/fusion_analyzer.py,sha256=ga0sfxx8OCQu9Hq7uJSAMfXhnCvBaAmzVofBN7_gdV8,19843
 wafer_core/lib/trace_compare/kernel_registry.yaml,sha256=0-knXwsF3pR1x1JdIz-aWaH-5xDgTylh53E47Kf6nHo,9808
 wafer_core/lib/trace_compare/layer_segmentation.py,sha256=kI_Y1e9nrKZfdwfcrGo4h7gpMxqXI_xkgXk46zuFen4,4642
 wafer_core/lib/trace_compare/loader.py,sha256=zBHI0r7CX_wJ2mz0_-s0lm9KGSdaVaq7OKyxUL6KIlw,23997
@@ -597,9 +597,19 @@ wafer_core/sessions/__init__.py,sha256=Ybps5QclZShAELoW9bva4w6OCNrcBf8vd9nGDjYfQ
 wafer_core/sessions/agent.py,sha256=4-Q-NG_xm07FFq7hB8mjxW38nt2_S0QpwCYkPOoGRxA,5946
 wafer_core/sessions/dtypes.py,sha256=K6nOjvL6sjCGY7GTtdEygf1IZY_18R9YkHGqFyMd8wY,589
 wafer_core/sessions/hooks.py,sha256=A-txm6ufnRGQCdtP3vwh7oEOdlLN9Tv0XsjORMihuAI,4295
-wafer_core/targets/__init__.py,sha256=sHndC7AAOaHXlrmDXFLB53a5Y8DBjuyqS6nwsO2nj-Y,1728
+wafer_core/targets/__init__.py,sha256=N4lTf9MjZ5dzAShObweZzyBfPMSzwjD5qBFWnM5lczM,2800
 wafer_core/targets/digitalocean.py,sha256=cvoYpYjtSyy5t2lQAPi7ERruuuibronah_ivOiduAHQ,16550
+wafer_core/targets/pool.py,sha256=TeNE9rpr67OsGtbxniYpr9Cb3wosnf_e3kTLBbwtDok,5434
+wafer_core/targets/probe.py,sha256=rzF8tiq5GxkMR3jhryTOW0GMcoHtrN67wmHlGJuBTv8,3038
+wafer_core/targets/reconcile.py,sha256=Hftd7LyqkcTOP0Qpa_cdYpxGW2I3bkSlkQrnYjU5lns,3091
 wafer_core/targets/runpod.py,sha256=LrVmNvA6qjzL5nbGSWvtw7CHrK6bDu7_o3vKIek00Tc,20286
+wafer_core/targets/spec_store.py,sha256=uNpMdo7ASeq7_RhgAqj8CFIK39rGEbaYtYtqt--FXO0,6455
+wafer_core/targets/state_cache.py,sha256=oji4APL_tjOty_u0CJzHaP59jJAIJWQTjYvD4pCdQ3g,4479
+wafer_core/targets/types.py,sha256=MQ7ECcBAwSoWsJfGxycJoLBeoTXSYtGeXEg5ZNxfs4c,5217
+wafer_core/targets/providers/__init__.py,sha256=u6OCCgyPRymrnZmIYPLF0hdkr6aTCF301K9gSgcFWvc,1355
+wafer_core/targets/providers/baremetal.py,sha256=L0KAiTkRH_fQvCbtaEa5wlJBqsvNaY56Zq6ovBhk2YY,2452
+wafer_core/targets/providers/digitalocean.py,sha256=_TnGi9Otzsn2T_vSv40T_3HFLT559WS_ljGsrWr7j0s,5281
+wafer_core/targets/providers/runpod.py,sha256=jCA7ENFRwbTKyToGa7fw2VS3coY61ggK1m0F17-rvng,7388
 wafer_core/tools/__init__.py,sha256=wBQD45GdSfkxcT6NHzIv0IMeXCc0enwwkpm3T_9j1X8,3341
 wafer_core/tools/bash_tool.py,sha256=daoKOVGSgL0x9X_3l8Apd6-wFH4VMXMGJwVemw2FIfc,16828
 wafer_core/tools/glob_tool.py,sha256=9X5PdOjQJj7kiVNqqCZC0-1LmnE6wHx3Zc9zfMjtXdc,3533
@@ -679,7 +689,7 @@ wafer_core/utils/kernel_utils/static_checker.py,sha256=XIQkzAOkGH5xtrOuZM4tNUqVJ
 wafer_core/utils/kernel_utils/task.py,sha256=XcmKxKUWh5It6nX3zGqj77tWgA32uPfQMqNOqyD5T48,2682
 wafer_core/utils/kernel_utils/utils.py,sha256=uDZoJDxh07hJeLNlPdKN2vgB15pqIr1LbXf0YIBHU4E,43056
 wafer_core/utils/kernel_utils/targets/__init__.py,sha256=4NwRLsuJ__S4xKAfda4Ag82C5MQ3Qio-4xA5S-mQGlU,2067
-wafer_core/utils/kernel_utils/targets/config.py,sha256=V587DYkisEFoWwkmLQUW6I0mXkMEwA52sM7ZINslkK8,20625
+wafer_core/utils/kernel_utils/targets/config.py,sha256=DJPPyV7yGmyvS7cavdDENC5PQsia1dQeQYlWCTE7iUo,19975
 wafer_core/utils/kernel_utils/targets/execution.py,sha256=bZuNXCo0sIdD6hFhetLPrtDC-zMSiIsAx_aml49VVL0,15033
 wafer_core/utils/kernel_utils/targets/selection.py,sha256=5I_RG_7cfhq7uaeR28meC2EeNNKssFsK-Tc3QFG6Ze0,3590
 wafer_core/utils/modal_execution/__init__.py,sha256=jkVqYOLzCT5K73N9Od0UIUsx-99A0m6bpDrxfyXxQZ8,945
@@ -687,6 +697,6 @@ wafer_core/utils/modal_execution/modal_app.py,sha256=VfS2cX8gHtnlPXemmMcEwDPeQdh
 wafer_core/utils/modal_execution/modal_config.py,sha256=7cGX9TGqilQ3qxI3OFGXV5orjtyRU-PEDOJ4vP2oxno,4421
 wafer_core/utils/modal_execution/modal_execution.py,sha256=gChjnV6jqA3A7IRP3DfvV5cSfm_MN0X4f7JZufXgdZE,24594
 wafer_core/utils/modal_execution/test_modal.py,sha256=_jqou_hrLs1Daf1590Pnb0a_lXMMa2rczAPpW9HpoNQ,8153
-wafer_core-0.1.27.dist-info/METADATA,sha256=NYiI9hCaVd9RCCAfd8Ys0UwTMju6wiyaT7nsk4gsB8A,1477
-wafer_core-0.1.27.dist-info/WHEEL,sha256=WLgqFyCfm_KASv4WHyYy0P3pM_m7J5L9k2skdKLirC8,87
-wafer_core-0.1.27.dist-info/RECORD,,
+wafer_core-0.1.29.dist-info/METADATA,sha256=Qjyx92KhI1joutpM8lF0G1zgPou-d8CdzWI80QQqKYg,1477
+wafer_core-0.1.29.dist-info/WHEEL,sha256=WLgqFyCfm_KASv4WHyYy0P3pM_m7J5L9k2skdKLirC8,87
+wafer_core-0.1.29.dist-info/RECORD,,

{wafer_core-0.1.27.dist-info → wafer_core-0.1.29.dist-info}/WHEEL RENAMED Viewed

File without changes

wafer-core 0.1.27__py3-none-any.whl → 0.1.29__py3-none-any.whl

wafer-core 0.1.27py3-none-any.whl → 0.1.29py3-none-any.whl