PyPI - gpu-dev - Versions diffs - 0.5.12__tar.gz → 0.5.14__tar.gz - Mend

gpu-dev 0.5.12tar.gz → 0.5.14tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (118) hide show

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: gpu-dev
-Version: 0.5.12
+Version: 0.5.14
 Summary: CLI tool for PyTorch GPU developer server reservations
 Author: PyTorch Team
 Requires-Python: >=3.10

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/cli-tools/gpu-dev-cli/gpu_dev.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: gpu-dev
-Version: 0.5.12
+Version: 0.5.14
 Summary: CLI tool for PyTorch GPU developer server reservations
 Author: PyTorch Team
 Requires-Python: >=3.10

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/cli-tools/gpu-dev-cli/gpu_dev.egg-info/SOURCES.txt RENAMED Viewed

@@ -47,6 +47,8 @@ terraform-gpu-devservers/git-cache.tf
 terraform-gpu-devservers/kubernetes.tf
 terraform-gpu-devservers/lambda.tf
 terraform-gpu-devservers/main.tf
+terraform-gpu-devservers/mig-config.tf
+terraform-gpu-devservers/mig-parted-config.yaml
 terraform-gpu-devservers/monitoring.tf
 terraform-gpu-devservers/outputs.tf
 terraform-gpu-devservers/pyproject.toml
@@ -101,7 +103,6 @@ terraform-gpu-devservers/migrations/check_snapshots.py
 terraform-gpu-devservers/migrations/migrate_disks_to_named.py
 terraform-gpu-devservers/migrations/run_backfill.sh
 terraform-gpu-devservers/scripts/CLEANUP_GUIDE.md
-terraform-gpu-devservers/scripts/b200-mig-setup.sh
 terraform-gpu-devservers/scripts/detect_empty_volumes.sh
 terraform-gpu-devservers/scripts/ec2_avail_probe.sh
 terraform-gpu-devservers/scripts/inspect_user_data.sh

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/cli-tools/gpu-dev-cli/gpu_dev_cli/cli.py RENAMED Viewed

@@ -688,6 +688,7 @@ def reserve(
             # and total wall-clock time drops from sum to max(each).
             from concurrent.futures import ThreadPoolExecutor
             config = load_config()
+            reservation_mgr = ReservationManager(config)
             with Live(
                 Spinner("dots", text="🚀 Loading…"), console=console
@@ -704,9 +705,7 @@ def reserve(
                     else:
                         f_ssh = ex.submit(validate_ssh_key_matches_github_user, config, None)
                         ssh_result = None
-                    f_avail = ex.submit(
-                        lambda: ReservationManager(config).get_gpu_availability_by_type()
-                    )
+                    f_avail = ex.submit(reservation_mgr.get_gpu_availability_by_type)
                     # Surface auth failure first (most actionable).
                     try:
@@ -2496,10 +2495,10 @@ def _show_availability() -> None:
             table = Table(
                 title="GPU Availability by Type (numbers are GPUs, not nodes)")
             table.add_column("GPU Type", style="cyan")
-            table.add_column("Available", style="green")
-            table.add_column("Max Reservable", style="bright_green")
+            table.add_column("Avail", style="green")
+            table.add_column("Max\nReservable", style="bright_green")
             table.add_column("Total", style="blue")
-            table.add_column("Queue Length", style="yellow")
+            table.add_column("Queue\nLength", style="yellow")
             table.add_column("Architecture", style="dim")
             table.add_column("Est. Wait Time", style="magenta")
@@ -2657,10 +2656,10 @@ def _show_availability_watch(interval: int) -> None:
                         table = Table(
                             title="GPU Availability by Type (numbers are GPUs, not nodes)")
                         table.add_column("GPU Type", style="cyan")
-                        table.add_column("Available", style="green")
-                        table.add_column("Max Reservable", style="blue")
+                        table.add_column("Avail", style="green")
+                        table.add_column("Max\nReservable", style="blue")
                         table.add_column("Total", style="blue")
-                        table.add_column("Queue Length", style="yellow")
+                        table.add_column("Queue\nLength", style="yellow")
                         table.add_column("Architecture", style="dim")
                         table.add_column("Est. Wait Time", style="magenta")

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/cli-tools/gpu-dev-cli/gpu_dev_cli/interactive.py RENAMED Viewed

@@ -88,9 +88,9 @@ def select_gpu_type_interactive(
     console.print("\n[cyan]🖥️  GPU Availability:[/cyan]")
     table = Table()
     table.add_column("GPU Type", style="cyan")
-    table.add_column("Available", style="green")
+    table.add_column("Avail", style="green")
     table.add_column("Total", style="blue")
-    table.add_column("Queue Length", style="yellow")
+    table.add_column("Queue\nLength", style="yellow")
     table.add_column("Est. Wait Time", style="magenta")
     choices = []

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/pyproject.toml RENAMED Viewed

@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 [project]
 name = "gpu-dev"
-version = "0.5.12"
+version = "0.5.14"
 description = "CLI tool for PyTorch GPU developer server reservations"
 authors = [{name = "PyTorch Team"}]
 readme = "cli-tools/gpu-dev-cli/README.md"

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/kubernetes.tf RENAMED Viewed

@@ -305,6 +305,14 @@ resource "helm_release" "nvidia_gpu_operator" {
     value = "all-disabled"
   }
+  # Read profiles from our forked ConfigMap (managed in mig-config.tf) instead of the
+  # operator's auto-created default-mig-parted-config. Lets us add custom mixed profiles
+  # like b200-6full-2mig-balanced without ClusterPolicy reconciliation reverting our edits.
+  set {
+    name  = "migManager.config.name"
+    value = "gpu-dev-mig-parted-config"
+  }
   set {
     name  = "nodeStatusExporter.enabled"
     value = "true"

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/lambda.tf RENAMED Viewed

@@ -180,7 +180,7 @@ resource "aws_lambda_function" "reservation_processor" {
       HOSTED_ZONE_ID                     = local.effective_domain_name != "" ? local.hosted_zone_id : ""
       SSH_DOMAIN_MAPPINGS_TABLE          = local.effective_domain_name != "" ? aws_dynamodb_table.ssh_domain_mappings.name : ""
       SSL_CERTIFICATE_ARN                = local.effective_domain_name != "" ? aws_acm_certificate.wildcard[0].arn : ""
-      LAMBDA_VERSION                     = "0.5.12"
+      LAMBDA_VERSION                     = "0.5.13"
       MIN_CLI_VERSION                    = "0.5.9"
       DISK_CONTENTS_BUCKET               = aws_s3_bucket.disk_contents.bucket
       OPERATIONS_TABLE                   = aws_dynamodb_table.operations.name

gpu_dev-0.5.14/terraform-gpu-devservers/mig-config.tf ADDED Viewed

@@ -0,0 +1,72 @@
+# mig-config.tf — fork the NVIDIA mig-parted-config ConfigMap so we can add custom profiles
+# without fighting NVIDIA ClusterPolicy's reconciliation of its default-mig-parted-config.
+#
+# The vendored mig-parted-config.yaml in this directory mirrors the upstream profiles plus our
+# additions (e.g. b200-6full-2mig-balanced). Helm is told to use this ConfigMap by name via
+# migManager.config.name in kubernetes.tf, so the GPU operator skips creating its default and
+# reads ours instead.
+resource "kubernetes_config_map" "gpu_dev_mig_parted_config" {
+  metadata {
+    name      = "gpu-dev-mig-parted-config"
+    namespace = "gpu-operator"
+    labels = {
+      "app.kubernetes.io/managed-by" = "terraform"
+      "app.kubernetes.io/part-of"    = "gpu-dev-servers"
+    }
+  }
+  data = {
+    "config.yaml" = file("${path.module}/mig-parted-config.yaml")
+  }
+  # The gpu-operator namespace is created by the helm release; depend on that so this ConfigMap
+  # lands AFTER the namespace exists.
+  depends_on = [helm_release.nvidia_gpu_operator]
+}
+# Declarative B200 MIG node label. Set b200_mig_node_name (per workspace via the locals lookup
+# below, or override via tfvars / -var) to dedicate a specific B200 node to the mixed profile.
+# Empty string means "no node labelled" — every B200 stays full.
+#
+# Future cleanup: when we split a B200 CR into two ASGs (one with mig_profile, one without),
+# the user_data path will set this label at boot for any instance in the MIG-dedicated ASG —
+# matching the H100 cr3 pattern. Until then, this declarative label pins the role to a hostname.
+locals {
+  # Workspace-scoped defaults so the resource is a no-op in non-prod and no apply ever tries to
+  # label a node that doesn't exist.
+  default_b200_mig_node_by_workspace = {
+    prod = "ip-10-0-67-125.us-east-2.compute.internal"
+  }
+  b200_mig_node_effective = (
+    var.b200_mig_node_name != ""
+    ? var.b200_mig_node_name
+    : lookup(local.default_b200_mig_node_by_workspace, terraform.workspace, "")
+  )
+}
+variable "b200_mig_node_name" {
+  description = "Hostname of the B200 node to label with nvidia.com/mig.config=b200-6full-2mig-balanced. Leave empty to use the per-workspace default in mig-config.tf."
+  type        = string
+  default     = ""
+}
+resource "kubernetes_labels" "b200_mig_node" {
+  count = local.b200_mig_node_effective == "" ? 0 : 1
+  api_version = "v1"
+  kind        = "Node"
+  metadata {
+    name = local.b200_mig_node_effective
+  }
+  labels = {
+    "nvidia.com/mig.config" = "b200-6full-2mig-balanced"
+  }
+  # Take ownership of the label even if another tool (kubectl, gpu-operator) set it.
+  force = true
+  depends_on = [kubernetes_config_map.gpu_dev_mig_parted_config]
+}

gpu_dev-0.5.14/terraform-gpu-devservers/mig-parted-config.yaml ADDED Viewed

@@ -0,0 +1,528 @@
+version: v1
+mig-configs:
+  all-disabled:
+    - devices: all
+      mig-enabled: false
+  all-enabled:
+    - devices: all
+      mig-enabled: true
+      mig-devices: {}
+  # A100-40GB, A800-40GB
+  all-1g.5gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.5gb": 7
+  all-1g.5gb.me:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.5gb+me": 1
+  all-2g.10gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "2g.10gb": 3
+  all-3g.20gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "3g.20gb": 2
+  all-4g.20gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "4g.20gb": 1
+  all-7g.40gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "7g.40gb": 1
+  # RTX-PRO-6000-96GB
+  all-1g.24gb.gfx:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.24gb+gfx": 4
+  all-1g.24gb.me.all:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.24gb+me.all": 1
+  all-1g.24gb-me:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.24gb-me": 4
+  all-2g.48gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "2g.48gb": 2
+  all-2g.48gb.gfx:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "2g.48gb+gfx": 2
+  all-2g.48gb.me.all:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "2g.48gb+me.all": 1
+  all-2g.48gb-me:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "2g.48gb-me": 2
+  all-4g.96gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "4g.96gb": 1
+  all-4g.96gb.gfx:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "4g.96gb+gfx": 1
+  # H100-80GB, H800-80GB, A100-80GB, A800-80GB, A100-40GB, A800-40GB
+  all-1g.10gb:
+    # H100-80GB, H800-80GB, A100-80GB, A800-80GB
+    - device-filter: ["0x233010DE", "0x233110DE", "0x232210DE", "0x20B210DE", "0x20B510DE", "0x20F310DE", "0x20F510DE", "0x232410DE"]
+      devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.10gb": 7
+    # A100-40GB, A800-40GB
+    - device-filter: ["0x20B010DE", "0x20B110DE", "0x20F110DE", "0x20F610DE"]
+      devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.10gb": 4
+  # H100-80GB, H800-80GB, A100-80GB, A800-80GB
+  all-1g.10gb.me:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.10gb+me": 1
+  # H100-80GB, H800-80GB, A100-80GB, A800-80GB
+  all-1g.20gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.20gb": 4
+  # GB200, B200
+  all-1g.23gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.23gb": 7
+  # GB200, B200
+  all-1g.23gb.me:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.23gb+me": 1
+  all-1g.24gb.me:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.24gb+me": 1
+  all-2g.20gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "2g.20gb": 3
+  all-3g.40gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "3g.40gb": 2
+  all-4g.40gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "4g.40gb": 1
+  all-7g.80gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "7g.80gb": 1
+  # A30-24GB
+  all-1g.6gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.6gb": 4
+  all-1g.6gb.me:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.6gb+me": 1
+  all-2g.12gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "2g.12gb": 2
+  all-2g.12gb.me:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "2g.12gb+me": 1
+  all-4g.24gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "4g.24gb": 1
+  # H100 NVL, H800 NVL, GH200
+  all-1g.12gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.12gb": 7
+  all-1g.12gb.me:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.12gb+me": 1
+  all-1g.24gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.24gb": 4
+  all-1g.45gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.45gb": 4
+  all-1g.47gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.47gb": 4
+  all-2g.24gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "2g.24gb": 3
+  all-2g.45gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "2g.45gb": 3
+  all-2g.47gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "2g.47gb": 3
+  # H100 NVL, H800 NVL
+  all-3g.47gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "3g.47gb": 2
+  all-4g.47gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "4g.47gb": 1
+  all-7g.94gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "7g.94gb": 1
+  # H100-96GB, PG506-96GB, GH200
+  all-3g.48gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "3g.48gb": 2
+  all-3g.90gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "3g.90gb": 2
+  all-3g.93gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "3g.93gb": 2
+  all-3g.95gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "3g.95gb": 2
+  all-4g.48gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "4g.48gb": 1
+  all-4g.90gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "4g.90gb": 1
+  all-4g.93gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "4g.93gb": 1
+  all-4g.95gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "4g.95gb": 1
+  all-7g.96gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "7g.96gb": 1
+  all-7g.180gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "7g.180gb": 1
+  all-7g.186gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "7g.186gb": 1
+  all-7g.189gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "7g.189gb": 1
+  # GB200 HGX, B200, GH200 144G HBM3e, H200-141GB, H200 NVL, H100-96GB, GH200, H100 NVL, H800 NVL, H100-80GB, H800-80GB, A800-40GB, A800-80GB, A100-40GB, A100-80GB, A30-24GB, PG506-96GB
+  all-balanced:
+    # GB200 HGX
+    - device-filter: ["0x294110DE"]
+      devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.23gb": 2
+        "2g.47gb": 1
+        "3g.93gb": 1
+    # RTX-PRO-6000-96GB
+    - device-filter: ["0x2BB510DE"]
+      devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.24gb": 2
+        "2g.48gb": 1
+    # B200
+    - device-filter: ["0x290110DE"]
+      devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.23gb": 2
+        "2g.45gb": 1
+        "3g.90gb": 1
+    # GH200 144G HBM3e
+    - device-filter: ["0x234810DE"]
+      devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.18gb": 2
+        "2g.36gb": 1
+        "3g.72gb": 1
+    # H200 141GB, H200 NVL
+    - device-filter: ["0x233510DE", "0x233B10DE"]
+      devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.18gb": 2
+        "2g.35gb": 1
+        "3g.71gb": 1
+    # H100 NVL, H800 NVL
+    - device-filter: ["0x232110DE", "0x233A10DE"]
+      devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.12gb": 2
+        "2g.24gb": 1
+        "3g.47gb": 1
+    # H100-80GB, H800-80GB, A100-80GB, A800-80GB
+    - device-filter: ["0x233010DE", "0x233110DE", "0x232210DE", "0x20B210DE", "0x20B510DE", "0x20F310DE", "0x20F510DE", "0x232410DE"]
+      devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.10gb": 2
+        "2g.20gb": 1
+        "3g.40gb": 1
+    # A100-40GB, A800-40GB
+    - device-filter: ["0x20B010DE", "0x20B110DE", "0x20F110DE", "0x20F610DE"]
+      devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.5gb": 2
+        "2g.10gb": 1
+        "3g.20gb": 1
+    # A30-24GB
+    - device-filter: "0x20B710DE"
+      devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.6gb": 2
+        "2g.12gb": 1
+    # H100-96GB, PG506-96GB, GH200, H20
+    - device-filter: ["0x234210DE", "0x233D10DE", "0x20B610DE", "0x232910DE"]
+      devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.12gb": 2
+        "2g.24gb": 1
+        "3g.48gb": 1
+  # H200-141GB, GH200 144G HBM3e
+  all-1g.18gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.18gb": 7
+  all-1g.18gb.me:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.18gb+me": 1
+  # H200-141GB
+  all-1g.35gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.35gb": 4
+  all-2g.35gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "2g.35gb": 3
+  all-3g.71gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "3g.71gb": 2
+  all-4g.71gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "4g.71gb": 1
+  all-7g.141gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "7g.141gb": 1
+  # GH200 144G HBM3e
+  all-1g.36gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "1g.36gb": 4
+  all-2g.36gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "2g.36gb": 3
+  all-3g.72gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "3g.72gb": 2
+  all-4g.72gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "4g.72gb": 1
+  all-7g.144gb:
+    - devices: all
+      mig-enabled: true
+      mig-devices:
+        "7g.144gb": 1
+  # Custom: B200 mixed split — GPUs 0-5 stay full (reservable as --gpu-type b200),
+  # GPUs 6-7 partitioned per-GPU into 2x1g.23gb + 1x2g.45gb + 1x3g.90gb.
+  # Per node: 6 full + 4 small + 2 medium + 2 large slices.
+  b200-6full-2mig-balanced:
+    - device-filter: ["0x290110DE"]
+      devices: [0, 1, 2, 3, 4, 5]
+      mig-enabled: false
+    - device-filter: ["0x290110DE"]
+      devices: [6, 7]
+      mig-enabled: true
+      mig-devices:
+        "1g.23gb": 2
+        "2g.45gb": 1
+        "3g.90gb": 1

gpu_dev-0.5.12/terraform-gpu-devservers/scripts/b200-mig-setup.sh DELETED Viewed

@@ -1,75 +0,0 @@
-#!/bin/bash
-# Post-deploy setup for B200 MIG split (6 full + 2 partitioned per node).
-# Run ONCE after PR #77 is merged + tf applied + the new docker/lambda is live.
-set -e
-NS=gpu-operator
-CM=default-mig-parted-config
-PROFILE_NAME=b200-6full-2mig-balanced
-echo "=== Checking current MIG profile in ConfigMap ==="
-if kubectl -n "$NS" get configmap "$CM" -o jsonpath='{.data.config\.yaml}' | grep -q "$PROFILE_NAME:"; then
-    echo "Profile $PROFILE_NAME already present — skipping ConfigMap edit"
-else
-    echo "Profile $PROFILE_NAME missing. Patching ConfigMap..."
-    # Save current ConfigMap content
-    kubectl -n "$NS" get configmap "$CM" -o yaml > /tmp/mig-config-backup.yaml
-    echo "Backup saved to /tmp/mig-config-backup.yaml"
-    # Append our profile under mig-configs:
-    # NOTE: this is a sed-driven append. ClusterPolicy's controller MAY revert this if it
-    # reconciles. If you see the profile disappear, re-run this script. If it keeps reverting,
-    # we'll need to fork the ConfigMap (next iteration).
-    kubectl -n "$NS" get configmap "$CM" -o jsonpath='{.data.config\.yaml}' > /tmp/mig-config.yaml
-    cat >> /tmp/mig-config.yaml <<'EOF'
-  # Mixed B200 split: GPUs 0-5 stay full (reservable as --gpu-type b200), GPUs 6-7 partitioned.
-  # Per partitioned GPU: 2x 1g.23gb + 1x 2g.45gb + 1x 3g.90gb. Per node: 6 full + 4 small + 2 medium + 2 large.
-  b200-6full-2mig-balanced:
-    - device-filter: ["0x290110DE"]
-      devices: [0, 1, 2, 3, 4, 5]
-      mig-enabled: false
-    - device-filter: ["0x290110DE"]
-      devices: [6, 7]
-      mig-enabled: true
-      mig-devices:
-        "1g.23gb": 2
-        "2g.45gb": 1
-        "3g.90gb": 1
-EOF
-    # Re-encode and patch
-    kubectl -n "$NS" create configmap "$CM" --from-file=config.yaml=/tmp/mig-config.yaml --dry-run=client -o yaml \
-        | kubectl -n "$NS" patch configmap "$CM" --patch-file=/dev/stdin
-    echo "ConfigMap patched."
-fi
-echo
-echo "=== Picking a B200 node to label ==="
-NODE=$(kubectl get nodes -l GpuType=b200 -o jsonpath='{.items[0].metadata.name}')
-if [ -z "$NODE" ]; then
-    echo "No B200 nodes found. Exiting."
-    exit 1
-fi
-echo "Will label: $NODE"
-read -p "Proceed? (y/N): " CONFIRM
-if [ "$CONFIRM" != "y" ]; then
-    echo "Aborted."
-    exit 0
-fi
-kubectl label node "$NODE" "nvidia.com/mig.config=$PROFILE_NAME" --overwrite
-echo "Node labelled. nvidia-mig-manager will partition GPUs 6-7 (drains existing pods if any)."
-echo
-echo "Watch progress with:"
-echo "  kubectl logs -n gpu-operator -l app=nvidia-mig-manager -f"
-echo "  kubectl get node $NODE -o jsonpath='{.status.allocatable}' | jq ."
-echo
-echo "After ~2-5 min, allocatable should show:"
-echo "  nvidia.com/gpu:           6"
-echo "  nvidia.com/mig-1g.23gb:   4"
-echo "  nvidia.com/mig-2g.45gb:   2"
-echo "  nvidia.com/mig-3g.90gb:   2"

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/.github/workflows/no-gitlinks.yml RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/.github/workflows/publish.yml RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/.gitignore RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/CLAUDE.md RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/PROGRESS.md RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/PR_DESCRIPTION.md RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/TODO.md RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/admin/README.md RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/admin/generate_stats.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/admin/requirements.txt RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/cli-tools/gpu-dev-cli/README.md RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/cli-tools/gpu-dev-cli/ZERO_CONFIG_SETUP.md RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/cli-tools/gpu-dev-cli/gpu_dev.egg-info/dependency_links.txt RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/cli-tools/gpu-dev-cli/gpu_dev.egg-info/entry_points.txt RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/cli-tools/gpu-dev-cli/gpu_dev.egg-info/requires.txt RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/cli-tools/gpu-dev-cli/gpu_dev.egg-info/top_level.txt RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/cli-tools/gpu-dev-cli/gpu_dev_cli/__init__.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/cli-tools/gpu-dev-cli/gpu_dev_cli/auth.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/cli-tools/gpu-dev-cli/gpu_dev_cli/config.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/cli-tools/gpu-dev-cli/gpu_dev_cli/disks.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/cli-tools/gpu-dev-cli/gpu_dev_cli/name_generator.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/cli-tools/gpu-dev-cli/gpu_dev_cli/reservations.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/cli-tools/gpu-dev-cli/gpu_dev_cli/ssh_proxy.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/cli-tools/gpu-dev-cli/minimal-iam-policy.json RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/cli-tools/scripts/clear_stale_disk_locks.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/docs/USER_GUIDE.md RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/docs/devgpu-features.html RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/docs/docker-mark-blue.svg RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/docs/icons8-cursor-ai.svg RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/post.md RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/setup.cfg RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/.claude/skills/deploy.md RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/.terraform.lock.hcl RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/README.md RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/alb.tf RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/availability.tf RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/backend.tf RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker/.dockerignore RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker/Dockerfile RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker/backup-dotfiles RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker/bash_profile RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker/bashrc RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker/bashrc_ext RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker/build-with-efa.sh RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker/dotfiles-shutdown-handler RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker/list-dotfile-versions RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker/motd_script RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker/nproc_wrapper RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker/profile RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker/restore-dotfiles RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker/restore-dotfiles-version RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker/setup-dotfiles-persistence RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker/shell_env RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker/ssh_config RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker/zprofile RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker/zshrc RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker/zshrc_ext RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker-build.tf RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker-example/Dockerfile RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/docker-example/hello.txt RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/ecr.tf RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/efs.tf RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/eks.tf RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/expiry.tf RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/git-cache.tf RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/lambda/availability_updater/index.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/lambda/availability_updater/requirements.txt RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/lambda/migration/tag_largest_snapshots.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/lambda/reservation_expiry/index.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/lambda/reservation_expiry/requirements.txt RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/lambda/reservation_processor/buildkit_job.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/lambda/reservation_processor/index.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/lambda/reservation_processor/requirements.txt RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/lambda/shared/__init__.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/lambda/shared/alb_utils.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/lambda/shared/dns_utils.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/lambda/shared/k8s_client.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/lambda/shared/k8s_resource_tracker.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/lambda/shared/requirements.txt RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/lambda/shared/snapshot_utils.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/main.tf RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/migrations/backfill_snapshot_contents.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/migrations/backfill_snapshot_contents.py.bak RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/migrations/check_snapshots.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/migrations/migrate_disks_to_named.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/migrations/run_backfill.sh RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/monitoring.tf RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/outputs.tf RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/pyproject.toml RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/queue.tf RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/route53.tf RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/s3-disk-contents.tf RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/scripts/CLEANUP_GUIDE.md RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/scripts/detect_empty_volumes.sh RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/scripts/ec2_avail_probe.sh RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/scripts/inspect_user_data.sh RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/ssh-proxy/Dockerfile RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/ssh-proxy/proxy.py RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/ssh-proxy/requirements.txt RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/ssh-proxy-service.tf RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/ssh-proxy.tf RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/switch-to.sh RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/templates/al2023-cpu-user-data.sh RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/templates/al2023-user-data.sh RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/templates/user-data-self-managed.sh RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/templates/user-data.sh RENAMED Viewed

File without changes

{gpu_dev-0.5.12 → gpu_dev-0.5.14}/terraform-gpu-devservers/variables.tf RENAMED Viewed

File without changes

gpu-dev 0.5.12__tar.gz → 0.5.14__tar.gz

gpu-dev 0.5.12tar.gz → 0.5.14tar.gz