npm - @aws/ml-container-creator - Versions diffs - 0.3.0 → 0.4.0 - Mend

@aws/ml-container-creator 0.3.0 → 0.4.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (34) hide show

package/config/bootstrap-stack.json +86 -7
package/config/defaults.json +1 -1
package/package.json +3 -1
package/servers/instance-sizer/index.js +36 -2
package/servers/instance-sizer/lib/instance-ranker.js +114 -10
package/servers/instance-sizer/lib/quota-resolver.js +368 -0
package/servers/instance-sizer/package.json +2 -0
package/servers/lib/catalogs/instances.json +527 -12
package/servers/lib/catalogs/model-servers.json +15 -15
package/servers/lib/catalogs/model-sizes.json +27 -0
package/servers/lib/catalogs/models.json +71 -0
package/servers/lib/schemas/image-catalog.schema.json +9 -1
package/src/app.js +77 -2
package/src/lib/bootstrap-command-handler.js +96 -3
package/src/lib/cli-handler.js +2 -2
package/src/lib/config-manager.js +78 -1
package/src/lib/prompt-runner.js +96 -9
package/src/lib/prompts.js +66 -4
package/src/lib/schema-sync.js +31 -0
package/src/lib/template-manager.js +49 -1
package/src/lib/validate-runner.js +125 -2
package/templates/Dockerfile +10 -2
package/templates/code/cuda_compat.sh +22 -0
package/templates/code/serve +3 -0
package/templates/code/start_server.sh +3 -0
package/templates/diffusors/Dockerfile +2 -1
package/templates/diffusors/serve +3 -0
package/templates/do/README.md +33 -0
package/templates/do/benchmark +646 -0
package/templates/do/clean +86 -0
package/templates/do/config +26 -3
package/templates/do/deploy +6 -1
package/templates/do/register +8 -1
package/templates/triton/Dockerfile +5 -0

package/servers/lib/catalogs/instances.json CHANGED Viewed

@@ -812,6 +812,508 @@
             "gpuType": "NVIDIA V100",
             "costTier": "high"
         },
+        "ml.p4d.24xlarge": {
+            "category": "gpu",
+            "gpus": 8,
+            "vcpus": 96,
+            "memGb": 1152,
+            "accelerator": "8x A100 320GB",
+            "cudaVersions": [
+                "11.8",
+                "12.1",
+                "12.2",
+                "12.4"
+            ],
+            "tags": [
+                "gpu",
+                "multi-gpu",
+                "high-performance",
+                "training",
+                "a100",
+                "parallel",
+                "cuda-12",
+                "large-models"
+            ],
+            "family": "p4d",
+            "acceleratorType": "cuda",
+            "hardware": "NVIDIA A100",
+            "gpuArchitecture": "Ampere",
+            "defaultCudaVersion": "12.1",
+            "notes": "8x NVIDIA A100 GPUs (40GB each, 320GB total). For very large models requiring multi-GPU TP",
+            "gpuMemoryGb": 40,
+            "gpuType": "NVIDIA A100",
+            "costTier": "high"
+        },
+        "ml.p5.48xlarge": {
+            "category": "gpu",
+            "gpus": 8,
+            "vcpus": 192,
+            "memGb": 2048,
+            "accelerator": "8x H100 640GB",
+            "cudaVersions": [
+                "12.1",
+                "12.2",
+                "12.4"
+            ],
+            "tags": [
+                "gpu",
+                "multi-gpu",
+                "high-performance",
+                "h100",
+                "parallel",
+                "cuda-12",
+                "large-models"
+            ],
+            "family": "p5",
+            "acceleratorType": "cuda",
+            "hardware": "NVIDIA H100",
+            "gpuArchitecture": "Hopper",
+            "defaultCudaVersion": "12.2",
+            "notes": "8x NVIDIA H100 GPUs (80GB each, 640GB total). High-performance for large LLMs",
+            "gpuMemoryGb": 80,
+            "gpuType": "NVIDIA H100",
+            "costTier": "high"
+        },
+        "ml.p5e.48xlarge": {
+            "category": "gpu",
+            "gpus": 8,
+            "vcpus": 192,
+            "memGb": 2048,
+            "accelerator": "8x H200 1128GB",
+            "cudaVersions": [
+                "12.4"
+            ],
+            "tags": [
+                "gpu",
+                "multi-gpu",
+                "high-performance",
+                "h200",
+                "parallel",
+                "cuda-12",
+                "large-models"
+            ],
+            "family": "p5e",
+            "acceleratorType": "cuda",
+            "hardware": "NVIDIA H200",
+            "gpuArchitecture": "Hopper",
+            "defaultCudaVersion": "12.4",
+            "notes": "8x NVIDIA H200 GPUs (141GB each, 1128GB total). Maximum Hopper-class memory",
+            "gpuMemoryGb": 141,
+            "gpuType": "NVIDIA H200",
+            "costTier": "high"
+        },
+        "ml.p5en.48xlarge": {
+            "category": "gpu",
+            "gpus": 8,
+            "vcpus": 192,
+            "memGb": 2048,
+            "accelerator": "8x H200 1128GB",
+            "cudaVersions": [
+                "12.4"
+            ],
+            "tags": [
+                "gpu",
+                "multi-gpu",
+                "high-performance",
+                "h200",
+                "parallel",
+                "cuda-12",
+                "large-models",
+                "enhanced-networking"
+            ],
+            "family": "p5en",
+            "acceleratorType": "cuda",
+            "hardware": "NVIDIA H200",
+            "gpuArchitecture": "Hopper",
+            "defaultCudaVersion": "12.4",
+            "notes": "8x NVIDIA H200 GPUs (141GB each, 1128GB total). Enhanced networking variant of p5e",
+            "gpuMemoryGb": 141,
+            "gpuType": "NVIDIA H200",
+            "costTier": "high"
+        },
+        "ml.g6e.xlarge": {
+            "category": "gpu",
+            "gpus": 1,
+            "vcpus": 4,
+            "memGb": 32,
+            "accelerator": "L40S 48GB",
+            "cudaVersions": [
+                "12.2",
+                "12.4"
+            ],
+            "tags": [
+                "gpu",
+                "single-gpu",
+                "inference",
+                "l40s",
+                "newer",
+                "cuda-12"
+            ],
+            "family": "g6e",
+            "acceleratorType": "cuda",
+            "hardware": "NVIDIA L40S",
+            "gpuArchitecture": "Ada Lovelace",
+            "defaultCudaVersion": "12.4",
+            "notes": "1x NVIDIA L40S GPU (48GB). Cost-effective for medium models",
+            "gpuMemoryGb": 48,
+            "gpuType": "NVIDIA L40S",
+            "costTier": "medium"
+        },
+        "ml.g6e.2xlarge": {
+            "category": "gpu",
+            "gpus": 1,
+            "vcpus": 8,
+            "memGb": 64,
+            "accelerator": "L40S 48GB",
+            "cudaVersions": [
+                "12.2",
+                "12.4"
+            ],
+            "tags": [
+                "gpu",
+                "single-gpu",
+                "inference",
+                "l40s",
+                "newer",
+                "cuda-12"
+            ],
+            "family": "g6e",
+            "acceleratorType": "cuda",
+            "hardware": "NVIDIA L40S",
+            "gpuArchitecture": "Ada Lovelace",
+            "defaultCudaVersion": "12.4",
+            "notes": "1x NVIDIA L40S GPU (48GB). Better CPU/memory for preprocessing",
+            "gpuMemoryGb": 48,
+            "gpuType": "NVIDIA L40S",
+            "costTier": "medium"
+        },
+        "ml.g6e.4xlarge": {
+            "category": "gpu",
+            "gpus": 1,
+            "vcpus": 16,
+            "memGb": 128,
+            "accelerator": "L40S 48GB",
+            "cudaVersions": [
+                "12.2",
+                "12.4"
+            ],
+            "tags": [
+                "gpu",
+                "single-gpu",
+                "l40s",
+                "newer",
+                "cuda-12"
+            ],
+            "family": "g6e",
+            "acceleratorType": "cuda",
+            "hardware": "NVIDIA L40S",
+            "gpuArchitecture": "Ada Lovelace",
+            "defaultCudaVersion": "12.4",
+            "notes": "1x NVIDIA L40S GPU (48GB). High CPU/memory ratio",
+            "gpuMemoryGb": 48,
+            "gpuType": "NVIDIA L40S",
+            "costTier": "medium"
+        },
+        "ml.g6e.8xlarge": {
+            "category": "gpu",
+            "gpus": 1,
+            "vcpus": 32,
+            "memGb": 256,
+            "accelerator": "L40S 48GB",
+            "cudaVersions": [
+                "12.2",
+                "12.4"
+            ],
+            "tags": [
+                "gpu",
+                "single-gpu",
+                "l40s",
+                "newer",
+                "cuda-12"
+            ],
+            "family": "g6e",
+            "acceleratorType": "cuda",
+            "hardware": "NVIDIA L40S",
+            "gpuArchitecture": "Ada Lovelace",
+            "defaultCudaVersion": "12.4",
+            "notes": "1x NVIDIA L40S GPU (48GB). Maximum CPU/memory for single GPU",
+            "gpuMemoryGb": 48,
+            "gpuType": "NVIDIA L40S",
+            "costTier": "medium"
+        },
+        "ml.g6e.12xlarge": {
+            "category": "gpu",
+            "gpus": 4,
+            "vcpus": 48,
+            "memGb": 384,
+            "accelerator": "4x L40S 192GB",
+            "cudaVersions": [
+                "12.2",
+                "12.4"
+            ],
+            "tags": [
+                "gpu",
+                "multi-gpu",
+                "l40s",
+                "newer",
+                "parallel",
+                "cuda-12"
+            ],
+            "family": "g6e",
+            "acceleratorType": "cuda",
+            "hardware": "NVIDIA L40S",
+            "gpuArchitecture": "Ada Lovelace",
+            "defaultCudaVersion": "12.4",
+            "notes": "4x NVIDIA L40S GPUs (192GB total). Good for tensor parallelism",
+            "gpuMemoryGb": 48,
+            "gpuType": "NVIDIA L40S",
+            "costTier": "medium"
+        },
+        "ml.g6e.24xlarge": {
+            "category": "gpu",
+            "gpus": 4,
+            "vcpus": 96,
+            "memGb": 768,
+            "accelerator": "4x L40S 192GB",
+            "cudaVersions": [
+                "12.2",
+                "12.4"
+            ],
+            "tags": [
+                "gpu",
+                "multi-gpu",
+                "l40s",
+                "newer",
+                "cuda-12"
+            ],
+            "family": "g6e",
+            "acceleratorType": "cuda",
+            "hardware": "NVIDIA L40S",
+            "gpuArchitecture": "Ada Lovelace",
+            "defaultCudaVersion": "12.4",
+            "notes": "4x NVIDIA L40S GPUs (192GB total). High CPU/memory with multi-GPU",
+            "gpuMemoryGb": 48,
+            "gpuType": "NVIDIA L40S",
+            "costTier": "medium"
+        },
+        "ml.g6e.48xlarge": {
+            "category": "gpu",
+            "gpus": 8,
+            "vcpus": 192,
+            "memGb": 1536,
+            "accelerator": "8x L40S 384GB",
+            "cudaVersions": [
+                "12.2",
+                "12.4"
+            ],
+            "tags": [
+                "gpu",
+                "multi-gpu",
+                "l40s",
+                "newer",
+                "cuda-12",
+                "large-models"
+            ],
+            "family": "g6e",
+            "acceleratorType": "cuda",
+            "hardware": "NVIDIA L40S",
+            "gpuArchitecture": "Ada Lovelace",
+            "defaultCudaVersion": "12.4",
+            "notes": "8x NVIDIA L40S GPUs (384GB total). Maximum multi-GPU configuration",
+            "gpuMemoryGb": 48,
+            "gpuType": "NVIDIA L40S",
+            "costTier": "medium"
+        },
+        "ml.p6-b200.48xlarge": {
+            "category": "gpu",
+            "gpus": 8,
+            "vcpus": 192,
+            "memGb": 2048,
+            "accelerator": "8x B200 1432GB",
+            "cudaVersions": [
+                "13.0"
+            ],
+            "tags": [
+                "gpu",
+                "multi-gpu",
+                "high-performance",
+                "blackwell",
+                "b200",
+                "parallel",
+                "cuda-13",
+                "large-models"
+            ],
+            "family": "p6",
+            "acceleratorType": "cuda",
+            "hardware": "NVIDIA B200",
+            "gpuArchitecture": "Blackwell",
+            "defaultCudaVersion": "13.0",
+            "notes": "8x NVIDIA B200 GPUs (179GB each, 1432GB total). Blackwell architecture for frontier models",
+            "gpuMemoryGb": 179,
+            "gpuType": "NVIDIA B200",
+            "costTier": "high"
+        },
+        "ml.g7e.2xlarge": {
+            "category": "gpu",
+            "gpus": 1,
+            "vcpus": 8,
+            "memGb": 64,
+            "accelerator": "RTX PRO 6000 96GB",
+            "cudaVersions": [
+                "13.0"
+            ],
+            "tags": [
+                "gpu",
+                "single-gpu",
+                "inference",
+                "blackwell",
+                "rtx-pro",
+                "cuda-13"
+            ],
+            "family": "g7e",
+            "acceleratorType": "cuda",
+            "hardware": "NVIDIA RTX PRO 6000",
+            "gpuArchitecture": "Blackwell",
+            "defaultCudaVersion": "13.0",
+            "notes": "1x NVIDIA RTX PRO 6000 GPU (96GB). Blackwell for inference",
+            "gpuMemoryGb": 96,
+            "gpuType": "NVIDIA RTX PRO 6000",
+            "costTier": "medium"
+        },
+        "ml.g7e.4xlarge": {
+            "category": "gpu",
+            "gpus": 1,
+            "vcpus": 16,
+            "memGb": 128,
+            "accelerator": "RTX PRO 6000 96GB",
+            "cudaVersions": [
+                "13.0"
+            ],
+            "tags": [
+                "gpu",
+                "single-gpu",
+                "blackwell",
+                "rtx-pro",
+                "cuda-13"
+            ],
+            "family": "g7e",
+            "acceleratorType": "cuda",
+            "hardware": "NVIDIA RTX PRO 6000",
+            "gpuArchitecture": "Blackwell",
+            "defaultCudaVersion": "13.0",
+            "notes": "1x NVIDIA RTX PRO 6000 GPU (96GB). High CPU/memory ratio",
+            "gpuMemoryGb": 96,
+            "gpuType": "NVIDIA RTX PRO 6000",
+            "costTier": "medium"
+        },
+        "ml.g7e.8xlarge": {
+            "category": "gpu",
+            "gpus": 1,
+            "vcpus": 32,
+            "memGb": 256,
+            "accelerator": "RTX PRO 6000 96GB",
+            "cudaVersions": [
+                "13.0"
+            ],
+            "tags": [
+                "gpu",
+                "single-gpu",
+                "blackwell",
+                "rtx-pro",
+                "cuda-13"
+            ],
+            "family": "g7e",
+            "acceleratorType": "cuda",
+            "hardware": "NVIDIA RTX PRO 6000",
+            "gpuArchitecture": "Blackwell",
+            "defaultCudaVersion": "13.0",
+            "notes": "1x NVIDIA RTX PRO 6000 GPU (96GB). Maximum CPU/memory for single GPU",
+            "gpuMemoryGb": 96,
+            "gpuType": "NVIDIA RTX PRO 6000",
+            "costTier": "medium"
+        },
+        "ml.g7e.12xlarge": {
+            "category": "gpu",
+            "gpus": 2,
+            "vcpus": 48,
+            "memGb": 512,
+            "accelerator": "2x RTX PRO 6000 192GB",
+            "cudaVersions": [
+                "13.0"
+            ],
+            "tags": [
+                "gpu",
+                "multi-gpu",
+                "blackwell",
+                "rtx-pro",
+                "parallel",
+                "cuda-13"
+            ],
+            "family": "g7e",
+            "acceleratorType": "cuda",
+            "hardware": "NVIDIA RTX PRO 6000",
+            "gpuArchitecture": "Blackwell",
+            "defaultCudaVersion": "13.0",
+            "notes": "2x NVIDIA RTX PRO 6000 GPUs (192GB total). Multi-GPU for larger models",
+            "gpuMemoryGb": 96,
+            "gpuType": "NVIDIA RTX PRO 6000",
+            "costTier": "medium"
+        },
+        "ml.g7e.24xlarge": {
+            "category": "gpu",
+            "gpus": 4,
+            "vcpus": 96,
+            "memGb": 1024,
+            "accelerator": "4x RTX PRO 6000 384GB",
+            "cudaVersions": [
+                "13.0"
+            ],
+            "tags": [
+                "gpu",
+                "multi-gpu",
+                "blackwell",
+                "rtx-pro",
+                "parallel",
+                "cuda-13"
+            ],
+            "family": "g7e",
+            "acceleratorType": "cuda",
+            "hardware": "NVIDIA RTX PRO 6000",
+            "gpuArchitecture": "Blackwell",
+            "defaultCudaVersion": "13.0",
+            "notes": "4x NVIDIA RTX PRO 6000 GPUs (384GB total). High-capacity multi-GPU",
+            "gpuMemoryGb": 96,
+            "gpuType": "NVIDIA RTX PRO 6000",
+            "costTier": "medium"
+        },
+        "ml.g7e.48xlarge": {
+            "category": "gpu",
+            "gpus": 8,
+            "vcpus": 192,
+            "memGb": 2048,
+            "accelerator": "8x RTX PRO 6000 768GB",
+            "cudaVersions": [
+                "13.0"
+            ],
+            "tags": [
+                "gpu",
+                "multi-gpu",
+                "blackwell",
+                "rtx-pro",
+                "parallel",
+                "cuda-13",
+                "large-models"
+            ],
+            "family": "g7e",
+            "acceleratorType": "cuda",
+            "hardware": "NVIDIA RTX PRO 6000",
+            "gpuArchitecture": "Blackwell",
+            "defaultCudaVersion": "13.0",
+            "notes": "8x NVIDIA RTX PRO 6000 GPUs (768GB total). Maximum Blackwell multi-GPU",
+            "gpuMemoryGb": 96,
+            "gpuType": "NVIDIA RTX PRO 6000",
+            "costTier": "medium"
+        },
         "ml.r5.large": {
             "category": "cpu",
             "gpus": 0,
@@ -923,25 +1425,38 @@
             "ml.r5.xlarge"
         ],
         "gpu": [
-            "ml.g4dn.xlarge",
-            "ml.g4dn.2xlarge",
+            "ml.g7e.2xlarge",
+            "ml.g7e.4xlarge",
+            "ml.g7e.8xlarge",
+            "ml.g7e.12xlarge",
+            "ml.g7e.24xlarge",
+            "ml.g7e.48xlarge",
+            "ml.g6e.xlarge",
+            "ml.g6e.2xlarge",
+            "ml.g6e.4xlarge",
+            "ml.g6e.8xlarge",
+            "ml.g6e.12xlarge",
+            "ml.g6e.24xlarge",
+            "ml.g6e.48xlarge",
+            "ml.g6.xlarge",
+            "ml.g6.2xlarge",
+            "ml.g6.12xlarge",
             "ml.g5.xlarge",
             "ml.g5.2xlarge",
             "ml.g5.4xlarge",
-            "ml.p3.2xlarge",
             "ml.g5.12xlarge",
-            "ml.g6.xlarge",
-            "ml.g6.2xlarge",
-            "ml.g6.12xlarge",
-            "ml.p3.8xlarge",
-            "ml.g5.8xlarge",
-            "ml.g5.16xlarge",
             "ml.g5.24xlarge",
             "ml.g5.48xlarge",
-            "ml.g4dn.4xlarge",
-            "ml.g4dn.8xlarge",
+            "ml.g4dn.xlarge",
+            "ml.g4dn.2xlarge",
             "ml.g4dn.12xlarge",
-            "ml.g4dn.16xlarge",
+            "ml.p6-b200.48xlarge",
+            "ml.p5e.48xlarge",
+            "ml.p5en.48xlarge",
+            "ml.p5.48xlarge",
+            "ml.p4d.24xlarge",
+            "ml.p3.2xlarge",
+            "ml.p3.8xlarge",
             "ml.p3.16xlarge",
             "ml.inf2.xlarge",
             "ml.inf2.8xlarge",

package/servers/lib/catalogs/model-servers.json CHANGED Viewed

@@ -542,7 +542,7 @@
                     "TRTLLM_ENABLE_CHUNKED_CONTEXT": "true",
                     "UCX_MEMTYPE_CACHE": "n"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -612,7 +612,7 @@
                     "TRTLLM_ENABLE_CHUNKED_CONTEXT": "true",
                     "UCX_MEMTYPE_CACHE": "n"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -681,7 +681,7 @@
                     "OPTION_MAX_ROLLING_BATCH_SIZE": "32",
                     "OPTION_DTYPE": "fp16"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -754,7 +754,7 @@
                     "OPTION_MAX_ROLLING_BATCH_SIZE": "32",
                     "OPTION_DTYPE": "fp16"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -828,7 +828,7 @@
                     "OPTION_TENSOR_PARALLEL_DEGREE": "1",
                     "OPTION_DEVICE_MAP": "auto"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -881,7 +881,7 @@
                     "OPTION_TENSOR_PARALLEL_DEGREE": "1",
                     "OPTION_DEVICE_MAP": "auto"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -935,7 +935,7 @@
                     "HF_TOKEN": "${hfToken}",
                     "VLLM_WORKER_MULTIPROC_METHOD": "spawn"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -985,7 +985,7 @@
                     "HF_TOKEN": "${hfToken}",
                     "VLLM_WORKER_MULTIPROC_METHOD": "spawn"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -1036,7 +1036,7 @@
                 "envVars": {
                     "TRITON_MODEL_REPOSITORY": "/opt/ml/model/model_repository"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -1067,7 +1067,7 @@
                 "envVars": {
                     "TRITON_MODEL_REPOSITORY": "/opt/ml/model/model_repository"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -1098,7 +1098,7 @@
                 "envVars": {
                     "TRITON_MODEL_REPOSITORY": "/opt/ml/model/model_repository"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -1129,7 +1129,7 @@
                 "envVars": {
                     "TRITON_MODEL_REPOSITORY": "/opt/ml/model/model_repository"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -1160,7 +1160,7 @@
                 "envVars": {
                     "TRITON_MODEL_REPOSITORY": "/opt/ml/model/model_repository"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -1191,7 +1191,7 @@
                 "envVars": {
                     "TRITON_MODEL_REPOSITORY": "/opt/ml/model/model_repository"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -1222,7 +1222,7 @@
                 "envVars": {
                     "TRITON_MODEL_REPOSITORY": "/opt/ml/model/model_repository"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",