npm - @aws/ml-container-creator - Versions diffs - 0.2.4 → 0.2.6 - Mend

@aws/ml-container-creator 0.2.4 → 0.2.6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (61) hide show

package/README.md +62 -298
package/bin/cli.js +7 -2
package/package.json +7 -8
package/servers/base-image-picker/index.js +3 -3
package/servers/base-image-picker/manifest.json +4 -2
package/servers/instance-sizer/index.js +561 -0
package/servers/instance-sizer/lib/instance-ranker.js +245 -0
package/servers/instance-sizer/lib/model-resolver.js +265 -0
package/servers/instance-sizer/lib/vram-estimator.js +177 -0
package/servers/instance-sizer/manifest.json +17 -0
package/servers/instance-sizer/package.json +15 -0
package/servers/{instance-recommender → lib}/catalogs/instances.json +136 -34
package/servers/{base-image-picker → lib}/catalogs/model-servers.json +19 -249
package/servers/lib/catalogs/model-sizes.json +131 -0
package/servers/lib/catalogs/models.json +602 -0
package/servers/{model-picker → lib}/catalogs/popular-diffusors.json +32 -10
package/servers/{model-picker → lib}/catalogs/popular-transformers.json +59 -26
package/servers/{base-image-picker → lib}/catalogs/python-slim.json +12 -12
package/servers/lib/schemas/image-catalog.schema.json +0 -12
package/servers/lib/schemas/instances.schema.json +29 -0
package/servers/lib/schemas/model-catalog.schema.json +12 -10
package/servers/lib/schemas/unified-model-catalog.schema.json +129 -0
package/servers/model-picker/index.js +2 -3
package/servers/model-picker/manifest.json +2 -3
package/servers/region-picker/index.js +1 -1
package/servers/region-picker/manifest.json +1 -1
package/src/app.js +17 -0
package/src/lib/bootstrap-command-handler.js +38 -0
package/src/lib/cli-handler.js +3 -3
package/src/lib/config-manager.js +4 -1
package/src/lib/configuration-manager.js +2 -2
package/src/lib/cross-cutting-checker.js +341 -0
package/src/lib/dry-run-validator.js +78 -0
package/src/lib/generation-validator.js +102 -0
package/src/lib/mcp-validator-config.js +89 -0
package/src/lib/payload-builder.js +153 -0
package/src/lib/prompt-runner.js +445 -135
package/src/lib/prompts.js +1 -1
package/src/lib/registry-loader.js +5 -5
package/src/lib/schema-sync.js +203 -0
package/src/lib/schema-validation-engine.js +195 -0
package/src/lib/service-model-parser.js +102 -0
package/src/lib/validate-runner.js +167 -0
package/src/lib/validation-report.js +133 -0
package/src/lib/validators/base-validator.js +36 -0
package/src/lib/validators/catalog-validator.js +177 -0
package/src/lib/validators/enum-validator.js +120 -0
package/src/lib/validators/required-field-validator.js +150 -0
package/src/lib/validators/type-validator.js +313 -0
package/templates/Dockerfile +1 -1
package/templates/do/build +15 -5
package/templates/do/run +5 -1
package/templates/do/validate +61 -0
package/servers/instance-recommender/LICENSE +0 -202
package/servers/instance-recommender/index.js +0 -284
package/servers/instance-recommender/manifest.json +0 -16
package/servers/instance-recommender/package.json +0 -15
/package/servers/{model-picker → lib}/catalogs/jumpstart-public.json +0 -0
/package/servers/{region-picker → lib}/catalogs/regions.json +0 -0
/package/servers/{base-image-picker → lib}/catalogs/triton-backends.json +0 -0
/package/servers/{base-image-picker → lib}/catalogs/triton.json +0 -0

package/servers/{base-image-picker → lib}/catalogs/model-servers.json RENAMED Viewed

@@ -20,13 +20,7 @@
                     "VLLM_MAX_MODEL_LEN": "4096",
                     "VLLM_ENABLE_PREFIX_CACHING": "true"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge",
-                    "ml.g5.12xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -46,9 +40,6 @@
                         "VLLM_GPU_MEMORY_UTILIZATION": "0.85",
                         "VLLM_ENABLE_PREFIX_CACHING": "true"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge"
-                    ],
                     "notes": "Prefix caching improves latency for repeated prompts"
                 },
                 "high-throughput": {
@@ -60,10 +51,6 @@
                         "VLLM_MAX_MODEL_LEN": "2048",
                         "VLLM_ENABLE_PREFIX_CACHING": "false"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.4xlarge",
-                        "ml.g5.12xlarge"
-                    ],
                     "notes": "Continuous batching maximizes GPU utilization"
                 },
                 "multi-gpu": {
@@ -74,10 +61,6 @@
                         "VLLM_GPU_MEMORY_UTILIZATION": "0.9",
                         "VLLM_MAX_NUM_SEQS": "256"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.12xlarge",
-                        "ml.g5.48xlarge"
-                    ],
                     "notes": "Requires instance with 4+ GPUs. Set TENSOR_PARALLEL_SIZE to match GPU count"
                 }
             },
@@ -103,13 +86,7 @@
                     "VLLM_MAX_MODEL_LEN": "4096",
                     "VLLM_ENABLE_PREFIX_CACHING": "true"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge",
-                    "ml.g5.12xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -129,9 +106,6 @@
                         "VLLM_GPU_MEMORY_UTILIZATION": "0.85",
                         "VLLM_ENABLE_PREFIX_CACHING": "true"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge"
-                    ],
                     "notes": "Prefix caching improves latency for repeated prompts"
                 },
                 "high-throughput": {
@@ -143,10 +117,6 @@
                         "VLLM_MAX_MODEL_LEN": "2048",
                         "VLLM_ENABLE_PREFIX_CACHING": "false"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.4xlarge",
-                        "ml.g5.12xlarge"
-                    ],
                     "notes": "Continuous batching maximizes GPU utilization"
                 },
                 "multi-gpu": {
@@ -157,10 +127,6 @@
                         "VLLM_GPU_MEMORY_UTILIZATION": "0.9",
                         "VLLM_MAX_NUM_SEQS": "256"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.12xlarge",
-                        "ml.g5.48xlarge"
-                    ],
                     "notes": "Requires instance with 4+ GPUs. Set TENSOR_PARALLEL_SIZE to match GPU count"
                 }
             },
@@ -187,12 +153,7 @@
                     "SGLANG_MAX_RUNNING_REQUESTS": "256",
                     "SGLANG_CONTEXT_LENGTH": "4096"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -211,10 +172,6 @@
                         "SGLANG_MAX_RUNNING_REQUESTS": "256",
                         "SGLANG_MEM_FRACTION": "0.9"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge",
-                        "ml.g5.2xlarge"
-                    ],
                     "notes": "Good starting point for most workloads"
                 },
                 "high-throughput": {
@@ -226,10 +183,6 @@
                         "SGLANG_CONTEXT_LENGTH": "2048",
                         "SGLANG_ENABLE_RADIX_CACHE": "true"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.4xlarge",
-                        "ml.g5.12xlarge"
-                    ],
                     "notes": "RadixAttention provides automatic KV cache reuse for improved throughput"
                 }
             },
@@ -254,12 +207,7 @@
                     "SGLANG_MAX_RUNNING_REQUESTS": "256",
                     "SGLANG_CONTEXT_LENGTH": "4096"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -278,10 +226,6 @@
                         "SGLANG_MAX_RUNNING_REQUESTS": "256",
                         "SGLANG_MEM_FRACTION": "0.9"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge",
-                        "ml.g5.2xlarge"
-                    ],
                     "notes": "Good starting point for most workloads"
                 },
                 "high-throughput": {
@@ -293,10 +237,6 @@
                         "SGLANG_CONTEXT_LENGTH": "2048",
                         "SGLANG_ENABLE_RADIX_CACHE": "true"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.4xlarge",
-                        "ml.g5.12xlarge"
-                    ],
                     "notes": "RadixAttention provides automatic KV cache reuse for improved throughput"
                 }
             },
@@ -326,13 +266,7 @@
                     "TRTLLM_ENABLE_CHUNKED_CONTEXT": "true",
                     "UCX_MEMTYPE_CACHE": "n"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge",
-                    "ml.g5.12xlarge",
-                    "ml.g5.48xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -352,10 +286,6 @@
                         "TRTLLM_MAX_BATCH_SIZE": "16",
                         "TRTLLM_ENABLE_CHUNKED_CONTEXT": "true"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.2xlarge",
-                        "ml.g5.4xlarge"
-                    ],
                     "notes": "Chunked context allows processing longer sequences"
                 },
                 "int8": {
@@ -367,10 +297,6 @@
                         "TRTLLM_USE_WEIGHT_ONLY": "true",
                         "TRTLLM_WEIGHT_ONLY_PRECISION": "int8"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge",
-                        "ml.g5.2xlarge"
-                    ],
                     "notes": "Weight-only quantization provides best speed/accuracy tradeoff"
                 },
                 "int4": {
@@ -382,9 +308,6 @@
                         "TRTLLM_USE_WEIGHT_ONLY": "true",
                         "TRTLLM_WEIGHT_ONLY_PRECISION": "int4"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge"
-                    ],
                     "notes": "Enables running larger models on smaller instances with acceptable accuracy"
                 }
             },
@@ -412,13 +335,7 @@
                     "TRTLLM_ENABLE_CHUNKED_CONTEXT": "true",
                     "UCX_MEMTYPE_CACHE": "n"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge",
-                    "ml.g5.12xlarge",
-                    "ml.g5.48xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -438,10 +355,6 @@
                         "TRTLLM_MAX_BATCH_SIZE": "16",
                         "TRTLLM_ENABLE_CHUNKED_CONTEXT": "true"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.2xlarge",
-                        "ml.g5.4xlarge"
-                    ],
                     "notes": "Chunked context allows processing longer sequences"
                 },
                 "int8": {
@@ -453,10 +366,6 @@
                         "TRTLLM_USE_WEIGHT_ONLY": "true",
                         "TRTLLM_WEIGHT_ONLY_PRECISION": "int8"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge",
-                        "ml.g5.2xlarge"
-                    ],
                     "notes": "Weight-only quantization provides best speed/accuracy tradeoff"
                 },
                 "int4": {
@@ -468,9 +377,6 @@
                         "TRTLLM_USE_WEIGHT_ONLY": "true",
                         "TRTLLM_WEIGHT_ONLY_PRECISION": "int4"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge"
-                    ],
                     "notes": "Enables running larger models on smaller instances with acceptable accuracy"
                 }
             },
@@ -497,13 +403,7 @@
                     "OPTION_MAX_ROLLING_BATCH_SIZE": "32",
                     "OPTION_DTYPE": "fp16"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge",
-                    "ml.g5.12xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -523,10 +423,6 @@
                         "OPTION_MAX_ROLLING_BATCH_SIZE": "32",
                         "OPTION_DTYPE": "fp16"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge",
-                        "ml.g5.2xlarge"
-                    ],
                     "notes": "vLLM backend provides excellent performance for most models"
                 },
                 "tensorrt-backend": {
@@ -537,10 +433,6 @@
                         "OPTION_MAX_ROLLING_BATCH_SIZE": "16",
                         "OPTION_DTYPE": "fp16"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.2xlarge",
-                        "ml.g5.4xlarge"
-                    ],
                     "notes": "TensorRT-LLM provides best performance but requires model compilation"
                 },
                 "lmi-dist": {
@@ -551,10 +443,6 @@
                         "OPTION_TENSOR_PARALLEL_DEGREE": "4",
                         "OPTION_MAX_ROLLING_BATCH_SIZE": "64"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.12xlarge",
-                        "ml.g5.48xlarge"
-                    ],
                     "notes": "Best for very large models requiring multi-GPU tensor parallelism"
                 },
                 "auto": {
@@ -564,11 +452,6 @@
                         "OPTION_MAX_ROLLING_BATCH_SIZE": "32",
                         "OPTION_DTYPE": "fp16"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge",
-                        "ml.g5.2xlarge",
-                        "ml.g5.4xlarge"
-                    ],
                     "notes": "LMI will analyze your model and select the optimal backend automatically"
                 }
             },
@@ -593,13 +476,7 @@
                     "OPTION_MAX_ROLLING_BATCH_SIZE": "32",
                     "OPTION_DTYPE": "fp16"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge",
-                    "ml.g5.12xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -619,10 +496,6 @@
                         "OPTION_MAX_ROLLING_BATCH_SIZE": "32",
                         "OPTION_DTYPE": "fp16"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge",
-                        "ml.g5.2xlarge"
-                    ],
                     "notes": "vLLM backend provides excellent performance for most models"
                 },
                 "tensorrt-backend": {
@@ -633,10 +506,6 @@
                         "OPTION_MAX_ROLLING_BATCH_SIZE": "16",
                         "OPTION_DTYPE": "fp16"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.2xlarge",
-                        "ml.g5.4xlarge"
-                    ],
                     "notes": "TensorRT-LLM provides best performance but requires model compilation"
                 },
                 "lmi-dist": {
@@ -647,10 +516,6 @@
                         "OPTION_TENSOR_PARALLEL_DEGREE": "4",
                         "OPTION_MAX_ROLLING_BATCH_SIZE": "64"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.12xlarge",
-                        "ml.g5.48xlarge"
-                    ],
                     "notes": "Best for very large models requiring multi-GPU tensor parallelism"
                 },
                 "auto": {
@@ -660,11 +525,6 @@
                         "OPTION_MAX_ROLLING_BATCH_SIZE": "32",
                         "OPTION_DTYPE": "fp16"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge",
-                        "ml.g5.2xlarge",
-                        "ml.g5.4xlarge"
-                    ],
                     "notes": "LMI will analyze your model and select the optimal backend automatically"
                 }
             },
@@ -690,12 +550,7 @@
                     "OPTION_TENSOR_PARALLEL_DEGREE": "1",
                     "OPTION_DEVICE_MAP": "auto"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -715,10 +570,6 @@
                         "OPTION_DEVICE_MAP": "auto",
                         "BATCH_SIZE": "1"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge",
-                        "ml.g5.2xlarge"
-                    ],
                     "notes": "PyTorch engine provides good compatibility with HuggingFace models"
                 },
                 "multi-gpu": {
@@ -729,10 +580,6 @@
                         "OPTION_TENSOR_PARALLEL_DEGREE": "4",
                         "OPTION_DEVICE_MAP": "auto"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.12xlarge",
-                        "ml.g5.48xlarge"
-                    ],
                     "notes": "Distribute model across multiple GPUs for large models"
                 }
             },
@@ -756,12 +603,7 @@
                     "OPTION_TENSOR_PARALLEL_DEGREE": "1",
                     "OPTION_DEVICE_MAP": "auto"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -781,10 +623,6 @@
                         "OPTION_DEVICE_MAP": "auto",
                         "BATCH_SIZE": "1"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge",
-                        "ml.g5.2xlarge"
-                    ],
                     "notes": "PyTorch engine provides good compatibility with HuggingFace models"
                 },
                 "multi-gpu": {
@@ -795,10 +633,6 @@
                         "OPTION_TENSOR_PARALLEL_DEGREE": "4",
                         "OPTION_DEVICE_MAP": "auto"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.12xlarge",
-                        "ml.g5.48xlarge"
-                    ],
                     "notes": "Distribute model across multiple GPUs for large models"
                 }
             },
@@ -823,12 +657,7 @@
                     "HF_TOKEN": "${hfToken}",
                     "VLLM_WORKER_MULTIPROC_METHOD": "spawn"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge",
-                    "ml.g5.12xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -844,30 +673,18 @@
                     "displayName": "Quality",
                     "description": "Higher step count for better image quality",
                     "envVars": {},
-                    "recommendedInstanceTypes": [
-                        "ml.g5.4xlarge",
-                        "ml.g5.12xlarge"
-                    ],
                     "notes": "Best image quality, no cache acceleration, VAE tiling for memory efficiency"
                 },
                 "speed": {
                     "displayName": "Speed",
                     "description": "Cache acceleration for faster generation",
                     "envVars": {},
-                    "recommendedInstanceTypes": [
-                        "ml.g5.2xlarge",
-                        "ml.g5.4xlarge"
-                    ],
                     "notes": "TeaCache acceleration reduces redundant computation between denoising steps"
                 },
                 "multi-gpu": {
                     "displayName": "Multi-GPU",
                     "description": "Sequence parallelism for large diffusion models",
                     "envVars": {},
-                    "recommendedInstanceTypes": [
-                        "ml.g5.12xlarge",
-                        "ml.g5.48xlarge"
-                    ],
                     "notes": "Ulysses sequence parallelism for large models like FLUX on multi-GPU instances"
                 }
             },
@@ -890,12 +707,7 @@
                     "HF_TOKEN": "${hfToken}",
                     "VLLM_WORKER_MULTIPROC_METHOD": "spawn"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge",
-                    "ml.g5.12xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -911,30 +723,18 @@
                     "displayName": "Quality",
                     "description": "Higher step count for better image quality",
                     "envVars": {},
-                    "recommendedInstanceTypes": [
-                        "ml.g5.4xlarge",
-                        "ml.g5.12xlarge"
-                    ],
                     "notes": "Best image quality, no cache acceleration, VAE tiling for memory efficiency"
                 },
                 "speed": {
                     "displayName": "Speed",
                     "description": "Cache acceleration for faster generation",
                     "envVars": {},
-                    "recommendedInstanceTypes": [
-                        "ml.g5.2xlarge",
-                        "ml.g5.4xlarge"
-                    ],
                     "notes": "TeaCache acceleration reduces redundant computation between denoising steps"
                 },
                 "multi-gpu": {
                     "displayName": "Multi-GPU",
                     "description": "Sequence parallelism for large diffusion models",
                     "envVars": {},
-                    "recommendedInstanceTypes": [
-                        "ml.g5.12xlarge",
-                        "ml.g5.48xlarge"
-                    ],
                     "notes": "Ulysses sequence parallelism for large models like FLUX on multi-GPU instances"
                 }
             },
@@ -958,11 +758,7 @@
                 "envVars": {
                     "TRITON_MODEL_REPOSITORY": "/opt/ml/model/model_repository"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -993,11 +789,7 @@
                 "envVars": {
                     "TRITON_MODEL_REPOSITORY": "/opt/ml/model/model_repository"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -1028,11 +820,7 @@
                 "envVars": {
                     "TRITON_MODEL_REPOSITORY": "/opt/ml/model/model_repository"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -1063,11 +851,7 @@
                 "envVars": {
                     "TRITON_MODEL_REPOSITORY": "/opt/ml/model/model_repository"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -1098,12 +882,7 @@
                 "envVars": {
                     "TRITON_MODEL_REPOSITORY": "/opt/ml/model/model_repository"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -1134,12 +913,7 @@
                 "envVars": {
                     "TRITON_MODEL_REPOSITORY": "/opt/ml/model/model_repository"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge",
-                    "ml.g5.12xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -1170,11 +944,7 @@
                 "envVars": {
                     "TRITON_MODEL_REPOSITORY": "/opt/ml/model/model_repository"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",