npm - @aws/ml-container-creator - Versions diffs - 0.2.5 → 0.3.0 - Mend

@aws/ml-container-creator 0.2.5 → 0.3.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (72) hide show

package/bin/cli.js +45 -4
package/config/bootstrap-stack.json +14 -0
package/infra/ci-harness/package-lock.json +22 -9
package/package.json +7 -8
package/servers/base-image-picker/index.js +3 -3
package/servers/base-image-picker/manifest.json +4 -2
package/servers/instance-sizer/index.js +564 -0
package/servers/instance-sizer/lib/instance-ranker.js +270 -0
package/servers/instance-sizer/lib/model-resolver.js +269 -0
package/servers/instance-sizer/lib/vram-estimator.js +177 -0
package/servers/instance-sizer/manifest.json +17 -0
package/servers/instance-sizer/package.json +15 -0
package/servers/{instance-recommender → lib}/catalogs/instances.json +136 -34
package/servers/{base-image-picker → lib}/catalogs/model-servers.json +302 -254
package/servers/lib/catalogs/model-sizes.json +131 -0
package/servers/lib/catalogs/models.json +632 -0
package/servers/{model-picker → lib}/catalogs/popular-diffusors.json +32 -10
package/servers/{model-picker → lib}/catalogs/popular-transformers.json +59 -26
package/servers/{base-image-picker → lib}/catalogs/python-slim.json +12 -12
package/servers/lib/schemas/image-catalog.schema.json +6 -12
package/servers/lib/schemas/instances.schema.json +29 -0
package/servers/lib/schemas/model-catalog.schema.json +12 -10
package/servers/lib/schemas/unified-model-catalog.schema.json +129 -0
package/servers/model-picker/index.js +4 -4
package/servers/model-picker/manifest.json +2 -3
package/servers/region-picker/index.js +1 -1
package/servers/region-picker/manifest.json +1 -1
package/src/app.js +36 -0
package/src/lib/architecture-sync.js +171 -0
package/src/lib/arn-detection.js +22 -0
package/src/lib/bootstrap-command-handler.js +120 -0
package/src/lib/cli-handler.js +3 -3
package/src/lib/config-manager.js +47 -1
package/src/lib/configuration-manager.js +2 -2
package/src/lib/cross-cutting-checker.js +460 -0
package/src/lib/deployment-entry-schema.js +1 -2
package/src/lib/dry-run-validator.js +78 -0
package/src/lib/generation-validator.js +102 -0
package/src/lib/mcp-validator-config.js +89 -0
package/src/lib/payload-builder.js +153 -0
package/src/lib/prompt-runner.js +866 -149
package/src/lib/prompts.js +2 -2
package/src/lib/registry-command-handler.js +236 -0
package/src/lib/registry-loader.js +5 -5
package/src/lib/schema-sync.js +203 -0
package/src/lib/schema-validation-engine.js +195 -0
package/src/lib/secret-classification.js +56 -0
package/src/lib/secrets-command-handler.js +550 -0
package/src/lib/service-model-parser.js +102 -0
package/src/lib/validate-runner.js +216 -0
package/src/lib/validation-report.js +140 -0
package/src/lib/validators/base-validator.js +36 -0
package/src/lib/validators/catalog-validator.js +177 -0
package/src/lib/validators/enum-validator.js +120 -0
package/src/lib/validators/required-field-validator.js +150 -0
package/src/lib/validators/type-validator.js +313 -0
package/src/prompt-adapter.js +3 -2
package/templates/Dockerfile +1 -1
package/templates/do/build +37 -5
package/templates/do/config +15 -3
package/templates/do/deploy +60 -5
package/templates/do/logs +18 -3
package/templates/do/run +15 -1
package/templates/do/validate +61 -0
package/servers/instance-recommender/LICENSE +0 -202
package/servers/instance-recommender/index.js +0 -284
package/servers/instance-recommender/manifest.json +0 -16
package/servers/instance-recommender/package.json +0 -15
/package/servers/{model-picker → lib}/catalogs/jumpstart-public.json +0 -0
/package/servers/{region-picker → lib}/catalogs/regions.json +0 -0
/package/servers/{base-image-picker → lib}/catalogs/triton-backends.json +0 -0
/package/servers/{base-image-picker → lib}/catalogs/triton.json +0 -0

package/servers/{base-image-picker → lib}/catalogs/model-servers.json RENAMED Viewed

@@ -20,13 +20,7 @@
                     "VLLM_MAX_MODEL_LEN": "4096",
                     "VLLM_ENABLE_PREFIX_CACHING": "true"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge",
-                    "ml.g5.12xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -46,9 +40,6 @@
                         "VLLM_GPU_MEMORY_UTILIZATION": "0.85",
                         "VLLM_ENABLE_PREFIX_CACHING": "true"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge"
-                    ],
                     "notes": "Prefix caching improves latency for repeated prompts"
                 },
                 "high-throughput": {
@@ -60,10 +51,6 @@
                         "VLLM_MAX_MODEL_LEN": "2048",
                         "VLLM_ENABLE_PREFIX_CACHING": "false"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.4xlarge",
-                        "ml.g5.12xlarge"
-                    ],
                     "notes": "Continuous batching maximizes GPU utilization"
                 },
                 "multi-gpu": {
@@ -74,14 +61,160 @@
                         "VLLM_GPU_MEMORY_UTILIZATION": "0.9",
                         "VLLM_MAX_NUM_SEQS": "256"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.12xlarge",
-                        "ml.g5.48xlarge"
-                    ],
                     "notes": "Requires instance with 4+ GPUs. Set TENSOR_PARALLEL_SIZE to match GPU count"
                 }
             },
-            "notes": "vLLM 0.4.0 adds prefix caching and improved performance. Requires CUDA 12.0+"
+            "notes": "vLLM 0.4.0 adds prefix caching and improved performance. Requires CUDA 12.0+",
+            "supportedModelTypes": [
+                "arcee",
+                "arctic",
+                "aria",
+                "aya_vision",
+                "baichuan",
+                "bailing_moe",
+                "bamba",
+                "bart",
+                "bert",
+                "bert_with_rope",
+                "blip2",
+                "bloom",
+                "chameleon",
+                "chatglm",
+                "cohere2_vision",
+                "commandr",
+                "dbrx",
+                "deepseek",
+                "deepseek_mtp",
+                "deepseek_v2",
+                "deepseek_vl2",
+                "dots1",
+                "ernie45",
+                "ernie45_moe",
+                "exaone",
+                "exaone4",
+                "fairseq2_llama",
+                "falcon",
+                "falcon_h1",
+                "florence2",
+                "fuyu",
+                "gemma",
+                "gemma2",
+                "gemma3",
+                "gemma3_mm",
+                "gemma3n",
+                "gemma3n_mm",
+                "glm",
+                "glm4",
+                "glm4_1v",
+                "glm4_moe",
+                "glm4_moe_mtp",
+                "glm4v",
+                "gpt2",
+                "gpt_bigcode",
+                "gpt_j",
+                "gpt_neox",
+                "gpt_oss",
+                "granite",
+                "granite_speech",
+                "granitemoe",
+                "granitemoehybrid",
+                "granitemoeshared",
+                "gritlm",
+                "grok1",
+                "h2ovl",
+                "hunyuan_v1",
+                "hyperclovax_vision",
+                "idefics3",
+                "internlm2",
+                "internlm2_ve",
+                "interns1",
+                "internvl",
+                "jais",
+                "jamba",
+                "jina_vl",
+                "keye",
+                "kimi_vl",
+                "llama",
+                "llama4",
+                "llama4_eagle",
+                "llama_eagle",
+                "llama_eagle3",
+                "llava",
+                "llava_next",
+                "llava_next_video",
+                "llava_onevision",
+                "mamba",
+                "mamba2",
+                "medusa",
+                "mimo",
+                "mimo_mtp",
+                "minicpm",
+                "minicpm3",
+                "minicpm_eagle",
+                "minicpmo",
+                "minicpmv",
+                "minimax_text_01",
+                "minimax_vl_01",
+                "mistral3",
+                "mixtral",
+                "mixtral_quant",
+                "mllama",
+                "mllama4",
+                "mlp_speculator",
+                "modernbert",
+                "molmo",
+                "mpt",
+                "nemotron",
+                "nemotron_h",
+                "nemotron_nas",
+                "nemotron_vl",
+                "nvlm_d",
+                "olmo",
+                "olmo2",
+                "olmoe",
+                "opt",
+                "orion",
+                "ovis",
+                "paligemma",
+                "persimmon",
+                "phi",
+                "phi3",
+                "phi3v",
+                "phi4_multimodal",
+                "phi4flash",
+                "phi4mm",
+                "phimoe",
+                "pixtral",
+                "plamo2",
+                "prithvi_geospatial_mae",
+                "qwen",
+                "qwen2",
+                "qwen2_5_omni_thinker",
+                "qwen2_5_vl",
+                "qwen2_audio",
+                "qwen2_moe",
+                "qwen2_rm",
+                "qwen2_vl",
+                "qwen3",
+                "qwen3_moe",
+                "qwen_vl",
+                "roberta",
+                "skyworkr1v",
+                "smolvlm",
+                "solar",
+                "stablelm",
+                "starcoder2",
+                "step3_text",
+                "step3_vl",
+                "tarsier",
+                "telechat2",
+                "teleflm",
+                "transformers",
+                "ultravox",
+                "voxtral",
+                "whisper",
+                "zamba2"
+            ]
         },
         {
             "image": "vllm/vllm-openai:v0.9.1",
@@ -103,13 +236,7 @@
                     "VLLM_MAX_MODEL_LEN": "4096",
                     "VLLM_ENABLE_PREFIX_CACHING": "true"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge",
-                    "ml.g5.12xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -129,9 +256,6 @@
                         "VLLM_GPU_MEMORY_UTILIZATION": "0.85",
                         "VLLM_ENABLE_PREFIX_CACHING": "true"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge"
-                    ],
                     "notes": "Prefix caching improves latency for repeated prompts"
                 },
                 "high-throughput": {
@@ -143,10 +267,6 @@
                         "VLLM_MAX_MODEL_LEN": "2048",
                         "VLLM_ENABLE_PREFIX_CACHING": "false"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.4xlarge",
-                        "ml.g5.12xlarge"
-                    ],
                     "notes": "Continuous batching maximizes GPU utilization"
                 },
                 "multi-gpu": {
@@ -157,14 +277,136 @@
                         "VLLM_GPU_MEMORY_UTILIZATION": "0.9",
                         "VLLM_MAX_NUM_SEQS": "256"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.12xlarge",
-                        "ml.g5.48xlarge"
-                    ],
                     "notes": "Requires instance with 4+ GPUs. Set TENSOR_PARALLEL_SIZE to match GPU count"
                 }
             },
-            "notes": "vLLM 0.4.0 adds prefix caching and improved performance. Requires CUDA 12.0+"
+            "notes": "vLLM 0.4.0 adds prefix caching and improved performance. Requires CUDA 12.0+",
+            "supportedModelTypes": [
+                "arctic",
+                "aria",
+                "aya_vision",
+                "baichuan",
+                "bamba",
+                "bart",
+                "bert",
+                "bert_with_rope",
+                "blip2",
+                "bloom",
+                "chameleon",
+                "chatglm",
+                "commandr",
+                "dbrx",
+                "deepseek",
+                "deepseek_mtp",
+                "deepseek_v2",
+                "deepseek_vl2",
+                "eagle",
+                "exaone",
+                "fairseq2_llama",
+                "falcon",
+                "falcon_h1",
+                "florence2",
+                "fuyu",
+                "gemma",
+                "gemma2",
+                "gemma3",
+                "gemma3_mm",
+                "glm",
+                "glm4",
+                "glm4v",
+                "gpt2",
+                "gpt_bigcode",
+                "gpt_j",
+                "gpt_neox",
+                "granite",
+                "granite_speech",
+                "granitemoe",
+                "granitemoehybrid",
+                "granitemoeshared",
+                "gritlm",
+                "grok1",
+                "h2ovl",
+                "idefics3",
+                "internlm2",
+                "internlm2_ve",
+                "internvl",
+                "jais",
+                "jamba",
+                "kimi_vl",
+                "llama",
+                "llama_eagle",
+                "llama_eagle3",
+                "llava",
+                "llava_next",
+                "llava_next_video",
+                "llava_onevision",
+                "mamba",
+                "mamba2",
+                "medusa",
+                "mimo",
+                "mimo_mtp",
+                "minicpm",
+                "minicpm3",
+                "minicpm_eagle",
+                "minicpmo",
+                "minicpmv",
+                "minimax_text_01",
+                "minimax_vl_01",
+                "mistral3",
+                "mixtral",
+                "mixtral_quant",
+                "mllama",
+                "mllama4",
+                "mlp_speculator",
+                "modernbert",
+                "molmo",
+                "mpt",
+                "nemotron",
+                "nemotron_h",
+                "nemotron_nas",
+                "nvlm_d",
+                "olmo",
+                "olmo2",
+                "olmoe",
+                "opt",
+                "orion",
+                "ovis",
+                "paligemma",
+                "persimmon",
+                "phi",
+                "phi3",
+                "phi3_small",
+                "phi3v",
+                "phi4mm",
+                "phimoe",
+                "pixtral",
+                "plamo2",
+                "prithvi_geospatial_mae",
+                "qwen",
+                "qwen2",
+                "qwen2_5_omni_thinker",
+                "qwen2_5_vl",
+                "qwen2_audio",
+                "qwen2_moe",
+                "qwen2_rm",
+                "qwen2_vl",
+                "qwen3",
+                "qwen3_moe",
+                "qwen_vl",
+                "roberta",
+                "skyworkr1v",
+                "smolvlm",
+                "solar",
+                "stablelm",
+                "starcoder2",
+                "tarsier",
+                "telechat2",
+                "teleflm",
+                "transformers",
+                "ultravox",
+                "whisper",
+                "zamba2"
+            ]
         }
     ],
     "sglang": [
@@ -187,12 +429,7 @@
                     "SGLANG_MAX_RUNNING_REQUESTS": "256",
                     "SGLANG_CONTEXT_LENGTH": "4096"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -211,10 +448,6 @@
                         "SGLANG_MAX_RUNNING_REQUESTS": "256",
                         "SGLANG_MEM_FRACTION": "0.9"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge",
-                        "ml.g5.2xlarge"
-                    ],
                     "notes": "Good starting point for most workloads"
                 },
                 "high-throughput": {
@@ -226,10 +459,6 @@
                         "SGLANG_CONTEXT_LENGTH": "2048",
                         "SGLANG_ENABLE_RADIX_CACHE": "true"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.4xlarge",
-                        "ml.g5.12xlarge"
-                    ],
                     "notes": "RadixAttention provides automatic KV cache reuse for improved throughput"
                 }
             },
@@ -254,12 +483,7 @@
                     "SGLANG_MAX_RUNNING_REQUESTS": "256",
                     "SGLANG_CONTEXT_LENGTH": "4096"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-1"
             },
             "accelerator": {
                 "type": "cuda",
@@ -278,10 +502,6 @@
                         "SGLANG_MAX_RUNNING_REQUESTS": "256",
                         "SGLANG_MEM_FRACTION": "0.9"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge",
-                        "ml.g5.2xlarge"
-                    ],
                     "notes": "Good starting point for most workloads"
                 },
                 "high-throughput": {
@@ -293,10 +513,6 @@
                         "SGLANG_CONTEXT_LENGTH": "2048",
                         "SGLANG_ENABLE_RADIX_CACHE": "true"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.4xlarge",
-                        "ml.g5.12xlarge"
-                    ],
                     "notes": "RadixAttention provides automatic KV cache reuse for improved throughput"
                 }
             },
@@ -326,13 +542,7 @@
                     "TRTLLM_ENABLE_CHUNKED_CONTEXT": "true",
                     "UCX_MEMTYPE_CACHE": "n"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge",
-                    "ml.g5.12xlarge",
-                    "ml.g5.48xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -352,10 +562,6 @@
                         "TRTLLM_MAX_BATCH_SIZE": "16",
                         "TRTLLM_ENABLE_CHUNKED_CONTEXT": "true"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.2xlarge",
-                        "ml.g5.4xlarge"
-                    ],
                     "notes": "Chunked context allows processing longer sequences"
                 },
                 "int8": {
@@ -367,10 +573,6 @@
                         "TRTLLM_USE_WEIGHT_ONLY": "true",
                         "TRTLLM_WEIGHT_ONLY_PRECISION": "int8"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge",
-                        "ml.g5.2xlarge"
-                    ],
                     "notes": "Weight-only quantization provides best speed/accuracy tradeoff"
                 },
                 "int4": {
@@ -382,13 +584,11 @@
                         "TRTLLM_USE_WEIGHT_ONLY": "true",
                         "TRTLLM_WEIGHT_ONLY_PRECISION": "int4"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge"
-                    ],
                     "notes": "Enables running larger models on smaller instances with acceptable accuracy"
                 }
             },
-            "notes": "TensorRT-LLM 1.0.0 adds chunked context and INT4 support. Requires CUDA 12.1+"
+            "notes": "TensorRT-LLM 1.0.0 adds chunked context and INT4 support. Requires CUDA 12.1+",
+            "supportedModelTypes": []
         },
         {
             "image": "nvcr.io/nvidia/tensorrt-llm/release:1.1.0",
@@ -412,13 +612,7 @@
                     "TRTLLM_ENABLE_CHUNKED_CONTEXT": "true",
                     "UCX_MEMTYPE_CACHE": "n"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge",
-                    "ml.g5.12xlarge",
-                    "ml.g5.48xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -438,10 +632,6 @@
                         "TRTLLM_MAX_BATCH_SIZE": "16",
                         "TRTLLM_ENABLE_CHUNKED_CONTEXT": "true"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.2xlarge",
-                        "ml.g5.4xlarge"
-                    ],
                     "notes": "Chunked context allows processing longer sequences"
                 },
                 "int8": {
@@ -453,10 +643,6 @@
                         "TRTLLM_USE_WEIGHT_ONLY": "true",
                         "TRTLLM_WEIGHT_ONLY_PRECISION": "int8"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge",
-                        "ml.g5.2xlarge"
-                    ],
                     "notes": "Weight-only quantization provides best speed/accuracy tradeoff"
                 },
                 "int4": {
@@ -468,13 +654,11 @@
                         "TRTLLM_USE_WEIGHT_ONLY": "true",
                         "TRTLLM_WEIGHT_ONLY_PRECISION": "int4"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge"
-                    ],
                     "notes": "Enables running larger models on smaller instances with acceptable accuracy"
                 }
             },
-            "notes": "TensorRT-LLM 1.0.0 adds chunked context and INT4 support. Requires CUDA 12.1+"
+            "notes": "TensorRT-LLM 1.0.0 adds chunked context and INT4 support. Requires CUDA 12.1+",
+            "supportedModelTypes": []
         }
     ],
     "lmi": [
@@ -497,13 +681,7 @@
                     "OPTION_MAX_ROLLING_BATCH_SIZE": "32",
                     "OPTION_DTYPE": "fp16"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge",
-                    "ml.g5.12xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -523,10 +701,6 @@
                         "OPTION_MAX_ROLLING_BATCH_SIZE": "32",
                         "OPTION_DTYPE": "fp16"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge",
-                        "ml.g5.2xlarge"
-                    ],
                     "notes": "vLLM backend provides excellent performance for most models"
                 },
                 "tensorrt-backend": {
@@ -537,10 +711,6 @@
                         "OPTION_MAX_ROLLING_BATCH_SIZE": "16",
                         "OPTION_DTYPE": "fp16"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.2xlarge",
-                        "ml.g5.4xlarge"
-                    ],
                     "notes": "TensorRT-LLM provides best performance but requires model compilation"
                 },
                 "lmi-dist": {
@@ -551,10 +721,6 @@
                         "OPTION_TENSOR_PARALLEL_DEGREE": "4",
                         "OPTION_MAX_ROLLING_BATCH_SIZE": "64"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.12xlarge",
-                        "ml.g5.48xlarge"
-                    ],
                     "notes": "Best for very large models requiring multi-GPU tensor parallelism"
                 },
                 "auto": {
@@ -564,11 +730,6 @@
                         "OPTION_MAX_ROLLING_BATCH_SIZE": "32",
                         "OPTION_DTYPE": "fp16"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge",
-                        "ml.g5.2xlarge",
-                        "ml.g5.4xlarge"
-                    ],
                     "notes": "LMI will analyze your model and select the optimal backend automatically"
                 }
             },
@@ -593,13 +754,7 @@
                     "OPTION_MAX_ROLLING_BATCH_SIZE": "32",
                     "OPTION_DTYPE": "fp16"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge",
-                    "ml.g5.12xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -619,10 +774,6 @@
                         "OPTION_MAX_ROLLING_BATCH_SIZE": "32",
                         "OPTION_DTYPE": "fp16"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge",
-                        "ml.g5.2xlarge"
-                    ],
                     "notes": "vLLM backend provides excellent performance for most models"
                 },
                 "tensorrt-backend": {
@@ -633,10 +784,6 @@
                         "OPTION_MAX_ROLLING_BATCH_SIZE": "16",
                         "OPTION_DTYPE": "fp16"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.2xlarge",
-                        "ml.g5.4xlarge"
-                    ],
                     "notes": "TensorRT-LLM provides best performance but requires model compilation"
                 },
                 "lmi-dist": {
@@ -647,10 +794,6 @@
                         "OPTION_TENSOR_PARALLEL_DEGREE": "4",
                         "OPTION_MAX_ROLLING_BATCH_SIZE": "64"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.12xlarge",
-                        "ml.g5.48xlarge"
-                    ],
                     "notes": "Best for very large models requiring multi-GPU tensor parallelism"
                 },
                 "auto": {
@@ -660,11 +803,6 @@
                         "OPTION_MAX_ROLLING_BATCH_SIZE": "32",
                         "OPTION_DTYPE": "fp16"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge",
-                        "ml.g5.2xlarge",
-                        "ml.g5.4xlarge"
-                    ],
                     "notes": "LMI will analyze your model and select the optimal backend automatically"
                 }
             },
@@ -690,12 +828,7 @@
                     "OPTION_TENSOR_PARALLEL_DEGREE": "1",
                     "OPTION_DEVICE_MAP": "auto"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -715,10 +848,6 @@
                         "OPTION_DEVICE_MAP": "auto",
                         "BATCH_SIZE": "1"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge",
-                        "ml.g5.2xlarge"
-                    ],
                     "notes": "PyTorch engine provides good compatibility with HuggingFace models"
                 },
                 "multi-gpu": {
@@ -729,10 +858,6 @@
                         "OPTION_TENSOR_PARALLEL_DEGREE": "4",
                         "OPTION_DEVICE_MAP": "auto"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.12xlarge",
-                        "ml.g5.48xlarge"
-                    ],
                     "notes": "Distribute model across multiple GPUs for large models"
                 }
             },
@@ -756,12 +881,7 @@
                     "OPTION_TENSOR_PARALLEL_DEGREE": "1",
                     "OPTION_DEVICE_MAP": "auto"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -781,10 +901,6 @@
                         "OPTION_DEVICE_MAP": "auto",
                         "BATCH_SIZE": "1"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.xlarge",
-                        "ml.g5.2xlarge"
-                    ],
                     "notes": "PyTorch engine provides good compatibility with HuggingFace models"
                 },
                 "multi-gpu": {
@@ -795,10 +911,6 @@
                         "OPTION_TENSOR_PARALLEL_DEGREE": "4",
                         "OPTION_DEVICE_MAP": "auto"
                     },
-                    "recommendedInstanceTypes": [
-                        "ml.g5.12xlarge",
-                        "ml.g5.48xlarge"
-                    ],
                     "notes": "Distribute model across multiple GPUs for large models"
                 }
             },
@@ -823,12 +935,7 @@
                     "HF_TOKEN": "${hfToken}",
                     "VLLM_WORKER_MULTIPROC_METHOD": "spawn"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge",
-                    "ml.g5.12xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -844,30 +951,18 @@
                     "displayName": "Quality",
                     "description": "Higher step count for better image quality",
                     "envVars": {},
-                    "recommendedInstanceTypes": [
-                        "ml.g5.4xlarge",
-                        "ml.g5.12xlarge"
-                    ],
                     "notes": "Best image quality, no cache acceleration, VAE tiling for memory efficiency"
                 },
                 "speed": {
                     "displayName": "Speed",
                     "description": "Cache acceleration for faster generation",
                     "envVars": {},
-                    "recommendedInstanceTypes": [
-                        "ml.g5.2xlarge",
-                        "ml.g5.4xlarge"
-                    ],
                     "notes": "TeaCache acceleration reduces redundant computation between denoising steps"
                 },
                 "multi-gpu": {
                     "displayName": "Multi-GPU",
                     "description": "Sequence parallelism for large diffusion models",
                     "envVars": {},
-                    "recommendedInstanceTypes": [
-                        "ml.g5.12xlarge",
-                        "ml.g5.48xlarge"
-                    ],
                     "notes": "Ulysses sequence parallelism for large models like FLUX on multi-GPU instances"
                 }
             },
@@ -890,12 +985,7 @@
                     "HF_TOKEN": "${hfToken}",
                     "VLLM_WORKER_MULTIPROC_METHOD": "spawn"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge",
-                    "ml.g5.12xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -911,30 +1001,18 @@
                     "displayName": "Quality",
                     "description": "Higher step count for better image quality",
                     "envVars": {},
-                    "recommendedInstanceTypes": [
-                        "ml.g5.4xlarge",
-                        "ml.g5.12xlarge"
-                    ],
                     "notes": "Best image quality, no cache acceleration, VAE tiling for memory efficiency"
                 },
                 "speed": {
                     "displayName": "Speed",
                     "description": "Cache acceleration for faster generation",
                     "envVars": {},
-                    "recommendedInstanceTypes": [
-                        "ml.g5.2xlarge",
-                        "ml.g5.4xlarge"
-                    ],
                     "notes": "TeaCache acceleration reduces redundant computation between denoising steps"
                 },
                 "multi-gpu": {
                     "displayName": "Multi-GPU",
                     "description": "Sequence parallelism for large diffusion models",
                     "envVars": {},
-                    "recommendedInstanceTypes": [
-                        "ml.g5.12xlarge",
-                        "ml.g5.48xlarge"
-                    ],
                     "notes": "Ulysses sequence parallelism for large models like FLUX on multi-GPU instances"
                 }
             },
@@ -958,11 +1036,7 @@
                 "envVars": {
                     "TRITON_MODEL_REPOSITORY": "/opt/ml/model/model_repository"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -993,11 +1067,7 @@
                 "envVars": {
                     "TRITON_MODEL_REPOSITORY": "/opt/ml/model/model_repository"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -1028,11 +1098,7 @@
                 "envVars": {
                     "TRITON_MODEL_REPOSITORY": "/opt/ml/model/model_repository"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -1063,11 +1129,7 @@
                 "envVars": {
                     "TRITON_MODEL_REPOSITORY": "/opt/ml/model/model_repository"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -1098,12 +1160,7 @@
                 "envVars": {
                     "TRITON_MODEL_REPOSITORY": "/opt/ml/model/model_repository"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -1134,12 +1191,7 @@
                 "envVars": {
                     "TRITON_MODEL_REPOSITORY": "/opt/ml/model/model_repository"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.2xlarge",
-                    "ml.g5.4xlarge",
-                    "ml.g5.12xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -1170,11 +1222,7 @@
                 "envVars": {
                     "TRITON_MODEL_REPOSITORY": "/opt/ml/model/model_repository"
                 },
-                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2",
-                "recommendedInstanceTypes": [
-                    "ml.g5.xlarge",
-                    "ml.g5.2xlarge"
-                ]
+                "inferenceAmiVersion": "al2-ami-sagemaker-inference-gpu-3-2"
             },
             "accelerator": {
                 "type": "cuda",
@@ -1188,4 +1236,4 @@
             "notes": "Triton Python backend for custom model serving with TritonPythonModel interface. GPU optional"
         }
     ]
-}
+}