npm - @aws/ml-container-creator - Versions diffs - 0.5.0 → 0.6.1 - Mend

@aws/ml-container-creator 0.5.0 → 0.6.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (24) hide show

package/bin/cli.js +9 -0
package/config/bootstrap-stack.json +106 -9
package/infra/ci-harness/package-lock.json +5 -1
package/package.json +1 -1
package/servers/instance-sizer/index.js +4 -4
package/servers/instance-sizer/lib/model-resolver.js +1 -1
package/servers/lib/catalogs/model-sizes.json +135 -90
package/servers/lib/catalogs/models.json +483 -411
package/src/app.js +29 -1
package/src/lib/bootstrap-command-handler.js +71 -23
package/src/lib/cli-handler.js +1 -1
package/src/lib/config-manager.js +1 -1
package/src/lib/mcp-client.js +3 -3
package/src/lib/prompt-runner.js +5 -5
package/src/lib/prompts.js +31 -5
package/src/lib/tune-catalog-validator.js +143 -0
package/src/lib/tune-config-state.js +116 -0
package/src/lib/tune-dataset-validator.js +279 -0
package/src/lib/tune-output-resolver.js +66 -0
package/templates/do/.tune_helper.py +768 -0
package/templates/do/adapter +128 -17
package/templates/do/add-ic +155 -19
package/templates/do/config +11 -4
package/templates/do/tune +1143 -0

package/bin/cli.js CHANGED Viewed

@@ -102,6 +102,15 @@ program
     .addOption(new Option('--max-loras <n>', 'Maximum concurrent LoRA adapters in GPU memory (default: 30)'))
     .addOption(new Option('--max-lora-rank <n>', 'Maximum LoRA rank (default: 64)'))
+    // --- Benchmarking ---
+    .addOption(new Option('--include-benchmark', 'Include SageMaker AI Benchmarking (transformers/diffusors only)'))
+    .addOption(new Option('--benchmark-concurrency <n>', 'Benchmark concurrent requests (default: 10)'))
+    .addOption(new Option('--benchmark-input-tokens <n>', 'Benchmark mean input tokens (default: 550)'))
+    .addOption(new Option('--benchmark-output-tokens <n>', 'Benchmark mean output tokens (default: 150)'))
+    .addOption(new Option('--benchmark-streaming', 'Enable streaming in benchmark (default: true)'))
+    .addOption(new Option('--benchmark-request-count <n>', 'Total benchmark requests (optional)'))
+    .addOption(new Option('--benchmark-s3-output-path <path>', 'S3 path for benchmark results'))
     // --- MCP & Discovery ---
     .addOption(new Option('--smart', 'Enable Bedrock-powered smart mode on MCP servers'))
     .addOption(new Option('--discover', 'Enable live registry lookups via MCP discovery'))

package/config/bootstrap-stack.json CHANGED Viewed

@@ -7,7 +7,7 @@
       "Type": "String",
       "Default": "false",
       "AllowedValues": ["true", "false"],
-      "Description": "Whether to create S3 buckets for async inference and batch transform"
+      "Description": "Whether to create S3 buckets for async inference, batch transform, adapters, and benchmarks"
     },
     "UseExistingRoleArn": {
       "Type": "String",
@@ -62,6 +62,7 @@
                     "sagemaker:DescribeEndpointConfig",
                     "sagemaker:DescribeModel",
                     "sagemaker:DescribeInferenceComponent",
+                    "sagemaker:ListInferenceComponents",
                     "sagemaker:InvokeEndpoint",
                     "sagemaker:InvokeEndpointAsync"
                   ],
@@ -131,9 +132,12 @@
                   "Action": [
                     "s3:GetObject",
                     "s3:PutObject",
+                    "s3:AbortMultipartUpload",
                     "s3:ListBucket"
                   ],
                   "Resource": [
+                    "arn:aws:s3:::mlcc-*",
+                    "arn:aws:s3:::mlcc-*/*",
                     "arn:aws:s3:::ml-container-creator-*",
                     "arn:aws:s3:::ml-container-creator-*/*"
                   ]
@@ -163,18 +167,55 @@
                     "arn:aws:secretsmanager:*:*:secret:ml-container-creator/*"
                   ]
                 },
+                {
+                  "Sid": "SNSPublish",
+                  "Effect": "Allow",
+                  "Action": "sns:Publish",
+                  "Resource": [
+                    { "Fn::Sub": "arn:aws:sns:*:${AWS::AccountId}:mlcc-*" },
+                    { "Fn::Sub": "arn:aws:sns:*:${AWS::AccountId}:ml-container-creator-*" }
+                  ]
+                },
                 {
                   "Sid": "QuotaAndAvailability",
                   "Effect": "Allow",
                   "Action": [
                     "service-quotas:GetServiceQuota",
                     "service-quotas:ListServiceQuotas",
-                    "ec2:DescribeCapacityReservations",
                     "sagemaker:ListTrainingPlans",
                     "sagemaker:DescribeTrainingPlan",
                     "sagemaker:ListEndpoints"
                   ],
                   "Resource": "*"
+                },
+                {
+                  "Sid": "SageMakerModelCustomization",
+                  "Effect": "Allow",
+                  "Action": [
+                    "sagemaker:CreateTrainingJob",
+                    "sagemaker:DescribeTrainingJob",
+                    "sagemaker:ListTrainingJobs",
+                    "sagemaker:StopTrainingJob",
+                    "sagemaker:CreateModelPackage",
+                    "sagemaker:CreateModelPackageGroup",
+                    "sagemaker:DescribeModelPackage",
+                    "sagemaker:DescribeModelPackageGroup",
+                    "sagemaker:ListModelPackages",
+                    "sagemaker:CallMlflowAppApi"
+                  ],
+                  "Resource": "*"
+                },
+                {
+                  "Sid": "SageMakerMLflow",
+                  "Effect": "Allow",
+                  "Action": "sagemaker-mlflow:*",
+                  "Resource": "*"
+                },
+                {
+                  "Sid": "LambdaInvokeForReward",
+                  "Effect": "Allow",
+                  "Action": "lambda:InvokeFunction",
+                  "Resource": { "Fn::Sub": "arn:aws:lambda:${AWS::Region}:${AWS::AccountId}:function:*" }
                 }
               ]
             }
@@ -209,7 +250,7 @@
       "DeletionPolicy": "Retain",
       "UpdateReplacePolicy": "Retain",
       "Properties": {
-        "BucketName": { "Fn::Sub": "${AWS::AccountId}-${AWS::Region}-ml-container-creator-async" },
+        "BucketName": { "Fn::Sub": "mlcc-async-${AWS::AccountId}-${AWS::Region}" },
         "VersioningConfiguration": { "Status": "Enabled" },
         "BucketEncryption": {
           "ServerSideEncryptionConfiguration": [
@@ -218,7 +259,8 @@
         },
         "Tags": [
           { "Key": "mlcc:managed-by", "Value": "ml-container-creator" },
-          { "Key": "mlcc:created-by", "Value": "bootstrap" }
+          { "Key": "mlcc:created-by", "Value": "bootstrap" },
+          { "Key": "mlcc:purpose", "Value": "async-inference-output" }
         ]
       }
     },
@@ -229,7 +271,7 @@
       "DeletionPolicy": "Retain",
       "UpdateReplacePolicy": "Retain",
       "Properties": {
-        "BucketName": { "Fn::Sub": "${AWS::AccountId}-${AWS::Region}-ml-container-creator-batch" },
+        "BucketName": { "Fn::Sub": "mlcc-batch-${AWS::AccountId}-${AWS::Region}" },
         "VersioningConfiguration": { "Status": "Enabled" },
         "BucketEncryption": {
           "ServerSideEncryptionConfiguration": [
@@ -238,17 +280,40 @@
         },
         "Tags": [
           { "Key": "mlcc:managed-by", "Value": "ml-container-creator" },
-          { "Key": "mlcc:created-by", "Value": "bootstrap" }
+          { "Key": "mlcc:created-by", "Value": "bootstrap" },
+          { "Key": "mlcc:purpose", "Value": "batch-transform-io" }
+        ]
+      }
+    },
+    "AdapterS3Bucket": {
+      "Type": "AWS::S3::Bucket",
+      "Condition": "ShouldCreateS3Buckets",
+      "DeletionPolicy": "Retain",
+      "UpdateReplacePolicy": "Retain",
+      "Properties": {
+        "BucketName": { "Fn::Sub": "mlcc-adapters-${AWS::AccountId}-${AWS::Region}" },
+        "VersioningConfiguration": { "Status": "Enabled" },
+        "BucketEncryption": {
+          "ServerSideEncryptionConfiguration": [
+            { "ServerSideEncryptionByDefault": { "SSEAlgorithm": "AES256" } }
+          ]
+        },
+        "Tags": [
+          { "Key": "mlcc:managed-by", "Value": "ml-container-creator" },
+          { "Key": "mlcc:created-by", "Value": "bootstrap" },
+          { "Key": "mlcc:purpose", "Value": "lora-adapter-storage" }
         ]
       }
     },
     "BenchmarkS3Bucket": {
       "Type": "AWS::S3::Bucket",
+      "Condition": "ShouldCreateS3Buckets",
       "DeletionPolicy": "Retain",
       "UpdateReplacePolicy": "Retain",
       "Properties": {
-        "BucketName": { "Fn::Sub": "ml-container-creator-benchmark-${AWS::Region}-${AWS::AccountId}" },
+        "BucketName": { "Fn::Sub": "mlcc-benchmark-${AWS::AccountId}-${AWS::Region}" },
         "VersioningConfiguration": { "Status": "Enabled" },
         "BucketEncryption": {
           "ServerSideEncryptionConfiguration": [
@@ -257,7 +322,28 @@
         },
         "Tags": [
           { "Key": "mlcc:managed-by", "Value": "ml-container-creator" },
-          { "Key": "mlcc:created-by", "Value": "bootstrap" }
+          { "Key": "mlcc:created-by", "Value": "bootstrap" },
+          { "Key": "mlcc:purpose", "Value": "benchmark-results" }
+        ]
+      }
+    },
+    "TuneS3Bucket": {
+      "Type": "AWS::S3::Bucket",
+      "Condition": "ShouldCreateS3Buckets",
+      "DeletionPolicy": "Retain",
+      "UpdateReplacePolicy": "Retain",
+      "Properties": {
+        "BucketName": { "Fn::Sub": "mlcc-tune-${AWS::AccountId}-${AWS::Region}" },
+        "VersioningConfiguration": { "Status": "Enabled" },
+        "BucketEncryption": {
+          "ServerSideEncryptionConfiguration": [
+            { "ServerSideEncryptionByDefault": { "SSEAlgorithm": "AES256" } }
+          ]
+        },
+        "Tags": [
+          { "Key": "mlcc:managed-by", "Value": "ml-container-creator" },
+          { "Key": "mlcc:purpose", "Value": "tune-datasets-and-output" }
         ]
       }
     }
@@ -292,13 +378,24 @@
       "Description": "S3 bucket for batch transform I/O",
       "Value": { "Ref": "BatchS3Bucket" }
     },
+    "AdapterS3BucketName": {
+      "Condition": "ShouldCreateS3Buckets",
+      "Description": "S3 bucket for LoRA adapter storage",
+      "Value": { "Ref": "AdapterS3Bucket" }
+    },
     "BenchmarkS3BucketName": {
+      "Condition": "ShouldCreateS3Buckets",
       "Description": "S3 bucket for benchmark results output",
       "Value": { "Ref": "BenchmarkS3Bucket" }
     },
+    "TuneS3BucketName": {
+      "Condition": "ShouldCreateS3Buckets",
+      "Description": "S3 bucket for tune datasets and output",
+      "Value": { "Ref": "TuneS3Bucket" }
+    },
     "StackVersion": {
       "Description": "Bootstrap stack template version for forward compatibility tracking",
-      "Value": "2026-05-04"
+      "Value": "2026-05-18"
     }
   }
 }

package/infra/ci-harness/package-lock.json CHANGED Viewed

@@ -48,6 +48,7 @@
         "semver"
       ],
       "license": "Apache-2.0",
+      "peer": true,
       "dependencies": {
         "jsonschema": "~1.4.1",
         "semver": "^7.7.4"
@@ -2150,6 +2151,7 @@
       "integrity": "sha512-wGdMcf+vPYM6jikpS/qhg6WiqSV/OhG+jeeHT/KlVqxYfD40iYJf9/AE1uQxVWFvU7MipKRkRv8NSHiCGgPr8Q==",
       "dev": true,
       "license": "MIT",
+      "peer": true,
       "dependencies": {
         "undici-types": "~6.21.0"
       }
@@ -2789,7 +2791,8 @@
       "version": "10.6.0",
       "resolved": "https://registry.npmjs.org/constructs/-/constructs-10.6.0.tgz",
       "integrity": "sha512-TxHOnBO5zMo/G76ykzGF/wMpEHu257TbWiIxP9K0Yv/+t70UzgBQiTqjkAsWOPC6jW91DzJI0+ehQV6xDRNBuQ==",
-      "license": "Apache-2.0"
+      "license": "Apache-2.0",
+      "peer": true
     },
     "node_modules/create-require": {
       "version": "1.1.1",
@@ -3694,6 +3697,7 @@
       "integrity": "sha512-jl1vZzPDinLr9eUt3J/t7V6FgNEw9QjvBPdysz9KfQDD41fQrC2Y4vKQdiaUpFT4bXlb1RHhLpp8wtm6M5TgSw==",
       "dev": true,
       "license": "Apache-2.0",
+      "peer": true,
       "bin": {
         "tsc": "bin/tsc",
         "tsserver": "bin/tsserver"

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@aws/ml-container-creator",
-  "version": "0.5.0",
+  "version": "0.6.1",
   "description": "Generator for SageMaker AI BYOC paradigm for predictive inference use-cases.",
   "type": "module",
   "main": "src/app.js",

package/servers/instance-sizer/index.js CHANGED Viewed

@@ -51,7 +51,7 @@ try {
 // ── Mode configuration ───────────────────────────────────────────────────────
-const DISCOVER_MODE = process.argv.includes('--discover') || process.env.DISCOVER_MODE === 'true'
+const DISCOVER_MODE = process.env.DISCOVER_MODE !== 'false' && !process.argv.includes('--no-discover')
 const SMART_MODE = process.env.BEDROCK_SMART === 'true'
 const BEDROCK_MODEL = process.env.BEDROCK_MODEL || 'global.anthropic.claude-sonnet-4-20250514-v1:0'
 const BEDROCK_REGION = process.env.BEDROCK_REGION || process.env.AWS_REGION || 'us-east-1'
@@ -593,10 +593,10 @@ const isMain = process.argv[1] && resolve(process.argv[1]) === __filename
 if (isMain) {
     if (SMART_MODE) {
         log(`Smart mode enabled (model: ${BEDROCK_MODEL}, region: ${BEDROCK_REGION})`)
-    } else if (DISCOVER_MODE) {
-        log('Discover mode enabled (HuggingFace API lookups active)')
+    } else if (!DISCOVER_MODE) {
+        log('Static mode (catalog-only, no network calls) — use --no-discover to force this')
     } else {
-        log('Static mode (catalog-only, no network calls)')
+        log('Discover mode (HuggingFace API + quota lookups active)')
     }
     const transport = new StdioServerTransport()

package/servers/instance-sizer/lib/model-resolver.js CHANGED Viewed

@@ -207,7 +207,7 @@ const isHuggingFacePattern = (modelName) => {
  * @returns {Promise<{ parameterCount: number, dtype: string, architecture: string, maxPositionEmbeddings: number, source: string } | null>}
  */
 const resolveModelMetadata = async (modelName, options = {}) => {
-    const { discover = false, catalogPath } = options
+    const { discover = true, catalogPath } = options
     // Tier 1: Catalog lookup
     const catalog = await loadCatalog(catalogPath)

package/servers/lib/catalogs/model-sizes.json CHANGED Viewed

@@ -1,50 +1,23 @@
 {
     "catalogVersion": "1.0.0",
     "models": {
-        "meta-llama/Llama-2-7b*": {
-            "parameterCount": 6738415616,
-            "defaultDtype": "float16",
-            "architecture": "LlamaForCausalLM",
-            "maxPositionEmbeddings": 4096,
-            "recommendedQuantizations": ["awq", "gptq"],
-            "minVramGb": 18,
-            "recommendedInstances": ["ml.g5.2xlarge", "ml.g5.4xlarge"]
-        },
-        "meta-llama/Llama-2-13b*": {
-            "parameterCount": 13015864320,
-            "defaultDtype": "float16",
-            "architecture": "LlamaForCausalLM",
-            "maxPositionEmbeddings": 4096,
-            "recommendedQuantizations": ["awq", "gptq"],
-            "minVramGb": 34,
-            "recommendedInstances": ["ml.g5.4xlarge", "ml.g5.12xlarge"]
-        },
-        "meta-llama/Llama-2-70b*": {
-            "parameterCount": 68976648192,
-            "defaultDtype": "float16",
-            "architecture": "LlamaForCausalLM",
-            "maxPositionEmbeddings": 4096,
-            "recommendedQuantizations": ["awq", "gptq"],
-            "minVramGb": 180,
-            "recommendedInstances": ["ml.g5.48xlarge", "ml.p4d.24xlarge"]
-        },
-        "meta-llama/Meta-Llama-3-8B*": {
-            "parameterCount": 8030261248,
+        "meta-llama/Llama-3.2-1B*": {
+            "parameterCount": 1235814400,
             "defaultDtype": "bfloat16",
             "architecture": "LlamaForCausalLM",
-            "maxPositionEmbeddings": 8192,
+            "maxPositionEmbeddings": 131072,
             "recommendedQuantizations": ["awq", "gptq"],
-            "minVramGb": 21,
-            "recommendedInstances": ["ml.g5.2xlarge", "ml.g5.4xlarge"]
+            "minVramGb": 5,
+            "recommendedInstances": ["ml.g5.xlarge", "ml.g6.xlarge"]
         },
-        "meta-llama/Meta-Llama-3-70B*": {
-            "parameterCount": 70553706496,
+        "meta-llama/Llama-3.2-3B*": {
+            "parameterCount": 3212749824,
             "defaultDtype": "bfloat16",
             "architecture": "LlamaForCausalLM",
-            "maxPositionEmbeddings": 8192,
+            "maxPositionEmbeddings": 131072,
             "recommendedQuantizations": ["awq", "gptq"],
-            "minVramGb": 184,
-            "recommendedInstances": ["ml.g5.48xlarge", "ml.p4d.24xlarge"]
+            "minVramGb": 9,
+            "recommendedInstances": ["ml.g5.xlarge", "ml.g6.xlarge"]
         },
         "meta-llama/Llama-3.1-8B*": {
             "parameterCount": 8030261248,
@@ -55,104 +28,176 @@
             "minVramGb": 20,
             "recommendedInstances": ["ml.g5.2xlarge", "ml.g6.2xlarge"]
         },
-        "meta-llama/Llama-3.2-1B*": {
-            "parameterCount": 1235814400,
+        "meta-llama/Llama-3.3-70B*": {
+            "parameterCount": 70553706496,
             "defaultDtype": "bfloat16",
             "architecture": "LlamaForCausalLM",
             "maxPositionEmbeddings": 131072,
+            "recommendedQuantizations": ["awq", "gptq", "fp8"],
+            "minVramGb": 184,
+            "recommendedInstances": ["ml.g5.48xlarge", "ml.p4d.24xlarge", "ml.g6e.48xlarge"]
+        },
+        "Qwen/Qwen3-0.6B*": {
+            "parameterCount": 600000000,
+            "defaultDtype": "bfloat16",
+            "architecture": "Qwen3ForCausalLM",
+            "maxPositionEmbeddings": 32768,
             "recommendedQuantizations": ["awq", "gptq"],
-            "minVramGb": 5,
+            "minVramGb": 3,
             "recommendedInstances": ["ml.g5.xlarge", "ml.g6.xlarge"]
         },
-        "meta-llama/Llama-3.2-3B*": {
-            "parameterCount": 3212749824,
+        "Qwen/Qwen3-1.7B*": {
+            "parameterCount": 1700000000,
             "defaultDtype": "bfloat16",
-            "architecture": "LlamaForCausalLM",
-            "maxPositionEmbeddings": 131072,
+            "architecture": "Qwen3ForCausalLM",
+            "maxPositionEmbeddings": 32768,
             "recommendedQuantizations": ["awq", "gptq"],
-            "minVramGb": 9,
+            "minVramGb": 6,
             "recommendedInstances": ["ml.g5.xlarge", "ml.g6.xlarge"]
         },
-        "mistralai/Mistral-7B*": {
-            "parameterCount": 7241732096,
+        "Qwen/Qwen3-4B*": {
+            "parameterCount": 4000000000,
             "defaultDtype": "bfloat16",
-            "architecture": "MistralForCausalLM",
+            "architecture": "Qwen3ForCausalLM",
             "maxPositionEmbeddings": 32768,
             "recommendedQuantizations": ["awq", "gptq"],
-            "minVramGb": 19,
-            "recommendedInstances": ["ml.g5.2xlarge", "ml.g5.4xlarge"]
+            "minVramGb": 11,
+            "recommendedInstances": ["ml.g5.xlarge", "ml.g6.xlarge"]
         },
-        "mistralai/Mixtral-8x7B*": {
-            "parameterCount": 46702792704,
+        "Qwen/Qwen3-8B*": {
+            "parameterCount": 8000000000,
             "defaultDtype": "bfloat16",
-            "architecture": "MixtralForCausalLM",
+            "architecture": "Qwen3ForCausalLM",
             "maxPositionEmbeddings": 32768,
             "recommendedQuantizations": ["awq", "gptq"],
-            "minVramGb": 122,
-            "recommendedInstances": ["ml.g5.48xlarge", "ml.p4d.24xlarge"]
+            "minVramGb": 20,
+            "recommendedInstances": ["ml.g5.2xlarge", "ml.g6.2xlarge"]
         },
-        "Qwen/Qwen-7B*": {
-            "parameterCount": 7721324544,
+        "Qwen/Qwen3-14B*": {
+            "parameterCount": 14000000000,
             "defaultDtype": "bfloat16",
-            "architecture": "QWenLMHeadModel",
-            "maxPositionEmbeddings": 8192,
+            "architecture": "Qwen3ForCausalLM",
+            "maxPositionEmbeddings": 32768,
             "recommendedQuantizations": ["awq", "gptq"],
-            "minVramGb": 20,
-            "recommendedInstances": ["ml.g5.2xlarge", "ml.g5.4xlarge"]
+            "minVramGb": 37,
+            "recommendedInstances": ["ml.g5.4xlarge", "ml.g5.12xlarge"]
+        },
+        "Qwen/Qwen3-32B*": {
+            "parameterCount": 32000000000,
+            "defaultDtype": "bfloat16",
+            "architecture": "Qwen3ForCausalLM",
+            "maxPositionEmbeddings": 32768,
+            "recommendedQuantizations": ["awq", "gptq"],
+            "minVramGb": 84,
+            "recommendedInstances": ["ml.g5.12xlarge", "ml.g5.48xlarge"]
         },
-        "Qwen/Qwen2-7B*": {
+        "Qwen/Qwen2.5-7B*": {
             "parameterCount": 7721324544,
             "defaultDtype": "bfloat16",
             "architecture": "Qwen2ForCausalLM",
-            "maxPositionEmbeddings": 32768,
+            "maxPositionEmbeddings": 131072,
             "recommendedQuantizations": ["awq", "gptq"],
             "minVramGb": 20,
-            "recommendedInstances": ["ml.g5.2xlarge", "ml.g5.4xlarge"]
+            "recommendedInstances": ["ml.g5.2xlarge", "ml.g6.2xlarge"]
         },
-        "Qwen/Qwen-14B*": {
+        "Qwen/Qwen2.5-14B*": {
             "parameterCount": 14167134208,
             "defaultDtype": "bfloat16",
-            "architecture": "QWenLMHeadModel",
-            "maxPositionEmbeddings": 8192,
+            "architecture": "Qwen2ForCausalLM",
+            "maxPositionEmbeddings": 131072,
             "recommendedQuantizations": ["awq", "gptq"],
             "minVramGb": 37,
             "recommendedInstances": ["ml.g5.4xlarge", "ml.g5.12xlarge"]
         },
-        "Qwen/Qwen2-14B*": {
-            "parameterCount": 14167134208,
+        "Qwen/Qwen2.5-32B*": {
+            "parameterCount": 32000000000,
             "defaultDtype": "bfloat16",
             "architecture": "Qwen2ForCausalLM",
-            "maxPositionEmbeddings": 32768,
+            "maxPositionEmbeddings": 131072,
             "recommendedQuantizations": ["awq", "gptq"],
-            "minVramGb": 37,
-            "recommendedInstances": ["ml.g5.4xlarge", "ml.g5.12xlarge"]
+            "minVramGb": 84,
+            "recommendedInstances": ["ml.g5.12xlarge", "ml.g5.48xlarge"]
         },
-        "Qwen/Qwen-72B*": {
+        "Qwen/Qwen2.5-72B*": {
             "parameterCount": 72710410240,
             "defaultDtype": "bfloat16",
-            "architecture": "QWenLMHeadModel",
-            "maxPositionEmbeddings": 32768,
-            "recommendedQuantizations": ["awq", "gptq"],
+            "architecture": "Qwen2ForCausalLM",
+            "maxPositionEmbeddings": 131072,
+            "recommendedQuantizations": ["awq", "gptq", "fp8"],
             "minVramGb": 190,
-            "recommendedInstances": ["ml.g5.48xlarge", "ml.p4d.24xlarge"]
+            "recommendedInstances": ["ml.g5.48xlarge", "ml.p4d.24xlarge", "ml.g6e.48xlarge"]
         },
-        "Qwen/Qwen2-72B*": {
-            "parameterCount": 72710410240,
+        "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B*": {
+            "parameterCount": 1500000000,
             "defaultDtype": "bfloat16",
             "architecture": "Qwen2ForCausalLM",
-            "maxPositionEmbeddings": 32768,
+            "maxPositionEmbeddings": 131072,
             "recommendedQuantizations": ["awq", "gptq"],
-            "minVramGb": 190,
-            "recommendedInstances": ["ml.g5.48xlarge", "ml.p4d.24xlarge"]
-        },
-        "EleutherAI/gpt-neox-20b*": {
-            "parameterCount": 20554568704,
-            "defaultDtype": "float16",
-            "architecture": "GPTNeoXForCausalLM",
-            "maxPositionEmbeddings": 2048,
-            "recommendedQuantizations": ["gptq"],
-            "minVramGb": 54,
+            "minVramGb": 5,
+            "recommendedInstances": ["ml.g5.xlarge", "ml.g6.xlarge"]
+        },
+        "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B*": {
+            "parameterCount": 7000000000,
+            "defaultDtype": "bfloat16",
+            "architecture": "Qwen2ForCausalLM",
+            "maxPositionEmbeddings": 131072,
+            "recommendedQuantizations": ["awq", "gptq"],
+            "minVramGb": 18,
+            "recommendedInstances": ["ml.g5.2xlarge", "ml.g6.2xlarge"]
+        },
+        "deepseek-ai/DeepSeek-R1-Distill-Qwen-14B*": {
+            "parameterCount": 14000000000,
+            "defaultDtype": "bfloat16",
+            "architecture": "Qwen2ForCausalLM",
+            "maxPositionEmbeddings": 131072,
+            "recommendedQuantizations": ["awq", "gptq"],
+            "minVramGb": 37,
+            "recommendedInstances": ["ml.g5.4xlarge", "ml.g5.12xlarge"]
+        },
+        "deepseek-ai/DeepSeek-R1-Distill-Qwen-32B*": {
+            "parameterCount": 32000000000,
+            "defaultDtype": "bfloat16",
+            "architecture": "Qwen2ForCausalLM",
+            "maxPositionEmbeddings": 131072,
+            "recommendedQuantizations": ["awq", "gptq"],
+            "minVramGb": 84,
+            "recommendedInstances": ["ml.g5.12xlarge", "ml.g5.48xlarge"]
+        },
+        "deepseek-ai/DeepSeek-R1-Distill-Llama-8B*": {
+            "parameterCount": 8000000000,
+            "defaultDtype": "bfloat16",
+            "architecture": "LlamaForCausalLM",
+            "maxPositionEmbeddings": 131072,
+            "recommendedQuantizations": ["awq", "gptq"],
+            "minVramGb": 20,
+            "recommendedInstances": ["ml.g5.2xlarge", "ml.g6.2xlarge"]
+        },
+        "deepseek-ai/DeepSeek-R1-Distill-Llama-70B*": {
+            "parameterCount": 70000000000,
+            "defaultDtype": "bfloat16",
+            "architecture": "LlamaForCausalLM",
+            "maxPositionEmbeddings": 131072,
+            "recommendedQuantizations": ["awq", "gptq", "fp8"],
+            "minVramGb": 184,
+            "recommendedInstances": ["ml.g5.48xlarge", "ml.p4d.24xlarge", "ml.g6e.48xlarge"]
+        },
+        "openai/gpt-oss-20b*": {
+            "parameterCount": 20000000000,
+            "defaultDtype": "bfloat16",
+            "architecture": "GPT2LMHeadModel",
+            "maxPositionEmbeddings": 8192,
+            "recommendedQuantizations": ["awq", "gptq"],
+            "minVramGb": 52,
             "recommendedInstances": ["ml.g5.12xlarge", "ml.g5.48xlarge"]
+        },
+        "openai/gpt-oss-120b*": {
+            "parameterCount": 120000000000,
+            "defaultDtype": "bfloat16",
+            "architecture": "GPT2LMHeadModel",
+            "maxPositionEmbeddings": 8192,
+            "recommendedQuantizations": ["awq", "gptq", "fp8"],
+            "minVramGb": 312,
+            "recommendedInstances": ["ml.p4d.24xlarge", "ml.p5.48xlarge"]
         }
     }
 }