npm - @aws/ml-container-creator - Versions diffs - 1.0.2 → 1.0.4 - Mend

@aws/ml-container-creator 1.0.2 → 1.0.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (49) hide show

package/README.md +1 -1
package/bin/cli.js +1 -1
package/config/tune-catalog.json +303 -1
package/infra/ci-harness/lib/ci-harness-stack.ts +43 -0
package/package.json +3 -2
package/servers/base-image-picker/index.js +65 -18
package/servers/instance-sizer/index.js +32 -0
package/servers/lib/catalogs/fleet-drivers.json +38 -0
package/servers/lib/catalogs/model-arch-support.json +51 -0
package/servers/lib/catalogs/model-servers.json +2842 -1516
package/servers/lib/schemas/image-catalog.schema.json +12 -0
package/src/app.js +6 -4
package/src/lib/bootstrap-command-handler.js +12 -2
package/src/lib/bootstrap-profile-manager.js +16 -0
package/src/lib/cross-cutting-checker.js +6 -1
package/src/lib/generated/cli-options.js +1 -1
package/src/lib/generated/parameter-matrix.js +1 -1
package/src/lib/generated/validation-rules.js +1 -1
package/src/lib/mcp-query-runner.js +110 -3
package/src/lib/prompt-runner.js +66 -22
package/src/lib/template-variable-resolver.js +8 -0
package/src/lib/train-config-builder.js +339 -0
package/templates/do/.benchmark_writer.py +3 -0
package/templates/do/.eval_helper.py +409 -0
package/templates/do/.register_helper.py +185 -11
package/templates/do/.train_build_request.py +102 -113
package/templates/do/.train_helper.py +433 -0
package/templates/do/__pycache__/.register_helper.cpython-312.pyc +0 -0
package/templates/do/adapter +157 -0
package/templates/do/benchmark +60 -3
package/templates/do/deploy.d/managed-inference.ejs +83 -0
package/templates/do/evaluate +272 -0
package/templates/do/lib/resolve-instance.sh +155 -0
package/templates/do/register +5 -0
package/templates/do/test +1 -0
package/templates/do/train +879 -126
package/templates/do/training/config.yaml +83 -11
package/templates/do/training/dpo/accelerate_config.yaml +24 -0
package/templates/do/training/dpo/defaults.yaml +26 -0
package/templates/do/training/dpo/prompts.json +8 -0
package/templates/do/training/dpo/train.py +363 -0
package/templates/do/training/sft/accelerate_config.yaml +22 -0
package/templates/do/training/sft/defaults.yaml +18 -0
package/templates/do/training/sft/prompts.json +7 -0
package/templates/do/training/sft/train.py +310 -0
package/templates/do/tune +11 -2
package/templates/do/.train_poll_parser.py +0 -135
package/templates/do/.train_status_parser.py +0 -187
/package/templates/do/training/{train.py → custom/train.py} +0 -0

package/templates/do/.train_build_request.py CHANGED Viewed

@@ -1,14 +1,11 @@
 #!/usr/bin/env python3
-# Copyright Amazon.com, Inc. or its affiliates. All Rights Reserved.
 # SPDX-License-Identifier: Apache-2.0
+"""Build a CreateTrainingJob JSON request from CLI arguments.
-"""
-Build the CreateTrainingJob JSON request for SageMaker.
+Called by do/train _build_job_request() to construct the JSON payload
+that is later passed to either AWS CLI or .train_helper.py for submission.
-This helper is called by do/train to construct the full API request body.
-It handles conditional fields (spot training, metric definitions, environment,
-tags) and writes the result to a JSON file for use with:
-    aws sagemaker create-training-job --cli-input-json file://path.json
+Outputs a JSON file at --output-file containing the full CreateTrainingJob request.
 """
 import argparse
@@ -16,126 +13,118 @@ import json
 import sys
-def parse_args():
-    """Parse command-line arguments."""
-    parser = argparse.ArgumentParser(description='Build CreateTrainingJob request JSON')
-    parser.add_argument('--job-name', required=True, help='Training job name')
-    parser.add_argument('--role-arn', required=True, help='SageMaker execution role ARN')
-    parser.add_argument('--image', required=True, help='Training container image URI')
-    parser.add_argument('--instance-type', required=True, help='Instance type')
-    parser.add_argument('--instance-count', required=True, help='Instance count')
-    parser.add_argument('--volume-size', required=True, help='Volume size in GB')
-    parser.add_argument('--dataset', required=True, help='S3 URI for training dataset')
-    parser.add_argument('--output-path', required=True, help='S3 URI for output')
-    parser.add_argument('--max-runtime', required=True, help='Max runtime in seconds')
-    parser.add_argument('--hyperparams', required=True, help='Hyperparameters as JSON string')
-    parser.add_argument('--enable-spot', required=True, help='Enable spot training (true/false)')
-    parser.add_argument('--max-wait', required=True, help='Max wait time for spot in seconds')
-    parser.add_argument('--checkpoint-path', required=True, help='S3 checkpoint path')
-    parser.add_argument('--metric-definitions', required=True, help='Metric definitions as JSON array')
-    parser.add_argument('--environment', required=True, help='Environment variables as JSON object')
-    parser.add_argument('--tags', required=True, help='Tags as JSON object (key-value map)')
-    parser.add_argument('--output-file', required=True, help='Output file path for the JSON')
-    return parser.parse_args()
-def build_request(args):
-    """Construct the CreateTrainingJob request dictionary."""
-    # Parse JSON inputs
-    hyperparams = json.loads(args.hyperparams) if args.hyperparams else {}
-    metric_definitions = json.loads(args.metric_definitions) if args.metric_definitions else []
-    environment = json.loads(args.environment) if args.environment else {}
-    tags = json.loads(args.tags) if args.tags else {}
-    # Base request structure
+def main():
+    parser = argparse.ArgumentParser(description="Build CreateTrainingJob JSON request")
+    parser.add_argument("--job-name", required=True)
+    parser.add_argument("--role-arn", required=True)
+    parser.add_argument("--image", required=True)
+    parser.add_argument("--instance-type", required=True)
+    parser.add_argument("--instance-count", default="1")
+    parser.add_argument("--volume-size", default="50")
+    parser.add_argument("--dataset", default="")
+    parser.add_argument("--output-path", required=True)
+    parser.add_argument("--max-runtime", default="86400")
+    parser.add_argument("--hyperparams", default="{}")
+    parser.add_argument("--enable-spot", default="false")
+    parser.add_argument("--max-wait", default="172800")
+    parser.add_argument("--checkpoint-path", default="")
+    parser.add_argument("--metric-definitions", default="[]")
+    parser.add_argument("--environment", default="{}")
+    parser.add_argument("--tags", default="[]")
+    parser.add_argument("--output-file", required=True)
+    args = parser.parse_args()
+    # Parse JSON args
+    try:
+        hyperparams = json.loads(args.hyperparams) if args.hyperparams else {}
+    except json.JSONDecodeError:
+        hyperparams = {}
+    try:
+        metric_definitions = json.loads(args.metric_definitions) if args.metric_definitions else []
+    except json.JSONDecodeError:
+        metric_definitions = []
+    try:
+        environment = json.loads(args.environment) if args.environment else {}
+    except json.JSONDecodeError:
+        environment = {}
+    try:
+        tags = json.loads(args.tags) if args.tags else []
+    except json.JSONDecodeError:
+        tags = []
+    # Build the request
     request = {
-        'TrainingJobName': args.job_name,
-        'RoleArn': args.role_arn,
-        'AlgorithmSpecification': {
-            'TrainingImage': args.image,
-            'TrainingInputMode': 'File'
+        "TrainingJobName": args.job_name,
+        "RoleArn": args.role_arn,
+        "AlgorithmSpecification": {
+            "TrainingImage": args.image,
+            "TrainingInputMode": "File",
         },
-        'InputDataConfig': [
-            {
-                'ChannelName': 'training',
-                'DataSource': {
-                    'S3DataSource': {
-                        'S3DataType': 'S3Prefix',
-                        'S3Uri': args.dataset,
-                        'S3DataDistributionType': 'FullyReplicated'
-                    }
-                }
-            }
-        ],
-        'OutputDataConfig': {
-            'S3OutputPath': args.output_path
+        "ResourceConfig": {
+            "InstanceType": args.instance_type,
+            "InstanceCount": int(args.instance_count),
+            "VolumeSizeInGB": int(args.volume_size),
         },
-        'ResourceConfig': {
-            'InstanceType': args.instance_type,
-            'InstanceCount': int(args.instance_count),
-            'VolumeSizeInGB': int(args.volume_size)
+        "OutputDataConfig": {
+            "S3OutputPath": args.output_path,
+        },
+        "StoppingCondition": {
+            "MaxRuntimeInSeconds": int(args.max_runtime),
         },
-        'StoppingCondition': {
-            'MaxRuntimeInSeconds': int(args.max_runtime)
-        }
     }
-    # Hyperparameters — ensure all values are strings (SageMaker requirement)
-    if hyperparams:
-        request['HyperParameters'] = {
-            str(k): str(v) for k, v in hyperparams.items()
-        }
-    # Managed spot training
-    if args.enable_spot == 'true':
-        request['EnableManagedSpotTraining'] = True
-        request['StoppingCondition']['MaxWaitTimeInSeconds'] = int(args.max_wait)
-    # Checkpoint configuration (for spot training resumption)
-    if args.checkpoint_path:
-        request['CheckpointConfig'] = {
-            'S3Uri': args.checkpoint_path
-        }
-    # Metric definitions (custom CloudWatch metrics)
-    if metric_definitions and metric_definitions != []:
-        request['AlgorithmSpecification']['MetricDefinitions'] = [
-            {'Name': m['name'], 'Regex': m['regex']}
-            for m in metric_definitions
+    # Input data channels
+    if args.dataset:
+        request["InputDataConfig"] = [
+            {
+                "ChannelName": "training",
+                "DataSource": {
+                    "S3DataSource": {
+                        "S3DataType": "S3Prefix",
+                        "S3Uri": args.dataset,
+                        "S3DataDistributionType": "FullyReplicated",
+                    }
+                },
+                "ContentType": "application/jsonlines",
+            }
         ]
-    # Environment variables for the container
-    if environment and environment != {}:
-        request['Environment'] = environment
+    # Hyperparameters (all values must be strings)
+    if hyperparams:
+        request["HyperParameters"] = {k: str(v) for k, v in hyperparams.items()}
-    # Tags — convert from {key: value} map to [{Key: k, Value: v}] array
-    if tags and tags != {}:
-        request['Tags'] = [
-            {'Key': str(k), 'Value': str(v)}
-            for k, v in tags.items()
-        ]
+    # Environment variables
+    if environment:
+        request["Environment"] = {k: str(v) for k, v in environment.items()}
-    return request
+    # Metric definitions
+    if metric_definitions:
+        request["AlgorithmSpecification"]["MetricDefinitions"] = metric_definitions
+    # Spot training
+    if args.enable_spot.lower() == "true":
+        request["EnableManagedSpotTraining"] = True
+        request["StoppingCondition"]["MaxWaitTimeInSeconds"] = int(args.max_wait)
-def main():
-    """Main entry point."""
-    args = parse_args()
+    # Checkpoint config
+    if args.checkpoint_path:
+        request["CheckpointConfig"] = {
+            "S3Uri": args.checkpoint_path,
+        }
-    try:
-        request = build_request(args)
-    except (json.JSONDecodeError, ValueError) as e:
-        print(f'❌ Failed to build request: {e}', file=sys.stderr)
-        sys.exit(1)
+    # Tags
+    if tags:
+        request["Tags"] = tags
-    # Write the JSON request to the output file
-    try:
-        with open(args.output_file, 'w') as f:
-            json.dump(request, f, indent=2)
-    except IOError as e:
-        print(f'❌ Failed to write request file: {e}', file=sys.stderr)
-        sys.exit(1)
+    # Write to output file
+    with open(args.output_file, "w") as f:
+        json.dump(request, f, indent=2)
+    print(f"✅ Request written to {args.output_file}", file=sys.stderr)
-if __name__ == '__main__':
+if __name__ == "__main__":
     main()