npm - @aws/ml-container-creator - Versions diffs - 0.13.5 → 0.15.1 - Mend

@aws/ml-container-creator 0.13.5 → 0.15.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (37) hide show

package/config/parameter-schema-v2.json +33 -5
package/infra/ci-harness/lib/ci-harness-stack.ts +13 -5
package/infra/ci-harness/package-lock.json +121 -111
package/infra/ci-harness/package.json +1 -1
package/package.json +2 -2
package/servers/endpoint-picker/index.js +23 -14
package/servers/instance-sizer/index.js +72 -4
package/servers/instance-sizer/lib/model-resolver.js +28 -2
package/src/app.js +15 -0
package/src/lib/config-loader.js +18 -0
package/src/lib/config-manager.js +6 -1
package/src/lib/dataset-slug.js +152 -0
package/src/lib/generated/cli-options.js +9 -3
package/src/lib/generated/parameter-matrix.js +15 -4
package/src/lib/generated/validation-rules.js +1 -1
package/src/lib/mcp-client.js +15 -1
package/src/lib/mcp-query-runner.js +11 -1
package/src/lib/prompt-runner.js +40 -20
package/src/lib/prompts/feature-prompts.js +1 -1
package/src/lib/template-manager.js +0 -7
package/src/lib/template-variable-resolver.js +51 -1
package/src/lib/tune-config-state.js +14 -1
package/templates/do/.benchmark_writer.py +43 -0
package/templates/do/.register_helper.py +1185 -0
package/templates/do/.tune_helper.py +168 -2
package/templates/do/__pycache__/.adapter_helper.cpython-312.pyc +0 -0
package/templates/do/__pycache__/.benchmark_writer.cpython-312.pyc +0 -0
package/templates/do/__pycache__/.register_helper.cpython-312.pyc +0 -0
package/templates/do/__pycache__/.tune_helper.cpython-312.pyc +0 -0
package/templates/do/adapter +319 -27
package/templates/do/add-ic +85 -3
package/templates/do/benchmark +28 -8
package/templates/do/config +20 -0
package/templates/do/lib/inference-component.sh +56 -3
package/templates/do/register +557 -6
package/templates/do/test +12 -2
package/templates/do/tune +219 -6

package/templates/do/.tune_helper.py CHANGED Viewed

@@ -105,6 +105,136 @@ def _sanitize_for_json(value):
         return str(value) if value else None
+# ── Registry resolution helpers ───────────────────────────────────────────────
+def _resolve_dataset_name(dataset_name):
+    """Resolve a registered dataset name to S3 URI (or ARN) via .register_helper.py.
+    Calls the resolve-dataset subcommand of .register_helper.py and returns
+    the resolved value. If the response contains an 'arn' field (Backlog #023,
+    AI Registry mode), returns the ARN for use with SFTTrainer(training_dataset=arn).
+    Otherwise returns the S3 URI for backward compatibility.
+    """
+    import subprocess
+    script_dir = os.path.dirname(os.path.abspath(__file__))
+    helper_path = os.path.join(script_dir, ".register_helper.py")
+    if not os.path.exists(helper_path):
+        _error_exit(
+            f"Cannot resolve dataset '{dataset_name}': .register_helper.py not found. "
+            f"Register datasets first with: ./do/register --dataset"
+        )
+    try:
+        result = subprocess.run(
+            ["python3", helper_path, "resolve-dataset", "--name", dataset_name],
+            capture_output=True, text=True, timeout=30
+        )
+    except subprocess.TimeoutExpired:
+        _error_exit(f"Timeout resolving dataset '{dataset_name}' from registry")
+    except Exception as e:
+        _error_exit(f"Failed to resolve dataset '{dataset_name}': {e}")
+    if result.returncode != 0:
+        _error_exit(
+            f"Dataset '{dataset_name}' not found in registry. "
+            f"Register it first: ./do/register --dataset --dataset-name {dataset_name} --dataset-s3-uri s3://..."
+        )
+    # Parse JSON output from resolve-dataset
+    try:
+        output = json.loads(result.stdout.strip())
+    except (json.JSONDecodeError, ValueError):
+        _error_exit(
+            f"Failed to parse registry response for dataset '{dataset_name}'. "
+            f"Raw output: {result.stdout[:200]}"
+        )
+    if "error" in output:
+        _error_exit(
+            f"Dataset '{dataset_name}' not found in registry: {output['error']}. "
+            f"Register it first: ./do/register --dataset --dataset-name {dataset_name} --dataset-s3-uri s3://..."
+        )
+    # Prefer ARN if available (Backlog #023 — AI Registry mode)
+    # When arn is present, use it directly with SFTTrainer(training_dataset=arn)
+    arn = output.get("arn")
+    if arn:
+        return arn
+    # Fallback: use S3 URI
+    s3_uri = output.get("s3_uri", "")
+    if not s3_uri:
+        _error_exit(
+            f"Dataset '{dataset_name}' resolved but has no S3 URI or ARN. "
+            f"Re-register with: ./do/register --dataset --dataset-name {dataset_name} --dataset-s3-uri s3://..."
+        )
+    return s3_uri
+def _resolve_evaluator_name(evaluator_name):
+    """Resolve a registered evaluator name to type and ARN/URI via .register_helper.py.
+    Returns (evaluator_type, arn_or_uri) tuple.
+    evaluator_type is "lambda" for RLVR or "model" for RLAIF.
+    """
+    import subprocess
+    script_dir = os.path.dirname(os.path.abspath(__file__))
+    helper_path = os.path.join(script_dir, ".register_helper.py")
+    if not os.path.exists(helper_path):
+        _error_exit(
+            f"Cannot resolve evaluator '{evaluator_name}': .register_helper.py not found. "
+            f"Register evaluators first with: ./do/register --evaluator"
+        )
+    try:
+        result = subprocess.run(
+            ["python3", helper_path, "resolve-evaluator", "--name", evaluator_name],
+            capture_output=True, text=True, timeout=30
+        )
+    except subprocess.TimeoutExpired:
+        _error_exit(f"Timeout resolving evaluator '{evaluator_name}' from registry")
+    except Exception as e:
+        _error_exit(f"Failed to resolve evaluator '{evaluator_name}': {e}")
+    if result.returncode != 0:
+        _error_exit(
+            f"Evaluator '{evaluator_name}' not found in registry. "
+            f"Register it first: ./do/register --evaluator --evaluator-name {evaluator_name} ..."
+        )
+    # Parse JSON output from resolve-evaluator
+    try:
+        output = json.loads(result.stdout.strip())
+    except (json.JSONDecodeError, ValueError):
+        _error_exit(
+            f"Failed to parse registry response for evaluator '{evaluator_name}'. "
+            f"Raw output: {result.stdout[:200]}"
+        )
+    if "error" in output:
+        _error_exit(
+            f"Evaluator '{evaluator_name}' not found in registry: {output['error']}. "
+            f"Register it first: ./do/register --evaluator --evaluator-name {evaluator_name} ..."
+        )
+    ev_type = output.get("type", "")
+    arn_or_uri = output.get("arn_or_uri", "")
+    if not arn_or_uri:
+        _error_exit(
+            f"Evaluator '{evaluator_name}' resolved but has no ARN/URI. "
+            f"Re-register with: ./do/register --evaluator --evaluator-name {evaluator_name} ..."
+        )
+    return ev_type, arn_or_uri
 # ── Subcommand: submit ────────────────────────────────────────────────────────
@@ -124,6 +254,26 @@ def cmd_submit(args):
         os.environ["AWS_DEFAULT_REGION"] = region
         os.environ.setdefault("AWS_REGION", region)
+    # ── Resolve --dataset-name from registry (AC-2b.4) ────────────────────────
+    # --dataset-s3-uri wins if both are provided (backward compatible override)
+    if not args.dataset_s3_uri and args.dataset_name:
+        resolved_uri = _resolve_dataset_name(args.dataset_name)
+        args.dataset_s3_uri = resolved_uri
+    elif not args.dataset_s3_uri and not args.dataset_name:
+        _error_exit(
+            "Either --dataset-s3-uri or --dataset-name is required. "
+            "Provide an S3 URI directly or a registered dataset name."
+        )
+    # ── Resolve --evaluator-name from registry (AC-2c.3, AC-2c.4) ────────────
+    # --reward-function / --reward-prompt win if provided (backward compatible override)
+    if args.evaluator_name and not args.reward_function and not args.reward_prompt:
+        ev_type, ev_arn_or_uri = _resolve_evaluator_name(args.evaluator_name)
+        if ev_type == "lambda":
+            args.reward_function = ev_arn_or_uri
+        else:
+            args.reward_prompt = ev_arn_or_uri
     _check_sagemaker_sdk()
     # SDK v3 moved trainers from sagemaker.modules.train → sagemaker.train
@@ -384,6 +534,12 @@ def cmd_status(args):
     Returns: {"status": str, "failure_reason": str|None,
               "metrics": dict|None, "elapsed_seconds": int}
     """
+    # Set region before any sagemaker import (creates boto3 clients at import time)
+    region = getattr(args, 'region', None) or os.environ.get('AWS_DEFAULT_REGION') or os.environ.get('AWS_REGION')
+    if region:
+        os.environ['AWS_DEFAULT_REGION'] = region
+        os.environ.setdefault('AWS_REGION', region)
     from sagemaker.core.resources import TrainingJob
     from botocore.exceptions import ClientError
@@ -485,6 +641,12 @@ def cmd_resolve(args):
     Returns: {"artifact_path": str, "model_package_arn": str|None,
               "output_type": str}
     """
+    # Set region before any sagemaker import (creates boto3 clients at import time)
+    region = getattr(args, 'region', None) or os.environ.get('AWS_DEFAULT_REGION') or os.environ.get('AWS_REGION')
+    if region:
+        os.environ['AWS_DEFAULT_REGION'] = region
+        os.environ.setdefault('AWS_REGION', region)
     from sagemaker.core.resources import TrainingJob
     try:
@@ -1719,8 +1881,10 @@ def main():
     submit_parser.add_argument("--training-type", required=True,
                                choices=["lora", "full-rank"],
                                help="Training type (lora or full-rank)")
-    submit_parser.add_argument("--dataset-s3-uri", required=True,
-                               help="S3 URI of the training dataset")
+    submit_parser.add_argument("--dataset-s3-uri", required=False, default=None,
+                               help="S3 URI of the training dataset (direct override)")
+    submit_parser.add_argument("--dataset-name", default=None,
+                               help="Registered dataset name to resolve from registry")
     submit_parser.add_argument("--output-bucket", required=True,
                                help="S3 bucket for output artifacts")
     submit_parser.add_argument("--role-arn", required=True,
@@ -1747,6 +1911,8 @@ def main():
                                help="Lambda ARN for reward function (RLVR)")
     submit_parser.add_argument("--reward-prompt", default=None,
                                help="S3 URI for reward prompt (RLAIF)")
+    submit_parser.add_argument("--evaluator-name", default=None,
+                               help="Registered evaluator name to resolve from registry")
     submit_parser.add_argument("--accept-eula", action="store_true", default=False,
                                help="Accept model EULA for gated models (e.g., Llama)")

package/templates/do/__pycache__/.adapter_helper.cpython-312.pyc CHANGED Viewed

Binary file

package/templates/do/__pycache__/.benchmark_writer.cpython-312.pyc CHANGED Viewed

Binary file

package/templates/do/__pycache__/.register_helper.cpython-312.pyc ADDED Viewed

Binary file

package/templates/do/__pycache__/.tune_helper.cpython-312.pyc CHANGED Viewed

Binary file