PyPI - nemo-evaluator-launcher - Versions diffs - 0.1.0rc6__py3-none-any.whl → 0.1.41__py3-none-any.whl - Mend

nemo-evaluator-launcher 0.1.0rc6py3-none-any.whl → 0.1.41py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (47) hide show

nemo_evaluator_launcher/__init__.py +15 -1
nemo_evaluator_launcher/api/functional.py +188 -27
nemo_evaluator_launcher/api/types.py +9 -0
nemo_evaluator_launcher/cli/export.py +131 -12
nemo_evaluator_launcher/cli/info.py +477 -82
nemo_evaluator_launcher/cli/kill.py +5 -3
nemo_evaluator_launcher/cli/logs.py +102 -0
nemo_evaluator_launcher/cli/ls_runs.py +31 -10
nemo_evaluator_launcher/cli/ls_tasks.py +105 -3
nemo_evaluator_launcher/cli/main.py +101 -5
nemo_evaluator_launcher/cli/run.py +153 -30
nemo_evaluator_launcher/cli/status.py +49 -5
nemo_evaluator_launcher/cli/version.py +26 -23
nemo_evaluator_launcher/common/execdb.py +121 -27
nemo_evaluator_launcher/common/helpers.py +213 -33
nemo_evaluator_launcher/common/logging_utils.py +16 -5
nemo_evaluator_launcher/common/printing_utils.py +100 -0
nemo_evaluator_launcher/configs/deployment/generic.yaml +33 -0
nemo_evaluator_launcher/configs/deployment/sglang.yaml +4 -2
nemo_evaluator_launcher/configs/deployment/trtllm.yaml +23 -0
nemo_evaluator_launcher/configs/deployment/vllm.yaml +2 -2
nemo_evaluator_launcher/configs/execution/local.yaml +2 -0
nemo_evaluator_launcher/configs/execution/slurm/default.yaml +19 -4
nemo_evaluator_launcher/executors/base.py +54 -1
nemo_evaluator_launcher/executors/lepton/deployment_helpers.py +60 -5
nemo_evaluator_launcher/executors/lepton/executor.py +240 -101
nemo_evaluator_launcher/executors/lepton/job_helpers.py +15 -11
nemo_evaluator_launcher/executors/local/executor.py +492 -56
nemo_evaluator_launcher/executors/local/run.template.sh +76 -9
nemo_evaluator_launcher/executors/slurm/executor.py +571 -98
nemo_evaluator_launcher/executors/slurm/proxy.cfg.template +26 -0
nemo_evaluator_launcher/exporters/base.py +9 -0
nemo_evaluator_launcher/exporters/gsheets.py +27 -9
nemo_evaluator_launcher/exporters/local.py +30 -16
nemo_evaluator_launcher/exporters/mlflow.py +245 -74
nemo_evaluator_launcher/exporters/utils.py +139 -184
nemo_evaluator_launcher/exporters/wandb.py +157 -43
nemo_evaluator_launcher/package_info.py +6 -3
nemo_evaluator_launcher/resources/mapping.toml +56 -15
nemo_evaluator_launcher-0.1.41.dist-info/METADATA +494 -0
nemo_evaluator_launcher-0.1.41.dist-info/RECORD +62 -0
{nemo_evaluator_launcher-0.1.0rc6.dist-info → nemo_evaluator_launcher-0.1.41.dist-info}/entry_points.txt +1 -0
nemo_evaluator_launcher-0.1.0rc6.dist-info/METADATA +0 -35
nemo_evaluator_launcher-0.1.0rc6.dist-info/RECORD +0 -57
{nemo_evaluator_launcher-0.1.0rc6.dist-info → nemo_evaluator_launcher-0.1.41.dist-info}/WHEEL +0 -0
{nemo_evaluator_launcher-0.1.0rc6.dist-info → nemo_evaluator_launcher-0.1.41.dist-info}/licenses/LICENSE +0 -0
{nemo_evaluator_launcher-0.1.0rc6.dist-info → nemo_evaluator_launcher-0.1.41.dist-info}/top_level.txt +0 -0

nemo_evaluator_launcher/exporters/mlflow.py CHANGED Viewed

@@ -15,13 +15,11 @@
 #
 """Evaluation results exporter for MLflow tracking."""
-import shutil
+import os
 import tempfile
 from pathlib import Path
 from typing import Any, Dict, List
-import yaml
 try:
     import mlflow
@@ -37,9 +35,11 @@ from nemo_evaluator_launcher.exporters.registry import register_exporter
 from nemo_evaluator_launcher.exporters.utils import (
     extract_accuracy_metrics,
     extract_exporter_config,
+    get_artifact_root,
     get_available_artifacts,
     get_benchmark_info,
     get_task_name,
+    mlflow_sanitize,
 )
@@ -100,11 +100,57 @@ class MLflowExporter(BaseExporter):
             # Extract config using common utility
             mlflow_config = extract_exporter_config(job_data, "mlflow", self.config)
-            # Extract metrics
+            # resolve tracking_uri with fallbacks
+            tracking_uri = mlflow_config.get("tracking_uri")
+            if not tracking_uri:
+                tracking_uri = os.getenv("MLFLOW_TRACKING_URI")
+            # allow env var name
+            if tracking_uri and "://" not in tracking_uri:
+                tracking_uri = os.getenv(tracking_uri, tracking_uri)
+            if not tracking_uri:
+                return ExportResult(
+                    success=False,
+                    dest="mlflow",
+                    message="tracking_uri is required (set export.mlflow.tracking_uri or MLFLOW_TRACKING_URI)",
+                )
+            # Stage artifacts locally if remote_ssh (e.g., Slurm), so we can extract metrics
+            staged_base_dir = None
+            try:
+                paths = self.get_job_paths(job_data)
+                if paths.get("storage_type") == "remote_ssh":
+                    tmp_stage = Path(tempfile.mkdtemp(prefix="mlflow_stage_"))
+                    LocalExporter(
+                        {
+                            "output_dir": str(tmp_stage),
+                            "copy_logs": mlflow_config.get(
+                                "log_logs", False
+                            ),  # log_logs -> copy_logs
+                            "only_required": mlflow_config.get("only_required", True),
+                        }
+                    ).export_job(job_data)
+                    staged_base_dir = (
+                        tmp_stage / job_data.invocation_id / job_data.job_id
+                    )
+            except Exception as e:
+                logger.warning(f"Failed staging artifacts for {job_data.job_id}: {e}")
+            # Extract metrics (prefer staged if available)
             log_metrics = mlflow_config.get("log_metrics", [])
-            accuracy_metrics = extract_accuracy_metrics(
-                job_data, self.get_job_paths, log_metrics
-            )
+            if staged_base_dir and (staged_base_dir / "artifacts").exists():
+                accuracy_metrics = extract_accuracy_metrics(
+                    job_data,
+                    lambda _: {
+                        "artifacts_dir": staged_base_dir / "artifacts",
+                        "storage_type": "local_filesystem",
+                    },
+                    log_metrics,
+                )
+            else:
+                accuracy_metrics = extract_accuracy_metrics(
+                    job_data, self.get_job_paths, log_metrics
+                )
             if not accuracy_metrics:
                 return ExportResult(
@@ -112,12 +158,6 @@ class MLflowExporter(BaseExporter):
                 )
             # Set up MLflow
-            tracking_uri = mlflow_config.get("tracking_uri")
-            if not tracking_uri:
-                return ExportResult(
-                    success=False, dest="mlflow", message="tracking_uri is required"
-                )
             tracking_uri = tracking_uri.rstrip("/")
             mlflow.set_tracking_uri(tracking_uri)
@@ -149,10 +189,13 @@ class MLflowExporter(BaseExporter):
                     }
                 )
-            # Truncate params
+            # Sanitize params
             safe_params = {
-                str(k)[:250]: str(v)[:250] for k, v in all_params.items() if v
+                mlflow_sanitize(k, "param_key"): mlflow_sanitize(v, "param_value")
+                for k, v in (all_params or {}).items()
+                if v is not None
             }
             # Prepare tags
             tags = {}
             if mlflow_config.get("tags"):
@@ -162,7 +205,10 @@ class MLflowExporter(BaseExporter):
             benchmark = bench_info.get("benchmark", get_task_name(job_data))
             harness = bench_info.get("harness", "unknown")
-            # Tag the run with invocation_id and task metadata (task_name is benchmark-only)
+            # Tag the run with invocation_id and task metadata
+            exec_type = (job_data.config or {}).get("execution", {}).get(
+                "type"
+            ) or job_data.executor
             tags.update(
                 {
                     "invocation_id": job_data.invocation_id,
@@ -170,11 +216,16 @@ class MLflowExporter(BaseExporter):
                     "task_name": benchmark,
                     "benchmark": benchmark,
                     "harness": harness,
-                    "executor": job_data.executor,
+                    "executor": exec_type,
                 }
             )
-            # Truncate tags
-            safe_tags = {str(k)[:250]: str(v)[:5000] for k, v in tags.items() if v}
+            # Sanitize tags
+            safe_tags = {
+                mlflow_sanitize(k, "tag_key"): mlflow_sanitize(v, "tag_value")
+                for k, v in (tags or {}).items()
+                if v is not None
+            }
             # skip run if it already exists
             exists, existing_run_id = self._get_existing_run_info(
@@ -193,26 +244,34 @@ class MLflowExporter(BaseExporter):
                 if safe_tags:
                     mlflow.set_tags(safe_tags)
-                # Set run name)
+                # Set run name
                 run_name = (
                     mlflow_config.get("run_name")
                     or f"eval-{job_data.invocation_id}-{benchmark}"
                 )
-                mlflow.set_tag("mlflow.runName", run_name)
+                mlflow.set_tag("mlflow.runName", mlflow_sanitize(run_name, "tag_value"))
                 # Set description only if provided
                 description = mlflow_config.get("description")
                 if description:
-                    mlflow.set_tag("mlflow.note.content", str(description)[:5000])
+                    mlflow.set_tag(
+                        "mlflow.note.content", mlflow_sanitize(description, "tag_value")
+                    )
                 # Log parameters
                 mlflow.log_params(safe_params)
-                # Log metrics
-                mlflow.log_metrics(accuracy_metrics)
+                # Sanitize metric keys before logging
+                safe_metrics = {
+                    mlflow_sanitize(k, "metric"): v
+                    for k, v in (accuracy_metrics or {}).items()
+                }
+                mlflow.log_metrics(safe_metrics)
                 # Log artifacts
-                artifacts_logged = self._log_artifacts(job_data, mlflow_config)
+                artifacts_logged = self._log_artifacts(
+                    job_data, mlflow_config, staged_base_dir
+                )
                 # Build run URL
                 run_url = None
@@ -242,7 +301,10 @@ class MLflowExporter(BaseExporter):
             )
     def _log_artifacts(
-        self, job_data: JobData, mlflow_config: Dict[str, Any]
+        self,
+        job_data: JobData,
+        mlflow_config: Dict[str, Any],
+        pre_staged_dir: Path = None,
     ) -> List[str]:
         """Log evaluation artifacts to MLflow using LocalExporter for transfer."""
@@ -251,44 +313,103 @@ class MLflowExporter(BaseExporter):
             return []
         try:
-            # Use LocalExporter to get files locally first
-            temp_dir = tempfile.mkdtemp(prefix="mlflow_artifacts_")
-            local_exporter = LocalExporter({"output_dir": temp_dir})
-            local_result = local_exporter.export_job(job_data)
-            if not local_result.success:
-                logger.error(f"Failed to download artifacts: {local_result.message}")
-                return []
-            artifacts_dir = Path(local_result.dest) / "artifacts"
-            logged_names = []
-            task_name = get_task_name(job_data)
-            artifact_path = task_name
-            # Log config at root level
-            with tempfile.TemporaryDirectory() as tmpdir:
-                cfg_file = Path(tmpdir) / "config.yaml"
-                with cfg_file.open("w") as f:
-                    yaml.dump(
-                        job_data.config or {},
-                        f,
-                        default_flow_style=False,
-                        sort_keys=False,
+            should_cleanup = False
+            # Use pre-staged dir if available; otherwise stage now
+            if pre_staged_dir and pre_staged_dir.exists():
+                base_dir = pre_staged_dir
+            else:
+                temp_dir = tempfile.mkdtemp(prefix="mlflow_artifacts_")
+                local_exporter = LocalExporter(
+                    {
+                        "output_dir": str(temp_dir),
+                        "copy_logs": mlflow_config.get(
+                            "log_logs", mlflow_config.get("copy_logs", False)
+                        ),
+                        "only_required": mlflow_config.get("only_required", True),
+                        "format": mlflow_config.get("format", None),
+                        "log_metrics": mlflow_config.get("log_metrics", []),
+                        "output_filename": mlflow_config.get("output_filename", None),
+                    }
+                )
+                local_result = local_exporter.export_job(job_data)
+                if not local_result.success:
+                    logger.error(
+                        f"Failed to download artifacts: {local_result.message}"
+                    )
+                    return []
+                base_dir = Path(local_result.dest)
+                should_cleanup = True
+            artifacts_dir = base_dir / "artifacts"
+            logs_dir = base_dir / "logs"
+            logged_names: list[str] = []
+            artifact_path = get_artifact_root(job_data)  # "<harness>.<benchmark>"
+            # Log config at root level (or synthesize)
+            cfg_logged = False
+            for fname in ("config.yml", "run_config.yml"):
+                p = artifacts_dir / fname
+                if p.exists():
+                    mlflow.log_artifact(str(p))
+                    cfg_logged = True
+                    break
+            if not cfg_logged:
+                with tempfile.TemporaryDirectory() as tmpdir:
+                    from yaml import dump as ydump
+                    cfg_file = Path(tmpdir) / "config.yaml"
+                    cfg_file.write_text(
+                        ydump(
+                            job_data.config or {},
+                            default_flow_style=False,
+                            sort_keys=False,
+                        )
                     )
-                mlflow.log_artifact(str(cfg_file))
+                    mlflow.log_artifact(str(cfg_file))
+            # Choose files to upload
+            files_to_upload: list[Path] = []
+            if mlflow_config.get("only_required", True):
+                for fname in get_available_artifacts(artifacts_dir):
+                    p = artifacts_dir / fname
+                    if p.exists():
+                        files_to_upload.append(p)
+            else:
+                for p in artifacts_dir.iterdir():  # top-level files only
+                    if p.is_file():
+                        files_to_upload.append(p)
+            # Upload artifacts (with DEBUG per-file)
+            for fpath in files_to_upload:
+                rel = fpath.relative_to(artifacts_dir).as_posix()
+                parent = os.path.dirname(rel)
+                mlflow.log_artifact(
+                    str(fpath),
+                    artifact_path=f"{artifact_path}/artifacts/{parent}".rstrip("/"),
+                )
+                logged_names.append(rel)
+                logger.debug(f"mlflow upload artifact: {rel}")
+            # Optionally upload logs under "<harness.task>/logs"
+            if mlflow_config.get("log_logs", False) and logs_dir.exists():
+                for p in logs_dir.iterdir():
+                    if p.is_file():
+                        rel = p.name
+                        mlflow.log_artifact(
+                            str(p), artifact_path=f"{artifact_path}/logs"
+                        )
+                        logged_names.append(f"logs/{rel}")
+                        logger.debug(f"mlflow upload log: {rel}")
+            logger.info(
+                f"MLflow upload summary: files={len(logged_names)}, only_required={mlflow_config.get('only_required', True)}, log_logs={mlflow_config.get('log_logs', False)}"
+            )
+            if should_cleanup:
+                import shutil
-            # Then log results files
-            for fname in get_available_artifacts(artifacts_dir):
-                file_path = artifacts_dir / fname
-                if file_path.exists():
-                    mlflow.log_artifact(str(file_path), artifact_path=artifact_path)
-                    logged_names.append(fname)
+                shutil.rmtree(base_dir, ignore_errors=True)
-            # cleanup temp
-            shutil.rmtree(temp_dir)
             return logged_names
         except Exception as e:
             logger.error(f"Error logging artifacts: {e}")
             return []
@@ -312,13 +433,56 @@ class MLflowExporter(BaseExporter):
             # Extract config using common utility
             mlflow_config = extract_exporter_config(first_job, "mlflow", self.config)
+            # resolve tracking_uri with fallbacks
+            tracking_uri = mlflow_config.get("tracking_uri") or os.getenv(
+                "MLFLOW_TRACKING_URI"
+            )
+            if tracking_uri and "://" not in tracking_uri:
+                tracking_uri = os.getenv(tracking_uri, tracking_uri)
+            if not tracking_uri:
+                return {
+                    "success": False,
+                    "error": "tracking_uri is required (set export.mlflow.tracking_uri or MLFLOW_TRACKING_URI)",
+                }
             # Collect metrics from ALL jobs
             all_metrics = {}
+            staged_map: dict[str, Path] = {}
+            for job_id, job_data in jobs.items():
+                try:
+                    paths = self.get_job_paths(job_data)
+                    if paths.get("storage_type") == "remote_ssh":
+                        tmp_stage = Path(tempfile.mkdtemp(prefix="mlflow_inv_stage_"))
+                        LocalExporter(
+                            {
+                                "output_dir": str(tmp_stage),
+                                "copy_logs": mlflow_config.get("log_logs", False),
+                                "only_required": mlflow_config.get(
+                                    "only_required", True
+                                ),
+                            }
+                        ).export_job(job_data)
+                        staged_map[job_id] = (
+                            tmp_stage / job_data.invocation_id / job_data.job_id
+                        )
+                except Exception as e:
+                    logger.warning(f"Staging failed for {job_id}: {e}")
             for job_id, job_data in jobs.items():
                 log_metrics = mlflow_config.get("log_metrics", [])
-                job_metrics = extract_accuracy_metrics(
-                    job_data, self.get_job_paths, log_metrics
-                )
+                if job_id in staged_map and (staged_map[job_id] / "artifacts").exists():
+                    job_metrics = extract_accuracy_metrics(
+                        job_data,
+                        lambda _: {
+                            "artifacts_dir": staged_map[job_id] / "artifacts",
+                            "storage_type": "local_filesystem",
+                        },
+                        log_metrics,
+                    )
+                else:
+                    job_metrics = extract_accuracy_metrics(
+                        job_data, self.get_job_paths, log_metrics
+                    )
                 all_metrics.update(job_metrics)
             if not all_metrics:
@@ -328,10 +492,6 @@ class MLflowExporter(BaseExporter):
                 }
             # Set up MLflow
-            tracking_uri = mlflow_config.get("tracking_uri")
-            if not tracking_uri:
-                return {"success": False, "error": "tracking_uri is required"}
             tracking_uri = tracking_uri.rstrip("/")
             mlflow.set_tracking_uri(tracking_uri)
@@ -341,9 +501,12 @@ class MLflowExporter(BaseExporter):
             mlflow.set_experiment(experiment_name)
             # Prepare parameters for invocation
+            inv_exec_type = (first_job.config or {}).get("execution", {}).get(
+                "type"
+            ) or first_job.executor
             all_params = {
                 "invocation_id": invocation_id,
-                "executor": first_job.executor,
+                "executor": inv_exec_type,
                 "timestamp": str(first_job.timestamp),
                 "jobs_count": str(len(jobs)),
             }
@@ -399,23 +562,31 @@ class MLflowExporter(BaseExporter):
                 # Set run name
                 run_name = mlflow_config.get("run_name") or f"eval-{invocation_id}"
-                mlflow.set_tag("mlflow.runName", run_name)
+                mlflow.set_tag("mlflow.runName", mlflow_sanitize(run_name, "tag_value"))
                 # Set description
                 description = mlflow_config.get("description")
                 if description:
-                    mlflow.set_tag("mlflow.note.content", str(description)[:5000])
+                    mlflow.set_tag(
+                        "mlflow.note.content", mlflow_sanitize(description, "tag_value")
+                    )
                 # Log parameters
                 mlflow.log_params(safe_params)
-                # Log ALL metrics
-                mlflow.log_metrics(all_metrics)
+                # Sanitize metric keys
+                safe_all_metrics = {
+                    mlflow_sanitize(k, "metric"): v
+                    for k, v in (all_metrics or {}).items()
+                }
+                mlflow.log_metrics(safe_all_metrics)
                 # Log artifacts from all jobs
                 total_artifacts = 0
-                for job_data in jobs.values():
-                    artifacts_logged = self._log_artifacts(job_data, mlflow_config)
+                for job_id, job_data in jobs.items():
+                    artifacts_logged = self._log_artifacts(
+                        job_data, mlflow_config, staged_map.get(job_id)
+                    )
                     total_artifacts += len(artifacts_logged)
                 # Build run URL

nemo-evaluator-launcher 0.1.0rc6__py3-none-any.whl → 0.1.41__py3-none-any.whl

nemo-evaluator-launcher 0.1.0rc6py3-none-any.whl → 0.1.41py3-none-any.whl