npm - @m4trix/evals - Versions diffs - 0.26.0 → 0.28.0 - Mend

@m4trix/evals 0.26.0 → 0.28.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (15) hide show

package/dist/cli-simple.js CHANGED Viewed

@@ -29,6 +29,7 @@ function makeEntityIdSchema(brand, label) {
 var RunConfigNameSchema = makeEntityIdSchema("RunConfigName", "RunConfig name");
 makeEntityIdSchema("EvaluatorName", "Evaluator name");
 makeEntityIdSchema("TestCaseName", "Test case name");
+makeEntityIdSchema("DatasetName", "Dataset name");
 function validateWithSchema(schema, raw, context) {
   const trimmed = raw.trim();
   const decode = Schema.decodeUnknownEither(
@@ -585,6 +586,14 @@ function getTestCaseTagList(testCase) {
   return typeof testCase.getTags === "function" ? [...testCase.getTags()] : [];
 }
+// src/evals/dataset.ts
+function getDatasetDisplayLabel(dataset) {
+  if (typeof dataset.getDisplayLabel === "function") {
+    return dataset.getDisplayLabel();
+  }
+  return typeof dataset.getName === "function" ? dataset.getName() : "";
+}
 // src/evals/metric.ts
 var registry = /* @__PURE__ */ new Map();
 var Metric = {
@@ -978,15 +987,16 @@ function processOneEvaluation(task, unit, totalEvaluations, publishEvent, persis
               meta: {
                 triggerId: task.triggerId,
                 runId: evaluatorRunId,
-                datasetId: task.datasetId,
+                datasetName: task.dataset.getDisplayLabel(),
                 repetitionId,
                 repetitionIndex,
                 repetitionCount,
-                runConfigName: task.runConfigName
+                runConfigName: task.runConfigName,
+                ...task.experimentName !== void 0 && task.experimentName !== "" ? { experimentName: task.experimentName } : {},
+                testCaseTags: getTestCaseTagList(testCaseItem.testCase),
+                runConfigTags: task.runConfigTags,
+                evaluatorTags: getEvaluatorTagList(evaluator)
               },
-              testCaseTags: getTestCaseTagList(testCaseItem.testCase),
-              runConfigTags: task.runConfigTags,
-              evaluatorTags: getEvaluatorTagList(evaluator),
               logDiff,
               log,
               createError
@@ -1393,7 +1403,7 @@ var EffectRunner = class {
       );
       if (!dsCollected) {
         throw new Error(
-          `RunConfig "${rcName}" run[${i}]: dataset "${row.dataset.getName()}" was not found among discovered dataset exports (import the same module instances the scanner loads).`
+          `RunConfig "${rcName}" run[${i}]: dataset "${row.dataset.getDisplayLabel()}" was not found among discovered dataset exports (import the same module instances the scanner loads).`
         );
       }
       let evaluatorIds;
@@ -1465,7 +1475,8 @@ var EffectRunner = class {
           globalEvaluationSemaphore: sem,
           runConfigName: job.runConfigName,
           runConfigTags: job.runConfigTags,
-          repetitions: job.repetitions
+          repetitions: job.repetitions,
+          experimentName: request.experimentName
         })
       );
     }
@@ -1500,7 +1511,8 @@ var EffectRunner = class {
       maxConcurrency: request.concurrency ?? this.config.maxConcurrency ?? 1,
       repetitions: request.repetitions,
       runConfigName,
-      runConfigTags: request.runConfigTags
+      runConfigTags: request.runConfigTags,
+      experimentName: request.experimentName
     });
   }
   async startDatasetRun(params) {
@@ -1528,7 +1540,7 @@ var EffectRunner = class {
     const snapshot = {
       runId,
       datasetId: params.datasetId,
-      datasetName: dataset.dataset.getName(),
+      datasetName: dataset.dataset.getDisplayLabel(),
       evaluatorIds: selectedEvaluators.map((item) => item.id),
       queuedAt: Date.now(),
       totalTestCases: totalEvaluations,
@@ -1549,7 +1561,7 @@ var EffectRunner = class {
       type: "RunQueued",
       runId,
       datasetId: params.datasetId,
-      datasetName: dataset.dataset.getName(),
+      datasetName: dataset.dataset.getDisplayLabel(),
       evaluatorIds: selectedEvaluators.map((item) => item.id),
       totalTestCases: totalEvaluations,
       artifactPath
@@ -1575,7 +1587,8 @@ var EffectRunner = class {
         globalEvaluationSemaphore: params.globalEvaluationSemaphore,
         runConfigName: params.runConfigName,
         runConfigTags,
-        repetitions
+        repetitions,
+        experimentName: params.experimentName
       })
     );
     return snapshot;
@@ -1695,6 +1708,17 @@ function parseSimpleCliArgs(argv) {
       index += 1;
       continue;
     }
+    if (token === "--experiment" && argv[index + 1]) {
+      const raw = argv[index + 1];
+      if (typeof raw === "string") {
+        const trimmed = raw.trim();
+        if (trimmed.length > 0) {
+          args.experimentName = trimmed;
+        }
+      }
+      index += 1;
+      continue;
+    }
     args.unknownArgs.push(token);
   }
   return args;
@@ -1702,12 +1726,13 @@ function parseSimpleCliArgs(argv) {
 function getSimpleCliUsage() {
   return [
     "Usage:",
-    "  eval-agents-simple run --run-config <name> [--run-config <name> ...] [--concurrency N] [--ci]",
-    "  eval-agents-simple generate --dataset <datasetName>",
+    "  eval-agents-simple run --run-config <name> [--run-config <name> ...] [--concurrency N] [--experiment <name>] [--ci]",
+    "  eval-agents-simple generate --dataset <datasetId>",
     "",
     "Options:",
     "  --ci                  With run: exit with code 1 if any test case fails.",
-    "  --concurrency, -c N   Max concurrent evaluations (default: 4). Use 1 for sequential."
+    "  --concurrency, -c N   Max concurrent evaluations (default: 4). Use 1 for sequential.",
+    "  --experiment <name>   With run: set evaluator meta.experimentName for this invocation."
   ].join("\n");
 }
@@ -1771,7 +1796,7 @@ function GenerateView({
       if (!cancelled) {
         setResult({
           count: payload.length,
-          datasetName: dataset.dataset.getName(),
+          datasetName: getDatasetDisplayLabel(dataset.dataset),
           outputPath
         });
         setTimeout(() => onComplete(), 200);
@@ -1832,7 +1857,7 @@ async function generateDatasetJsonCommandPlain(runner, datasetName) {
   const outputPath = createOutputPath(absoluteDatasetPath);
   await writeFile(outputPath, `${JSON.stringify(payload, null, 2)}
 `, "utf8");
-  console.log(`Generated ${payload.length} test cases for dataset "${dataset.dataset.getName()}".`);
+  console.log(`Generated ${payload.length} test cases for dataset "${getDatasetDisplayLabel(dataset.dataset)}".`);
   console.log(`Wrote ${outputPath}`);
 }
 async function generateDatasetJsonCommandInk(runner, datasetName) {
@@ -1984,6 +2009,7 @@ function RunView({
   runner,
   runConfigNames,
   concurrency,
+  experimentName,
   onComplete
 }) {
   const [phase, setPhase] = useState("loading");
@@ -2153,7 +2179,8 @@ function RunView({
     });
     const snapshots = await runner.runDatasetJobsWithSharedConcurrency({
       jobs,
-      globalConcurrency: concurrency
+      globalConcurrency: concurrency,
+      experimentName
     });
     for (let i = 0; i < snapshots.length; i += 1) {
       const snap = snapshots[i];
@@ -2210,7 +2237,7 @@ function RunView({
     setPhase("completed");
     const exitCode = failedTestCases > 0 ? 1 : 0;
     setTimeout(() => onComplete(void 0, exitCode), 200);
-  }, [runner, runConfigNames, concurrency, onComplete]);
+  }, [runner, runConfigNames, concurrency, experimentName, onComplete]);
   useEffect(() => {
     void runEval();
   }, [runEval]);
@@ -2698,7 +2725,7 @@ function formatEvaluatorScoreLine(name, scores, passed, metrics, options) {
   }
   return lines;
 }
-async function runSimpleEvalRunConfigsPlain(runner, runConfigNames, concurrency) {
+async function runSimpleEvalRunConfigsPlain(runner, runConfigNames, concurrency, experimentName) {
   const jobs = await runner.expandRunConfigNamesToJobs(runConfigNames);
   if (jobs.length === 0) {
     throw new Error("No jobs expanded from RunConfigs.");
@@ -2907,7 +2934,8 @@ async function runSimpleEvalRunConfigsPlain(runner, runConfigNames, concurrency)
   console.log("");
   const snapshots = await runner.runDatasetJobsWithSharedConcurrency({
     jobs,
-    globalConcurrency: concurrency
+    globalConcurrency: concurrency,
+    experimentName
   });
   for (let i = 0; i < snapshots.length; i += 1) {
     const snap = snapshots[i];
@@ -3007,13 +3035,14 @@ async function runSimpleEvalRunConfigsPlain(runner, runConfigNames, concurrency)
   }
   return failedTestCasesTotal > 0 ? 1 : 0;
 }
-async function runSimpleEvalRunConfigsInk(runner, runConfigNames, concurrency) {
+async function runSimpleEvalRunConfigsInk(runner, runConfigNames, concurrency, experimentName) {
   return new Promise((resolve5, reject) => {
     const app = render(
       React.createElement(RunView, {
         runner,
         runConfigNames,
         concurrency,
+        experimentName,
         onComplete: (err, exitCode) => {
           app.unmount();
           if (err) {
@@ -3074,7 +3103,8 @@ async function main() {
       const exitCode = await (useInk ? runSimpleEvalRunConfigsInk : runSimpleEvalRunConfigsPlain)(
         runner,
         args.runConfigNames,
-        concurrency
+        concurrency,
+        args.experimentName
       );
       if (args.ci && exitCode !== 0) {
         process.exit(1);
@@ -3083,7 +3113,7 @@ async function main() {
     }
     const genDataset = args.datasetName;
     if (!genDataset) {
-      console.error("Missing required --dataset <datasetName> argument.");
+      console.error("Missing required --dataset <datasetId> argument.");
       printUsageAndExit(1);
     }
     await (useInk ? generateDatasetJsonCommandInk : generateDatasetJsonCommandPlain)(