npm - @m4trix/evals - Versions diffs - 0.26.0 → 0.27.0 - Mend

@m4trix/evals 0.26.0 → 0.27.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (15) hide show

package/README.md CHANGED Viewed

@@ -62,7 +62,8 @@ export default defineConfig((): ConfigType => ({
 import { Dataset } from '@m4trix/evals';
 export const myDataset = Dataset.define({
-  name: 'My Dataset',
+  name: 'my-dataset',
+  displayName: 'My Dataset',
   includedTags: ['demo'],
 });
 ```
@@ -137,7 +138,7 @@ Group several dataset/evaluator runs under one named config. Each row is either
 `evaluators: [...]` (same module instances discovery loads) or `evaluatorPattern: "..."`
 (wildcard / regex rules from `RunnerApi.resolveEvaluatorsByNamePattern`). Multiple jobs share one `--concurrency` cap.
-Optional **`repetitions`** on a row (default `1`) runs each matching test case that many times. Every execution in that group shares the same **`repetitionId`** in the evaluator callback **`meta`**, with **`repetitionIndex`** / **`repetitionCount`**. Evaluator **`meta`** includes **`runConfigName`**: the **`RunConfig`** name (or **`programmatic`** from **`PROGRAMMATIC_RUN_CONFIG`** for API/TUI-only **`runDatasetWith`**). Names may use **kebab-case**, **snake_case**, **camelCase**, etc. (letters, digits, `_`, `-` only, no spaces); resolution is **case-insensitive**.
+Optional **`repetitions`** on a row (default `1`) runs each matching test case that many times. Every execution in that group shares the same **`repetitionId`** in the evaluator callback **`meta`**, with **`repetitionIndex`** / **`repetitionCount`**. Evaluator **`meta`** includes **`datasetName`** (`Dataset.getDisplayLabel()` → `displayName ?? name`) and **`runConfigName`**: the **`RunConfig`** id (or **`programmatic`** from **`PROGRAMMATIC_RUN_CONFIG`** for API/TUI-only **`runDatasetWith`**). **`Dataset`** and **`TestCase`** follow the same naming convention as **`RunConfig`**: **`name`** is the stable id; optional **`displayName`** is unrestricted for UI. Names may use **kebab-case**, **snake_case**, **camelCase**, etc. (letters, digits, `_`, `-` only, no spaces); resolution is **case-insensitive**.
 ```ts
 import { RunConfig } from '@m4trix/evals';
@@ -165,7 +166,7 @@ Repeat **`--run-config`** to queue several configs; jobs share one **`--concurre
 - `eval-agents`: interactive CLI (starts runs with synthetic meta `programmatic` / `Programmatic`)
 - `eval-agents-simple run --run-config "<RunConfig name>"` (repeatable; case-insensitive match); add **`--ci`** to exit with code **1** if any test case fails
-- `eval-agents-simple generate --dataset "<dataset name>"`
+- `eval-agents-simple generate --dataset "<dataset id>"` (canonical **`Dataset` `name`**, case-insensitive)
 ## Default Discovery and Artifacts

package/dist/cli-simple.cjs CHANGED Viewed

@@ -55,6 +55,7 @@ function makeEntityIdSchema(brand, label) {
 var RunConfigNameSchema = makeEntityIdSchema("RunConfigName", "RunConfig name");
 makeEntityIdSchema("EvaluatorName", "Evaluator name");
 makeEntityIdSchema("TestCaseName", "Test case name");
+makeEntityIdSchema("DatasetName", "Dataset name");
 function validateWithSchema(schema, raw, context) {
   const trimmed = raw.trim();
   const decode = effect.Schema.decodeUnknownEither(
@@ -611,6 +612,14 @@ function getTestCaseTagList(testCase) {
   return typeof testCase.getTags === "function" ? [...testCase.getTags()] : [];
 }
+// src/evals/dataset.ts
+function getDatasetDisplayLabel(dataset) {
+  if (typeof dataset.getDisplayLabel === "function") {
+    return dataset.getDisplayLabel();
+  }
+  return typeof dataset.getName === "function" ? dataset.getName() : "";
+}
 // src/evals/metric.ts
 var registry = /* @__PURE__ */ new Map();
 var Metric = {
@@ -1004,7 +1013,7 @@ function processOneEvaluation(task, unit, totalEvaluations, publishEvent, persis
               meta: {
                 triggerId: task.triggerId,
                 runId: evaluatorRunId,
-                datasetId: task.datasetId,
+                datasetName: task.dataset.getDisplayLabel(),
                 repetitionId,
                 repetitionIndex,
                 repetitionCount,
@@ -1419,7 +1428,7 @@ var EffectRunner = class {
       );
       if (!dsCollected) {
         throw new Error(
-          `RunConfig "${rcName}" run[${i}]: dataset "${row.dataset.getName()}" was not found among discovered dataset exports (import the same module instances the scanner loads).`
+          `RunConfig "${rcName}" run[${i}]: dataset "${row.dataset.getDisplayLabel()}" was not found among discovered dataset exports (import the same module instances the scanner loads).`
         );
       }
       let evaluatorIds;
@@ -1554,7 +1563,7 @@ var EffectRunner = class {
     const snapshot = {
       runId,
       datasetId: params.datasetId,
-      datasetName: dataset.dataset.getName(),
+      datasetName: dataset.dataset.getDisplayLabel(),
       evaluatorIds: selectedEvaluators.map((item) => item.id),
       queuedAt: Date.now(),
       totalTestCases: totalEvaluations,
@@ -1575,7 +1584,7 @@ var EffectRunner = class {
       type: "RunQueued",
       runId,
       datasetId: params.datasetId,
-      datasetName: dataset.dataset.getName(),
+      datasetName: dataset.dataset.getDisplayLabel(),
       evaluatorIds: selectedEvaluators.map((item) => item.id),
       totalTestCases: totalEvaluations,
       artifactPath
@@ -1729,7 +1738,7 @@ function getSimpleCliUsage() {
   return [
     "Usage:",
     "  eval-agents-simple run --run-config <name> [--run-config <name> ...] [--concurrency N] [--ci]",
-    "  eval-agents-simple generate --dataset <datasetName>",
+    "  eval-agents-simple generate --dataset <datasetId>",
     "",
     "Options:",
     "  --ci                  With run: exit with code 1 if any test case fails.",
@@ -1797,7 +1806,7 @@ function GenerateView({
       if (!cancelled) {
         setResult({
           count: payload.length,
-          datasetName: dataset.dataset.getName(),
+          datasetName: getDatasetDisplayLabel(dataset.dataset),
           outputPath
         });
         setTimeout(() => onComplete(), 200);
@@ -1858,7 +1867,7 @@ async function generateDatasetJsonCommandPlain(runner, datasetName) {
   const outputPath = createOutputPath(absoluteDatasetPath);
   await promises.writeFile(outputPath, `${JSON.stringify(payload, null, 2)}
 `, "utf8");
-  console.log(`Generated ${payload.length} test cases for dataset "${dataset.dataset.getName()}".`);
+  console.log(`Generated ${payload.length} test cases for dataset "${getDatasetDisplayLabel(dataset.dataset)}".`);
   console.log(`Wrote ${outputPath}`);
 }
 async function generateDatasetJsonCommandInk(runner, datasetName) {
@@ -3109,7 +3118,7 @@ async function main() {
     }
     const genDataset = args.datasetName;
     if (!genDataset) {
-      console.error("Missing required --dataset <datasetName> argument.");
+      console.error("Missing required --dataset <datasetId> argument.");
       printUsageAndExit(1);
     }
     await (useInk ? generateDatasetJsonCommandInk : generateDatasetJsonCommandPlain)(