npm - @sanity/ailf - Versions diffs - 0.5.0 → 1.0.0 - Mend

@sanity/ailf 0.5.0 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (288) hide show

package/config/features.ts +23 -0
package/config/models.ts +83 -0
package/config/prompts.ts +16 -0
package/config/rubrics.ts +225 -0
package/config/schedules.ts +47 -0
package/config/sinks.ts +37 -0
package/config/sources.ts +21 -0
package/config/thresholds.ts +61 -0
package/dist/_vendor/ailf-core/config-helpers.d.ts +174 -0
package/dist/_vendor/ailf-core/config-helpers.js +150 -0
package/dist/_vendor/ailf-core/env-helper.d.ts +35 -0
package/dist/_vendor/ailf-core/env-helper.js +45 -0
package/dist/_vendor/ailf-core/index.d.ts +3 -0
package/dist/_vendor/ailf-core/index.js +5 -0
package/dist/_vendor/ailf-core/ports/context.d.ts +15 -2
package/dist/_vendor/ailf-core/ports/doc-fetcher.d.ts +2 -2
package/dist/_vendor/ailf-core/ports/index.d.ts +2 -1
package/dist/_vendor/ailf-core/ports/mode-handler.d.ts +129 -0
package/dist/_vendor/ailf-core/ports/mode-handler.js +19 -0
package/dist/_vendor/ailf-core/ports/task-source.d.ts +16 -122
package/dist/_vendor/ailf-core/ports/task-source.js +7 -7
package/dist/_vendor/ailf-core/schemas/eval-config.d.ts +7 -2
package/dist/_vendor/ailf-core/schemas/eval-config.js +7 -2
package/dist/_vendor/ailf-core/schemas/pipeline-request.d.ts +8 -3
package/dist/_vendor/ailf-core/schemas/pipeline-request.js +6 -1
package/dist/_vendor/ailf-core/schemas/pipeline.d.ts +14 -29
package/dist/_vendor/ailf-core/schemas/pipeline.js +17 -8
package/dist/_vendor/ailf-core/schemas/schedules.d.ts +14 -4
package/dist/_vendor/ailf-core/schemas/schedules.js +6 -2
package/dist/_vendor/ailf-core/schemas/sinks.d.ts +1 -1
package/dist/_vendor/ailf-core/services/comparison-formatters.js +57 -19
package/dist/_vendor/ailf-core/services/index.d.ts +2 -1
package/dist/_vendor/ailf-core/services/index.js +2 -1
package/dist/_vendor/ailf-core/services/scoring-engine.d.ts +153 -0
package/dist/_vendor/ailf-core/services/scoring-engine.js +237 -0
package/dist/_vendor/ailf-core/services/scoring.d.ts +15 -2
package/dist/_vendor/ailf-core/services/scoring.js +25 -15
package/dist/_vendor/ailf-core/types/branded-ids.d.ts +137 -0
package/dist/_vendor/ailf-core/types/branded-ids.js +136 -0
package/dist/_vendor/ailf-core/types/eval-mode-config.d.ts +150 -0
package/dist/_vendor/ailf-core/types/eval-mode-config.js +24 -0
package/dist/_vendor/ailf-core/types/generalized-task.d.ts +319 -0
package/dist/_vendor/ailf-core/types/generalized-task.js +13 -0
package/dist/_vendor/ailf-core/types/index.d.ts +45 -81
package/dist/_vendor/ailf-core/types/index.js +8 -1
package/dist/_vendor/ailf-core/types/plugin-registry.d.ts +202 -0
package/dist/_vendor/ailf-core/types/plugin-registry.js +132 -0
package/dist/_vendor/ailf-core/types/storage-schema.d.ts +199 -0
package/dist/_vendor/ailf-core/types/storage-schema.js +39 -0
package/dist/_vendor/ailf-core/types/task-graph.d.ts +86 -0
package/dist/_vendor/ailf-core/types/task-graph.js +20 -0
package/dist/_vendor/ailf-core/types/trace.d.ts +118 -0
package/dist/_vendor/ailf-core/types/trace.js +18 -0
package/dist/_vendor/ailf-core/types/variable-envelope.d.ts +80 -0
package/dist/_vendor/ailf-core/types/variable-envelope.js +16 -0
package/dist/_vendor/ailf-shared/dimension-names.d.ts +5 -18
package/dist/_vendor/ailf-shared/dimension-names.js +6 -24
package/dist/_vendor/ailf-shared/eval-modes.d.ts +38 -6
package/dist/_vendor/ailf-shared/eval-modes.js +26 -2
package/dist/_vendor/ailf-shared/index.d.ts +0 -1
package/dist/_vendor/ailf-shared/index.js +0 -1
package/dist/adapters/api-client/build-request.js +14 -13
package/dist/adapters/config-sources/file-config-adapter.d.ts +20 -11
package/dist/adapters/config-sources/file-config-adapter.js +38 -12
package/dist/adapters/config-sources/index.d.ts +2 -0
package/dist/adapters/config-sources/index.js +1 -0
package/dist/adapters/config-sources/ts-config-loader.d.ts +59 -0
package/dist/adapters/config-sources/ts-config-loader.js +133 -0
package/dist/adapters/doc-fetchers/sanity-doc-fetcher.d.ts +3 -2
package/dist/adapters/doc-fetchers/sanity-doc-fetcher.js +7 -2
package/dist/adapters/task-sources/composite-task-source.d.ts +3 -3
package/dist/adapters/task-sources/composite-task-source.js +1 -1
package/dist/adapters/task-sources/content-lake-task-source.d.ts +7 -6
package/dist/adapters/task-sources/content-lake-task-source.js +22 -23
package/dist/adapters/task-sources/index.d.ts +1 -0
package/dist/adapters/task-sources/index.js +1 -0
package/dist/adapters/task-sources/repo-task-source.d.ts +4 -4
package/dist/adapters/task-sources/repo-task-source.js +69 -16
package/dist/adapters/task-sources/task-file-loader.d.ts +64 -0
package/dist/adapters/task-sources/task-file-loader.js +83 -0
package/dist/adapters/task-sources/yaml-task-source.d.ts +6 -6
package/dist/adapters/task-sources/yaml-task-source.js +19 -16
package/dist/cli.js +0 -2
package/dist/commands/baseline.js +4 -1
package/dist/commands/calculate-scores.js +1 -1
package/dist/commands/coverage-audit.js +7 -1
package/dist/commands/explain-handler.js +25 -23
package/dist/commands/fetch-docs.js +3 -2
package/dist/commands/generate-configs.js +1 -1
package/dist/commands/interactive.js +11 -7
package/dist/commands/pipeline-action.d.ts +2 -0
package/dist/commands/pipeline-action.js +16 -6
package/dist/commands/pipeline.d.ts +1 -0
package/dist/commands/pipeline.js +4 -2
package/dist/commands/pr-comment.js +1 -1
package/dist/commands/publish.js +2 -2
package/dist/commands/readiness-report.js +13 -6
package/dist/composition-root.d.ts +1 -1
package/dist/composition-root.js +67 -4
package/dist/orchestration/build-app-context.js +1 -0
package/dist/orchestration/build-step-sequence.js +24 -6
package/dist/orchestration/steps/calculate-scores-step.js +24 -11
package/dist/orchestration/steps/fetch-docs-step.js +6 -4
package/dist/orchestration/steps/gap-analysis-step.js +8 -7
package/dist/orchestration/steps/generate-configs-step.d.ts +16 -3
package/dist/orchestration/steps/generate-configs-step.js +245 -51
package/dist/orchestration/steps/grader-consistency-step.js +7 -4
package/dist/orchestration/steps/mirror-repo-tasks-step.js +1 -1
package/dist/orchestration/steps/readiness-step.js +5 -6
package/dist/orchestration/steps/run-eval-step.d.ts +1 -2
package/dist/orchestration/steps/run-eval-step.js +8 -7
package/dist/pipeline/cache.d.ts +1 -1
package/dist/pipeline/cache.js +36 -8
package/dist/pipeline/calculate-scores.d.ts +2 -4
package/dist/pipeline/calculate-scores.js +43 -113
package/dist/pipeline/checks.js +2 -2
package/dist/pipeline/compare.js +8 -8
package/dist/pipeline/compiler/__tests__/agent-harness-handler.test.d.ts +10 -0
package/dist/pipeline/compiler/__tests__/agent-harness-handler.test.js +288 -0
package/dist/pipeline/compiler/__tests__/assertion-mapper.test.d.ts +9 -0
package/dist/pipeline/compiler/__tests__/assertion-mapper.test.js +145 -0
package/dist/pipeline/compiler/__tests__/knowledge-probe-handler.test.d.ts +10 -0
package/dist/pipeline/compiler/__tests__/knowledge-probe-handler.test.js +314 -0
package/dist/pipeline/compiler/__tests__/literacy-handler.test.d.ts +10 -0
package/dist/pipeline/compiler/__tests__/literacy-handler.test.js +486 -0
package/dist/pipeline/compiler/__tests__/mcp-server-handler.test.d.ts +10 -0
package/dist/pipeline/compiler/__tests__/mcp-server-handler.test.js +355 -0
package/dist/pipeline/compiler/__tests__/promptfoo-compiler.test.d.ts +9 -0
package/dist/pipeline/compiler/__tests__/promptfoo-compiler.test.js +333 -0
package/dist/pipeline/compiler/__tests__/sandbox-and-fixtures.test.d.ts +12 -0
package/dist/pipeline/compiler/__tests__/sandbox-and-fixtures.test.js +210 -0
package/dist/pipeline/compiler/__tests__/scoring-and-presets.test.d.ts +7 -0
package/dist/pipeline/compiler/__tests__/scoring-and-presets.test.js +471 -0
package/dist/pipeline/compiler/__tests__/scoring-bridge.test.d.ts +10 -0
package/dist/pipeline/compiler/__tests__/scoring-bridge.test.js +184 -0
package/dist/pipeline/compiler/__tests__/task-graph-builder.test.d.ts +8 -0
package/dist/pipeline/compiler/__tests__/task-graph-builder.test.js +301 -0
package/dist/pipeline/compiler/__tests__/telemetry.test.d.ts +9 -0
package/dist/pipeline/compiler/__tests__/telemetry.test.js +503 -0
package/dist/pipeline/compiler/assertion-mapper.d.ts +58 -0
package/dist/pipeline/compiler/assertion-mapper.js +175 -0
package/dist/pipeline/compiler/compiler-to-yaml.d.ts +51 -0
package/dist/pipeline/compiler/compiler-to-yaml.js +222 -0
package/dist/pipeline/compiler/config-loader.d.ts +56 -0
package/dist/pipeline/compiler/config-loader.js +111 -0
package/dist/pipeline/compiler/fixture-resolver.d.ts +41 -0
package/dist/pipeline/compiler/fixture-resolver.js +113 -0
package/dist/pipeline/compiler/hash.d.ts +11 -0
package/dist/pipeline/compiler/hash.js +18 -0
package/dist/pipeline/compiler/ignore-fields.d.ts +53 -0
package/dist/pipeline/compiler/ignore-fields.js +113 -0
package/dist/pipeline/compiler/index.d.ts +29 -0
package/dist/pipeline/compiler/index.js +45 -0
package/dist/pipeline/compiler/literacy-bridge.d.ts +102 -0
package/dist/pipeline/compiler/literacy-bridge.js +172 -0
package/dist/pipeline/compiler/mode-handlers/__fixtures__/agent-harness-example-tasks.d.ts +14 -0
package/dist/pipeline/compiler/mode-handlers/__fixtures__/agent-harness-example-tasks.js +152 -0
package/dist/pipeline/compiler/mode-handlers/__fixtures__/knowledge-probe-example-tasks.d.ts +32 -0
package/dist/pipeline/compiler/mode-handlers/__fixtures__/knowledge-probe-example-tasks.js +176 -0
package/dist/pipeline/compiler/mode-handlers/__fixtures__/mcp-example-tasks.d.ts +49 -0
package/dist/pipeline/compiler/mode-handlers/__fixtures__/mcp-example-tasks.js +259 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness-handler.d.ts +70 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness-handler.js +485 -0
package/dist/pipeline/compiler/mode-handlers/index.d.ts +16 -0
package/dist/pipeline/compiler/mode-handlers/index.js +21 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe-handler.d.ts +76 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe-handler.js +245 -0
package/dist/pipeline/compiler/mode-handlers/literacy-handler.d.ts +89 -0
package/dist/pipeline/compiler/mode-handlers/literacy-handler.js +379 -0
package/dist/pipeline/compiler/mode-handlers/mcp-assertions.d.ts +50 -0
package/dist/pipeline/compiler/mode-handlers/mcp-assertions.js +277 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server-handler.d.ts +67 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server-handler.js +309 -0
package/dist/pipeline/compiler/presets/index.d.ts +9 -0
package/dist/pipeline/compiler/presets/index.js +8 -0
package/dist/pipeline/compiler/presets/sanity-literacy.d.ts +45 -0
package/dist/pipeline/compiler/presets/sanity-literacy.js +354 -0
package/dist/pipeline/compiler/promptfoo-compiler.d.ts +96 -0
package/dist/pipeline/compiler/promptfoo-compiler.js +230 -0
package/dist/pipeline/compiler/provider-assembler.d.ts +39 -0
package/dist/pipeline/compiler/provider-assembler.js +137 -0
package/dist/pipeline/compiler/sandbox/docker-sandbox.d.ts +21 -0
package/dist/pipeline/compiler/sandbox/docker-sandbox.js +136 -0
package/dist/pipeline/compiler/sandbox/fixture-provisioner.d.ts +69 -0
package/dist/pipeline/compiler/sandbox/fixture-provisioner.js +189 -0
package/dist/pipeline/compiler/sandbox/git-worktree-sandbox.d.ts +20 -0
package/dist/pipeline/compiler/sandbox/git-worktree-sandbox.js +114 -0
package/dist/pipeline/compiler/sandbox/index.d.ts +10 -0
package/dist/pipeline/compiler/sandbox/index.js +11 -0
package/dist/pipeline/compiler/sandbox/sandbox-selector.d.ts +35 -0
package/dist/pipeline/compiler/sandbox/sandbox-selector.js +86 -0
package/dist/pipeline/compiler/sandbox/sandbox-strategy.d.ts +81 -0
package/dist/pipeline/compiler/sandbox/sandbox-strategy.js +15 -0
package/dist/pipeline/compiler/sandbox/tempdir-sandbox.d.ts +20 -0
package/dist/pipeline/compiler/sandbox/tempdir-sandbox.js +74 -0
package/dist/pipeline/compiler/scoring-bridge.d.ts +49 -0
package/dist/pipeline/compiler/scoring-bridge.js +114 -0
package/dist/pipeline/compiler/task-graph-builder.d.ts +54 -0
package/dist/pipeline/compiler/task-graph-builder.js +291 -0
package/dist/pipeline/compiler/telemetry/cost-tracker.d.ts +90 -0
package/dist/pipeline/compiler/telemetry/cost-tracker.js +146 -0
package/dist/pipeline/compiler/telemetry/index.d.ts +14 -0
package/dist/pipeline/compiler/telemetry/index.js +19 -0
package/dist/pipeline/compiler/telemetry/redactor.d.ts +58 -0
package/dist/pipeline/compiler/telemetry/redactor.js +222 -0
package/dist/pipeline/compiler/telemetry/tool-classifier.d.ts +32 -0
package/dist/pipeline/compiler/telemetry/tool-classifier.js +120 -0
package/dist/pipeline/compiler/telemetry/trace-collector.d.ts +75 -0
package/dist/pipeline/compiler/telemetry/trace-collector.js +297 -0
package/dist/pipeline/compiler/telemetry/trace-store.d.ts +78 -0
package/dist/pipeline/compiler/telemetry/trace-store.js +85 -0
package/dist/pipeline/compiler/variable-resolver.d.ts +46 -0
package/dist/pipeline/compiler/variable-resolver.js +115 -0
package/dist/pipeline/coverage-audit.d.ts +15 -5
package/dist/pipeline/coverage-audit.js +41 -22
package/dist/pipeline/eval-constants.d.ts +16 -6
package/dist/pipeline/eval-constants.js +25 -4
package/dist/pipeline/eval-fingerprint.d.ts +2 -2
package/dist/pipeline/eval-fingerprint.js +8 -9
package/dist/pipeline/expand-tasks.d.ts +19 -10
package/dist/pipeline/expand-tasks.js +34 -28
package/dist/pipeline/gap-analysis.d.ts +1 -1
package/dist/pipeline/gap-analysis.js +2 -2
package/dist/pipeline/generate-configs.d.ts +22 -4
package/dist/pipeline/generate-configs.js +53 -24
package/dist/pipeline/grader-api.d.ts +3 -3
package/dist/pipeline/grader-api.js +5 -12
package/dist/pipeline/grader-compare-runner.js +20 -27
package/dist/pipeline/grader-comparison.d.ts +4 -8
package/dist/pipeline/grader-comparison.js +11 -17
package/dist/pipeline/grader-consistency-runner.d.ts +2 -3
package/dist/pipeline/grader-consistency-runner.js +16 -20
package/dist/pipeline/grader-consistency.d.ts +6 -10
package/dist/pipeline/grader-consistency.js +13 -32
package/dist/pipeline/grader-sensitivity-runner.js +7 -5
package/dist/pipeline/grader-sensitivity.d.ts +2 -6
package/dist/pipeline/grader-sensitivity.js +10 -10
package/dist/pipeline/grader-validate-runner.js +7 -5
package/dist/pipeline/grader-validation.d.ts +2 -6
package/dist/pipeline/grader-validation.js +14 -22
package/dist/pipeline/map-request-to-config.js +6 -1
package/dist/pipeline/mirror-repo-tasks.d.ts +6 -6
package/dist/pipeline/mirror-repo-tasks.js +16 -15
package/dist/pipeline/normalize-mode.d.ts +49 -0
package/dist/pipeline/normalize-mode.js +64 -0
package/dist/pipeline/plan.d.ts +5 -2
package/dist/pipeline/plan.js +134 -78
package/dist/pipeline/pr-comment.js +2 -0
package/dist/pipeline/profile-resolution.d.ts +22 -14
package/dist/pipeline/profile-resolution.js +41 -19
package/dist/pipeline/provenance.d.ts +2 -2
package/dist/pipeline/provenance.js +12 -17
package/dist/pipeline/release-report.js +4 -4
package/dist/pipeline/repo-threshold-evaluator.d.ts +1 -1
package/dist/pipeline/repo-threshold-evaluator.js +1 -1
package/dist/pipeline/rubric-loader.d.ts +20 -0
package/dist/pipeline/rubric-loader.js +37 -0
package/dist/pipeline/validate.d.ts +4 -4
package/dist/pipeline/validate.js +64 -53
package/dist/schedules/loader.js +18 -8
package/dist/scripts/migrate-task-mode.d.ts +24 -0
package/dist/scripts/migrate-task-mode.js +85 -0
package/dist/scripts/migrate-tasks-to-content-lake.js +11 -10
package/dist/scripts/validate-task-sources.d.ts +1 -1
package/dist/scripts/validate-task-sources.js +15 -15
package/dist/sinks/loader.js +5 -7
package/dist/sources.d.ts +7 -7
package/dist/sources.js +22 -24
package/dist/webhook/dispatch.js +2 -1
package/package.json +6 -3
package/tasks/knowledge-probe/define-type-api.task.ts +55 -0
package/tasks/knowledge-probe/groq-projections.task.ts +59 -0
package/tasks/literacy/frameworks.task.ts +128 -0
package/tasks/literacy/functions.task.ts +69 -0
package/tasks/literacy/groq.task.ts +258 -0
package/tasks/literacy/nextjs-live.task.ts +75 -0
package/tasks/literacy/studio-setup.task.ts +131 -0
package/tasks/literacy/visual-editing.task.ts +146 -0
package/config/features.yaml +0 -116
package/config/models.yaml +0 -116
package/config/prompts.yaml +0 -75
package/config/rubrics.yaml +0 -81
package/config/schedules.yaml +0 -43
package/config/sinks.yaml +0 -54
package/config/sources.yaml +0 -51
package/config/thresholds.yaml +0 -49
package/dist/agent-observer/test-imports.d.ts +0 -7
package/dist/agent-observer/test-imports.js +0 -185

package/dist/pipeline/generate-configs.js CHANGED Viewed

@@ -1,6 +1,21 @@
 /**
  * pipeline/generate-configs.ts
  *
+ * @deprecated This is the LEGACY compilation path. New code should use the
+ * config compiler pipeline instead:
+ *
+ *   import { compileLiteracyTasks } from "./compiler/literacy-bridge.js"
+ *   import { buildTaskGraph, compileToPromptfoo } from "./compiler/index.js"
+ *
+ * This file is retained behind the `--legacy-compiler` CLI flag as an
+ * emergency fallback during the migration period. It will be removed once
+ * the new compiler has been validated in production.
+ *
+ * @see packages/eval/src/pipeline/compiler/ — the new compiler pipeline
+ * @see docs/exec-plans/architecture-overhaul/phase-7-migrate-literacy.md
+ *
+ * ---
+ *
  * Reads config/models.yaml (the central model registry) and generates all
  * promptfoo config files with the correct provider entries.
  *
@@ -19,12 +34,15 @@
  * @see docs/exec-plans/eliminate-lib-layer.md
  */
 import { extractModelName, extractProvider, mergeConfig, modelMatchesMode, } from "../_vendor/ailf-core/index.js";
-import { existsSync, readFileSync, readdirSync, writeFileSync } from "fs";
+import { existsSync, readdirSync, writeFileSync } from "fs";
 import { resolve } from "path";
-import { dump, load } from "js-yaml";
+import { dump } from "js-yaml";
 import { ConsoleLogger } from "../adapters/loggers/index.js";
+import { loadConfigFile } from "./compiler/config-loader.js";
+import { LITERACY_PROMPT_TEMPLATES } from "./compiler/mode-handlers/literacy-handler.js";
 import { expandTaskDefinitions, loadAndExpandTasks } from "./expand-tasks.js";
 import { validateModelsYaml } from "./validate.js";
+import { LiteracyVariant } from "./normalize-mode.js";
 import { loadSource } from "../sources.js";
 // Re-export pure functions from core for backward compatibility.
 // Tests and other modules that previously imported from lib/generate-configs
@@ -44,32 +62,43 @@ export function discoverTaskFiles(rootDir) {
         .sort()
         .map((f) => `file://tasks/${f}`);
 }
-/** Load prompt templates from config/prompts.yaml. Throws if missing or malformed. */
+/**
+ * Load prompt templates. Uses handler-owned literacy templates as defaults,
+ * with config/prompts.ts as an override layer for user customization.
+ */
 export function loadPrompts(rootDir) {
-    const promptsPath = resolve(rootDir, "config", "prompts.yaml");
-    if (!existsSync(promptsPath)) {
-        throw new Error(`config/prompts.yaml not found at ${promptsPath}. This file is required — it defines the prompt templates for all evaluation modes.`);
-    }
-    const raw = readFileSync(promptsPath, "utf-8");
-    const data = load(raw);
     const toPrompt = (entry) => ({
         id: entry.id,
         label: entry.label,
         raw: entry.template,
     });
-    if (!data["with-docs"] || !data["without-docs"] || !data["agentic"]) {
-        const missing = ["with-docs", "without-docs", "agentic"].filter((k) => !data[k]);
-        throw new Error(`config/prompts.yaml is missing required keys: ${missing.join(", ")}. Each prompt must have id, label, and template fields.`);
+    // Load user overrides from config/prompts (may be empty after Wave 4)
+    let overrides = {};
+    try {
+        const loaded = loadConfigFile("prompts", rootDir).data;
+        // config/prompts.ts may export a Record (legacy) or an empty array (post-Wave 4)
+        if (loaded && !Array.isArray(loaded)) {
+            overrides = loaded;
+        }
+    }
+    catch {
+        // No config/prompts file — use handler defaults only
     }
+    // Handler-owned templates are the canonical source; overrides take precedence
     return {
-        agentic: toPrompt(data["agentic"]),
-        withDocs: toPrompt(data["with-docs"]),
-        withoutDocs: toPrompt(data["without-docs"]),
+        agentic: overrides[LiteracyVariant.AGENTIC]
+            ? toPrompt(overrides[LiteracyVariant.AGENTIC])
+            : toPrompt(LITERACY_PROMPT_TEMPLATES[LiteracyVariant.AGENTIC]),
+        withDocs: overrides["with-docs"]
+            ? toPrompt(overrides["with-docs"])
+            : toPrompt(LITERACY_PROMPT_TEMPLATES["with-docs"]),
+        withoutDocs: overrides["without-docs"]
+            ? toPrompt(overrides["without-docs"])
+            : toPrompt(LITERACY_PROMPT_TEMPLATES["without-docs"]),
     };
 }
 function loadModels(rootDir) {
-    const raw = readFileSync(resolve(rootDir, "config", "models.yaml"), "utf-8");
-    return load(raw);
+    return loadConfigFile("models", rootDir).data;
 }
 // ---------------------------------------------------------------------------
 // Shared components
@@ -191,7 +220,7 @@ function generateAgenticConfig(models, tests, prompts, source, searchMode, allow
     };
 }
 function generateBaselineConfig(models, tests, prompts) {
-    const baselineModels = models.models.filter((m) => modelMatchesMode(m, "baseline"));
+    const baselineModels = models.models.filter((m) => modelMatchesMode(m, LiteracyVariant.STANDARD));
     const providers = baselineModels.map((model) => ({
         config: mergeConfig(models.defaults, model.config),
         id: model.id,
@@ -217,7 +246,7 @@ function generateBaselineConfig(models, tests, prompts) {
     };
 }
 function generateObservedConfig(models, tests, prompts) {
-    const observedModels = models.models.filter((m) => modelMatchesMode(m, "observed"));
+    const observedModels = models.models.filter((m) => modelMatchesMode(m, LiteracyVariant.OBSERVED));
     const providers = observedModels.map((model) => {
         const modelName = extractModelName(model.id);
         return {
@@ -293,7 +322,7 @@ export function generateConfigs(options) {
     const filter = options.filter?.areas || options.filter?.taskIds
         ? options.filter
         : undefined;
-    // Expand tasks — use TaskDefinition[] from TaskSource when provided,
+    // Expand tasks — use GeneralizedTaskDefinition[] from TaskSource when provided,
     // otherwise fall back to loading from tasks/*.yaml files.
     let entries;
     let agenticEntries;
@@ -303,16 +332,16 @@ export function generateConfigs(options) {
             taskCount: options.tasks.length,
             taskIds: options.tasks.map((t) => t.id),
         });
-        const baselineResult = expandTaskDefinitions(options.tasks, rootDir, "baseline");
+        const baselineResult = expandTaskDefinitions(options.tasks, rootDir, LiteracyVariant.STANDARD);
         entries = baselineResult.entries;
         log.info(`  Expanded ${baselineResult.stats.totalTasks} task(s) → ${baselineResult.stats.expandedTotal} test entries (from TaskSource)`);
-        const agenticResult = expandTaskDefinitions(options.tasks, rootDir, "agentic");
+        const agenticResult = expandTaskDefinitions(options.tasks, rootDir, LiteracyVariant.AGENTIC);
         agenticEntries = agenticResult.entries;
         log.info(`  Agentic: ${agenticResult.stats.expandedTotal} entries (gold only, no baseline)`);
     }
     else {
         // Legacy path — read from tasks/*.yaml files
-        const { entries: baselineEntries, stats } = loadAndExpandTasks(rootDir, filter, "baseline", log);
+        const { entries: baselineEntries, stats } = loadAndExpandTasks(rootDir, filter, LiteracyVariant.STANDARD, log);
         entries = baselineEntries;
         log.info(`  Expanded ${stats.singleDefinitions} task(s) → ${stats.expandedTotal} test entries`);
         if (stats.legacyEntries > 0) {
@@ -328,7 +357,7 @@ export function generateConfigs(options) {
             }
             log.info(`  Scoped to: ${parts.join("; ")}`);
         }
-        const { entries: agenticFromYaml, stats: agenticStats } = loadAndExpandTasks(rootDir, filter, "agentic", log);
+        const { entries: agenticFromYaml, stats: agenticStats } = loadAndExpandTasks(rootDir, filter, LiteracyVariant.AGENTIC, log);
         agenticEntries = agenticFromYaml;
         log.info(`  Agentic: ${agenticStats.expandedTotal} entries (gold only, no baseline)`);
     }

package/dist/pipeline/grader-api.d.ts CHANGED Viewed

@@ -7,7 +7,7 @@
  * grader model prefix. Reads the appropriate API key from environment.
  *
  * Also exports `loadGraderModel()` to resolve the grader from
- * `config/models.yaml`.
+ * `config/models`.
  *
  * Migrated from lib/grader-api.ts — no module-level side effects, no
  * process.exit(), accepts rootDir as parameter for file-based operations.
@@ -26,11 +26,11 @@ interface ProviderConfig {
  */
 export declare function gradeOnce(graderModel: string, responseText: string, rubricText: string, logger?: Logger): Promise<null | number>;
 /**
- * Load the grader model from `config/models.yaml`.
+ * Load the grader model from `config/models`.
  * Returns both the model ID and human-readable label.
  * Falls back to `openai:gpt-5` if not configured.
  *
- * @throws Error if config/models.yaml is not found
+ * @throws Error if config/models is not found
  */
 export declare function loadGraderModel(rootDir: string): {
     id: string;

package/dist/pipeline/grader-api.js CHANGED Viewed

@@ -7,15 +7,13 @@
  * grader model prefix. Reads the appropriate API key from environment.
  *
  * Also exports `loadGraderModel()` to resolve the grader from
- * `config/models.yaml`.
+ * `config/models`.
  *
  * Migrated from lib/grader-api.ts — no module-level side effects, no
  * process.exit(), accepts rootDir as parameter for file-based operations.
  */
-import { existsSync, readFileSync } from "fs";
-import { join } from "path";
-import { load } from "js-yaml";
 import { ConsoleLogger } from "../adapters/loggers/index.js";
+import { loadConfigFile } from "./compiler/config-loader.js";
 // ---------------------------------------------------------------------------
 // Public API
 // ---------------------------------------------------------------------------
@@ -63,19 +61,14 @@ ${rubricText}
     }
 }
 /**
- * Load the grader model from `config/models.yaml`.
+ * Load the grader model from `config/models`.
  * Returns both the model ID and human-readable label.
  * Falls back to `openai:gpt-5` if not configured.
  *
- * @throws Error if config/models.yaml is not found
+ * @throws Error if config/models is not found
  */
 export function loadGraderModel(rootDir) {
-    const modelsPath = join(rootDir, "config", "models.yaml");
-    if (!existsSync(modelsPath)) {
-        throw new Error(`config/models.yaml not found at ${modelsPath}`);
-    }
-    const raw = readFileSync(modelsPath, "utf-8");
-    const data = load(raw);
+    const data = loadConfigFile("models", rootDir).data;
     return {
         id: data?.grader?.id ?? "openai:gpt-5",
         label: data?.grader?.label ?? "GPT-5 (grader)",

package/dist/pipeline/grader-compare-runner.js CHANGED Viewed

@@ -14,8 +14,8 @@
  */
 import { existsSync, mkdirSync, readFileSync, writeFileSync } from "fs";
 import { join } from "path";
-import { load } from "js-yaml";
 import { ConsoleLogger } from "../adapters/loggers/index.js";
+import { loadConfigFile } from "./compiler/config-loader.js";
 import { compareGraders, } from "./grader-comparison.js";
 import { classifyCorrelation } from "./grader-validation.js";
 import { gradeOnce } from "./grader-api.js";
@@ -23,26 +23,20 @@ import { gradeOnce } from "./grader-api.js";
 // Internal helpers
 // ---------------------------------------------------------------------------
 function classifyDimension(component) {
+    // Prefer structured metadata — pass through any dimension name directly,
+    // enabling non-literacy profiles (MCP, agent, knowledge-probe)
     const metadata = component.assertion?.metadata;
     if (metadata?.dimension) {
-        switch (metadata.dimension) {
-            case "code-correctness":
-                return "codeCorrectness";
-            case "doc-coverage":
-                return "docCoverage";
-            case "task-completion":
-                return "taskCompletion";
-            default:
-                return null;
-        }
+        return metadata.dimension;
     }
+    // Fallback: heuristic name matching (returns kebab-case)
     const value = (component.assertion?.value ?? "").toLowerCase();
     if (value.includes("task completion"))
-        return "taskCompletion";
+        return "task-completion";
     if (value.includes("code correctness"))
-        return "codeCorrectness";
+        return "code-correctness";
     if (value.includes("documentation coverage") || value.includes("hallucinate"))
-        return "docCoverage";
+        return "doc-coverage";
     return null;
 }
 function detectFeatureArea(description) {
@@ -101,15 +95,10 @@ function extractJudgments(file) {
 }
 /**
  * Load config: resolve baseline grader and candidate graders.
- * Candidate overrides take precedence over config/models.yaml.
+ * Candidate overrides take precedence over config/models.
  */
 function loadConfig(rootDir, candidateOverrides) {
-    const modelsPath = join(rootDir, "config", "models.yaml");
-    if (!existsSync(modelsPath)) {
-        throw new Error(`config/models.yaml not found at ${modelsPath}`);
-    }
-    const raw = readFileSync(modelsPath, "utf-8");
-    const data = load(raw);
+    const data = loadConfigFile("models", rootDir).data;
     const baseline = {
         id: data?.grader?.id ?? "openai:gpt-5",
         label: data?.grader?.label ?? "GPT-5 (grader)",
@@ -158,11 +147,15 @@ export function formatComparisonReport(result) {
         const sep = "|------------------|-------------|--------|---------|-------|";
         lines.push(h);
         lines.push(sep);
-        const dims = [
-            { data: pair.perDimension.taskCompletion, name: "Task Completion" },
-            { data: pair.perDimension.codeCorrectness, name: "Code Correctness" },
-            { data: pair.perDimension.docCoverage, name: "Doc Coverage" },
-        ];
+        // Derive display rows dynamically from whatever dimensions are present
+        const dims = Object.entries(pair.perDimension).map(([key, data]) => ({
+            data,
+            // kebab-case → Title Case (e.g. 'task-completion' → 'Task Completion')
+            name: key
+                .split("-")
+                .map((w) => w.charAt(0).toUpperCase() + w.slice(1))
+                .join(" "),
+        }));
         for (const { data, name } of dims) {
             const biasStr = data.bias > 0 ? `+${data.bias}` : `${data.bias}`;
             lines.push(`| ${name.padEnd(16)} | r=${String(data.correlation).padStart(9)} | ${biasStr.padStart(6)} | ${String(data.meanAbsDiff).padStart(7)} | ${String(data.count).padStart(5)} |`);
@@ -208,7 +201,7 @@ export async function runGraderCompare(options) {
     const { baseline, candidates } = loadConfig(rootDir, options.candidates);
     if (candidates.length === 0) {
         throw new Error("No candidate graders configured. " +
-            "Add grader-candidates to config/models.yaml or pass --candidate.");
+            "Add grader-candidates to config/models or pass --candidate.");
     }
     // Load eval results
     if (!existsSync(resultsPath)) {

package/dist/pipeline/grader-comparison.d.ts CHANGED Viewed

@@ -51,12 +51,8 @@ export interface GraderPairComparison {
     graderB: string;
     /** Mean absolute difference between scores */
     meanAbsDiff: number;
-    /** Per-dimension comparisons */
-    perDimension: {
-        taskCompletion: DimensionPairComparison;
-        codeCorrectness: DimensionPairComparison;
-        docCoverage: DimensionPairComparison;
-    };
+    /** Per-dimension comparisons (keyed by kebab-case dimension name) */
+    perDimension: Record<string, DimensionPairComparison>;
 }
 /** Recommendation for a candidate grader */
 export interface GraderRecommendation {
@@ -71,8 +67,8 @@ export interface GraderRecommendation {
 export interface GraderScore {
     /** Feature area (e.g., "groq") */
     area: string;
-    /** Which scoring dimension */
-    dimension: "codeCorrectness" | "docCoverage" | "taskCompletion";
+    /** Which scoring dimension (kebab-case, e.g. 'task-completion') */
+    dimension: string;
     /** Score assigned by this grader (0–100) */
     score: number;
     /** Task ID (e.g., "groq-blog-queries") */

package/dist/pipeline/grader-comparison.js CHANGED Viewed

@@ -68,16 +68,9 @@ function comparePair(a, b) {
     // Find paired observations (present in both graders)
     const pairedA = [];
     const pairedB = [];
-    const dimPairsA = {
-        codeCorrectness: [],
-        docCoverage: [],
-        taskCompletion: [],
-    };
-    const dimPairsB = {
-        codeCorrectness: [],
-        docCoverage: [],
-        taskCompletion: [],
-    };
+    // Group by dimension dynamically — works with any dimension names
+    const dimPairsA = {};
+    const dimPairsB = {};
     for (const sA of a.scores) {
         const key = `${sA.taskId}::${sA.dimension}`;
         const scoreB = bScoreMap.get(key);
@@ -85,8 +78,13 @@ function comparePair(a, b) {
             continue;
         pairedA.push(sA.score);
         pairedB.push(scoreB);
-        dimPairsA[sA.dimension].push(sA.score);
-        dimPairsB[sA.dimension].push(scoreB);
+        (dimPairsA[sA.dimension] ??= []).push(sA.score);
+        (dimPairsB[sA.dimension] ??= []).push(scoreB);
+    }
+    // Build perDimension from all dimensions observed in paired data
+    const perDimension = {};
+    for (const dim of Object.keys(dimPairsA)) {
+        perDimension[dim] = computeDimensionPair(dimPairsA[dim], dimPairsB[dim]);
     }
     return {
         bias: computeBias(pairedA, pairedB),
@@ -94,11 +92,7 @@ function comparePair(a, b) {
         graderA: a.modelId,
         graderB: b.modelId,
         meanAbsDiff: computeMeanAbsDiff(pairedA, pairedB),
-        perDimension: {
-            codeCorrectness: computeDimensionPair(dimPairsA.codeCorrectness, dimPairsB.codeCorrectness),
-            docCoverage: computeDimensionPair(dimPairsA.docCoverage, dimPairsB.docCoverage),
-            taskCompletion: computeDimensionPair(dimPairsA.taskCompletion, dimPairsB.taskCompletion),
-        },
+        perDimension,
     };
 }
 /** Mean signed difference (B - A). Positive = B scores higher. */

package/dist/pipeline/grader-consistency-runner.d.ts CHANGED Viewed

@@ -17,7 +17,6 @@
 import { type Logger } from "../_vendor/ailf-core/index.d.ts";
 import type { RawPromptfooFile } from "./calculate-scores.js";
 import { type GraderConsistency } from "./grader-consistency.js";
-import type { DimensionName } from "./types.js";
 /** Options for the grader consistency runner. */
 export interface GraderConsistencyRunnerOptions {
     /** Logger for structured output. Falls back to ConsoleLogger if omitted. */
@@ -34,8 +33,8 @@ interface GradingJudgment {
     area: string;
     /** Task description */
     description: string;
-    /** Scoring dimension */
-    dimension: DimensionName;
+    /** Scoring dimension (kebab-case, e.g. 'task-completion') */
+    dimension: string;
     /** The original score from the eval run */
     originalScore: number;
     /** Provider (model under test) */

package/dist/pipeline/grader-consistency-runner.js CHANGED Viewed

@@ -23,28 +23,20 @@ import { analyzeConsistency, } from "./grader-consistency.js";
 // Rubric dimension classification (similar to calculate-scores)
 // ---------------------------------------------------------------------------
 function classifyDimension(component) {
-    // Prefer structured metadata
+    // Prefer structured metadata — pass through any dimension name directly,
+    // enabling non-literacy profiles (MCP, agent, knowledge-probe)
     const metadata = component.assertion?.metadata;
     if (metadata?.dimension) {
-        switch (metadata.dimension) {
-            case "code-correctness":
-                return "codeCorrectness";
-            case "doc-coverage":
-                return "docCoverage";
-            case "task-completion":
-                return "taskCompletion";
-            default:
-                return null;
-        }
+        return metadata.dimension;
     }
-    // Fallback: heuristic name matching
+    // Fallback: heuristic name matching (returns kebab-case)
     const value = (component.assertion?.value ?? "").toLowerCase();
     if (value.includes("task completion"))
-        return "taskCompletion";
+        return "task-completion";
     if (value.includes("code correctness"))
-        return "codeCorrectness";
+        return "code-correctness";
     if (value.includes("documentation coverage") || value.includes("hallucinate"))
-        return "docCoverage";
+        return "doc-coverage";
     return null;
 }
 // ---------------------------------------------------------------------------
@@ -140,11 +132,15 @@ export function formatConsistencyReport(result, graderModel) {
     const sep = "|------------------|-------|-------|-----------|-----------| ";
     lines.push(h);
     lines.push(sep);
-    const dims = [
-        { data: result.perDimension.taskCompletion, name: "Task Completion" },
-        { data: result.perDimension.codeCorrectness, name: "Code Correctness" },
-        { data: result.perDimension.docCoverage, name: "Doc Coverage" },
-    ];
+    // Derive display rows dynamically from whatever dimensions are present
+    const dims = Object.entries(result.perDimension).map(([key, data]) => ({
+        data,
+        // kebab-case → Title Case (e.g. 'task-completion' → 'Task Completion')
+        name: key
+            .split("-")
+            .map((w) => w.charAt(0).toUpperCase() + w.slice(1))
+            .join(" "),
+    }));
     for (const { data, name } of dims) {
         lines.push(`| ${name.padEnd(16)} | ${String(data.avgStdDev).padStart(5)} | ${String(data.maxStdDev).padStart(5)} | ${String(data.avgRange).padStart(9)} | ${String(data.judgmentCount).padStart(9)} |`);
     }

package/dist/pipeline/grader-consistency.d.ts CHANGED Viewed

@@ -35,12 +35,8 @@ export interface GraderConsistency {
     judgments: JudgmentConsistency[];
     /** Maximum standard deviation observed (worst-case noise) */
     maxStdDev: number;
-    /** Per-dimension consistency */
-    perDimension: {
-        taskCompletion: DimensionConsistency;
-        codeCorrectness: DimensionConsistency;
-        docCoverage: DimensionConsistency;
-    };
+    /** Per-dimension consistency (keyed by kebab-case dimension name) */
+    perDimension: Record<string, DimensionConsistency>;
     /** Recommended noise threshold for comparisons (2× max dimension avgStdDev) */
     recommendedThreshold: number;
     /** Number of replications per judgment */
@@ -52,8 +48,8 @@ export interface GraderConsistency {
 export interface JudgmentConsistency {
     /** Feature area */
     area: string;
-    /** Scoring dimension */
-    dimension: "codeCorrectness" | "docCoverage" | "taskCompletion";
+    /** Scoring dimension (kebab-case, e.g. 'task-completion') */
+    dimension: string;
     /** Max score observed */
     max: number;
     /** Mean score across replications */
@@ -75,8 +71,8 @@ export interface JudgmentConsistency {
 export interface ReplicatedGrading {
     /** Feature area (derived from task description) */
     area: string;
-    /** Which scoring dimension this rubric measures */
-    dimension: "codeCorrectness" | "docCoverage" | "taskCompletion";
+    /** Which scoring dimension this rubric measures (kebab-case, e.g. 'task-completion') */
+    dimension: string;
     /** Provider (model under test) that produced the original response */
     providerId?: string;
     /** The scores from each replication (length = N replications) */

package/dist/pipeline/grader-consistency.js CHANGED Viewed

@@ -31,26 +31,7 @@ export function analyzeConsistency(gradings) {
             generatedAt: new Date().toISOString(),
             judgments: [],
             maxStdDev: 0,
-            perDimension: {
-                codeCorrectness: {
-                    avgRange: 0,
-                    avgStdDev: 0,
-                    judgmentCount: 0,
-                    maxStdDev: 0,
-                },
-                docCoverage: {
-                    avgRange: 0,
-                    avgStdDev: 0,
-                    judgmentCount: 0,
-                    maxStdDev: 0,
-                },
-                taskCompletion: {
-                    avgRange: 0,
-                    avgStdDev: 0,
-                    judgmentCount: 0,
-                    maxStdDev: 0,
-                },
-            },
+            perDimension: {},
             recommendedThreshold: 0,
             replications: 0,
             totalJudgments: 0,
@@ -58,17 +39,16 @@ export function analyzeConsistency(gradings) {
     }
     // Analyze each judgment
     const judgments = gradings.map(analyzeJudgment);
-    // Group by dimension
-    const byDimension = {
-        codeCorrectness: judgments.filter((j) => j.dimension === "codeCorrectness"),
-        docCoverage: judgments.filter((j) => j.dimension === "docCoverage"),
-        taskCompletion: judgments.filter((j) => j.dimension === "taskCompletion"),
-    };
-    const perDimension = {
-        codeCorrectness: aggregateDimension(byDimension.codeCorrectness),
-        docCoverage: aggregateDimension(byDimension.docCoverage),
-        taskCompletion: aggregateDimension(byDimension.taskCompletion),
-    };
+    // Group by dimension dynamically — works with any dimension names
+    const byDimension = {};
+    for (const j of judgments) {
+        ;
+        (byDimension[j.dimension] ??= []).push(j);
+    }
+    const perDimension = {};
+    for (const [dim, dimJudgments] of Object.entries(byDimension)) {
+        perDimension[dim] = aggregateDimension(dimJudgments);
+    }
     // Overall stats
     const allStdDevs = judgments.map((j) => j.stdDev);
     const allRanges = judgments.map((j) => j.range);
@@ -76,7 +56,8 @@ export function analyzeConsistency(gradings) {
     // Recommended threshold: 2× the worst (highest) per-dimension avgStdDev.
     // This means a comparison delta must exceed 2σ of the noisiest dimension
     // to be classified as a real change rather than grader variance.
-    const maxDimensionAvgStdDev = Math.max(perDimension.taskCompletion.avgStdDev, perDimension.codeCorrectness.avgStdDev, perDimension.docCoverage.avgStdDev);
+    const dimAvgStdDevs = Object.values(perDimension).map((d) => d.avgStdDev);
+    const maxDimensionAvgStdDev = dimAvgStdDevs.length > 0 ? Math.max(...dimAvgStdDevs) : 0;
     const recommendedThreshold = Math.ceil(maxDimensionAvgStdDev * 2);
     // Sort judgments by stdDev descending (noisiest first)
     const sortedJudgments = [...judgments].sort((a, b) => b.stdDev - a.stdDev);

package/dist/pipeline/grader-sensitivity-runner.js CHANGED Viewed

@@ -119,11 +119,13 @@ export function formatSensitivityReport(result) {
     const sep = "|------------------|-------------|---------|-------|-------|";
     lines.push(h);
     lines.push(sep);
-    const dims = [
-        { data: result.perDimension.taskCompletion, name: "Task Completion" },
-        { data: result.perDimension.codeCorrectness, name: "Code Correctness" },
-        { data: result.perDimension.docCoverage, name: "Doc Coverage" },
-    ];
+    const dims = Object.entries(result.perDimension).map(([key, data]) => ({
+        data,
+        name: key
+            .split(/[-_]/)
+            .map((w) => w.charAt(0).toUpperCase() + w.slice(1))
+            .join(" "),
+    }));
     for (const { data, name } of dims) {
         lines.push(`| ${name.padEnd(16)} | ${String(data.concordanceRate + "%").padStart(11)} | ${String(data.avgSeparation).padStart(7)} | ${String(data.tiedRate + "%").padStart(5)} | ${String(data.pairCount).padStart(5)} |`);
     }

package/dist/pipeline/grader-sensitivity.d.ts CHANGED Viewed

@@ -58,12 +58,8 @@ export interface GraderSensitivityResult {
     generatedAt: string;
     /** Grader model used */
     graderModel: string;
-    /** Per-dimension sensitivity metrics */
-    perDimension: {
-        taskCompletion: DimensionSensitivity;
-        codeCorrectness: DimensionSensitivity;
-        docCoverage: DimensionSensitivity;
-    };
+    /** Per-dimension sensitivity metrics (keyed by dimension name) */
+    perDimension: Record<string, DimensionSensitivity>;
     /** Total paired comparisons analyzed */
     totalPairs: number;
 }

package/dist/pipeline/grader-sensitivity.js CHANGED Viewed

@@ -30,11 +30,15 @@ export function analyzeSensitivity(pairs, graderModel) {
     // Overall concordance and separation
     const { avgSeparation, concordanceRate, tiedRate: _tiedRate, } = computeMetrics(pairs);
     // Per-dimension (based on the grading dimension, not the target dimension)
-    const perDimension = {
-        codeCorrectness: computeMetrics(pairs.filter((p) => p.dimension === "codeCorrectness")),
-        docCoverage: computeMetrics(pairs.filter((p) => p.dimension === "docCoverage")),
-        taskCompletion: computeMetrics(pairs.filter((p) => p.dimension === "taskCompletion")),
-    };
+    const dimGroups = {};
+    for (const p of pairs) {
+        ;
+        (dimGroups[p.dimension] ??= []).push(p);
+    }
+    const perDimension = {};
+    for (const [dim, dimPairs] of Object.entries(dimGroups)) {
+        perDimension[dim] = computeMetrics(dimPairs);
+    }
     // Cross-dimension: on-target (dimension matches targetDimension) vs off-target
     const onTargetPairs = pairs.filter((p) => p.dimension === p.targetDimension);
     const offTargetPairs = pairs.filter((p) => p.dimension !== p.targetDimension);
@@ -130,11 +134,7 @@ function emptyResult(graderModel) {
         failedPairs: [],
         generatedAt: new Date().toISOString(),
         graderModel,
-        perDimension: {
-            codeCorrectness: emptyDim,
-            docCoverage: emptyDim,
-            taskCompletion: emptyDim,
-        },
+        perDimension: {},
         totalPairs: 0,
     };
 }