npm - @sanity/ailf - Versions diffs - 1.0.0 → 2.0.1 - Mend

@sanity/ailf 1.0.0 → 2.0.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (499) hide show

package/README.md +0 -1
package/canonical/grader-references/README.md +2 -2
package/canonical/reference-solutions/content-lake/mutations.ts +160 -0
package/canonical/reference-solutions/content-lake/realtime.ts +187 -0
package/canonical/reference-solutions/image-handling/asset-pipeline.tsx +166 -0
package/canonical/reference-solutions/portable-text/custom-blocks.ts +204 -0
package/canonical/reference-solutions/portable-text/rendering.tsx +163 -0
package/config/features.ts +1 -1
package/config/models.ts +29 -12
package/config/sources.ts +1 -1
package/config/thresholds.ts +1 -1
package/dist/_vendor/ailf-core/__tests__/comparison-formatters.test.d.ts +10 -0
package/dist/_vendor/ailf-core/__tests__/comparison-formatters.test.js +185 -0
package/dist/_vendor/ailf-core/artifact-capture/__tests__/noop-collector.test.d.ts +6 -0
package/dist/_vendor/ailf-core/artifact-capture/__tests__/noop-collector.test.js +42 -0
package/dist/_vendor/ailf-core/artifact-capture/noop-collector.d.ts +14 -0
package/dist/_vendor/ailf-core/artifact-capture/noop-collector.js +25 -0
package/dist/_vendor/ailf-core/config-helpers.d.ts +20 -17
package/dist/_vendor/ailf-core/config-helpers.js +51 -2
package/dist/_vendor/ailf-core/examples/index.d.ts +166 -80
package/dist/_vendor/ailf-core/examples/index.js +213 -94
package/dist/_vendor/ailf-core/index.d.ts +3 -2
package/dist/_vendor/ailf-core/index.js +2 -1
package/dist/_vendor/ailf-core/ports/artifact-collector.d.ts +94 -0
package/dist/_vendor/ailf-core/ports/artifact-collector.js +13 -0
package/dist/_vendor/ailf-core/ports/capture-comparator.d.ts +138 -0
package/dist/_vendor/ailf-core/ports/capture-comparator.js +10 -0
package/dist/_vendor/ailf-core/ports/context.d.ts +22 -1
package/dist/_vendor/ailf-core/ports/eval-runner.d.ts +6 -0
package/dist/_vendor/ailf-core/ports/index.d.ts +2 -0
package/dist/_vendor/ailf-core/ports/pipeline-step.d.ts +11 -0
package/dist/_vendor/ailf-core/ports/task-source.d.ts +3 -3
package/dist/_vendor/ailf-core/ports/task-source.js +3 -3
package/dist/_vendor/ailf-core/schemas/eval-config.d.ts +1 -0
package/dist/_vendor/ailf-core/schemas/eval-config.js +10 -0
package/dist/_vendor/ailf-core/schemas/pipeline-request.d.ts +7 -1
package/dist/_vendor/ailf-core/schemas/pipeline-request.js +16 -2
package/dist/_vendor/ailf-core/schemas/pipeline.d.ts +0 -2
package/dist/_vendor/ailf-core/schemas/pipeline.js +0 -1
package/dist/_vendor/ailf-core/services/config-helpers.d.ts +16 -1
package/dist/_vendor/ailf-core/services/config-helpers.js +21 -0
package/dist/_vendor/ailf-core/services/index.d.ts +1 -1
package/dist/_vendor/ailf-core/services/index.js +1 -1
package/dist/_vendor/ailf-core/services/scoring.js +9 -0
package/dist/_vendor/ailf-core/types/generalized-task.d.ts +25 -1
package/dist/_vendor/ailf-core/types/generalized-task.js +1 -1
package/dist/_vendor/ailf-core/types/index.d.ts +48 -7
package/dist/_vendor/ailf-core/types/plugin-registry.d.ts +105 -23
package/dist/_vendor/ailf-core/types/plugin-registry.js +73 -20
package/dist/_vendor/ailf-shared/eval-modes.d.ts +15 -0
package/dist/_vendor/ailf-shared/eval-modes.js +18 -0
package/dist/adapters/api-client/remediation.js +2 -2
package/dist/adapters/config-sources/file-config-adapter.js +7 -1
package/dist/adapters/config-sources/ts-config-loader.js +21 -13
package/dist/adapters/eval-runners/promptfoo-eval-adapter.js +8 -2
package/dist/adapters/index.d.ts +0 -1
package/dist/adapters/index.js +0 -1
package/dist/adapters/task-sources/composite-task-source.d.ts +1 -1
package/dist/adapters/task-sources/composite-task-source.js +1 -1
package/dist/adapters/task-sources/content-lake-task-source.d.ts +4 -6
package/dist/adapters/task-sources/content-lake-task-source.js +21 -26
package/dist/adapters/task-sources/index.d.ts +3 -4
package/dist/adapters/task-sources/index.js +3 -4
package/dist/adapters/task-sources/repo-schemas.d.ts +219 -17
package/dist/adapters/task-sources/repo-schemas.js +228 -20
package/dist/adapters/task-sources/repo-task-source.d.ts +14 -10
package/dist/adapters/task-sources/repo-task-source.js +81 -122
package/dist/adapters/task-sources/repo-trigger.d.ts +1 -1
package/dist/adapters/task-sources/repo-trigger.js +1 -1
package/dist/adapters/task-sources/repo-validation.d.ts +36 -5
package/dist/adapters/task-sources/repo-validation.js +126 -5
package/dist/adapters/task-sources/task-file-loader.d.ts +10 -7
package/dist/adapters/task-sources/task-file-loader.js +21 -7
package/dist/agent-observer/test-imports.d.ts +7 -0
package/dist/agent-observer/test-imports.js +185 -0
package/dist/artifact-capture/comparator.d.ts +22 -0
package/dist/artifact-capture/comparator.js +493 -0
package/dist/artifact-capture/filesystem-collector.d.ts +42 -0
package/dist/artifact-capture/filesystem-collector.js +237 -0
package/dist/artifact-capture/redact-artifact.d.ts +20 -0
package/dist/artifact-capture/redact-artifact.js +115 -0
package/dist/assertions/source-isolation.d.ts +1 -1
package/dist/assertions/source-isolation.js +1 -1
package/dist/cli.js +4 -0
package/dist/commands/calculate-scores.js +1 -0
package/dist/commands/capture-compare.d.ts +15 -0
package/dist/commands/capture-compare.js +253 -0
package/dist/commands/capture-list.d.ts +12 -0
package/dist/commands/capture-list.js +147 -0
package/dist/commands/capture.d.ts +9 -0
package/dist/commands/capture.js +16 -0
package/dist/commands/chronic-failures.d.ts +8 -0
package/dist/commands/chronic-failures.js +33 -0
package/dist/commands/coverage-audit.js +3 -1
package/dist/commands/explain-handler.d.ts +1 -1
package/dist/commands/explain-handler.js +37 -8
package/dist/commands/fetch-docs.js +1 -0
package/dist/commands/generate-configs.d.ts +3 -3
package/dist/commands/generate-configs.js +20 -8
package/dist/commands/init.d.ts +5 -4
package/dist/commands/init.js +190 -25
package/dist/commands/pipeline-action.d.ts +7 -1
package/dist/commands/pipeline-action.js +43 -19
package/dist/commands/pipeline.d.ts +6 -1
package/dist/commands/pipeline.js +7 -2
package/dist/commands/pr-comment.js +1 -0
package/dist/commands/publish.js +1 -0
package/dist/commands/shared/help.js +2 -2
package/dist/commands/update-quality-scores.d.ts +5 -0
package/dist/commands/update-quality-scores.js +20 -0
package/dist/commands/validate-tasks.d.ts +2 -2
package/dist/commands/validate-tasks.js +26 -15
package/dist/composition-root.d.ts +15 -4
package/dist/composition-root.js +100 -55
package/dist/config/features.ts +23 -0
package/dist/config/models.ts +100 -0
package/dist/config/prompts.ts +16 -0
package/dist/config/rubrics.ts +225 -0
package/dist/config/schedules.ts +47 -0
package/dist/config/sinks.ts +37 -0
package/dist/config/sources.ts +21 -0
package/dist/config/thresholds.ts +61 -0
package/dist/index.d.ts +41 -0
package/dist/index.js +48 -0
package/dist/lib/agent-behavior-report.d.ts +8 -0
package/dist/lib/agent-behavior-report.js +185 -0
package/dist/lib/baseline.d.ts +19 -0
package/dist/lib/baseline.js +153 -0
package/dist/lib/calculate-scores.d.ts +23 -0
package/dist/lib/calculate-scores.js +42 -0
package/dist/lib/compare.d.ts +18 -0
package/dist/lib/compare.js +170 -0
package/dist/lib/coverage-audit.d.ts +4 -0
package/dist/lib/coverage-audit.js +42 -0
package/dist/lib/discovery-report.d.ts +13 -0
package/dist/lib/discovery-report.js +57 -0
package/dist/lib/fetch-docs.d.ts +30 -0
package/dist/lib/fetch-docs.js +171 -0
package/dist/lib/generate-configs.d.ts +25 -0
package/dist/lib/generate-configs.js +42 -0
package/dist/lib/grader-api.d.ts +21 -0
package/dist/lib/grader-api.js +34 -0
package/dist/lib/grader-compare.d.ts +19 -0
package/dist/lib/grader-compare.js +91 -0
package/dist/lib/grader-consistency.d.ts +27 -0
package/dist/lib/grader-consistency.js +79 -0
package/dist/lib/grader-sensitivity.d.ts +19 -0
package/dist/lib/grader-sensitivity.js +75 -0
package/dist/lib/grader-validate.d.ts +19 -0
package/dist/lib/grader-validate.js +78 -0
package/dist/lib/measure-retrieval.d.ts +14 -0
package/dist/lib/measure-retrieval.js +71 -0
package/dist/lib/pr-comment.d.ts +16 -0
package/dist/lib/pr-comment.js +28 -0
package/dist/lib/readiness-report.d.ts +13 -0
package/dist/lib/readiness-report.js +108 -0
package/dist/lib/webhook-server.d.ts +11 -0
package/dist/lib/webhook-server.js +24 -0
package/dist/lib/weekly-digest.d.ts +24 -0
package/dist/lib/weekly-digest.js +148 -0
package/dist/orchestration/build-app-context.js +13 -0
package/dist/orchestration/build-step-sequence.js +4 -2
package/dist/orchestration/cache-context.d.ts +23 -0
package/dist/orchestration/cache-context.js +43 -0
package/dist/orchestration/env-bridge.d.ts +21 -0
package/dist/orchestration/env-bridge.js +66 -0
package/dist/orchestration/load-pipeline-tasks.d.ts +34 -0
package/dist/orchestration/load-pipeline-tasks.js +52 -0
package/dist/orchestration/pipeline-orchestrator.js +75 -5
package/dist/orchestration/step-runner.js +5 -1
package/dist/orchestration/steps/calculate-scores-step.d.ts +1 -0
package/dist/orchestration/steps/calculate-scores-step.js +13 -0
package/dist/orchestration/steps/callback-step.js +10 -1
package/dist/orchestration/steps/compare-step.js +6 -3
package/dist/orchestration/steps/discovery-report-step.js +6 -2
package/dist/orchestration/steps/fetch-docs-shell.d.ts +17 -0
package/dist/orchestration/steps/fetch-docs-shell.js +30 -0
package/dist/orchestration/steps/fetch-docs-step.d.ts +1 -0
package/dist/orchestration/steps/fetch-docs-step.js +32 -19
package/dist/orchestration/steps/gap-analysis-step.js +13 -2
package/dist/orchestration/steps/generate-configs-step.d.ts +1 -0
package/dist/orchestration/steps/generate-configs-step.js +77 -26
package/dist/orchestration/steps/mirror-repo-tasks-step.d.ts +1 -1
package/dist/orchestration/steps/mirror-repo-tasks-step.js +1 -1
package/dist/orchestration/steps/publish-report-step.js +19 -0
package/dist/orchestration/steps/readiness-step.js +8 -3
package/dist/orchestration/steps/report-step.js +17 -4
package/dist/orchestration/steps/run-eval-step.d.ts +1 -0
package/dist/orchestration/steps/run-eval-step.js +51 -31
package/dist/pipeline/agent-behavior-report.js +6 -0
package/dist/pipeline/attribution.d.ts +1 -1
package/dist/pipeline/attribution.js +1 -1
package/dist/pipeline/cache.js +29 -15
package/dist/pipeline/calculate-scores.d.ts +2 -0
package/dist/pipeline/calculate-scores.js +70 -33
package/dist/pipeline/chronic-failures.d.ts +55 -0
package/dist/pipeline/chronic-failures.js +110 -0
package/dist/pipeline/compiler/__tests__/agent-harness-handler.test.js +1 -1
package/dist/pipeline/compiler/__tests__/knowledge-probe-handler.test.js +1 -1
package/dist/pipeline/compiler/__tests__/literacy-handler.test.js +1 -1
package/dist/pipeline/compiler/__tests__/mcp-server-handler.test.js +132 -62
package/dist/pipeline/compiler/__tests__/promptfoo-compiler.test.js +2 -3
package/dist/pipeline/compiler/__tests__/scoring-and-presets.test.js +33 -100
package/dist/pipeline/compiler/__tests__/task-bridge.test.d.ts +9 -0
package/dist/pipeline/compiler/__tests__/task-bridge.test.js +339 -0
package/dist/pipeline/compiler/__tests__/tool-loop-openai.test.d.ts +10 -0
package/dist/pipeline/compiler/__tests__/tool-loop-openai.test.js +509 -0
package/dist/pipeline/compiler/assertion-mapper.d.ts +1 -1
package/dist/pipeline/compiler/assertion-mapper.js +1 -1
package/dist/pipeline/compiler/compiler-to-yaml.d.ts +2 -7
package/dist/pipeline/compiler/compiler-to-yaml.js +2 -7
package/dist/pipeline/compiler/config-loader.d.ts +14 -0
package/dist/pipeline/compiler/config-loader.js +42 -2
package/dist/pipeline/compiler/fixture-resolver.d.ts +1 -1
package/dist/pipeline/compiler/fixture-resolver.js +1 -1
package/dist/pipeline/compiler/ignore-fields.d.ts +1 -1
package/dist/pipeline/compiler/ignore-fields.js +1 -1
package/dist/pipeline/compiler/index.d.ts +2 -5
package/dist/pipeline/compiler/index.js +2 -5
package/dist/pipeline/compiler/literacy-bridge.d.ts +2 -2
package/dist/pipeline/compiler/literacy-bridge.js +2 -2
package/dist/pipeline/compiler/mode-bases/agent-harness.d.ts +10 -0
package/dist/pipeline/compiler/mode-bases/agent-harness.js +21 -0
package/dist/pipeline/compiler/mode-bases/index.d.ts +4 -0
package/dist/pipeline/compiler/mode-bases/index.js +4 -0
package/dist/pipeline/compiler/mode-bases/knowledge-probe.d.ts +10 -0
package/dist/pipeline/compiler/mode-bases/knowledge-probe.js +22 -0
package/dist/pipeline/compiler/mode-bases/literacy.d.ts +23 -0
package/dist/pipeline/compiler/mode-bases/literacy.js +132 -0
package/dist/pipeline/compiler/mode-bases/mcp-server.d.ts +10 -0
package/dist/pipeline/compiler/mode-bases/mcp-server.js +70 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/assertions.d.ts +43 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/assertions.js +187 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/compiler.d.ts +19 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/compiler.js +138 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/index.d.ts +16 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/index.js +43 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/prompts.d.ts +9 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/prompts.js +29 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/sandbox.d.ts +12 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/sandbox.js +82 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/tool-presets.d.ts +4 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/tool-presets.js +19 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/types.d.ts +49 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/types.js +4 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/validation.d.ts +9 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/validation.js +16 -0
package/dist/pipeline/compiler/mode-handlers/index.d.ts +6 -7
package/dist/pipeline/compiler/mode-handlers/index.js +6 -8
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/assertions.d.ts +16 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/assertions.js +61 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/compiler.d.ts +18 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/compiler.js +112 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/index.d.ts +26 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/index.js +49 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/prompts.d.ts +9 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/prompts.js +28 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/types.d.ts +44 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/types.js +4 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/validation.d.ts +9 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/validation.js +24 -0
package/dist/pipeline/compiler/mode-handlers/literacy/assertions.d.ts +18 -0
package/dist/pipeline/compiler/mode-handlers/literacy/assertions.js +118 -0
package/dist/pipeline/compiler/mode-handlers/literacy/compiler.d.ts +14 -0
package/dist/pipeline/compiler/mode-handlers/literacy/compiler.js +105 -0
package/dist/pipeline/compiler/mode-handlers/literacy/index.d.ts +11 -0
package/dist/pipeline/compiler/mode-handlers/literacy/index.js +38 -0
package/dist/pipeline/compiler/mode-handlers/literacy/prompts.d.ts +9 -0
package/dist/pipeline/compiler/mode-handlers/literacy/prompts.js +74 -0
package/dist/pipeline/compiler/mode-handlers/literacy/types.d.ts +41 -0
package/dist/pipeline/compiler/mode-handlers/literacy/types.js +4 -0
package/dist/pipeline/compiler/mode-handlers/literacy/validation.d.ts +12 -0
package/dist/pipeline/compiler/mode-handlers/literacy/validation.js +28 -0
package/dist/pipeline/compiler/mode-handlers/mcp-assertions.js +63 -6
package/dist/pipeline/compiler/mode-handlers/mcp-server/assertions.d.ts +42 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/assertions.js +334 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/compiler.d.ts +19 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/compiler.js +100 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/index.d.ts +27 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/index.js +54 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/prompts.d.ts +8 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/prompts.js +28 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/provider-config.d.ts +28 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/provider-config.js +108 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/types.d.ts +37 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/types.js +4 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/validation.d.ts +9 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/validation.js +43 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server-handler.d.ts +3 -1
package/dist/pipeline/compiler/mode-handlers/mcp-server-handler.js +65 -67
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider/index.d.ts +33 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider/index.js +191 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider/mcp-connection.d.ts +19 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider/mcp-connection.js +101 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider/tool-loop-anthropic.d.ts +19 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider/tool-loop-anthropic.js +172 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider/tool-loop-openai.d.ts +19 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider/tool-loop-openai.js +323 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider/types.d.ts +103 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider/types.js +4 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider.d.ts +65 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider.js +368 -0
package/dist/pipeline/compiler/preset-loader.d.ts +22 -0
package/dist/pipeline/compiler/preset-loader.js +99 -0
package/dist/pipeline/compiler/presets/sanity-literacy.d.ts +7 -10
package/dist/pipeline/compiler/presets/sanity-literacy.js +11 -157
package/dist/pipeline/compiler/promptfoo-compiler.d.ts +1 -4
package/dist/pipeline/compiler/promptfoo-compiler.js +3 -12
package/dist/pipeline/compiler/provider-assembler.js +13 -7
package/dist/pipeline/compiler/sandbox/docker-sandbox.d.ts +1 -1
package/dist/pipeline/compiler/sandbox/docker-sandbox.js +1 -1
package/dist/pipeline/compiler/sandbox/fixture-provisioner.d.ts +1 -1
package/dist/pipeline/compiler/sandbox/fixture-provisioner.js +1 -1
package/dist/pipeline/compiler/sandbox/git-worktree-sandbox.d.ts +1 -1
package/dist/pipeline/compiler/sandbox/git-worktree-sandbox.js +1 -1
package/dist/pipeline/compiler/sandbox/index.d.ts +1 -1
package/dist/pipeline/compiler/sandbox/index.js +1 -1
package/dist/pipeline/compiler/sandbox/sandbox-selector.d.ts +1 -1
package/dist/pipeline/compiler/sandbox/sandbox-selector.js +1 -1
package/dist/pipeline/compiler/sandbox/sandbox-strategy.d.ts +1 -1
package/dist/pipeline/compiler/sandbox/sandbox-strategy.js +1 -1
package/dist/pipeline/compiler/sandbox/tempdir-sandbox.d.ts +1 -1
package/dist/pipeline/compiler/sandbox/tempdir-sandbox.js +1 -1
package/dist/pipeline/compiler/scoring-bridge.d.ts +1 -1
package/dist/pipeline/compiler/scoring-bridge.js +1 -1
package/dist/pipeline/compiler/task-bridge.d.ts +41 -0
package/dist/pipeline/compiler/task-bridge.js +92 -0
package/dist/pipeline/compiler/task-graph-builder.d.ts +1 -4
package/dist/pipeline/compiler/task-graph-builder.js +1 -4
package/dist/pipeline/compiler/telemetry/index.d.ts +1 -1
package/dist/pipeline/compiler/telemetry/index.js +1 -1
package/dist/pipeline/compiler/variable-resolver.d.ts +1 -1
package/dist/pipeline/compiler/variable-resolver.js +1 -1
package/dist/pipeline/coverage-audit.d.ts +1 -1
package/dist/pipeline/coverage-audit.js +1 -1
package/dist/pipeline/degradations.d.ts +1 -1
package/dist/pipeline/degradations.js +1 -1
package/dist/pipeline/expand-tasks.d.ts +2 -2
package/dist/pipeline/expand-tasks.js +2 -2
package/dist/pipeline/failure-modes.d.ts +1 -1
package/dist/pipeline/failure-modes.js +13 -1
package/dist/pipeline/gap-analysis.d.ts +1 -1
package/dist/pipeline/gap-analysis.js +3 -1
package/dist/pipeline/generate-configs.d.ts +2 -2
package/dist/pipeline/generate-configs.js +16 -9
package/dist/pipeline/grader-compare-runner.d.ts +1 -1
package/dist/pipeline/grader-compare-runner.js +7 -1
package/dist/pipeline/grader-comparison.d.ts +1 -1
package/dist/pipeline/grader-comparison.js +1 -1
package/dist/pipeline/grader-consistency-runner.d.ts +1 -1
package/dist/pipeline/grader-consistency-runner.js +7 -1
package/dist/pipeline/grader-consistency.d.ts +1 -1
package/dist/pipeline/grader-consistency.js +1 -1
package/dist/pipeline/grader-sensitivity-runner.d.ts +1 -1
package/dist/pipeline/grader-sensitivity-runner.js +1 -1
package/dist/pipeline/grader-sensitivity.d.ts +1 -1
package/dist/pipeline/grader-sensitivity.js +1 -1
package/dist/pipeline/grader-validate-runner.d.ts +1 -1
package/dist/pipeline/grader-validate-runner.js +2 -2
package/dist/pipeline/grader-validation.d.ts +1 -1
package/dist/pipeline/grader-validation.js +1 -1
package/dist/pipeline/map-request-to-config.js +16 -2
package/dist/pipeline/mirror-repo-tasks.d.ts +8 -8
package/dist/pipeline/mirror-repo-tasks.js +10 -10
package/dist/pipeline/plan-format.d.ts +1 -1
package/dist/pipeline/plan-format.js +1 -1
package/dist/pipeline/plan.d.ts +1 -1
package/dist/pipeline/plan.js +68 -30
package/dist/pipeline/probe.d.ts +1 -1
package/dist/pipeline/probe.js +1 -1
package/dist/pipeline/readiness-report.d.ts +2 -2
package/dist/pipeline/readiness-report.js +2 -2
package/dist/pipeline/release-classification.d.ts +1 -1
package/dist/pipeline/release-classification.js +1 -1
package/dist/pipeline/release-report.d.ts +1 -1
package/dist/pipeline/release-report.js +1 -1
package/dist/pipeline/repo-eval-comment.d.ts +1 -1
package/dist/pipeline/repo-eval-comment.js +1 -1
package/dist/pipeline/repo-threshold-evaluator.d.ts +1 -1
package/dist/pipeline/repo-threshold-evaluator.js +1 -1
package/dist/pipeline/resolve-mappings.d.ts +6 -6
package/dist/pipeline/resolve-mappings.js +44 -44
package/dist/pipeline/retrieval-metrics.d.ts +3 -3
package/dist/pipeline/retrieval-metrics.js +28 -20
package/dist/pipeline/steps/calculate-scores-step.d.ts +11 -0
package/dist/pipeline/steps/calculate-scores-step.js +89 -0
package/dist/pipeline/steps/compare-step.d.ts +18 -0
package/dist/pipeline/steps/compare-step.js +90 -0
package/dist/pipeline/steps/eval-step.d.ts +53 -0
package/dist/pipeline/steps/eval-step.js +347 -0
package/dist/pipeline/steps/fetch-docs-step.d.ts +11 -0
package/dist/pipeline/steps/fetch-docs-step.js +84 -0
package/dist/pipeline/steps/generate-configs-step.d.ts +11 -0
package/dist/pipeline/steps/generate-configs-step.js +98 -0
package/dist/pipeline/steps/grader-consistency-step.d.ts +21 -0
package/dist/pipeline/steps/grader-consistency-step.js +74 -0
package/dist/pipeline/steps/publish-report-step.d.ts +57 -0
package/dist/pipeline/steps/publish-report-step.js +243 -0
package/dist/pipeline/steps/report-step.d.ts +13 -0
package/dist/pipeline/steps/report-step.js +56 -0
package/dist/pipeline/steps/update-scores-step.d.ts +11 -0
package/dist/pipeline/steps/update-scores-step.js +42 -0
package/dist/pipeline/targeted-loo.d.ts +1 -1
package/dist/pipeline/targeted-loo.js +1 -1
package/dist/pipeline/thresholds.d.ts +1 -1
package/dist/pipeline/thresholds.js +1 -1
package/dist/pipeline/validate.js +13 -0
package/dist/report-store.d.ts +17 -0
package/dist/report-store.js +24 -0
package/dist/scripts/agent-behavior-report.d.ts +19 -0
package/dist/scripts/agent-behavior-report.js +315 -0
package/dist/scripts/baseline.d.ts +43 -0
package/dist/scripts/baseline.js +267 -0
package/dist/scripts/calculate-scores.d.ts +166 -0
package/dist/scripts/calculate-scores.js +1296 -0
package/dist/scripts/compare.d.ts +22 -0
package/dist/scripts/compare.js +334 -0
package/dist/scripts/coverage-audit.d.ts +44 -0
package/dist/scripts/coverage-audit.js +209 -0
package/dist/scripts/debug-eval.d.ts +19 -0
package/dist/scripts/debug-eval.js +73 -0
package/dist/scripts/discovery-report.d.ts +58 -0
package/dist/scripts/discovery-report.js +250 -0
package/dist/scripts/fetch-docs.d.ts +35 -0
package/dist/scripts/fetch-docs.js +472 -0
package/dist/scripts/generate-configs.d.ts +66 -0
package/dist/scripts/generate-configs.js +459 -0
package/dist/scripts/grader-api.d.ts +27 -0
package/dist/scripts/grader-api.js +206 -0
package/dist/scripts/grader-compare.d.ts +22 -0
package/dist/scripts/grader-compare.js +368 -0
package/dist/scripts/grader-consistency.d.ts +20 -0
package/dist/scripts/grader-consistency.js +313 -0
package/dist/scripts/grader-sensitivity.d.ts +22 -0
package/dist/scripts/grader-sensitivity.js +354 -0
package/dist/scripts/grader-validate.d.ts +19 -0
package/dist/scripts/grader-validate.js +267 -0
package/dist/scripts/measure-retrieval.d.ts +10 -0
package/dist/scripts/measure-retrieval.js +145 -0
package/dist/scripts/migrate-task-mode.d.ts +1 -1
package/dist/scripts/migrate-task-mode.js +1 -1
package/dist/scripts/migrate-tasks-to-content-lake.d.ts +1 -1
package/dist/scripts/migrate-tasks-to-content-lake.js +1 -1
package/dist/scripts/pipeline.d.ts +76 -0
package/dist/scripts/pipeline.js +1031 -0
package/dist/scripts/pr-comment.d.ts +10 -0
package/dist/scripts/pr-comment.js +510 -0
package/dist/scripts/readiness-report.d.ts +88 -0
package/dist/scripts/readiness-report.js +342 -0
package/dist/scripts/update-quality-scores.d.ts +15 -0
package/dist/scripts/update-quality-scores.js +184 -0
package/dist/scripts/validate-task-sources.d.ts +1 -1
package/dist/scripts/validate-task-sources.js +1 -1
package/dist/scripts/validate.d.ts +13 -0
package/dist/scripts/validate.js +79 -0
package/dist/scripts/webhook-server.d.ts +26 -0
package/dist/scripts/webhook-server.js +147 -0
package/dist/scripts/weekly-digest.d.ts +24 -0
package/dist/scripts/weekly-digest.js +144 -0
package/dist/sinks/format-slack.d.ts +64 -0
package/dist/sinks/format-slack.js +306 -0
package/dist/sinks/slack-sink.d.ts +27 -0
package/dist/sinks/slack-sink.js +78 -0
package/dist/sinks/types.d.ts +1 -1
package/dist/sinks/types.js +1 -1
package/dist/sinks/webhook-sink.d.ts +19 -0
package/dist/sinks/webhook-sink.js +50 -0
package/dist/tasks/knowledge-probe/define-type-api.task.ts +66 -0
package/dist/tasks/knowledge-probe/groq-projections.task.ts +62 -0
package/dist/tasks/literacy/content-lake.task.ts +181 -0
package/dist/tasks/literacy/frameworks.task.ts +129 -0
package/dist/tasks/literacy/functions.task.ts +70 -0
package/dist/tasks/literacy/groq.task.ts +259 -0
package/dist/tasks/literacy/image-handling.task.ts +95 -0
package/dist/tasks/literacy/nextjs-live.task.ts +76 -0
package/dist/tasks/literacy/portable-text.task.ts +169 -0
package/dist/tasks/literacy/studio-setup.task.ts +134 -0
package/dist/tasks/literacy/visual-editing.task.ts +147 -0
package/package.json +32 -24
package/tasks/.expanded.agentic.yaml +280 -0
package/tasks/.expanded.yaml +565 -0
package/tasks/knowledge-probe/define-type-api.task.ts +11 -0
package/tasks/knowledge-probe/groq-projections.task.ts +3 -0
package/tasks/literacy/content-lake.task.ts +181 -0
package/tasks/literacy/frameworks.task.ts +1 -0
package/tasks/literacy/functions.task.ts +1 -0
package/tasks/literacy/groq.task.ts +1 -0
package/tasks/literacy/image-handling.task.ts +95 -0
package/tasks/literacy/nextjs-live.task.ts +2 -1
package/tasks/literacy/portable-text.task.ts +169 -0
package/tasks/literacy/studio-setup.task.ts +5 -2
package/tasks/literacy/visual-editing.task.ts +1 -0
package/LICENSE +0 -21
package/tasks/frameworks.yaml +0 -98
package/tasks/functions.yaml +0 -51
package/tasks/groq.yaml +0 -216
package/tasks/nextjs-live.yaml +0 -62
package/tasks/studio-setup.yaml +0 -111
package/tasks/visual-editing.yaml +0 -120

package/dist/_vendor/ailf-core/types/index.d.ts CHANGED Viewed

@@ -9,12 +9,12 @@
  * Ports & Adapters migration (Phase 0c). The original file is now a
  * re-export barrel that preserves backward compatibility.
  */
-import type { DocumentRef as _DocumentRef, EvalMode as _EvalMode } from "../../ailf-shared/index.d.ts";
+import type { DocumentRef as _DocumentRef, EvalMode } from "../../ailf-shared/index.d.ts";
 export type { ActualScoreEntry, ComponentResult, TestResult, UrlMetadata, } from "./scoring-input.js";
 export type { DocumentRef } from "../../ailf-shared/index.d.ts";
 export type { StoredBaseline, StoredReport, StoredRun, StoredTaskResult, StoredTrace, SchemaVersioned, } from "./storage-schema.js";
 export { CURRENT_SCHEMA_VERSION, isSchemaVersioned, migrateDocument, } from "./storage-schema.js";
-export type { AssertionRegistration, FixtureResolverRegistration, ModeRegistration, PluginManifest, PluginRegistry, PresetDefinition, ReportSinkRegistration, RubricTemplateRegistration, } from "./plugin-registry.js";
+export type { AssertionRegistration, FixtureResolverRegistration, ModeBase, ModeRegistration, PluginManifest, PluginRegistry, PresetDefinition, ReportSinkRegistration, RubricTemplateRegistration, } from "./plugin-registry.js";
 export { InMemoryPluginRegistry } from "./plugin-registry.js";
 export type { AgentHarnessConfig, AgentHarnessModeConfig, CustomModeConfig, EvalModeConfig, EvalModeType, KnowledgeBaseRef, KnowledgeProbeModeConfig, LiteracyModeConfig, MCPServerConfig, MCPServerModeConfig, ProbeStrategy, SandboxConfig, ToolDef, } from "./eval-mode-config.js";
 export { evalModeType } from "./eval-mode-config.js";
@@ -25,7 +25,6 @@ export type { ArtifactId, Brand, Err, FixtureId, IdValidationError, NewReportId,
 export { err, fixtureId, ok, providerId, resultId, runId, suiteId, taskId, traceId, } from "./branded-ids.js";
 export type { AgentHarnessTaskDefinition, CustomTaskDefinition, GeneralizedAssertionDefinition, GeneralizedDocRef, GeneralizedTaskDefinition, GeneralizedTemplatedAssertion, GeneralizedValueAssertion, IdDocRef, KnowledgeProbeTaskDefinition, LiteracyTaskDefinition, MCPServerTaskDefinition, PathDocRef, PerspectiveDocRef, RubricRef, SlugDocRef, TaskCommonFields, TaskDifficulty, TaskOptions, TaskProviderConfig, TaskStatus, } from "./generalized-task.js";
 type DocumentRef = _DocumentRef;
-type EvalMode = _EvalMode;
 /** Aggregated retrieval metrics for a feature area */
 export interface AreaRetrievalMetrics {
     area: string;
@@ -119,7 +118,7 @@ export interface FailureModeReport {
     totalJudgments: number;
 }
 /** Failure mode classification for a low-scoring judgment */
-export type FailureModeType = "incorrect-docs" | "missing-docs" | "model-limitation" | "outdated-docs" | "poor-structure" | "unclassified";
+export type FailureModeType = "api-error" | "incorrect-docs" | "missing-docs" | "model-limitation" | "outdated-docs" | "poor-structure" | "unclassified";
 /** Per-feature-area score breakdown */
 export interface FeatureScore {
     /**
@@ -352,11 +351,40 @@ export interface ModelEntry {
     env?: string;
     id: string;
     label: string;
-    modes?: string[];
+    /**
+     * Which evaluation modes this model participates in.
+     *
+     * Values must be canonical eval mode names (e.g., "literacy", "mcp-server").
+     * When omitted, the model participates in all modes.
+     */
+    modes?: EvalMode[];
+    /**
+     * Per-provider timeout in ms. Emitted into Promptfoo provider config.
+     * Default: 300_000 (5 min, matching Promptfoo's built-in default).
+     */
+    timeoutMs?: number;
+    /**
+     * Per-mode variant whitelist. Keys are eval mode IDs, values are arrays
+     * of variant IDs to include for that mode.
+     *
+     * When a model enrolls in a mode (via `modes`) but does not specify
+     * variants for it here, ALL variants defined by the mode base are included.
+     *
+     * Only meaningful for modes that define variants (e.g., literacy has
+     * "baseline", "observed", "agentic-naive", "agentic-optimized").
+     * Ignored for modes without variants.
+     */
+    variants?: Partial<Record<EvalMode, string[]>>;
 }
 /** Parsed config/models.yaml structure */
 export interface ModelsConfig {
     defaults: Record<string, unknown>;
+    /**
+     * Maximum wall-clock time per eval step (all tests for one mode) in ms.
+     * When exceeded, the subprocess is killed and partial results are used.
+     * Default: no limit (backward compatible).
+     */
+    evalBudgetMs?: number;
     grader: {
         id: string;
         label?: string;
@@ -507,6 +535,21 @@ export interface TestSummary {
         task: string;
         error: string;
     }[];
+    /** Per-test timing statistics (when latencyMs is available from Promptfoo) */
+    timing?: {
+        /** Median test duration in ms */
+        medianMs: number;
+        /** 95th percentile test duration in ms */
+        p95Ms: number;
+        /** Maximum test duration in ms */
+        maxMs: number;
+        /** Tests that exceeded the slow threshold (2x median, min 60s) */
+        slowTests: {
+            task: string;
+            model: string;
+            durationMs: number;
+        }[];
+    };
 }
 /** Token usage and estimated cost for a pipeline run. */
 export interface PipelineUsage {
@@ -575,8 +618,6 @@ export interface ProductFeature {
     sections: string[];
     /** Coverage status */
     status: "covered" | "out-of-scope" | "planned" | "uncovered";
-    /** Number of evaluation tasks (if covered) */
-    taskCount?: number;
 }
 /** Full classification of a content release for evaluation */
 export interface ReleaseClassification {

package/dist/_vendor/ailf-core/types/plugin-registry.d.ts CHANGED Viewed

@@ -1,12 +1,12 @@
 /**
  * Plugin registry — typed extension points for AILF evaluation capabilities.
  *
- * Twelve extension points: evaluation modes, providers, assertions,
- * rubric templates, fixture resolvers, report sinks, dashboard renderers,
- * prompt templates, scoring profiles, doc fetcher factory, source defs,
- * and feature defs.
- *
- * Presets bundle multiple extensions into a single installable unit.
+ * Three-tier architecture:
+ * - **Mode bases** define evaluation methodology (rubrics, scoring, prompts)
+ * - **Domain presets** target a mode base and add domain config (sources,
+ *   features, doc fetcher)
+ * - **Framework assertions** are generic evaluation primitives available to
+ *   all modes
  *
  * @see docs/design-docs/architecture-overhaul/extensibility-plugins.md
  */
@@ -14,6 +14,25 @@ import type { PromptTemplate } from "../ports/mode-handler.js";
 import type { DocFetcher } from "../ports/doc-fetcher.js";
 import type { SourceEntry } from "../config-helpers.js";
 import type { FeatureRegistry } from "../schemas/pipeline.js";
+/**
+ * A named variant within an evaluation mode.
+ *
+ * Modes can declare variants to represent different evaluation strategies
+ * that share the same methodology. For example, the literacy mode has
+ * "baseline", "observed", and "agentic-*" variants.
+ *
+ * Models opt into specific variants via `ModelEntry.variants`. When a model
+ * enrolls in a mode without specifying variants, all defined variants are
+ * included by default.
+ */
+export interface ModeVariantDefinition {
+    /** Variant identifier (e.g., "baseline", "agentic-naive") */
+    id: string;
+    /** Human-readable label (e.g., "Standard (baseline)") */
+    label: string;
+    /** Optional description for docs/CLI help */
+    description?: string;
+}
 /** A registered evaluation mode handler */
 export interface ModeRegistration {
     /** Unique mode identifier (e.g., "api-contract") */
@@ -26,6 +45,14 @@ export interface ModeRegistration {
     rubricTemplateIds: string[];
     /** Compile function module path (loaded at runtime) */
     handlerModule: string;
+    /**
+     * Variants this mode supports. Omit or empty for modes without variants.
+     *
+     * When defined, models can selectively opt into specific variants via
+     * `ModelEntry.variants`. Models that enroll in the mode without specifying
+     * variants participate in all defined variants.
+     */
+    variants?: ModeVariantDefinition[];
 }
 /** A registered assertion type */
 export interface AssertionRegistration {
@@ -33,8 +60,12 @@ export interface AssertionRegistration {
     type: string;
     /** Human-readable label */
     label: string;
-    /** Which modes this assertion is compatible with */
-    compatibleModes: string[];
+    /**
+     * Which modes this assertion is compatible with.
+     * When omitted, the assertion is compatible with all modes.
+     * When specified, acts as a whitelist of mode IDs.
+     */
+    compatibleModes?: string[];
     /** Assertion handler module path */
     handlerModule: string;
 }
@@ -65,6 +96,30 @@ export interface ReportSinkRegistration {
     /** Sink module path */
     handlerModule: string;
 }
+/**
+ * ModeBase — shared evaluation methodology for a mode.
+ *
+ * Defines HOW you evaluate (rubrics, scoring, prompts) independently of
+ * WHAT you're evaluating (sources, features, docs). Multiple domain presets
+ * can target the same mode base and inherit its defaults.
+ *
+ * Example: the "literacy" mode base defines rubric templates for
+ * task-completion, code-correctness, and doc-coverage. Both a Sanity docs
+ * preset and an external docs preset can target "literacy" and inherit
+ * these rubrics without redefining them.
+ */
+export interface ModeBase {
+    /** The mode registration (handler, provider patterns, rubric template IDs) */
+    mode: ModeRegistration;
+    /** Default rubric templates for this mode */
+    rubricTemplates?: RubricTemplateRegistration[];
+    /** Default scoring profiles for this mode (profile name → dimension weights) */
+    scoringProfiles?: Record<string, Record<string, number>>;
+    /** Default prompt templates for this mode (template name → template) */
+    promptTemplates?: Record<string, PromptTemplate>;
+    /** Mode-specific assertion types (beyond framework builtins) */
+    assertions?: AssertionRegistration[];
+}
 /** Plugin manifest describing a single plugin */
 export interface PluginManifest {
     /** Plugin name (npm package style) */
@@ -80,32 +135,49 @@ export interface PluginManifest {
     /** Dependencies on other plugins */
     requires?: string[];
 }
-/** A preset bundles multiple extensions into an installable unit */
+/**
+ * A domain preset targets a mode base and adds domain-specific configuration.
+ *
+ * The preset inherits evaluation methodology (rubrics, scoring, prompts) from
+ * its mode base. It can optionally override any inherited values.
+ */
 export interface PresetDefinition {
-    /** Preset name */
+    /** Preset name (unique identifier) */
     name: string;
     /** Plugin manifest */
     manifest: PluginManifest;
-    /** Evaluation modes to register */
-    modes?: ModeRegistration[];
-    /** Assertion types to register */
-    assertions?: AssertionRegistration[];
-    /** Rubric templates to register */
-    rubricTemplates?: RubricTemplateRegistration[];
-    /** Fixture resolvers to register */
+    /**
+     * Lifecycle status — mirrors task status semantics.
+     *   active:   registered and used in evaluations (default)
+     *   draft:    registered but skipped unless explicitly targeted
+     *   paused:   registered but skipped (can be resumed)
+     *   archived: not registered
+     */
+    status?: "active" | "archived" | "draft" | "paused";
+    /**
+     * Which mode this preset targets (by mode ID).
+     * Links to a registered ModeBase. The preset inherits rubrics,
+     * scoring profiles, and prompt templates from the base.
+     */
+    mode: string;
+    /** Fixture resolvers */
     fixtureResolvers?: FixtureResolverRegistration[];
-    /** Report sinks to register */
+    /** Report sinks */
     reportSinks?: ReportSinkRegistration[];
-    /** Prompt templates keyed by template name (e.g. "with-docs", "agentic") */
-    promptTemplates?: Record<string, PromptTemplate>;
-    /** Scoring profiles mapping profile name to dimension-weight pairs */
-    scoringProfiles?: Record<string, Record<string, number>>;
     /** Factory function that creates a DocFetcher instance */
     docFetcher?: () => DocFetcher;
     /** Documentation source definitions (production, branch, local, etc.) */
     sourceDefs?: SourceEntry[];
     /** Product feature registry for coverage tracking */
     featureDefs?: FeatureRegistry;
+    /** Override rubric templates (merged by ID with mode base) */
+    rubricTemplates?: RubricTemplateRegistration[];
+    /** Override scoring profiles (merged by name with mode base) */
+    scoringProfiles?: Record<string, Record<string, number>>;
+    /** Override prompt templates (merged by name with mode base) */
+    promptTemplates?: Record<string, PromptTemplate>;
+    /** Additional mode-specific assertions */
+    assertions?: AssertionRegistration[];
 }
 /**
  * PluginRegistry — central registry for all AILF extensions.
@@ -154,10 +226,16 @@ export interface PluginRegistry {
     registerSourceDefs(sources: SourceEntry[]): void;
     /** Get all registered source definitions */
     getSourceDefs(): SourceEntry[];
-    /** Register a feature registry (last-write-wins) */
+    /** Register a feature registry (merged by feature ID with existing) */
     registerFeatureDefs(features: FeatureRegistry): void;
     /** Get the registered feature registry, if any */
     getFeatureDefs(): FeatureRegistry | undefined;
+    /** Register a mode base (evaluation methodology) */
+    registerModeBase(base: ModeBase): void;
+    /** Get a mode base by mode ID */
+    getModeBase(modeId: string): ModeBase | undefined;
+    /** Get all registered mode bases */
+    getModeBases(): ModeBase[];
     /** Get all registered presets */
     getPresets(): PresetDefinition[];
 }
@@ -170,6 +248,7 @@ export declare class InMemoryPluginRegistry implements PluginRegistry {
     private readonly rubricTemplates_;
     private readonly fixtureResolvers_;
     private readonly reportSinks_;
+    private readonly modeBases_;
     private readonly presets_;
     private promptTemplates_;
     private scoringProfiles_;
@@ -199,4 +278,7 @@ export declare class InMemoryPluginRegistry implements PluginRegistry {
     getSourceDefs(): SourceEntry[];
     registerFeatureDefs(features: FeatureRegistry): void;
     getFeatureDefs(): FeatureRegistry | undefined;
+    registerModeBase(base: ModeBase): void;
+    getModeBase(modeId: string): ModeBase | undefined;
+    getModeBases(): ModeBase[];
 }

package/dist/_vendor/ailf-core/types/plugin-registry.js CHANGED Viewed

@@ -1,12 +1,12 @@
 /**
  * Plugin registry — typed extension points for AILF evaluation capabilities.
  *
- * Twelve extension points: evaluation modes, providers, assertions,
- * rubric templates, fixture resolvers, report sinks, dashboard renderers,
- * prompt templates, scoring profiles, doc fetcher factory, source defs,
- * and feature defs.
- *
- * Presets bundle multiple extensions into a single installable unit.
+ * Three-tier architecture:
+ * - **Mode bases** define evaluation methodology (rubrics, scoring, prompts)
+ * - **Domain presets** target a mode base and add domain config (sources,
+ *   features, doc fetcher)
+ * - **Framework assertions** are generic evaluation primitives available to
+ *   all modes
  *
  * @see docs/design-docs/architecture-overhaul/extensibility-plugins.md
  */
@@ -19,6 +19,7 @@ export class InMemoryPluginRegistry {
     rubricTemplates_ = new Map();
     fixtureResolvers_ = new Map();
     reportSinks_ = new Map();
+    modeBases_ = new Map();
     presets_ = new Map();
     promptTemplates_ = {};
     scoringProfiles_ = {};
@@ -26,19 +27,56 @@ export class InMemoryPluginRegistry {
     sourceDefs_ = [];
     featureDefs_;
     registerPreset(preset) {
+        // Skip archived presets entirely
+        if (preset.status === "archived")
+            return;
+        // Store draft/paused presets in the map (for later activation via
+        // --preset flag) but skip all side-effect registrations. This prevents
+        // a draft preset from silently overwriting the doc fetcher, merging
+        // scoring profiles, etc.
         this.presets_.set(preset.name, preset);
-        if (preset.modes) {
-            for (const mode of preset.modes)
-                this.registerMode(mode);
+        if (preset.status === "draft" || preset.status === "paused")
+            return;
+        // Resolve mode base defaults
+        const base = this.modeBases_.get(preset.mode);
+        if (!base) {
+            throw new Error(`Preset "${preset.name}" targets mode "${preset.mode}" ` +
+                `but no mode base is registered for it. ` +
+                `Available mode bases: ${[...this.modeBases_.keys()].join(", ") || "(none)"}`);
+        }
+        // Mode is already registered by registerModeBase() — no need to re-register.
+        // Merge rubric templates: base defaults + preset overrides (by ID)
+        const baseRubrics = new Map((base.rubricTemplates ?? []).map((r) => [r.id, r]));
+        for (const r of preset.rubricTemplates ?? []) {
+            baseRubrics.set(r.id, r);
+        }
+        for (const r of baseRubrics.values()) {
+            this.registerRubricTemplate(r);
+        }
+        // Merge scoring profiles: base defaults + preset overrides (by name)
+        const profiles = {
+            ...base.scoringProfiles,
+            ...preset.scoringProfiles,
+        };
+        if (Object.keys(profiles).length > 0) {
+            this.registerScoringProfiles(profiles);
         }
+        // Merge prompt templates: base defaults + preset overrides (by name)
+        const prompts = {
+            ...base.promptTemplates,
+            ...preset.promptTemplates,
+        };
+        if (Object.keys(prompts).length > 0) {
+            this.registerPromptTemplates(prompts);
+        }
+        // Merge assertions: base + preset (preset overrides by type)
+        for (const a of base.assertions ?? [])
+            this.registerAssertion(a);
         if (preset.assertions) {
             for (const a of preset.assertions)
                 this.registerAssertion(a);
         }
-        if (preset.rubricTemplates) {
-            for (const t of preset.rubricTemplates)
-                this.registerRubricTemplate(t);
-        }
+        // Register domain-specific fields
         if (preset.fixtureResolvers) {
             for (const r of preset.fixtureResolvers)
                 this.registerFixtureResolver(r);
@@ -47,12 +85,6 @@ export class InMemoryPluginRegistry {
             for (const s of preset.reportSinks)
                 this.registerReportSink(s);
         }
-        if (preset.promptTemplates) {
-            this.registerPromptTemplates(preset.promptTemplates);
-        }
-        if (preset.scoringProfiles) {
-            this.registerScoringProfiles(preset.scoringProfiles);
-        }
         if (preset.docFetcher) {
             this.registerDocFetcherFactory(preset.docFetcher);
         }
@@ -124,9 +156,30 @@ export class InMemoryPluginRegistry {
         return this.sourceDefs_;
     }
     registerFeatureDefs(features) {
-        this.featureDefs_ = features;
+        if (!this.featureDefs_) {
+            this.featureDefs_ = features;
+            return;
+        }
+        // Merge by feature ID: new features override existing on ID collision,
+        // existing features not in new set are preserved.
+        const merged = new Map(this.featureDefs_.features.map((f) => [f.id, f]));
+        for (const f of features.features) {
+            merged.set(f.id, f);
+        }
+        this.featureDefs_ = { features: [...merged.values()] };
     }
     getFeatureDefs() {
         return this.featureDefs_;
     }
+    registerModeBase(base) {
+        this.modeBases_.set(base.mode.id, base);
+        // Also register the mode itself so getMode() works
+        this.registerMode(base.mode);
+    }
+    getModeBase(modeId) {
+        return this.modeBases_.get(modeId);
+    }
+    getModeBases() {
+        return [...this.modeBases_.values()];
+    }
 }

package/dist/_vendor/ailf-shared/eval-modes.d.ts CHANGED Viewed

@@ -37,6 +37,21 @@ export type RawEvalMode = EvalMode | "agentic" | "baseline" | "full" | "observed
 export declare const CANONICAL_EVAL_MODES: readonly ["literacy", "mcp-server", "agent-harness", "knowledge-probe", "custom"];
 /** Legacy CLI aliases that map to `mode: "literacy"` + variant. */
 export declare const LEGACY_EVAL_MODE_ALIASES: readonly ["baseline", "agentic", "observed", "full"];
+/**
+ * Literacy mode variant names — each is a distinct evaluation strategy.
+ *
+ * These are the valid values for the `variant` field in PipelineRequest
+ * when `mode` is `"literacy"`. They match LEGACY_EVAL_MODE_ALIASES because
+ * variants were originally exposed as top-level mode names.
+ *
+ *   - `baseline` — with-docs / without-docs comparison (gold + floor)
+ *   - `agentic`  — model uses tools to find docs (gold only)
+ *   - `observed` — HTTP-instrumented behavior observation
+ *   - `full`     — combined baseline + agentic
+ */
+export declare const LITERACY_VARIANTS: readonly ["baseline", "agentic", "observed", "full"];
+/** Union of all literacy variant string values. */
+export type LiteracyVariant = (typeof LITERACY_VARIANTS)[number];
 /**
  * All accepted mode names for Zod enum construction.
  * Canonical modes first, then legacy aliases.

package/dist/_vendor/ailf-shared/eval-modes.js CHANGED Viewed

@@ -22,6 +22,24 @@ export const LEGACY_EVAL_MODE_ALIASES = [
     "observed",
     "full",
 ];
+/**
+ * Literacy mode variant names — each is a distinct evaluation strategy.
+ *
+ * These are the valid values for the `variant` field in PipelineRequest
+ * when `mode` is `"literacy"`. They match LEGACY_EVAL_MODE_ALIASES because
+ * variants were originally exposed as top-level mode names.
+ *
+ *   - `baseline` — with-docs / without-docs comparison (gold + floor)
+ *   - `agentic`  — model uses tools to find docs (gold only)
+ *   - `observed` — HTTP-instrumented behavior observation
+ *   - `full`     — combined baseline + agentic
+ */
+export const LITERACY_VARIANTS = [
+    "baseline",
+    "agentic",
+    "observed",
+    "full",
+];
 /**
  * All accepted mode names for Zod enum construction.
  * Canonical modes first, then legacy aliases.

package/dist/adapters/api-client/remediation.js CHANGED Viewed

@@ -17,7 +17,7 @@ const HINTS = [
             /no article found for slug/i.test(e.message),
         hint: "One or more `canonicalDocs` slugs in your task definitions don't match " +
             "any article in the documentation. Check the `slug` values in " +
-            "`.ailf/tasks/*.yaml` and ensure they correspond to real articles.\n" +
+            "`.ailf/tasks/` and ensure they correspond to real articles.\n" +
             "  Run `ailf validate` to check your task definitions locally.",
     },
     {
@@ -51,7 +51,7 @@ const HINTS = [
         hint: "The documentation fetch step completed but one or more tasks had " +
             "empty context. This usually means a `canonicalDocs` slug doesn't " +
             "match any article.\n" +
-            "  Check the slug values in `.ailf/tasks/*.yaml`.",
+            "  Check the slug values in `.ailf/tasks/`.",
     },
     {
         match: (e) => e.step === "dispatch" && /dispatch failed/i.test(e.message),

package/dist/adapters/config-sources/file-config-adapter.js CHANGED Viewed

@@ -22,7 +22,7 @@
  * @see docs/design-docs/architecture-overhaul/typescript-configuration.md
  */
 import { readFileSync } from "fs";
-import { extname } from "path";
+import { extname, resolve } from "path";
 import { EvalConfigSchema, PipelineRequestSchema, } from "../../_vendor/ailf-core/index.js";
 import { mapRequestToConfig } from "../../pipeline/map-request-to-config.js";
 import { normalizeMode } from "../../pipeline/normalize-mode.js";
@@ -93,6 +93,7 @@ function mapEvalConfigToResolvedConfig(config, rootDir) {
     const normalized = normalizeMode(config.mode ?? "literacy");
     return {
         rootDir,
+        outputDir: resolve(rootDir, "results", "latest"),
         mode: normalized.mode,
         variant: normalized.variant,
         noAutoScope: config.noAutoScope ?? false,
@@ -119,7 +120,12 @@ function mapEvalConfigToResolvedConfig(config, rootDir) {
         allowedOrigins: config.allowedOrigins,
         searchMode: config.searchMode ?? "open",
         concurrency: config.concurrency,
+        captureEnabled: false,
+        captureDir: undefined,
+        captureCompress: true,
+        captureExtras: true,
         remote: false,
         apiUrl: "https://ailf-api.sanity.build",
+        presets: config.presets,
     };
 }

package/dist/adapters/config-sources/ts-config-loader.js CHANGED Viewed

@@ -13,21 +13,29 @@
  * @see docs/design-docs/architecture-overhaul/typescript-configuration.md
  */
 import { existsSync } from "fs";
+import { pathToFileURL } from "node:url";
 import { createJiti } from "jiti";
 // ---------------------------------------------------------------------------
-// Singleton jiti instance — reused across all loads for caching
+// jiti instance factory — resolves imports relative to the loaded file
 // ---------------------------------------------------------------------------
-let _jiti = null;
-function getJiti() {
-    if (!_jiti) {
-        _jiti = createJiti(import.meta.url, {
-            // Interop: handle both `export default` and `module.exports`
-            interopDefault: true,
-            // Don't require file extensions in imports
-            requireCache: true,
-        });
-    }
-    return _jiti;
+/**
+ * Create a jiti instance that resolves bare-specifier imports relative to
+ * the given file path, not relative to this loader module.
+ *
+ * This is critical for pnpm workspaces: a task file at `.ailf/tasks/foo.task.ts`
+ * importing `@sanity/ailf` must resolve through the dependency graph
+ * visible from the task file's directory, not from deep inside packages/eval/.
+ *
+ * We pass a `file://` URL (not a bare path) so jiti uses ESM resolution,
+ * which matches the `"import"` condition in package.json exports maps.
+ */
+function createJitiForFile(filePath) {
+    return createJiti(pathToFileURL(filePath).href, {
+        // Interop: handle both `export default` and `module.exports`
+        interopDefault: true,
+        // Don't require file extensions in imports
+        requireCache: true,
+    });
 }
 /**
  * Load a TypeScript or JavaScript config file and return its default export.
@@ -43,7 +51,7 @@ export async function loadTsConfig(filePath) {
         return { ok: false, error: `File not found: ${filePath}`, path: filePath };
     }
     try {
-        const jiti = getJiti();
+        const jiti = createJitiForFile(filePath);
         const mod = await jiti.import(filePath);
         const value = extractDefault(mod);
         if (value === undefined || value === null) {

package/dist/adapters/eval-runners/promptfoo-eval-adapter.js CHANGED Viewed

@@ -33,6 +33,7 @@ export class PromptfooEvalAdapter {
                 cwd: this.rootDir,
                 env: { ...process.env, ...config.env },
                 stdio: "inherit",
+                ...(config.maxDurationMs ? { timeout: config.maxDurationMs } : {}),
             });
             return {
                 durationMs: Date.now() - start,
@@ -40,10 +41,15 @@ export class PromptfooEvalAdapter {
                 summary: `Evaluation complete (${config.configPath})`,
             };
         }
-        catch {
+        catch (err) {
+            const isTimeout = err instanceof Error &&
+                "killed" in err &&
+                err.killed === true;
             return {
                 durationMs: Date.now() - start,
-                error: `Promptfoo evaluation failed: ${config.configPath}`,
+                error: isTimeout
+                    ? `Eval subprocess killed after ${config.maxDurationMs}ms time budget`
+                    : `Promptfoo evaluation failed: ${config.configPath}`,
                 status: "failed",
             };
         }

package/dist/adapters/index.d.ts CHANGED Viewed

@@ -9,4 +9,3 @@ export { SanityDocFetcher } from "./doc-fetchers/index.js";
 export { PromptfooEvalAdapter } from "./eval-runners/index.js";
 export { ConsoleLogger, type ConsoleLoggerOptions, JsonLogger, QuietLogger, } from "./loggers/index.js";
 export { CliConfigAdapter, FileConfigAdapter } from "./config-sources/index.js";
-export { YamlTaskSource } from "./task-sources/index.js";

package/dist/adapters/index.js CHANGED Viewed

@@ -9,4 +9,3 @@ export { SanityDocFetcher } from "./doc-fetchers/index.js";
 export { PromptfooEvalAdapter } from "./eval-runners/index.js";
 export { ConsoleLogger, JsonLogger, QuietLogger, } from "./loggers/index.js";
 export { CliConfigAdapter, FileConfigAdapter } from "./config-sources/index.js";
-export { YamlTaskSource } from "./task-sources/index.js";

package/dist/adapters/task-sources/composite-task-source.d.ts CHANGED Viewed

@@ -10,7 +10,7 @@
  * tasks in a single GeneralizedTaskDefinition[].
  *
  * @see packages/core/src/ports/task-source.ts — TaskSource port
- * @see docs/exec-plans/tasks-as-content/phase-4-repo-based-tasks.md
+ * @see docs/archive/exec-plans/tasks-as-content/phase-4-repo-based-tasks.md
  */
 import type { FilterOptions, GeneralizedTaskDefinition, TaskSource } from "../../_vendor/ailf-core/index.d.ts";
 export declare class CompositeTaskSource implements TaskSource {

package/dist/adapters/task-sources/composite-task-source.js CHANGED Viewed

@@ -10,7 +10,7 @@
  * tasks in a single GeneralizedTaskDefinition[].
  *
  * @see packages/core/src/ports/task-source.ts — TaskSource port
- * @see docs/exec-plans/tasks-as-content/phase-4-repo-based-tasks.md
+ * @see docs/archive/exec-plans/tasks-as-content/phase-4-repo-based-tasks.md
  */
 export class CompositeTaskSource {
     sources;