npm - @sanity/ailf - Versions diffs - 1.0.0 → 2.0.1 - Mend

@sanity/ailf 1.0.0 → 2.0.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (499) hide show

package/README.md +0 -1
package/canonical/grader-references/README.md +2 -2
package/canonical/reference-solutions/content-lake/mutations.ts +160 -0
package/canonical/reference-solutions/content-lake/realtime.ts +187 -0
package/canonical/reference-solutions/image-handling/asset-pipeline.tsx +166 -0
package/canonical/reference-solutions/portable-text/custom-blocks.ts +204 -0
package/canonical/reference-solutions/portable-text/rendering.tsx +163 -0
package/config/features.ts +1 -1
package/config/models.ts +29 -12
package/config/sources.ts +1 -1
package/config/thresholds.ts +1 -1
package/dist/_vendor/ailf-core/__tests__/comparison-formatters.test.d.ts +10 -0
package/dist/_vendor/ailf-core/__tests__/comparison-formatters.test.js +185 -0
package/dist/_vendor/ailf-core/artifact-capture/__tests__/noop-collector.test.d.ts +6 -0
package/dist/_vendor/ailf-core/artifact-capture/__tests__/noop-collector.test.js +42 -0
package/dist/_vendor/ailf-core/artifact-capture/noop-collector.d.ts +14 -0
package/dist/_vendor/ailf-core/artifact-capture/noop-collector.js +25 -0
package/dist/_vendor/ailf-core/config-helpers.d.ts +20 -17
package/dist/_vendor/ailf-core/config-helpers.js +51 -2
package/dist/_vendor/ailf-core/examples/index.d.ts +166 -80
package/dist/_vendor/ailf-core/examples/index.js +213 -94
package/dist/_vendor/ailf-core/index.d.ts +3 -2
package/dist/_vendor/ailf-core/index.js +2 -1
package/dist/_vendor/ailf-core/ports/artifact-collector.d.ts +94 -0
package/dist/_vendor/ailf-core/ports/artifact-collector.js +13 -0
package/dist/_vendor/ailf-core/ports/capture-comparator.d.ts +138 -0
package/dist/_vendor/ailf-core/ports/capture-comparator.js +10 -0
package/dist/_vendor/ailf-core/ports/context.d.ts +22 -1
package/dist/_vendor/ailf-core/ports/eval-runner.d.ts +6 -0
package/dist/_vendor/ailf-core/ports/index.d.ts +2 -0
package/dist/_vendor/ailf-core/ports/pipeline-step.d.ts +11 -0
package/dist/_vendor/ailf-core/ports/task-source.d.ts +3 -3
package/dist/_vendor/ailf-core/ports/task-source.js +3 -3
package/dist/_vendor/ailf-core/schemas/eval-config.d.ts +1 -0
package/dist/_vendor/ailf-core/schemas/eval-config.js +10 -0
package/dist/_vendor/ailf-core/schemas/pipeline-request.d.ts +7 -1
package/dist/_vendor/ailf-core/schemas/pipeline-request.js +16 -2
package/dist/_vendor/ailf-core/schemas/pipeline.d.ts +0 -2
package/dist/_vendor/ailf-core/schemas/pipeline.js +0 -1
package/dist/_vendor/ailf-core/services/config-helpers.d.ts +16 -1
package/dist/_vendor/ailf-core/services/config-helpers.js +21 -0
package/dist/_vendor/ailf-core/services/index.d.ts +1 -1
package/dist/_vendor/ailf-core/services/index.js +1 -1
package/dist/_vendor/ailf-core/services/scoring.js +9 -0
package/dist/_vendor/ailf-core/types/generalized-task.d.ts +25 -1
package/dist/_vendor/ailf-core/types/generalized-task.js +1 -1
package/dist/_vendor/ailf-core/types/index.d.ts +48 -7
package/dist/_vendor/ailf-core/types/plugin-registry.d.ts +105 -23
package/dist/_vendor/ailf-core/types/plugin-registry.js +73 -20
package/dist/_vendor/ailf-shared/eval-modes.d.ts +15 -0
package/dist/_vendor/ailf-shared/eval-modes.js +18 -0
package/dist/adapters/api-client/remediation.js +2 -2
package/dist/adapters/config-sources/file-config-adapter.js +7 -1
package/dist/adapters/config-sources/ts-config-loader.js +21 -13
package/dist/adapters/eval-runners/promptfoo-eval-adapter.js +8 -2
package/dist/adapters/index.d.ts +0 -1
package/dist/adapters/index.js +0 -1
package/dist/adapters/task-sources/composite-task-source.d.ts +1 -1
package/dist/adapters/task-sources/composite-task-source.js +1 -1
package/dist/adapters/task-sources/content-lake-task-source.d.ts +4 -6
package/dist/adapters/task-sources/content-lake-task-source.js +21 -26
package/dist/adapters/task-sources/index.d.ts +3 -4
package/dist/adapters/task-sources/index.js +3 -4
package/dist/adapters/task-sources/repo-schemas.d.ts +219 -17
package/dist/adapters/task-sources/repo-schemas.js +228 -20
package/dist/adapters/task-sources/repo-task-source.d.ts +14 -10
package/dist/adapters/task-sources/repo-task-source.js +81 -122
package/dist/adapters/task-sources/repo-trigger.d.ts +1 -1
package/dist/adapters/task-sources/repo-trigger.js +1 -1
package/dist/adapters/task-sources/repo-validation.d.ts +36 -5
package/dist/adapters/task-sources/repo-validation.js +126 -5
package/dist/adapters/task-sources/task-file-loader.d.ts +10 -7
package/dist/adapters/task-sources/task-file-loader.js +21 -7
package/dist/agent-observer/test-imports.d.ts +7 -0
package/dist/agent-observer/test-imports.js +185 -0
package/dist/artifact-capture/comparator.d.ts +22 -0
package/dist/artifact-capture/comparator.js +493 -0
package/dist/artifact-capture/filesystem-collector.d.ts +42 -0
package/dist/artifact-capture/filesystem-collector.js +237 -0
package/dist/artifact-capture/redact-artifact.d.ts +20 -0
package/dist/artifact-capture/redact-artifact.js +115 -0
package/dist/assertions/source-isolation.d.ts +1 -1
package/dist/assertions/source-isolation.js +1 -1
package/dist/cli.js +4 -0
package/dist/commands/calculate-scores.js +1 -0
package/dist/commands/capture-compare.d.ts +15 -0
package/dist/commands/capture-compare.js +253 -0
package/dist/commands/capture-list.d.ts +12 -0
package/dist/commands/capture-list.js +147 -0
package/dist/commands/capture.d.ts +9 -0
package/dist/commands/capture.js +16 -0
package/dist/commands/chronic-failures.d.ts +8 -0
package/dist/commands/chronic-failures.js +33 -0
package/dist/commands/coverage-audit.js +3 -1
package/dist/commands/explain-handler.d.ts +1 -1
package/dist/commands/explain-handler.js +37 -8
package/dist/commands/fetch-docs.js +1 -0
package/dist/commands/generate-configs.d.ts +3 -3
package/dist/commands/generate-configs.js +20 -8
package/dist/commands/init.d.ts +5 -4
package/dist/commands/init.js +190 -25
package/dist/commands/pipeline-action.d.ts +7 -1
package/dist/commands/pipeline-action.js +43 -19
package/dist/commands/pipeline.d.ts +6 -1
package/dist/commands/pipeline.js +7 -2
package/dist/commands/pr-comment.js +1 -0
package/dist/commands/publish.js +1 -0
package/dist/commands/shared/help.js +2 -2
package/dist/commands/update-quality-scores.d.ts +5 -0
package/dist/commands/update-quality-scores.js +20 -0
package/dist/commands/validate-tasks.d.ts +2 -2
package/dist/commands/validate-tasks.js +26 -15
package/dist/composition-root.d.ts +15 -4
package/dist/composition-root.js +100 -55
package/dist/config/features.ts +23 -0
package/dist/config/models.ts +100 -0
package/dist/config/prompts.ts +16 -0
package/dist/config/rubrics.ts +225 -0
package/dist/config/schedules.ts +47 -0
package/dist/config/sinks.ts +37 -0
package/dist/config/sources.ts +21 -0
package/dist/config/thresholds.ts +61 -0
package/dist/index.d.ts +41 -0
package/dist/index.js +48 -0
package/dist/lib/agent-behavior-report.d.ts +8 -0
package/dist/lib/agent-behavior-report.js +185 -0
package/dist/lib/baseline.d.ts +19 -0
package/dist/lib/baseline.js +153 -0
package/dist/lib/calculate-scores.d.ts +23 -0
package/dist/lib/calculate-scores.js +42 -0
package/dist/lib/compare.d.ts +18 -0
package/dist/lib/compare.js +170 -0
package/dist/lib/coverage-audit.d.ts +4 -0
package/dist/lib/coverage-audit.js +42 -0
package/dist/lib/discovery-report.d.ts +13 -0
package/dist/lib/discovery-report.js +57 -0
package/dist/lib/fetch-docs.d.ts +30 -0
package/dist/lib/fetch-docs.js +171 -0
package/dist/lib/generate-configs.d.ts +25 -0
package/dist/lib/generate-configs.js +42 -0
package/dist/lib/grader-api.d.ts +21 -0
package/dist/lib/grader-api.js +34 -0
package/dist/lib/grader-compare.d.ts +19 -0
package/dist/lib/grader-compare.js +91 -0
package/dist/lib/grader-consistency.d.ts +27 -0
package/dist/lib/grader-consistency.js +79 -0
package/dist/lib/grader-sensitivity.d.ts +19 -0
package/dist/lib/grader-sensitivity.js +75 -0
package/dist/lib/grader-validate.d.ts +19 -0
package/dist/lib/grader-validate.js +78 -0
package/dist/lib/measure-retrieval.d.ts +14 -0
package/dist/lib/measure-retrieval.js +71 -0
package/dist/lib/pr-comment.d.ts +16 -0
package/dist/lib/pr-comment.js +28 -0
package/dist/lib/readiness-report.d.ts +13 -0
package/dist/lib/readiness-report.js +108 -0
package/dist/lib/webhook-server.d.ts +11 -0
package/dist/lib/webhook-server.js +24 -0
package/dist/lib/weekly-digest.d.ts +24 -0
package/dist/lib/weekly-digest.js +148 -0
package/dist/orchestration/build-app-context.js +13 -0
package/dist/orchestration/build-step-sequence.js +4 -2
package/dist/orchestration/cache-context.d.ts +23 -0
package/dist/orchestration/cache-context.js +43 -0
package/dist/orchestration/env-bridge.d.ts +21 -0
package/dist/orchestration/env-bridge.js +66 -0
package/dist/orchestration/load-pipeline-tasks.d.ts +34 -0
package/dist/orchestration/load-pipeline-tasks.js +52 -0
package/dist/orchestration/pipeline-orchestrator.js +75 -5
package/dist/orchestration/step-runner.js +5 -1
package/dist/orchestration/steps/calculate-scores-step.d.ts +1 -0
package/dist/orchestration/steps/calculate-scores-step.js +13 -0
package/dist/orchestration/steps/callback-step.js +10 -1
package/dist/orchestration/steps/compare-step.js +6 -3
package/dist/orchestration/steps/discovery-report-step.js +6 -2
package/dist/orchestration/steps/fetch-docs-shell.d.ts +17 -0
package/dist/orchestration/steps/fetch-docs-shell.js +30 -0
package/dist/orchestration/steps/fetch-docs-step.d.ts +1 -0
package/dist/orchestration/steps/fetch-docs-step.js +32 -19
package/dist/orchestration/steps/gap-analysis-step.js +13 -2
package/dist/orchestration/steps/generate-configs-step.d.ts +1 -0
package/dist/orchestration/steps/generate-configs-step.js +77 -26
package/dist/orchestration/steps/mirror-repo-tasks-step.d.ts +1 -1
package/dist/orchestration/steps/mirror-repo-tasks-step.js +1 -1
package/dist/orchestration/steps/publish-report-step.js +19 -0
package/dist/orchestration/steps/readiness-step.js +8 -3
package/dist/orchestration/steps/report-step.js +17 -4
package/dist/orchestration/steps/run-eval-step.d.ts +1 -0
package/dist/orchestration/steps/run-eval-step.js +51 -31
package/dist/pipeline/agent-behavior-report.js +6 -0
package/dist/pipeline/attribution.d.ts +1 -1
package/dist/pipeline/attribution.js +1 -1
package/dist/pipeline/cache.js +29 -15
package/dist/pipeline/calculate-scores.d.ts +2 -0
package/dist/pipeline/calculate-scores.js +70 -33
package/dist/pipeline/chronic-failures.d.ts +55 -0
package/dist/pipeline/chronic-failures.js +110 -0
package/dist/pipeline/compiler/__tests__/agent-harness-handler.test.js +1 -1
package/dist/pipeline/compiler/__tests__/knowledge-probe-handler.test.js +1 -1
package/dist/pipeline/compiler/__tests__/literacy-handler.test.js +1 -1
package/dist/pipeline/compiler/__tests__/mcp-server-handler.test.js +132 -62
package/dist/pipeline/compiler/__tests__/promptfoo-compiler.test.js +2 -3
package/dist/pipeline/compiler/__tests__/scoring-and-presets.test.js +33 -100
package/dist/pipeline/compiler/__tests__/task-bridge.test.d.ts +9 -0
package/dist/pipeline/compiler/__tests__/task-bridge.test.js +339 -0
package/dist/pipeline/compiler/__tests__/tool-loop-openai.test.d.ts +10 -0
package/dist/pipeline/compiler/__tests__/tool-loop-openai.test.js +509 -0
package/dist/pipeline/compiler/assertion-mapper.d.ts +1 -1
package/dist/pipeline/compiler/assertion-mapper.js +1 -1
package/dist/pipeline/compiler/compiler-to-yaml.d.ts +2 -7
package/dist/pipeline/compiler/compiler-to-yaml.js +2 -7
package/dist/pipeline/compiler/config-loader.d.ts +14 -0
package/dist/pipeline/compiler/config-loader.js +42 -2
package/dist/pipeline/compiler/fixture-resolver.d.ts +1 -1
package/dist/pipeline/compiler/fixture-resolver.js +1 -1
package/dist/pipeline/compiler/ignore-fields.d.ts +1 -1
package/dist/pipeline/compiler/ignore-fields.js +1 -1
package/dist/pipeline/compiler/index.d.ts +2 -5
package/dist/pipeline/compiler/index.js +2 -5
package/dist/pipeline/compiler/literacy-bridge.d.ts +2 -2
package/dist/pipeline/compiler/literacy-bridge.js +2 -2
package/dist/pipeline/compiler/mode-bases/agent-harness.d.ts +10 -0
package/dist/pipeline/compiler/mode-bases/agent-harness.js +21 -0
package/dist/pipeline/compiler/mode-bases/index.d.ts +4 -0
package/dist/pipeline/compiler/mode-bases/index.js +4 -0
package/dist/pipeline/compiler/mode-bases/knowledge-probe.d.ts +10 -0
package/dist/pipeline/compiler/mode-bases/knowledge-probe.js +22 -0
package/dist/pipeline/compiler/mode-bases/literacy.d.ts +23 -0
package/dist/pipeline/compiler/mode-bases/literacy.js +132 -0
package/dist/pipeline/compiler/mode-bases/mcp-server.d.ts +10 -0
package/dist/pipeline/compiler/mode-bases/mcp-server.js +70 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/assertions.d.ts +43 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/assertions.js +187 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/compiler.d.ts +19 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/compiler.js +138 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/index.d.ts +16 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/index.js +43 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/prompts.d.ts +9 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/prompts.js +29 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/sandbox.d.ts +12 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/sandbox.js +82 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/tool-presets.d.ts +4 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/tool-presets.js +19 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/types.d.ts +49 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/types.js +4 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/validation.d.ts +9 -0
package/dist/pipeline/compiler/mode-handlers/agent-harness/validation.js +16 -0
package/dist/pipeline/compiler/mode-handlers/index.d.ts +6 -7
package/dist/pipeline/compiler/mode-handlers/index.js +6 -8
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/assertions.d.ts +16 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/assertions.js +61 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/compiler.d.ts +18 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/compiler.js +112 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/index.d.ts +26 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/index.js +49 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/prompts.d.ts +9 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/prompts.js +28 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/types.d.ts +44 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/types.js +4 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/validation.d.ts +9 -0
package/dist/pipeline/compiler/mode-handlers/knowledge-probe/validation.js +24 -0
package/dist/pipeline/compiler/mode-handlers/literacy/assertions.d.ts +18 -0
package/dist/pipeline/compiler/mode-handlers/literacy/assertions.js +118 -0
package/dist/pipeline/compiler/mode-handlers/literacy/compiler.d.ts +14 -0
package/dist/pipeline/compiler/mode-handlers/literacy/compiler.js +105 -0
package/dist/pipeline/compiler/mode-handlers/literacy/index.d.ts +11 -0
package/dist/pipeline/compiler/mode-handlers/literacy/index.js +38 -0
package/dist/pipeline/compiler/mode-handlers/literacy/prompts.d.ts +9 -0
package/dist/pipeline/compiler/mode-handlers/literacy/prompts.js +74 -0
package/dist/pipeline/compiler/mode-handlers/literacy/types.d.ts +41 -0
package/dist/pipeline/compiler/mode-handlers/literacy/types.js +4 -0
package/dist/pipeline/compiler/mode-handlers/literacy/validation.d.ts +12 -0
package/dist/pipeline/compiler/mode-handlers/literacy/validation.js +28 -0
package/dist/pipeline/compiler/mode-handlers/mcp-assertions.js +63 -6
package/dist/pipeline/compiler/mode-handlers/mcp-server/assertions.d.ts +42 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/assertions.js +334 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/compiler.d.ts +19 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/compiler.js +100 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/index.d.ts +27 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/index.js +54 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/prompts.d.ts +8 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/prompts.js +28 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/provider-config.d.ts +28 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/provider-config.js +108 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/types.d.ts +37 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/types.js +4 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/validation.d.ts +9 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server/validation.js +43 -0
package/dist/pipeline/compiler/mode-handlers/mcp-server-handler.d.ts +3 -1
package/dist/pipeline/compiler/mode-handlers/mcp-server-handler.js +65 -67
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider/index.d.ts +33 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider/index.js +191 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider/mcp-connection.d.ts +19 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider/mcp-connection.js +101 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider/tool-loop-anthropic.d.ts +19 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider/tool-loop-anthropic.js +172 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider/tool-loop-openai.d.ts +19 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider/tool-loop-openai.js +323 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider/types.d.ts +103 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider/types.js +4 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider.d.ts +65 -0
package/dist/pipeline/compiler/mode-handlers/mcp-tool-provider.js +368 -0
package/dist/pipeline/compiler/preset-loader.d.ts +22 -0
package/dist/pipeline/compiler/preset-loader.js +99 -0
package/dist/pipeline/compiler/presets/sanity-literacy.d.ts +7 -10
package/dist/pipeline/compiler/presets/sanity-literacy.js +11 -157
package/dist/pipeline/compiler/promptfoo-compiler.d.ts +1 -4
package/dist/pipeline/compiler/promptfoo-compiler.js +3 -12
package/dist/pipeline/compiler/provider-assembler.js +13 -7
package/dist/pipeline/compiler/sandbox/docker-sandbox.d.ts +1 -1
package/dist/pipeline/compiler/sandbox/docker-sandbox.js +1 -1
package/dist/pipeline/compiler/sandbox/fixture-provisioner.d.ts +1 -1
package/dist/pipeline/compiler/sandbox/fixture-provisioner.js +1 -1
package/dist/pipeline/compiler/sandbox/git-worktree-sandbox.d.ts +1 -1
package/dist/pipeline/compiler/sandbox/git-worktree-sandbox.js +1 -1
package/dist/pipeline/compiler/sandbox/index.d.ts +1 -1
package/dist/pipeline/compiler/sandbox/index.js +1 -1
package/dist/pipeline/compiler/sandbox/sandbox-selector.d.ts +1 -1
package/dist/pipeline/compiler/sandbox/sandbox-selector.js +1 -1
package/dist/pipeline/compiler/sandbox/sandbox-strategy.d.ts +1 -1
package/dist/pipeline/compiler/sandbox/sandbox-strategy.js +1 -1
package/dist/pipeline/compiler/sandbox/tempdir-sandbox.d.ts +1 -1
package/dist/pipeline/compiler/sandbox/tempdir-sandbox.js +1 -1
package/dist/pipeline/compiler/scoring-bridge.d.ts +1 -1
package/dist/pipeline/compiler/scoring-bridge.js +1 -1
package/dist/pipeline/compiler/task-bridge.d.ts +41 -0
package/dist/pipeline/compiler/task-bridge.js +92 -0
package/dist/pipeline/compiler/task-graph-builder.d.ts +1 -4
package/dist/pipeline/compiler/task-graph-builder.js +1 -4
package/dist/pipeline/compiler/telemetry/index.d.ts +1 -1
package/dist/pipeline/compiler/telemetry/index.js +1 -1
package/dist/pipeline/compiler/variable-resolver.d.ts +1 -1
package/dist/pipeline/compiler/variable-resolver.js +1 -1
package/dist/pipeline/coverage-audit.d.ts +1 -1
package/dist/pipeline/coverage-audit.js +1 -1
package/dist/pipeline/degradations.d.ts +1 -1
package/dist/pipeline/degradations.js +1 -1
package/dist/pipeline/expand-tasks.d.ts +2 -2
package/dist/pipeline/expand-tasks.js +2 -2
package/dist/pipeline/failure-modes.d.ts +1 -1
package/dist/pipeline/failure-modes.js +13 -1
package/dist/pipeline/gap-analysis.d.ts +1 -1
package/dist/pipeline/gap-analysis.js +3 -1
package/dist/pipeline/generate-configs.d.ts +2 -2
package/dist/pipeline/generate-configs.js +16 -9
package/dist/pipeline/grader-compare-runner.d.ts +1 -1
package/dist/pipeline/grader-compare-runner.js +7 -1
package/dist/pipeline/grader-comparison.d.ts +1 -1
package/dist/pipeline/grader-comparison.js +1 -1
package/dist/pipeline/grader-consistency-runner.d.ts +1 -1
package/dist/pipeline/grader-consistency-runner.js +7 -1
package/dist/pipeline/grader-consistency.d.ts +1 -1
package/dist/pipeline/grader-consistency.js +1 -1
package/dist/pipeline/grader-sensitivity-runner.d.ts +1 -1
package/dist/pipeline/grader-sensitivity-runner.js +1 -1
package/dist/pipeline/grader-sensitivity.d.ts +1 -1
package/dist/pipeline/grader-sensitivity.js +1 -1
package/dist/pipeline/grader-validate-runner.d.ts +1 -1
package/dist/pipeline/grader-validate-runner.js +2 -2
package/dist/pipeline/grader-validation.d.ts +1 -1
package/dist/pipeline/grader-validation.js +1 -1
package/dist/pipeline/map-request-to-config.js +16 -2
package/dist/pipeline/mirror-repo-tasks.d.ts +8 -8
package/dist/pipeline/mirror-repo-tasks.js +10 -10
package/dist/pipeline/plan-format.d.ts +1 -1
package/dist/pipeline/plan-format.js +1 -1
package/dist/pipeline/plan.d.ts +1 -1
package/dist/pipeline/plan.js +68 -30
package/dist/pipeline/probe.d.ts +1 -1
package/dist/pipeline/probe.js +1 -1
package/dist/pipeline/readiness-report.d.ts +2 -2
package/dist/pipeline/readiness-report.js +2 -2
package/dist/pipeline/release-classification.d.ts +1 -1
package/dist/pipeline/release-classification.js +1 -1
package/dist/pipeline/release-report.d.ts +1 -1
package/dist/pipeline/release-report.js +1 -1
package/dist/pipeline/repo-eval-comment.d.ts +1 -1
package/dist/pipeline/repo-eval-comment.js +1 -1
package/dist/pipeline/repo-threshold-evaluator.d.ts +1 -1
package/dist/pipeline/repo-threshold-evaluator.js +1 -1
package/dist/pipeline/resolve-mappings.d.ts +6 -6
package/dist/pipeline/resolve-mappings.js +44 -44
package/dist/pipeline/retrieval-metrics.d.ts +3 -3
package/dist/pipeline/retrieval-metrics.js +28 -20
package/dist/pipeline/steps/calculate-scores-step.d.ts +11 -0
package/dist/pipeline/steps/calculate-scores-step.js +89 -0
package/dist/pipeline/steps/compare-step.d.ts +18 -0
package/dist/pipeline/steps/compare-step.js +90 -0
package/dist/pipeline/steps/eval-step.d.ts +53 -0
package/dist/pipeline/steps/eval-step.js +347 -0
package/dist/pipeline/steps/fetch-docs-step.d.ts +11 -0
package/dist/pipeline/steps/fetch-docs-step.js +84 -0
package/dist/pipeline/steps/generate-configs-step.d.ts +11 -0
package/dist/pipeline/steps/generate-configs-step.js +98 -0
package/dist/pipeline/steps/grader-consistency-step.d.ts +21 -0
package/dist/pipeline/steps/grader-consistency-step.js +74 -0
package/dist/pipeline/steps/publish-report-step.d.ts +57 -0
package/dist/pipeline/steps/publish-report-step.js +243 -0
package/dist/pipeline/steps/report-step.d.ts +13 -0
package/dist/pipeline/steps/report-step.js +56 -0
package/dist/pipeline/steps/update-scores-step.d.ts +11 -0
package/dist/pipeline/steps/update-scores-step.js +42 -0
package/dist/pipeline/targeted-loo.d.ts +1 -1
package/dist/pipeline/targeted-loo.js +1 -1
package/dist/pipeline/thresholds.d.ts +1 -1
package/dist/pipeline/thresholds.js +1 -1
package/dist/pipeline/validate.js +13 -0
package/dist/report-store.d.ts +17 -0
package/dist/report-store.js +24 -0
package/dist/scripts/agent-behavior-report.d.ts +19 -0
package/dist/scripts/agent-behavior-report.js +315 -0
package/dist/scripts/baseline.d.ts +43 -0
package/dist/scripts/baseline.js +267 -0
package/dist/scripts/calculate-scores.d.ts +166 -0
package/dist/scripts/calculate-scores.js +1296 -0
package/dist/scripts/compare.d.ts +22 -0
package/dist/scripts/compare.js +334 -0
package/dist/scripts/coverage-audit.d.ts +44 -0
package/dist/scripts/coverage-audit.js +209 -0
package/dist/scripts/debug-eval.d.ts +19 -0
package/dist/scripts/debug-eval.js +73 -0
package/dist/scripts/discovery-report.d.ts +58 -0
package/dist/scripts/discovery-report.js +250 -0
package/dist/scripts/fetch-docs.d.ts +35 -0
package/dist/scripts/fetch-docs.js +472 -0
package/dist/scripts/generate-configs.d.ts +66 -0
package/dist/scripts/generate-configs.js +459 -0
package/dist/scripts/grader-api.d.ts +27 -0
package/dist/scripts/grader-api.js +206 -0
package/dist/scripts/grader-compare.d.ts +22 -0
package/dist/scripts/grader-compare.js +368 -0
package/dist/scripts/grader-consistency.d.ts +20 -0
package/dist/scripts/grader-consistency.js +313 -0
package/dist/scripts/grader-sensitivity.d.ts +22 -0
package/dist/scripts/grader-sensitivity.js +354 -0
package/dist/scripts/grader-validate.d.ts +19 -0
package/dist/scripts/grader-validate.js +267 -0
package/dist/scripts/measure-retrieval.d.ts +10 -0
package/dist/scripts/measure-retrieval.js +145 -0
package/dist/scripts/migrate-task-mode.d.ts +1 -1
package/dist/scripts/migrate-task-mode.js +1 -1
package/dist/scripts/migrate-tasks-to-content-lake.d.ts +1 -1
package/dist/scripts/migrate-tasks-to-content-lake.js +1 -1
package/dist/scripts/pipeline.d.ts +76 -0
package/dist/scripts/pipeline.js +1031 -0
package/dist/scripts/pr-comment.d.ts +10 -0
package/dist/scripts/pr-comment.js +510 -0
package/dist/scripts/readiness-report.d.ts +88 -0
package/dist/scripts/readiness-report.js +342 -0
package/dist/scripts/update-quality-scores.d.ts +15 -0
package/dist/scripts/update-quality-scores.js +184 -0
package/dist/scripts/validate-task-sources.d.ts +1 -1
package/dist/scripts/validate-task-sources.js +1 -1
package/dist/scripts/validate.d.ts +13 -0
package/dist/scripts/validate.js +79 -0
package/dist/scripts/webhook-server.d.ts +26 -0
package/dist/scripts/webhook-server.js +147 -0
package/dist/scripts/weekly-digest.d.ts +24 -0
package/dist/scripts/weekly-digest.js +144 -0
package/dist/sinks/format-slack.d.ts +64 -0
package/dist/sinks/format-slack.js +306 -0
package/dist/sinks/slack-sink.d.ts +27 -0
package/dist/sinks/slack-sink.js +78 -0
package/dist/sinks/types.d.ts +1 -1
package/dist/sinks/types.js +1 -1
package/dist/sinks/webhook-sink.d.ts +19 -0
package/dist/sinks/webhook-sink.js +50 -0
package/dist/tasks/knowledge-probe/define-type-api.task.ts +66 -0
package/dist/tasks/knowledge-probe/groq-projections.task.ts +62 -0
package/dist/tasks/literacy/content-lake.task.ts +181 -0
package/dist/tasks/literacy/frameworks.task.ts +129 -0
package/dist/tasks/literacy/functions.task.ts +70 -0
package/dist/tasks/literacy/groq.task.ts +259 -0
package/dist/tasks/literacy/image-handling.task.ts +95 -0
package/dist/tasks/literacy/nextjs-live.task.ts +76 -0
package/dist/tasks/literacy/portable-text.task.ts +169 -0
package/dist/tasks/literacy/studio-setup.task.ts +134 -0
package/dist/tasks/literacy/visual-editing.task.ts +147 -0
package/package.json +32 -24
package/tasks/.expanded.agentic.yaml +280 -0
package/tasks/.expanded.yaml +565 -0
package/tasks/knowledge-probe/define-type-api.task.ts +11 -0
package/tasks/knowledge-probe/groq-projections.task.ts +3 -0
package/tasks/literacy/content-lake.task.ts +181 -0
package/tasks/literacy/frameworks.task.ts +1 -0
package/tasks/literacy/functions.task.ts +1 -0
package/tasks/literacy/groq.task.ts +1 -0
package/tasks/literacy/image-handling.task.ts +95 -0
package/tasks/literacy/nextjs-live.task.ts +2 -1
package/tasks/literacy/portable-text.task.ts +169 -0
package/tasks/literacy/studio-setup.task.ts +5 -2
package/tasks/literacy/visual-editing.task.ts +1 -0
package/LICENSE +0 -21
package/tasks/frameworks.yaml +0 -98
package/tasks/functions.yaml +0 -51
package/tasks/groq.yaml +0 -216
package/tasks/nextjs-live.yaml +0 -62
package/tasks/studio-setup.yaml +0 -111
package/tasks/visual-editing.yaml +0 -120

package/dist/pipeline/calculate-scores.js CHANGED Viewed

@@ -25,7 +25,7 @@
  * All functions accept rootDir as a parameter — no module-level constants.
  * No process.argv parsing. No env var fallbacks.
  *
- * @see docs/exec-plans/eliminate-lib-layer.md
+ * @see docs/archive/exec-plans/eliminate-lib-layer.md
  */
 import { existsSync, mkdirSync, readFileSync, writeFileSync } from "fs";
 import { join } from "path";
@@ -454,40 +454,55 @@ function readAndNormalizeResults(resultsPath, log) {
         resultCount: wrapper.results.length,
         stats: wrapper.stats,
     });
-    const all = wrapper.results.map((r) => ({
-        cost: r.cost ?? 0,
-        description: r.testCase?.description ?? "unknown",
-        error: r.error,
-        gradingResult: r.gradingResult,
-        metadata: r.metadata,
-        provider: r.provider?.label ?? r.provider?.id,
-        providerId: r.provider?.id,
-        providerLabel: r.provider?.label,
-        response: r.response,
-        vars: r.vars ?? r.testCase?.vars ?? {},
-    }));
-    // Filter out results where gradingResult is null (errored/timed-out tests).
-    // Promptfoo sets gradingResult to null when a test errors before grading.
-    const valid = all.filter((r) => r.gradingResult !== null);
-    const skipped = all.length - valid.length;
-    _log.debug("Filtered null gradingResults", {
-        totalResults: all.length,
-        validResults: valid.length,
-        skippedCount: skipped,
-    });
-    if (skipped > 0) {
-        _log.warn(`⚠ Skipping ${skipped} of ${all.length} result(s) with null gradingResult (errored tests):`);
-        for (const r of all) {
-            if (r.gradingResult === null) {
-                const providerLabel = r.provider ? `[${r.provider}] ` : "";
-                const errorMsg = r.error
-                    ? r.error.slice(0, 150)
-                    : "unknown error (no error field in result)";
-                _log.warn(`✗ ${providerLabel}"${r.description}" — ${errorMsg}`);
-            }
+    // Normalize results. Errored tests (null gradingResult) get a synthetic
+    // zero-score result so they flow through scoring and failure mode
+    // classification as "api-error" instead of being silently dropped.
+    const results = [];
+    let synthesizedCount = 0;
+    for (const r of wrapper.results) {
+        const base = {
+            cost: r.cost ?? 0,
+            description: r.testCase?.description ?? "unknown",
+            metadata: r.metadata,
+            providerId: r.provider?.id,
+            providerLabel: r.provider?.label,
+            response: r.response ?? { output: "" },
+            vars: r.vars ?? r.testCase?.vars ?? {},
+        };
+        if (r.gradingResult === null || r.gradingResult === undefined) {
+            // Synthesize a zero-score result so errored tests are visible in
+            // scoring, gap analysis, and failure mode classification.
+            const errorMsg = r.error ?? "unknown error (null gradingResult)";
+            synthesizedCount++;
+            const providerLabel = r.provider?.label ?? r.provider?.id ?? "";
+            _log.warn(`⚠ [api-error] ${providerLabel ? `[${providerLabel}] ` : ""}"${base.description}" — ${errorMsg.slice(0, 150)}`);
+            results.push({
+                ...base,
+                gradingResult: {
+                    pass: false,
+                    componentResults: [
+                        {
+                            assertion: { type: "llm-rubric" },
+                            pass: false,
+                            reason: `[api-error] ${errorMsg}`,
+                            score: 0,
+                        },
+                    ],
+                },
+            });
         }
+        else {
+            results.push({ ...base, gradingResult: r.gradingResult });
+        }
+    }
+    _log.debug("Normalized results", {
+        totalResults: wrapper.results.length,
+        synthesizedApiErrors: synthesizedCount,
+    });
+    if (synthesizedCount > 0) {
+        _log.warn(`⚠ Synthesized ${synthesizedCount} zero-score result(s) for errored tests (api-error)`);
     }
-    return valid;
+    return results;
 }
 /**
  * Core scoring logic: takes a pre-filtered array of TestResult and produces
@@ -805,12 +820,34 @@ function computeTestSummary(resultsPath) {
             failed++;
         }
     }
+    // Extract per-test timing from latencyMs (when available from Promptfoo)
+    const durations = rawResults
+        .filter((r) => typeof r.latencyMs === "number")
+        .map((r) => ({
+        task: r.testCase?.description ?? "unknown",
+        model: r.provider?.label ?? r.provider?.id ?? "unknown",
+        durationMs: r.latencyMs,
+    }));
+    let timing;
+    if (durations.length > 0) {
+        const sorted = durations.map((d) => d.durationMs).sort((a, b) => a - b);
+        const medianMs = sorted[Math.floor(sorted.length / 2)];
+        const p95Ms = sorted[Math.floor(sorted.length * 0.95)];
+        const maxMs = sorted[sorted.length - 1];
+        // Flag tests exceeding 2x median (min 60s) as "slow"
+        const slowThreshold = Math.max(medianMs * 2, 60_000);
+        const slowTests = durations
+            .filter((d) => d.durationMs > slowThreshold)
+            .sort((a, b) => b.durationMs - a.durationMs);
+        timing = { medianMs, p95Ms, maxMs, slowTests };
+    }
     return {
         total: rawResults.length,
         passed,
         failed,
         errored,
         ...(errors.length > 0 ? { errors } : {}),
+        ...(timing ? { timing } : {}),
     };
 }
 function printPerModelReport(perModel, log) {

package/dist/pipeline/chronic-failures.d.ts ADDED Viewed

@@ -0,0 +1,55 @@
+/**
+ * pipeline/chronic-failures.ts
+ *
+ * Aggregates error data across recent reports to identify tasks that
+ * consistently fail (>threshold error rate). This catches structurally
+ * broken tasks — wrong model config, tasks too complex for the provider,
+ * persistent API incompatibility — that would otherwise be invisible.
+ *
+ * @see docs/exec-plans/eval-pipeline-timeout-resilience.md — Phase 5
+ */
+import type { ReportStore } from "../report-store.js";
+export interface ChronicFailureEntry {
+    /** Task ID */
+    task: string;
+    /** Error rate as a fraction (0–1) */
+    errorRate: number;
+    /** Number of runs with errors / total runs analyzed */
+    errorCount: number;
+    totalRuns: number;
+    /** Which models are affected and how often */
+    modelBreakdown: {
+        model: string;
+        errorCount: number;
+    }[];
+    /** Most common error message */
+    commonError: string;
+}
+export interface ChronicFailureReport {
+    /** Number of reports analyzed */
+    lookback: number;
+    /** Threshold used for classification */
+    threshold: number;
+    /** Tasks exceeding the error threshold */
+    failures: ChronicFailureEntry[];
+    /** Total reports found (may be less than lookback if not enough history) */
+    reportsFound: number;
+}
+export interface ChronicFailureOptions {
+    /** Number of recent reports to analyze (default: 10) */
+    lookback?: number;
+    /** Error rate threshold (0–1) for "chronic" classification (default: 0.5) */
+    threshold?: number;
+}
+/**
+ * Query recent reports and identify tasks with chronic failures.
+ *
+ * @param reportStore - The report store to query
+ * @param options - Lookback window and threshold
+ * @returns Chronic failure report, or null if no reports found
+ */
+export declare function detectChronicFailures(reportStore: ReportStore, options?: ChronicFailureOptions): Promise<ChronicFailureReport>;
+/**
+ * Format a chronic failure report for console output.
+ */
+export declare function formatChronicFailuresConsole(report: ChronicFailureReport): string;

package/dist/pipeline/chronic-failures.js ADDED Viewed

@@ -0,0 +1,110 @@
+/**
+ * pipeline/chronic-failures.ts
+ *
+ * Aggregates error data across recent reports to identify tasks that
+ * consistently fail (>threshold error rate). This catches structurally
+ * broken tasks — wrong model config, tasks too complex for the provider,
+ * persistent API incompatibility — that would otherwise be invisible.
+ *
+ * @see docs/exec-plans/eval-pipeline-timeout-resilience.md — Phase 5
+ */
+// ---------------------------------------------------------------------------
+// Public API
+// ---------------------------------------------------------------------------
+/**
+ * Query recent reports and identify tasks with chronic failures.
+ *
+ * @param reportStore - The report store to query
+ * @param options - Lookback window and threshold
+ * @returns Chronic failure report, or null if no reports found
+ */
+export async function detectChronicFailures(reportStore, options = {}) {
+    const lookback = options.lookback ?? 10;
+    const threshold = options.threshold ?? 0.5;
+    const reports = await reportStore.queryRecentErrors(lookback);
+    if (reports.length === 0) {
+        return { lookback, threshold, failures: [], reportsFound: 0 };
+    }
+    // Aggregate errors by task
+    const taskErrors = new Map();
+    for (const report of reports) {
+        for (const error of report.errors) {
+            let entry = taskErrors.get(error.task);
+            if (!entry) {
+                entry = {
+                    runsWith: new Set(),
+                    modelErrors: new Map(),
+                    errors: [],
+                };
+                taskErrors.set(error.task, entry);
+            }
+            entry.runsWith.add(report.reportId);
+            entry.modelErrors.set(error.model, (entry.modelErrors.get(error.model) ?? 0) + 1);
+            entry.errors.push(error.error);
+        }
+    }
+    // Identify chronic failures (error rate > threshold)
+    const failures = [];
+    const totalRuns = reports.length;
+    for (const [task, data] of taskErrors) {
+        const errorRate = data.runsWith.size / totalRuns;
+        if (errorRate >= threshold) {
+            // Find the most common error message
+            const errorCounts = new Map();
+            for (const err of data.errors) {
+                const truncated = err.slice(0, 200);
+                errorCounts.set(truncated, (errorCounts.get(truncated) ?? 0) + 1);
+            }
+            const commonError = [...errorCounts.entries()].sort((a, b) => b[1] - a[1])[0]?.[0] ??
+                "unknown";
+            const modelBreakdown = [...data.modelErrors.entries()]
+                .map(([model, errorCount]) => ({ model, errorCount }))
+                .sort((a, b) => b.errorCount - a.errorCount);
+            failures.push({
+                task,
+                errorRate,
+                errorCount: data.runsWith.size,
+                totalRuns,
+                modelBreakdown,
+                commonError,
+            });
+        }
+    }
+    // Sort by error rate descending
+    failures.sort((a, b) => b.errorRate - a.errorRate);
+    return { lookback, threshold, failures, reportsFound: reports.length };
+}
+// ---------------------------------------------------------------------------
+// Formatting
+// ---------------------------------------------------------------------------
+/**
+ * Format a chronic failure report for console output.
+ */
+export function formatChronicFailuresConsole(report) {
+    const lines = [];
+    lines.push(`Chronic Failure Report (last ${report.reportsFound} runs)`);
+    lines.push("━".repeat(50));
+    lines.push("");
+    if (report.failures.length === 0) {
+        lines.push("  ✅ No chronic failures detected (all tasks below " +
+            `${(report.threshold * 100).toFixed(0)}% error threshold)`);
+        lines.push("");
+        return lines.join("\n");
+    }
+    lines.push(`  ⚠ ${report.failures.length} task(s) with chronic failures ` +
+        `(>${(report.threshold * 100).toFixed(0)}% error rate):`);
+    lines.push("");
+    for (const f of report.failures) {
+        lines.push(`  ${f.task}`);
+        lines.push(`    Error rate: ${f.errorCount}/${f.totalRuns} runs ` +
+            `(${(f.errorRate * 100).toFixed(0)}%)`);
+        const models = f.modelBreakdown
+            .map((m) => `${m.model} (${m.errorCount})`)
+            .join(", ");
+        lines.push(`    Models affected: ${models}`);
+        lines.push(`    Common error: "${f.commonError}"`);
+        lines.push("    Suggested action: Increase timeoutMs for affected models or simplify task");
+        lines.push("");
+    }
+    return lines.join("\n");
+}

package/dist/pipeline/compiler/__tests__/agent-harness-handler.test.js CHANGED Viewed

@@ -10,7 +10,7 @@
 import assert from "node:assert/strict";
 import { describe, it } from "node:test";
 import { LiteracyVariant } from "../../normalize-mode.js";
-import { compileAgentHarnessTask, AGENT_HARNESS_PROMPT_TEMPLATES, handler as agentHandler, validateAgentHarnessTask, } from "../mode-handlers/agent-harness-handler.js";
+import { compileAgentHarnessTask, AGENT_HARNESS_PROMPT_TEMPLATES, handler as agentHandler, validateAgentHarnessTask, } from "../mode-handlers/agent-harness/index.js";
 import { allAgentHarnessExampleTasks, scaffoldProjectTask, modifyCodeTask, multiFileRefactorTask, } from "../mode-handlers/__fixtures__/agent-harness-example-tasks.js";
 // ---------------------------------------------------------------------------
 // Helpers

package/dist/pipeline/compiler/__tests__/knowledge-probe-handler.test.js CHANGED Viewed

@@ -10,7 +10,7 @@
 import assert from "node:assert/strict";
 import { describe, it } from "node:test";
 import { LiteracyVariant } from "../../normalize-mode.js";
-import { compileKnowledgeProbeTask, handler as probeHandler, KNOWLEDGE_PROBE_PROMPT_TEMPLATES, validateKnowledgeProbeTask, } from "../mode-handlers/knowledge-probe-handler.js";
+import { compileKnowledgeProbeTask, handler as probeHandler, KNOWLEDGE_PROBE_PROMPT_TEMPLATES, validateKnowledgeProbeTask, } from "../mode-handlers/knowledge-probe/index.js";
 import { allKnowledgeProbeExampleTasks, groqProjectionTask, defineTypeApiTask, ecosystemComparisonTask, } from "../mode-handlers/__fixtures__/knowledge-probe-example-tasks.js";
 // ---------------------------------------------------------------------------
 // Helpers

package/dist/pipeline/compiler/__tests__/literacy-handler.test.js CHANGED Viewed

@@ -10,7 +10,7 @@
 import assert from "node:assert/strict";
 import { describe, it } from "node:test";
 import { LiteracyVariant } from "../../normalize-mode.js";
-import { compileLiteracyTask, validateLiteracyTask, } from "../mode-handlers/literacy-handler.js";
+import { compileLiteracyTask, validateLiteracyTask, } from "../mode-handlers/literacy/index.js";
 import { compileLiteracyTasks, compareCompilerOutputs, } from "../literacy-bridge.js";
 // ---------------------------------------------------------------------------
 // Helpers

package/dist/pipeline/compiler/__tests__/mcp-server-handler.test.js CHANGED Viewed

@@ -10,8 +10,7 @@
 import assert from "node:assert/strict";
 import { describe, it } from "node:test";
 import { LiteracyVariant } from "../../normalize-mode.js";
-import { compileMCPTask, handler as mcpHandler, MCP_PROMPT_TEMPLATES, validateMCPTask, } from "../mode-handlers/mcp-server-handler.js";
-import { buildMCPAssertions } from "../mode-handlers/mcp-assertions.js";
+import { buildMCPAssertions, compileMCPTask, handler as mcpHandler, MCP_PROMPT_TEMPLATES, validateMCPTask, } from "../mode-handlers/mcp-server/index.js";
 import { allMCPExampleTasks, createAndPublishTask, inspectSchemaTask, queryDocumentsTask, semanticSearchTask, stdioServerTask, } from "../mode-handlers/__fixtures__/mcp-example-tasks.js";
 // ---------------------------------------------------------------------------
 // Helpers
@@ -26,6 +25,29 @@ function makeMinimalMCPTask(overrides) {
         ...overrides,
     };
 }
+/** Test models for compilation — simulates models from the registry */
+const TEST_MODELS = [
+    {
+        id: "anthropic:messages:claude-opus-4-6",
+        label: "Claude Opus 4.6",
+        config: { temperature: 0.2 },
+    },
+    {
+        id: "openai:responses:gpt-5.4",
+        label: "GPT 5.4",
+        config: { reasoning_effort: "medium" },
+    },
+];
+/** The custom MCP provider file:// path */
+const MCP_PROVIDER_PATH = "file://dist/pipeline/compiler/mode-handlers/mcp-tool-provider/index.js";
+/** Helper to get provider config */
+function cfg(provider) {
+    return provider.config;
+}
+/** Helper to get mcpServer sub-config from provider */
+function serverCfg(provider) {
+    return cfg(provider)?.mcpServer;
+}
 // ---------------------------------------------------------------------------
 // handler.getPrompts() — prompt template ownership
 // ---------------------------------------------------------------------------
@@ -38,11 +60,9 @@ describe("MCPServerHandler.getPrompts", () => {
     it("returns templates keyed by MCP-specific IDs (not literacy names)", () => {
         const prompts = mcpHandler.getPrompts();
         const keys = Object.keys(prompts);
-        // Must not use literacy template names
         assert.ok(!keys.includes("with-docs"), "should not use literacy key 'with-docs'");
         assert.ok(!keys.includes("without-docs"), "should not use literacy key 'without-docs'");
         assert.ok(!keys.includes(LiteracyVariant.AGENTIC), "should not use literacy key 'agentic'");
-        // Must have MCP-appropriate key(s)
         assert.ok(keys.includes("mcp-server"), "should include 'mcp-server' template");
     });
     it("mcp-server template instructs model to use MCP tools", () => {
@@ -50,7 +70,6 @@ describe("MCPServerHandler.getPrompts", () => {
         const template = prompts["mcp-server"];
         assert.ok(template, "mcp-server template should exist");
         assert.ok(template.template.includes("{{task}}"), "should include {{task}} placeholder");
-        // Should reference MCP tools / tool usage
         assert.ok(/tool/i.test(template.template), "template should mention tools (MCP-appropriate content)");
     });
     it("template has correct PromptTemplate shape", () => {
@@ -121,70 +140,124 @@ describe("validateMCPTask", () => {
     });
 });
 // ---------------------------------------------------------------------------
-// compileMCPTask
+// compileMCPTask — provider assembly
 // ---------------------------------------------------------------------------
 describe("compileMCPTask", () => {
     it("produces provider, tests, and prompts", () => {
-        const result = compileMCPTask(makeMinimalMCPTask());
+        const result = compileMCPTask(makeMinimalMCPTask(), { models: TEST_MODELS });
         assert.ok(result.providers.length > 0, "Should produce providers");
         assert.ok(result.tests.length > 0, "Should produce test cases");
         assert.ok(result.prompts.length > 0, "Should produce prompts");
     });
-    it("builds Promptfoo-native MCP provider for stdio", () => {
+    it("emits file:// providers using the custom MCP tool provider", () => {
         const result = compileMCPTask(makeMinimalMCPTask({
             serverConfig: {
                 transport: "stdio",
                 command: "node dist/server.js --flag",
             },
-        }));
-        assert.equal(result.providers.length, 1);
-        assert.equal(result.providers[0].id, "mcp");
-        const config = result.providers[0].config;
-        assert.equal(config.enabled, true);
-        const server = config.server;
-        assert.equal(server.command, "node");
-        assert.deepEqual(server.args, ["dist/server.js", "--flag"]);
-    });
-    it("builds Promptfoo-native MCP provider for URL-based transport", () => {
+        }), { models: TEST_MODELS });
+        assert.equal(result.providers.length, 2, "One provider per model");
+        // All providers use the custom MCP tool provider path
+        assert.equal(result.providers[0].id, MCP_PROVIDER_PATH);
+        assert.equal(result.providers[1].id, MCP_PROVIDER_PATH);
+        // Model ID is passed in config
+        assert.equal(cfg(result.providers[0]).model, "anthropic:messages:claude-opus-4-6");
+        assert.equal(cfg(result.providers[1]).model, "openai:responses:gpt-5.4");
+        // MCP server config is in config.mcpServer
+        const server = serverCfg(result.providers[0]);
+        assert.equal(server.command, "node dist/server.js --flag");
+    });
+    it("preserves model config in provider config", () => {
+        const result = compileMCPTask(makeMinimalMCPTask({
+            serverConfig: { transport: "sse", url: "http://localhost:3000/sse" },
+        }), { models: TEST_MODELS });
+        const c = cfg(result.providers[0]);
+        assert.equal(c.temperature, 0.2, "Model config preserved");
+        assert.ok(c.mcpServer, "MCP server config present");
+        assert.equal(c.maxToolRounds, 5, "Default maxToolRounds");
+    });
+    it("builds MCP server config for URL-based transport", () => {
+        const result = compileMCPTask(makeMinimalMCPTask({
+            serverConfig: { transport: "sse", url: "http://localhost:3000/sse" },
+        }), { models: TEST_MODELS });
+        const server = serverCfg(result.providers[0]);
+        assert.equal(server.url, "http://localhost:3000/sse");
+    });
+    it("maps auth config to mcpServer config", () => {
         const result = compileMCPTask(makeMinimalMCPTask({
             serverConfig: {
-                transport: "sse",
-                url: "http://localhost:3000/sse",
+                transport: "streamable-http",
+                url: "https://mcp.example.com",
+                auth: { type: "bearer", token: "{{env.MY_TOKEN}}" },
             },
-        }));
-        assert.equal(result.providers[0].id, "mcp");
-        const config = result.providers[0].config;
-        const server = config.server;
-        assert.equal(server.url, "http://localhost:3000/sse");
+        }), { models: TEST_MODELS });
+        const server = serverCfg(result.providers[0]);
+        assert.deepEqual(server.auth, { type: "bearer", token: "{{env.MY_TOKEN}}" });
     });
-    it("maps auth config to Promptfoo provider", () => {
+    it("maps headers to mcpServer config", () => {
         const result = compileMCPTask(makeMinimalMCPTask({
             serverConfig: {
                 transport: "streamable-http",
                 url: "https://mcp.example.com",
-                auth: {
-                    type: "bearer",
-                    token: "{{env.MY_TOKEN}}",
+                headers: {
+                    Authorization: "Bearer {{env.MY_TOKEN}}",
+                    "X-Custom": "value",
                 },
             },
-        }));
-        const config = result.providers[0].config;
-        const server = config.server;
+        }), { models: TEST_MODELS });
+        const server = serverCfg(result.providers[0]);
+        assert.deepEqual(server.headers, {
+            Authorization: "Bearer {{env.MY_TOKEN}}",
+            "X-Custom": "value",
+        });
+    });
+    it("passes both headers and auth when both present", () => {
+        const result = compileMCPTask(makeMinimalMCPTask({
+            serverConfig: {
+                transport: "streamable-http",
+                url: "https://mcp.example.com",
+                headers: { "X-Custom": "value" },
+                auth: { type: "bearer", token: "{{env.MY_TOKEN}}" },
+            },
+        }), { models: TEST_MODELS });
+        const server = serverCfg(result.providers[0]);
+        assert.deepEqual(server.headers, { "X-Custom": "value" });
         assert.deepEqual(server.auth, {
             type: "bearer",
             token: "{{env.MY_TOKEN}}",
         });
     });
-    it("maps capabilities to Promptfoo tools filter", () => {
+    it("maps capabilities to mcpTools config", () => {
         const result = compileMCPTask(makeMinimalMCPTask({
             capabilities: ["query_documents", "get_schema"],
             serverConfig: {
                 transport: "streamable-http",
                 url: "https://mcp.example.com",
             },
-        }));
-        const config = result.providers[0].config;
-        assert.deepEqual(config.tools, ["query_documents", "get_schema"]);
+        }), { models: TEST_MODELS });
+        assert.deepEqual(cfg(result.providers[0]).mcpTools, [
+            "query_documents",
+            "get_schema",
+        ]);
+    });
+    it("uses task-level models override when specified", () => {
+        const result = compileMCPTask(makeMinimalMCPTask({
+            models: ["anthropic:messages:claude-sonnet-4-20250514"],
+            serverConfig: { transport: "sse", url: "http://localhost:3000" },
+        }), { models: TEST_MODELS });
+        assert.equal(result.providers.length, 1);
+        assert.equal(cfg(result.providers[0]).model, "anthropic:messages:claude-sonnet-4-20250514");
+    });
+    it("respects task-level maxToolRounds", () => {
+        const result = compileMCPTask(makeMinimalMCPTask({ maxToolRounds: 10 }), {
+            models: TEST_MODELS,
+        });
+        assert.equal(cfg(result.providers[0]).maxToolRounds, 10);
+    });
+    it("falls back to default model when no models provided", () => {
+        const result = compileMCPTask(makeMinimalMCPTask());
+        assert.ok(result.providers.length > 0, "Should have a fallback provider");
+        assert.ok(result.warnings.some((w) => w.includes("no models")));
     });
     it("uses task description as prompt text", () => {
         const result = compileMCPTask(makeMinimalMCPTask({
@@ -217,7 +290,6 @@ describe("compileMCPTask", () => {
                 ],
             },
         }));
-        // Primary + multi-turn test cases
         assert.equal(result.tests.length, 2);
         assert.ok(result.tests[1].description.includes("[multi-turn]"));
     });
@@ -293,63 +365,61 @@ describe("buildMCPAssertions", () => {
 // Example task compilation (end-to-end)
 // ---------------------------------------------------------------------------
 describe("example MCP tasks — end-to-end compilation", () => {
+    const opts = { models: TEST_MODELS };
     it("compiles all example tasks without errors", () => {
         for (const task of allMCPExampleTasks) {
-            const result = compileMCPTask(task);
+            const result = compileMCPTask(task, opts);
             assert.ok(result.providers.length > 0, `${task.id}: should produce providers`);
             assert.ok(result.tests.length > 0, `${task.id}: should produce test cases`);
             assert.ok(result.prompts.length > 0, `${task.id}: should produce prompts`);
         }
     });
     it("query task has tool-called + contains + llm-rubric assertions", () => {
-        const result = compileMCPTask(queryDocumentsTask);
+        const result = compileMCPTask(queryDocumentsTask, opts);
         const asserts = result.tests[0].assert;
-        // tool-called (→ javascript), contains × 2, llm-rubric
         assert.equal(asserts.length, 4);
-        assert.equal(asserts[0].type, "javascript"); // tool-called → javascript
+        assert.equal(asserts[0].type, "javascript");
         assert.equal(asserts[1].type, "contains");
         assert.equal(asserts[2].type, "contains");
         assert.equal(asserts[3].type, "llm-rubric");
     });
     it("schema task uses get_schema tool", () => {
-        const result = compileMCPTask(inspectSchemaTask);
+        const result = compileMCPTask(inspectSchemaTask, opts);
         const asserts = result.tests[0].assert;
         assert.ok(asserts.some((a) => a.type === "javascript" && a.value.includes("get_schema")), "Should have tool-called assertion for get_schema");
     });
     it("create-publish task produces multi-turn test case", () => {
-        const result = compileMCPTask(createAndPublishTask);
-        // Primary + multi-turn
+        const result = compileMCPTask(createAndPublishTask, opts);
         assert.equal(result.tests.length, 2);
         assert.ok(result.tests[1].description?.includes("[multi-turn]"));
     });
-    it("stdio task has Promptfoo-native MCP provider with command", () => {
-        const result = compileMCPTask(stdioServerTask);
-        assert.equal(result.providers[0].id, "mcp");
-        const config = result.providers[0].config;
-        assert.equal(config.enabled, true);
-        const server = config.server;
-        assert.equal(server.command, "node");
-        assert.deepEqual(server.args, ["dist/sanity-mcp-server.js"]);
+    it("stdio task uses custom provider with command config", () => {
+        const result = compileMCPTask(stdioServerTask, opts);
+        assert.equal(result.providers[0].id, MCP_PROVIDER_PATH);
+        assert.equal(cfg(result.providers[0]).model, "anthropic:messages:claude-opus-4-6");
+        const server = serverCfg(result.providers[0]);
+        assert.equal(server.command, "node dist/sanity-mcp-server.js");
     });
     it("semantic search task has two tool-called + one llm-rubric assertion", () => {
-        const result = compileMCPTask(semanticSearchTask);
+        const result = compileMCPTask(semanticSearchTask, opts);
         const asserts = result.tests[0].assert;
-        // tool-called × 2 (→ javascript) + llm-rubric
         assert.equal(asserts.length, 3);
-        assert.equal(asserts[0].type, "javascript"); // tool-called → javascript
-        assert.ok(asserts[0].value.includes("list_embeddings_indices"), "Should have tool-called assertion for list_embeddings_indices");
-        assert.equal(asserts[1].type, "javascript"); // tool-called → javascript
-        assert.ok(asserts[1].value.includes("semantic_search"), "Should have tool-called assertion for semantic_search");
+        assert.equal(asserts[0].type, "javascript");
+        assert.ok(asserts[0].value.includes("list_embeddings_indices"));
+        assert.equal(asserts[1].type, "javascript");
+        assert.ok(asserts[1].value.includes("semantic_search"));
         assert.equal(asserts[2].type, "llm-rubric");
     });
     it("remote task has bearer auth and tools filter", () => {
-        const result = compileMCPTask(queryDocumentsTask);
-        const config = result.providers[0].config;
-        const server = config.server;
+        const result = compileMCPTask(queryDocumentsTask, opts);
+        const server = serverCfg(result.providers[0]);
         assert.deepEqual(server.auth, {
             type: "bearer",
             token: "{{env.SANITY_MCP_AUTH_TOKEN}}",
         });
-        assert.deepEqual(config.tools, ["query_documents", "get_schema"]);
+        assert.deepEqual(cfg(result.providers[0]).mcpTools, [
+            "query_documents",
+            "get_schema",
+        ]);
     });
 });