npm - @sanity/ailf - Versions diffs - 0.1.0 - Mend

@sanity/ailf 0.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (530) hide show

package/README.md +89 -0
package/bin/ailf.js +64 -0
package/canonical/grader-references/README.md +88 -0
package/canonical/grader-references/groq.yaml +234 -0
package/canonical/grader-references/studio-setup.yaml +275 -0
package/canonical/reference-solutions/.gitkeep +1 -0
package/canonical/reference-solutions/frameworks/nuxt.ts +119 -0
package/canonical/reference-solutions/frameworks/remix.tsx +100 -0
package/canonical/reference-solutions/functions/publish-webhook.ts +60 -0
package/canonical/reference-solutions/groq/advanced-filtering.ts +379 -0
package/canonical/reference-solutions/groq/blog-queries.ts +137 -0
package/canonical/reference-solutions/groq/joins-references.ts +300 -0
package/canonical/reference-solutions/nextjs/app-router-integration.tsx +128 -0
package/canonical/reference-solutions/studio-setup/blog-schema.ts +143 -0
package/canonical/reference-solutions/studio-setup/custom-tool.tsx +78 -0
package/canonical/reference-solutions/visual-editing/live-preview.tsx +137 -0
package/canonical/reference-solutions/visual-editing/presentation-nextjs.tsx +130 -0
package/config/airbyte/ai_literacy_framework.connector.yaml +639 -0
package/config/bigquery/README.md +74 -0
package/config/bigquery/views/area_scores.sql +87 -0
package/config/bigquery/views/reports.sql +49 -0
package/config/features.yaml +116 -0
package/config/models.yaml +115 -0
package/config/prompts.yaml +75 -0
package/config/rubrics.yaml +62 -0
package/config/schedules.yaml +43 -0
package/config/sinks.yaml +54 -0
package/config/sources.yaml +51 -0
package/config/thresholds.yaml +49 -0
package/dist/_vendor/ailf-core/examples/index.d.ts +190 -0
package/dist/_vendor/ailf-core/examples/index.js +285 -0
package/dist/_vendor/ailf-core/index.d.ts +17 -0
package/dist/_vendor/ailf-core/index.js +17 -0
package/dist/_vendor/ailf-core/ports/cache-store.d.ts +72 -0
package/dist/_vendor/ailf-core/ports/cache-store.js +17 -0
package/dist/_vendor/ailf-core/ports/config-source.d.ts +33 -0
package/dist/_vendor/ailf-core/ports/config-source.js +15 -0
package/dist/_vendor/ailf-core/ports/context.d.ts +172 -0
package/dist/_vendor/ailf-core/ports/context.js +14 -0
package/dist/_vendor/ailf-core/ports/doc-fetcher.d.ts +131 -0
package/dist/_vendor/ailf-core/ports/doc-fetcher.js +12 -0
package/dist/_vendor/ailf-core/ports/eval-runner.d.ts +24 -0
package/dist/_vendor/ailf-core/ports/eval-runner.js +8 -0
package/dist/_vendor/ailf-core/ports/index.d.ts +15 -0
package/dist/_vendor/ailf-core/ports/index.js +7 -0
package/dist/_vendor/ailf-core/ports/logger.d.ts +36 -0
package/dist/_vendor/ailf-core/ports/logger.js +11 -0
package/dist/_vendor/ailf-core/ports/pipeline-step.d.ts +46 -0
package/dist/_vendor/ailf-core/ports/pipeline-step.js +8 -0
package/dist/_vendor/ailf-core/ports/task-source.d.ts +159 -0
package/dist/_vendor/ailf-core/ports/task-source.js +72 -0
package/dist/_vendor/ailf-core/schemas/callback-payload.d.ts +24 -0
package/dist/_vendor/ailf-core/schemas/callback-payload.js +29 -0
package/dist/_vendor/ailf-core/schemas/eval-config.d.ts +55 -0
package/dist/_vendor/ailf-core/schemas/eval-config.js +78 -0
package/dist/_vendor/ailf-core/schemas/index.d.ts +16 -0
package/dist/_vendor/ailf-core/schemas/index.js +16 -0
package/dist/_vendor/ailf-core/schemas/pipeline-request.d.ts +125 -0
package/dist/_vendor/ailf-core/schemas/pipeline-request.js +67 -0
package/dist/_vendor/ailf-core/schemas/pipeline.d.ts +531 -0
package/dist/_vendor/ailf-core/schemas/pipeline.js +318 -0
package/dist/_vendor/ailf-core/schemas/schedules.d.ts +68 -0
package/dist/_vendor/ailf-core/schemas/schedules.js +74 -0
package/dist/_vendor/ailf-core/schemas/sinks.d.ts +207 -0
package/dist/_vendor/ailf-core/schemas/sinks.js +108 -0
package/dist/_vendor/ailf-core/services/comparison-formatters.d.ts +18 -0
package/dist/_vendor/ailf-core/services/comparison-formatters.js +189 -0
package/dist/_vendor/ailf-core/services/config-helpers.d.ts +41 -0
package/dist/_vendor/ailf-core/services/config-helpers.js +86 -0
package/dist/_vendor/ailf-core/services/index.d.ts +12 -0
package/dist/_vendor/ailf-core/services/index.js +12 -0
package/dist/_vendor/ailf-core/services/scoring.d.ts +49 -0
package/dist/_vendor/ailf-core/services/scoring.js +222 -0
package/dist/_vendor/ailf-core/types/index.d.ts +1082 -0
package/dist/_vendor/ailf-core/types/index.js +21 -0
package/dist/_vendor/ailf-core/types/scoring-input.d.ts +54 -0
package/dist/_vendor/ailf-core/types/scoring-input.js +9 -0
package/dist/_vendor/ailf-shared/dimension-names.d.ts +21 -0
package/dist/_vendor/ailf-shared/dimension-names.js +27 -0
package/dist/_vendor/ailf-shared/document-ref.d.ts +29 -0
package/dist/_vendor/ailf-shared/document-ref.js +1 -0
package/dist/_vendor/ailf-shared/eval-modes.d.ts +12 -0
package/dist/_vendor/ailf-shared/eval-modes.js +8 -0
package/dist/_vendor/ailf-shared/index.d.ts +16 -0
package/dist/_vendor/ailf-shared/index.js +16 -0
package/dist/_vendor/ailf-shared/noise-threshold.d.ts +9 -0
package/dist/_vendor/ailf-shared/noise-threshold.js +9 -0
package/dist/_vendor/ailf-shared/score-grades.d.ts +17 -0
package/dist/_vendor/ailf-shared/score-grades.js +23 -0
package/dist/adapters/cache/content-lake-cache.d.ts +24 -0
package/dist/adapters/cache/content-lake-cache.js +59 -0
package/dist/adapters/cache/filesystem-cache.d.ts +18 -0
package/dist/adapters/cache/filesystem-cache.js +54 -0
package/dist/adapters/cache/index.d.ts +2 -0
package/dist/adapters/cache/index.js +2 -0
package/dist/adapters/config-sources/cli-config-adapter.d.ts +17 -0
package/dist/adapters/config-sources/cli-config-adapter.js +23 -0
package/dist/adapters/config-sources/file-config-adapter.d.ts +26 -0
package/dist/adapters/config-sources/file-config-adapter.js +96 -0
package/dist/adapters/config-sources/index.d.ts +2 -0
package/dist/adapters/config-sources/index.js +2 -0
package/dist/adapters/doc-fetchers/index.d.ts +1 -0
package/dist/adapters/doc-fetchers/index.js +1 -0
package/dist/adapters/doc-fetchers/sanity-doc-fetcher.d.ts +76 -0
package/dist/adapters/doc-fetchers/sanity-doc-fetcher.js +620 -0
package/dist/adapters/eval-runners/index.d.ts +1 -0
package/dist/adapters/eval-runners/index.js +1 -0
package/dist/adapters/eval-runners/promptfoo-eval-adapter.d.ts +14 -0
package/dist/adapters/eval-runners/promptfoo-eval-adapter.js +63 -0
package/dist/adapters/index.d.ts +12 -0
package/dist/adapters/index.js +12 -0
package/dist/adapters/loggers/console-logger.d.ts +22 -0
package/dist/adapters/loggers/console-logger.js +54 -0
package/dist/adapters/loggers/index.d.ts +9 -0
package/dist/adapters/loggers/index.js +9 -0
package/dist/adapters/loggers/json-logger.d.ts +18 -0
package/dist/adapters/loggers/json-logger.js +33 -0
package/dist/adapters/loggers/quiet-logger.d.ts +16 -0
package/dist/adapters/loggers/quiet-logger.js +30 -0
package/dist/adapters/task-sources/composite-task-source.d.ts +20 -0
package/dist/adapters/task-sources/composite-task-source.js +59 -0
package/dist/adapters/task-sources/content-lake-task-source.d.ts +20 -0
package/dist/adapters/task-sources/content-lake-task-source.js +219 -0
package/dist/adapters/task-sources/index.d.ts +7 -0
package/dist/adapters/task-sources/index.js +7 -0
package/dist/adapters/task-sources/repo-schemas.d.ts +245 -0
package/dist/adapters/task-sources/repo-schemas.js +234 -0
package/dist/adapters/task-sources/repo-task-source.d.ts +22 -0
package/dist/adapters/task-sources/repo-task-source.js +104 -0
package/dist/adapters/task-sources/repo-trigger.d.ts +52 -0
package/dist/adapters/task-sources/repo-trigger.js +153 -0
package/dist/adapters/task-sources/repo-validation.d.ts +49 -0
package/dist/adapters/task-sources/repo-validation.js +164 -0
package/dist/adapters/task-sources/yaml-task-source.d.ts +18 -0
package/dist/adapters/task-sources/yaml-task-source.js +136 -0
package/dist/agent-observer/agentic-provider.d.ts +132 -0
package/dist/agent-observer/agentic-provider.js +983 -0
package/dist/agent-observer/classifier.d.ts +62 -0
package/dist/agent-observer/classifier.js +269 -0
package/dist/agent-observer/index.d.ts +7 -0
package/dist/agent-observer/index.js +4 -0
package/dist/agent-observer/pricing.d.ts +35 -0
package/dist/agent-observer/pricing.js +82 -0
package/dist/agent-observer/provider.d.ts +77 -0
package/dist/agent-observer/provider.js +151 -0
package/dist/agent-observer/proxy.d.ts +91 -0
package/dist/agent-observer/proxy.js +321 -0
package/dist/agent-observer/test-imports.d.ts +7 -0
package/dist/agent-observer/test-imports.js +185 -0
package/dist/agent-observer/types.d.ts +137 -0
package/dist/agent-observer/types.js +16 -0
package/dist/assertions/source-isolation.d.ts +72 -0
package/dist/assertions/source-isolation.js +117 -0
package/dist/cli.d.ts +24 -0
package/dist/cli.js +199 -0
package/dist/commands/agent-report.d.ts +5 -0
package/dist/commands/agent-report.js +69 -0
package/dist/commands/baseline.d.ts +9 -0
package/dist/commands/baseline.js +141 -0
package/dist/commands/cache.d.ts +13 -0
package/dist/commands/cache.js +135 -0
package/dist/commands/calculate-scores.d.ts +8 -0
package/dist/commands/calculate-scores.js +48 -0
package/dist/commands/compare.d.ts +8 -0
package/dist/commands/compare.js +120 -0
package/dist/commands/completion.d.ts +18 -0
package/dist/commands/completion.js +260 -0
package/dist/commands/coverage-audit.d.ts +7 -0
package/dist/commands/coverage-audit.js +40 -0
package/dist/commands/discovery-report.d.ts +10 -0
package/dist/commands/discovery-report.js +44 -0
package/dist/commands/eval.d.ts +9 -0
package/dist/commands/eval.js +35 -0
package/dist/commands/explain-handler.d.ts +34 -0
package/dist/commands/explain-handler.js +719 -0
package/dist/commands/fetch-docs.d.ts +8 -0
package/dist/commands/fetch-docs.js +128 -0
package/dist/commands/generate-configs.d.ts +8 -0
package/dist/commands/generate-configs.js +46 -0
package/dist/commands/grader/index.d.ts +11 -0
package/dist/commands/grader/index.js +118 -0
package/dist/commands/init.d.ts +19 -0
package/dist/commands/init.js +150 -0
package/dist/commands/interactive.d.ts +12 -0
package/dist/commands/interactive.js +238 -0
package/dist/commands/lookup-doc.d.ts +15 -0
package/dist/commands/lookup-doc.js +84 -0
package/dist/commands/measure-retrieval.d.ts +5 -0
package/dist/commands/measure-retrieval.js +65 -0
package/dist/commands/pipeline-action.d.ts +71 -0
package/dist/commands/pipeline-action.js +305 -0
package/dist/commands/pipeline.d.ts +62 -0
package/dist/commands/pipeline.js +53 -0
package/dist/commands/pr-comment.d.ts +8 -0
package/dist/commands/pr-comment.js +47 -0
package/dist/commands/publish.d.ts +26 -0
package/dist/commands/publish.js +253 -0
package/dist/commands/readiness-report.d.ts +10 -0
package/dist/commands/readiness-report.js +104 -0
package/dist/commands/shared/options.d.ts +29 -0
package/dist/commands/shared/options.js +57 -0
package/dist/commands/update-quality-scores.d.ts +5 -0
package/dist/commands/update-quality-scores.js +20 -0
package/dist/commands/validate-tasks.d.ts +16 -0
package/dist/commands/validate-tasks.js +93 -0
package/dist/commands/validate.d.ts +9 -0
package/dist/commands/validate.js +73 -0
package/dist/commands/webhook-server.d.ts +5 -0
package/dist/commands/webhook-server.js +30 -0
package/dist/commands/weekly-digest.d.ts +10 -0
package/dist/commands/weekly-digest.js +104 -0
package/dist/composition-root.d.ts +26 -0
package/dist/composition-root.js +107 -0
package/dist/interpolate.d.ts +26 -0
package/dist/interpolate.js +70 -0
package/dist/job-store.d.ts +104 -0
package/dist/job-store.js +188 -0
package/dist/lib/agent-behavior-report.d.ts +8 -0
package/dist/lib/agent-behavior-report.js +185 -0
package/dist/lib/baseline.d.ts +19 -0
package/dist/lib/baseline.js +153 -0
package/dist/lib/calculate-scores.d.ts +23 -0
package/dist/lib/calculate-scores.js +42 -0
package/dist/lib/compare.d.ts +18 -0
package/dist/lib/compare.js +170 -0
package/dist/lib/coverage-audit.d.ts +4 -0
package/dist/lib/coverage-audit.js +42 -0
package/dist/lib/discovery-report.d.ts +13 -0
package/dist/lib/discovery-report.js +57 -0
package/dist/lib/fetch-docs.d.ts +30 -0
package/dist/lib/fetch-docs.js +171 -0
package/dist/lib/generate-configs.d.ts +25 -0
package/dist/lib/generate-configs.js +42 -0
package/dist/lib/grader-api.d.ts +21 -0
package/dist/lib/grader-api.js +34 -0
package/dist/lib/grader-compare.d.ts +19 -0
package/dist/lib/grader-compare.js +91 -0
package/dist/lib/grader-consistency.d.ts +27 -0
package/dist/lib/grader-consistency.js +79 -0
package/dist/lib/grader-sensitivity.d.ts +19 -0
package/dist/lib/grader-sensitivity.js +75 -0
package/dist/lib/grader-validate.d.ts +19 -0
package/dist/lib/grader-validate.js +78 -0
package/dist/lib/measure-retrieval.d.ts +14 -0
package/dist/lib/measure-retrieval.js +71 -0
package/dist/lib/pr-comment.d.ts +16 -0
package/dist/lib/pr-comment.js +28 -0
package/dist/lib/readiness-report.d.ts +13 -0
package/dist/lib/readiness-report.js +108 -0
package/dist/lib/webhook-server.d.ts +11 -0
package/dist/lib/webhook-server.js +24 -0
package/dist/lib/weekly-digest.d.ts +24 -0
package/dist/lib/weekly-digest.js +148 -0
package/dist/orchestration/build-app-context.d.ts +27 -0
package/dist/orchestration/build-app-context.js +81 -0
package/dist/orchestration/build-step-sequence.d.ts +15 -0
package/dist/orchestration/build-step-sequence.js +84 -0
package/dist/orchestration/config-to-source-overrides.d.ts +9 -0
package/dist/orchestration/config-to-source-overrides.js +28 -0
package/dist/orchestration/env-bridge.d.ts +21 -0
package/dist/orchestration/env-bridge.js +66 -0
package/dist/orchestration/index.d.ts +11 -0
package/dist/orchestration/index.js +11 -0
package/dist/orchestration/pipeline-orchestrator.d.ts +24 -0
package/dist/orchestration/pipeline-orchestrator.js +153 -0
package/dist/orchestration/step-runner.d.ts +20 -0
package/dist/orchestration/step-runner.js +88 -0
package/dist/orchestration/steps/calculate-scores-step.d.ts +13 -0
package/dist/orchestration/steps/calculate-scores-step.js +95 -0
package/dist/orchestration/steps/callback-step.d.ts +24 -0
package/dist/orchestration/steps/callback-step.js +76 -0
package/dist/orchestration/steps/compare-step.d.ts +14 -0
package/dist/orchestration/steps/compare-step.js +92 -0
package/dist/orchestration/steps/discovery-report-step.d.ts +13 -0
package/dist/orchestration/steps/discovery-report-step.js +55 -0
package/dist/orchestration/steps/fetch-docs-shell.d.ts +17 -0
package/dist/orchestration/steps/fetch-docs-shell.js +30 -0
package/dist/orchestration/steps/fetch-docs-step.d.ts +14 -0
package/dist/orchestration/steps/fetch-docs-step.js +135 -0
package/dist/orchestration/steps/gap-analysis-step.d.ts +16 -0
package/dist/orchestration/steps/gap-analysis-step.js +136 -0
package/dist/orchestration/steps/generate-configs-step.d.ts +14 -0
package/dist/orchestration/steps/generate-configs-step.js +85 -0
package/dist/orchestration/steps/grader-consistency-step.d.ts +13 -0
package/dist/orchestration/steps/grader-consistency-step.js +64 -0
package/dist/orchestration/steps/index.d.ts +19 -0
package/dist/orchestration/steps/index.js +19 -0
package/dist/orchestration/steps/mirror-repo-tasks-step.d.ts +21 -0
package/dist/orchestration/steps/mirror-repo-tasks-step.js +94 -0
package/dist/orchestration/steps/publish-report-step.d.ts +26 -0
package/dist/orchestration/steps/publish-report-step.js +216 -0
package/dist/orchestration/steps/readiness-step.d.ts +13 -0
package/dist/orchestration/steps/readiness-step.js +91 -0
package/dist/orchestration/steps/report-step.d.ts +12 -0
package/dist/orchestration/steps/report-step.js +49 -0
package/dist/orchestration/steps/run-eval-step.d.ts +17 -0
package/dist/orchestration/steps/run-eval-step.js +195 -0
package/dist/orchestration/steps/validate-step.d.ts +12 -0
package/dist/orchestration/steps/validate-step.js +41 -0
package/dist/pipeline/agent-behavior-report.d.ts +53 -0
package/dist/pipeline/agent-behavior-report.js +132 -0
package/dist/pipeline/attribution.d.ts +47 -0
package/dist/pipeline/attribution.js +226 -0
package/dist/pipeline/baseline.d.ts +37 -0
package/dist/pipeline/baseline.js +141 -0
package/dist/pipeline/cache.d.ts +101 -0
package/dist/pipeline/cache.js +283 -0
package/dist/pipeline/calculate-scores.d.ts +102 -0
package/dist/pipeline/calculate-scores.js +1128 -0
package/dist/pipeline/callback-delivery.d.ts +50 -0
package/dist/pipeline/callback-delivery.js +89 -0
package/dist/pipeline/checks.d.ts +39 -0
package/dist/pipeline/checks.js +280 -0
package/dist/pipeline/classify-url.d.ts +61 -0
package/dist/pipeline/classify-url.js +93 -0
package/dist/pipeline/compare.d.ts +31 -0
package/dist/pipeline/compare.js +208 -0
package/dist/pipeline/coverage-audit.d.ts +39 -0
package/dist/pipeline/coverage-audit.js +165 -0
package/dist/pipeline/degradations.d.ts +85 -0
package/dist/pipeline/degradations.js +242 -0
package/dist/pipeline/discovery-report.d.ts +55 -0
package/dist/pipeline/discovery-report.js +178 -0
package/dist/pipeline/eval-constants.d.ts +68 -0
package/dist/pipeline/eval-constants.js +111 -0
package/dist/pipeline/eval-fingerprint.d.ts +66 -0
package/dist/pipeline/eval-fingerprint.js +175 -0
package/dist/pipeline/expand-tasks.d.ts +220 -0
package/dist/pipeline/expand-tasks.js +421 -0
package/dist/pipeline/failure-modes.d.ts +46 -0
package/dist/pipeline/failure-modes.js +348 -0
package/dist/pipeline/fetch-url-content.d.ts +44 -0
package/dist/pipeline/fetch-url-content.js +93 -0
package/dist/pipeline/gap-analysis.d.ts +48 -0
package/dist/pipeline/gap-analysis.js +231 -0
package/dist/pipeline/generate-configs.d.ts +72 -0
package/dist/pipeline/generate-configs.js +395 -0
package/dist/pipeline/grader-api.d.ts +49 -0
package/dist/pipeline/grader-api.js +200 -0
package/dist/pipeline/grader-compare-runner.d.ts +44 -0
package/dist/pipeline/grader-compare-runner.js +301 -0
package/dist/pipeline/grader-comparison.d.ts +111 -0
package/dist/pipeline/grader-comparison.js +161 -0
package/dist/pipeline/grader-consistency-runner.d.ts +60 -0
package/dist/pipeline/grader-consistency-runner.js +270 -0
package/dist/pipeline/grader-consistency.d.ts +103 -0
package/dist/pipeline/grader-consistency.js +146 -0
package/dist/pipeline/grader-sensitivity-runner.d.ts +40 -0
package/dist/pipeline/grader-sensitivity-runner.js +282 -0
package/dist/pipeline/grader-sensitivity.d.ts +94 -0
package/dist/pipeline/grader-sensitivity.js +144 -0
package/dist/pipeline/grader-validate-runner.d.ts +38 -0
package/dist/pipeline/grader-validate-runner.js +229 -0
package/dist/pipeline/grader-validation.d.ts +107 -0
package/dist/pipeline/grader-validation.js +169 -0
package/dist/pipeline/map-request-to-config.d.ts +19 -0
package/dist/pipeline/map-request-to-config.js +80 -0
package/dist/pipeline/measure-retrieval.d.ts +59 -0
package/dist/pipeline/measure-retrieval.js +111 -0
package/dist/pipeline/mirror-repo-tasks.d.ts +86 -0
package/dist/pipeline/mirror-repo-tasks.js +350 -0
package/dist/pipeline/plan-format.d.ts +33 -0
package/dist/pipeline/plan-format.js +202 -0
package/dist/pipeline/plan.d.ts +169 -0
package/dist/pipeline/plan.js +708 -0
package/dist/pipeline/pr-comment.d.ts +19 -0
package/dist/pipeline/pr-comment.js +502 -0
package/dist/pipeline/probe.d.ts +52 -0
package/dist/pipeline/probe.js +390 -0
package/dist/pipeline/provenance.d.ts +47 -0
package/dist/pipeline/provenance.js +146 -0
package/dist/pipeline/readiness-report.d.ts +87 -0
package/dist/pipeline/readiness-report.js +205 -0
package/dist/pipeline/release-classification.d.ts +54 -0
package/dist/pipeline/release-classification.js +238 -0
package/dist/pipeline/release-report.d.ts +37 -0
package/dist/pipeline/release-report.js +222 -0
package/dist/pipeline/repo-eval-comment.d.ts +37 -0
package/dist/pipeline/repo-eval-comment.js +165 -0
package/dist/pipeline/repo-threshold-evaluator.d.ts +89 -0
package/dist/pipeline/repo-threshold-evaluator.js +162 -0
package/dist/pipeline/resolve-mappings.d.ts +35 -0
package/dist/pipeline/resolve-mappings.js +72 -0
package/dist/pipeline/retrieval-metrics.d.ts +39 -0
package/dist/pipeline/retrieval-metrics.js +136 -0
package/dist/pipeline/reverse-mapping.d.ts +67 -0
package/dist/pipeline/reverse-mapping.js +88 -0
package/dist/pipeline/schemas.d.ts +9 -0
package/dist/pipeline/schemas.js +9 -0
package/dist/pipeline/steps/calculate-scores-step.d.ts +11 -0
package/dist/pipeline/steps/calculate-scores-step.js +89 -0
package/dist/pipeline/steps/compare-step.d.ts +18 -0
package/dist/pipeline/steps/compare-step.js +90 -0
package/dist/pipeline/steps/eval-step.d.ts +53 -0
package/dist/pipeline/steps/eval-step.js +347 -0
package/dist/pipeline/steps/fetch-docs-step.d.ts +11 -0
package/dist/pipeline/steps/fetch-docs-step.js +84 -0
package/dist/pipeline/steps/generate-configs-step.d.ts +11 -0
package/dist/pipeline/steps/generate-configs-step.js +98 -0
package/dist/pipeline/steps/grader-consistency-step.d.ts +21 -0
package/dist/pipeline/steps/grader-consistency-step.js +74 -0
package/dist/pipeline/steps/publish-report-step.d.ts +57 -0
package/dist/pipeline/steps/publish-report-step.js +243 -0
package/dist/pipeline/steps/report-step.d.ts +13 -0
package/dist/pipeline/steps/report-step.js +56 -0
package/dist/pipeline/steps/update-scores-step.d.ts +11 -0
package/dist/pipeline/steps/update-scores-step.js +42 -0
package/dist/pipeline/targeted-loo.d.ts +88 -0
package/dist/pipeline/targeted-loo.js +203 -0
package/dist/pipeline/thresholds.d.ts +27 -0
package/dist/pipeline/thresholds.js +245 -0
package/dist/pipeline/types.d.ts +10 -0
package/dist/pipeline/types.js +10 -0
package/dist/pipeline/validate.d.ts +67 -0
package/dist/pipeline/validate.js +406 -0
package/dist/pipeline/webhook-server.d.ts +37 -0
package/dist/pipeline/webhook-server.js +133 -0
package/dist/report-store.d.ts +84 -0
package/dist/report-store.js +208 -0
package/dist/sanity/client.d.ts +38 -0
package/dist/sanity/client.js +86 -0
package/dist/sanity/portable-text.d.ts +11 -0
package/dist/sanity/portable-text.js +211 -0
package/dist/sanity/queries.d.ts +133 -0
package/dist/sanity/queries.js +300 -0
package/dist/schedules/digest.d.ts +116 -0
package/dist/schedules/digest.js +156 -0
package/dist/schedules/index.d.ts +12 -0
package/dist/schedules/index.js +10 -0
package/dist/schedules/loader.d.ts +31 -0
package/dist/schedules/loader.js +73 -0
package/dist/schedules/schema.d.ts +9 -0
package/dist/schedules/schema.js +9 -0
package/dist/scripts/agent-behavior-report.d.ts +19 -0
package/dist/scripts/agent-behavior-report.js +315 -0
package/dist/scripts/baseline.d.ts +43 -0
package/dist/scripts/baseline.js +267 -0
package/dist/scripts/calculate-scores.d.ts +166 -0
package/dist/scripts/calculate-scores.js +1296 -0
package/dist/scripts/compare.d.ts +22 -0
package/dist/scripts/compare.js +334 -0
package/dist/scripts/coverage-audit.d.ts +44 -0
package/dist/scripts/coverage-audit.js +209 -0
package/dist/scripts/debug-eval.d.ts +19 -0
package/dist/scripts/debug-eval.js +73 -0
package/dist/scripts/discovery-report.d.ts +58 -0
package/dist/scripts/discovery-report.js +250 -0
package/dist/scripts/fetch-docs.d.ts +35 -0
package/dist/scripts/fetch-docs.js +472 -0
package/dist/scripts/generate-configs.d.ts +66 -0
package/dist/scripts/generate-configs.js +459 -0
package/dist/scripts/grader-api.d.ts +27 -0
package/dist/scripts/grader-api.js +206 -0
package/dist/scripts/grader-compare.d.ts +22 -0
package/dist/scripts/grader-compare.js +368 -0
package/dist/scripts/grader-consistency.d.ts +20 -0
package/dist/scripts/grader-consistency.js +313 -0
package/dist/scripts/grader-sensitivity.d.ts +22 -0
package/dist/scripts/grader-sensitivity.js +354 -0
package/dist/scripts/grader-validate.d.ts +19 -0
package/dist/scripts/grader-validate.js +267 -0
package/dist/scripts/measure-retrieval.d.ts +10 -0
package/dist/scripts/measure-retrieval.js +145 -0
package/dist/scripts/migrate-tasks-to-content-lake.d.ts +24 -0
package/dist/scripts/migrate-tasks-to-content-lake.js +327 -0
package/dist/scripts/pipeline.d.ts +76 -0
package/dist/scripts/pipeline.js +1031 -0
package/dist/scripts/pr-comment.d.ts +10 -0
package/dist/scripts/pr-comment.js +510 -0
package/dist/scripts/readiness-report.d.ts +88 -0
package/dist/scripts/readiness-report.js +342 -0
package/dist/scripts/update-quality-scores.d.ts +15 -0
package/dist/scripts/update-quality-scores.js +184 -0
package/dist/scripts/validate-task-sources.d.ts +21 -0
package/dist/scripts/validate-task-sources.js +210 -0
package/dist/scripts/validate.d.ts +13 -0
package/dist/scripts/validate.js +79 -0
package/dist/scripts/webhook-server.d.ts +26 -0
package/dist/scripts/webhook-server.js +147 -0
package/dist/scripts/weekly-digest.d.ts +24 -0
package/dist/scripts/weekly-digest.js +144 -0
package/dist/sinks/bigquery/index.d.ts +131 -0
package/dist/sinks/bigquery/index.js +222 -0
package/dist/sinks/format-slack.d.ts +64 -0
package/dist/sinks/format-slack.js +306 -0
package/dist/sinks/index.d.ts +23 -0
package/dist/sinks/index.js +18 -0
package/dist/sinks/loader.d.ts +18 -0
package/dist/sinks/loader.js +82 -0
package/dist/sinks/retry.d.ts +24 -0
package/dist/sinks/retry.js +52 -0
package/dist/sinks/schema.d.ts +9 -0
package/dist/sinks/schema.js +9 -0
package/dist/sinks/slack/format.d.ts +65 -0
package/dist/sinks/slack/format.js +327 -0
package/dist/sinks/slack/index.d.ts +27 -0
package/dist/sinks/slack/index.js +78 -0
package/dist/sinks/slack-sink.d.ts +27 -0
package/dist/sinks/slack-sink.js +78 -0
package/dist/sinks/types.d.ts +59 -0
package/dist/sinks/types.js +44 -0
package/dist/sinks/webhook/index.d.ts +19 -0
package/dist/sinks/webhook/index.js +50 -0
package/dist/sinks/webhook-sink.d.ts +19 -0
package/dist/sinks/webhook-sink.js +50 -0
package/dist/sources.d.ts +104 -0
package/dist/sources.js +292 -0
package/dist/webhook/budget.d.ts +42 -0
package/dist/webhook/budget.js +60 -0
package/dist/webhook/debounce.d.ts +67 -0
package/dist/webhook/debounce.js +76 -0
package/dist/webhook/dispatch.d.ts +45 -0
package/dist/webhook/dispatch.js +84 -0
package/dist/webhook/eval-request-handler.d.ts +87 -0
package/dist/webhook/eval-request-handler.js +181 -0
package/dist/webhook/handler.d.ts +88 -0
package/dist/webhook/handler.js +203 -0
package/dist/webhook/index.d.ts +17 -0
package/dist/webhook/index.js +12 -0
package/dist/webhook/types.d.ts +109 -0
package/dist/webhook/types.js +10 -0
package/package.json +72 -0
package/tasks/.expanded.agentic.yaml +51 -0
package/tasks/.expanded.yaml +66 -0
package/tasks/frameworks.yaml +98 -0
package/tasks/functions.yaml +51 -0
package/tasks/groq.yaml +216 -0
package/tasks/nextjs-live.yaml +62 -0
package/tasks/studio-setup.yaml +111 -0
package/tasks/visual-editing.yaml +120 -0

package/dist/pipeline/plan.js ADDED Viewed

@@ -0,0 +1,708 @@
+/**
+ * pipeline/plan.ts
+ *
+ * Execution plan assembly for the `--explain` CLI flag.
+ *
+ * Computes a detailed preview of what a command will do without executing
+ * anything. Calls existing pure functions (task expansion, model loading,
+ * cache hashing, pricing) and composes them into an `ExecutionPlan`.
+ *
+ * @see docs/exec-plans/active/execution-preview.md
+ */
+import { existsSync, readFileSync, readdirSync, statSync } from "fs";
+import { resolve } from "path";
+import { load } from "js-yaml";
+import { lookupPricing } from "../agent-observer/pricing.js";
+import { RepoTaskSource } from "../adapters/task-sources/repo-task-source.js";
+import { lookupCache } from "./cache.js";
+import { loadAndExpandTasks } from "./expand-tasks.js";
+import { validateConfiguration } from "./validate.js";
+/**
+ * Known promptfoo provider prefixes — stripped to get the raw model name.
+ * Must be ordered longest-first to avoid partial matches.
+ */
+const PROVIDER_PREFIXES = [
+    "anthropic:messages:",
+    "openai:chat:",
+    "openai:responses:",
+    "openai:",
+    "anthropic:",
+    "google:",
+];
+function extractModelName(id) {
+    for (const prefix of PROVIDER_PREFIXES) {
+        if (id.startsWith(prefix)) {
+            return id.slice(prefix.length);
+        }
+    }
+    const parts = id.split(":");
+    return parts.length > 1 ? parts.slice(1).join(":") : id;
+}
+function loadModelsFile(rootDir) {
+    const modelsPath = resolve(rootDir, "config", "models.yaml");
+    if (!existsSync(modelsPath))
+        return null;
+    try {
+        const raw = readFileSync(modelsPath, "utf-8");
+        return load(raw);
+    }
+    catch {
+        return null;
+    }
+}
+/**
+ * Map eval mode to the model "modes" array values from models.yaml.
+ * Baseline mode maps to "baseline"; agentic maps to both naive and optimized.
+ */
+function modeMatchesModelModes(mode, modelModes) {
+    if (!modelModes || modelModes.length === 0)
+        return true;
+    switch (mode) {
+        case "agentic":
+            return (modelModes.includes("agentic-naive") ||
+                modelModes.includes("agentic-optimized"));
+        case "baseline":
+            return modelModes.includes("baseline");
+        case "full":
+            // Full mode uses all models — a model matches if it's in any sub-mode
+            return (modelModes.includes("baseline") ||
+                modelModes.includes("agentic-naive") ||
+                modelModes.includes("agentic-optimized"));
+        case "observed":
+            return modelModes.includes("observed");
+    }
+}
+// ---------------------------------------------------------------------------
+// Cost estimation
+// ---------------------------------------------------------------------------
+/**
+ * Average token estimates per evaluation call (conservative).
+ * These are rough averages based on typical Sanity documentation tasks.
+ */
+const AVG_TOKENS = {
+    /** Grader output per judgment */
+    graderOutput: 500,
+    /** Grader prompt per judgment (rubric + response) */
+    graderPrompt: 2000,
+    /** Model response per task */
+    responseTokens: 1500,
+    /** Task prompt + context tokens */
+    taskPromptTokens: 2000,
+    /** Higher estimate multiplier */
+    upperMultiplier: 2.0,
+};
+// ---------------------------------------------------------------------------
+// Cache prediction
+// ---------------------------------------------------------------------------
+/**
+ * Build a complete execution plan for the `pipeline` command.
+ *
+ * This is a read-only operation — it computes the plan by calling existing
+ * pure functions (task expansion, model loading, cache lookup, pricing)
+ * without executing any pipeline steps or writing to process.env.
+ */
+export async function buildPipelinePlan(opts, rootDir) {
+    // 1. Validate configuration (same as Step 0)
+    let validation;
+    try {
+        validation = validateConfiguration(rootDir);
+    }
+    catch {
+        validation = { issues: [], valid: false };
+    }
+    const warnings = validation.issues
+        .filter((i) => i.severity === "warning")
+        .map((i) => `[${i.source}] ${i.message}`);
+    const errors = validation.issues
+        .filter((i) => i.severity === "error")
+        .map((i) => `[${i.source}] ${i.message}`);
+    // 2. Expand tasks with filters
+    const filter = opts.areaOption || opts.taskOption
+        ? {
+            areas: opts.areaOption
+                ? opts.areaOption.split(",").map((a) => a.trim())
+                : undefined,
+            taskIds: opts.taskOption
+                ? opts.taskOption.split(",").map((t) => t.trim())
+                : undefined,
+        }
+        : undefined;
+    let totalTests = 0;
+    let tasks = [];
+    let repoTaskCount;
+    try {
+        const { entries } = loadAndExpandTasks(rootDir, filter);
+        totalTests = entries.length;
+        tasks = entries.map((entry) => {
+            const desc = typeof entry.description === "string" ? entry.description : "(unknown)";
+            const isBaseline = desc.includes("[Baseline]") ||
+                desc.endsWith("(baseline)") ||
+                (Array.isArray(entry.prompts) && entry.prompts.includes("without-docs"));
+            return {
+                description: desc,
+                variant: isBaseline ? "baseline" : "gold",
+            };
+        });
+    }
+    catch {
+        errors.push("Failed to expand tasks — check task YAML files");
+    }
+    // Scan repo tasks path for additional task count (preview only)
+    if (opts.repoTasksPath) {
+        try {
+            const repoSource = new RepoTaskSource(opts.repoTasksPath);
+            const repoTasks = await repoSource.loadTasks(filter);
+            repoTaskCount = repoTasks.length;
+            if (repoTaskCount > 0) {
+                // Expand repo tasks to estimate test entries
+                const { expandTaskDefinitions } = await import("./expand-tasks.js");
+                const { entries: repoEntries } = expandTaskDefinitions(repoTasks, rootDir, opts.mode === "agentic" ? "agentic" : "baseline");
+                totalTests += repoEntries.length;
+                for (const entry of repoEntries) {
+                    const desc = typeof entry.description === "string"
+                        ? entry.description
+                        : "(unknown)";
+                    const isBaseline = desc.includes("[Baseline]") ||
+                        desc.endsWith("(baseline)") ||
+                        (Array.isArray(entry.prompts) &&
+                            entry.prompts.includes("without-docs"));
+                    tasks.push({
+                        description: desc,
+                        variant: isBaseline ? "baseline" : "gold",
+                    });
+                }
+            }
+        }
+        catch {
+            warnings.push(`Failed to scan repo tasks at ${opts.repoTasksPath} — count may be underestimated`);
+        }
+    }
+    // 3. Apply debug filter simulation
+    const debugPlan = simulateDebugFilter(totalTests, opts.debug);
+    const effectiveTestCount = debugPlan?.filteredCount ?? totalTests;
+    // 4. Load models for the selected mode
+    const modelsFile = loadModelsFile(rootDir);
+    const models = [];
+    let graderModelName = "";
+    if (modelsFile) {
+        const activeModels = modelsFile.models.filter((m) => modeMatchesModelModes(opts.mode, m.modes));
+        // For agentic mode, each model appears twice (naive + optimized)
+        for (const m of activeModels) {
+            const modelName = extractModelName(m.id);
+            if (opts.mode === "agentic") {
+                if (m.modes?.includes("agentic-naive")) {
+                    models.push({
+                        id: m.id,
+                        label: `${m.label} (Naive)`,
+                        modelName,
+                    });
+                }
+                if (m.modes?.includes("agentic-optimized")) {
+                    models.push({
+                        id: m.id,
+                        label: `${m.label} (Optimized)`,
+                        modelName,
+                    });
+                }
+            }
+            else {
+                models.push({ id: m.id, label: m.label, modelName });
+            }
+        }
+        graderModelName = extractModelName(modelsFile.grader.id);
+    }
+    // 5. Estimate cost
+    const rubricCount = estimateRubricAssertionsPerTask(rootDir);
+    const costEstimate = models.length > 0 && effectiveTestCount > 0
+        ? estimateCost(effectiveTestCount, models, graderModelName, rubricCount)
+        : undefined;
+    // 6. Cache prediction
+    const cachePrediction = predictCacheStatus(rootDir, {
+        noCache: opts.noCache,
+        skipEval: opts.skipEval,
+        skipFetch: opts.skipFetch,
+    });
+    // 7. Build step plan
+    const steps = buildStepPlan({
+        compareEnabled: opts.compareEnabled,
+        discoveryReportEnabled: opts.discoveryReportEnabled,
+        dryRun: opts.dryRun,
+        gapAnalysisEnabled: opts.gapAnalysisEnabled,
+        graderReplications: opts.graderReplications,
+        noCache: opts.noCache,
+        publishEnabled: opts.publishEnabled,
+        readinessEnabled: opts.readinessEnabled,
+        skipEval: opts.skipEval,
+        skipFetch: opts.skipFetch,
+    }, cachePrediction);
+    // 8. Comparison plan
+    const comparison = buildComparisonPlan(rootDir, opts.compareEnabled, opts.compareBaseline, opts.beforeOption, opts.compareThreshold);
+    // 9. File lists
+    const filesRead = collectFilesRead(rootDir, opts.mode);
+    const filesCreated = collectFilesCreated({
+        compareEnabled: opts.compareEnabled,
+        discoveryReportEnabled: opts.discoveryReportEnabled,
+        gapAnalysisEnabled: opts.gapAnalysisEnabled,
+        publishEnabled: opts.publishEnabled,
+        readinessEnabled: opts.readinessEnabled,
+    });
+    return {
+        cacheStatus: cachePrediction.predictions,
+        command: "pipeline",
+        comparison,
+        costEstimate,
+        debug: debugPlan,
+        description: `Run the full evaluation pipeline in ${opts.mode} mode`,
+        errors,
+        filesCreated,
+        filesRead,
+        mode: opts.mode,
+        models: models.length > 0 ? models : undefined,
+        repoTaskCount,
+        source: opts.source ?? "production",
+        steps,
+        tasks: tasks.length > 0 ? tasks : undefined,
+        totalCacheSavingsMs: cachePrediction.estimatedSavedMs,
+        totalTests: effectiveTestCount,
+        warnings,
+    };
+}
+/**
+ * Build a minimal plan for commands that don't have complex step graphs.
+ * Used by compare, validate, fetch-docs, baseline, etc.
+ */
+export function buildSimpleCommandPlan(opts) {
+    let validation;
+    try {
+        validation = validateConfiguration(opts.rootDir);
+    }
+    catch {
+        validation = { issues: [], valid: true };
+    }
+    return {
+        cacheStatus: {},
+        command: opts.command,
+        description: opts.description,
+        errors: validation.issues
+            .filter((i) => i.severity === "error")
+            .map((i) => `[${i.source}] ${i.message}`),
+        filesCreated: opts.filesCreated ?? [],
+        filesRead: opts.filesRead ?? [],
+        steps: opts.steps ?? [],
+        totalCacheSavingsMs: 0,
+        warnings: validation.issues
+            .filter((i) => i.severity === "warning")
+            .map((i) => `[${i.source}] ${i.message}`),
+    };
+}
+// ---------------------------------------------------------------------------
+// Comparison plan builder
+// ---------------------------------------------------------------------------
+function buildComparisonPlan(rootDir, compareEnabled, compareBaseline, beforeOption, threshold) {
+    if (!compareEnabled)
+        return undefined;
+    let baselinePath;
+    if (compareBaseline) {
+        baselinePath = resolve(rootDir, compareBaseline);
+    }
+    else {
+        // Find latest baseline
+        const baselinesDir = resolve(rootDir, "results", "baselines");
+        if (existsSync(baselinesDir)) {
+            const files = readdirSync(baselinesDir)
+                .filter((f) => f.endsWith(".json"))
+                .sort()
+                .reverse();
+            baselinePath =
+                files.length > 0
+                    ? resolve(baselinesDir, files[0])
+                    : resolve(baselinesDir, "latest.json");
+        }
+        else {
+            baselinePath = resolve(baselinesDir, "latest.json");
+        }
+    }
+    const exists = existsSync(baselinePath);
+    let baselineAge;
+    if (exists) {
+        try {
+            const stat = statSync(baselinePath);
+            const ageMs = Date.now() - stat.mtimeMs;
+            const ageHours = Math.floor(ageMs / 3600000);
+            if (ageHours < 1) {
+                baselineAge = "< 1 hour";
+            }
+            else if (ageHours < 24) {
+                baselineAge = `${ageHours} hour${ageHours === 1 ? "" : "s"}`;
+            }
+            else {
+                const ageDays = Math.floor(ageHours / 24);
+                baselineAge = `${ageDays} day${ageDays === 1 ? "" : "s"}`;
+            }
+        }
+        catch {
+            // stat failed — not critical
+        }
+    }
+    return {
+        baselineAge,
+        baselinePath,
+        exists,
+        threshold: threshold ?? 2,
+    };
+}
+// ---------------------------------------------------------------------------
+// File list builders
+// ---------------------------------------------------------------------------
+function buildStepPlan(opts, cachePrediction) {
+    const steps = [];
+    // Step 0: Validate
+    steps.push({
+        cacheStatus: "miss",
+        name: "Validate configuration",
+        reason: "Parse and check all YAML configs, schemas, reference solutions",
+        willRun: true,
+    });
+    if (opts.dryRun) {
+        // Mark remaining steps as skipped
+        const remaining = [
+            "Fetch documentation",
+            "Generate configs",
+            "Run evaluation",
+            "Calculate scores",
+            "Generate report",
+        ];
+        for (const name of remaining) {
+            steps.push({
+                cacheStatus: "skipped",
+                name,
+                reason: "--dry-run: no execution",
+                willRun: false,
+            });
+        }
+        return steps;
+    }
+    // Step 1: Fetch docs
+    const fetchStatus = cachePrediction.predictions["fetch-docs"] ?? "unknown";
+    steps.push({
+        cacheStatus: fetchStatus,
+        estimatedSavedMs: fetchStatus === "hit" ? cachePrediction.estimatedSavedMs : undefined,
+        name: "Fetch documentation",
+        reason: fetchStatus === "skipped"
+            ? "--skip-fetch: reuse cached contexts"
+            : fetchStatus === "hit"
+                ? "CACHED (inputs unchanged)"
+                : "Fetch from Sanity Content Lake",
+        willRun: fetchStatus !== "skipped" && fetchStatus !== "hit",
+    });
+    // Step 2: Generate configs
+    const genStatus = cachePrediction.predictions["generate-configs"] ?? "unknown";
+    steps.push({
+        cacheStatus: genStatus,
+        name: "Generate configs",
+        reason: genStatus === "hit"
+            ? "CACHED (inputs unchanged)"
+            : "Expand tasks → Promptfoo config files",
+        willRun: genStatus !== "hit",
+    });
+    // Step 3: Run evaluation
+    const evalStatus = cachePrediction.predictions["eval"] ?? "unknown";
+    steps.push({
+        cacheStatus: evalStatus,
+        name: "Run evaluation",
+        reason: opts.skipEval
+            ? "--skip-eval: reuse existing results"
+            : evalStatus === "hit"
+                ? "CACHED (inputs unchanged)"
+                : "Execute Promptfoo evaluation against all models",
+        willRun: !opts.skipEval && evalStatus !== "hit",
+    });
+    // Step 3c: Grader consistency (optional)
+    if (opts.graderReplications) {
+        steps.push({
+            cacheStatus: "miss",
+            name: "Grader consistency analysis",
+            reason: `${opts.graderReplications} replications`,
+            willRun: true,
+        });
+    }
+    // Step 4: Calculate scores
+    const scoreStatus = cachePrediction.predictions["calculate-scores"] ?? "unknown";
+    steps.push({
+        cacheStatus: scoreStatus,
+        name: "Calculate scores",
+        reason: scoreStatus === "hit"
+            ? "CACHED (inputs unchanged)"
+            : "Compute AI Literacy Scores from eval results",
+        willRun: scoreStatus !== "hit",
+    });
+    // Step 4b: Gap analysis (optional)
+    if (opts.gapAnalysisEnabled) {
+        steps.push({
+            cacheStatus: "miss",
+            name: "Gap analysis",
+            reason: "Classify failure modes + build remediation plan",
+            willRun: true,
+        });
+    }
+    // Step 4c: Publish report (optional)
+    if (opts.publishEnabled) {
+        steps.push({
+            cacheStatus: "miss",
+            name: "Publish report",
+            reason: "Write to Sanity Content Lake + fan out to sinks",
+            willRun: true,
+        });
+    }
+    // Step 5: Generate report
+    steps.push({
+        cacheStatus: "miss",
+        name: "Generate report",
+        reason: "Build PR comment markdown + score summary",
+        willRun: true,
+    });
+    // Step 5b: Compare (optional)
+    if (opts.compareEnabled) {
+        steps.push({
+            cacheStatus: "miss",
+            name: "Compare against baseline",
+            reason: "Structured score comparison with delta analysis",
+            willRun: true,
+        });
+    }
+    // Step 6: Readiness report (optional)
+    if (opts.readinessEnabled) {
+        steps.push({
+            cacheStatus: "miss",
+            name: "Readiness report",
+            reason: "Generate launch readiness checklist",
+            willRun: true,
+        });
+    }
+    // Step 6c: Discovery report (optional)
+    if (opts.discoveryReportEnabled) {
+        steps.push({
+            cacheStatus: "miss",
+            name: "Discovery report",
+            reason: "Analyze agent discoverability from retrieval metrics",
+            willRun: true,
+        });
+    }
+    return steps;
+}
+function collectFilesCreated(opts) {
+    const files = [
+        "results/latest/eval-results.json",
+        "results/latest/score-summary.json",
+        "results/latest/grader-judgments.json",
+        "results/latest/pipeline-result.json",
+    ];
+    if (opts.compareEnabled) {
+        files.push("results/latest/comparison-report.json");
+    }
+    if (opts.gapAnalysisEnabled) {
+        files.push("results/latest/failure-modes.json");
+        files.push("results/latest/gap-analysis.json");
+    }
+    if (opts.readinessEnabled) {
+        files.push("results/latest/readiness-report.md");
+    }
+    if (opts.discoveryReportEnabled) {
+        files.push("results/latest/discovery-report.md");
+    }
+    return files.sort();
+}
+// ---------------------------------------------------------------------------
+// Step plan builder
+// ---------------------------------------------------------------------------
+function collectFilesRead(rootDir, _mode) {
+    const files = [
+        "config/models.yaml",
+        "config/rubrics.yaml",
+        "config/prompts.yaml",
+        "config/sources.yaml",
+    ];
+    // Task files
+    const tasksDir = resolve(rootDir, "tasks");
+    if (existsSync(tasksDir)) {
+        const taskFiles = readdirSync(tasksDir)
+            .filter((f) => (f.endsWith(".yaml") || f.endsWith(".yml")) && !f.startsWith("."))
+            .sort();
+        for (const f of taskFiles)
+            files.push(`tasks/${f}`);
+    }
+    // Context files (canonical)
+    const canonicalDir = resolve(rootDir, "contexts", "canonical");
+    if (existsSync(canonicalDir)) {
+        const contextFiles = readdirSync(canonicalDir)
+            .filter((f) => f.endsWith(".md"))
+            .sort();
+        for (const f of contextFiles)
+            files.push(`contexts/canonical/${f}`);
+    }
+    // Reference solutions
+    const refDir = resolve(rootDir, "canonical", "reference-solutions");
+    if (existsSync(refDir)) {
+        const refFiles = readdirSync(refDir)
+            .filter((f) => statSync(resolve(refDir, f)).isFile() && !f.startsWith("."))
+            .sort();
+        for (const f of refFiles)
+            files.push(`canonical/reference-solutions/${f}`);
+    }
+    // Thresholds (if readiness is involved)
+    if (existsSync(resolve(rootDir, "config", "thresholds.yaml"))) {
+        files.push("config/thresholds.yaml");
+    }
+    if (existsSync(resolve(rootDir, "config", "features.yaml"))) {
+        files.push("config/features.yaml");
+    }
+    return [...new Set(files)].sort();
+}
+// ---------------------------------------------------------------------------
+// Rubric assertion counting
+// ---------------------------------------------------------------------------
+function estimateCost(testCount, models, graderModelName, rubricAssertionsPerTask) {
+    const perModel = [];
+    let totalMin = 0;
+    let totalMax = 0;
+    for (const model of models) {
+        const pricing = lookupPricing(model.modelName);
+        if (!pricing) {
+            perModel.push({
+                cost: { max: 0, min: 0 },
+                label: model.label,
+                modelName: model.modelName,
+            });
+            continue;
+        }
+        const minCost = testCount *
+            (pricing.input * AVG_TOKENS.taskPromptTokens +
+                pricing.output * AVG_TOKENS.responseTokens);
+        const maxCost = minCost * AVG_TOKENS.upperMultiplier;
+        perModel.push({
+            cost: { max: maxCost, min: minCost },
+            label: model.label,
+            modelName: model.modelName,
+        });
+        totalMin += minCost;
+        totalMax += maxCost;
+    }
+    // Grading cost: each test × each model × rubric assertions per task
+    const gradingCalls = testCount * models.length * rubricAssertionsPerTask;
+    const graderPricing = lookupPricing(graderModelName);
+    let gradingMin = 0;
+    let gradingMax = 0;
+    if (graderPricing) {
+        gradingMin =
+            gradingCalls *
+                (graderPricing.input * AVG_TOKENS.graderPrompt +
+                    graderPricing.output * AVG_TOKENS.graderOutput);
+        gradingMax = gradingMin * AVG_TOKENS.upperMultiplier;
+    }
+    return {
+        grading: { max: gradingMax, min: gradingMin },
+        gradingCalls,
+        perModel,
+        totalApiCalls: testCount * models.length,
+        totalCost: {
+            max: totalMax + gradingMax,
+            min: totalMin + gradingMin,
+        },
+    };
+}
+// ---------------------------------------------------------------------------
+// Resolved options subset (matches pipeline-action.ts ResolvedOptions shape)
+// Used by the plan builder without importing the full type to avoid circular deps.
+// ---------------------------------------------------------------------------
+function estimateRubricAssertionsPerTask(rootDir) {
+    // Load rubrics.yaml and count the default template set.
+    // In practice, most tasks have 2-4 rubric assertions.
+    const rubricsPath = resolve(rootDir, "config", "rubrics.yaml");
+    if (!existsSync(rubricsPath))
+        return 2; // conservative default
+    try {
+        const raw = readFileSync(rubricsPath, "utf-8");
+        const data = load(raw);
+        const templateCount = data?.templates
+            ? Object.keys(data.templates).length
+            : 2;
+        // Most tasks use 2-3 of the available templates
+        return Math.min(templateCount, 3);
+    }
+    catch {
+        return 2;
+    }
+}
+// ---------------------------------------------------------------------------
+// Pipeline plan builder
+// ---------------------------------------------------------------------------
+function predictCacheStatus(rootDir, opts) {
+    const predictions = {};
+    let estimatedSavedMs = 0;
+    const steps = [
+        "fetch-docs",
+        "generate-configs",
+        "eval",
+        "calculate-scores",
+        "report",
+    ];
+    for (const step of steps) {
+        // Check for skip flags
+        if (step === "fetch-docs" && opts.skipFetch) {
+            predictions[step] = "skipped";
+            continue;
+        }
+        if (step === "eval" && opts.skipEval) {
+            predictions[step] = "skipped";
+            continue;
+        }
+        if (opts.noCache) {
+            predictions[step] = "miss";
+            continue;
+        }
+        try {
+            const result = lookupCache(rootDir, step);
+            if (result.hit) {
+                predictions[step] = "hit";
+                estimatedSavedMs += result.entry.durationMs;
+            }
+            else {
+                predictions[step] = "miss";
+            }
+        }
+        catch {
+            predictions[step] = "unknown";
+        }
+    }
+    return { estimatedSavedMs, predictions };
+}
+// ---------------------------------------------------------------------------
+// Simple command plan builders (non-pipeline)
+// ---------------------------------------------------------------------------
+function simulateDebugFilter(totalEntries, debug) {
+    if (!debug?.enabled)
+        return undefined;
+    let filteredCount = totalEntries;
+    let filterDescription = "";
+    if (debug.pattern) {
+        // We can't know exact match count without loading task descriptions,
+        // but we can indicate the filter is applied
+        filterDescription = `pattern "${debug.pattern}"`;
+        // Conservative: assume ~30% survive a pattern filter
+        filteredCount = Math.max(1, Math.ceil(totalEntries * 0.3));
+    }
+    else if (debug.sample) {
+        filteredCount = Math.min(debug.sample, totalEntries);
+        filterDescription = `random sample of ${filteredCount}`;
+    }
+    else {
+        const firstN = debug.firstN ?? 2;
+        filteredCount = Math.min(firstN * 2, totalEntries); // ×2 for gold+baseline
+        filterDescription = `first ${Math.min(firstN, Math.ceil(totalEntries / 2))} tasks (${filteredCount} test entries)`;
+    }
+    return {
+        filterDescription,
+        filteredCount,
+        totalCount: totalEntries,
+    };
+}