npm - @sanity/ailf - Versions diffs - 0.1.0 - Mend

@sanity/ailf 0.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (530) hide show

package/README.md +89 -0
package/bin/ailf.js +64 -0
package/canonical/grader-references/README.md +88 -0
package/canonical/grader-references/groq.yaml +234 -0
package/canonical/grader-references/studio-setup.yaml +275 -0
package/canonical/reference-solutions/.gitkeep +1 -0
package/canonical/reference-solutions/frameworks/nuxt.ts +119 -0
package/canonical/reference-solutions/frameworks/remix.tsx +100 -0
package/canonical/reference-solutions/functions/publish-webhook.ts +60 -0
package/canonical/reference-solutions/groq/advanced-filtering.ts +379 -0
package/canonical/reference-solutions/groq/blog-queries.ts +137 -0
package/canonical/reference-solutions/groq/joins-references.ts +300 -0
package/canonical/reference-solutions/nextjs/app-router-integration.tsx +128 -0
package/canonical/reference-solutions/studio-setup/blog-schema.ts +143 -0
package/canonical/reference-solutions/studio-setup/custom-tool.tsx +78 -0
package/canonical/reference-solutions/visual-editing/live-preview.tsx +137 -0
package/canonical/reference-solutions/visual-editing/presentation-nextjs.tsx +130 -0
package/config/airbyte/ai_literacy_framework.connector.yaml +639 -0
package/config/bigquery/README.md +74 -0
package/config/bigquery/views/area_scores.sql +87 -0
package/config/bigquery/views/reports.sql +49 -0
package/config/features.yaml +116 -0
package/config/models.yaml +115 -0
package/config/prompts.yaml +75 -0
package/config/rubrics.yaml +62 -0
package/config/schedules.yaml +43 -0
package/config/sinks.yaml +54 -0
package/config/sources.yaml +51 -0
package/config/thresholds.yaml +49 -0
package/dist/_vendor/ailf-core/examples/index.d.ts +190 -0
package/dist/_vendor/ailf-core/examples/index.js +285 -0
package/dist/_vendor/ailf-core/index.d.ts +17 -0
package/dist/_vendor/ailf-core/index.js +17 -0
package/dist/_vendor/ailf-core/ports/cache-store.d.ts +72 -0
package/dist/_vendor/ailf-core/ports/cache-store.js +17 -0
package/dist/_vendor/ailf-core/ports/config-source.d.ts +33 -0
package/dist/_vendor/ailf-core/ports/config-source.js +15 -0
package/dist/_vendor/ailf-core/ports/context.d.ts +172 -0
package/dist/_vendor/ailf-core/ports/context.js +14 -0
package/dist/_vendor/ailf-core/ports/doc-fetcher.d.ts +131 -0
package/dist/_vendor/ailf-core/ports/doc-fetcher.js +12 -0
package/dist/_vendor/ailf-core/ports/eval-runner.d.ts +24 -0
package/dist/_vendor/ailf-core/ports/eval-runner.js +8 -0
package/dist/_vendor/ailf-core/ports/index.d.ts +15 -0
package/dist/_vendor/ailf-core/ports/index.js +7 -0
package/dist/_vendor/ailf-core/ports/logger.d.ts +36 -0
package/dist/_vendor/ailf-core/ports/logger.js +11 -0
package/dist/_vendor/ailf-core/ports/pipeline-step.d.ts +46 -0
package/dist/_vendor/ailf-core/ports/pipeline-step.js +8 -0
package/dist/_vendor/ailf-core/ports/task-source.d.ts +159 -0
package/dist/_vendor/ailf-core/ports/task-source.js +72 -0
package/dist/_vendor/ailf-core/schemas/callback-payload.d.ts +24 -0
package/dist/_vendor/ailf-core/schemas/callback-payload.js +29 -0
package/dist/_vendor/ailf-core/schemas/eval-config.d.ts +55 -0
package/dist/_vendor/ailf-core/schemas/eval-config.js +78 -0
package/dist/_vendor/ailf-core/schemas/index.d.ts +16 -0
package/dist/_vendor/ailf-core/schemas/index.js +16 -0
package/dist/_vendor/ailf-core/schemas/pipeline-request.d.ts +125 -0
package/dist/_vendor/ailf-core/schemas/pipeline-request.js +67 -0
package/dist/_vendor/ailf-core/schemas/pipeline.d.ts +531 -0
package/dist/_vendor/ailf-core/schemas/pipeline.js +318 -0
package/dist/_vendor/ailf-core/schemas/schedules.d.ts +68 -0
package/dist/_vendor/ailf-core/schemas/schedules.js +74 -0
package/dist/_vendor/ailf-core/schemas/sinks.d.ts +207 -0
package/dist/_vendor/ailf-core/schemas/sinks.js +108 -0
package/dist/_vendor/ailf-core/services/comparison-formatters.d.ts +18 -0
package/dist/_vendor/ailf-core/services/comparison-formatters.js +189 -0
package/dist/_vendor/ailf-core/services/config-helpers.d.ts +41 -0
package/dist/_vendor/ailf-core/services/config-helpers.js +86 -0
package/dist/_vendor/ailf-core/services/index.d.ts +12 -0
package/dist/_vendor/ailf-core/services/index.js +12 -0
package/dist/_vendor/ailf-core/services/scoring.d.ts +49 -0
package/dist/_vendor/ailf-core/services/scoring.js +222 -0
package/dist/_vendor/ailf-core/types/index.d.ts +1082 -0
package/dist/_vendor/ailf-core/types/index.js +21 -0
package/dist/_vendor/ailf-core/types/scoring-input.d.ts +54 -0
package/dist/_vendor/ailf-core/types/scoring-input.js +9 -0
package/dist/_vendor/ailf-shared/dimension-names.d.ts +21 -0
package/dist/_vendor/ailf-shared/dimension-names.js +27 -0
package/dist/_vendor/ailf-shared/document-ref.d.ts +29 -0
package/dist/_vendor/ailf-shared/document-ref.js +1 -0
package/dist/_vendor/ailf-shared/eval-modes.d.ts +12 -0
package/dist/_vendor/ailf-shared/eval-modes.js +8 -0
package/dist/_vendor/ailf-shared/index.d.ts +16 -0
package/dist/_vendor/ailf-shared/index.js +16 -0
package/dist/_vendor/ailf-shared/noise-threshold.d.ts +9 -0
package/dist/_vendor/ailf-shared/noise-threshold.js +9 -0
package/dist/_vendor/ailf-shared/score-grades.d.ts +17 -0
package/dist/_vendor/ailf-shared/score-grades.js +23 -0
package/dist/adapters/cache/content-lake-cache.d.ts +24 -0
package/dist/adapters/cache/content-lake-cache.js +59 -0
package/dist/adapters/cache/filesystem-cache.d.ts +18 -0
package/dist/adapters/cache/filesystem-cache.js +54 -0
package/dist/adapters/cache/index.d.ts +2 -0
package/dist/adapters/cache/index.js +2 -0
package/dist/adapters/config-sources/cli-config-adapter.d.ts +17 -0
package/dist/adapters/config-sources/cli-config-adapter.js +23 -0
package/dist/adapters/config-sources/file-config-adapter.d.ts +26 -0
package/dist/adapters/config-sources/file-config-adapter.js +96 -0
package/dist/adapters/config-sources/index.d.ts +2 -0
package/dist/adapters/config-sources/index.js +2 -0
package/dist/adapters/doc-fetchers/index.d.ts +1 -0
package/dist/adapters/doc-fetchers/index.js +1 -0
package/dist/adapters/doc-fetchers/sanity-doc-fetcher.d.ts +76 -0
package/dist/adapters/doc-fetchers/sanity-doc-fetcher.js +620 -0
package/dist/adapters/eval-runners/index.d.ts +1 -0
package/dist/adapters/eval-runners/index.js +1 -0
package/dist/adapters/eval-runners/promptfoo-eval-adapter.d.ts +14 -0
package/dist/adapters/eval-runners/promptfoo-eval-adapter.js +63 -0
package/dist/adapters/index.d.ts +12 -0
package/dist/adapters/index.js +12 -0
package/dist/adapters/loggers/console-logger.d.ts +22 -0
package/dist/adapters/loggers/console-logger.js +54 -0
package/dist/adapters/loggers/index.d.ts +9 -0
package/dist/adapters/loggers/index.js +9 -0
package/dist/adapters/loggers/json-logger.d.ts +18 -0
package/dist/adapters/loggers/json-logger.js +33 -0
package/dist/adapters/loggers/quiet-logger.d.ts +16 -0
package/dist/adapters/loggers/quiet-logger.js +30 -0
package/dist/adapters/task-sources/composite-task-source.d.ts +20 -0
package/dist/adapters/task-sources/composite-task-source.js +59 -0
package/dist/adapters/task-sources/content-lake-task-source.d.ts +20 -0
package/dist/adapters/task-sources/content-lake-task-source.js +219 -0
package/dist/adapters/task-sources/index.d.ts +7 -0
package/dist/adapters/task-sources/index.js +7 -0
package/dist/adapters/task-sources/repo-schemas.d.ts +245 -0
package/dist/adapters/task-sources/repo-schemas.js +234 -0
package/dist/adapters/task-sources/repo-task-source.d.ts +22 -0
package/dist/adapters/task-sources/repo-task-source.js +104 -0
package/dist/adapters/task-sources/repo-trigger.d.ts +52 -0
package/dist/adapters/task-sources/repo-trigger.js +153 -0
package/dist/adapters/task-sources/repo-validation.d.ts +49 -0
package/dist/adapters/task-sources/repo-validation.js +164 -0
package/dist/adapters/task-sources/yaml-task-source.d.ts +18 -0
package/dist/adapters/task-sources/yaml-task-source.js +136 -0
package/dist/agent-observer/agentic-provider.d.ts +132 -0
package/dist/agent-observer/agentic-provider.js +983 -0
package/dist/agent-observer/classifier.d.ts +62 -0
package/dist/agent-observer/classifier.js +269 -0
package/dist/agent-observer/index.d.ts +7 -0
package/dist/agent-observer/index.js +4 -0
package/dist/agent-observer/pricing.d.ts +35 -0
package/dist/agent-observer/pricing.js +82 -0
package/dist/agent-observer/provider.d.ts +77 -0
package/dist/agent-observer/provider.js +151 -0
package/dist/agent-observer/proxy.d.ts +91 -0
package/dist/agent-observer/proxy.js +321 -0
package/dist/agent-observer/test-imports.d.ts +7 -0
package/dist/agent-observer/test-imports.js +185 -0
package/dist/agent-observer/types.d.ts +137 -0
package/dist/agent-observer/types.js +16 -0
package/dist/assertions/source-isolation.d.ts +72 -0
package/dist/assertions/source-isolation.js +117 -0
package/dist/cli.d.ts +24 -0
package/dist/cli.js +199 -0
package/dist/commands/agent-report.d.ts +5 -0
package/dist/commands/agent-report.js +69 -0
package/dist/commands/baseline.d.ts +9 -0
package/dist/commands/baseline.js +141 -0
package/dist/commands/cache.d.ts +13 -0
package/dist/commands/cache.js +135 -0
package/dist/commands/calculate-scores.d.ts +8 -0
package/dist/commands/calculate-scores.js +48 -0
package/dist/commands/compare.d.ts +8 -0
package/dist/commands/compare.js +120 -0
package/dist/commands/completion.d.ts +18 -0
package/dist/commands/completion.js +260 -0
package/dist/commands/coverage-audit.d.ts +7 -0
package/dist/commands/coverage-audit.js +40 -0
package/dist/commands/discovery-report.d.ts +10 -0
package/dist/commands/discovery-report.js +44 -0
package/dist/commands/eval.d.ts +9 -0
package/dist/commands/eval.js +35 -0
package/dist/commands/explain-handler.d.ts +34 -0
package/dist/commands/explain-handler.js +719 -0
package/dist/commands/fetch-docs.d.ts +8 -0
package/dist/commands/fetch-docs.js +128 -0
package/dist/commands/generate-configs.d.ts +8 -0
package/dist/commands/generate-configs.js +46 -0
package/dist/commands/grader/index.d.ts +11 -0
package/dist/commands/grader/index.js +118 -0
package/dist/commands/init.d.ts +19 -0
package/dist/commands/init.js +150 -0
package/dist/commands/interactive.d.ts +12 -0
package/dist/commands/interactive.js +238 -0
package/dist/commands/lookup-doc.d.ts +15 -0
package/dist/commands/lookup-doc.js +84 -0
package/dist/commands/measure-retrieval.d.ts +5 -0
package/dist/commands/measure-retrieval.js +65 -0
package/dist/commands/pipeline-action.d.ts +71 -0
package/dist/commands/pipeline-action.js +305 -0
package/dist/commands/pipeline.d.ts +62 -0
package/dist/commands/pipeline.js +53 -0
package/dist/commands/pr-comment.d.ts +8 -0
package/dist/commands/pr-comment.js +47 -0
package/dist/commands/publish.d.ts +26 -0
package/dist/commands/publish.js +253 -0
package/dist/commands/readiness-report.d.ts +10 -0
package/dist/commands/readiness-report.js +104 -0
package/dist/commands/shared/options.d.ts +29 -0
package/dist/commands/shared/options.js +57 -0
package/dist/commands/update-quality-scores.d.ts +5 -0
package/dist/commands/update-quality-scores.js +20 -0
package/dist/commands/validate-tasks.d.ts +16 -0
package/dist/commands/validate-tasks.js +93 -0
package/dist/commands/validate.d.ts +9 -0
package/dist/commands/validate.js +73 -0
package/dist/commands/webhook-server.d.ts +5 -0
package/dist/commands/webhook-server.js +30 -0
package/dist/commands/weekly-digest.d.ts +10 -0
package/dist/commands/weekly-digest.js +104 -0
package/dist/composition-root.d.ts +26 -0
package/dist/composition-root.js +107 -0
package/dist/interpolate.d.ts +26 -0
package/dist/interpolate.js +70 -0
package/dist/job-store.d.ts +104 -0
package/dist/job-store.js +188 -0
package/dist/lib/agent-behavior-report.d.ts +8 -0
package/dist/lib/agent-behavior-report.js +185 -0
package/dist/lib/baseline.d.ts +19 -0
package/dist/lib/baseline.js +153 -0
package/dist/lib/calculate-scores.d.ts +23 -0
package/dist/lib/calculate-scores.js +42 -0
package/dist/lib/compare.d.ts +18 -0
package/dist/lib/compare.js +170 -0
package/dist/lib/coverage-audit.d.ts +4 -0
package/dist/lib/coverage-audit.js +42 -0
package/dist/lib/discovery-report.d.ts +13 -0
package/dist/lib/discovery-report.js +57 -0
package/dist/lib/fetch-docs.d.ts +30 -0
package/dist/lib/fetch-docs.js +171 -0
package/dist/lib/generate-configs.d.ts +25 -0
package/dist/lib/generate-configs.js +42 -0
package/dist/lib/grader-api.d.ts +21 -0
package/dist/lib/grader-api.js +34 -0
package/dist/lib/grader-compare.d.ts +19 -0
package/dist/lib/grader-compare.js +91 -0
package/dist/lib/grader-consistency.d.ts +27 -0
package/dist/lib/grader-consistency.js +79 -0
package/dist/lib/grader-sensitivity.d.ts +19 -0
package/dist/lib/grader-sensitivity.js +75 -0
package/dist/lib/grader-validate.d.ts +19 -0
package/dist/lib/grader-validate.js +78 -0
package/dist/lib/measure-retrieval.d.ts +14 -0
package/dist/lib/measure-retrieval.js +71 -0
package/dist/lib/pr-comment.d.ts +16 -0
package/dist/lib/pr-comment.js +28 -0
package/dist/lib/readiness-report.d.ts +13 -0
package/dist/lib/readiness-report.js +108 -0
package/dist/lib/webhook-server.d.ts +11 -0
package/dist/lib/webhook-server.js +24 -0
package/dist/lib/weekly-digest.d.ts +24 -0
package/dist/lib/weekly-digest.js +148 -0
package/dist/orchestration/build-app-context.d.ts +27 -0
package/dist/orchestration/build-app-context.js +81 -0
package/dist/orchestration/build-step-sequence.d.ts +15 -0
package/dist/orchestration/build-step-sequence.js +84 -0
package/dist/orchestration/config-to-source-overrides.d.ts +9 -0
package/dist/orchestration/config-to-source-overrides.js +28 -0
package/dist/orchestration/env-bridge.d.ts +21 -0
package/dist/orchestration/env-bridge.js +66 -0
package/dist/orchestration/index.d.ts +11 -0
package/dist/orchestration/index.js +11 -0
package/dist/orchestration/pipeline-orchestrator.d.ts +24 -0
package/dist/orchestration/pipeline-orchestrator.js +153 -0
package/dist/orchestration/step-runner.d.ts +20 -0
package/dist/orchestration/step-runner.js +88 -0
package/dist/orchestration/steps/calculate-scores-step.d.ts +13 -0
package/dist/orchestration/steps/calculate-scores-step.js +95 -0
package/dist/orchestration/steps/callback-step.d.ts +24 -0
package/dist/orchestration/steps/callback-step.js +76 -0
package/dist/orchestration/steps/compare-step.d.ts +14 -0
package/dist/orchestration/steps/compare-step.js +92 -0
package/dist/orchestration/steps/discovery-report-step.d.ts +13 -0
package/dist/orchestration/steps/discovery-report-step.js +55 -0
package/dist/orchestration/steps/fetch-docs-shell.d.ts +17 -0
package/dist/orchestration/steps/fetch-docs-shell.js +30 -0
package/dist/orchestration/steps/fetch-docs-step.d.ts +14 -0
package/dist/orchestration/steps/fetch-docs-step.js +135 -0
package/dist/orchestration/steps/gap-analysis-step.d.ts +16 -0
package/dist/orchestration/steps/gap-analysis-step.js +136 -0
package/dist/orchestration/steps/generate-configs-step.d.ts +14 -0
package/dist/orchestration/steps/generate-configs-step.js +85 -0
package/dist/orchestration/steps/grader-consistency-step.d.ts +13 -0
package/dist/orchestration/steps/grader-consistency-step.js +64 -0
package/dist/orchestration/steps/index.d.ts +19 -0
package/dist/orchestration/steps/index.js +19 -0
package/dist/orchestration/steps/mirror-repo-tasks-step.d.ts +21 -0
package/dist/orchestration/steps/mirror-repo-tasks-step.js +94 -0
package/dist/orchestration/steps/publish-report-step.d.ts +26 -0
package/dist/orchestration/steps/publish-report-step.js +216 -0
package/dist/orchestration/steps/readiness-step.d.ts +13 -0
package/dist/orchestration/steps/readiness-step.js +91 -0
package/dist/orchestration/steps/report-step.d.ts +12 -0
package/dist/orchestration/steps/report-step.js +49 -0
package/dist/orchestration/steps/run-eval-step.d.ts +17 -0
package/dist/orchestration/steps/run-eval-step.js +195 -0
package/dist/orchestration/steps/validate-step.d.ts +12 -0
package/dist/orchestration/steps/validate-step.js +41 -0
package/dist/pipeline/agent-behavior-report.d.ts +53 -0
package/dist/pipeline/agent-behavior-report.js +132 -0
package/dist/pipeline/attribution.d.ts +47 -0
package/dist/pipeline/attribution.js +226 -0
package/dist/pipeline/baseline.d.ts +37 -0
package/dist/pipeline/baseline.js +141 -0
package/dist/pipeline/cache.d.ts +101 -0
package/dist/pipeline/cache.js +283 -0
package/dist/pipeline/calculate-scores.d.ts +102 -0
package/dist/pipeline/calculate-scores.js +1128 -0
package/dist/pipeline/callback-delivery.d.ts +50 -0
package/dist/pipeline/callback-delivery.js +89 -0
package/dist/pipeline/checks.d.ts +39 -0
package/dist/pipeline/checks.js +280 -0
package/dist/pipeline/classify-url.d.ts +61 -0
package/dist/pipeline/classify-url.js +93 -0
package/dist/pipeline/compare.d.ts +31 -0
package/dist/pipeline/compare.js +208 -0
package/dist/pipeline/coverage-audit.d.ts +39 -0
package/dist/pipeline/coverage-audit.js +165 -0
package/dist/pipeline/degradations.d.ts +85 -0
package/dist/pipeline/degradations.js +242 -0
package/dist/pipeline/discovery-report.d.ts +55 -0
package/dist/pipeline/discovery-report.js +178 -0
package/dist/pipeline/eval-constants.d.ts +68 -0
package/dist/pipeline/eval-constants.js +111 -0
package/dist/pipeline/eval-fingerprint.d.ts +66 -0
package/dist/pipeline/eval-fingerprint.js +175 -0
package/dist/pipeline/expand-tasks.d.ts +220 -0
package/dist/pipeline/expand-tasks.js +421 -0
package/dist/pipeline/failure-modes.d.ts +46 -0
package/dist/pipeline/failure-modes.js +348 -0
package/dist/pipeline/fetch-url-content.d.ts +44 -0
package/dist/pipeline/fetch-url-content.js +93 -0
package/dist/pipeline/gap-analysis.d.ts +48 -0
package/dist/pipeline/gap-analysis.js +231 -0
package/dist/pipeline/generate-configs.d.ts +72 -0
package/dist/pipeline/generate-configs.js +395 -0
package/dist/pipeline/grader-api.d.ts +49 -0
package/dist/pipeline/grader-api.js +200 -0
package/dist/pipeline/grader-compare-runner.d.ts +44 -0
package/dist/pipeline/grader-compare-runner.js +301 -0
package/dist/pipeline/grader-comparison.d.ts +111 -0
package/dist/pipeline/grader-comparison.js +161 -0
package/dist/pipeline/grader-consistency-runner.d.ts +60 -0
package/dist/pipeline/grader-consistency-runner.js +270 -0
package/dist/pipeline/grader-consistency.d.ts +103 -0
package/dist/pipeline/grader-consistency.js +146 -0
package/dist/pipeline/grader-sensitivity-runner.d.ts +40 -0
package/dist/pipeline/grader-sensitivity-runner.js +282 -0
package/dist/pipeline/grader-sensitivity.d.ts +94 -0
package/dist/pipeline/grader-sensitivity.js +144 -0
package/dist/pipeline/grader-validate-runner.d.ts +38 -0
package/dist/pipeline/grader-validate-runner.js +229 -0
package/dist/pipeline/grader-validation.d.ts +107 -0
package/dist/pipeline/grader-validation.js +169 -0
package/dist/pipeline/map-request-to-config.d.ts +19 -0
package/dist/pipeline/map-request-to-config.js +80 -0
package/dist/pipeline/measure-retrieval.d.ts +59 -0
package/dist/pipeline/measure-retrieval.js +111 -0
package/dist/pipeline/mirror-repo-tasks.d.ts +86 -0
package/dist/pipeline/mirror-repo-tasks.js +350 -0
package/dist/pipeline/plan-format.d.ts +33 -0
package/dist/pipeline/plan-format.js +202 -0
package/dist/pipeline/plan.d.ts +169 -0
package/dist/pipeline/plan.js +708 -0
package/dist/pipeline/pr-comment.d.ts +19 -0
package/dist/pipeline/pr-comment.js +502 -0
package/dist/pipeline/probe.d.ts +52 -0
package/dist/pipeline/probe.js +390 -0
package/dist/pipeline/provenance.d.ts +47 -0
package/dist/pipeline/provenance.js +146 -0
package/dist/pipeline/readiness-report.d.ts +87 -0
package/dist/pipeline/readiness-report.js +205 -0
package/dist/pipeline/release-classification.d.ts +54 -0
package/dist/pipeline/release-classification.js +238 -0
package/dist/pipeline/release-report.d.ts +37 -0
package/dist/pipeline/release-report.js +222 -0
package/dist/pipeline/repo-eval-comment.d.ts +37 -0
package/dist/pipeline/repo-eval-comment.js +165 -0
package/dist/pipeline/repo-threshold-evaluator.d.ts +89 -0
package/dist/pipeline/repo-threshold-evaluator.js +162 -0
package/dist/pipeline/resolve-mappings.d.ts +35 -0
package/dist/pipeline/resolve-mappings.js +72 -0
package/dist/pipeline/retrieval-metrics.d.ts +39 -0
package/dist/pipeline/retrieval-metrics.js +136 -0
package/dist/pipeline/reverse-mapping.d.ts +67 -0
package/dist/pipeline/reverse-mapping.js +88 -0
package/dist/pipeline/schemas.d.ts +9 -0
package/dist/pipeline/schemas.js +9 -0
package/dist/pipeline/steps/calculate-scores-step.d.ts +11 -0
package/dist/pipeline/steps/calculate-scores-step.js +89 -0
package/dist/pipeline/steps/compare-step.d.ts +18 -0
package/dist/pipeline/steps/compare-step.js +90 -0
package/dist/pipeline/steps/eval-step.d.ts +53 -0
package/dist/pipeline/steps/eval-step.js +347 -0
package/dist/pipeline/steps/fetch-docs-step.d.ts +11 -0
package/dist/pipeline/steps/fetch-docs-step.js +84 -0
package/dist/pipeline/steps/generate-configs-step.d.ts +11 -0
package/dist/pipeline/steps/generate-configs-step.js +98 -0
package/dist/pipeline/steps/grader-consistency-step.d.ts +21 -0
package/dist/pipeline/steps/grader-consistency-step.js +74 -0
package/dist/pipeline/steps/publish-report-step.d.ts +57 -0
package/dist/pipeline/steps/publish-report-step.js +243 -0
package/dist/pipeline/steps/report-step.d.ts +13 -0
package/dist/pipeline/steps/report-step.js +56 -0
package/dist/pipeline/steps/update-scores-step.d.ts +11 -0
package/dist/pipeline/steps/update-scores-step.js +42 -0
package/dist/pipeline/targeted-loo.d.ts +88 -0
package/dist/pipeline/targeted-loo.js +203 -0
package/dist/pipeline/thresholds.d.ts +27 -0
package/dist/pipeline/thresholds.js +245 -0
package/dist/pipeline/types.d.ts +10 -0
package/dist/pipeline/types.js +10 -0
package/dist/pipeline/validate.d.ts +67 -0
package/dist/pipeline/validate.js +406 -0
package/dist/pipeline/webhook-server.d.ts +37 -0
package/dist/pipeline/webhook-server.js +133 -0
package/dist/report-store.d.ts +84 -0
package/dist/report-store.js +208 -0
package/dist/sanity/client.d.ts +38 -0
package/dist/sanity/client.js +86 -0
package/dist/sanity/portable-text.d.ts +11 -0
package/dist/sanity/portable-text.js +211 -0
package/dist/sanity/queries.d.ts +133 -0
package/dist/sanity/queries.js +300 -0
package/dist/schedules/digest.d.ts +116 -0
package/dist/schedules/digest.js +156 -0
package/dist/schedules/index.d.ts +12 -0
package/dist/schedules/index.js +10 -0
package/dist/schedules/loader.d.ts +31 -0
package/dist/schedules/loader.js +73 -0
package/dist/schedules/schema.d.ts +9 -0
package/dist/schedules/schema.js +9 -0
package/dist/scripts/agent-behavior-report.d.ts +19 -0
package/dist/scripts/agent-behavior-report.js +315 -0
package/dist/scripts/baseline.d.ts +43 -0
package/dist/scripts/baseline.js +267 -0
package/dist/scripts/calculate-scores.d.ts +166 -0
package/dist/scripts/calculate-scores.js +1296 -0
package/dist/scripts/compare.d.ts +22 -0
package/dist/scripts/compare.js +334 -0
package/dist/scripts/coverage-audit.d.ts +44 -0
package/dist/scripts/coverage-audit.js +209 -0
package/dist/scripts/debug-eval.d.ts +19 -0
package/dist/scripts/debug-eval.js +73 -0
package/dist/scripts/discovery-report.d.ts +58 -0
package/dist/scripts/discovery-report.js +250 -0
package/dist/scripts/fetch-docs.d.ts +35 -0
package/dist/scripts/fetch-docs.js +472 -0
package/dist/scripts/generate-configs.d.ts +66 -0
package/dist/scripts/generate-configs.js +459 -0
package/dist/scripts/grader-api.d.ts +27 -0
package/dist/scripts/grader-api.js +206 -0
package/dist/scripts/grader-compare.d.ts +22 -0
package/dist/scripts/grader-compare.js +368 -0
package/dist/scripts/grader-consistency.d.ts +20 -0
package/dist/scripts/grader-consistency.js +313 -0
package/dist/scripts/grader-sensitivity.d.ts +22 -0
package/dist/scripts/grader-sensitivity.js +354 -0
package/dist/scripts/grader-validate.d.ts +19 -0
package/dist/scripts/grader-validate.js +267 -0
package/dist/scripts/measure-retrieval.d.ts +10 -0
package/dist/scripts/measure-retrieval.js +145 -0
package/dist/scripts/migrate-tasks-to-content-lake.d.ts +24 -0
package/dist/scripts/migrate-tasks-to-content-lake.js +327 -0
package/dist/scripts/pipeline.d.ts +76 -0
package/dist/scripts/pipeline.js +1031 -0
package/dist/scripts/pr-comment.d.ts +10 -0
package/dist/scripts/pr-comment.js +510 -0
package/dist/scripts/readiness-report.d.ts +88 -0
package/dist/scripts/readiness-report.js +342 -0
package/dist/scripts/update-quality-scores.d.ts +15 -0
package/dist/scripts/update-quality-scores.js +184 -0
package/dist/scripts/validate-task-sources.d.ts +21 -0
package/dist/scripts/validate-task-sources.js +210 -0
package/dist/scripts/validate.d.ts +13 -0
package/dist/scripts/validate.js +79 -0
package/dist/scripts/webhook-server.d.ts +26 -0
package/dist/scripts/webhook-server.js +147 -0
package/dist/scripts/weekly-digest.d.ts +24 -0
package/dist/scripts/weekly-digest.js +144 -0
package/dist/sinks/bigquery/index.d.ts +131 -0
package/dist/sinks/bigquery/index.js +222 -0
package/dist/sinks/format-slack.d.ts +64 -0
package/dist/sinks/format-slack.js +306 -0
package/dist/sinks/index.d.ts +23 -0
package/dist/sinks/index.js +18 -0
package/dist/sinks/loader.d.ts +18 -0
package/dist/sinks/loader.js +82 -0
package/dist/sinks/retry.d.ts +24 -0
package/dist/sinks/retry.js +52 -0
package/dist/sinks/schema.d.ts +9 -0
package/dist/sinks/schema.js +9 -0
package/dist/sinks/slack/format.d.ts +65 -0
package/dist/sinks/slack/format.js +327 -0
package/dist/sinks/slack/index.d.ts +27 -0
package/dist/sinks/slack/index.js +78 -0
package/dist/sinks/slack-sink.d.ts +27 -0
package/dist/sinks/slack-sink.js +78 -0
package/dist/sinks/types.d.ts +59 -0
package/dist/sinks/types.js +44 -0
package/dist/sinks/webhook/index.d.ts +19 -0
package/dist/sinks/webhook/index.js +50 -0
package/dist/sinks/webhook-sink.d.ts +19 -0
package/dist/sinks/webhook-sink.js +50 -0
package/dist/sources.d.ts +104 -0
package/dist/sources.js +292 -0
package/dist/webhook/budget.d.ts +42 -0
package/dist/webhook/budget.js +60 -0
package/dist/webhook/debounce.d.ts +67 -0
package/dist/webhook/debounce.js +76 -0
package/dist/webhook/dispatch.d.ts +45 -0
package/dist/webhook/dispatch.js +84 -0
package/dist/webhook/eval-request-handler.d.ts +87 -0
package/dist/webhook/eval-request-handler.js +181 -0
package/dist/webhook/handler.d.ts +88 -0
package/dist/webhook/handler.js +203 -0
package/dist/webhook/index.d.ts +17 -0
package/dist/webhook/index.js +12 -0
package/dist/webhook/types.d.ts +109 -0
package/dist/webhook/types.js +10 -0
package/package.json +72 -0
package/tasks/.expanded.agentic.yaml +51 -0
package/tasks/.expanded.yaml +66 -0
package/tasks/frameworks.yaml +98 -0
package/tasks/functions.yaml +51 -0
package/tasks/groq.yaml +216 -0
package/tasks/nextjs-live.yaml +62 -0
package/tasks/studio-setup.yaml +111 -0
package/tasks/visual-editing.yaml +120 -0

package/dist/pipeline/generate-configs.js ADDED Viewed

@@ -0,0 +1,395 @@
+/**
+ * pipeline/generate-configs.ts
+ *
+ * Reads config/models.yaml (the central model registry) and generates all
+ * promptfoo config files with the correct provider entries.
+ *
+ * This keeps model definitions in one place — add a model to config/models.yaml
+ * and run `pnpm generate-configs` to propagate it to all eval modes.
+ *
+ * Generated configs:
+ *   - promptfooconfig.yaml           (baseline: with-docs vs without-docs)
+ *   - promptfooconfig.observed.yaml  (instrumented HTTP recording)
+ *   - promptfooconfig.agentic.yaml   (agentic tool-calling: naive vs optimized)
+ *
+ * All functions accept rootDir as a parameter — no module-level constants.
+ * No process.argv parsing. No env var fallbacks. Callers provide typed options.
+ *
+ * @see config/models.yaml — the central model registry
+ * @see docs/exec-plans/active/eliminate-lib-layer.md
+ */
+import { extractModelName, extractProvider, mergeConfig, modelMatchesMode, } from "../_vendor/ailf-core/index.js";
+import { existsSync, readFileSync, readdirSync, writeFileSync } from "fs";
+import { resolve } from "path";
+import { dump, load } from "js-yaml";
+import { expandTaskDefinitions, loadAndExpandTasks } from "./expand-tasks.js";
+import { validateModelsYaml } from "./validate.js";
+import { loadSource } from "../sources.js";
+// Re-export pure functions from core for backward compatibility.
+// Tests and other modules that previously imported from lib/generate-configs
+// can import from pipeline/generate-configs instead.
+export { extractModelName, extractProvider, mergeConfig, modelMatchesMode, } from "../_vendor/ailf-core/index.js";
+// ---------------------------------------------------------------------------
+// Helpers
+// ---------------------------------------------------------------------------
+/** Auto-discover all task YAML files in the tasks/ directory. */
+export function discoverTaskFiles(rootDir) {
+    const tasksDir = resolve(rootDir, "tasks");
+    if (!existsSync(tasksDir)) {
+        return []; // tasks may come from Content Lake instead
+    }
+    return readdirSync(tasksDir)
+        .filter((f) => (f.endsWith(".yaml") || f.endsWith(".yml")) && !f.startsWith("."))
+        .sort()
+        .map((f) => `file://tasks/${f}`);
+}
+/** Load prompt templates from config/prompts.yaml. Throws if missing or malformed. */
+export function loadPrompts(rootDir) {
+    const promptsPath = resolve(rootDir, "config", "prompts.yaml");
+    if (!existsSync(promptsPath)) {
+        throw new Error(`config/prompts.yaml not found at ${promptsPath}. This file is required — it defines the prompt templates for all evaluation modes.`);
+    }
+    const raw = readFileSync(promptsPath, "utf-8");
+    const data = load(raw);
+    const toPrompt = (entry) => ({
+        id: entry.id,
+        label: entry.label,
+        raw: entry.template,
+    });
+    if (!data["with-docs"] || !data["without-docs"] || !data["agentic"]) {
+        const missing = ["with-docs", "without-docs", "agentic"].filter((k) => !data[k]);
+        throw new Error(`config/prompts.yaml is missing required keys: ${missing.join(", ")}. Each prompt must have id, label, and template fields.`);
+    }
+    return {
+        agentic: toPrompt(data["agentic"]),
+        withDocs: toPrompt(data["with-docs"]),
+        withoutDocs: toPrompt(data["without-docs"]),
+    };
+}
+function loadModels(rootDir) {
+    const raw = readFileSync(resolve(rootDir, "config", "models.yaml"), "utf-8");
+    return load(raw);
+}
+// ---------------------------------------------------------------------------
+// Shared components
+// ---------------------------------------------------------------------------
+const URL_EXTRACTION_ASSERT = {
+    type: "javascript",
+    value: `const urlPattern = /https?:\\/\\/[^\\s\\)\\"\\'\\\`>]+/g;
+const urls = [...new Set((output.match(urlPattern) || []))];
+const sanityUrls = urls.filter(u => u.includes('sanity.io'));
+return {
+  pass: true,
+  score: 1,
+  reason: JSON.stringify({
+    sanityUrls,
+    otherUrls: urls.filter(u => !u.includes('sanity.io')),
+    totalUrlCount: urls.length,
+    sanityUrlCount: sanityUrls.length
+  })
+};`,
+    weight: 0,
+};
+/**
+ * Source isolation assertion — advisory (weight: 0).
+ * Verifies that the agentic provider only fetched docs from allowed origins.
+ * Only injected when origin sandboxing is active.
+ */
+const SOURCE_ISOLATION_ASSERT = {
+    metadata: { dimension: "source-isolation" },
+    type: "javascript",
+    value: "file://dist/assertions/source-isolation.js",
+    weight: 0,
+};
+// ---------------------------------------------------------------------------
+// Config generators
+// ---------------------------------------------------------------------------
+function generateAgenticConfig(models, tests, prompts, source, searchMode, allowedOrigins) {
+    const naiveModels = models.models.filter((m) => modelMatchesMode(m, "agentic-naive"));
+    const optimizedModels = models.models.filter((m) => modelMatchesMode(m, "agentic-optimized"));
+    const providers = [];
+    // Build doc source config to inject into providers
+    const resolvedSearchMode = searchMode ?? "open";
+    const sourceConfig = source
+        ? {
+            ...(source.allowedOrigins?.length
+                ? { allowedOrigins: source.allowedOrigins }
+                : {}),
+            docBaseUrl: source.baseUrl,
+            ...(source.headers && Object.keys(source.headers).length > 0
+                ? { customHeaders: source.headers }
+                : {}),
+            llmsTxtUrl: source.llmsTxt,
+            ...(source.priorityDomain
+                ? { priorityDomain: source.priorityDomain }
+                : {}),
+            // Tool access control: search mode for web_search behavior
+            ...(resolvedSearchMode !== "open"
+                ? { searchMode: resolvedSearchMode }
+                : {}),
+        }
+        : {};
+    for (const model of naiveModels) {
+        const modelName = extractModelName(model.id);
+        const provider = extractProvider(model.id);
+        providers.push({
+            config: {
+                ...mergeConfig(models.defaults, model.config, {
+                    agentMode: "naive",
+                    maxToolRounds: models.defaults.maxToolRounds ?? 5,
+                    model: modelName,
+                    provider,
+                }),
+                ...sourceConfig,
+                observe: true,
+                observerOptions: models.defaults.observerOptions ?? {},
+            },
+            id: "file://dist/agent-observer/agentic-provider.js",
+            label: `${model.label} (Naive Agent)`,
+        });
+    }
+    for (const model of optimizedModels) {
+        const modelName = extractModelName(model.id);
+        const provider = extractProvider(model.id);
+        providers.push({
+            config: {
+                ...mergeConfig(models.defaults, model.config, {
+                    agentMode: "optimized",
+                    maxToolRounds: models.defaults.maxToolRounds ?? 5,
+                    model: modelName,
+                    provider,
+                }),
+                ...sourceConfig,
+                observe: true,
+                observerOptions: models.defaults.observerOptions ?? {},
+            },
+            id: "file://dist/agent-observer/agentic-provider.js",
+            label: `${model.label} (Optimized Agent)`,
+        });
+    }
+    // Inject source isolation assertion when origin sandboxing is active
+    const hasOriginSandbox = Boolean(allowedOrigins?.length);
+    const agenticAssertions = hasOriginSandbox ? [SOURCE_ISOLATION_ASSERT] : [];
+    return {
+        commandLineOptions: { table: false },
+        defaultTest: {
+            ...(agenticAssertions.length > 0 ? { assert: agenticAssertions } : {}),
+            options: {
+                provider: models.grader.id,
+                rubricProvider: models.grader.id,
+            },
+        },
+        description: "Sanity AI Literacy Evaluation — Agentic (naive vs optimized)",
+        ...(models.maxConcurrency
+            ? { evaluateOptions: { maxConcurrency: models.maxConcurrency } }
+            : {}),
+        outputPath: "results/latest/eval-results-agentic.json",
+        prompts: [prompts.agentic],
+        providers,
+        tests,
+    };
+}
+function generateBaselineConfig(models, tests, prompts) {
+    const baselineModels = models.models.filter((m) => modelMatchesMode(m, "baseline"));
+    const providers = baselineModels.map((model) => ({
+        config: mergeConfig(models.defaults, model.config),
+        id: model.id,
+        label: model.label,
+    }));
+    return {
+        commandLineOptions: { table: false },
+        defaultTest: {
+            assert: [URL_EXTRACTION_ASSERT],
+            options: {
+                provider: models.grader.id,
+                rubricProvider: models.grader.id,
+            },
+        },
+        description: "Sanity AI Literacy Evaluation — Baseline",
+        ...(models.maxConcurrency
+            ? { evaluateOptions: { maxConcurrency: models.maxConcurrency } }
+            : {}),
+        outputPath: "results/latest/eval-results.json",
+        prompts: [prompts.withDocs, prompts.withoutDocs],
+        providers,
+        tests,
+    };
+}
+function generateObservedConfig(models, tests, prompts) {
+    const observedModels = models.models.filter((m) => modelMatchesMode(m, "observed"));
+    const providers = observedModels.map((model) => {
+        const modelName = extractModelName(model.id);
+        return {
+            config: {
+                ...mergeConfig(models.defaults, model.config),
+                modelName,
+                observe: true,
+                recordOptions: models.defaults.observerOptions ?? {},
+            },
+            id: "file://dist/agent-observer/provider.js",
+            label: `${model.label} (Observed)`,
+        };
+    });
+    return {
+        commandLineOptions: { table: false },
+        defaultTest: {
+            options: {
+                provider: models.grader.id,
+                rubricProvider: models.grader.id,
+            },
+        },
+        description: "Sanity AI Literacy Evaluation — Observed",
+        ...(models.maxConcurrency
+            ? { evaluateOptions: { maxConcurrency: models.maxConcurrency } }
+            : {}),
+        outputPath: "results/latest/eval-results-observed.json",
+        prompts: [prompts.withDocs, prompts.withoutDocs],
+        providers,
+        tests,
+    };
+}
+// ---------------------------------------------------------------------------
+// Main entry point
+// ---------------------------------------------------------------------------
+/**
+ * Generate Promptfoo config files from models.yaml + task definitions.
+ *
+ * All parameters are passed via the typed options object — no process.argv
+ * parsing or env var fallbacks. Callers (command handlers, orchestration
+ * steps) are responsible for resolving options from their own context.
+ */
+export function generateConfigs(options) {
+    const { rootDir } = options;
+    // Validate config/models.yaml before generating configs
+    const modelIssues = validateModelsYaml(rootDir);
+    const modelErrors = modelIssues.filter((i) => i.severity === "error");
+    if (modelErrors.length > 0) {
+        console.error("❌ config/models.yaml validation failed:");
+        for (const e of modelErrors) {
+            console.error(`  ERROR: ${e.message}`);
+            if (e.path) {
+                console.error(`         at ${e.path}`);
+            }
+        }
+        console.error("\nFix config/models.yaml before generating configs. Run 'pnpm validate' for details.");
+        process.exit(1);
+    }
+    console.log("Loading config/models.yaml...");
+    const models = loadModels(rootDir);
+    const activeModels = models.models.filter((m) => m.id && m.label);
+    console.log(`  Found ${activeModels.length} active model(s):`);
+    for (const m of activeModels) {
+        // oxlint-disable-next-line @typescript-eslint/prefer-nullish-coalescing -- empty array join → "all"
+        const modes = m.modes?.join(", ") || "all";
+        console.log(`    - ${m.label} (${m.id}) → [${modes}]`);
+    }
+    // oxlint-disable-next-line @typescript-eslint/prefer-nullish-coalescing -- empty label falls through to id
+    console.log(`  Grader: ${models.grader.label || models.grader.id}`);
+    // Build filter from options
+    const filter = options.filter?.areas || options.filter?.taskIds
+        ? options.filter
+        : undefined;
+    // Expand tasks — use TaskDefinition[] from TaskSource when provided,
+    // otherwise fall back to loading from tasks/*.yaml files.
+    let entries;
+    let agenticEntries;
+    if (options.tasks) {
+        // TaskSource path — tasks already loaded and filtered by the adapter
+        const baselineResult = expandTaskDefinitions(options.tasks, rootDir, "baseline");
+        entries = baselineResult.entries;
+        console.log(`  Expanded ${baselineResult.stats.totalTasks} task(s) → ${baselineResult.stats.expandedTotal} test entries (from TaskSource)`);
+        const agenticResult = expandTaskDefinitions(options.tasks, rootDir, "agentic");
+        agenticEntries = agenticResult.entries;
+        console.log(`  Agentic: ${agenticResult.stats.expandedTotal} entries (gold only, no baseline)`);
+    }
+    else {
+        // Legacy path — read from tasks/*.yaml files
+        const { entries: baselineEntries, stats } = loadAndExpandTasks(rootDir, filter, "baseline");
+        entries = baselineEntries;
+        console.log(`  Expanded ${stats.singleDefinitions} task(s) → ${stats.expandedTotal} test entries`);
+        if (stats.legacyEntries > 0) {
+            console.log(`  ⚠ ${stats.legacyEntries} legacy (paired) entries passed through unchanged`);
+        }
+        if (filter) {
+            const parts = [];
+            if (filter.areas) {
+                parts.push(`areas: ${filter.areas.join(", ")}`);
+            }
+            if (filter.taskIds) {
+                parts.push(`tasks: ${filter.taskIds.join(", ")}`);
+            }
+            console.log(`  Scoped to: ${parts.join("; ")}`);
+        }
+        const { entries: agenticFromYaml, stats: agenticStats } = loadAndExpandTasks(rootDir, filter, "agentic");
+        agenticEntries = agenticFromYaml;
+        console.log(`  Agentic: ${agenticStats.expandedTotal} entries (gold only, no baseline)`);
+    }
+    // Write expanded tasks to generated files for Promptfoo to consume
+    const expandedPath = resolve(rootDir, "tasks", ".expanded.yaml");
+    const expandedYaml = dump(entries, {
+        forceQuotes: false,
+        lineWidth: 120,
+        noRefs: true,
+        quotingType: "'",
+    });
+    writeFileSync(expandedPath, `# .expanded.yaml\n#\n# AUTO-GENERATED — do not edit directly.\n# Source: tasks/*.yaml (single-definition format)\n# Run: pnpm generate-configs\n\n${expandedYaml}`, "utf-8");
+    console.log(`  ✓ tasks/.expanded.yaml (${entries.length} entries)`);
+    const agenticExpandedPath = resolve(rootDir, "tasks", ".expanded.agentic.yaml");
+    const agenticExpandedYaml = dump(agenticEntries, {
+        forceQuotes: false,
+        lineWidth: 120,
+        noRefs: true,
+        quotingType: "'",
+    });
+    writeFileSync(agenticExpandedPath, `# .expanded.agentic.yaml\n#\n# AUTO-GENERATED — do not edit directly.\n# Gold entries only (no baseline) for agentic evaluation mode.\n# Source: tasks/*.yaml (single-definition format)\n# Run: pnpm generate-configs\n\n${agenticExpandedYaml}`, "utf-8");
+    console.log(`  ✓ tasks/.expanded.agentic.yaml (${agenticEntries.length} entries)`);
+    const taskFiles = ["file://tasks/.expanded.yaml"];
+    const agenticTaskFiles = ["file://tasks/.expanded.agentic.yaml"];
+    // Load prompt templates
+    const prompts = loadPrompts(rootDir);
+    console.log(`  Loaded prompts: ${Object.keys(prompts).join(", ")}`);
+    // Load optional documentation source configuration
+    // Pre-resolved source wins over name-based lookup
+    let source = options.resolvedSource;
+    const sourceName = options.source;
+    if (!source && sourceName) {
+        console.log(`\nLoading source: ${sourceName}`);
+        try {
+            source = loadSource(sourceName);
+        }
+        catch (err) {
+            const msg = err instanceof Error ? err.message : String(err);
+            console.warn(`\n⚠ Failed to load source "${sourceName}": ${msg}`);
+        }
+    }
+    if (source) {
+        console.log(`  Base URL: ${source.baseUrl}`);
+        console.log(`  Dataset: ${source.dataset}`);
+        if (source.allowedOrigins?.length) {
+            console.log(`  Allowed origins: ${source.allowedOrigins.join(", ")}`);
+        }
+    }
+    console.log("\nGenerating configs...");
+    writeConfig(rootDir, "promptfooconfig.yaml", generateBaselineConfig(models, taskFiles, prompts), `# promptfooconfig.yaml\n#\n# AUTO-GENERATED from config/models.yaml — do not edit directly.\n# Run: pnpm generate-configs\n`);
+    writeConfig(rootDir, "promptfooconfig.observed.yaml", generateObservedConfig(models, taskFiles, prompts), `# promptfooconfig.observed.yaml\n#\n# AUTO-GENERATED from config/models.yaml — do not edit directly.\n# Run: pnpm generate-configs\n`);
+    writeConfig(rootDir, "promptfooconfig.agentic.yaml", generateAgenticConfig(models, agenticTaskFiles, prompts, source, options.searchMode, options.allowedOrigins), `# promptfooconfig.agentic.yaml\n#\n# AUTO-GENERATED from config/models.yaml — do not edit directly.\n# Run: pnpm generate-configs\n`);
+    console.log("\nDone! Configs are ready.");
+    if (source) {
+        console.log(`  (using doc source: ${sourceName})`);
+    }
+}
+// ---------------------------------------------------------------------------
+// File writing
+// ---------------------------------------------------------------------------
+function writeConfig(rootDir, filename, config, header) {
+    const yamlStr = dump(config, {
+        forceQuotes: false,
+        lineWidth: 120,
+        noRefs: true,
+        quotingType: "'",
+    });
+    const content = `${header}\n${yamlStr}`;
+    const outPath = resolve(rootDir, filename);
+    writeFileSync(outPath, content, "utf-8");
+    console.log(`  ✓ ${filename}`);
+}

package/dist/pipeline/grader-api.d.ts ADDED Viewed

@@ -0,0 +1,49 @@
+/**
+ * grader-api.ts
+ *
+ * Shared utility for calling LLM grading APIs from grader scripts.
+ *
+ * Dispatches to the correct provider API (OpenAI, Anthropic) based on the
+ * grader model prefix. Reads the appropriate API key from environment.
+ *
+ * Also exports `loadGraderModel()` to resolve the grader from
+ * `config/models.yaml`.
+ *
+ * Migrated from lib/grader-api.ts — no module-level side effects, no
+ * process.exit(), accepts rootDir as parameter for file-based operations.
+ */
+interface ProviderConfig {
+    apiKey: string;
+    baseUrl: string;
+    modelName: string;
+}
+/**
+ * Call the grader model once to score a response against a rubric.
+ *
+ * Dispatches to the correct provider API based on the model prefix.
+ * Returns a numeric score (0–100) or null if the call or parse fails.
+ */
+export declare function gradeOnce(graderModel: string, responseText: string, rubricText: string): Promise<null | number>;
+/**
+ * Load the grader model from `config/models.yaml`.
+ * Returns both the model ID and human-readable label.
+ * Falls back to `openai:gpt-5` if not configured.
+ *
+ * @throws Error if config/models.yaml is not found
+ */
+export declare function loadGraderModel(rootDir: string): {
+    id: string;
+    label: string;
+};
+export declare function extractScore(content: string): null | number;
+/**
+ * Parse a Promptfoo-style model ID and resolve the provider config.
+ *
+ * Supported formats:
+ *   - `openai:chat:gpt-5.2`       → OpenAI, model = `gpt-5.2`
+ *   - `openai:gpt-5`              → OpenAI, model = `gpt-5`
+ *   - `anthropic:messages:claude-opus-4-5-20251101` → Anthropic, model = `claude-opus-4-5-20251101`
+ *   - `anthropic:claude-sonnet-4`  → Anthropic, model = `claude-sonnet-4`
+ */
+export declare function resolveProvider(graderModel: string): ProviderConfig;
+export {};

package/dist/pipeline/grader-api.js ADDED Viewed

@@ -0,0 +1,200 @@
+/**
+ * grader-api.ts
+ *
+ * Shared utility for calling LLM grading APIs from grader scripts.
+ *
+ * Dispatches to the correct provider API (OpenAI, Anthropic) based on the
+ * grader model prefix. Reads the appropriate API key from environment.
+ *
+ * Also exports `loadGraderModel()` to resolve the grader from
+ * `config/models.yaml`.
+ *
+ * Migrated from lib/grader-api.ts — no module-level side effects, no
+ * process.exit(), accepts rootDir as parameter for file-based operations.
+ */
+import { existsSync, readFileSync } from "fs";
+import { join } from "path";
+import { load } from "js-yaml";
+// ---------------------------------------------------------------------------
+// Public API
+// ---------------------------------------------------------------------------
+/**
+ * Call the grader model once to score a response against a rubric.
+ *
+ * Dispatches to the correct provider API based on the model prefix.
+ * Returns a numeric score (0–100) or null if the call or parse fails.
+ */
+export async function gradeOnce(graderModel, responseText, rubricText) {
+    const config = resolveProvider(graderModel);
+    const prompt = `You are evaluating an AI assistant's response. Grade the response according to the following rubric.
+## Response to evaluate:
+${responseText.slice(0, 8000)}
+## Rubric:
+${rubricText}
+`;
+    try {
+        const provider = graderModel.split(":")[0];
+        let content;
+        if (provider === "anthropic") {
+            content = await callAnthropic(config, prompt);
+        }
+        else if (provider === "openai") {
+            content = await callOpenAI(config, prompt);
+        }
+        else {
+            // resolveProvider already throws for unknown providers, but just in case
+            return null;
+        }
+        if (content === null)
+            return null;
+        const score = extractScore(content);
+        if (score === null) {
+            console.error(`  ⚠ Could not parse grader response: ${content.slice(0, 100)}`);
+        }
+        return score;
+    }
+    catch (err) {
+        console.error(`  ⚠ Grader call failed: ${err instanceof Error ? err.message : String(err)}`);
+        return null;
+    }
+}
+/**
+ * Load the grader model from `config/models.yaml`.
+ * Returns both the model ID and human-readable label.
+ * Falls back to `openai:gpt-5` if not configured.
+ *
+ * @throws Error if config/models.yaml is not found
+ */
+export function loadGraderModel(rootDir) {
+    const modelsPath = join(rootDir, "config", "models.yaml");
+    if (!existsSync(modelsPath)) {
+        throw new Error(`config/models.yaml not found at ${modelsPath}`);
+    }
+    const raw = readFileSync(modelsPath, "utf-8");
+    const data = load(raw);
+    return {
+        id: data?.grader?.id ?? "openai:gpt-5",
+        label: data?.grader?.label ?? "GPT-5 (grader)",
+    };
+}
+// ---------------------------------------------------------------------------
+// Score extraction (exported for testing)
+// ---------------------------------------------------------------------------
+export function extractScore(content) {
+    // Try JSON parse first: {"score": 85, "reason": "..."}
+    try {
+        const parsed = JSON.parse(content);
+        if (typeof parsed === "object" &&
+            parsed !== null &&
+            "score" in parsed &&
+            typeof parsed.score === "number") {
+            return parsed.score;
+        }
+    }
+    catch {
+        // Not JSON — fall through
+    }
+    // Fallback: extract first bare number
+    const match = content.match(/(\d+)/);
+    if (match)
+        return parseInt(match[1], 10);
+    return null;
+}
+// ---------------------------------------------------------------------------
+// Provider resolution (exported for testing)
+// ---------------------------------------------------------------------------
+/**
+ * Parse a Promptfoo-style model ID and resolve the provider config.
+ *
+ * Supported formats:
+ *   - `openai:chat:gpt-5.2`       → OpenAI, model = `gpt-5.2`
+ *   - `openai:gpt-5`              → OpenAI, model = `gpt-5`
+ *   - `anthropic:messages:claude-opus-4-5-20251101` → Anthropic, model = `claude-opus-4-5-20251101`
+ *   - `anthropic:claude-sonnet-4`  → Anthropic, model = `claude-sonnet-4`
+ */
+export function resolveProvider(graderModel) {
+    const parts = graderModel.split(":");
+    const provider = parts[0];
+    if (provider === "anthropic") {
+        // "anthropic:messages:claude-opus-4-5" → "claude-opus-4-5"
+        // "anthropic:claude-sonnet-4" → "claude-sonnet-4"
+        const modelName = parts.length >= 3 && parts[1] === "messages"
+            ? parts.slice(2).join(":")
+            : parts.slice(1).join(":");
+        const apiKey = process.env.ANTHROPIC_API_KEY;
+        if (!apiKey) {
+            throw new Error("ANTHROPIC_API_KEY not set. Required for grader model: " + graderModel);
+        }
+        return {
+            apiKey,
+            baseUrl: "https://api.anthropic.com/v1/messages",
+            modelName,
+        };
+    }
+    if (provider === "openai") {
+        // "openai:chat:gpt-5.2" → "gpt-5.2", "openai:gpt-5" → "gpt-5"
+        const modelName = parts.length >= 3 ? parts.slice(2).join(":") : parts[1];
+        const apiKey = process.env.OPENAI_API_KEY;
+        if (!apiKey) {
+            throw new Error("OPENAI_API_KEY not set. Required for grader model: " + graderModel);
+        }
+        return {
+            apiKey,
+            baseUrl: "https://api.openai.com/v1/chat/completions",
+            modelName,
+        };
+    }
+    throw new Error(`Unsupported grader provider "${provider}" in model "${graderModel}". ` +
+        "Supported: openai, anthropic.");
+}
+// ---------------------------------------------------------------------------
+// Provider-specific API calls
+// ---------------------------------------------------------------------------
+async function callAnthropic(config, prompt) {
+    const response = await fetch(config.baseUrl, {
+        body: JSON.stringify({
+            max_tokens: 256,
+            messages: [{ content: prompt, role: "user" }],
+            model: config.modelName,
+            temperature: 0.2,
+        }),
+        headers: {
+            "anthropic-version": "2023-06-01",
+            "Content-Type": "application/json",
+            "x-api-key": config.apiKey,
+        },
+        method: "POST",
+    });
+    if (!response.ok) {
+        const text = await response.text();
+        console.error(`  ⚠ Grader API error (Anthropic): ${response.status} ${text.slice(0, 200)}`);
+        return null;
+    }
+    const data = (await response.json());
+    const textBlock = data.content?.find((c) => c.type === "text");
+    return textBlock?.text ?? "";
+}
+async function callOpenAI(config, prompt) {
+    const response = await fetch(config.baseUrl, {
+        body: JSON.stringify({
+            max_tokens: 256,
+            messages: [{ content: prompt, role: "user" }],
+            model: config.modelName,
+            temperature: 0.2,
+        }),
+        headers: {
+            Authorization: `Bearer ${config.apiKey}`,
+            "Content-Type": "application/json",
+        },
+        method: "POST",
+    });
+    if (!response.ok) {
+        const text = await response.text();
+        console.error(`  ⚠ Grader API error (OpenAI): ${response.status} ${text.slice(0, 200)}`);
+        return null;
+    }
+    const data = (await response.json());
+    return data.choices?.[0]?.message?.content ?? "";
+}

package/dist/pipeline/grader-compare-runner.d.ts ADDED Viewed

@@ -0,0 +1,44 @@
+/**
+ * pipeline/grader-compare-runner.ts
+ *
+ * Orchestration module for inter-grader comparison (Phase 3).
+ *
+ * Reads eval results, extracts grading judgments, re-grades each with
+ * candidate models, and calls `compareGraders()` from the pure
+ * computation module.
+ *
+ * Migrated from lib/grader-compare.ts — no process.argv, no process.exit(),
+ * no module-level constants. Accepts rootDir as parameter.
+ *
+ * @see docs/exec-plans/completed/grader-reliability.md — Phase 3
+ */
+import { type GraderComparison } from "./grader-comparison.js";
+export interface GraderCompareRunnerOptions {
+    /** Candidate grader models to compare against the baseline */
+    candidates: {
+        id: string;
+        label: string;
+    }[];
+    /** Output format */
+    format?: "json" | "table";
+    /** Custom output path (default: results/latest/grader-comparison.json) */
+    outputPath?: string;
+    /** Path to eval results (default: results/latest/eval-results.json) */
+    resultsPath?: string;
+    /** Root directory of the eval package */
+    rootDir: string;
+}
+/**
+ * Format a GraderComparison result as a human-readable table report.
+ * Returns a string — does NOT print to console.
+ */
+export declare function formatComparisonReport(result: GraderComparison): string;
+/**
+ * Run inter-grader comparison.
+ *
+ * Reads eval results, grades each judgment with the baseline and candidate
+ * graders, and produces a comparison report.
+ *
+ * @throws Error if results file not found, no candidates configured, or no judgments found
+ */
+export declare function runGraderCompare(options: GraderCompareRunnerOptions): Promise<GraderComparison>;