npm - @sanity/ailf - Versions diffs - 0.1.0 - Mend

@sanity/ailf 0.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (530) hide show

package/README.md +89 -0
package/bin/ailf.js +64 -0
package/canonical/grader-references/README.md +88 -0
package/canonical/grader-references/groq.yaml +234 -0
package/canonical/grader-references/studio-setup.yaml +275 -0
package/canonical/reference-solutions/.gitkeep +1 -0
package/canonical/reference-solutions/frameworks/nuxt.ts +119 -0
package/canonical/reference-solutions/frameworks/remix.tsx +100 -0
package/canonical/reference-solutions/functions/publish-webhook.ts +60 -0
package/canonical/reference-solutions/groq/advanced-filtering.ts +379 -0
package/canonical/reference-solutions/groq/blog-queries.ts +137 -0
package/canonical/reference-solutions/groq/joins-references.ts +300 -0
package/canonical/reference-solutions/nextjs/app-router-integration.tsx +128 -0
package/canonical/reference-solutions/studio-setup/blog-schema.ts +143 -0
package/canonical/reference-solutions/studio-setup/custom-tool.tsx +78 -0
package/canonical/reference-solutions/visual-editing/live-preview.tsx +137 -0
package/canonical/reference-solutions/visual-editing/presentation-nextjs.tsx +130 -0
package/config/airbyte/ai_literacy_framework.connector.yaml +639 -0
package/config/bigquery/README.md +74 -0
package/config/bigquery/views/area_scores.sql +87 -0
package/config/bigquery/views/reports.sql +49 -0
package/config/features.yaml +116 -0
package/config/models.yaml +115 -0
package/config/prompts.yaml +75 -0
package/config/rubrics.yaml +62 -0
package/config/schedules.yaml +43 -0
package/config/sinks.yaml +54 -0
package/config/sources.yaml +51 -0
package/config/thresholds.yaml +49 -0
package/dist/_vendor/ailf-core/examples/index.d.ts +190 -0
package/dist/_vendor/ailf-core/examples/index.js +285 -0
package/dist/_vendor/ailf-core/index.d.ts +17 -0
package/dist/_vendor/ailf-core/index.js +17 -0
package/dist/_vendor/ailf-core/ports/cache-store.d.ts +72 -0
package/dist/_vendor/ailf-core/ports/cache-store.js +17 -0
package/dist/_vendor/ailf-core/ports/config-source.d.ts +33 -0
package/dist/_vendor/ailf-core/ports/config-source.js +15 -0
package/dist/_vendor/ailf-core/ports/context.d.ts +172 -0
package/dist/_vendor/ailf-core/ports/context.js +14 -0
package/dist/_vendor/ailf-core/ports/doc-fetcher.d.ts +131 -0
package/dist/_vendor/ailf-core/ports/doc-fetcher.js +12 -0
package/dist/_vendor/ailf-core/ports/eval-runner.d.ts +24 -0
package/dist/_vendor/ailf-core/ports/eval-runner.js +8 -0
package/dist/_vendor/ailf-core/ports/index.d.ts +15 -0
package/dist/_vendor/ailf-core/ports/index.js +7 -0
package/dist/_vendor/ailf-core/ports/logger.d.ts +36 -0
package/dist/_vendor/ailf-core/ports/logger.js +11 -0
package/dist/_vendor/ailf-core/ports/pipeline-step.d.ts +46 -0
package/dist/_vendor/ailf-core/ports/pipeline-step.js +8 -0
package/dist/_vendor/ailf-core/ports/task-source.d.ts +159 -0
package/dist/_vendor/ailf-core/ports/task-source.js +72 -0
package/dist/_vendor/ailf-core/schemas/callback-payload.d.ts +24 -0
package/dist/_vendor/ailf-core/schemas/callback-payload.js +29 -0
package/dist/_vendor/ailf-core/schemas/eval-config.d.ts +55 -0
package/dist/_vendor/ailf-core/schemas/eval-config.js +78 -0
package/dist/_vendor/ailf-core/schemas/index.d.ts +16 -0
package/dist/_vendor/ailf-core/schemas/index.js +16 -0
package/dist/_vendor/ailf-core/schemas/pipeline-request.d.ts +125 -0
package/dist/_vendor/ailf-core/schemas/pipeline-request.js +67 -0
package/dist/_vendor/ailf-core/schemas/pipeline.d.ts +531 -0
package/dist/_vendor/ailf-core/schemas/pipeline.js +318 -0
package/dist/_vendor/ailf-core/schemas/schedules.d.ts +68 -0
package/dist/_vendor/ailf-core/schemas/schedules.js +74 -0
package/dist/_vendor/ailf-core/schemas/sinks.d.ts +207 -0
package/dist/_vendor/ailf-core/schemas/sinks.js +108 -0
package/dist/_vendor/ailf-core/services/comparison-formatters.d.ts +18 -0
package/dist/_vendor/ailf-core/services/comparison-formatters.js +189 -0
package/dist/_vendor/ailf-core/services/config-helpers.d.ts +41 -0
package/dist/_vendor/ailf-core/services/config-helpers.js +86 -0
package/dist/_vendor/ailf-core/services/index.d.ts +12 -0
package/dist/_vendor/ailf-core/services/index.js +12 -0
package/dist/_vendor/ailf-core/services/scoring.d.ts +49 -0
package/dist/_vendor/ailf-core/services/scoring.js +222 -0
package/dist/_vendor/ailf-core/types/index.d.ts +1082 -0
package/dist/_vendor/ailf-core/types/index.js +21 -0
package/dist/_vendor/ailf-core/types/scoring-input.d.ts +54 -0
package/dist/_vendor/ailf-core/types/scoring-input.js +9 -0
package/dist/_vendor/ailf-shared/dimension-names.d.ts +21 -0
package/dist/_vendor/ailf-shared/dimension-names.js +27 -0
package/dist/_vendor/ailf-shared/document-ref.d.ts +29 -0
package/dist/_vendor/ailf-shared/document-ref.js +1 -0
package/dist/_vendor/ailf-shared/eval-modes.d.ts +12 -0
package/dist/_vendor/ailf-shared/eval-modes.js +8 -0
package/dist/_vendor/ailf-shared/index.d.ts +16 -0
package/dist/_vendor/ailf-shared/index.js +16 -0
package/dist/_vendor/ailf-shared/noise-threshold.d.ts +9 -0
package/dist/_vendor/ailf-shared/noise-threshold.js +9 -0
package/dist/_vendor/ailf-shared/score-grades.d.ts +17 -0
package/dist/_vendor/ailf-shared/score-grades.js +23 -0
package/dist/adapters/cache/content-lake-cache.d.ts +24 -0
package/dist/adapters/cache/content-lake-cache.js +59 -0
package/dist/adapters/cache/filesystem-cache.d.ts +18 -0
package/dist/adapters/cache/filesystem-cache.js +54 -0
package/dist/adapters/cache/index.d.ts +2 -0
package/dist/adapters/cache/index.js +2 -0
package/dist/adapters/config-sources/cli-config-adapter.d.ts +17 -0
package/dist/adapters/config-sources/cli-config-adapter.js +23 -0
package/dist/adapters/config-sources/file-config-adapter.d.ts +26 -0
package/dist/adapters/config-sources/file-config-adapter.js +96 -0
package/dist/adapters/config-sources/index.d.ts +2 -0
package/dist/adapters/config-sources/index.js +2 -0
package/dist/adapters/doc-fetchers/index.d.ts +1 -0
package/dist/adapters/doc-fetchers/index.js +1 -0
package/dist/adapters/doc-fetchers/sanity-doc-fetcher.d.ts +76 -0
package/dist/adapters/doc-fetchers/sanity-doc-fetcher.js +620 -0
package/dist/adapters/eval-runners/index.d.ts +1 -0
package/dist/adapters/eval-runners/index.js +1 -0
package/dist/adapters/eval-runners/promptfoo-eval-adapter.d.ts +14 -0
package/dist/adapters/eval-runners/promptfoo-eval-adapter.js +63 -0
package/dist/adapters/index.d.ts +12 -0
package/dist/adapters/index.js +12 -0
package/dist/adapters/loggers/console-logger.d.ts +22 -0
package/dist/adapters/loggers/console-logger.js +54 -0
package/dist/adapters/loggers/index.d.ts +9 -0
package/dist/adapters/loggers/index.js +9 -0
package/dist/adapters/loggers/json-logger.d.ts +18 -0
package/dist/adapters/loggers/json-logger.js +33 -0
package/dist/adapters/loggers/quiet-logger.d.ts +16 -0
package/dist/adapters/loggers/quiet-logger.js +30 -0
package/dist/adapters/task-sources/composite-task-source.d.ts +20 -0
package/dist/adapters/task-sources/composite-task-source.js +59 -0
package/dist/adapters/task-sources/content-lake-task-source.d.ts +20 -0
package/dist/adapters/task-sources/content-lake-task-source.js +219 -0
package/dist/adapters/task-sources/index.d.ts +7 -0
package/dist/adapters/task-sources/index.js +7 -0
package/dist/adapters/task-sources/repo-schemas.d.ts +245 -0
package/dist/adapters/task-sources/repo-schemas.js +234 -0
package/dist/adapters/task-sources/repo-task-source.d.ts +22 -0
package/dist/adapters/task-sources/repo-task-source.js +104 -0
package/dist/adapters/task-sources/repo-trigger.d.ts +52 -0
package/dist/adapters/task-sources/repo-trigger.js +153 -0
package/dist/adapters/task-sources/repo-validation.d.ts +49 -0
package/dist/adapters/task-sources/repo-validation.js +164 -0
package/dist/adapters/task-sources/yaml-task-source.d.ts +18 -0
package/dist/adapters/task-sources/yaml-task-source.js +136 -0
package/dist/agent-observer/agentic-provider.d.ts +132 -0
package/dist/agent-observer/agentic-provider.js +983 -0
package/dist/agent-observer/classifier.d.ts +62 -0
package/dist/agent-observer/classifier.js +269 -0
package/dist/agent-observer/index.d.ts +7 -0
package/dist/agent-observer/index.js +4 -0
package/dist/agent-observer/pricing.d.ts +35 -0
package/dist/agent-observer/pricing.js +82 -0
package/dist/agent-observer/provider.d.ts +77 -0
package/dist/agent-observer/provider.js +151 -0
package/dist/agent-observer/proxy.d.ts +91 -0
package/dist/agent-observer/proxy.js +321 -0
package/dist/agent-observer/test-imports.d.ts +7 -0
package/dist/agent-observer/test-imports.js +185 -0
package/dist/agent-observer/types.d.ts +137 -0
package/dist/agent-observer/types.js +16 -0
package/dist/assertions/source-isolation.d.ts +72 -0
package/dist/assertions/source-isolation.js +117 -0
package/dist/cli.d.ts +24 -0
package/dist/cli.js +199 -0
package/dist/commands/agent-report.d.ts +5 -0
package/dist/commands/agent-report.js +69 -0
package/dist/commands/baseline.d.ts +9 -0
package/dist/commands/baseline.js +141 -0
package/dist/commands/cache.d.ts +13 -0
package/dist/commands/cache.js +135 -0
package/dist/commands/calculate-scores.d.ts +8 -0
package/dist/commands/calculate-scores.js +48 -0
package/dist/commands/compare.d.ts +8 -0
package/dist/commands/compare.js +120 -0
package/dist/commands/completion.d.ts +18 -0
package/dist/commands/completion.js +260 -0
package/dist/commands/coverage-audit.d.ts +7 -0
package/dist/commands/coverage-audit.js +40 -0
package/dist/commands/discovery-report.d.ts +10 -0
package/dist/commands/discovery-report.js +44 -0
package/dist/commands/eval.d.ts +9 -0
package/dist/commands/eval.js +35 -0
package/dist/commands/explain-handler.d.ts +34 -0
package/dist/commands/explain-handler.js +719 -0
package/dist/commands/fetch-docs.d.ts +8 -0
package/dist/commands/fetch-docs.js +128 -0
package/dist/commands/generate-configs.d.ts +8 -0
package/dist/commands/generate-configs.js +46 -0
package/dist/commands/grader/index.d.ts +11 -0
package/dist/commands/grader/index.js +118 -0
package/dist/commands/init.d.ts +19 -0
package/dist/commands/init.js +150 -0
package/dist/commands/interactive.d.ts +12 -0
package/dist/commands/interactive.js +238 -0
package/dist/commands/lookup-doc.d.ts +15 -0
package/dist/commands/lookup-doc.js +84 -0
package/dist/commands/measure-retrieval.d.ts +5 -0
package/dist/commands/measure-retrieval.js +65 -0
package/dist/commands/pipeline-action.d.ts +71 -0
package/dist/commands/pipeline-action.js +305 -0
package/dist/commands/pipeline.d.ts +62 -0
package/dist/commands/pipeline.js +53 -0
package/dist/commands/pr-comment.d.ts +8 -0
package/dist/commands/pr-comment.js +47 -0
package/dist/commands/publish.d.ts +26 -0
package/dist/commands/publish.js +253 -0
package/dist/commands/readiness-report.d.ts +10 -0
package/dist/commands/readiness-report.js +104 -0
package/dist/commands/shared/options.d.ts +29 -0
package/dist/commands/shared/options.js +57 -0
package/dist/commands/update-quality-scores.d.ts +5 -0
package/dist/commands/update-quality-scores.js +20 -0
package/dist/commands/validate-tasks.d.ts +16 -0
package/dist/commands/validate-tasks.js +93 -0
package/dist/commands/validate.d.ts +9 -0
package/dist/commands/validate.js +73 -0
package/dist/commands/webhook-server.d.ts +5 -0
package/dist/commands/webhook-server.js +30 -0
package/dist/commands/weekly-digest.d.ts +10 -0
package/dist/commands/weekly-digest.js +104 -0
package/dist/composition-root.d.ts +26 -0
package/dist/composition-root.js +107 -0
package/dist/interpolate.d.ts +26 -0
package/dist/interpolate.js +70 -0
package/dist/job-store.d.ts +104 -0
package/dist/job-store.js +188 -0
package/dist/lib/agent-behavior-report.d.ts +8 -0
package/dist/lib/agent-behavior-report.js +185 -0
package/dist/lib/baseline.d.ts +19 -0
package/dist/lib/baseline.js +153 -0
package/dist/lib/calculate-scores.d.ts +23 -0
package/dist/lib/calculate-scores.js +42 -0
package/dist/lib/compare.d.ts +18 -0
package/dist/lib/compare.js +170 -0
package/dist/lib/coverage-audit.d.ts +4 -0
package/dist/lib/coverage-audit.js +42 -0
package/dist/lib/discovery-report.d.ts +13 -0
package/dist/lib/discovery-report.js +57 -0
package/dist/lib/fetch-docs.d.ts +30 -0
package/dist/lib/fetch-docs.js +171 -0
package/dist/lib/generate-configs.d.ts +25 -0
package/dist/lib/generate-configs.js +42 -0
package/dist/lib/grader-api.d.ts +21 -0
package/dist/lib/grader-api.js +34 -0
package/dist/lib/grader-compare.d.ts +19 -0
package/dist/lib/grader-compare.js +91 -0
package/dist/lib/grader-consistency.d.ts +27 -0
package/dist/lib/grader-consistency.js +79 -0
package/dist/lib/grader-sensitivity.d.ts +19 -0
package/dist/lib/grader-sensitivity.js +75 -0
package/dist/lib/grader-validate.d.ts +19 -0
package/dist/lib/grader-validate.js +78 -0
package/dist/lib/measure-retrieval.d.ts +14 -0
package/dist/lib/measure-retrieval.js +71 -0
package/dist/lib/pr-comment.d.ts +16 -0
package/dist/lib/pr-comment.js +28 -0
package/dist/lib/readiness-report.d.ts +13 -0
package/dist/lib/readiness-report.js +108 -0
package/dist/lib/webhook-server.d.ts +11 -0
package/dist/lib/webhook-server.js +24 -0
package/dist/lib/weekly-digest.d.ts +24 -0
package/dist/lib/weekly-digest.js +148 -0
package/dist/orchestration/build-app-context.d.ts +27 -0
package/dist/orchestration/build-app-context.js +81 -0
package/dist/orchestration/build-step-sequence.d.ts +15 -0
package/dist/orchestration/build-step-sequence.js +84 -0
package/dist/orchestration/config-to-source-overrides.d.ts +9 -0
package/dist/orchestration/config-to-source-overrides.js +28 -0
package/dist/orchestration/env-bridge.d.ts +21 -0
package/dist/orchestration/env-bridge.js +66 -0
package/dist/orchestration/index.d.ts +11 -0
package/dist/orchestration/index.js +11 -0
package/dist/orchestration/pipeline-orchestrator.d.ts +24 -0
package/dist/orchestration/pipeline-orchestrator.js +153 -0
package/dist/orchestration/step-runner.d.ts +20 -0
package/dist/orchestration/step-runner.js +88 -0
package/dist/orchestration/steps/calculate-scores-step.d.ts +13 -0
package/dist/orchestration/steps/calculate-scores-step.js +95 -0
package/dist/orchestration/steps/callback-step.d.ts +24 -0
package/dist/orchestration/steps/callback-step.js +76 -0
package/dist/orchestration/steps/compare-step.d.ts +14 -0
package/dist/orchestration/steps/compare-step.js +92 -0
package/dist/orchestration/steps/discovery-report-step.d.ts +13 -0
package/dist/orchestration/steps/discovery-report-step.js +55 -0
package/dist/orchestration/steps/fetch-docs-shell.d.ts +17 -0
package/dist/orchestration/steps/fetch-docs-shell.js +30 -0
package/dist/orchestration/steps/fetch-docs-step.d.ts +14 -0
package/dist/orchestration/steps/fetch-docs-step.js +135 -0
package/dist/orchestration/steps/gap-analysis-step.d.ts +16 -0
package/dist/orchestration/steps/gap-analysis-step.js +136 -0
package/dist/orchestration/steps/generate-configs-step.d.ts +14 -0
package/dist/orchestration/steps/generate-configs-step.js +85 -0
package/dist/orchestration/steps/grader-consistency-step.d.ts +13 -0
package/dist/orchestration/steps/grader-consistency-step.js +64 -0
package/dist/orchestration/steps/index.d.ts +19 -0
package/dist/orchestration/steps/index.js +19 -0
package/dist/orchestration/steps/mirror-repo-tasks-step.d.ts +21 -0
package/dist/orchestration/steps/mirror-repo-tasks-step.js +94 -0
package/dist/orchestration/steps/publish-report-step.d.ts +26 -0
package/dist/orchestration/steps/publish-report-step.js +216 -0
package/dist/orchestration/steps/readiness-step.d.ts +13 -0
package/dist/orchestration/steps/readiness-step.js +91 -0
package/dist/orchestration/steps/report-step.d.ts +12 -0
package/dist/orchestration/steps/report-step.js +49 -0
package/dist/orchestration/steps/run-eval-step.d.ts +17 -0
package/dist/orchestration/steps/run-eval-step.js +195 -0
package/dist/orchestration/steps/validate-step.d.ts +12 -0
package/dist/orchestration/steps/validate-step.js +41 -0
package/dist/pipeline/agent-behavior-report.d.ts +53 -0
package/dist/pipeline/agent-behavior-report.js +132 -0
package/dist/pipeline/attribution.d.ts +47 -0
package/dist/pipeline/attribution.js +226 -0
package/dist/pipeline/baseline.d.ts +37 -0
package/dist/pipeline/baseline.js +141 -0
package/dist/pipeline/cache.d.ts +101 -0
package/dist/pipeline/cache.js +283 -0
package/dist/pipeline/calculate-scores.d.ts +102 -0
package/dist/pipeline/calculate-scores.js +1128 -0
package/dist/pipeline/callback-delivery.d.ts +50 -0
package/dist/pipeline/callback-delivery.js +89 -0
package/dist/pipeline/checks.d.ts +39 -0
package/dist/pipeline/checks.js +280 -0
package/dist/pipeline/classify-url.d.ts +61 -0
package/dist/pipeline/classify-url.js +93 -0
package/dist/pipeline/compare.d.ts +31 -0
package/dist/pipeline/compare.js +208 -0
package/dist/pipeline/coverage-audit.d.ts +39 -0
package/dist/pipeline/coverage-audit.js +165 -0
package/dist/pipeline/degradations.d.ts +85 -0
package/dist/pipeline/degradations.js +242 -0
package/dist/pipeline/discovery-report.d.ts +55 -0
package/dist/pipeline/discovery-report.js +178 -0
package/dist/pipeline/eval-constants.d.ts +68 -0
package/dist/pipeline/eval-constants.js +111 -0
package/dist/pipeline/eval-fingerprint.d.ts +66 -0
package/dist/pipeline/eval-fingerprint.js +175 -0
package/dist/pipeline/expand-tasks.d.ts +220 -0
package/dist/pipeline/expand-tasks.js +421 -0
package/dist/pipeline/failure-modes.d.ts +46 -0
package/dist/pipeline/failure-modes.js +348 -0
package/dist/pipeline/fetch-url-content.d.ts +44 -0
package/dist/pipeline/fetch-url-content.js +93 -0
package/dist/pipeline/gap-analysis.d.ts +48 -0
package/dist/pipeline/gap-analysis.js +231 -0
package/dist/pipeline/generate-configs.d.ts +72 -0
package/dist/pipeline/generate-configs.js +395 -0
package/dist/pipeline/grader-api.d.ts +49 -0
package/dist/pipeline/grader-api.js +200 -0
package/dist/pipeline/grader-compare-runner.d.ts +44 -0
package/dist/pipeline/grader-compare-runner.js +301 -0
package/dist/pipeline/grader-comparison.d.ts +111 -0
package/dist/pipeline/grader-comparison.js +161 -0
package/dist/pipeline/grader-consistency-runner.d.ts +60 -0
package/dist/pipeline/grader-consistency-runner.js +270 -0
package/dist/pipeline/grader-consistency.d.ts +103 -0
package/dist/pipeline/grader-consistency.js +146 -0
package/dist/pipeline/grader-sensitivity-runner.d.ts +40 -0
package/dist/pipeline/grader-sensitivity-runner.js +282 -0
package/dist/pipeline/grader-sensitivity.d.ts +94 -0
package/dist/pipeline/grader-sensitivity.js +144 -0
package/dist/pipeline/grader-validate-runner.d.ts +38 -0
package/dist/pipeline/grader-validate-runner.js +229 -0
package/dist/pipeline/grader-validation.d.ts +107 -0
package/dist/pipeline/grader-validation.js +169 -0
package/dist/pipeline/map-request-to-config.d.ts +19 -0
package/dist/pipeline/map-request-to-config.js +80 -0
package/dist/pipeline/measure-retrieval.d.ts +59 -0
package/dist/pipeline/measure-retrieval.js +111 -0
package/dist/pipeline/mirror-repo-tasks.d.ts +86 -0
package/dist/pipeline/mirror-repo-tasks.js +350 -0
package/dist/pipeline/plan-format.d.ts +33 -0
package/dist/pipeline/plan-format.js +202 -0
package/dist/pipeline/plan.d.ts +169 -0
package/dist/pipeline/plan.js +708 -0
package/dist/pipeline/pr-comment.d.ts +19 -0
package/dist/pipeline/pr-comment.js +502 -0
package/dist/pipeline/probe.d.ts +52 -0
package/dist/pipeline/probe.js +390 -0
package/dist/pipeline/provenance.d.ts +47 -0
package/dist/pipeline/provenance.js +146 -0
package/dist/pipeline/readiness-report.d.ts +87 -0
package/dist/pipeline/readiness-report.js +205 -0
package/dist/pipeline/release-classification.d.ts +54 -0
package/dist/pipeline/release-classification.js +238 -0
package/dist/pipeline/release-report.d.ts +37 -0
package/dist/pipeline/release-report.js +222 -0
package/dist/pipeline/repo-eval-comment.d.ts +37 -0
package/dist/pipeline/repo-eval-comment.js +165 -0
package/dist/pipeline/repo-threshold-evaluator.d.ts +89 -0
package/dist/pipeline/repo-threshold-evaluator.js +162 -0
package/dist/pipeline/resolve-mappings.d.ts +35 -0
package/dist/pipeline/resolve-mappings.js +72 -0
package/dist/pipeline/retrieval-metrics.d.ts +39 -0
package/dist/pipeline/retrieval-metrics.js +136 -0
package/dist/pipeline/reverse-mapping.d.ts +67 -0
package/dist/pipeline/reverse-mapping.js +88 -0
package/dist/pipeline/schemas.d.ts +9 -0
package/dist/pipeline/schemas.js +9 -0
package/dist/pipeline/steps/calculate-scores-step.d.ts +11 -0
package/dist/pipeline/steps/calculate-scores-step.js +89 -0
package/dist/pipeline/steps/compare-step.d.ts +18 -0
package/dist/pipeline/steps/compare-step.js +90 -0
package/dist/pipeline/steps/eval-step.d.ts +53 -0
package/dist/pipeline/steps/eval-step.js +347 -0
package/dist/pipeline/steps/fetch-docs-step.d.ts +11 -0
package/dist/pipeline/steps/fetch-docs-step.js +84 -0
package/dist/pipeline/steps/generate-configs-step.d.ts +11 -0
package/dist/pipeline/steps/generate-configs-step.js +98 -0
package/dist/pipeline/steps/grader-consistency-step.d.ts +21 -0
package/dist/pipeline/steps/grader-consistency-step.js +74 -0
package/dist/pipeline/steps/publish-report-step.d.ts +57 -0
package/dist/pipeline/steps/publish-report-step.js +243 -0
package/dist/pipeline/steps/report-step.d.ts +13 -0
package/dist/pipeline/steps/report-step.js +56 -0
package/dist/pipeline/steps/update-scores-step.d.ts +11 -0
package/dist/pipeline/steps/update-scores-step.js +42 -0
package/dist/pipeline/targeted-loo.d.ts +88 -0
package/dist/pipeline/targeted-loo.js +203 -0
package/dist/pipeline/thresholds.d.ts +27 -0
package/dist/pipeline/thresholds.js +245 -0
package/dist/pipeline/types.d.ts +10 -0
package/dist/pipeline/types.js +10 -0
package/dist/pipeline/validate.d.ts +67 -0
package/dist/pipeline/validate.js +406 -0
package/dist/pipeline/webhook-server.d.ts +37 -0
package/dist/pipeline/webhook-server.js +133 -0
package/dist/report-store.d.ts +84 -0
package/dist/report-store.js +208 -0
package/dist/sanity/client.d.ts +38 -0
package/dist/sanity/client.js +86 -0
package/dist/sanity/portable-text.d.ts +11 -0
package/dist/sanity/portable-text.js +211 -0
package/dist/sanity/queries.d.ts +133 -0
package/dist/sanity/queries.js +300 -0
package/dist/schedules/digest.d.ts +116 -0
package/dist/schedules/digest.js +156 -0
package/dist/schedules/index.d.ts +12 -0
package/dist/schedules/index.js +10 -0
package/dist/schedules/loader.d.ts +31 -0
package/dist/schedules/loader.js +73 -0
package/dist/schedules/schema.d.ts +9 -0
package/dist/schedules/schema.js +9 -0
package/dist/scripts/agent-behavior-report.d.ts +19 -0
package/dist/scripts/agent-behavior-report.js +315 -0
package/dist/scripts/baseline.d.ts +43 -0
package/dist/scripts/baseline.js +267 -0
package/dist/scripts/calculate-scores.d.ts +166 -0
package/dist/scripts/calculate-scores.js +1296 -0
package/dist/scripts/compare.d.ts +22 -0
package/dist/scripts/compare.js +334 -0
package/dist/scripts/coverage-audit.d.ts +44 -0
package/dist/scripts/coverage-audit.js +209 -0
package/dist/scripts/debug-eval.d.ts +19 -0
package/dist/scripts/debug-eval.js +73 -0
package/dist/scripts/discovery-report.d.ts +58 -0
package/dist/scripts/discovery-report.js +250 -0
package/dist/scripts/fetch-docs.d.ts +35 -0
package/dist/scripts/fetch-docs.js +472 -0
package/dist/scripts/generate-configs.d.ts +66 -0
package/dist/scripts/generate-configs.js +459 -0
package/dist/scripts/grader-api.d.ts +27 -0
package/dist/scripts/grader-api.js +206 -0
package/dist/scripts/grader-compare.d.ts +22 -0
package/dist/scripts/grader-compare.js +368 -0
package/dist/scripts/grader-consistency.d.ts +20 -0
package/dist/scripts/grader-consistency.js +313 -0
package/dist/scripts/grader-sensitivity.d.ts +22 -0
package/dist/scripts/grader-sensitivity.js +354 -0
package/dist/scripts/grader-validate.d.ts +19 -0
package/dist/scripts/grader-validate.js +267 -0
package/dist/scripts/measure-retrieval.d.ts +10 -0
package/dist/scripts/measure-retrieval.js +145 -0
package/dist/scripts/migrate-tasks-to-content-lake.d.ts +24 -0
package/dist/scripts/migrate-tasks-to-content-lake.js +327 -0
package/dist/scripts/pipeline.d.ts +76 -0
package/dist/scripts/pipeline.js +1031 -0
package/dist/scripts/pr-comment.d.ts +10 -0
package/dist/scripts/pr-comment.js +510 -0
package/dist/scripts/readiness-report.d.ts +88 -0
package/dist/scripts/readiness-report.js +342 -0
package/dist/scripts/update-quality-scores.d.ts +15 -0
package/dist/scripts/update-quality-scores.js +184 -0
package/dist/scripts/validate-task-sources.d.ts +21 -0
package/dist/scripts/validate-task-sources.js +210 -0
package/dist/scripts/validate.d.ts +13 -0
package/dist/scripts/validate.js +79 -0
package/dist/scripts/webhook-server.d.ts +26 -0
package/dist/scripts/webhook-server.js +147 -0
package/dist/scripts/weekly-digest.d.ts +24 -0
package/dist/scripts/weekly-digest.js +144 -0
package/dist/sinks/bigquery/index.d.ts +131 -0
package/dist/sinks/bigquery/index.js +222 -0
package/dist/sinks/format-slack.d.ts +64 -0
package/dist/sinks/format-slack.js +306 -0
package/dist/sinks/index.d.ts +23 -0
package/dist/sinks/index.js +18 -0
package/dist/sinks/loader.d.ts +18 -0
package/dist/sinks/loader.js +82 -0
package/dist/sinks/retry.d.ts +24 -0
package/dist/sinks/retry.js +52 -0
package/dist/sinks/schema.d.ts +9 -0
package/dist/sinks/schema.js +9 -0
package/dist/sinks/slack/format.d.ts +65 -0
package/dist/sinks/slack/format.js +327 -0
package/dist/sinks/slack/index.d.ts +27 -0
package/dist/sinks/slack/index.js +78 -0
package/dist/sinks/slack-sink.d.ts +27 -0
package/dist/sinks/slack-sink.js +78 -0
package/dist/sinks/types.d.ts +59 -0
package/dist/sinks/types.js +44 -0
package/dist/sinks/webhook/index.d.ts +19 -0
package/dist/sinks/webhook/index.js +50 -0
package/dist/sinks/webhook-sink.d.ts +19 -0
package/dist/sinks/webhook-sink.js +50 -0
package/dist/sources.d.ts +104 -0
package/dist/sources.js +292 -0
package/dist/webhook/budget.d.ts +42 -0
package/dist/webhook/budget.js +60 -0
package/dist/webhook/debounce.d.ts +67 -0
package/dist/webhook/debounce.js +76 -0
package/dist/webhook/dispatch.d.ts +45 -0
package/dist/webhook/dispatch.js +84 -0
package/dist/webhook/eval-request-handler.d.ts +87 -0
package/dist/webhook/eval-request-handler.js +181 -0
package/dist/webhook/handler.d.ts +88 -0
package/dist/webhook/handler.js +203 -0
package/dist/webhook/index.d.ts +17 -0
package/dist/webhook/index.js +12 -0
package/dist/webhook/types.d.ts +109 -0
package/dist/webhook/types.js +10 -0
package/package.json +72 -0
package/tasks/.expanded.agentic.yaml +51 -0
package/tasks/.expanded.yaml +66 -0
package/tasks/frameworks.yaml +98 -0
package/tasks/functions.yaml +51 -0
package/tasks/groq.yaml +216 -0
package/tasks/nextjs-live.yaml +62 -0
package/tasks/studio-setup.yaml +111 -0
package/tasks/visual-editing.yaml +120 -0

package/dist/pipeline/grader-compare-runner.js ADDED Viewed

@@ -0,0 +1,301 @@
+/**
+ * pipeline/grader-compare-runner.ts
+ *
+ * Orchestration module for inter-grader comparison (Phase 3).
+ *
+ * Reads eval results, extracts grading judgments, re-grades each with
+ * candidate models, and calls `compareGraders()` from the pure
+ * computation module.
+ *
+ * Migrated from lib/grader-compare.ts — no process.argv, no process.exit(),
+ * no module-level constants. Accepts rootDir as parameter.
+ *
+ * @see docs/exec-plans/completed/grader-reliability.md — Phase 3
+ */
+import { existsSync, mkdirSync, readFileSync, writeFileSync } from "fs";
+import { join } from "path";
+import { load } from "js-yaml";
+import { compareGraders, } from "./grader-comparison.js";
+import { classifyCorrelation } from "./grader-validation.js";
+import { gradeOnce } from "./grader-api.js";
+// ---------------------------------------------------------------------------
+// Internal helpers
+// ---------------------------------------------------------------------------
+function classifyDimension(component) {
+    const metadata = component.assertion?.metadata;
+    if (metadata?.dimension) {
+        switch (metadata.dimension) {
+            case "code-correctness":
+                return "codeCorrectness";
+            case "doc-coverage":
+                return "docCoverage";
+            case "task-completion":
+                return "taskCompletion";
+            default:
+                return null;
+        }
+    }
+    const value = (component.assertion?.value ?? "").toLowerCase();
+    if (value.includes("task completion"))
+        return "taskCompletion";
+    if (value.includes("code correctness"))
+        return "codeCorrectness";
+    if (value.includes("documentation coverage") || value.includes("hallucinate"))
+        return "docCoverage";
+    return null;
+}
+function detectFeatureArea(description) {
+    const desc = description.toLowerCase();
+    if (desc.includes("studio"))
+        return "studio-setup";
+    if (desc.includes("visual") ||
+        desc.includes("presentation") ||
+        desc.includes("live preview"))
+        return "visual-editing";
+    if (desc.includes("function") || desc.includes("webhook"))
+        return "functions";
+    if (desc.startsWith("groq"))
+        return "groq";
+    if (desc.includes("next") || desc.includes("app router"))
+        return "nextjs-live";
+    if (desc.includes("remix") ||
+        desc.includes("nuxt") ||
+        desc.includes("svelte"))
+        return "frameworks";
+    return "other";
+}
+/**
+ * Extract llm-rubric judgments from eval results.
+ * Only includes gold (with-docs) tests.
+ */
+function extractJudgments(file) {
+    const judgments = [];
+    for (const result of file.results.results) {
+        if (!result.gradingResult)
+            continue;
+        const description = result.testCase?.description ?? "unknown";
+        const hasDocs = result.vars?.docs && result.vars.docs.trim().length > 0;
+        if (!hasDocs)
+            continue;
+        const area = detectFeatureArea(description);
+        for (const comp of result.gradingResult.componentResults) {
+            if (comp.assertion?.type !== "llm-rubric")
+                continue;
+            const dimension = classifyDimension(comp);
+            if (!dimension)
+                continue;
+            const rubricText = typeof comp.assertion.value === "string" ? comp.assertion.value : "";
+            if (!rubricText)
+                continue;
+            judgments.push({
+                area,
+                description,
+                dimension,
+                responseText: result.response?.output ?? "",
+                rubricText,
+            });
+        }
+    }
+    return judgments;
+}
+/**
+ * Load config: resolve baseline grader and candidate graders.
+ * Candidate overrides take precedence over config/models.yaml.
+ */
+function loadConfig(rootDir, candidateOverrides) {
+    const modelsPath = join(rootDir, "config", "models.yaml");
+    if (!existsSync(modelsPath)) {
+        throw new Error(`config/models.yaml not found at ${modelsPath}`);
+    }
+    const raw = readFileSync(modelsPath, "utf-8");
+    const data = load(raw);
+    const baseline = {
+        id: data?.grader?.id ?? "openai:gpt-5",
+        label: data?.grader?.label ?? "GPT-5 (grader)",
+    };
+    let candidates;
+    if (candidateOverrides && candidateOverrides.length > 0) {
+        candidates = candidateOverrides;
+    }
+    else {
+        const configCandidates = data?.["grader-candidates"] ?? [];
+        candidates = configCandidates.map((c) => ({
+            id: c.id,
+            label: c.label ?? c.id.split(":").pop() ?? c.id,
+        }));
+    }
+    return { baseline, candidates };
+}
+// ---------------------------------------------------------------------------
+// Report formatting (pure)
+// ---------------------------------------------------------------------------
+/**
+ * Format a GraderComparison result as a human-readable table report.
+ * Returns a string — does NOT print to console.
+ */
+export function formatComparisonReport(result) {
+    const lines = [];
+    lines.push("=".repeat(80));
+    lines.push("                    GRADER COMPARISON REPORT");
+    lines.push("=".repeat(80));
+    lines.push("");
+    lines.push(`  Baseline:     ${result.baselineGrader}`);
+    lines.push(`  Candidates:   ${result.candidateGraders.join(", ")}`);
+    lines.push(`  Generated:    ${result.generatedAt}`);
+    lines.push("");
+    for (const pair of result.pairwise) {
+        lines.push("-".repeat(80));
+        lines.push(`${pair.graderA} vs ${pair.graderB}`);
+        lines.push("-".repeat(80));
+        lines.push("");
+        lines.push(`  Correlation:  r=${pair.correlation} (${classifyCorrelation(pair.correlation)})`);
+        lines.push(`  Bias:         ${pair.bias > 0 ? "+" : ""}${pair.bias} (${pair.bias > 0 ? "candidate scores higher" : pair.bias < 0 ? "candidate scores lower" : "no bias"})`);
+        lines.push(`  Mean |Δ|:     ${pair.meanAbsDiff} points`);
+        lines.push("");
+        // Per-dimension table
+        const h = "| Dimension        | Correlation | Bias   | Mean |Δ| | Count |";
+        const sep = "|------------------|-------------|--------|---------|-------|";
+        lines.push(h);
+        lines.push(sep);
+        const dims = [
+            { data: pair.perDimension.taskCompletion, name: "Task Completion" },
+            { data: pair.perDimension.codeCorrectness, name: "Code Correctness" },
+            { data: pair.perDimension.docCoverage, name: "Doc Coverage" },
+        ];
+        for (const { data, name } of dims) {
+            const biasStr = data.bias > 0 ? `+${data.bias}` : `${data.bias}`;
+            lines.push(`| ${name.padEnd(16)} | r=${String(data.correlation).padStart(9)} | ${biasStr.padStart(6)} | ${String(data.meanAbsDiff).padStart(7)} | ${String(data.count).padStart(5)} |`);
+        }
+        lines.push("");
+    }
+    // Recommendations
+    lines.push("-".repeat(80));
+    lines.push("RECOMMENDATIONS");
+    lines.push("-".repeat(80));
+    lines.push("");
+    for (const rec of result.recommendations) {
+        const icon = rec.recommendation === "comparable"
+            ? "✅"
+            : rec.recommendation === "divergent"
+                ? "⚠️"
+                : "❌";
+        lines.push(`  ${icon} ${rec.modelId}: ${rec.recommendation}`);
+        lines.push(`     ${rec.reason}`);
+    }
+    lines.push("");
+    return lines.join("\n");
+}
+// ---------------------------------------------------------------------------
+// Main runner
+// ---------------------------------------------------------------------------
+/**
+ * Run inter-grader comparison.
+ *
+ * Reads eval results, grades each judgment with the baseline and candidate
+ * graders, and produces a comparison report.
+ *
+ * @throws Error if results file not found, no candidates configured, or no judgments found
+ */
+export async function runGraderCompare(options) {
+    const { rootDir, format = "table" } = options;
+    const resultsPath = options.resultsPath
+        ? join(rootDir, options.resultsPath)
+        : join(rootDir, "results", "latest", "eval-results.json");
+    console.log("=== Grader Comparison ===\n");
+    // Load config
+    const { baseline, candidates } = loadConfig(rootDir, options.candidates);
+    if (candidates.length === 0) {
+        throw new Error("No candidate graders configured. " +
+            "Add grader-candidates to config/models.yaml or pass --candidate.");
+    }
+    // Load eval results
+    if (!existsSync(resultsPath)) {
+        throw new Error(`Results file not found: ${resultsPath}. Run 'pnpm eval' first.`);
+    }
+    const file = JSON.parse(readFileSync(resultsPath, "utf-8"));
+    // Extract judgments
+    const judgments = extractJudgments(file);
+    console.log(`  Baseline:     ${baseline.label} (${baseline.id})`);
+    console.log(`  Candidates:   ${candidates.map((c) => c.label).join(", ")}`);
+    console.log(`  Judgments:    ${judgments.length}`);
+    if (judgments.length === 0) {
+        throw new Error("No gradable judgments found in results.");
+    }
+    const totalCalls = judgments.length * (1 + candidates.length);
+    const estimatedCost = totalCalls * 0.005;
+    console.log(`  API calls:    ${totalCalls} (${judgments.length} × ${1 + candidates.length} models)`);
+    console.log(`  Est. cost:    ~$${estimatedCost.toFixed(2)}`);
+    console.log();
+    // Grade with baseline
+    console.log(`  Grading with baseline: ${baseline.label}...`);
+    const baselineScores = await gradeJudgments(judgments, baseline.id);
+    // Grade with each candidate
+    const candidateScoreSets = [];
+    for (const candidate of candidates) {
+        console.log(`  Grading with candidate: ${candidate.label}...`);
+        const scores = await gradeJudgments(judgments, candidate.id);
+        candidateScoreSets.push({
+            label: candidate.label,
+            modelId: candidate.id,
+            scores,
+        });
+    }
+    console.log();
+    // Compare
+    const baselineScoreSet = {
+        label: baseline.label,
+        modelId: baseline.id,
+        scores: baselineScores,
+    };
+    const result = compareGraders(baselineScoreSet, candidateScoreSets);
+    // Output
+    if (format === "table") {
+        console.log(formatComparisonReport(result));
+    }
+    else {
+        console.log(JSON.stringify(result, null, 2));
+    }
+    // Write output
+    const outPath = options.outputPath ??
+        join(rootDir, "results", "latest", "grader-comparison.json");
+    const outDir = join(outPath, "..");
+    mkdirSync(outDir, { recursive: true });
+    writeFileSync(outPath, JSON.stringify(result, null, 2));
+    console.log(`\n  📄 Results written to ${outPath}`);
+    return result;
+}
+// ---------------------------------------------------------------------------
+// Grading helper
+// ---------------------------------------------------------------------------
+/**
+ * Grade a set of judgments with a specific grader model.
+ * Returns GraderScore[] with one score per judgment.
+ */
+async function gradeJudgments(judgments, graderModel) {
+    const scores = [];
+    let completed = 0;
+    let failed = 0;
+    for (const judgment of judgments) {
+        const score = await gradeOnce(graderModel, judgment.responseText, judgment.rubricText);
+        completed++;
+        if (completed % 10 === 0 || completed === judgments.length) {
+            const pct = Math.round((completed / judgments.length) * 100);
+            process.stdout.write(`\r    Progress: ${completed}/${judgments.length} (${pct}%)`);
+        }
+        if (score === null) {
+            failed++;
+            continue;
+        }
+        scores.push({
+            area: judgment.area,
+            dimension: judgment.dimension,
+            score,
+            taskId: judgment.description,
+        });
+    }
+    console.log(); // newline after progress
+    if (failed > 0) {
+        console.log(`    ⚠ ${failed} grading calls failed (excluded)`);
+    }
+    return scores;
+}

package/dist/pipeline/grader-comparison.d.ts ADDED Viewed

@@ -0,0 +1,111 @@
+/**
+ * pipeline/grader-comparison.ts
+ *
+ * Pure computation module for inter-grader comparison.
+ *
+ * Takes score data from multiple grader models (each having graded the same
+ * set of responses) and produces a comparison matrix with correlations,
+ * bias measurements, and per-area deltas between every grader pair.
+ *
+ * This module has NO side effects — no file I/O, no API calls.
+ * It operates on pre-collected data only.
+ *
+ * @see docs/exec-plans/completed/grader-reliability.md — Phase 3
+ */
+import type { ComparisonReport, ScoreSummary } from "./types.js";
+/** Per-dimension comparison between two graders */
+export interface DimensionPairComparison {
+    /** Systematic bias for this dimension */
+    bias: number;
+    /** Pearson correlation for this dimension */
+    correlation: number;
+    /** Number of paired observations */
+    count: number;
+    /** Mean absolute difference for this dimension */
+    meanAbsDiff: number;
+}
+/** Full inter-grader comparison result */
+export interface GraderComparison {
+    /** The baseline grader model ID */
+    baselineGrader: string;
+    /** Candidate grader model IDs */
+    candidateGraders: string[];
+    /** When this comparison was generated */
+    generatedAt: string;
+    /** Pairwise comparisons between the baseline and each candidate */
+    pairwise: GraderPairComparison[];
+    /** Recommendation summary per candidate */
+    recommendations: GraderRecommendation[];
+    /** ScoreSummary-level comparison reports (reuses compare() primitive) */
+    scoreSummaryComparisons?: ComparisonReport[];
+}
+/** Comparison between a pair of grader models */
+export interface GraderPairComparison {
+    /** Systematic bias: mean(B scores - A scores). Positive = B grades higher */
+    bias: number;
+    /** Pearson correlation between the two graders' scores */
+    correlation: number;
+    /** Grader A model ID */
+    graderA: string;
+    /** Grader B model ID */
+    graderB: string;
+    /** Mean absolute difference between scores */
+    meanAbsDiff: number;
+    /** Per-dimension comparisons */
+    perDimension: {
+        taskCompletion: DimensionPairComparison;
+        codeCorrectness: DimensionPairComparison;
+        docCoverage: DimensionPairComparison;
+    };
+}
+/** Recommendation for a candidate grader */
+export interface GraderRecommendation {
+    /** Candidate grader model ID */
+    modelId: string;
+    /** Short explanation */
+    reason: string;
+    /** Human-readable recommendation */
+    recommendation: "comparable" | "divergent" | "strongly-divergent";
+}
+/** Score data from a single grader model on one (task, dimension) judgment */
+export interface GraderScore {
+    /** Feature area (e.g., "groq") */
+    area: string;
+    /** Which scoring dimension */
+    dimension: "codeCorrectness" | "docCoverage" | "taskCompletion";
+    /** Score assigned by this grader (0–100) */
+    score: number;
+    /** Task ID (e.g., "groq-blog-queries") */
+    taskId: string;
+}
+/** Score data from a single grader model across all judgments */
+export interface GraderScoreSet {
+    /** Grader model label (human-readable) */
+    label: string;
+    /** Grader model ID (e.g., "openai:gpt-5-2025-08-07") */
+    modelId: string;
+    /** All scores from this grader */
+    scores: GraderScore[];
+}
+/**
+ * Compare graders at the ScoreSummary level using the existing compare() primitive.
+ *
+ * This extends a basic GraderComparison with full ComparisonReport objects,
+ * showing per-area and per-dimension deltas at the aggregate score level.
+ *
+ * @param comparison Basic grader comparison (from compareGraders)
+ * @param baselineSummary ScoreSummary produced using the baseline grader
+ * @param candidateSummaries ScoreSummaries produced using each candidate grader
+ * @returns The comparison object augmented with scoreSummaryComparisons
+ */
+export declare function attachScoreSummaryComparisons(comparison: GraderComparison, baselineSummary: ScoreSummary, candidateSummaries: ScoreSummary[]): GraderComparison;
+/**
+ * Compare multiple grader models against a baseline grader.
+ *
+ * This is the main entry point — a pure function with no side effects.
+ *
+ * @param baseline Score data from the baseline grader
+ * @param candidates Score data from candidate grader(s)
+ * @returns GraderComparison with pairwise metrics and recommendations
+ */
+export declare function compareGraders(baseline: GraderScoreSet, candidates: GraderScoreSet[]): GraderComparison;

package/dist/pipeline/grader-comparison.js ADDED Viewed

@@ -0,0 +1,161 @@
+/**
+ * pipeline/grader-comparison.ts
+ *
+ * Pure computation module for inter-grader comparison.
+ *
+ * Takes score data from multiple grader models (each having graded the same
+ * set of responses) and produces a comparison matrix with correlations,
+ * bias measurements, and per-area deltas between every grader pair.
+ *
+ * This module has NO side effects — no file I/O, no API calls.
+ * It operates on pre-collected data only.
+ *
+ * @see docs/exec-plans/completed/grader-reliability.md — Phase 3
+ */
+import { compare } from "./compare.js";
+import { pearsonCorrelation } from "./grader-validation.js";
+// ---------------------------------------------------------------------------
+// Pure computation
+// ---------------------------------------------------------------------------
+/**
+ * Compare graders at the ScoreSummary level using the existing compare() primitive.
+ *
+ * This extends a basic GraderComparison with full ComparisonReport objects,
+ * showing per-area and per-dimension deltas at the aggregate score level.
+ *
+ * @param comparison Basic grader comparison (from compareGraders)
+ * @param baselineSummary ScoreSummary produced using the baseline grader
+ * @param candidateSummaries ScoreSummaries produced using each candidate grader
+ * @returns The comparison object augmented with scoreSummaryComparisons
+ */
+export function attachScoreSummaryComparisons(comparison, baselineSummary, candidateSummaries) {
+    const scoreSummaryComparisons = candidateSummaries.map((candidateSummary) => compare(baselineSummary, candidateSummary));
+    return {
+        ...comparison,
+        scoreSummaryComparisons,
+    };
+}
+/**
+ * Compare multiple grader models against a baseline grader.
+ *
+ * This is the main entry point — a pure function with no side effects.
+ *
+ * @param baseline Score data from the baseline grader
+ * @param candidates Score data from candidate grader(s)
+ * @returns GraderComparison with pairwise metrics and recommendations
+ */
+export function compareGraders(baseline, candidates) {
+    const pairwise = candidates.map((candidate) => comparePair(baseline, candidate));
+    const recommendations = pairwise.map((pair) => makeRecommendation(pair));
+    return {
+        baselineGrader: baseline.modelId,
+        candidateGraders: candidates.map((c) => c.modelId),
+        generatedAt: new Date().toISOString(),
+        pairwise,
+        recommendations,
+    };
+}
+// ---------------------------------------------------------------------------
+// Internal helpers
+// ---------------------------------------------------------------------------
+/** Compare a single pair of graders on their raw judgment scores */
+function comparePair(a, b) {
+    // Build a lookup for grader B scores by (taskId, dimension) key
+    const bScoreMap = new Map();
+    for (const s of b.scores) {
+        bScoreMap.set(`${s.taskId}::${s.dimension}`, s.score);
+    }
+    // Find paired observations (present in both graders)
+    const pairedA = [];
+    const pairedB = [];
+    const dimPairsA = {
+        codeCorrectness: [],
+        docCoverage: [],
+        taskCompletion: [],
+    };
+    const dimPairsB = {
+        codeCorrectness: [],
+        docCoverage: [],
+        taskCompletion: [],
+    };
+    for (const sA of a.scores) {
+        const key = `${sA.taskId}::${sA.dimension}`;
+        const scoreB = bScoreMap.get(key);
+        if (scoreB === undefined)
+            continue;
+        pairedA.push(sA.score);
+        pairedB.push(scoreB);
+        dimPairsA[sA.dimension].push(sA.score);
+        dimPairsB[sA.dimension].push(scoreB);
+    }
+    return {
+        bias: computeBias(pairedA, pairedB),
+        correlation: safeCorrelation(pairedA, pairedB),
+        graderA: a.modelId,
+        graderB: b.modelId,
+        meanAbsDiff: computeMeanAbsDiff(pairedA, pairedB),
+        perDimension: {
+            codeCorrectness: computeDimensionPair(dimPairsA.codeCorrectness, dimPairsB.codeCorrectness),
+            docCoverage: computeDimensionPair(dimPairsA.docCoverage, dimPairsB.docCoverage),
+            taskCompletion: computeDimensionPair(dimPairsA.taskCompletion, dimPairsB.taskCompletion),
+        },
+    };
+}
+/** Mean signed difference (B - A). Positive = B scores higher. */
+function computeBias(a, b) {
+    if (a.length === 0)
+        return 0;
+    const sum = b.reduce((s, v, i) => s + (v - a[i]), 0);
+    return Math.round((sum / a.length) * 10) / 10;
+}
+/** Compute dimension-level pair comparison */
+function computeDimensionPair(scoresA, scoresB) {
+    return {
+        bias: computeBias(scoresA, scoresB),
+        correlation: safeCorrelation(scoresA, scoresB),
+        count: scoresA.length,
+        meanAbsDiff: computeMeanAbsDiff(scoresA, scoresB),
+    };
+}
+/** Mean absolute difference between paired scores */
+function computeMeanAbsDiff(a, b) {
+    if (a.length === 0)
+        return 0;
+    const sum = b.reduce((s, v, i) => s + Math.abs(v - a[i]), 0);
+    return Math.round((sum / a.length) * 10) / 10;
+}
+/** Classify a grader pair as comparable, divergent, or strongly-divergent */
+function makeRecommendation(pair) {
+    const r = pair.correlation;
+    const absBias = Math.abs(pair.bias);
+    const mad = pair.meanAbsDiff;
+    // Thresholds for recommendation
+    // comparable: high correlation, low bias and MAD
+    // divergent: moderate correlation or noticeable bias
+    // strongly-divergent: low correlation or large bias
+    if (r >= 0.9 && absBias <= 5 && mad <= 8) {
+        return {
+            modelId: pair.graderB,
+            reason: `High correlation (r=${r}), low bias (${pair.bias}), low MAD (${mad})`,
+            recommendation: "comparable",
+        };
+    }
+    if (r >= 0.7 && absBias <= 10 && mad <= 15) {
+        return {
+            modelId: pair.graderB,
+            reason: `Moderate correlation (r=${r}), bias=${pair.bias}, MAD=${mad}`,
+            recommendation: "divergent",
+        };
+    }
+    return {
+        modelId: pair.graderB,
+        reason: `Low correlation (r=${r}), bias=${pair.bias}, MAD=${mad}`,
+        recommendation: "strongly-divergent",
+    };
+}
+/** Safe Pearson correlation that handles edge cases */
+function safeCorrelation(a, b) {
+    if (a.length < 2)
+        return 0;
+    return Math.round(pearsonCorrelation(a, b) * 100) / 100;
+}

package/dist/pipeline/grader-consistency-runner.d.ts ADDED Viewed

@@ -0,0 +1,60 @@
+/**
+ * grader-consistency-runner.ts
+ *
+ * Orchestration logic for grader consistency analysis.
+ *
+ * Reads existing eval results, re-runs ONLY the grading assertions N additional
+ * times with the configured grader model, and analyzes score variance.
+ *
+ * This does NOT re-run the models under test — it only re-grades the same
+ * responses. Cost is low: ~$0.005 per grading call × N replications.
+ *
+ * Migrated from lib/grader-consistency.ts — no process.argv, no process.exit(),
+ * no module-level constants.
+ *
+ * @see docs/exec-plans/completed/grader-reliability.md — Phase 1
+ */
+import type { RawPromptfooFile } from "./calculate-scores.js";
+import { type GraderConsistency } from "./grader-consistency.js";
+import type { DimensionName } from "./types.js";
+/** Options for the grader consistency runner. */
+export interface GraderConsistencyRunnerOptions {
+    /** Number of additional grading replications (default: 5) */
+    replications: number;
+    /** Path to eval-results.json */
+    resultsPath: string;
+    /** Root directory of the eval package (for output paths) */
+    rootDir: string;
+}
+interface GradingJudgment {
+    /** Feature area */
+    area: string;
+    /** Task description */
+    description: string;
+    /** Scoring dimension */
+    dimension: DimensionName;
+    /** The original score from the eval run */
+    originalScore: number;
+    /** Provider (model under test) */
+    providerId?: string;
+    /** The model's response text to be graded */
+    responseText: string;
+    /** The rubric text (assertion value) */
+    rubricText: string;
+}
+/**
+ * Extract all llm-rubric grading judgments from eval results.
+ * Only includes gold (with-docs) tests to keep the analysis focused.
+ */
+export declare function extractGradingJudgments(file: RawPromptfooFile): GradingJudgment[];
+export declare function formatConsistencyReport(result: GraderConsistency, graderModel: string): string;
+/**
+ * Run the grader consistency analysis.
+ *
+ * Reads eval results, re-grades each judgment N times, and writes the
+ * consistency report to results/latest/grader-consistency.json.
+ *
+ * @throws Error if results file not found, replications < 2, or no judgments found
+ */
+export declare function runGraderConsistency(options: GraderConsistencyRunnerOptions): Promise<GraderConsistency>;
+export {};