npm - @tangle-network/agent-eval - Versions diffs - 0.27.0 → 0.27.2 - Mend

@tangle-network/agent-eval 0.27.0 → 0.27.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (80) hide show

package/CHANGELOG.md +72 -0
package/README.md +4 -5
package/dist/builder-eval/index.js +1 -1
package/dist/{chunk-WWYCWKUM.js → chunk-3CKU6VGU.js} +2 -2
package/dist/{chunk-K2TPS5LB.js → chunk-4U4BKCXK.js} +2 -2
package/dist/chunk-4U4BKCXK.js.map +1 -0
package/dist/{chunk-2A5XJB43.js → chunk-5AKPEK5L.js} +3 -3
package/dist/chunk-5AKPEK5L.js.map +1 -0
package/dist/{chunk-RAF443UI.js → chunk-DBIGN5MJ.js} +2 -2
package/dist/{chunk-JLZQWFV3.js → chunk-K33INZHH.js} +2 -2
package/dist/chunk-K33INZHH.js.map +1 -0
package/dist/{chunk-NU65VQ7M.js → chunk-MAZ26DC7.js} +1 -1
package/dist/chunk-MAZ26DC7.js.map +1 -0
package/dist/{chunk-LSH4MMOZ.js → chunk-NCRFYPS3.js} +1 -1
package/dist/chunk-NCRFYPS3.js.map +1 -0
package/dist/{chunk-ZN274SWR.js → chunk-PALJO75S.js} +2 -2
package/dist/{chunk-OWLAAMME.js → chunk-QHF6EQKK.js} +3 -2
package/dist/chunk-QHF6EQKK.js.map +1 -0
package/dist/chunk-R5UQJNKC.js +722 -0
package/dist/chunk-R5UQJNKC.js.map +1 -0
package/dist/{chunk-SESZDQPX.js → chunk-RUI6SIHY.js} +3 -3
package/dist/chunk-RUI6SIHY.js.map +1 -0
package/dist/{chunk-WHZMVFUV.js → chunk-SZSBQUIJ.js} +2 -2
package/dist/chunk-SZSBQUIJ.js.map +1 -0
package/dist/{chunk-4F5DQN55.js → chunk-VSMTAMNK.js} +1 -1
package/dist/chunk-VSMTAMNK.js.map +1 -0
package/dist/{chunk-5LBB5B3Z.js → chunk-XFZCM5Z3.js} +1 -1
package/dist/chunk-XFZCM5Z3.js.map +1 -0
package/dist/cli.js +1 -1
package/dist/{control-CBShYYA6.d.ts → control-BT4qnXiS.d.ts} +2 -2
package/dist/{control-runtime-BuJHoLg0.d.ts → control-runtime-BZ_lVLYW.d.ts} +1 -0
package/dist/control.d.ts +3 -3
package/dist/control.js +2 -2
package/dist/{failure-cluster-C2EGSDiT.d.ts → failure-cluster-Cw65_5FY.d.ts} +1 -2
package/dist/{feedback-trajectory-DfFdrraJ.d.ts → feedback-trajectory-D1aGKusy.d.ts} +1 -1
package/dist/governance/index.d.ts +1 -1
package/dist/{index-D3iBCjdF.d.ts → index-BhLlu-qO.d.ts} +1 -1
package/dist/index.d.ts +157 -167
package/dist/index.js +25 -335
package/dist/index.js.map +1 -1
package/dist/knowledge/index.d.ts +1 -1
package/dist/knowledge/index.js +2 -2
package/dist/{multi-layer-verifier-LkP3LVKj.d.ts → multi-layer-verifier-U-c8ge1k.d.ts} +1 -1
package/dist/openapi.json +1 -1
package/dist/optimization.d.ts +5 -5
package/dist/optimization.js +5 -5
package/dist/pipelines/index.d.ts +1 -1
package/dist/pipelines/index.js +2 -2
package/dist/{release-report-wfUySN5F.d.ts → release-report-CCQqnK46.d.ts} +1 -1
package/dist/{replay-BL96gCEP.d.ts → replay-D7z0J43-.d.ts} +4 -5
package/dist/reporting.d.ts +4 -4
package/dist/reporting.js +5 -5
package/dist/{researcher-bGkI7vCl.d.ts → researcher-G81CWc0q.d.ts} +9 -10
package/dist/rl.d.ts +26 -44
package/dist/rl.js +5 -5
package/dist/rl.js.map +1 -1
package/dist/{sequential-Dgz1n51-.d.ts → sequential-5iSVfzl2.d.ts} +2 -2
package/dist/{summary-report-DZVXOCK_.d.ts → summary-report-Dl4akLKX.d.ts} +5 -5
package/dist/traces.d.ts +1 -1
package/dist/traces.js +2 -2
package/dist/wire/index.d.ts +2 -2
package/dist/wire/index.js +1 -1
package/docs/research-report-methodology.md +4 -4
package/docs/three-package-architecture.md +12 -24
package/package.json +1 -1
package/dist/chunk-2A5XJB43.js.map +0 -1
package/dist/chunk-4F5DQN55.js.map +0 -1
package/dist/chunk-5LBB5B3Z.js.map +0 -1
package/dist/chunk-I4MBDTY5.js +0 -272
package/dist/chunk-I4MBDTY5.js.map +0 -1
package/dist/chunk-JLZQWFV3.js.map +0 -1
package/dist/chunk-K2TPS5LB.js.map +0 -1
package/dist/chunk-LSH4MMOZ.js.map +0 -1
package/dist/chunk-NU65VQ7M.js.map +0 -1
package/dist/chunk-OWLAAMME.js.map +0 -1
package/dist/chunk-SESZDQPX.js.map +0 -1
package/dist/chunk-WHZMVFUV.js.map +0 -1
/package/dist/{chunk-WWYCWKUM.js.map → chunk-3CKU6VGU.js.map} +0 -0
/package/dist/{chunk-RAF443UI.js.map → chunk-DBIGN5MJ.js.map} +0 -0
/package/dist/{chunk-ZN274SWR.js.map → chunk-PALJO75S.js.map} +0 -0

package/dist/knowledge/index.d.ts CHANGED Viewed

@@ -1,4 +1,4 @@
-import { j as ControlSeverity, C as ControlEvalResult } from '../control-runtime-BuJHoLg0.js';
+import { j as ControlSeverity, C as ControlEvalResult } from '../control-runtime-BZ_lVLYW.js';
 import { T as TraceEmitter } from '../emitter-DP_cSSiw.js';
 import '../store-Db2Bv8Cf.js';

package/dist/knowledge/index.js CHANGED Viewed

@@ -4,8 +4,8 @@ import {
   knowledgeReadinessTracePayload,
   scoreKnowledgeReadiness,
   userQuestionsForKnowledgeGaps
-} from "../chunk-WWYCWKUM.js";
-import "../chunk-LSH4MMOZ.js";
+} from "../chunk-3CKU6VGU.js";
+import "../chunk-NCRFYPS3.js";
 import "../chunk-TVVP3ZZQ.js";
 import "../chunk-PZ5AY32C.js";
 export {

package/dist/{multi-layer-verifier-LkP3LVKj.d.ts → multi-layer-verifier-U-c8ge1k.d.ts} RENAMED Viewed

@@ -51,7 +51,7 @@ interface LayerResult {
      * diagnostic name; null = "diagnostic not applicable / not measured."
      * Renderers that know the keys can display them; ones that don't,
      * ignore. Free-form on purpose — consumers type the value shape in
-     * their own namespace. Added in 0.10.
+     * their own namespace.
      */
     diagnostics?: Record<string, number | null>;
     /** Any rich per-layer detail — rendered as-is by consumers that know the layer. */

package/dist/openapi.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "openapi": "3.1.0",
   "info": {
     "title": "@tangle-network/agent-eval — wire protocol",
-    "version": "0.27.0",
+    "version": "0.27.2",
     "description": "HTTP and stdio RPC interface to agent-eval. The TypeScript runtime is the source of truth; this spec is the contract that cross-language clients (Python, Rust, Go) generate from.\n\nWire-protocol version: 1.0.0. Bumps on breaking changes to request/response schemas.",
     "contact": {
       "name": "Tangle Network",

package/dist/optimization.d.ts CHANGED Viewed

@@ -1,11 +1,11 @@
-export { C as CallbackResearcher, a as CallbackResearcherOptions, b as CampaignFactoryParams, c as CampaignIntegrityPolicy, d as CampaignRunContext, e as CampaignRunOutcome, f as CampaignRunner, g as CampaignScenario, h as CampaignVariant, E as EvalCampaignOptions, i as EvalCampaignResult, j as ExperimentPlan, k as ExperimentResult, F as FailedRun, l as FailureMode, N as NoopResearcher, R as Researcher, S as SteeringChange, r as runEvalCampaign } from './researcher-bGkI7vCl.js';
-export { F as FeedbackArtifactType, a as FeedbackAttempt, b as FeedbackLabel, c as FeedbackLabelKind, d as FeedbackLabelSource, e as FeedbackOptimizerRow, f as FeedbackOutcome, g as FeedbackReplayAdapter, h as FeedbackReplayResult, i as FeedbackSeverity, j as FeedbackSplitPolicy, k as FeedbackTask, l as FeedbackTrajectory, m as FeedbackTrajectoryFilter, n as FeedbackTrajectoryStore, o as FileSystemFeedbackTrajectoryStore, I as InMemoryFeedbackTrajectoryStore, P as PreferenceMemoryEntry, p as ProposedSideEffect, q as assignFeedbackSplit, r as controlRunToFeedbackTrajectory, s as createFeedbackTrajectory, t as feedbackTrajectoriesToDatasetScenarios, u as feedbackTrajectoriesToOptimizerRows, v as feedbackTrajectoryToDatasetScenario, w as feedbackTrajectoryToOptimizerRow, x as parseFeedbackTrajectoriesJsonl, y as renderPreferenceMemoryMarkdown, z as replayFeedbackTrajectories, A as replayFeedbackTrajectory, B as serializeFeedbackTrajectoriesJsonl, C as summarizePreferenceMemory, D as withAssignedFeedbackSplit } from './feedback-trajectory-DfFdrraJ.js';
-export { A as ActionableSideInfo, a as AsiSeverity, D as DEFAULT_MUTATION_PRIMITIVES, E as EvolvableVariant, G as GenerationReport, I as InMemoryTrialCache, M as MultiShotGateConfig, b as MultiShotGateResult, c as MultiShotMutateAdapter, d as MultiShotOptimizationConfig, e as MultiShotOptimizationResult, f as MultiShotRun, g as MultiShotRunInput, h as MultiShotRunner, i as MultiShotScore, j as MultiShotScorer, k as MultiShotSplit, l as MultiShotTrace, m as MultiShotTrialResult, n as MultiShotVariant, o as MutateAdapter, P as PromptEvolutionConfig, p as PromptEvolutionEvent, q as PromptEvolutionResult, R as ReflectionContext, r as ReflectionProposal, S as ScenarioAggregate, s as ScoreAdapter, T as TrialCache, t as TrialResult, u as TrialTrace, V as VariantAggregate, v as buildReflectionPrompt, w as defaultMultiShotObjectives, x as parseReflectionResponse, y as runMultiShotOptimization, z as runPromptEvolution, B as trialTraceFromMultiShotTrial } from './summary-report-DZVXOCK_.js';
+export { C as CallbackResearcher, a as CallbackResearcherOptions, b as CampaignFactoryParams, c as CampaignIntegrityPolicy, d as CampaignRunContext, e as CampaignRunOutcome, f as CampaignRunner, g as CampaignScenario, h as CampaignVariant, E as EvalCampaignOptions, i as EvalCampaignResult, j as ExperimentPlan, k as ExperimentResult, F as FailedRun, l as FailureMode, N as NoopResearcher, R as Researcher, S as SteeringChange, r as runEvalCampaign } from './researcher-G81CWc0q.js';
+export { F as FeedbackArtifactType, a as FeedbackAttempt, b as FeedbackLabel, c as FeedbackLabelKind, d as FeedbackLabelSource, e as FeedbackOptimizerRow, f as FeedbackOutcome, g as FeedbackReplayAdapter, h as FeedbackReplayResult, i as FeedbackSeverity, j as FeedbackSplitPolicy, k as FeedbackTask, l as FeedbackTrajectory, m as FeedbackTrajectoryFilter, n as FeedbackTrajectoryStore, o as FileSystemFeedbackTrajectoryStore, I as InMemoryFeedbackTrajectoryStore, P as PreferenceMemoryEntry, p as ProposedSideEffect, q as assignFeedbackSplit, r as controlRunToFeedbackTrajectory, s as createFeedbackTrajectory, t as feedbackTrajectoriesToDatasetScenarios, u as feedbackTrajectoriesToOptimizerRows, v as feedbackTrajectoryToDatasetScenario, w as feedbackTrajectoryToOptimizerRow, x as parseFeedbackTrajectoriesJsonl, y as renderPreferenceMemoryMarkdown, z as replayFeedbackTrajectories, A as replayFeedbackTrajectory, B as serializeFeedbackTrajectoriesJsonl, C as summarizePreferenceMemory, D as withAssignedFeedbackSplit } from './feedback-trajectory-D1aGKusy.js';
+export { A as ActionableSideInfo, a as AsiSeverity, D as DEFAULT_MUTATION_PRIMITIVES, E as EvolvableVariant, G as GenerationReport, I as InMemoryTrialCache, M as MultiShotGateConfig, b as MultiShotGateResult, c as MultiShotMutateAdapter, d as MultiShotOptimizationConfig, e as MultiShotOptimizationResult, f as MultiShotRun, g as MultiShotRunInput, h as MultiShotRunner, i as MultiShotScore, j as MultiShotScorer, k as MultiShotSplit, l as MultiShotTrace, m as MultiShotTrialResult, n as MultiShotVariant, o as MutateAdapter, P as PromptEvolutionConfig, p as PromptEvolutionEvent, q as PromptEvolutionResult, R as ReflectionContext, r as ReflectionProposal, S as ScenarioAggregate, s as ScoreAdapter, T as TrialCache, t as TrialResult, u as TrialTrace, V as VariantAggregate, v as buildReflectionPrompt, w as defaultMultiShotObjectives, x as parseReflectionResponse, y as runMultiShotOptimization, z as runPromptEvolution, B as trialTraceFromMultiShotTrial } from './summary-report-Dl4akLKX.js';
 import './errors-BZ9sTdz7.js';
 import './integrity-DK2EBVZC.js';
 import './store-Db2Bv8Cf.js';
 import './run-record-CqzahIbx.js';
 import './emitter-DP_cSSiw.js';
-import './control-runtime-BuJHoLg0.js';
+import './control-runtime-BZ_lVLYW.js';
 import './dataset-CiK_3LDr.js';
-import './failure-cluster-C2EGSDiT.js';
+import './failure-cluster-Cw65_5FY.js';

package/dist/optimization.js CHANGED Viewed

@@ -25,18 +25,18 @@ import {
   summarizePreferenceMemory,
   trialTraceFromMultiShotTrial,
   withAssignedFeedbackSplit
-} from "./chunk-WHZMVFUV.js";
+} from "./chunk-SZSBQUIJ.js";
 import "./chunk-NLMNWKVM.js";
 import {
   runEvalCampaign
-} from "./chunk-SESZDQPX.js";
+} from "./chunk-RUI6SIHY.js";
 import "./chunk-4S4BM3QQ.js";
-import "./chunk-2A5XJB43.js";
-import "./chunk-I4MBDTY5.js";
+import "./chunk-5AKPEK5L.js";
+import "./chunk-R5UQJNKC.js";
 import "./chunk-KTGTIOFD.js";
 import "./chunk-PC4UYEBM.js";
 import "./chunk-TVVP3ZZQ.js";
-import "./chunk-4F5DQN55.js";
+import "./chunk-VSMTAMNK.js";
 import "./chunk-NG236HPC.js";
 import "./chunk-PZ5AY32C.js";
 export {

package/dist/pipelines/index.d.ts CHANGED Viewed

@@ -1,5 +1,5 @@
 import { g as BudgetSpec, T as TraceStore, h as RunFilter, R as Run, a as ToolSpan } from '../store-Db2Bv8Cf.js';
-export { a as FailureCluster, F as FailureClusterReport, f as failureClusterView } from '../failure-cluster-C2EGSDiT.js';
+export { a as FailureCluster, F as FailureClusterReport, f as failureClusterView } from '../failure-cluster-Cw65_5FY.js';
 import { a as TrajectoryStep } from '../trajectory-CnoBo-JY.js';
 import { B as BaselineOptions, a as BaselineReport } from '../baseline-4R5deP0N.js';
 export { c as computeToolUseMetrics } from '../baseline-4R5deP0N.js';

package/dist/pipelines/index.js CHANGED Viewed

@@ -2,13 +2,13 @@ import {
   compareToBaseline,
   computeToolUseMetrics,
   failureClusterView
-} from "../chunk-JLZQWFV3.js";
+} from "../chunk-K33INZHH.js";
 import {
   buildTrajectory
 } from "../chunk-RZTMDUO7.js";
 import {
   interRaterReliability
-} from "../chunk-I4MBDTY5.js";
+} from "../chunk-R5UQJNKC.js";
 import {
   aggregateLlm,
   argHash,

package/dist/{release-report-wfUySN5F.d.ts → release-report-CCQqnK46.d.ts} RENAMED Viewed

@@ -1,5 +1,5 @@
 import { D as DatasetSplit, b as DatasetManifest, a as DatasetScenario } from './dataset-CiK_3LDr.js';
-import { a3 as GateDecision, A as ActionableSideInfo, m as MultiShotTrialResult } from './summary-report-DZVXOCK_.js';
+import { a3 as GateDecision, A as ActionableSideInfo, m as MultiShotTrialResult } from './summary-report-Dl4akLKX.js';
 import { R as RunRecord, a as RunSplitTag } from './run-record-CqzahIbx.js';
 /**

package/dist/{replay-BL96gCEP.d.ts → replay-D7z0J43-.d.ts} RENAMED Viewed

@@ -107,11 +107,10 @@ declare function redactValue(value: unknown, rules?: RedactionRule[], report?: R
  * Replay-from-raw-events — turn every captured campaign run into a
  * re-runnable artifact.
  *
- * The premise: 0.21 made `RawProviderSink` capture every provider HTTP
- * envelope. 0.22's `runEvalCampaign` makes capture the default. Together
- * they mean every past run is a complete fingerprint of what happened on
- * the wire — and that fingerprint is enough to replay the run without
- * burning new LLM cost.
+ * `RawProviderSink` captures every provider HTTP envelope; `runEvalCampaign`
+ * makes that capture the default. Together they make every past run a
+ * complete fingerprint of what happened on the wire — enough to replay
+ * the run without burning new LLM cost.
  *
  * Three use cases this primitive enables:
  *

package/dist/reporting.d.ts CHANGED Viewed

@@ -1,10 +1,10 @@
 export { R as RubricOutcomePair, a as RubricPredictiveValidityInput, b as RubricPredictiveValidityReport, c as RubricRanking, r as rubricPredictiveValidity } from './rubric-predictive-validity-C0uDYwG6.js';
-export { B as BootstrapOptions, a as BootstrapResult, J as JudgeReplayGateArgs, P as PairedBootstrapOptions, b as PairedBootstrapResult, R as ReleaseConfidenceAxis, c as ReleaseConfidenceAxisName, d as ReleaseConfidenceInput, e as ReleaseConfidenceIssue, f as ReleaseConfidenceMetrics, g as ReleaseConfidenceScorecard, h as ReleaseConfidenceStatus, i as ReleaseConfidenceThresholds, j as ReleaseTraceEvidence, k as RenderReleaseReportOptions, V as Verdict, l as assertReleaseConfidence, m as bhAdjust, n as bootstrapCi, o as evaluateReleaseConfidence, p as judgeReplayGate, q as pairedBootstrap, r as pairedWilcoxon, s as releaseTraceEvidenceFromMultiShotTrials, t as renderReleaseReport } from './release-report-wfUySN5F.js';
-export { I as InterimReleaseConfidence, a as InterimReleaseConfidenceInput, P as PairedEvalueOptions, b as PairedEvalueSequence, c as PairedEvalueStep, S as SequentialDecision, e as evaluateInterimReleaseConfidence, p as pairedEvalueSequence } from './sequential-Dgz1n51-.js';
-export { C as GainDistributionBin, F as GainDistributionFigureSpec, H as GainDistributionOptions, J as ParetoFigureSpec, K as ParetoPoint, L as RESEARCH_REPORT_HARD_PAIR_FLOOR, N as ResearchReport, O as ResearchReportCandidate, Q as ResearchReportDecision, U as ResearchReportMethodology, W as ResearchReportOptions, X as ResearchReportRecommendation, Y as SummaryTable, Z as SummaryTableOptions, _ as SummaryTableRow, $ as gainHistogram, a0 as paretoChart, a1 as researchReport, a2 as summaryTable } from './summary-report-DZVXOCK_.js';
+export { B as BootstrapOptions, a as BootstrapResult, J as JudgeReplayGateArgs, P as PairedBootstrapOptions, b as PairedBootstrapResult, R as ReleaseConfidenceAxis, c as ReleaseConfidenceAxisName, d as ReleaseConfidenceInput, e as ReleaseConfidenceIssue, f as ReleaseConfidenceMetrics, g as ReleaseConfidenceScorecard, h as ReleaseConfidenceStatus, i as ReleaseConfidenceThresholds, j as ReleaseTraceEvidence, k as RenderReleaseReportOptions, V as Verdict, l as assertReleaseConfidence, m as bhAdjust, n as bootstrapCi, o as evaluateReleaseConfidence, p as judgeReplayGate, q as pairedBootstrap, r as pairedWilcoxon, s as releaseTraceEvidenceFromMultiShotTrials, t as renderReleaseReport } from './release-report-CCQqnK46.js';
+export { I as InterimReleaseConfidence, a as InterimReleaseConfidenceInput, P as PairedEvalueOptions, b as PairedEvalueSequence, c as PairedEvalueStep, S as SequentialDecision, e as evaluateInterimReleaseConfidence, p as pairedEvalueSequence } from './sequential-5iSVfzl2.js';
+export { C as GainDistributionBin, F as GainDistributionFigureSpec, H as GainDistributionOptions, J as ParetoFigureSpec, K as ParetoPoint, L as RESEARCH_REPORT_HARD_PAIR_FLOOR, N as ResearchReport, O as ResearchReportCandidate, Q as ResearchReportDecision, U as ResearchReportMethodology, W as ResearchReportOptions, X as ResearchReportRecommendation, Y as SummaryTable, Z as SummaryTableOptions, _ as SummaryTableRow, $ as gainHistogram, a0 as paretoChart, a1 as researchReport, a2 as summaryTable } from './summary-report-Dl4akLKX.js';
 import './run-record-CqzahIbx.js';
 import './errors-BZ9sTdz7.js';
 import './outcome-store-D6KWmYvj.js';
 import './dataset-CiK_3LDr.js';
-import './failure-cluster-C2EGSDiT.js';
+import './failure-cluster-Cw65_5FY.js';
 import './store-Db2Bv8Cf.js';

package/dist/reporting.js CHANGED Viewed

@@ -5,14 +5,14 @@ import {
   judgeReplayGate,
   releaseTraceEvidenceFromMultiShotTrials,
   renderReleaseReport
-} from "./chunk-RAF443UI.js";
+} from "./chunk-DBIGN5MJ.js";
 import {
   rubricPredictiveValidity
 } from "./chunk-YRZ4M5GS.js";
 import {
   evaluateInterimReleaseConfidence,
   pairedEvalueSequence
-} from "./chunk-NU65VQ7M.js";
+} from "./chunk-MAZ26DC7.js";
 import {
   RESEARCH_REPORT_HARD_PAIR_FLOOR,
   bhAdjust,
@@ -22,9 +22,9 @@ import {
   paretoChart,
   researchReport,
   summaryTable
-} from "./chunk-2A5XJB43.js";
-import "./chunk-I4MBDTY5.js";
-import "./chunk-4F5DQN55.js";
+} from "./chunk-5AKPEK5L.js";
+import "./chunk-R5UQJNKC.js";
+import "./chunk-VSMTAMNK.js";
 import "./chunk-NG236HPC.js";
 import "./chunk-PZ5AY32C.js";
 export {

package/dist/{researcher-bGkI7vCl.d.ts → researcher-G81CWc0q.d.ts} RENAMED Viewed

@@ -1,7 +1,7 @@
 import { A as AgentEvalError, C as CaptureIntegrityError } from './errors-BZ9sTdz7.js';
 import { R as RawProviderSink, P as ProviderRedactor, a as RunIntegrityExpectations, b as RunIntegrityReport } from './integrity-DK2EBVZC.js';
 import { a as RunSplitTag, b as RunTokenUsage, c as RunJudgeMetadata, R as RunRecord } from './run-record-CqzahIbx.js';
-import { W as ResearchReportOptions, N as ResearchReport, a3 as GateDecision } from './summary-report-DZVXOCK_.js';
+import { W as ResearchReportOptions, N as ResearchReport, a3 as GateDecision } from './summary-report-Dl4akLKX.js';
 import { T as TraceEmitter, R as RunCompleteHook } from './emitter-DP_cSSiw.js';
 import { T as TraceStore } from './store-Db2Bv8Cf.js';
@@ -224,16 +224,15 @@ declare class LlmClient {
  * EvalCampaign — opinionated matrix runner that wires the four
  * capture-integrity directives by construction.
  *
- * Every consumer that ran a launch-grade benchmark before 0.22 reinvented
- * the same shape: matrix runner → for each (variant, scenario, seed) →
- * start a TraceEmitter → call LLMs → end the run → maybe analyze.
- * The bug class blueprint-agent reported (raw events not captured, route
- * silently wrong, integrity not asserted, analyst never ran) lives at the
- * integration boundary — not the agent-eval API surface. The four
- * directives in `SKILL.md § Capture integrity` are mitigations.
+ * The canonical benchmark shape — matrix runner → for each
+ * (variant, scenario, seed) → start a TraceEmitter → call LLMs → end the
+ * run → analyze — has a bug class at the integration boundary: raw
+ * events not captured, route silently wrong, integrity not asserted,
+ * analyst never run. The directives in `SKILL.md § Capture integrity`
+ * are the mitigations.
  *
- * `EvalCampaign` is the structural fix. Consumers don't wire the integrity
- * surface anymore; the campaign owns it. Specifically, the campaign:
+ * `EvalCampaign` is the structural fix — consumers don't wire the
+ * integrity surface themselves; the campaign owns it. Specifically:
  *
  *   - calls `assertLlmRoute` once at preflight before any work runs
  *   - constructs a per-run `TraceStore` and `RawProviderSink` via factories

package/dist/rl.d.ts CHANGED Viewed

@@ -1,14 +1,14 @@
 import { R as RunRecord, a as RunSplitTag } from './run-record-CqzahIbx.js';
-import { V as VerificationReport } from './multi-layer-verifier-LkP3LVKj.js';
-import { t as TrialResult, V as VariantAggregate, q as PromptEvolutionResult, e as MultiShotOptimizationResult } from './summary-report-DZVXOCK_.js';
+import { V as VerificationReport } from './multi-layer-verifier-U-c8ge1k.js';
+import { t as TrialResult, V as VariantAggregate, q as PromptEvolutionResult, e as MultiShotOptimizationResult } from './summary-report-Dl4akLKX.js';
 import { O as OutcomeStore } from './outcome-store-D6KWmYvj.js';
 import { b as RubricPredictiveValidityReport } from './rubric-predictive-validity-C0uDYwG6.js';
-import { I as InterimReleaseConfidence } from './sequential-Dgz1n51-.js';
+import { I as InterimReleaseConfidence } from './sequential-5iSVfzl2.js';
 import { S as Span, T as TraceStore } from './store-Db2Bv8Cf.js';
-import { R as Researcher, l as FailureMode, S as SteeringChange, j as ExperimentPlan, k as ExperimentResult, i as EvalCampaignResult, E as EvalCampaignOptions } from './researcher-bGkI7vCl.js';
-export { r as runEvalCampaign } from './researcher-bGkI7vCl.js';
+import { R as Researcher, l as FailureMode, S as SteeringChange, j as ExperimentPlan, k as ExperimentResult, i as EvalCampaignResult, E as EvalCampaignOptions } from './researcher-G81CWc0q.js';
+export { r as runEvalCampaign } from './researcher-G81CWc0q.js';
 import './errors-BZ9sTdz7.js';
-import './failure-cluster-C2EGSDiT.js';
+import './failure-cluster-Cw65_5FY.js';
 import './integrity-DK2EBVZC.js';
 import './emitter-DP_cSSiw.js';
@@ -529,17 +529,12 @@ declare function toAnthropicFormat(triples: PreferenceTriple[]): Array<{
 }>;
 /**
- * Adapters: convert legacy optimization outputs into the canonical
- * `RunRecord[]` artifact that 0.22+ primitives consume.
+ * Adapters: convert `TrialResult[]` (from `runMultiShotOptimization`,
+ * `runPromptEvolution`) into the canonical `RunRecord[]` artifact that
+ * `replayCache`, `pairedEvalueSequence`, and `rubricPredictiveValidity`
+ * consume.
  *
- * The 0.22 release standardized the campaign artifact: every cell of an
- * eval matrix produces one `RunRecord`. The pre-0.22 optimization
- * primitives (`runMultiShotOptimization`, `runPromptEvolution`) produce
- * `TrialResult[]` with a different shape. This file bridges the two so
- * the new primitives (`replayCache`, `pairedEvalueSequence`,
- * `rubricPredictiveValidity`) compose cleanly with the existing RL stack.
- *
- * The adapters are thin and explicit — every mandatory `RunRecord` field
+ * Adapters are thin and explicit — every mandatory `RunRecord` field
  * comes from a caller-supplied context (`commitSha`, `model`,
  * `promptHash`, `configHash`) plus the trial's runtime data. Defaults
  * exist for fields the trial doesn't carry (`tokenUsage`, `costUsd`),
@@ -1505,18 +1500,16 @@ interface DetectRewardHackingInput {
 declare function detectRewardHacking(input: DetectRewardHackingInput): RewardHackingReport;
 /**
- * `analyzeOptimizationResult` — unifies the pre-0.22 auto-research stack
+ * `analyzeOptimizationResult` — unifies the auto-research stack
  * (`runPromptEvolution`, `runMultiShotOptimization`, reflective-mutation,
- * Ax/AxRLM trace analyst) with the 0.23 RL bridge in a single call.
+ * Ax/AxRLM trace analyst) with the RL bridge in a single call.
  *
- * What this fixes: until 0.23 the optimization stack and the RL bridge
- * lived in parallel namespaces. The optimization primitives produced
- * `TrialResult[]`; the RL bridge consumed `RunRecord[]`. Trace-analyst
- * was decoupled from both. `analyzeOptimizationResult` does the wiring
- * once so consumers don't have to:
+ * The optimization primitives produce `TrialResult[]`; the RL bridge
+ * consumes `RunRecord[]`. Trace-analyst is independent of both. This
+ * function does the wiring once so consumers don't have to:
  *
- *    Optimization (existing primitives)           RL bridge (0.23)
- *    ──────────────────────────────────           ────────────────
+ *    Optimization (existing primitives)           RL bridge
+ *    ──────────────────────────────────           ────────
  *    runPromptEvolution → TrialResult[]    →
  *    runMultiShotOptimization → MSTrial[]  → analyzeOptimizationResult →
  *    reflective-mutation → mutations.jsonl →                             ↓
@@ -1527,10 +1520,10 @@ declare function detectRewardHacking(input: DetectRewardHackingInput): RewardHac
  *    ↓                                                                   │
  *    TraceAnalyst.analyze(progressLog)         ←─────────────────────────┘
  *
- * The output of this function is the canonical RL artifact set:
- * `RunRecord[]` (so every other 0.22+ primitive composes), preference
- * triples, verifiable reward signals, reward-hacking diagnosis,
- * sequential interim verdict, and (when wired) trace-analyst summary.
+ * The output is the canonical RL artifact set: `RunRecord[]` (so every
+ * other RL primitive composes), preference triples, verifiable reward
+ * signals, reward-hacking diagnosis, sequential interim verdict, and
+ * (when wired) trace-analyst summary.
  *
  * What this primitive does NOT do: it does not modify the optimization
  * primitives' internals. They keep producing `TrialResult` and emitting
@@ -1609,11 +1602,7 @@ declare function analyzeOptimizationResult(opts: AnalyzeOptimizationResultOption
  * `PredictiveValidityResearcher` — concrete `Researcher` implementation
  * that drives selection from outcome-anchored predictive validity.
  *
- * `Researcher` was a placeholder interface plus `NoopResearcher` until
- * 0.23. The 0.23 panel critique called this out: shipping the interface
- * without a default implementation that drives the loop is incomplete.
- *
- * This researcher answers each method:
+ * Each method:
  *
  *   - `inspectFailures(runs)` — synthesizes failure modes from the
  *     bottom-quartile of `RunRecord`s on the configured proxy reward.
@@ -1676,14 +1665,10 @@ declare class PredictiveValidityResearcher implements Researcher {
 }
 /**
- * `runRLCampaign` — the missing top-level orchestrator.
+ * `runRLCampaign` — top-level orchestrator that runs the matrix and
+ * produces every RL-ready artifact in one call.
  *
- * `runEvalCampaign` runs the matrix and produces `RunRecord[]`. The 0.23
- * RL primitives consume that artifact in different ways. Until 0.24 they
- * had to be wired together by hand at every consumer; that defeats the
- * cohesion the package is supposed to provide.
- *
- * `runRLCampaign` wires:
+ * Wires:
  *   1. `runEvalCampaign` for the matrix run (capture, integrity, hooks)
  *   2. `extractVerifiableReward` over each run, separating deterministic
  *      from probabilistic reward sources for the trainer
@@ -1697,9 +1682,6 @@ declare class PredictiveValidityResearcher implements Researcher {
  * stage's output is in there. The consumer's downstream fits in a single
  * line: pass `result.preferences` to their DPO trainer, `result.grpoRows`
  * to GRPO, `result.runs` plus `result.rewardSignals` to a custom RL loop.
- *
- * This is what the 0.23 panel critique called the "missing top-level
- * primitive." Now shipped.
  */
 interface RunRLCampaignOptions<V> extends EvalCampaignOptions<V> {

package/dist/rl.js CHANGED Viewed

@@ -1,23 +1,23 @@
 import {
   runEvalCampaign
-} from "./chunk-SESZDQPX.js";
+} from "./chunk-RUI6SIHY.js";
 import "./chunk-4S4BM3QQ.js";
 import {
   rubricPredictiveValidity
 } from "./chunk-YRZ4M5GS.js";
 import {
   evaluateInterimReleaseConfidence
-} from "./chunk-NU65VQ7M.js";
+} from "./chunk-MAZ26DC7.js";
 import {
   benjaminiHochberg
-} from "./chunk-2A5XJB43.js";
+} from "./chunk-5AKPEK5L.js";
 import {
   wilcoxonSignedRank
-} from "./chunk-I4MBDTY5.js";
+} from "./chunk-R5UQJNKC.js";
 import "./chunk-KTGTIOFD.js";
 import "./chunk-PC4UYEBM.js";
 import "./chunk-TVVP3ZZQ.js";
-import "./chunk-4F5DQN55.js";
+import "./chunk-VSMTAMNK.js";
 import {
   ValidationError
 } from "./chunk-NG236HPC.js";