npm - @tangle-network/agent-eval - Versions diffs - 0.60.0 → 0.61.0 - Mend

@tangle-network/agent-eval 0.60.0 → 0.61.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (89) hide show

package/CHANGELOG.md +21 -0
package/dist/adapters/http.d.ts +1 -1
package/dist/adapters/langchain.d.ts +1 -1
package/dist/adapters/otel.d.ts +5 -5
package/dist/agent-profile-9J9hxdm2.d.ts +114 -0
package/dist/benchmarks/index.d.ts +3 -3
package/dist/builder-eval/index.js +2 -2
package/dist/campaign/index.d.ts +151 -11
package/dist/campaign/index.js +211 -10
package/dist/campaign/index.js.map +1 -1
package/dist/{chunk-QDOSODID.js → chunk-3B7Y5AUR.js} +2 -2
package/dist/{chunk-QYJT52YW.js → chunk-3BFEG2F6.js} +1 -1
package/dist/chunk-3BFEG2F6.js.map +1 -0
package/dist/{chunk-J4DIMSRK.js → chunk-6EKXFFGQ.js} +2 -2
package/dist/{chunk-63EPZQUZ.js → chunk-6REHLN5J.js} +2 -2
package/dist/{chunk-GM476SZU.js → chunk-AIWHLG7J.js} +5 -5
package/dist/{chunk-AIXHUIHG.js → chunk-B26KI423.js} +3 -3
package/dist/{chunk-NCK5QLGT.js → chunk-F3SRAAZO.js} +2 -2
package/dist/{chunk-GBHRUAOF.js → chunk-GMXHLSLL.js} +2 -2
package/dist/{chunk-VXNVVBZO.js → chunk-IHDHUN2X.js} +2 -2
package/dist/{chunk-S3SDD56V.js → chunk-ITBRCT73.js} +2 -2
package/dist/{chunk-OLIBRKRD.js → chunk-KX6F6NCG.js} +2 -2
package/dist/{chunk-NOPYCRNG.js → chunk-OLULBECP.js} +13 -2
package/dist/chunk-OLULBECP.js.map +1 -0
package/dist/chunk-PQV2TKC3.js +27 -0
package/dist/chunk-PQV2TKC3.js.map +1 -0
package/dist/{chunk-UBPIXOC4.js → chunk-SBCB6VZY.js} +2 -2
package/dist/{chunk-LBSXXH56.js → chunk-SUGME4OT.js} +5 -5
package/dist/chunk-SUGME4OT.js.map +1 -0
package/dist/{chunk-YTMXBHFM.js → chunk-T375SUOZ.js} +2 -2
package/dist/{chunk-PIEAE33T.js → chunk-Z4ZCBC7M.js} +2 -2
package/dist/cli.js +3 -3
package/dist/contract/index.d.ts +13 -13
package/dist/contract/index.js +7 -7
package/dist/{control-DjEgwWNo.d.ts → control-Bf8owbuG.d.ts} +2 -2
package/dist/control.d.ts +5 -5
package/dist/control.js +3 -3
package/dist/{dataset-BlwAtYYf.d.ts → dataset-B2kL-fSM.d.ts} +1 -1
package/dist/{errors-mje_cKOs.d.ts → errors-Dwqw-T_m.d.ts} +1 -1
package/dist/{feedback-trajectory-DpUmE90J.d.ts → feedback-trajectory-8hKC5EOb.d.ts} +1 -1
package/dist/governance/index.d.ts +3 -3
package/dist/hosted/index.d.ts +5 -5
package/dist/{index-wlaiph9Y.d.ts → index-Bvk35ils.d.ts} +1 -1
package/dist/{index-BIkvdkSU.d.ts → index-D9dwa00f.d.ts} +2 -2
package/dist/index.d.ts +24 -132
package/dist/index.js +16 -29
package/dist/index.js.map +1 -1
package/dist/{integrity-CfXjSqEv.d.ts → integrity-CJzrpUua.d.ts} +1 -1
package/dist/{llm-client-BXVRUZyX.d.ts → llm-client-DbjLfz-K.d.ts} +1 -1
package/dist/meta-eval/index.d.ts +3 -3
package/dist/openapi.json +1 -1
package/dist/pipelines/index.js +3 -3
package/dist/{provenance-BM8vmMBa.d.ts → provenance-D0WeCXt1.d.ts} +5 -5
package/dist/{red-team-CrC5MZYd.d.ts → red-team-DW9Ca_tj.d.ts} +1 -1
package/dist/{registry-DK9kqXvb.d.ts → registry-qmbYT3Eo.d.ts} +2 -2
package/dist/{release-report-DmPjIce3.d.ts → release-report-DszkgvJ3.d.ts} +3 -3
package/dist/reporting.d.ts +6 -6
package/dist/reporting.js +4 -4
package/dist/{researcher-JP8EvnLv.d.ts → researcher-BaVsy0sW.d.ts} +4 -4
package/dist/rl.d.ts +9 -9
package/dist/rl.js +7 -7
package/dist/{rubric-predictive-validity-B3qNa4aY.d.ts → rubric-predictive-validity-DgBHWsh7.d.ts} +1 -1
package/dist/run-campaign-HXPJAUZ3.js +10 -0
package/dist/{run-record-etiCMsUq.d.ts → run-record-DgUVo5pw.d.ts} +1 -1
package/dist/{summary-report-DLxh4yWk.d.ts → summary-report-BQvXpvaR.d.ts} +1 -1
package/dist/traces.d.ts +2 -2
package/dist/traces.js +3 -3
package/dist/{types-VCIXx_yo.d.ts → types-Beb6KPqZ.d.ts} +21 -1
package/dist/wire/index.d.ts +3 -3
package/dist/wire/index.js +3 -3
package/package.json +12 -25
package/dist/chunk-LBSXXH56.js.map +0 -1
package/dist/chunk-NOPYCRNG.js.map +0 -1
package/dist/chunk-QYJT52YW.js.map +0 -1
package/dist/run-campaign-5XENUKRF.js +0 -10
/package/dist/{chunk-QDOSODID.js.map → chunk-3B7Y5AUR.js.map} +0 -0
/package/dist/{chunk-J4DIMSRK.js.map → chunk-6EKXFFGQ.js.map} +0 -0
/package/dist/{chunk-63EPZQUZ.js.map → chunk-6REHLN5J.js.map} +0 -0
/package/dist/{chunk-GM476SZU.js.map → chunk-AIWHLG7J.js.map} +0 -0
/package/dist/{chunk-AIXHUIHG.js.map → chunk-B26KI423.js.map} +0 -0
/package/dist/{chunk-NCK5QLGT.js.map → chunk-F3SRAAZO.js.map} +0 -0
/package/dist/{chunk-GBHRUAOF.js.map → chunk-GMXHLSLL.js.map} +0 -0
/package/dist/{chunk-VXNVVBZO.js.map → chunk-IHDHUN2X.js.map} +0 -0
/package/dist/{chunk-S3SDD56V.js.map → chunk-ITBRCT73.js.map} +0 -0
/package/dist/{chunk-OLIBRKRD.js.map → chunk-KX6F6NCG.js.map} +0 -0
/package/dist/{chunk-UBPIXOC4.js.map → chunk-SBCB6VZY.js.map} +0 -0
/package/dist/{chunk-YTMXBHFM.js.map → chunk-T375SUOZ.js.map} +0 -0
/package/dist/{chunk-PIEAE33T.js.map → chunk-Z4ZCBC7M.js.map} +0 -0
/package/dist/{run-campaign-5XENUKRF.js.map → run-campaign-HXPJAUZ3.js.map} +0 -0

package/dist/{integrity-CfXjSqEv.d.ts → integrity-CJzrpUua.d.ts} RENAMED Viewed

@@ -1,4 +1,4 @@
-import { C as CaptureIntegrityError } from './errors-mje_cKOs.js';
+import { C as CaptureIntegrityError } from './errors-Dwqw-T_m.js';
 import { R as RawProviderSink } from './raw-provider-sink-C46HDghv.js';
 import { T as TraceStore } from './store-CKUAgsJz.js';

package/dist/{llm-client-BXVRUZyX.d.ts → llm-client-DbjLfz-K.d.ts} RENAMED Viewed

@@ -1,4 +1,4 @@
-import { A as AgentEvalError, C as CaptureIntegrityError } from './errors-mje_cKOs.js';
+import { A as AgentEvalError, C as CaptureIntegrityError } from './errors-Dwqw-T_m.js';
 import { R as RawProviderSink, P as ProviderRedactor } from './raw-provider-sink-C46HDghv.js';
 /**

package/dist/meta-eval/index.d.ts CHANGED Viewed

@@ -2,9 +2,9 @@ import { T as TraceStore } from '../store-CKUAgsJz.js';
 import { R as Run } from '../schema-m0gsnbt3.js';
 import { a as OutcomeFilter, O as OutcomeStore } from '../outcome-store-D6KWmYvj.js';
 export { D as DeploymentOutcome, F as FileSystemOutcomeStore, b as FileSystemOutcomeStoreOptions, I as InMemoryOutcomeStore } from '../outcome-store-D6KWmYvj.js';
-export { R as RubricOutcomePair, a as RubricPredictiveValidityInput, b as RubricPredictiveValidityReport, c as RubricRanking, r as rubricPredictiveValidity } from '../rubric-predictive-validity-B3qNa4aY.js';
-import '../run-record-etiCMsUq.js';
-import '../errors-mje_cKOs.js';
+export { R as RubricOutcomePair, a as RubricPredictiveValidityInput, b as RubricPredictiveValidityReport, c as RubricRanking, r as rubricPredictiveValidity } from '../rubric-predictive-validity-DgBHWsh7.js';
+import '../run-record-DgUVo5pw.js';
+import '../errors-Dwqw-T_m.js';
 /**
  * Correlation study — "does our eval score predict real-world outcomes?"

package/dist/openapi.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "openapi": "3.1.0",
   "info": {
     "title": "@tangle-network/agent-eval — wire protocol",
-    "version": "0.60.0",
+    "version": "0.61.0",
     "description": "HTTP and stdio RPC interface to agent-eval. The TypeScript runtime is the source of truth; this spec is the contract that cross-language clients (Python, Rust, Go) generate from.\n\nWire-protocol version: 1.0.0. Bumps on breaking changes to request/response schemas.",
     "contact": {
       "name": "Tangle Network",

package/dist/pipelines/index.js CHANGED Viewed

@@ -3,13 +3,13 @@ import {
   classifyFailure,
   compareToBaseline,
   computeToolUseMetrics
-} from "../chunk-QDOSODID.js";
+} from "../chunk-3B7Y5AUR.js";
 import {
   buildTrajectory
 } from "../chunk-RZTMDUO7.js";
 import {
   interRaterReliability
-} from "../chunk-S3SDD56V.js";
+} from "../chunk-ITBRCT73.js";
 import {
   aggregateLlm,
   argHash,
@@ -18,7 +18,7 @@ import {
   toolSpans
 } from "../chunk-47X6LRCE.js";
 import "../chunk-5BKGXME7.js";
-import "../chunk-QYJT52YW.js";
+import "../chunk-3BFEG2F6.js";
 import "../chunk-PZ5AY32C.js";
 // src/pipelines/budget-breach.ts

package/dist/{provenance-BM8vmMBa.d.ts → provenance-D0WeCXt1.d.ts} RENAMED Viewed

@@ -1,8 +1,8 @@
-import { S as Scenario, k as CampaignResult, o as GateResult, u as Mutator, I as ImprovementDriver, G as Gate, D as DispatchFn, a as JudgeConfig, L as LabeledScenarioStore, l as CampaignTraceWriter, M as MutableSurface, q as GenerationRecord, n as GateDecision } from './types-VCIXx_yo.js';
-import { L as LlmClientOptions } from './llm-client-BXVRUZyX.js';
-import { R as RedTeamCase } from './red-team-CrC5MZYd.js';
-import { R as RunRecord } from './run-record-etiCMsUq.js';
-import { H as HostedClient, T as TraceSpanEvent } from './index-BIkvdkSU.js';
+import { S as Scenario, C as CampaignResult, q as GateResult, v as Mutator, I as ImprovementDriver, G as Gate, D as DispatchFn, a as JudgeConfig, L as LabeledScenarioStore, n as CampaignTraceWriter, M as MutableSurface, s as GenerationRecord, p as GateDecision } from './types-Beb6KPqZ.js';
+import { L as LlmClientOptions } from './llm-client-DbjLfz-K.js';
+import { R as RedTeamCase } from './red-team-DW9Ca_tj.js';
+import { R as RunRecord } from './run-record-DgUVo5pw.js';
+import { H as HostedClient, T as TraceSpanEvent } from './index-D9dwa00f.js';
 /**
  * @experimental

package/dist/{red-team-CrC5MZYd.d.ts → red-team-DW9Ca_tj.d.ts} RENAMED Viewed

@@ -1,4 +1,4 @@
-import { a as DatasetScenario, b as Dataset } from './dataset-BlwAtYYf.js';
+import { a as DatasetScenario, b as Dataset } from './dataset-B2kL-fSM.js';
 import { T as TraceStore } from './store-CKUAgsJz.js';
 /**

package/dist/{registry-DK9kqXvb.d.ts → registry-qmbYT3Eo.d.ts} RENAMED Viewed

@@ -1,5 +1,5 @@
-import { b as LlmCallRequest, c as LlmCallResult } from './llm-client-BXVRUZyX.js';
-import { R as RunRecord } from './run-record-etiCMsUq.js';
+import { b as LlmCallRequest, c as LlmCallResult } from './llm-client-DbjLfz-K.js';
+import { R as RunRecord } from './run-record-DgUVo5pw.js';
 import { T as TraceAnalysisStore } from './store-jzKpMl16.js';
 import { J as JudgeInput } from './types-DhqpAi_z.js';

package/dist/{release-report-DmPjIce3.d.ts → release-report-DszkgvJ3.d.ts} RENAMED Viewed

@@ -1,8 +1,8 @@
 import { C as ContinuousAgreementOptions, a as ContinuousAgreement } from './judge-calibration-DilmB3Ml.js';
 import { a as JudgeScore } from './types-DhqpAi_z.js';
-import { D as DatasetSplit, c as DatasetManifest, a as DatasetScenario } from './dataset-BlwAtYYf.js';
-import { m as GateDecision } from './summary-report-DLxh4yWk.js';
-import { R as RunRecord, a as RunSplitTag } from './run-record-etiCMsUq.js';
+import { D as DatasetSplit, c as DatasetManifest, a as DatasetScenario } from './dataset-B2kL-fSM.js';
+import { m as GateDecision } from './summary-report-BQvXpvaR.js';
+import { R as RunRecord, a as RunSplitTag } from './run-record-DgUVo5pw.js';
 /**
  * Release confidence gate.

package/dist/reporting.d.ts CHANGED Viewed

@@ -1,14 +1,14 @@
-export { R as RubricOutcomePair, a as RubricPredictiveValidityInput, b as RubricPredictiveValidityReport, c as RubricRanking, r as rubricPredictiveValidity } from './rubric-predictive-validity-B3qNa4aY.js';
-export { B as BootstrapOptions, a as BootstrapResult, J as JudgeReplayGateArgs, P as PairedBootstrapOptions, b as PairedBootstrapResult, R as ReleaseConfidenceAxis, c as ReleaseConfidenceAxisName, d as ReleaseConfidenceInput, e as ReleaseConfidenceIssue, f as ReleaseConfidenceMetrics, g as ReleaseConfidenceScorecard, h as ReleaseConfidenceStatus, i as ReleaseConfidenceThresholds, j as ReleaseTraceEvidence, k as RenderReleaseReportOptions, V as Verdict, l as assertReleaseConfidence, m as benjaminiHochberg, n as bootstrapCi, o as evaluateReleaseConfidence, p as judgeReplayGate, q as pairedBootstrap, r as renderReleaseReport, w as wilcoxonSignedRank } from './release-report-DmPjIce3.js';
+export { R as RubricOutcomePair, a as RubricPredictiveValidityInput, b as RubricPredictiveValidityReport, c as RubricRanking, r as rubricPredictiveValidity } from './rubric-predictive-validity-DgBHWsh7.js';
+export { B as BootstrapOptions, a as BootstrapResult, J as JudgeReplayGateArgs, P as PairedBootstrapOptions, b as PairedBootstrapResult, R as ReleaseConfidenceAxis, c as ReleaseConfidenceAxisName, d as ReleaseConfidenceInput, e as ReleaseConfidenceIssue, f as ReleaseConfidenceMetrics, g as ReleaseConfidenceScorecard, h as ReleaseConfidenceStatus, i as ReleaseConfidenceThresholds, j as ReleaseTraceEvidence, k as RenderReleaseReportOptions, V as Verdict, l as assertReleaseConfidence, m as benjaminiHochberg, n as bootstrapCi, o as evaluateReleaseConfidence, p as judgeReplayGate, q as pairedBootstrap, r as renderReleaseReport, w as wilcoxonSignedRank } from './release-report-DszkgvJ3.js';
 export { I as InterimReleaseConfidence, a as InterimReleaseConfidenceInput, P as PairedEvalueOptions, b as PairedEvalueSequence, c as PairedEvalueStep, S as SequentialDecision, e as evaluateInterimReleaseConfidence, p as pairedEvalueSequence } from './sequential-5iSVfzl2.js';
-export { G as GainDistributionBin, a as GainDistributionFigureSpec, b as GainDistributionOptions, P as ParetoFigureSpec, c as ParetoPoint, R as RESEARCH_REPORT_HARD_PAIR_FLOOR, d as ResearchReport, e as ResearchReportCandidate, f as ResearchReportDecision, g as ResearchReportMethodology, h as ResearchReportOptions, i as ResearchReportRecommendation, S as SummaryTable, j as SummaryTableOptions, k as SummaryTableRow, l as gainHistogram, p as paretoChart, r as researchReport, s as summaryTable } from './summary-report-DLxh4yWk.js';
-import './run-record-etiCMsUq.js';
-import './errors-mje_cKOs.js';
+export { G as GainDistributionBin, a as GainDistributionFigureSpec, b as GainDistributionOptions, P as ParetoFigureSpec, c as ParetoPoint, R as RESEARCH_REPORT_HARD_PAIR_FLOOR, d as ResearchReport, e as ResearchReportCandidate, f as ResearchReportDecision, g as ResearchReportMethodology, h as ResearchReportOptions, i as ResearchReportRecommendation, S as SummaryTable, j as SummaryTableOptions, k as SummaryTableRow, l as gainHistogram, p as paretoChart, r as researchReport, s as summaryTable } from './summary-report-BQvXpvaR.js';
+import './run-record-DgUVo5pw.js';
+import './errors-Dwqw-T_m.js';
 import './schema-m0gsnbt3.js';
 import './outcome-store-D6KWmYvj.js';
 import './judge-calibration-DilmB3Ml.js';
 import './types-DhqpAi_z.js';
 import '@tangle-network/tcloud';
-import './dataset-BlwAtYYf.js';
+import './dataset-B2kL-fSM.js';
 import './failure-cluster-CL7IVgkJ.js';
 import './store-CKUAgsJz.js';

package/dist/reporting.js CHANGED Viewed

@@ -4,7 +4,7 @@ import {
   evaluateReleaseConfidence,
   judgeReplayGate,
   renderReleaseReport
-} from "./chunk-AIXHUIHG.js";
+} from "./chunk-B26KI423.js";
 import {
   rubricPredictiveValidity
 } from "./chunk-YRZ4M5GS.js";
@@ -18,14 +18,14 @@ import {
   paretoChart,
   researchReport,
   summaryTable
-} from "./chunk-OLIBRKRD.js";
+} from "./chunk-KX6F6NCG.js";
 import {
   benjaminiHochberg,
   pairedBootstrap,
   wilcoxonSignedRank
-} from "./chunk-S3SDD56V.js";
+} from "./chunk-ITBRCT73.js";
 import "./chunk-VSMTAMNK.js";
-import "./chunk-QYJT52YW.js";
+import "./chunk-3BFEG2F6.js";
 import "./chunk-PZ5AY32C.js";
 export {
   RESEARCH_REPORT_HARD_PAIR_FLOOR,

package/dist/{researcher-JP8EvnLv.d.ts → researcher-BaVsy0sW.d.ts} RENAMED Viewed

@@ -1,8 +1,8 @@
-import { a as RunSplitTag, b as RunTokenUsage, c as RunJudgeMetadata, J as JudgeScoresRecord, A as AgentProfileCell, d as AgentProfileCellInput, R as RunRecord } from './run-record-etiCMsUq.js';
-import { L as LlmClientOptions, a as LlmRouteRequirements } from './llm-client-BXVRUZyX.js';
-import { h as ResearchReportOptions, d as ResearchReport, m as GateDecision } from './summary-report-DLxh4yWk.js';
+import { a as RunSplitTag, b as RunTokenUsage, c as RunJudgeMetadata, J as JudgeScoresRecord, A as AgentProfileCell, d as AgentProfileCellInput, R as RunRecord } from './run-record-DgUVo5pw.js';
+import { L as LlmClientOptions, a as LlmRouteRequirements } from './llm-client-DbjLfz-K.js';
+import { h as ResearchReportOptions, d as ResearchReport, m as GateDecision } from './summary-report-BQvXpvaR.js';
 import { T as TraceEmitter, R as RunCompleteHook } from './emitter-DEZwY14K.js';
-import { R as RunIntegrityExpectations, a as RunIntegrityReport } from './integrity-CfXjSqEv.js';
+import { R as RunIntegrityExpectations, a as RunIntegrityReport } from './integrity-CJzrpUua.js';
 import { R as RawProviderSink } from './raw-provider-sink-C46HDghv.js';
 import { F as FailureClass } from './schema-m0gsnbt3.js';
 import { T as TraceStore } from './store-CKUAgsJz.js';

package/dist/rl.d.ts CHANGED Viewed

@@ -1,20 +1,20 @@
-import { R as RunRecord, a as RunSplitTag } from './run-record-etiCMsUq.js';
-import { k as CampaignResult } from './types-VCIXx_yo.js';
-import { V as VerificationReport, R as Researcher, F as FailureMode, S as SteeringChange, E as ExperimentPlan, a as ExperimentResult, b as EvalCampaignResult, c as EvalCampaignOptions } from './researcher-JP8EvnLv.js';
-export { r as runEvalCampaign } from './researcher-JP8EvnLv.js';
+import { R as RunRecord, a as RunSplitTag } from './run-record-DgUVo5pw.js';
+import { C as CampaignResult } from './types-Beb6KPqZ.js';
+import { V as VerificationReport, R as Researcher, F as FailureMode, S as SteeringChange, E as ExperimentPlan, a as ExperimentResult, b as EvalCampaignResult, c as EvalCampaignOptions } from './researcher-BaVsy0sW.js';
+export { r as runEvalCampaign } from './researcher-BaVsy0sW.js';
 import { S as Span } from './schema-m0gsnbt3.js';
 import { T as TraceStore } from './store-CKUAgsJz.js';
 import { O as OutcomeStore } from './outcome-store-D6KWmYvj.js';
 export { D as DeploymentOutcome, F as FileSystemOutcomeStore, b as FileSystemOutcomeStoreOptions, I as InMemoryOutcomeStore } from './outcome-store-D6KWmYvj.js';
-import { b as RubricPredictiveValidityReport } from './rubric-predictive-validity-B3qNa4aY.js';
+import { b as RubricPredictiveValidityReport } from './rubric-predictive-validity-DgBHWsh7.js';
 import { I as InterimReleaseConfidence } from './sequential-5iSVfzl2.js';
-import './errors-mje_cKOs.js';
-import './llm-client-BXVRUZyX.js';
+import './errors-Dwqw-T_m.js';
+import './llm-client-DbjLfz-K.js';
 import './raw-provider-sink-C46HDghv.js';
-import './summary-report-DLxh4yWk.js';
+import './summary-report-BQvXpvaR.js';
 import './failure-cluster-CL7IVgkJ.js';
 import './emitter-DEZwY14K.js';
-import './integrity-CfXjSqEv.js';
+import './integrity-CJzrpUua.js';
 /**
  * Test-time compute scaling curves.

package/dist/rl.js CHANGED Viewed

@@ -10,27 +10,27 @@ import {
 } from "./chunk-3RF76KTD.js";
 import {
   runEvalCampaign
-} from "./chunk-GM476SZU.js";
-import "./chunk-NCK5QLGT.js";
+} from "./chunk-AIWHLG7J.js";
+import "./chunk-F3SRAAZO.js";
 import {
   rubricPredictiveValidity
 } from "./chunk-YRZ4M5GS.js";
 import {
   evaluateInterimReleaseConfidence
 } from "./chunk-MAZ26DC7.js";
-import "./chunk-OLIBRKRD.js";
+import "./chunk-KX6F6NCG.js";
 import {
   benjaminiHochberg,
   wilcoxonSignedRank
-} from "./chunk-S3SDD56V.js";
-import "./chunk-UBPIXOC4.js";
+} from "./chunk-ITBRCT73.js";
+import "./chunk-SBCB6VZY.js";
 import "./chunk-TVVP3ZZQ.js";
 import "./chunk-VSMTAMNK.js";
-import "./chunk-VXNVVBZO.js";
+import "./chunk-IHDHUN2X.js";
 import "./chunk-PC4UYEBM.js";
 import {
   ValidationError
-} from "./chunk-QYJT52YW.js";
+} from "./chunk-3BFEG2F6.js";
 import "./chunk-PZ5AY32C.js";
 // src/rl/compute-curves.ts

package/dist/{rubric-predictive-validity-B3qNa4aY.d.ts → rubric-predictive-validity-DgBHWsh7.d.ts} RENAMED Viewed

@@ -1,4 +1,4 @@
-import { R as RunRecord } from './run-record-etiCMsUq.js';
+import { R as RunRecord } from './run-record-DgUVo5pw.js';
 import { O as OutcomeStore } from './outcome-store-D6KWmYvj.js';
 /**

package/dist/run-campaign-HXPJAUZ3.js ADDED Viewed

@@ -0,0 +1,10 @@
+import {
+  runCampaign
+} from "./chunk-OLULBECP.js";
+import "./chunk-ITBRCT73.js";
+import "./chunk-3BFEG2F6.js";
+import "./chunk-PZ5AY32C.js";
+export {
+  runCampaign
+};
+//# sourceMappingURL=run-campaign-HXPJAUZ3.js.map

package/dist/{run-record-etiCMsUq.d.ts → run-record-DgUVo5pw.d.ts} RENAMED Viewed

@@ -1,4 +1,4 @@
-import { V as ValidationError } from './errors-mje_cKOs.js';
+import { V as ValidationError } from './errors-Dwqw-T_m.js';
 import { F as FailureClass } from './schema-m0gsnbt3.js';
 type AgentProfileCellSchemaVersion = 'agent-profile-cell/v1';

package/dist/{summary-report-DLxh4yWk.d.ts → summary-report-BQvXpvaR.d.ts} RENAMED Viewed

@@ -1,4 +1,4 @@
-import { R as RunRecord } from './run-record-etiCMsUq.js';
+import { R as RunRecord } from './run-record-DgUVo5pw.js';
 import { F as FailureClusterReport } from './failure-cluster-CL7IVgkJ.js';
 /**

package/dist/traces.d.ts CHANGED Viewed

@@ -1,9 +1,9 @@
-import { N as NotFoundError, R as ReplayError } from './errors-mje_cKOs.js';
+import { N as NotFoundError, R as ReplayError } from './errors-Dwqw-T_m.js';
 import { P as ProviderRedactor, R as RawProviderSink, d as RawProviderEvent } from './raw-provider-sink-C46HDghv.js';
 export { F as FileSystemRawProviderSink, a as FileSystemRawProviderSinkOptions, I as InMemoryRawProviderSink, b as InMemoryRawProviderSinkOptions, N as NoopRawProviderSink, c as RawProviderDirection, e as RawProviderSinkFilter, f as defaultProviderRedactor, p as providerFromBaseUrl } from './raw-provider-sink-C46HDghv.js';
 import { R as RunCompleteHook, a as RunCompleteHookContext } from './emitter-DEZwY14K.js';
 export { S as SpanHandle, T as TraceEmitter, b as TraceEmitterOptions, l as llmSpanFromProvider } from './emitter-DEZwY14K.js';
-export { b as RunIntegrityError, R as RunIntegrityExpectations, c as RunIntegrityIssue, d as RunIntegrityIssueCode, a as RunIntegrityReport, e as assertRunCaptured, t as throwIfRunIncomplete } from './integrity-CfXjSqEv.js';
+export { b as RunIntegrityError, R as RunIntegrityExpectations, c as RunIntegrityIssue, d as RunIntegrityIssueCode, a as RunIntegrityReport, e as assertRunCaptured, t as throwIfRunIncomplete } from './integrity-CJzrpUua.js';
 import { T as TraceStore } from './store-CKUAgsJz.js';
 export { E as EventFilter, F as FileSystemTraceStore, a as FileSystemTraceStoreOptions, I as InMemoryTraceStore, R as RunFilter, S as SpanFilter } from './store-CKUAgsJz.js';
 export { a as aggregateLlm, b as argHash, g as groupBy, j as judgeSpans, l as llmSpans, r as runFailureClass, c as runsForScenario, t as toolSpans } from './query-CqTxMwDw.js';

package/dist/traces.js CHANGED Viewed

@@ -34,7 +34,7 @@ import {
   tokenizeDomainWords,
   traceAnalystFunctionGroup,
   traceAnalystOnRunComplete
-} from "./chunk-PIEAE33T.js";
+} from "./chunk-Z4ZCBC7M.js";
 import {
   DEFAULT_REDACTION_RULES,
   REDACTION_VERSION,
@@ -64,7 +64,7 @@ import {
   RunIntegrityError,
   assertRunCaptured,
   throwIfRunIncomplete
-} from "./chunk-UBPIXOC4.js";
+} from "./chunk-SBCB6VZY.js";
 import {
   TraceEmitter,
   llmSpanFromProvider
@@ -77,7 +77,7 @@ import {
   defaultProviderRedactor,
   providerFromBaseUrl
 } from "./chunk-PC4UYEBM.js";
-import "./chunk-QYJT52YW.js";
+import "./chunk-3BFEG2F6.js";
 import "./chunk-PZ5AY32C.js";
 export {
   DEFAULT_REDACTION_RULES,

package/dist/{types-VCIXx_yo.d.ts → types-Beb6KPqZ.d.ts} RENAMED Viewed

@@ -257,12 +257,28 @@ interface CampaignArtifactWriter {
     write(path: string, content: string | Uint8Array): Promise<string>;
     writeJson(path: string, value: unknown): Promise<string>;
 }
+/** Token usage accumulated for a cell. Structurally mirrors `RunTokenUsage`
+ *  (run-record.ts) so a cell maps cleanly onto a `RunRecord` for the
+ *  backend-integrity guard without coupling the campaign module to it. */
+interface CampaignTokenUsage {
+    input: number;
+    output: number;
+    cached?: number;
+}
 /** @experimental Cell-scoped cost meter. Substrate auto-tracks LLM costs
  *  via the cost-ledger backend hooks; consumers can record additional
  *  spend (sandbox time, tool costs) via `observe`. */
 interface CampaignCostMeter {
     observe(amountUsd: number, source: string): void;
+    /** Record LLM token usage for this cell; accumulates across calls. A cell
+     *  has `costUsd` but no token counts unless the dispatch reports them here —
+     *  and the backend-integrity guard (`assertRealBackend`) keys on
+     *  `tokenUsage`, so a cell that never reports tokens reads as a stub. Any
+     *  dispatch that calls an LLM MUST report its usage. */
+    observeTokens(usage: CampaignTokenUsage): void;
     current(): number;
+    /** Accumulated token usage for this cell (zeros if never observed). */
+    tokens(): CampaignTokenUsage;
 }
 /** @experimental Source tag — required on every store write. Used by the
  *  default training-source filter (production-trace samples NOT used as
@@ -352,6 +368,10 @@ interface CampaignCellResult<TArtifact> {
     artifact: TArtifact;
     judgeScores: Record<string, JudgeScore>;
     costUsd: number;
+    /** LLM token usage the dispatch reported via `ctx.cost.observeTokens`.
+     *  `{ input: 0, output: 0 }` when the dispatch reported none — which the
+     *  backend-integrity guard reads as a stub. */
+    tokenUsage: CampaignTokenUsage;
     durationMs: number;
     seed: number;
     cached: boolean;
@@ -430,4 +450,4 @@ interface CampaignResult<TArtifact = unknown, TScenario extends Scenario = Scena
     scenarios: Array<Pick<TScenario, 'id' | 'kind'>>;
 }
-export { type CodeSurface as C, type DispatchFn as D, type Gate as G, type ImprovementDriver as I, type JudgeScore as J, type LabeledScenarioStore as L, type MutableSurface as M, type OptimizerConfig as O, type ProposeContext as P, type RedactionStatus as R, type Scenario as S, type TraceSpan as T, type JudgeConfig as a, type DispatchContext as b, type LabeledScenarioWrite as c, type LabeledScenarioSampleArgs as d, type LabeledScenarioRecord as e, type LabelTrust as f, type CampaignAggregates as g, type CampaignArtifactWriter as h, type CampaignCellResult as i, type CampaignCostMeter as j, type CampaignResult as k, type CampaignTraceWriter as l, type GateContext as m, type GateDecision as n, type GateResult as o, type GenerationCandidate as p, type GenerationRecord as q, type JudgeAggregate as r, type JudgeDimension as s, type LabeledScenarioSource as t, type Mutator as u, type ProposedCandidate as v, type ScenarioAggregate as w, type SessionScript as x, isProposedCandidate as y, labelTrustRank as z };
+export { labelTrustRank as A, type CampaignResult as C, type DispatchFn as D, type Gate as G, type ImprovementDriver as I, type JudgeScore as J, type LabeledScenarioStore as L, type MutableSurface as M, type OptimizerConfig as O, type ProposeContext as P, type RedactionStatus as R, type Scenario as S, type TraceSpan as T, type JudgeConfig as a, type DispatchContext as b, type LabeledScenarioWrite as c, type LabeledScenarioSampleArgs as d, type LabeledScenarioRecord as e, type LabelTrust as f, type LabeledScenarioSource as g, type CodeSurface as h, type CampaignAggregates as i, type CampaignArtifactWriter as j, type CampaignCellResult as k, type CampaignCostMeter as l, type CampaignTokenUsage as m, type CampaignTraceWriter as n, type GateContext as o, type GateDecision as p, type GateResult as q, type GenerationCandidate as r, type GenerationRecord as s, type JudgeAggregate as t, type JudgeDimension as u, type Mutator as v, type ProposedCandidate as w, type ScenarioAggregate as x, type SessionScript as y, isProposedCandidate as z };

package/dist/wire/index.d.ts CHANGED Viewed

@@ -1,4 +1,4 @@
-import { F as FeedbackTrajectoryStore } from '../feedback-trajectory-DpUmE90J.js';
+import { F as FeedbackTrajectoryStore } from '../feedback-trajectory-8hKC5EOb.js';
 import { T as TraceStore } from '../store-CKUAgsJz.js';
 import { z } from 'zod';
 import { OpenAPIObject } from 'openapi3-ts/oas31';
@@ -8,8 +8,8 @@ import { Hono } from 'hono';
 import '../control-runtime-DuFBYg7A.js';
 import '../emitter-DEZwY14K.js';
 import '../schema-m0gsnbt3.js';
-import '../dataset-BlwAtYYf.js';
-import '../errors-mje_cKOs.js';
+import '../dataset-B2kL-fSM.js';
+import '../errors-Dwqw-T_m.js';
 declare const RubricDimensionSchema: z.ZodObject<{
     id: z.ZodString;

package/dist/wire/index.js CHANGED Viewed

@@ -34,10 +34,10 @@ import {
   runRpcOnce,
   startServer,
   startServerAsync
-} from "../chunk-63EPZQUZ.js";
-import "../chunk-VXNVVBZO.js";
+} from "../chunk-6REHLN5J.js";
+import "../chunk-IHDHUN2X.js";
 import "../chunk-PC4UYEBM.js";
-import "../chunk-QYJT52YW.js";
+import "../chunk-3BFEG2F6.js";
 import "../chunk-PZ5AY32C.js";
 export {
   BUILTIN_RUBRICS,

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@tangle-network/agent-eval",
-  "version": "0.60.0",
+  "version": "0.61.0",
   "description": "Substrate for self-improving agents: traces, verifiable rewards, preferences, GEPA / reflective mutation, auto-research, replay, sequential anytime-valid stats, and release gates.",
   "homepage": "https://github.com/tangle-network/agent-eval#readme",
   "repository": {
@@ -144,18 +144,6 @@
   "publishConfig": {
     "access": "public"
   },
-  "scripts": {
-    "build": "tsup && pnpm openapi",
-    "dev": "tsup --watch",
-    "prepare": "husky",
-    "prepublishOnly": "pnpm build",
-    "test": "vitest run",
-    "test:watch": "vitest",
-    "typecheck": "tsc --noEmit",
-    "lint": "biome check src",
-    "format": "biome format --write src",
-    "openapi": "node dist/cli.js openapi --out dist/openapi.json"
-  },
   "dependencies": {
     "@asteasolutions/zod-to-openapi": "^8.5.0",
     "@ax-llm/ax": "^19.0.25",
@@ -183,16 +171,6 @@
     "typescript": "^5.7.0",
     "vitest": "^3.0.0"
   },
-  "pnpm": {
-    "minimumReleaseAge": 4320,
-    "minimumReleaseAgeExclude": [
-      "@tangle-network/sandbox"
-    ],
-    "overrides": {
-      "postcss@<8.5.10": "^8.5.10",
-      "ws@>=8.0.0 <8.20.1": "^8.20.1"
-    }
-  },
   "engines": {
     "node": ">=20"
   },
@@ -205,5 +183,14 @@
     ]
   },
   "license": "MIT",
-  "packageManager": "pnpm@10.22.0"
-}
+  "scripts": {
+    "build": "tsup && pnpm openapi",
+    "dev": "tsup --watch",
+    "test": "vitest run",
+    "test:watch": "vitest",
+    "typecheck": "tsc --noEmit",
+    "lint": "biome check src",
+    "format": "biome format --write src",
+    "openapi": "node dist/cli.js openapi --out dist/openapi.json"
+  }
+}