npm - @tangle-network/agent-eval - Versions diffs - 0.72.0 → 0.72.4 - Mend

@tangle-network/agent-eval 0.72.0 → 0.72.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (69) hide show

package/CHANGELOG.md +39 -0
package/dist/adapters/http.d.ts +1 -1
package/dist/adapters/langchain.d.ts +1 -1
package/dist/adapters/otel.d.ts +3 -2
package/dist/agent-profile-DYRboYWu.d.ts +364 -0
package/dist/analyst/index.d.ts +221 -0
package/dist/analyst/index.js +371 -0
package/dist/analyst/index.js.map +1 -0
package/dist/analyst-t7zZS3TV.d.ts +88 -0
package/dist/campaign/index.d.ts +518 -9
package/dist/campaign/index.js +672 -22
package/dist/campaign/index.js.map +1 -1
package/dist/chunk-7W4SM7FD.js +1075 -0
package/dist/chunk-7W4SM7FD.js.map +1 -0
package/dist/{chunk-AIWHLG7J.js → chunk-GJJNJVIR.js} +11 -11
package/dist/chunk-JHA3ZGSO.js +1496 -0
package/dist/chunk-JHA3ZGSO.js.map +1 -0
package/dist/{chunk-4QJN7RDX.js → chunk-JYE3WOTE.js} +55 -7
package/dist/{chunk-4QJN7RDX.js.map → chunk-JYE3WOTE.js.map} +1 -1
package/dist/chunk-LB2UOI5F.js +412 -0
package/dist/chunk-LB2UOI5F.js.map +1 -0
package/dist/{chunk-ODGETRTM.js → chunk-VUINJM5M.js} +234 -1415
package/dist/chunk-VUINJM5M.js.map +1 -0
package/dist/chunk-WYIHD6EB.js +1044 -0
package/dist/chunk-WYIHD6EB.js.map +1 -0
package/dist/{chunk-UD6EF73X.js → chunk-XPILG2CA.js} +119 -2
package/dist/chunk-XPILG2CA.js.map +1 -0
package/dist/contract/index.d.ts +17 -13
package/dist/contract/index.js +13 -7
package/dist/contract/index.js.map +1 -1
package/dist/{control-DxvZeV5X.d.ts → control-BgA6BYTm.d.ts} +1 -1
package/dist/control.d.ts +2 -2
package/dist/{feedback-trajectory-8hKC5EOb.d.ts → feedback-trajectory-B3rErRsh.d.ts} +1 -1
package/dist/harness-optimizer-EnEnQPsr.d.ts +106 -0
package/dist/hosted/index.d.ts +223 -2
package/dist/index.d.ts +49 -1323
package/dist/index.js +353 -2496
package/dist/index.js.map +1 -1
package/dist/{index-BGBrVS24.d.ts → insight-report-Df3lxYXM.d.ts} +1 -221
package/dist/kind-factory-DW9XWPvM.d.ts +172 -0
package/dist/multi-layer-verifier-DlWCXuxL.d.ts +141 -0
package/dist/openapi.json +1 -1
package/dist/pareto-E-pembql.d.ts +81 -0
package/dist/{provenance-C69gLUXH.d.ts → provenance-B-TFszPW.d.ts} +131 -4
package/dist/redact-B40YG2M_.d.ts +45 -0
package/dist/registry-DuVYiTvw.d.ts +128 -0
package/dist/{researcher-WJvIpX3L.d.ts → researcher-C_KJyIGg.d.ts} +1 -141
package/dist/rl.d.ts +4 -3
package/dist/rl.js +4 -4
package/dist/run-critic-BAIjX99r.d.ts +56 -0
package/dist/{run-improvement-loop-Bzamo6GB.d.ts → run-improvement-loop-BqYH2vCR.d.ts} +25 -1
package/dist/semantic-concept-judge-CV9Wlx4t.d.ts +650 -0
package/dist/{store-jzKpMl16.d.ts → store-GmBE2pZZ.d.ts} +1 -1
package/dist/traces.d.ts +371 -308
package/dist/traces.js +43 -18
package/dist/{types-CnmZ2bkP.d.ts → types-Bba0vl1V.d.ts} +1 -1
package/dist/{registry-BGKyX6bw.d.ts → types-CRD68aH7.d.ts} +3 -128
package/dist/wire/index.d.ts +1 -1
package/dist/workflow/index.d.ts +494 -0
package/dist/workflow/index.js +2177 -0
package/dist/workflow/index.js.map +1 -0
package/docs/design/self-improvement-roadmap.md +106 -0
package/package.json +36 -12
package/dist/agent-profile-DzcPHR1Z.d.ts +0 -114
package/dist/chunk-ODGETRTM.js.map +0 -1
package/dist/chunk-SL55X4VN.js +0 -186
package/dist/chunk-SL55X4VN.js.map +0 -1
package/dist/chunk-UD6EF73X.js.map +0 -1
/package/dist/{chunk-AIWHLG7J.js.map → chunk-GJJNJVIR.js.map} +0 -0

package/dist/traces.js CHANGED Viewed

@@ -1,20 +1,9 @@
 import {
-  DEFAULT_TRACE_ANALYST_BUDGETS,
   FileSystemTraceStore,
   InMemoryTraceStore,
   OTEL_AGENT_EVAL_SCOPE,
-  OtlpFileTraceStore,
   ReplayCache,
   ReplayCacheMissError,
-  SpanNotFoundError,
-  TRACE_ANALYST_ACTOR_DESCRIPTION,
-  TRACE_ANALYST_ACTOR_DESCRIPTION_VERSION,
-  TRACE_ANALYST_SUBAGENT_DESCRIPTION,
-  TRACE_ANALYST_TRUNCATION_MARKER_PREFIX,
-  TraceFileMissingError,
-  TraceNotFoundError,
-  analyzeTraces,
-  buildTraceAnalystTools,
   buildTraceInsightContext,
   buildTraceInsightPrompt,
   captureFetchToRawSink,
@@ -29,12 +18,13 @@ import {
   inferDomainKeywords,
   iterateRawCalls,
   otelRunCompleteHook,
+  otlpToRunRecords,
+  otlpToTraceRunRecords,
   planTraceInsightQuestions,
   scoreTraceInsightReadiness,
   tokenizeDomainWords,
-  traceAnalystFunctionGroup,
   traceAnalystOnRunComplete
-} from "./chunk-ODGETRTM.js";
+} from "./chunk-JHA3ZGSO.js";
 import {
   DEFAULT_REDACTION_RULES,
   REDACTION_VERSION,
@@ -60,16 +50,34 @@ import {
   isSandboxSpan,
   isToolSpan
 } from "./chunk-5BKGXME7.js";
+import {
+  DEFAULT_TRACE_ANALYST_BUDGETS,
+  OtlpFileTraceStore,
+  SpanNotFoundError,
+  TRACE_ANALYST_ACTOR_DESCRIPTION,
+  TRACE_ANALYST_ACTOR_DESCRIPTION_VERSION,
+  TRACE_ANALYST_SUBAGENT_DESCRIPTION,
+  TRACE_ANALYST_TRUNCATION_MARKER_PREFIX,
+  TraceFileMissingError,
+  TraceNotFoundError,
+  analyzeTraces,
+  asNumber,
+  asString,
+  buildTraceAnalystTools,
+  extractOtlpAttributes,
+  firstNumberAttr,
+  firstStringAttr,
+  inferOtlpKind,
+  projectOtlpFlatLine,
+  readOtlpStatus,
+  stringField,
+  traceAnalystFunctionGroup
+} from "./chunk-VUINJM5M.js";
 import {
   RunIntegrityError,
   assertRunCaptured,
   throwIfRunIncomplete
 } from "./chunk-SBCB6VZY.js";
-import {
-  TraceEmitter,
-  llmSpanFromProvider
-} from "./chunk-TVVP3ZZQ.js";
-import "./chunk-VSMTAMNK.js";
 import {
   FileSystemRawProviderSink,
   InMemoryRawProviderSink,
@@ -77,6 +85,12 @@ import {
   defaultProviderRedactor,
   providerFromBaseUrl
 } from "./chunk-PC4UYEBM.js";
+import "./chunk-F3SRAAZO.js";
+import {
+  TraceEmitter,
+  llmSpanFromProvider
+} from "./chunk-TVVP3ZZQ.js";
+import "./chunk-VSMTAMNK.js";
 import "./chunk-3BFEG2F6.js";
 import "./chunk-PZ5AY32C.js";
 export {
@@ -106,6 +120,8 @@ export {
   aggregateLlm,
   analyzeTraces,
   argHash,
+  asNumber,
+  asString,
   assertRunCaptured,
   buildTraceAnalystTools,
   buildTraceInsightContext,
@@ -119,9 +135,13 @@ export {
   describeTraceInsightScope,
   domainEvidencePattern,
   exportRunAsOtlp,
+  extractOtlpAttributes,
+  firstNumberAttr,
+  firstStringAttr,
   flattenOtlpExportToNdjson,
   groupBy,
   inferDomainKeywords,
+  inferOtlpKind,
   isJudgeSpan,
   isLlmSpan,
   isRetrievalSpan,
@@ -132,13 +152,18 @@ export {
   llmSpanFromProvider,
   llmSpans,
   otelRunCompleteHook,
+  otlpToRunRecords,
+  otlpToTraceRunRecords,
   planTraceInsightQuestions,
+  projectOtlpFlatLine,
   providerFromBaseUrl,
+  readOtlpStatus,
   redactString,
   redactValue,
   runFailureClass,
   runsForScenario,
   scoreTraceInsightReadiness,
+  stringField,
   throwIfRunIncomplete,
   tokenizeDomainWords,
   toolSpans,

package/dist/{types-CnmZ2bkP.d.ts → types-Bba0vl1V.d.ts} RENAMED Viewed

@@ -489,4 +489,4 @@ interface CampaignResult<TArtifact = unknown, TScenario extends Scenario = Scena
     scenarios: Array<Pick<TScenario, 'id' | 'kind'>>;
 }
-export { isProposedCandidate as A, labelTrustRank as B, type CampaignAggregates as C, type DispatchFn as D, type Gate as G, type ImprovementDriver as I, type JudgeScore as J, type LabeledScenarioStore as L, type MutableSurface as M, type OptimizerConfig as O, type ParetoParent as P, type RedactionStatus as R, type Scenario as S, type TraceSpan as T, type JudgeConfig as a, type DispatchContext as b, type CampaignArtifactWriter as c, type CampaignCellResult as d, type CampaignCostMeter as e, type CampaignResult as f, type CampaignTraceWriter as g, type CodeSurface as h, type GateContext as i, type GateDecision as j, type GateResult as k, type GenerationCandidate as l, type GenerationRecord as m, type JudgeDimension as n, type Mutator as o, type SessionScript as p, type LabeledScenarioWrite as q, type LabeledScenarioSampleArgs as r, type LabeledScenarioRecord as s, type LabelTrust as t, type LabeledScenarioSource as u, type CampaignTokenUsage as v, type JudgeAggregate as w, type ProposeContext as x, type ProposedCandidate as y, type ScenarioAggregate as z };
+export { isProposedCandidate as A, labelTrustRank as B, type CampaignAggregates as C, type DispatchFn as D, type Gate as G, type ImprovementDriver as I, type JudgeScore as J, type LabeledScenarioStore as L, type MutableSurface as M, type OptimizerConfig as O, type ParetoParent as P, type RedactionStatus as R, type Scenario as S, type TraceSpan as T, type JudgeConfig as a, type DispatchContext as b, type CampaignArtifactWriter as c, type CampaignCellResult as d, type CampaignCostMeter as e, type CampaignResult as f, type CampaignTraceWriter as g, type CodeSurface as h, type GateContext as i, type GateDecision as j, type GateResult as k, type GenerationCandidate as l, type GenerationRecord as m, type JudgeDimension as n, type Mutator as o, type SessionScript as p, type ProposeContext as q, type LabeledScenarioWrite as r, type LabeledScenarioSampleArgs as s, type LabeledScenarioRecord as t, type LabelTrust as u, type LabeledScenarioSource as v, type CampaignTokenUsage as w, type JudgeAggregate as x, type ProposedCandidate as y, type ScenarioAggregate as z };

package/dist/{registry-BGKyX6bw.d.ts → types-CRD68aH7.d.ts} RENAMED Viewed

@@ -1,7 +1,7 @@
-import { b as LlmCallRequest, c as LlmCallResult } from './llm-client-DbjLfz-K.js';
 import { R as RunRecord } from './run-record-BgTFzO2r.js';
-import { T as TraceAnalysisStore } from './store-jzKpMl16.js';
+import { T as TraceAnalysisStore } from './store-GmBE2pZZ.js';
 import { a as JudgeInput } from './types-Croy5h7V.js';
+import { b as LlmCallRequest, c as LlmCallResult } from './llm-client-DbjLfz-K.js';
 /**
  * ChatClient — the single LLM abstraction analysts call.
@@ -329,129 +329,4 @@ type AnalystRunEvent = {
     result: AnalystRunResult;
 };
-/**
- * AnalystRegistry — orchestrate N analysts against one run.
- *
- * Owns three responsibilities and only three:
- *   1. Registration — ids must be unique; bad registrations fail loudly
- *      at register-time, not run-time.
- *   2. Routing — each analyst declares its `inputKind`; the registry
- *      picks the matching field from AnalystRunInputs and skips the
- *      analyst with a logged reason if it's missing.
- *   3. Isolation — one analyst's exception MUST NOT stop other analysts.
- *      Failed analysts produce zero findings + a 'failed' summary row.
- *
- * Cross-cutting concerns (telemetry, error → finding conversion, cost
- * ingestion, storage rotation) live in `AnalystHooks`. Budget shaping
- * (equal split vs weighted vs custom) lives in `BudgetPolicy`. Both
- * have sensible defaults; consumers override only what they need.
- */
-interface AnalystHooks {
-    /** Before analyze() — last chance to mutate ctx (e.g. inject tags, override budget). */
-    onBeforeAnalyze?(args: {
-        analyst: Analyst;
-        ctx: AnalystContext;
-        runId: string;
-    }): void | Promise<void>;
-    /** After every analyst (ok | failed | skipped). Use for telemetry, ingestion, rotation. */
-    onAfterAnalyze?(args: {
-        analyst: Analyst;
-        summary: AnalystRunSummary;
-        findings: AnalystFinding[];
-        runId: string;
-    }): void | Promise<void>;
-    /**
-     * On analyst exception. Hook MAY return findings to convert the
-     * error into structured findings; the summary still reports 'failed'.
-     * Return void to keep the default empty-findings behavior.
-     */
-    onError?(args: {
-        analyst: Analyst;
-        error: Error;
-        runId: string;
-    }): AnalystFinding[] | undefined | Promise<AnalystFinding[] | undefined>;
-    /** Once after registry.run() completes. Use for final aggregation, persistence. */
-    onComplete?(args: {
-        result: AnalystRunResult;
-    }): void | Promise<void>;
-}
-interface BudgetPolicy {
-    /** Overall USD cap across the registry.run(). */
-    totalUsd?: number;
-    /** Per-analyst weight for the default allocator. Missing ids get weight 1. */
-    weights?: Record<string, number>;
-    /**
-     * Custom allocator — receives the analyst, remaining/total budget, and
-     * the count of analysts that will run. Returns the per-analyst budget
-     * (or undefined to leave it uncapped). Overrides weights when set.
-     */
-    allocate?: (args: {
-        analyst: Analyst;
-        totalUsd: number | undefined;
-        remainingUsd: number | undefined;
-        runningCount: number;
-    }) => number | undefined;
-}
-interface AnalystRegistryOptions {
-    /** Shared chat client passed to every LLM analyst via AnalystContext. */
-    chat?: ChatClient;
-    /** Logger callback. Defaults to a no-op. */
-    log?: (msg: string, fields?: Record<string, unknown>) => void;
-    /** Hooks invoked around analyze() — observability + customization seam. */
-    hooks?: AnalystHooks;
-    /** Default budget when run() doesn't override. */
-    defaultBudget?: BudgetPolicy;
-}
-interface RegistryRunOpts {
-    /** Restrict to a subset of registered analysts by id. */
-    only?: string[];
-    /** Skip these analysts even if registered. Useful for cheap iteration. */
-    skip?: string[];
-    /** Budget policy — totalUsd + optional weights/allocator. Falls back to options.defaultBudget. */
-    budget?: BudgetPolicy;
-    /** Wall-clock cap. Analysts SHOULD honor `ctx.deadlineMs`. */
-    timeoutMs?: number;
-    /** Abort signal — forwarded into every analyst's context. */
-    signal?: AbortSignal;
-    /** Tags echoed into AnalystContext.tags — useful for tracking environment/version in findings. */
-    tags?: Record<string, string>;
-    /**
-     * Prior-run findings made available as retrieval context to every
-     * analyst via `ctx.priorFindings`. The registry forwards the slice
-     * whose `analyst_id` matches each registered analyst so a kind sees
-     * only its own history. Pass `{ '*': findings }` to broadcast to
-     * every analyst (useful for cross-kind chaining where the improvement
-     * analyst consumes upstream failure findings).
-     */
-    priorFindings?: ReadonlyArray<AnalystFinding> | Record<string, ReadonlyArray<AnalystFinding>>;
-}
-declare class AnalystRegistry {
-    private readonly analysts;
-    private readonly options;
-    constructor(options?: AnalystRegistryOptions);
-    register(analyst: Analyst): void;
-    list(): ReadonlyArray<{
-        id: string;
-        description: string;
-        version: string;
-        cost: Analyst['cost'];
-    }>;
-    run(runId: string, inputs: AnalystRunInputs, runOpts?: RegistryRunOpts): Promise<AnalystRunResult>;
-    /**
-     * Streaming counterpart to `run()`. Emits `AnalystRunEvent` values
-     * in real time — `run-started`, then per-analyst `skipped` /
-     * `started` / `completed`, then a terminal `run-completed` whose
-     * payload is the full `AnalystRunResult`. UIs use this to render
-     * progress; persistence consumers use `run()` and read the result.
-     *
-     * Hooks (`onBeforeAnalyze` / `onAfterAnalyze` / `onError` /
-     * `onComplete`) fire as before — streaming is additive, not a hook
-     * replacement.
-     */
-    runStream(runId: string, inputs: AnalystRunInputs, runOpts?: RegistryRunOpts): AsyncGenerator<AnalystRunEvent, void, void>;
-    private selectAnalysts;
-    private routeInput;
-}
-export { AnalystRegistry as A, type BudgetPolicy as B, type ChatRequest as C, type DirectProviderTransportOpts as D, type EvidenceRef as E, type MockTransportOpts as M, type RegistryRunOpts as R, type SandboxSdkTransportOpts as S, type Analyst as a, type AnalystSeverity as b, type AnalystFinding as c, type AnalystCost as d, type AnalystContext as e, type CreateChatClientOpts as f, type AnalystHooks as g, type AnalystInputKind as h, type AnalystRegistryOptions as i, type AnalystRequirements as j, type AnalystRunEvent as k, type AnalystRunInputs as l, type AnalystRunResult as m, type AnalystRunSummary as n, type ChatCallOpts as o, type ChatClient as p, type ChatResponse as q, type ChatTransport as r, type CliBridgeTransportOpts as s, type RouterTransportOpts as t, computeFindingId as u, createChatClient as v, makeFinding as w };
+export { type Analyst as A, type ChatClient as C, type DirectProviderTransportOpts as D, type EvidenceRef as E, type MockTransportOpts as M, type RouterTransportOpts as R, type SandboxSdkTransportOpts as S, type AnalystContext as a, type AnalystRunSummary as b, type AnalystFinding as c, type AnalystRunResult as d, type AnalystRunInputs as e, type AnalystRunEvent as f, type AnalystCost as g, type AnalystSeverity as h, type AnalystInputKind as i, type AnalystRequirements as j, type ChatCallOpts as k, type ChatRequest as l, type ChatResponse as m, type ChatTransport as n, type CliBridgeTransportOpts as o, type CreateChatClientOpts as p, computeFindingId as q, createChatClient as r, makeFinding as s };

package/dist/wire/index.d.ts CHANGED Viewed

@@ -1,4 +1,4 @@
-import { F as FeedbackTrajectoryStore } from '../feedback-trajectory-8hKC5EOb.js';
+import { F as FeedbackTrajectoryStore } from '../feedback-trajectory-B3rErRsh.js';
 import { T as TraceStore } from '../store-CKUAgsJz.js';
 import { z } from 'zod';
 import { OpenAPIObject } from 'openapi3-ts/oas31';