npm - @librechat/agents - Versions diffs - 3.2.34 → 3.2.35 - Mend

@librechat/agents 3.2.34 → 3.2.35

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (77) hide show

package/dist/cjs/agents/AgentContext.cjs +47 -10
package/dist/cjs/agents/AgentContext.cjs.map +1 -1
package/dist/cjs/common/enum.cjs +13 -0
package/dist/cjs/common/enum.cjs.map +1 -1
package/dist/cjs/graphs/Graph.cjs +121 -3
package/dist/cjs/graphs/Graph.cjs.map +1 -1
package/dist/cjs/llm/invoke.cjs +49 -8
package/dist/cjs/llm/invoke.cjs.map +1 -1
package/dist/cjs/main.cjs +2 -0
package/dist/cjs/messages/content.cjs +12 -14
package/dist/cjs/messages/content.cjs.map +1 -1
package/dist/cjs/messages/prune.cjs +31 -13
package/dist/cjs/messages/prune.cjs.map +1 -1
package/dist/cjs/run.cjs +7 -2
package/dist/cjs/run.cjs.map +1 -1
package/dist/cjs/summarization/node.cjs +12 -1
package/dist/cjs/summarization/node.cjs.map +1 -1
package/dist/cjs/tools/subagent/SubagentExecutor.cjs +138 -2
package/dist/cjs/tools/subagent/SubagentExecutor.cjs.map +1 -1
package/dist/cjs/utils/tokens.cjs +30 -0
package/dist/cjs/utils/tokens.cjs.map +1 -1
package/dist/esm/agents/AgentContext.mjs +47 -10
package/dist/esm/agents/AgentContext.mjs.map +1 -1
package/dist/esm/common/enum.mjs +13 -0
package/dist/esm/common/enum.mjs.map +1 -1
package/dist/esm/graphs/Graph.mjs +122 -4
package/dist/esm/graphs/Graph.mjs.map +1 -1
package/dist/esm/llm/invoke.mjs +49 -8
package/dist/esm/llm/invoke.mjs.map +1 -1
package/dist/esm/main.mjs +3 -3
package/dist/esm/messages/content.mjs +12 -15
package/dist/esm/messages/content.mjs.map +1 -1
package/dist/esm/messages/prune.mjs +31 -13
package/dist/esm/messages/prune.mjs.map +1 -1
package/dist/esm/run.mjs +7 -2
package/dist/esm/run.mjs.map +1 -1
package/dist/esm/summarization/node.mjs +12 -1
package/dist/esm/summarization/node.mjs.map +1 -1
package/dist/esm/tools/subagent/SubagentExecutor.mjs +138 -2
package/dist/esm/tools/subagent/SubagentExecutor.mjs.map +1 -1
package/dist/esm/utils/tokens.mjs +30 -1
package/dist/esm/utils/tokens.mjs.map +1 -1
package/dist/types/agents/AgentContext.d.ts +7 -3
package/dist/types/common/enum.d.ts +13 -0
package/dist/types/graphs/Graph.d.ts +8 -1
package/dist/types/llm/invoke.d.ts +1 -1
package/dist/types/messages/content.d.ts +5 -0
package/dist/types/messages/prune.d.ts +4 -0
package/dist/types/run.d.ts +1 -0
package/dist/types/tools/subagent/SubagentExecutor.d.ts +11 -1
package/dist/types/types/graph.d.ts +89 -3
package/dist/types/types/run.d.ts +13 -0
package/dist/types/utils/tokens.d.ts +7 -0
package/package.json +1 -1
package/src/agents/AgentContext.ts +69 -6
package/src/agents/__tests__/AgentContext.test.ts +6 -2
package/src/common/enum.ts +13 -0
package/src/graphs/Graph.ts +196 -0
package/src/llm/invoke.test.ts +79 -1
package/src/llm/invoke.ts +58 -4
package/src/messages/content.ts +24 -32
package/src/messages/prune.ts +39 -2
package/src/run.ts +5 -0
package/src/scripts/subagent-usage-sink.ts +176 -0
package/src/specs/context-accuracy.live.test.ts +409 -0
package/src/specs/context-usage-event.test.ts +117 -0
package/src/specs/context-usage.live.test.ts +297 -0
package/src/specs/prune.test.ts +51 -1
package/src/specs/subagent.test.ts +124 -1
package/src/summarization/__tests__/node.test.ts +60 -1
package/src/summarization/node.ts +20 -1
package/src/tools/__tests__/SubagentExecutor.test.ts +443 -1
package/src/tools/subagent/SubagentExecutor.ts +221 -3
package/src/types/graph.ts +94 -1
package/src/types/run.ts +13 -0
package/src/utils/__tests__/apportion.test.ts +32 -0
package/src/utils/tokens.ts +33 -0

package/src/specs/context-accuracy.live.test.ts ADDED Viewed

@@ -0,0 +1,409 @@
+// src/specs/context-accuracy.live.test.ts
+/**
+ * Live ACCURACY verification for ON_CONTEXT_USAGE against real provider
+ * counts in the hard scenarios: tool loops (where calibration engages),
+ * prompt caching (cache fields for cost math), and pruning under context
+ * pressure (calibrated remaining-units math). Logs measured ratios.
+ *
+ * Run with:
+ * RUN_CONTEXT_USAGE_LIVE_TESTS=1 ANTHROPIC_API_KEY=... npm test -- context-accuracy.live.test.ts --runInBand
+ *
+ * The google/bedrock matrix entries skip without GOOGLE_API_KEY /
+ * BEDROCK_AWS_* creds; Bedrock's AWS SDK needs
+ * NODE_OPTIONS='--experimental-vm-modules' under jest.
+ */
+import { config as dotenvConfig } from 'dotenv';
+dotenvConfig();
+import { z } from 'zod';
+import { tool } from '@langchain/core/tools';
+import { AIMessage, HumanMessage } from '@langchain/core/messages';
+import { describe, expect, it, jest } from '@jest/globals';
+import type { BaseMessage } from '@langchain/core/messages';
+import type { RunnableConfig } from '@langchain/core/runnables';
+import type * as t from '@/types';
+import { createTokenCounter, TokenEncoderManager } from '@/utils/tokens';
+import { GraphEvents, Providers } from '@/common';
+import { ModelEndHandler } from '@/events';
+import { Run } from '@/run';
+const shouldRunLive =
+  process.env.RUN_CONTEXT_USAGE_LIVE_TESTS === '1' &&
+  process.env.ANTHROPIC_API_KEY != null &&
+  process.env.ANTHROPIC_API_KEY !== '';
+const describeIfLive = shouldRunLive ? describe : describe.skip;
+const modelName =
+  process.env.ANTHROPIC_CONTEXT_LIVE_MODEL ?? 'claude-haiku-4-5';
+function createStreamConfig(threadId: string): Partial<RunnableConfig> & {
+  version: 'v1' | 'v2';
+  streamMode: string;
+} {
+  return {
+    configurable: { thread_id: threadId },
+    streamMode: 'values',
+    version: 'v2',
+  };
+}
+interface Captured {
+  contextEvents: t.ContextUsageEvent[];
+  collectedUsage: Array<{
+    input_tokens?: number;
+    output_tokens?: number;
+    input_token_details?: { cache_creation?: number; cache_read?: number };
+  }>;
+  handlers: Record<string, t.EventHandler>;
+}
+function createCapture(): Captured {
+  const contextEvents: t.ContextUsageEvent[] = [];
+  const collectedUsage: Captured['collectedUsage'] = [];
+  const handlers: Record<string, t.EventHandler> = {
+    [GraphEvents.CHAT_MODEL_END]: new ModelEndHandler(collectedUsage as never),
+    [GraphEvents.ON_CONTEXT_USAGE]: {
+      handle: (_event, data): void => {
+        contextEvents.push(data as unknown as t.ContextUsageEvent);
+      },
+    },
+  };
+  return { contextEvents, collectedUsage, handlers };
+}
+function estimatedUsed(event: t.ContextUsageEvent): number {
+  return (event.contextBudget ?? 0) - (event.remainingContextTokens ?? 0);
+}
+const addTool = tool(
+  async ({ a, b }: { a: number; b: number }) => String(a + b),
+  {
+    name: 'add',
+    description: 'Add two numbers and return the sum',
+    schema: z.object({ a: z.number(), b: z.number() }),
+  }
+);
+/** ~5K tokens so the system prompt clears the haiku prompt-cache minimum;
+ *  salted per run so the first call always writes a cold cache entry */
+function buildLongInstructions(salt: string): string {
+  return [
+    `Session ${salt}: you are a precise assistant. Use the add tool for any arithmetic, then reply with only the number.`,
+    ...Array.from(
+      { length: 200 },
+      (_, i) =>
+        `Rule ${i}: always answer precisely, verify arithmetic results twice, and keep every response to a single line without commentary.`
+    ),
+  ].join(' ');
+}
+/** Cross-provider accuracy matrix: different tokenizers and usage shapes */
+const providerMatrix: Array<{
+  name: string;
+  enabled: boolean;
+  llmConfig: Record<string, unknown>;
+}> = [
+  {
+    name: 'google',
+    enabled: !!process.env.GOOGLE_API_KEY,
+    llmConfig: {
+      provider: Providers.GOOGLE,
+      model: process.env.GOOGLE_CONTEXT_LIVE_MODEL ?? 'gemini-2.5-flash',
+      apiKey: process.env.GOOGLE_API_KEY,
+      temperature: 0,
+      streaming: true,
+      streamUsage: true,
+    },
+  },
+  {
+    name: 'bedrock',
+    enabled:
+      !!process.env.BEDROCK_AWS_ACCESS_KEY_ID &&
+      !!process.env.BEDROCK_AWS_SECRET_ACCESS_KEY,
+    llmConfig: {
+      provider: Providers.BEDROCK,
+      model:
+        process.env.BEDROCK_CONTEXT_LIVE_MODEL ??
+        'us.anthropic.claude-sonnet-4-6',
+      region:
+        process.env.BEDROCK_AWS_REGION ??
+        process.env.AWS_DEFAULT_REGION ??
+        'us-east-1',
+      credentials: {
+        accessKeyId: process.env.BEDROCK_AWS_ACCESS_KEY_ID,
+        secretAccessKey: process.env.BEDROCK_AWS_SECRET_ACCESS_KEY,
+      },
+      temperature: 0,
+      maxTokens: 128,
+      streaming: true,
+      streamUsage: true,
+    },
+  },
+];
+describeIfLive('Context accuracy live integration', () => {
+  jest.setTimeout(240_000);
+  let tokenCounter: t.TokenCounter;
+  beforeAll(async () => {
+    tokenCounter = await createTokenCounter();
+  });
+  afterAll(() => {
+    TokenEncoderManager.reset();
+  });
+  it('tracks provider counts through a cached tool loop and tightens with calibration', async () => {
+    const capture = createCapture();
+    const run = await Run.create<t.IState>({
+      runId: `ctx-acc-loop-${Date.now()}`,
+      graphConfig: {
+        type: 'standard',
+        llmConfig: {
+          provider: Providers.ANTHROPIC,
+          modelName,
+          apiKey: process.env.ANTHROPIC_API_KEY,
+          temperature: 0,
+          maxTokens: 128,
+          streaming: true,
+          streamUsage: true,
+          promptCache: true,
+        },
+        instructions: buildLongInstructions(`${Date.now()}`),
+        maxContextTokens: 16000,
+        tools: [addTool],
+      },
+      returnContent: true,
+      skipCleanup: true,
+      customHandlers: capture.handlers,
+      tokenCounter,
+      indexTokenCountMap: {},
+    });
+    await run.processStream(
+      {
+        messages: [
+          new HumanMessage(
+            'Use the add tool to compute 1742 + 2581, then reply with only the number.'
+          ),
+        ],
+      },
+      createStreamConfig(`ctx-acc-loop-${Date.now()}`)
+    );
+    expect(capture.contextEvents.length).toBeGreaterThanOrEqual(2);
+    expect(capture.collectedUsage.length).toBe(capture.contextEvents.length);
+    const ratios = capture.contextEvents.map((event, index) => {
+      const usage = capture.collectedUsage[index];
+      /** LangChain-normalized Anthropic usage reports cache fields as
+       *  subsets of input_tokens; only add them when genuinely additive
+       *  (same heuristic as calculateTotalTokens) */
+      const baseInput = usage.input_tokens ?? 0;
+      const cacheSum =
+        (usage.input_token_details?.cache_creation ?? 0) +
+        (usage.input_token_details?.cache_read ?? 0);
+      const providerInput = baseInput + (cacheSum > baseInput ? cacheSum : 0);
+      console.log(`[ctx-accuracy] call ${index + 1}:`, {
+        estimated: estimatedUsed(event),
+        providerInput,
+        providerParts: {
+          input: usage.input_tokens,
+          cacheWrite: usage.input_token_details?.cache_creation,
+          cacheRead: usage.input_token_details?.cache_read,
+        },
+        effectiveInstructionTokens: event.effectiveInstructionTokens,
+        systemMessageTokens: event.breakdown.systemMessageTokens,
+        toolSchemaTokens: event.breakdown.toolSchemaTokens,
+        messageTokens: event.breakdown.messageTokens,
+        remaining: event.remainingContextTokens,
+        budget: event.contextBudget,
+        calibrationRatio: event.calibrationRatio,
+      });
+      return estimatedUsed(event) / providerInput;
+    });
+    console.log('[ctx-accuracy] tool-loop estimate/provider ratios:', ratios);
+    /** Call 1: uncalibrated local estimate must be in the right ballpark */
+    expect(ratios[0]).toBeGreaterThan(0.5);
+    expect(ratios[0]).toBeLessThan(2);
+    /** Call 2+: calibration has real provider counts — tighter band, and
+     *  no further from truth than the uncalibrated call (noise epsilon) */
+    const last = ratios[ratios.length - 1];
+    expect(last).toBeGreaterThan(0.6);
+    expect(last).toBeLessThan(1.7);
+    expect(Math.abs(last - 1)).toBeLessThanOrEqual(
+      Math.abs(ratios[0] - 1) + 0.15
+    );
+    /** Prompt caching engaged: write on the first call, read on the next */
+    const cacheWrites = capture.collectedUsage.map(
+      (u) => u.input_token_details?.cache_creation ?? 0
+    );
+    const cacheReads = capture.collectedUsage.map(
+      (u) => u.input_token_details?.cache_read ?? 0
+    );
+    expect(Math.max(...cacheWrites)).toBeGreaterThan(0);
+    expect(Math.max(...cacheReads)).toBeGreaterThan(0);
+    const text = (run.getRunMessages() ?? [])
+      .filter((message) => message.getType() === 'ai')
+      .map((message) =>
+        typeof message.content === 'string'
+          ? message.content
+          : JSON.stringify(message.content)
+      )
+      .join(' ');
+    expect(text).toContain('4323');
+  });
+  for (const entry of providerMatrix) {
+    const itIfProvider = entry.enabled ? it : it.skip;
+    itIfProvider(
+      `${entry.name}: tool-loop estimates track provider counts across tokenizers`,
+      async () => {
+        const capture = createCapture();
+        const run = await Run.create<t.IState>({
+          runId: `ctx-acc-${entry.name}-${Date.now()}`,
+          graphConfig: {
+            type: 'standard',
+            llmConfig: entry.llmConfig as t.LLMConfig,
+            instructions:
+              'You are a precise assistant. Use the add tool for any arithmetic, then reply with only the number. ' +
+              Array.from(
+                { length: 40 },
+                (_, i) =>
+                  `Rule ${i}: answer precisely and keep responses to a single line.`
+              ).join(' '),
+            maxContextTokens: 16000,
+            tools: [addTool],
+          },
+          returnContent: true,
+          skipCleanup: true,
+          customHandlers: capture.handlers,
+          tokenCounter,
+          indexTokenCountMap: {},
+        });
+        await run.processStream(
+          {
+            messages: [
+              new HumanMessage(
+                'Use the add tool to compute 1742 + 2581, then reply with only the number.'
+              ),
+            ],
+          },
+          createStreamConfig(`ctx-acc-${entry.name}-${Date.now()}`)
+        );
+        expect(capture.contextEvents.length).toBeGreaterThanOrEqual(2);
+        expect(capture.collectedUsage.length).toBe(
+          capture.contextEvents.length
+        );
+        const ratios = capture.contextEvents.map((event, index) => {
+          const usage = capture.collectedUsage[index];
+          const baseInput = usage.input_tokens ?? 0;
+          const cacheSum =
+            (usage.input_token_details?.cache_creation ?? 0) +
+            (usage.input_token_details?.cache_read ?? 0);
+          const providerInput =
+            baseInput + (cacheSum > baseInput ? cacheSum : 0);
+          return estimatedUsed(event) / providerInput;
+        });
+        console.log(`[ctx-accuracy] ${entry.name} ratios:`, ratios, {
+          provider: capture.collectedUsage.map((u) => ({
+            input: u.input_tokens,
+            details: u.input_token_details,
+          })),
+        });
+        /** Foreign tokenizers diverge most on the uncalibrated first call */
+        expect(ratios[0]).toBeGreaterThan(0.3);
+        expect(ratios[0]).toBeLessThan(3);
+        /** Calibration has real counts from call 1 — tighter band */
+        const last = ratios[ratios.length - 1];
+        expect(last).toBeGreaterThan(0.5);
+        expect(last).toBeLessThan(2);
+        expect(Math.abs(last - 1)).toBeLessThanOrEqual(
+          Math.abs(ratios[0] - 1) + 0.2
+        );
+      }
+    );
+  }
+  it('stays accurate when pruning drops history under a small budget', async () => {
+    const capture = createCapture();
+    const history: BaseMessage[] = [];
+    for (let i = 0; i < 8; i++) {
+      history.push(
+        new HumanMessage(
+          `Question ${i}: please summarize the following filler passage. ` +
+            `${'The quick brown fox jumps over the lazy dog while counting tokens carefully. '.repeat(12)}`
+        ),
+        new AIMessage(
+          `Answer ${i}: the passage repeats a pangram about a fox and a dog while counting tokens. `.repeat(
+            4
+          )
+        )
+      );
+    }
+    history.push(new HumanMessage('Reply with exactly one word: pruned'));
+    const indexTokenCountMap: Record<string, number> = {};
+    for (let i = 0; i < history.length; i++) {
+      indexTokenCountMap[i] = tokenCounter(history[i]);
+    }
+    const run = await Run.create<t.IState>({
+      runId: `ctx-acc-prune-${Date.now()}`,
+      graphConfig: {
+        type: 'standard',
+        llmConfig: {
+          provider: Providers.ANTHROPIC,
+          modelName,
+          apiKey: process.env.ANTHROPIC_API_KEY,
+          temperature: 0,
+          maxTokens: 64,
+          streaming: true,
+          streamUsage: true,
+        },
+        instructions: 'You follow instructions exactly.',
+        maxContextTokens: 1500,
+      },
+      returnContent: true,
+      skipCleanup: true,
+      customHandlers: capture.handlers,
+      tokenCounter,
+      indexTokenCountMap,
+    });
+    await run.processStream(
+      { messages: history },
+      createStreamConfig(`ctx-acc-prune-${Date.now()}`)
+    );
+    expect(capture.contextEvents).toHaveLength(1);
+    const event = capture.contextEvents[0];
+    const usage = capture.collectedUsage[0];
+    /** Pruning engaged: the full history exceeds what was sent */
+    expect(event.prePruneContextTokens).toBeGreaterThan(estimatedUsed(event));
+    expect(event.remainingContextTokens).toBeGreaterThanOrEqual(0);
+    expect(event.remainingContextTokens).toBeLessThan(event.contextBudget ?? 0);
+    const providerInput = usage.input_tokens ?? 0;
+    const ratio = estimatedUsed(event) / providerInput;
+    console.log('[ctx-accuracy] pruned-run estimate/provider ratio:', ratio, {
+      estimated: estimatedUsed(event),
+      providerInput,
+      prePrune: event.prePruneContextTokens,
+      budget: event.contextBudget,
+    });
+    expect(ratio).toBeGreaterThan(0.4);
+    expect(ratio).toBeLessThan(2.5);
+  });
+});

package/src/specs/context-usage-event.test.ts ADDED Viewed

@@ -0,0 +1,117 @@
+import { HumanMessage, BaseMessage } from '@langchain/core/messages';
+import type * as t from '@/types';
+import { GraphEvents, Providers } from '@/common';
+import { Run } from '@/run';
+const charCounter: t.TokenCounter = (msg: BaseMessage): number => {
+  const content = msg.content;
+  if (typeof content === 'string') {
+    return content.length + 3;
+  }
+  return 3;
+};
+const llmConfig: t.LLMConfig = {
+  provider: Providers.OPENAI,
+  streaming: true,
+  streamUsage: false,
+};
+const streamConfig = {
+  configurable: { thread_id: 'context-usage-event' },
+  streamMode: 'values' as const,
+  version: 'v2' as const,
+};
+describe('ON_CONTEXT_USAGE event', () => {
+  jest.setTimeout(15000);
+  it('dispatches a post-prune context snapshot per model call', async () => {
+    const received: t.ContextUsageEvent[] = [];
+    const maxContextTokens = 4000;
+    const run = await Run.create<t.IState>({
+      runId: 'test-context-usage-event',
+      graphConfig: {
+        type: 'standard',
+        llmConfig,
+        instructions: 'You are a helpful assistant.',
+        maxContextTokens,
+      },
+      returnContent: true,
+      skipCleanup: true,
+      customHandlers: {
+        [GraphEvents.ON_CONTEXT_USAGE]: {
+          handle: (_event: string, data: t.StreamEventData): void => {
+            received.push(data as unknown as t.ContextUsageEvent);
+          },
+        },
+      },
+      tokenCounter: charCounter,
+      indexTokenCountMap: {},
+    });
+    run.Graph?.overrideTestModel(['Hello there!'], 1);
+    await run.processStream(
+      { messages: [new HumanMessage('hello')] },
+      streamConfig
+    );
+    expect(received).toHaveLength(1);
+    const event = received[0];
+    expect(event.runId).toBe('test-context-usage-event');
+    expect(event.agentId).toBeDefined();
+    expect(event.breakdown.maxContextTokens).toBe(maxContextTokens);
+    expect(event.breakdown.instructionTokens).toBeGreaterThan(0);
+    expect(event.breakdown.toolTokenCounts).toEqual({});
+    expect(event.contextBudget).toBeGreaterThan(0);
+    expect(event.contextBudget).toBeLessThanOrEqual(maxContextTokens);
+    expect(event.effectiveInstructionTokens).toBeGreaterThan(0);
+    expect(event.prePruneContextTokens).toBeGreaterThan(0);
+    expect(event.remainingContextTokens).toBeGreaterThan(0);
+    expect(event.remainingContextTokens).toBeLessThan(
+      event.contextBudget as number
+    );
+    expect(event.breakdown.instructionTokens).toBe(
+      event.effectiveInstructionTokens
+    );
+    expect(event.breakdown.availableForMessages).toBe(
+      (event.contextBudget as number) -
+        (event.effectiveInstructionTokens as number)
+    );
+    expect(event.breakdown.messageTokens).toBe(
+      (event.contextBudget as number) -
+        (event.effectiveInstructionTokens as number) -
+        (event.remainingContextTokens as number)
+    );
+  });
+  it('does not dispatch when no tokenCounter is configured', async () => {
+    const received: t.ContextUsageEvent[] = [];
+    const run = await Run.create<t.IState>({
+      runId: 'test-context-usage-event-no-counter',
+      graphConfig: {
+        type: 'standard',
+        llmConfig,
+      },
+      returnContent: true,
+      skipCleanup: true,
+      customHandlers: {
+        [GraphEvents.ON_CONTEXT_USAGE]: {
+          handle: (_event: string, data: t.StreamEventData): void => {
+            received.push(data as unknown as t.ContextUsageEvent);
+          },
+        },
+      },
+    });
+    run.Graph?.overrideTestModel(['Hello there!'], 1);
+    await run.processStream(
+      { messages: [new HumanMessage('hello')] },
+      streamConfig
+    );
+    expect(received).toHaveLength(0);
+  });
+});