npm - @librechat/agents - Versions diffs - 3.1.56 → 3.1.60 - Mend

@librechat/agents 3.1.56 → 3.1.60

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (214) hide show

package/dist/cjs/agents/AgentContext.cjs +326 -62
package/dist/cjs/agents/AgentContext.cjs.map +1 -1
package/dist/cjs/common/enum.cjs +13 -0
package/dist/cjs/common/enum.cjs.map +1 -1
package/dist/cjs/events.cjs +7 -27
package/dist/cjs/events.cjs.map +1 -1
package/dist/cjs/graphs/Graph.cjs +303 -222
package/dist/cjs/graphs/Graph.cjs.map +1 -1
package/dist/cjs/llm/anthropic/utils/message_inputs.cjs +4 -4
package/dist/cjs/llm/anthropic/utils/message_inputs.cjs.map +1 -1
package/dist/cjs/llm/bedrock/utils/message_inputs.cjs +6 -2
package/dist/cjs/llm/bedrock/utils/message_inputs.cjs.map +1 -1
package/dist/cjs/llm/init.cjs +60 -0
package/dist/cjs/llm/init.cjs.map +1 -0
package/dist/cjs/llm/invoke.cjs +90 -0
package/dist/cjs/llm/invoke.cjs.map +1 -0
package/dist/cjs/llm/openai/index.cjs +2 -0
package/dist/cjs/llm/openai/index.cjs.map +1 -1
package/dist/cjs/llm/request.cjs +41 -0
package/dist/cjs/llm/request.cjs.map +1 -0
package/dist/cjs/main.cjs +40 -0
package/dist/cjs/main.cjs.map +1 -1
package/dist/cjs/messages/cache.cjs +76 -89
package/dist/cjs/messages/cache.cjs.map +1 -1
package/dist/cjs/messages/contextPruning.cjs +156 -0
package/dist/cjs/messages/contextPruning.cjs.map +1 -0
package/dist/cjs/messages/contextPruningSettings.cjs +53 -0
package/dist/cjs/messages/contextPruningSettings.cjs.map +1 -0
package/dist/cjs/messages/core.cjs +23 -37
package/dist/cjs/messages/core.cjs.map +1 -1
package/dist/cjs/messages/format.cjs +156 -11
package/dist/cjs/messages/format.cjs.map +1 -1
package/dist/cjs/messages/prune.cjs +1161 -49
package/dist/cjs/messages/prune.cjs.map +1 -1
package/dist/cjs/messages/reducer.cjs +87 -0
package/dist/cjs/messages/reducer.cjs.map +1 -0
package/dist/cjs/run.cjs +81 -42
package/dist/cjs/run.cjs.map +1 -1
package/dist/cjs/stream.cjs +54 -7
package/dist/cjs/stream.cjs.map +1 -1
package/dist/cjs/summarization/index.cjs +75 -0
package/dist/cjs/summarization/index.cjs.map +1 -0
package/dist/cjs/summarization/node.cjs +663 -0
package/dist/cjs/summarization/node.cjs.map +1 -0
package/dist/cjs/tools/ToolNode.cjs +16 -8
package/dist/cjs/tools/ToolNode.cjs.map +1 -1
package/dist/cjs/tools/handlers.cjs +2 -0
package/dist/cjs/tools/handlers.cjs.map +1 -1
package/dist/cjs/utils/errors.cjs +115 -0
package/dist/cjs/utils/errors.cjs.map +1 -0
package/dist/cjs/utils/events.cjs +17 -0
package/dist/cjs/utils/events.cjs.map +1 -1
package/dist/cjs/utils/handlers.cjs +16 -0
package/dist/cjs/utils/handlers.cjs.map +1 -1
package/dist/cjs/utils/llm.cjs +10 -0
package/dist/cjs/utils/llm.cjs.map +1 -1
package/dist/cjs/utils/tokens.cjs +247 -14
package/dist/cjs/utils/tokens.cjs.map +1 -1
package/dist/cjs/utils/truncation.cjs +107 -0
package/dist/cjs/utils/truncation.cjs.map +1 -0
package/dist/esm/agents/AgentContext.mjs +325 -61
package/dist/esm/agents/AgentContext.mjs.map +1 -1
package/dist/esm/common/enum.mjs +13 -0
package/dist/esm/common/enum.mjs.map +1 -1
package/dist/esm/events.mjs +8 -28
package/dist/esm/events.mjs.map +1 -1
package/dist/esm/graphs/Graph.mjs +307 -226
package/dist/esm/graphs/Graph.mjs.map +1 -1
package/dist/esm/llm/anthropic/utils/message_inputs.mjs +4 -4
package/dist/esm/llm/anthropic/utils/message_inputs.mjs.map +1 -1
package/dist/esm/llm/bedrock/utils/message_inputs.mjs +6 -2
package/dist/esm/llm/bedrock/utils/message_inputs.mjs.map +1 -1
package/dist/esm/llm/init.mjs +58 -0
package/dist/esm/llm/init.mjs.map +1 -0
package/dist/esm/llm/invoke.mjs +87 -0
package/dist/esm/llm/invoke.mjs.map +1 -0
package/dist/esm/llm/openai/index.mjs +2 -0
package/dist/esm/llm/openai/index.mjs.map +1 -1
package/dist/esm/llm/request.mjs +38 -0
package/dist/esm/llm/request.mjs.map +1 -0
package/dist/esm/main.mjs +13 -3
package/dist/esm/main.mjs.map +1 -1
package/dist/esm/messages/cache.mjs +76 -89
package/dist/esm/messages/cache.mjs.map +1 -1
package/dist/esm/messages/contextPruning.mjs +154 -0
package/dist/esm/messages/contextPruning.mjs.map +1 -0
package/dist/esm/messages/contextPruningSettings.mjs +50 -0
package/dist/esm/messages/contextPruningSettings.mjs.map +1 -0
package/dist/esm/messages/core.mjs +23 -37
package/dist/esm/messages/core.mjs.map +1 -1
package/dist/esm/messages/format.mjs +156 -11
package/dist/esm/messages/format.mjs.map +1 -1
package/dist/esm/messages/prune.mjs +1158 -52
package/dist/esm/messages/prune.mjs.map +1 -1
package/dist/esm/messages/reducer.mjs +83 -0
package/dist/esm/messages/reducer.mjs.map +1 -0
package/dist/esm/run.mjs +82 -43
package/dist/esm/run.mjs.map +1 -1
package/dist/esm/stream.mjs +54 -7
package/dist/esm/stream.mjs.map +1 -1
package/dist/esm/summarization/index.mjs +73 -0
package/dist/esm/summarization/index.mjs.map +1 -0
package/dist/esm/summarization/node.mjs +659 -0
package/dist/esm/summarization/node.mjs.map +1 -0
package/dist/esm/tools/ToolNode.mjs +16 -8
package/dist/esm/tools/ToolNode.mjs.map +1 -1
package/dist/esm/tools/handlers.mjs +2 -0
package/dist/esm/tools/handlers.mjs.map +1 -1
package/dist/esm/utils/errors.mjs +111 -0
package/dist/esm/utils/errors.mjs.map +1 -0
package/dist/esm/utils/events.mjs +17 -1
package/dist/esm/utils/events.mjs.map +1 -1
package/dist/esm/utils/handlers.mjs +16 -0
package/dist/esm/utils/handlers.mjs.map +1 -1
package/dist/esm/utils/llm.mjs +10 -1
package/dist/esm/utils/llm.mjs.map +1 -1
package/dist/esm/utils/tokens.mjs +245 -15
package/dist/esm/utils/tokens.mjs.map +1 -1
package/dist/esm/utils/truncation.mjs +102 -0
package/dist/esm/utils/truncation.mjs.map +1 -0
package/dist/types/agents/AgentContext.d.ts +124 -6
package/dist/types/common/enum.d.ts +14 -1
package/dist/types/graphs/Graph.d.ts +22 -27
package/dist/types/index.d.ts +5 -0
package/dist/types/llm/init.d.ts +18 -0
package/dist/types/llm/invoke.d.ts +48 -0
package/dist/types/llm/request.d.ts +14 -0
package/dist/types/messages/contextPruning.d.ts +42 -0
package/dist/types/messages/contextPruningSettings.d.ts +44 -0
package/dist/types/messages/core.d.ts +1 -1
package/dist/types/messages/format.d.ts +17 -1
package/dist/types/messages/index.d.ts +3 -0
package/dist/types/messages/prune.d.ts +162 -1
package/dist/types/messages/reducer.d.ts +18 -0
package/dist/types/run.d.ts +12 -1
package/dist/types/summarization/index.d.ts +20 -0
package/dist/types/summarization/node.d.ts +29 -0
package/dist/types/tools/ToolNode.d.ts +3 -1
package/dist/types/types/graph.d.ts +44 -6
package/dist/types/types/index.d.ts +1 -0
package/dist/types/types/run.d.ts +30 -0
package/dist/types/types/stream.d.ts +31 -4
package/dist/types/types/summarize.d.ts +47 -0
package/dist/types/types/tools.d.ts +7 -0
package/dist/types/utils/errors.d.ts +28 -0
package/dist/types/utils/events.d.ts +13 -0
package/dist/types/utils/index.d.ts +2 -0
package/dist/types/utils/llm.d.ts +4 -0
package/dist/types/utils/tokens.d.ts +14 -1
package/dist/types/utils/truncation.d.ts +49 -0
package/package.json +2 -2
package/src/agents/AgentContext.ts +388 -58
package/src/agents/__tests__/AgentContext.test.ts +265 -5
package/src/common/enum.ts +13 -0
package/src/events.ts +9 -39
package/src/graphs/Graph.ts +468 -331
package/src/index.ts +7 -0
package/src/llm/anthropic/llm.spec.ts +3 -3
package/src/llm/anthropic/utils/message_inputs.ts +6 -4
package/src/llm/bedrock/llm.spec.ts +1 -1
package/src/llm/bedrock/utils/message_inputs.ts +6 -2
package/src/llm/init.ts +63 -0
package/src/llm/invoke.ts +144 -0
package/src/llm/request.ts +55 -0
package/src/messages/__tests__/observationMasking.test.ts +221 -0
package/src/messages/cache.ts +77 -102
package/src/messages/contextPruning.ts +191 -0
package/src/messages/contextPruningSettings.ts +90 -0
package/src/messages/core.ts +32 -53
package/src/messages/ensureThinkingBlock.test.ts +39 -39
package/src/messages/format.ts +227 -15
package/src/messages/formatAgentMessages.test.ts +511 -1
package/src/messages/index.ts +3 -0
package/src/messages/prune.ts +1548 -62
package/src/messages/reducer.ts +22 -0
package/src/run.ts +104 -51
package/src/scripts/bedrock-merge-test.ts +1 -1
package/src/scripts/test-thinking-handoff-bedrock.ts +1 -1
package/src/scripts/test-thinking-handoff.ts +1 -1
package/src/scripts/thinking-bedrock.ts +1 -1
package/src/scripts/thinking.ts +1 -1
package/src/specs/anthropic.simple.test.ts +1 -1
package/src/specs/multi-agent-summarization.test.ts +396 -0
package/src/specs/prune.test.ts +1196 -23
package/src/specs/summarization-unit.test.ts +868 -0
package/src/specs/summarization.test.ts +3810 -0
package/src/specs/summarize-prune.test.ts +376 -0
package/src/specs/thinking-handoff.test.ts +10 -10
package/src/specs/thinking-prune.test.ts +7 -4
package/src/specs/token-accounting-e2e.test.ts +1034 -0
package/src/specs/token-accounting-pipeline.test.ts +882 -0
package/src/specs/token-distribution-edge-case.test.ts +25 -26
package/src/splitStream.test.ts +42 -33
package/src/stream.ts +64 -11
package/src/summarization/__tests__/aggregator.test.ts +153 -0
package/src/summarization/__tests__/node.test.ts +708 -0
package/src/summarization/__tests__/trigger.test.ts +50 -0
package/src/summarization/index.ts +102 -0
package/src/summarization/node.ts +982 -0
package/src/tools/ToolNode.ts +25 -3
package/src/types/graph.ts +62 -7
package/src/types/index.ts +1 -0
package/src/types/run.ts +32 -0
package/src/types/stream.ts +45 -5
package/src/types/summarize.ts +58 -0
package/src/types/tools.ts +7 -0
package/src/utils/errors.ts +117 -0
package/src/utils/events.ts +31 -0
package/src/utils/handlers.ts +18 -0
package/src/utils/index.ts +2 -0
package/src/utils/llm.ts +12 -0
package/src/utils/tokens.ts +336 -18
package/src/utils/truncation.ts +124 -0
package/src/scripts/image.ts +0 -180

package/src/agents/AgentContext.ts CHANGED Viewed

@@ -1,6 +1,5 @@
 /* eslint-disable no-console */
-// src/agents/AgentContext.ts
-import { SystemMessage } from '@langchain/core/messages';
+import { HumanMessage, SystemMessage } from '@langchain/core/messages';
 import { RunnableLambda } from '@langchain/core/runnables';
 import type {
   UsageMetadata,
@@ -11,9 +10,26 @@ import type { RunnableConfig, Runnable } from '@langchain/core/runnables';
 import type * as t from '@/types';
 import type { createPruneMessages } from '@/messages';
 import { createSchemaOnlyTools } from '@/tools/schema';
+import { addCacheControl } from '@/messages/cache';
 import { ContentTypes, Providers } from '@/common';
+import { DEFAULT_RESERVE_RATIO } from '@/messages';
 import { toJsonSchema } from '@/utils/schema';
+/**
+ * Anthropic direct API tool schema overhead multiplier.
+ * Empirically calibrated against real MCP tool sets (29 tools).
+ * Accounts for Anthropic's internal XML-like tool encoding plus
+ * a ~300-token hidden tool-system preamble.
+ */
+const ANTHROPIC_TOOL_TOKEN_MULTIPLIER = 2.6;
+/**
+ * Default tool schema overhead multiplier for all non-Anthropic providers.
+ * Covers OpenAI function-calling format, Bedrock, and other providers.
+ * Empirically calibrated at ~1.4× the raw JSON token count.
+ */
+const DEFAULT_TOOL_TOKEN_MULTIPLIER = 1.4;
 /**
  * Encapsulates agent-specific state that can vary between agents in a multi-agent system
  */
@@ -43,6 +59,11 @@ export class AgentContext {
       reasoningKey,
       useLegacyContent,
       discoveredTools,
+      summarizationEnabled,
+      summarizationConfig,
+      initialSummary,
+      contextPruningConfig,
+      maxToolResultChars,
     } = agentConfig;
     const agentContext = new AgentContext({
@@ -64,12 +85,20 @@ export class AgentContext {
       tokenCounter,
       useLegacyContent,
       discoveredTools,
+      summarizationEnabled,
+      summarizationConfig,
+      contextPruningConfig,
+      maxToolResultChars,
     });
+    if (initialSummary?.text != null && initialSummary.text !== '') {
+      agentContext.setInitialSummary(
+        initialSummary.text,
+        initialSummary.tokenCount
+      );
+    }
     if (tokenCounter) {
-      // Initialize system runnable BEFORE async tool token calculation
-      // This ensures system message tokens are in instructionTokens before
-      // updateTokenMapWithInstructions is called
       agentContext.initializeSystemRunnable();
       const tokenMap = indexTokenCountMap || {};
@@ -78,7 +107,6 @@ export class AgentContext {
       agentContext.tokenCalculationPromise = agentContext
         .calculateInstructionTokens(tokenCounter)
         .then(() => {
-          // Update token map with instruction tokens (includes system + tool tokens)
           agentContext.updateTokenMapWithInstructions(tokenMap);
         })
         .catch((err) => {
@@ -108,12 +136,47 @@ export class AgentContext {
   maxContextTokens?: number;
   /** Current usage metadata for this agent */
   currentUsage?: Partial<UsageMetadata>;
+  /**
+   * Usage from the most recent LLM call only (not accumulated).
+   * Used for accurate provider calibration in pruning.
+   */
+  lastCallUsage?: {
+    inputTokens: number;
+    outputTokens: number;
+    totalTokens: number;
+    cacheRead?: number;
+    cacheCreation?: number;
+  };
+  /**
+   * Whether totalTokens data is fresh (set true when provider usage arrives,
+   * false at the start of each turn before the LLM responds).
+   * Prevents stale token data from driving pruning/trigger decisions.
+   */
+  totalTokensFresh: boolean = false;
+  /** Context pruning configuration. */
+  contextPruningConfig?: t.ContextPruningConfig;
+  maxToolResultChars?: number;
   /** Prune messages function configured for this agent */
   pruneMessages?: ReturnType<typeof createPruneMessages>;
   /** Token counter function for this agent */
   tokenCounter?: t.TokenCounter;
-  /** Instructions/system message token count */
-  instructionTokens: number = 0;
+  /** Token count for the system message (instructions text). */
+  systemMessageTokens: number = 0;
+  /** Token count for tool schemas only. */
+  toolSchemaTokens: number = 0;
+  /** Running calibration ratio from the pruner — persisted across runs via contextMeta. */
+  calibrationRatio: number = 1;
+  /** Provider-observed instruction overhead from the pruner's best-variance turn. */
+  resolvedInstructionOverhead?: number;
+  /** Pre-masking tool content keyed by message index, consumed by the summarize node. */
+  pendingOriginalToolContent?: Map<number, string>;
+  /** Total instruction overhead: system message + tool schemas + pending summary. */
+  get instructionTokens(): number {
+    const summaryOverhead =
+      this._summaryLocation === 'user_message' ? this.summaryTokenCount : 0;
+    return this.systemMessageTokens + this.toolSchemaTokens + summaryOverhead;
+  }
   /** The amount of time that should pass before another consecutive API call */
   streamBuffer?: number;
   /** Last stream call timestamp for rate limiting */
@@ -161,12 +224,41 @@ export class AgentContext {
   >;
   /** Whether system runnable needs rebuild (set when discovered tools change) */
   private systemRunnableStale: boolean = true;
-  /** Cached system message token count (separate from tool tokens) */
-  private systemMessageTokens: number = 0;
   /** Promise for token calculation initialization */
   tokenCalculationPromise?: Promise<void>;
   /** Format content blocks as strings (for legacy compatibility) */
   useLegacyContent: boolean = false;
+  /** Enables graph-level summarization for this agent */
+  summarizationEnabled?: boolean;
+  /** Summarization runtime settings used by graph pruning hooks */
+  summarizationConfig?: t.SummarizationConfig;
+  /** Current summary text produced by the summarize node, integrated into system message */
+  private summaryText?: string;
+  /** Token count of the current summary (tracked for token accounting) */
+  private summaryTokenCount: number = 0;
+  /**
+   * Where the summary should be injected:
+   * - `'system_prompt'`: cross-run summary, included in `buildInstructionsString`
+   * - `'user_message'`: mid-run compaction, injected as HumanMessage on clean slate
+   * - `'none'`: no summary present
+   */
+  private _summaryLocation: 'system_prompt' | 'user_message' | 'none' = 'none';
+  /**
+   * Durable summary that survives reset() calls. Set from initialSummary
+   * during fromConfig() and updated by setSummary() so that the latest
+   * summary (whether cross-run or intra-run) is always restored after
+   * processStream's resetValues() cycle.
+   */
+  private _durableSummaryText?: string;
+  private _durableSummaryTokenCount: number = 0;
+  /** Number of summarization cycles that have occurred for this agent context */
+  private _summaryVersion: number = 0;
+  /**
+   * Message count at the time summarization was last triggered.
+   * Used to prevent re-summarizing the same unchanged message set.
+   * Summarization is allowed to fire again only when new messages appear.
+   */
+  private _lastSummarizationMsgCount: number = 0;
   /**
    * Handoff context when this agent receives control via handoff.
    * Contains source and parallel execution info for system message context.
@@ -197,6 +289,10 @@ export class AgentContext {
     instructionTokens,
     useLegacyContent,
     discoveredTools,
+    summarizationEnabled,
+    summarizationConfig,
+    contextPruningConfig,
+    maxToolResultChars,
   }: {
     agentId: string;
     name?: string;
@@ -216,6 +312,10 @@ export class AgentContext {
     instructionTokens?: number;
     useLegacyContent?: boolean;
     discoveredTools?: string[];
+    summarizationEnabled?: boolean;
+    summarizationConfig?: t.SummarizationConfig;
+    contextPruningConfig?: t.ContextPruningConfig;
+    maxToolResultChars?: number;
   }) {
     this.agentId = agentId;
     this.name = name;
@@ -237,10 +337,14 @@ export class AgentContext {
       this.toolEnd = toolEnd;
     }
     if (instructionTokens !== undefined) {
-      this.instructionTokens = instructionTokens;
+      this.systemMessageTokens = instructionTokens;
     }
     this.useLegacyContent = useLegacyContent ?? false;
+    this.summarizationEnabled = summarizationEnabled;
+    this.summarizationConfig = summarizationConfig;
+    this.contextPruningConfig = contextPruningConfig;
+    this.maxToolResultChars = maxToolResultChars;
     if (discoveredTools && discoveredTools.length > 0) {
       for (const toolName of discoveredTools) {
@@ -270,7 +374,6 @@ export class AgentContext {
       if (!isCodeExecutionOnly) continue;
-      // Include if: not deferred OR deferred but discovered
       const isDeferred = toolDef.defer_loading === true;
       const isDiscovered = this.discoveredToolNames.has(name);
       if (!isDeferred || isDiscovered) {
@@ -313,12 +416,10 @@ export class AgentContext {
         RunnableConfig<Record<string, unknown>>
       >
     | undefined {
-    // Return cached if not stale
     if (!this.systemRunnableStale && this.cachedSystemRunnable !== undefined) {
       return this.cachedSystemRunnable;
     }
-    // Stale or first access - rebuild
     const instructionsString = this.buildInstructionsString();
     this.cachedSystemRunnable = this.buildSystemRunnable(instructionsString);
     this.systemRunnableStale = false;
@@ -344,18 +445,15 @@ export class AgentContext {
   private buildInstructionsString(): string {
     const parts: string[] = [];
-    /** Build agent identity and handoff context preamble */
     const identityPreamble = this.buildIdentityPreamble();
     if (identityPreamble) {
       parts.push(identityPreamble);
     }
-    /** Add main instructions */
     if (this.instructions != null && this.instructions !== '') {
       parts.push(this.instructions);
     }
-    /** Add additional instructions */
     if (
       this.additionalInstructions != null &&
       this.additionalInstructions !== ''
@@ -363,12 +461,22 @@ export class AgentContext {
       parts.push(this.additionalInstructions);
     }
-    /** Add programmatic tools documentation */
     const programmaticToolsDoc = this.buildProgrammaticOnlyToolsInstructions();
     if (programmaticToolsDoc) {
       parts.push(programmaticToolsDoc);
     }
+    // Cross-run summary: include in system prompt so the model has context
+    // from the prior run.  Mid-run summaries are injected as a HumanMessage
+    // on the post-compaction clean slate instead (see buildSystemRunnable).
+    if (
+      this._summaryLocation === 'system_prompt' &&
+      this.summaryText != null &&
+      this.summaryText !== ''
+    ) {
+      parts.push('## Conversation Summary\n\n' + this.summaryText);
+    }
     return parts.join('\n\n');
   }
@@ -413,21 +521,25 @@ export class AgentContext {
         RunnableConfig<Record<string, unknown>>
       >
     | undefined {
-    if (!instructionsString) {
-      // Remove previous tokens if we had a system message before
-      this.instructionTokens -= this.systemMessageTokens;
+    const hasMidRunSummary =
+      this._summaryLocation === 'user_message' &&
+      this.summaryText != null &&
+      this.summaryText !== '';
+    if (!instructionsString && !hasMidRunSummary) {
       this.systemMessageTokens = 0;
       return undefined;
     }
     let finalInstructions: string | BaseMessageFields = instructionsString;
-    // Handle Anthropic prompt caching
+    let usePromptCache = false;
     if (this.provider === Providers.ANTHROPIC) {
       const anthropicOptions = this.clientOptions as
         | t.AnthropicClientOptions
         | undefined;
       if (anthropicOptions?.promptCache === true) {
+        usePromptCache = true;
         finalInstructions = {
           content: [
             {
@@ -440,17 +552,55 @@ export class AgentContext {
       }
     }
-    const systemMessage = new SystemMessage(finalInstructions);
+    const systemMessage = instructionsString
+      ? new SystemMessage(finalInstructions)
+      : undefined;
-    // Update token counts (subtract old, add new)
     if (this.tokenCounter) {
-      this.instructionTokens -= this.systemMessageTokens;
-      this.systemMessageTokens = this.tokenCounter(systemMessage);
-      this.instructionTokens += this.systemMessageTokens;
+      this.systemMessageTokens = systemMessage
+        ? this.tokenCounter(systemMessage)
+        : 0;
     }
     return RunnableLambda.from((messages: BaseMessage[]) => {
-      return [systemMessage, ...messages];
+      const prefix: BaseMessage[] = systemMessage ? [systemMessage] : [];
+      // Build the non-system portion (summary + conversation), then apply
+      // cache markers separately so addCacheControl doesn't strip the
+      // SystemMessage's own cache_control breakpoint set above.
+      const hasSummaryBody =
+        this._summaryLocation === 'user_message' &&
+        this.summaryText != null &&
+        this.summaryText !== '';
+      let body: BaseMessage[];
+      if (hasSummaryBody) {
+        const wrappedSummary =
+          '<summary>\n' +
+          (this.summaryText as string) +
+          '\n</summary>\n\n' +
+          'This is your own checkpoint: you wrote it to preserve context after compaction. Pick up where you left off based on the summary above. Do not repeat prior tasks, information or acknowledge this checkpoint message directly.';
+        const summaryMsg = usePromptCache
+          ? new HumanMessage({
+            content: [
+              {
+                type: 'text',
+                text: wrappedSummary,
+                cache_control: { type: 'ephemeral' },
+              },
+            ],
+          })
+          : new HumanMessage(wrappedSummary);
+        body = [summaryMsg, ...messages];
+      } else {
+        body = messages;
+      }
+      if (usePromptCache && body.length >= 2) {
+        body = addCacheControl(body);
+      }
+      return [...prefix, ...body];
     }).withConfig({ runName: 'prompt' });
   }
@@ -458,8 +608,8 @@ export class AgentContext {
    * Reset context for a new run
    */
   reset(): void {
-    this.instructionTokens = 0;
     this.systemMessageTokens = 0;
+    this.toolSchemaTokens = 0;
     this.cachedSystemRunnable = undefined;
     this.systemRunnableStale = true;
     this.lastToken = undefined;
@@ -473,6 +623,12 @@ export class AgentContext {
     this.discoveredToolNames.clear();
     this.handoffContext = undefined;
+    this.summaryText = this._durableSummaryText;
+    this.summaryTokenCount = this._durableSummaryTokenCount;
+    this._lastSummarizationMsgCount = 0;
+    this.lastCallUsage = undefined;
+    this.totalTokensFresh = false;
     if (this.tokenCounter) {
       this.initializeSystemRunnable();
       const baseTokenMap = { ...this.baseIndexTokenCountMap };
@@ -492,23 +648,21 @@ export class AgentContext {
   }
   /**
-   * Update the token count map with instruction tokens
+   * Update the token count map from a base map.
+   *
+   * Previously this inflated index 0 with instructionTokens to indirectly
+   * reserve budget for the system prompt.  That approach was imprecise: with
+   * large tool-schema overhead (e.g. 26 MCP tools ~5 000 tokens) the first
+   * conversation message appeared enormous and was always pruned, while the
+   * real available budget was never explicitly computed.
+   *
+   * Now instruction tokens are passed to getMessagesWithinTokenLimit via
+   * the `getInstructionTokens` factory param so the pruner subtracts them
+   * from the budget directly.  The token map contains only real per-message
+   * token counts.
    */
   updateTokenMapWithInstructions(baseTokenMap: Record<string, number>): void {
-    if (this.instructionTokens > 0) {
-      // Shift all indices by the instruction token count
-      const shiftedMap: Record<string, number> = {};
-      for (const [key, value] of Object.entries(baseTokenMap)) {
-        const index = parseInt(key, 10);
-        if (!isNaN(index)) {
-          shiftedMap[String(index)] =
-            value + (index === 0 ? this.instructionTokens : 0);
-        }
-      }
-      this.indexTokenCountMap = shiftedMap;
-    } else {
-      this.indexTokenCountMap = { ...baseTokenMap };
-    }
+    this.indexTokenCountMap = { ...baseTokenMap };
   }
   /**
@@ -519,12 +673,8 @@ export class AgentContext {
     tokenCounter: t.TokenCounter
   ): Promise<void> {
     let toolTokens = 0;
-    // Track names to avoid double-counting when a tool appears in both
-    // this.tools (bound StructuredTool instances) and this.toolDefinitions
-    // (MCP / event-driven schemas).
     const countedToolNames = new Set<string>();
-    // Count tokens for bound tools (StructuredTool instances with .schema)
     if (this.tools && this.tools.length > 0) {
       for (const tool of this.tools) {
         const genericTool = tool as Record<string, unknown>;
@@ -548,24 +698,35 @@ export class AgentContext {
       }
     }
-    // Count tokens for tool definitions (MCP / event-driven tools).
-    // These are sent to the provider API as tool schemas alongside bound tools.
-    // Both can be populated simultaneously (graph tools + MCP tools).
     if (this.toolDefinitions && this.toolDefinitions.length > 0) {
       for (const def of this.toolDefinitions) {
         if (countedToolNames.has(def.name)) {
-          continue; // Already counted via this.tools
+          continue;
         }
         const schema = {
-          name: def.name,
-          description: def.description ?? '',
-          parameters: def.parameters ?? {},
+          type: 'function',
+          function: {
+            name: def.name,
+            description: def.description ?? '',
+            parameters: def.parameters ?? {},
+          },
         };
         toolTokens += tokenCounter(new SystemMessage(JSON.stringify(schema)));
       }
     }
-    this.instructionTokens += toolTokens;
+    const isAnthropic =
+      this.provider !== Providers.BEDROCK &&
+      (this.provider === Providers.ANTHROPIC ||
+        /anthropic|claude/i.test(
+          String(
+            (this.clientOptions as { model?: string } | undefined)?.model ?? ''
+          )
+        ));
+    const toolTokenMultiplier = isAnthropic
+      ? ANTHROPIC_TOOL_TOKEN_MULTIPLIER
+      : DEFAULT_TOOL_TOKEN_MULTIPLIER;
+    this.toolSchemaTokens = Math.ceil(toolTokens * toolTokenMultiplier);
   }
   /**
@@ -612,6 +773,177 @@ export class AgentContext {
     }
   }
+  setSummary(text: string, tokenCount: number): void {
+    this.summaryText = text;
+    this.summaryTokenCount = tokenCount;
+    this._summaryLocation = 'user_message';
+    this._durableSummaryText = text;
+    this._durableSummaryTokenCount = tokenCount;
+    this._summaryVersion += 1;
+    this.systemRunnableStale = true;
+    this.pruneMessages = undefined;
+  }
+  /** Sets a cross-run summary that is injected into the system prompt. */
+  setInitialSummary(text: string, tokenCount: number): void {
+    this.summaryText = text;
+    this.summaryTokenCount = tokenCount;
+    this._summaryLocation = 'system_prompt';
+    this._durableSummaryText = text;
+    this._durableSummaryTokenCount = tokenCount;
+    this._summaryVersion += 1;
+    this.systemRunnableStale = true;
+  }
+  /**
+   * Replaces the indexTokenCountMap with a fresh map keyed to the surviving
+   * context messages after summarization.  Called by the summarize node after
+   * it emits RemoveMessage operations that shift message indices.
+   */
+  rebuildTokenMapAfterSummarization(newTokenMap: Record<string, number>): void {
+    this.indexTokenCountMap = newTokenMap;
+    this.baseIndexTokenCountMap = { ...newTokenMap };
+    this._lastSummarizationMsgCount = Object.keys(newTokenMap).length;
+    this.currentUsage = undefined;
+    this.lastCallUsage = undefined;
+    this.totalTokensFresh = false;
+  }
+  hasSummary(): boolean {
+    return this.summaryText != null && this.summaryText !== '';
+  }
+  /** True when a mid-run compaction summary is ready to be injected as a HumanMessage. */
+  hasPendingCompactionSummary(): boolean {
+    return this._summaryLocation === 'user_message' && this.hasSummary();
+  }
+  getSummaryText(): string | undefined {
+    return this.summaryText;
+  }
+  get summaryVersion(): number {
+    return this._summaryVersion;
+  }
+  /**
+   * Returns true when the message count hasn't changed since the last
+   * summarization — re-summarizing would produce an identical result.
+   * Oversized individual messages are handled by fit-to-budget truncation
+   * in the pruner, which keeps them in context without triggering overflow.
+   */
+  shouldSkipSummarization(currentMsgCount: number): boolean {
+    return (
+      this._lastSummarizationMsgCount > 0 &&
+      currentMsgCount <= this._lastSummarizationMsgCount
+    );
+  }
+  /**
+   * Records the message count at which summarization was triggered,
+   * so subsequent calls with the same count are suppressed.
+   */
+  markSummarizationTriggered(msgCount: number): void {
+    this._lastSummarizationMsgCount = msgCount;
+  }
+  clearSummary(): void {
+    if (this.summaryText != null) {
+      this.summaryText = undefined;
+      this.summaryTokenCount = 0;
+      this._durableSummaryText = undefined;
+      this._durableSummaryTokenCount = 0;
+      this._summaryLocation = 'none';
+      this.systemRunnableStale = true;
+    }
+  }
+  /**
+   * Returns a structured breakdown of how the context token budget is consumed.
+   * Useful for diagnostics when context overflow or pruning issues occur.
+   */
+  getTokenBudgetBreakdown(messages?: BaseMessage[]): t.TokenBudgetBreakdown {
+    const maxContextTokens = this.maxContextTokens ?? 0;
+    const toolCount =
+      (this.tools?.length ?? 0) + (this.toolDefinitions?.length ?? 0);
+    const messageCount = messages?.length ?? 0;
+    let messageTokens = 0;
+    if (messages != null) {
+      for (let i = 0; i < messages.length; i++) {
+        messageTokens +=
+          (this.indexTokenCountMap[i] as number | undefined) ?? 0;
+      }
+    }
+    const reserveTokens = Math.round(maxContextTokens * DEFAULT_RESERVE_RATIO);
+    const availableForMessages = Math.max(
+      0,
+      maxContextTokens - reserveTokens - this.instructionTokens
+    );
+    return {
+      maxContextTokens,
+      instructionTokens: this.instructionTokens,
+      systemMessageTokens: this.systemMessageTokens,
+      toolSchemaTokens: this.toolSchemaTokens,
+      summaryTokens: this.summaryTokenCount,
+      toolCount,
+      messageCount,
+      messageTokens,
+      availableForMessages,
+    };
+  }
+  /**
+   * Returns a human-readable string of the token budget breakdown
+   * for inclusion in error messages and diagnostics.
+   */
+  formatTokenBudgetBreakdown(messages?: BaseMessage[]): string {
+    const b = this.getTokenBudgetBreakdown(messages);
+    const lines = [
+      'Token budget breakdown:',
+      `  maxContextTokens:    ${b.maxContextTokens}`,
+      `  instructionTokens:   ${b.instructionTokens} (system: ${b.systemMessageTokens}, tools: ${b.toolSchemaTokens} [${b.toolCount} tools])`,
+      `  summaryTokens:       ${b.summaryTokens}`,
+      `  messageTokens:       ${b.messageTokens} (${b.messageCount} messages)`,
+      `  availableForMessages: ${b.availableForMessages}`,
+    ];
+    return lines.join('\n');
+  }
+  /**
+   * Updates the last-call usage with data from the most recent LLM response.
+   * Unlike `currentUsage` which accumulates, this captures only the single call.
+   */
+  updateLastCallUsage(usage: Partial<UsageMetadata>): void {
+    const baseInputTokens = Number(usage.input_tokens) || 0;
+    const cacheCreation =
+      Number(usage.input_token_details?.cache_creation) || 0;
+    const cacheRead = Number(usage.input_token_details?.cache_read) || 0;
+    const outputTokens = Number(usage.output_tokens) || 0;
+    const cacheSum = cacheCreation + cacheRead;
+    const cacheIsAdditive = cacheSum > 0 && cacheSum > baseInputTokens;
+    const totalInputTokens = cacheIsAdditive
+      ? baseInputTokens + cacheSum
+      : baseInputTokens;
+    this.lastCallUsage = {
+      inputTokens: totalInputTokens,
+      outputTokens,
+      totalTokens: totalInputTokens + outputTokens,
+      cacheRead: cacheRead || undefined,
+      cacheCreation: cacheCreation || undefined,
+    };
+    this.totalTokensFresh = true;
+  }
+  /** Marks token data as stale before a new LLM call. */
+  markTokensStale(): void {
+    this.totalTokensFresh = false;
+  }
   /**
    * Marks tools as discovered via tool search.
    * Discovered tools will be included in the next model binding.
@@ -642,12 +974,10 @@ export class AgentContext {
    * @returns Array of tools to bind to model
    */
   getToolsForBinding(): t.GraphTools | undefined {
-    /** Event-driven mode: create schema-only tools from definitions */
     if (this.toolDefinitions && this.toolDefinitions.length > 0) {
       return this.getEventDrivenToolsForBinding();
     }
-    /** Traditional mode: filter actual tool instances */
     const filtered =
       !this.tools || !this.toolRegistry
         ? this.tools