npm - @agi-cli/server - Versions diffs - 0.1.136 → 0.1.137 - Mend

@agi-cli/server 0.1.136 → 0.1.137

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

package/package.json +3 -3
package/src/openapi/schemas.ts +2 -0
package/src/routes/research.ts +6 -0
package/src/runtime/message/compaction-limits.ts +5 -1
package/src/runtime/session/branch.ts +2 -0
package/src/runtime/session/db-operations.ts +132 -24
package/src/runtime/session/manager.ts +1 -0
package/src/runtime/stream/finish-handler.ts +17 -1
package/src/runtime/stream/types.ts +9 -1
package/src/tools/database/get-parent-session.ts +6 -1
package/src/tools/database/get-session-context.ts +6 -1
package/src/tools/database/query-sessions.ts +2 -0

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
 	"name": "@agi-cli/server",
-	"version": "0.1.136",
+	"version": "0.1.137",
 	"description": "HTTP API server for AGI CLI",
 	"type": "module",
 	"main": "./src/index.ts",
@@ -29,8 +29,8 @@
 		"typecheck": "tsc --noEmit"
 	},
 	"dependencies": {
-		"@agi-cli/sdk": "0.1.136",
-		"@agi-cli/database": "0.1.136",
+		"@agi-cli/sdk": "0.1.137",
+		"@agi-cli/database": "0.1.137",
 		"drizzle-orm": "^0.44.5",
 		"hono": "^4.9.9",
 		"zod": "^4.1.8"

package/src/openapi/schemas.ts CHANGED Viewed

@@ -64,6 +64,8 @@ export const schemas = {
 			lastActiveAt: { type: 'integer', format: 'int64', nullable: true },
 			totalInputTokens: { type: 'integer', nullable: true },
 			totalOutputTokens: { type: 'integer', nullable: true },
+			totalCachedTokens: { type: 'integer', nullable: true },
+			totalCacheCreationTokens: { type: 'integer', nullable: true },
 			totalToolTimeMs: { type: 'integer', nullable: true },
 			toolCounts: {
 				type: 'object',

package/src/routes/research.ts CHANGED Viewed

@@ -34,6 +34,10 @@ export function registerResearchRoutes(app: Hono) {
 				lastActiveAt: sessions.lastActiveAt,
 				provider: sessions.provider,
 				model: sessions.model,
+				totalInputTokens: sessions.totalInputTokens,
+				totalOutputTokens: sessions.totalOutputTokens,
+				totalCachedTokens: sessions.totalCachedTokens,
+				totalCacheCreationTokens: sessions.totalCacheCreationTokens,
 			})
 			.from(sessions)
 			.where(
@@ -112,6 +116,7 @@ export function registerResearchRoutes(app: Hono) {
 			totalInputTokens: null,
 			totalOutputTokens: null,
 			totalCachedTokens: null,
+			totalCacheCreationTokens: null,
 			totalReasoningTokens: null,
 			totalToolTimeMs: null,
 			toolCountsJson: null,
@@ -332,6 +337,7 @@ export function registerResearchRoutes(app: Hono) {
 			totalInputTokens: null,
 			totalOutputTokens: null,
 			totalCachedTokens: null,
+			totalCacheCreationTokens: null,
 			totalReasoningTokens: null,
 			totalToolTimeMs: null,
 			toolCountsJson: null,

package/src/runtime/message/compaction-limits.ts CHANGED Viewed

@@ -20,7 +20,11 @@ export interface ModelLimits {
 export function isOverflow(tokens: TokenUsage, limits: ModelLimits): boolean {
 	if (limits.context === 0) return false;
-	const count = tokens.input + (tokens.cacheRead ?? 0) + tokens.output;
+	const count =
+		tokens.input +
+		(tokens.cacheRead ?? 0) +
+		(tokens.cacheWrite ?? 0) +
+		tokens.output;
 	const usableContext = limits.context - limits.output;
 	return count > usableContext;

package/src/runtime/session/branch.ts CHANGED Viewed

@@ -119,6 +119,7 @@ export async function createBranch({
 			completionTokens: msg.completionTokens,
 			totalTokens: msg.totalTokens,
 			cachedInputTokens: msg.cachedInputTokens,
+			cacheCreationInputTokens: msg.cacheCreationInputTokens,
 			reasoningTokens: msg.reasoningTokens,
 			error: msg.error,
 			errorType: msg.errorType,
@@ -163,6 +164,7 @@ export async function createBranch({
 		totalInputTokens: null,
 		totalOutputTokens: null,
 		totalCachedTokens: null,
+		totalCacheCreationTokens: null,
 		totalReasoningTokens: null,
 		totalToolTimeMs: null,
 		toolCountsJson: null,

package/src/runtime/session/db-operations.ts CHANGED Viewed

@@ -1,6 +1,7 @@
 import type { getDb } from '@agi-cli/database';
 import { messages, messageParts, sessions } from '@agi-cli/database/schema';
 import { eq } from 'drizzle-orm';
+import { catalog, type ProviderId } from '@agi-cli/sdk';
 import type { RunOpts } from './queue.ts';
 export type UsageData = {
@@ -8,6 +9,7 @@ export type UsageData = {
 	outputTokens?: number;
 	totalTokens?: number;
 	cachedInputTokens?: number;
+	cacheCreationInputTokens?: number;
 	reasoningTokens?: number;
 };
@@ -16,8 +18,81 @@ export type ProviderMetadata = Record<string, unknown> & {
 		cachedPromptTokens?: number;
 		[key: string]: unknown;
 	};
+	anthropic?: {
+		cacheCreationInputTokens?: number;
+		cacheReadInputTokens?: number;
+		[key: string]: unknown;
+	};
 };
+export function normalizeUsage(
+	usage: UsageData,
+	providerMetadata: ProviderMetadata | undefined,
+	provider: ProviderId,
+): UsageData {
+	const rawInputTokens = Number(usage.inputTokens ?? 0);
+	const outputTokens = Number(usage.outputTokens ?? 0);
+	const reasoningTokens = Number(usage.reasoningTokens ?? 0);
+	const cachedInputTokens =
+		usage.cachedInputTokens != null
+			? Number(usage.cachedInputTokens)
+			: providerMetadata?.openai?.cachedPromptTokens != null
+				? Number(providerMetadata.openai.cachedPromptTokens)
+				: providerMetadata?.anthropic?.cacheReadInputTokens != null
+					? Number(providerMetadata.anthropic.cacheReadInputTokens)
+					: undefined;
+	const cacheCreationInputTokens =
+		usage.cacheCreationInputTokens != null
+			? Number(usage.cacheCreationInputTokens)
+			: providerMetadata?.anthropic?.cacheCreationInputTokens != null
+				? Number(providerMetadata.anthropic.cacheCreationInputTokens)
+				: undefined;
+	const cachedValue = cachedInputTokens ?? 0;
+	const cacheCreationValue = cacheCreationInputTokens ?? 0;
+	let inputTokens = rawInputTokens;
+	if (provider === 'openai') {
+		inputTokens = Math.max(0, rawInputTokens - cachedValue);
+	} else if (provider === 'anthropic') {
+		inputTokens = Math.max(0, rawInputTokens - cacheCreationValue);
+	}
+	return {
+		inputTokens,
+		outputTokens,
+		cachedInputTokens,
+		cacheCreationInputTokens,
+		reasoningTokens,
+	};
+}
+export function resolveUsageProvider(
+	provider: ProviderId,
+	model: string,
+): ProviderId {
+	if (
+		provider !== 'solforge' &&
+		provider !== 'openrouter' &&
+		provider !== 'opencode'
+	) {
+		return provider;
+	}
+	const entry = catalog[provider];
+	const normalizedModel = model.includes('/') ? model.split('/').at(-1) : model;
+	const modelEntry = entry?.models.find(
+		(m) => m.id?.toLowerCase() === normalizedModel?.toLowerCase(),
+	);
+	const npm = modelEntry?.provider?.npm ?? '';
+	if (npm.includes('openai')) return 'openai';
+	if (npm.includes('anthropic')) return 'anthropic';
+	if (npm.includes('google')) return 'google';
+	if (npm.includes('zai')) return 'zai';
+	return provider;
+}
 /**
  * Updates session token counts incrementally after each step.
  * Note: onStepFinish.usage is CUMULATIVE per message, so we compute DELTA and add to session.
@@ -30,6 +105,13 @@ export async function updateSessionTokensIncremental(
 ) {
 	if (!usage || !db) return;
+	const usageProvider = resolveUsageProvider(opts.provider, opts.model);
+	const normalizedUsage = normalizeUsage(
+		usage,
+		providerMetadata,
+		usageProvider,
+	);
 	// Read session totals
 	const sessRows = await db
 		.select()
@@ -42,6 +124,7 @@ export async function updateSessionTokensIncremental(
 	const priorInputSess = Number(sess.totalInputTokens ?? 0);
 	const priorOutputSess = Number(sess.totalOutputTokens ?? 0);
 	const priorCachedSess = Number(sess.totalCachedTokens ?? 0);
+	const priorCacheCreationSess = Number(sess.totalCacheCreationTokens ?? 0);
 	const priorReasoningSess = Number(sess.totalReasoningTokens ?? 0);
 	// Read current message totals to compute delta
@@ -54,38 +137,47 @@ export async function updateSessionTokensIncremental(
 	const priorPromptMsg = Number(msg?.promptTokens ?? 0);
 	const priorCompletionMsg = Number(msg?.completionTokens ?? 0);
 	const priorCachedMsg = Number(msg?.cachedInputTokens ?? 0);
+	const priorCacheCreationMsg = Number(msg?.cacheCreationInputTokens ?? 0);
 	const priorReasoningMsg = Number(msg?.reasoningTokens ?? 0);
 	// Treat usage as cumulative per-message for this step
 	const cumPrompt =
-		usage.inputTokens != null ? Number(usage.inputTokens) : priorPromptMsg;
+		normalizedUsage.inputTokens != null
+			? Number(normalizedUsage.inputTokens)
+			: priorPromptMsg;
 	const cumCompletion =
-		usage.outputTokens != null
-			? Number(usage.outputTokens)
+		normalizedUsage.outputTokens != null
+			? Number(normalizedUsage.outputTokens)
 			: priorCompletionMsg;
 	const cumReasoning =
-		usage.reasoningTokens != null
-			? Number(usage.reasoningTokens)
+		normalizedUsage.reasoningTokens != null
+			? Number(normalizedUsage.reasoningTokens)
 			: priorReasoningMsg;
 	const cumCached =
-		usage.cachedInputTokens != null
-			? Number(usage.cachedInputTokens)
-			: providerMetadata?.openai?.cachedPromptTokens != null
-				? Number(providerMetadata.openai.cachedPromptTokens)
-				: priorCachedMsg;
+		normalizedUsage.cachedInputTokens != null
+			? Number(normalizedUsage.cachedInputTokens)
+			: priorCachedMsg;
+	const cumCacheCreation =
+		normalizedUsage.cacheCreationInputTokens != null
+			? Number(normalizedUsage.cacheCreationInputTokens)
+			: priorCacheCreationMsg;
 	// Compute deltas for this step; clamp to 0 in case provider reports smaller values
 	const deltaInput = Math.max(0, cumPrompt - priorPromptMsg);
 	const deltaOutput = Math.max(0, cumCompletion - priorCompletionMsg);
 	const deltaCached = Math.max(0, cumCached - priorCachedMsg);
+	const deltaCacheCreation = Math.max(
+		0,
+		cumCacheCreation - priorCacheCreationMsg,
+	);
 	const deltaReasoning = Math.max(0, cumReasoning - priorReasoningMsg);
-	// Note: AI SDK's inputTokens already excludes cached tokens for Anthropic,
-	// so we don't need to subtract deltaCached here. Just accumulate directly.
 	const nextInputSess = priorInputSess + deltaInput;
 	const nextOutputSess = priorOutputSess + deltaOutput;
 	const nextCachedSess = priorCachedSess + deltaCached;
+	const nextCacheCreationSess = priorCacheCreationSess + deltaCacheCreation;
 	const nextReasoningSess = priorReasoningSess + deltaReasoning;
 	await db
@@ -94,6 +186,7 @@ export async function updateSessionTokensIncremental(
 			totalInputTokens: nextInputSess,
 			totalOutputTokens: nextOutputSess,
 			totalCachedTokens: nextCachedSess,
+			totalCacheCreationTokens: nextCacheCreationSess,
 			totalReasoningTokens: nextReasoningSess,
 		})
 		.where(eq(sessions.id, opts.sessionId));
@@ -144,6 +237,13 @@ export async function updateMessageTokensIncremental(
 ) {
 	if (!usage || !db) return;
+	const usageProvider = resolveUsageProvider(opts.provider, opts.model);
+	const normalizedUsage = normalizeUsage(
+		usage,
+		providerMetadata,
+		usageProvider,
+	);
 	const msgRows = await db
 		.select()
 		.from(messages)
@@ -154,28 +254,35 @@ export async function updateMessageTokensIncremental(
 		const priorPrompt = Number(msg.promptTokens ?? 0);
 		const priorCompletion = Number(msg.completionTokens ?? 0);
 		const priorCached = Number(msg.cachedInputTokens ?? 0);
+		const priorCacheCreation = Number(msg.cacheCreationInputTokens ?? 0);
 		const priorReasoning = Number(msg.reasoningTokens ?? 0);
 		// Treat usage as cumulative per-message - REPLACE not ADD
 		const cumPrompt =
-			usage.inputTokens != null ? Number(usage.inputTokens) : priorPrompt;
+			normalizedUsage.inputTokens != null
+				? Number(normalizedUsage.inputTokens)
+				: priorPrompt;
 		const cumCompletion =
-			usage.outputTokens != null ? Number(usage.outputTokens) : priorCompletion;
+			normalizedUsage.outputTokens != null
+				? Number(normalizedUsage.outputTokens)
+				: priorCompletion;
 		const cumReasoning =
-			usage.reasoningTokens != null
-				? Number(usage.reasoningTokens)
+			normalizedUsage.reasoningTokens != null
+				? Number(normalizedUsage.reasoningTokens)
 				: priorReasoning;
 		const cumCached =
-			usage.cachedInputTokens != null
-				? Number(usage.cachedInputTokens)
-				: providerMetadata?.openai?.cachedPromptTokens != null
-					? Number(providerMetadata.openai.cachedPromptTokens)
-					: priorCached;
+			normalizedUsage.cachedInputTokens != null
+				? Number(normalizedUsage.cachedInputTokens)
+				: priorCached;
+		const cumCacheCreation =
+			normalizedUsage.cacheCreationInputTokens != null
+				? Number(normalizedUsage.cacheCreationInputTokens)
+				: priorCacheCreation;
-		// Note: AI SDK's totalTokens excludes cachedInputTokens for Anthropic,
-		// so we always compute total ourselves to include all token types.
-		const cumTotal = cumPrompt + cumCompletion + cumCached + cumReasoning;
+		const cumTotal =
+			cumPrompt + cumCompletion + cumCached + cumCacheCreation + cumReasoning;
 		await db
 			.update(messages)
@@ -184,6 +291,7 @@ export async function updateMessageTokensIncremental(
 				completionTokens: cumCompletion,
 				totalTokens: cumTotal,
 				cachedInputTokens: cumCached,
+				cacheCreationInputTokens: cumCacheCreation,
 				reasoningTokens: cumReasoning,
 			})
 			.where(eq(messages.id, opts.assistantMessageId));

package/src/runtime/session/manager.ts CHANGED Viewed

@@ -51,6 +51,7 @@ export async function createSession({
 		totalInputTokens: null,
 		totalOutputTokens: null,
 		totalCachedTokens: null,
+		totalCacheCreationTokens: null,
 		totalReasoningTokens: null,
 		totalToolTimeMs: null,
 		toolCountsJson: null,

package/src/runtime/stream/finish-handler.ts CHANGED Viewed

@@ -13,6 +13,10 @@ import {
 } from '../message/compaction.ts';
 import { debugLog } from '../debug/index.ts';
 import type { FinishEvent } from './types.ts';
+import {
+	normalizeUsage,
+	resolveUsageProvider,
+} from '../session/db-operations.ts';
 export function createFinishHandler(
 	opts: RunOpts,
@@ -73,8 +77,17 @@ export function createFinishHandler(
 					outputTokens: Number(sessRows[0].completionTokens ?? 0),
 					totalTokens: Number(sessRows[0].totalTokens ?? 0),
 					cachedInputTokens: Number(sessRows[0].cachedInputTokens ?? 0),
+					cacheCreationInputTokens: Number(
+						sessRows[0].cacheCreationInputTokens ?? 0,
+					),
 				}
-			: fin.usage;
+			: fin.usage
+				? normalizeUsage(
+						fin.usage,
+						undefined,
+						resolveUsageProvider(opts.provider, opts.model),
+					)
+				: undefined;
 		const costUsd = usage
 			? estimateModelCostUsd(opts.provider, opts.model, usage)
@@ -89,6 +102,9 @@ export function createFinishHandler(
 						output: usage.outputTokens ?? 0,
 						cacheRead:
 							(usage as { cachedInputTokens?: number }).cachedInputTokens ?? 0,
+						cacheWrite:
+							(usage as { cacheCreationInputTokens?: number })
+								.cacheCreationInputTokens ?? 0,
 					};
 					if (isOverflow(tokenUsage, limits)) {

package/src/runtime/stream/types.ts CHANGED Viewed

@@ -8,7 +8,15 @@ export type StepFinishEvent = {
 };
 export type FinishEvent = {
-	usage?: Pick<UsageData, 'inputTokens' | 'outputTokens' | 'totalTokens'>;
+	usage?: Pick<
+		UsageData,
+		| 'inputTokens'
+		| 'outputTokens'
+		| 'totalTokens'
+		| 'cachedInputTokens'
+		| 'cacheCreationInputTokens'
+		| 'reasoningTokens'
+	>;
 	finishReason?: string;
 };

package/src/tools/database/get-parent-session.ts CHANGED Viewed

@@ -78,7 +78,10 @@ export function buildGetParentSessionTool(
 				}
 				const totalTokens =
-					(session.totalInputTokens ?? 0) + (session.totalOutputTokens ?? 0);
+					(session.totalInputTokens ?? 0) +
+					(session.totalOutputTokens ?? 0) +
+					(session.totalCachedTokens ?? 0) +
+					(session.totalCacheCreationTokens ?? 0);
 				const stats = {
 					totalMessages: msgCountResult[0]?.count ?? 0,
@@ -87,6 +90,8 @@ export function buildGetParentSessionTool(
 					totalTokens,
 					totalInputTokens: session.totalInputTokens ?? 0,
 					totalOutputTokens: session.totalOutputTokens ?? 0,
+					totalCachedTokens: session.totalCachedTokens ?? 0,
+					totalCacheCreationTokens: session.totalCacheCreationTokens ?? 0,
 				};
 				let messagesData:

package/src/tools/database/get-session-context.ts CHANGED Viewed

@@ -75,7 +75,10 @@ export function buildGetSessionContextTool(projectRoot: string) {
 				}
 				const totalTokens =
-					(session.totalInputTokens ?? 0) + (session.totalOutputTokens ?? 0);
+					(session.totalInputTokens ?? 0) +
+					(session.totalOutputTokens ?? 0) +
+					(session.totalCachedTokens ?? 0) +
+					(session.totalCacheCreationTokens ?? 0);
 				const stats = {
 					totalMessages: msgCountResult[0]?.count ?? 0,
@@ -84,6 +87,8 @@ export function buildGetSessionContextTool(projectRoot: string) {
 					totalTokens,
 					totalInputTokens: session.totalInputTokens ?? 0,
 					totalOutputTokens: session.totalOutputTokens ?? 0,
+					totalCachedTokens: session.totalCachedTokens ?? 0,
+					totalCacheCreationTokens: session.totalCacheCreationTokens ?? 0,
 				};
 				let messagesData:

package/src/tools/database/query-sessions.ts CHANGED Viewed

@@ -82,6 +82,8 @@ export function buildQuerySessionsTool(projectRoot: string) {
 						lastActiveAt: sessions.lastActiveAt,
 						totalInputTokens: sessions.totalInputTokens,
 						totalOutputTokens: sessions.totalOutputTokens,
+						totalCachedTokens: sessions.totalCachedTokens,
+						totalCacheCreationTokens: sessions.totalCacheCreationTokens,
 						sessionType: sessions.sessionType,
 						parentSessionId: sessions.parentSessionId,
 					})