npm - jinzd-ai-cli - Versions diffs - 0.4.54 → 0.4.55 - Mend

jinzd-ai-cli 0.4.54 → 0.4.55

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

package/dist/{chunk-FOFQAEU6.js → chunk-DJ342VFS.js} RENAMED Viewed

@@ -6,7 +6,7 @@ import { platform } from "os";
 import chalk from "chalk";
 // src/core/constants.ts
-var VERSION = "0.4.54";
+var VERSION = "0.4.55";
 var APP_NAME = "ai-cli";
 var CONFIG_DIR_NAME = ".aicli";
 var CONFIG_FILE_NAME = "config.json";

package/dist/{chunk-6FYFVPVE.js → chunk-JL5NK6AR.js} RENAMED Viewed

@@ -7,7 +7,7 @@ import {
   ProviderNotFoundError,
   RateLimitError,
   schemaToJsonSchema
-} from "./chunk-TAR67QTH.js";
+} from "./chunk-YQEIQJ6K.js";
 import {
   APP_NAME,
   CONFIG_DIR_NAME,
@@ -20,7 +20,7 @@ import {
   MCP_TOOL_PREFIX,
   PLUGINS_DIR_NAME,
   VERSION
-} from "./chunk-NP5KZVP6.js";
+} from "./chunk-W7QVBFIJ.js";
 // src/config/config-manager.ts
 import { readFileSync, writeFileSync, existsSync, mkdirSync } from "fs";
@@ -312,6 +312,7 @@ var BaseProvider = class {
 };
 // src/providers/claude.ts
+var CACHE_MIN_SYSTEM_CHARS = 2e3;
 var ClaudeProvider = class extends BaseProvider {
   client;
   info = {
@@ -382,6 +383,52 @@ var ClaudeProvider = class extends BaseProvider {
     }
     return blocks.length > 0 ? blocks : "";
   }
+  /**
+   * Build a cacheable system prompt payload.
+   * When the prompt is long enough to be worth caching, return an array with a
+   * single text block carrying `cache_control: { type: 'ephemeral' }`. This caches
+   * system + memory + context files across every request in an agentic loop.
+   * Short prompts pass through as a plain string (no caching overhead).
+   */
+  buildSystemParam(systemPrompt) {
+    if (!systemPrompt) return void 0;
+    if (systemPrompt.length < CACHE_MIN_SYSTEM_CHARS) return systemPrompt;
+    return [
+      {
+        type: "text",
+        text: systemPrompt,
+        cache_control: { type: "ephemeral" }
+      }
+    ];
+  }
+  /**
+   * Mark the last tool definition with `cache_control: ephemeral` so the entire
+   * tool block (all 24+ tools) is cached together. Anthropic caches everything
+   * up to and including a cache breakpoint, so one marker covers all tools.
+   * Returns a new array — does not mutate the input.
+   */
+  addToolsCacheControl(tools) {
+    if (tools.length === 0) return tools;
+    const last = tools[tools.length - 1];
+    return [
+      ...tools.slice(0, -1),
+      { ...last, cache_control: { type: "ephemeral" } }
+    ];
+  }
+  /** Extract usage (including cache fields) from an Anthropic response. */
+  extractUsage(u) {
+    const usage = {
+      inputTokens: u.input_tokens,
+      outputTokens: u.output_tokens
+    };
+    if (u.cache_creation_input_tokens != null && u.cache_creation_input_tokens > 0) {
+      usage.cacheCreationTokens = u.cache_creation_input_tokens;
+    }
+    if (u.cache_read_input_tokens != null && u.cache_read_input_tokens > 0) {
+      usage.cacheReadTokens = u.cache_read_input_tokens;
+    }
+    return usage;
+  }
   /**
    * 构建 Extended Thinking 参数。
    * - thinking 启用时 temperature 必须为 1 或不设置（Anthropic API 要求）
@@ -432,7 +479,7 @@ var ClaudeProvider = class extends BaseProvider {
       const response = await this.client.messages.create({
         model: request.model,
         messages,
-        system: request.systemPrompt,
+        system: this.buildSystemParam(request.systemPrompt),
         max_tokens: request.maxTokens ?? 8192,
         temperature,
         thinking
@@ -441,10 +488,7 @@ var ClaudeProvider = class extends BaseProvider {
       return {
         content,
         model: response.model,
-        usage: {
-          inputTokens: response.usage.input_tokens,
-          outputTokens: response.usage.output_tokens
-        }
+        usage: this.extractUsage(response.usage)
       };
     } catch (err) {
       throw this.wrapError(err);
@@ -460,7 +504,7 @@ var ClaudeProvider = class extends BaseProvider {
       const stream = this.client.messages.stream({
         model: request.model,
         messages,
-        system: request.systemPrompt,
+        system: this.buildSystemParam(request.systemPrompt),
         max_tokens: request.maxTokens ?? 8192,
         temperature,
         thinking
@@ -493,20 +537,22 @@ var ClaudeProvider = class extends BaseProvider {
   }
   async chatWithTools(request, tools) {
     try {
-      const anthropicTools = tools.map((t) => ({
-        name: t.name,
-        description: t.description,
-        input_schema: {
-          type: "object",
-          properties: Object.fromEntries(
-            Object.entries(t.parameters).map(([key, schema]) => [
-              key,
-              schemaToJsonSchema(schema)
-            ])
-          ),
-          required: Object.entries(t.parameters).filter(([, s]) => s.required).map(([k]) => k)
-        }
-      }));
+      const anthropicTools = this.addToolsCacheControl(
+        tools.map((t) => ({
+          name: t.name,
+          description: t.description,
+          input_schema: {
+            type: "object",
+            properties: Object.fromEntries(
+              Object.entries(t.parameters).map(([key, schema]) => [
+                key,
+                schemaToJsonSchema(schema)
+              ])
+            ),
+            required: Object.entries(t.parameters).filter(([, s]) => s.required).map(([k]) => k)
+          }
+        }))
+      );
       const baseMessages = request.messages.filter((m) => m.role !== "system").map((m) => ({ role: m.role, content: this.contentToClaudeParts(m.content) }));
       const extraMessages = request._extraMessages ?? [];
       const allMessages = [...baseMessages, ...extraMessages];
@@ -515,15 +561,12 @@ var ClaudeProvider = class extends BaseProvider {
         model: request.model,
         messages: allMessages,
         tools: anthropicTools,
-        system: request.systemPrompt,
+        system: this.buildSystemParam(request.systemPrompt),
         max_tokens: request.maxTokens ?? 8192,
         temperature,
         thinking
       });
-      const usage = {
-        inputTokens: response.usage.input_tokens,
-        outputTokens: response.usage.output_tokens
-      };
+      const usage = this.extractUsage(response.usage);
       const toolUseBlocks = response.content.filter(
         (b) => b.type === "tool_use"
       );
@@ -547,20 +590,22 @@ var ClaudeProvider = class extends BaseProvider {
    * 同时收集原始 content blocks 供 buildToolResultMessages 使用。
    */
   async *chatWithToolsStream(request, tools) {
-    const anthropicTools = tools.map((t) => ({
-      name: t.name,
-      description: t.description,
-      input_schema: {
-        type: "object",
-        properties: Object.fromEntries(
-          Object.entries(t.parameters).map(([key, schema]) => [
-            key,
-            schemaToJsonSchema(schema)
-          ])
-        ),
-        required: Object.entries(t.parameters).filter(([, s]) => s.required).map(([k]) => k)
-      }
-    }));
+    const anthropicTools = this.addToolsCacheControl(
+      tools.map((t) => ({
+        name: t.name,
+        description: t.description,
+        input_schema: {
+          type: "object",
+          properties: Object.fromEntries(
+            Object.entries(t.parameters).map(([key, schema]) => [
+              key,
+              schemaToJsonSchema(schema)
+            ])
+          ),
+          required: Object.entries(t.parameters).filter(([, s]) => s.required).map(([k]) => k)
+        }
+      }))
+    );
     const baseMessages = request.messages.filter((m) => m.role !== "system").map((m) => ({ role: m.role, content: this.contentToClaudeParts(m.content) }));
     const extraMessages = request._extraMessages ?? [];
     const allMessages = [...baseMessages, ...extraMessages];
@@ -572,7 +617,7 @@ var ClaudeProvider = class extends BaseProvider {
         model: request.model,
         messages: allMessages,
         tools: anthropicTools,
-        system: request.systemPrompt,
+        system: this.buildSystemParam(request.systemPrompt),
         max_tokens: request.maxTokens ?? 8192,
         temperature,
         thinking
@@ -580,7 +625,13 @@ var ClaudeProvider = class extends BaseProvider {
       let currentBlockType = null;
       let currentToolIndex = 0;
       let currentBlockData = {};
+      let startUsage = null;
       for await (const event of stream) {
+        if (event.type === "message_start") {
+          const msgUsage = event.message?.usage;
+          if (msgUsage) startUsage = msgUsage;
+          continue;
+        }
         if (event.type === "content_block_start") {
           const block = event.content_block;
           currentBlockType = block.type;
@@ -641,15 +692,17 @@ var ClaudeProvider = class extends BaseProvider {
           currentBlockType = null;
           currentBlockData = {};
         } else if (event.type === "message_delta") {
-          const usage = event.usage;
-          if (usage) {
+          const deltaUsage = event.usage;
+          if (deltaUsage) {
             doneEmitted = true;
             yield {
               type: "done",
-              usage: {
-                inputTokens: usage.input_tokens ?? 0,
-                outputTokens: usage.output_tokens ?? 0
-              },
+              usage: this.extractUsage({
+                input_tokens: startUsage?.input_tokens ?? deltaUsage.input_tokens ?? 0,
+                output_tokens: deltaUsage.output_tokens ?? 0,
+                cache_creation_input_tokens: startUsage?.cache_creation_input_tokens,
+                cache_read_input_tokens: startUsage?.cache_read_input_tokens
+              }),
               rawContent: rawContentBlocks
             };
           }
@@ -1003,6 +1056,16 @@ Node.js does not automatically use system proxies. Try one of the following:
 // src/providers/openai-compatible.ts
 import OpenAI from "openai";
+function toUsage(u) {
+  if (!u) return void 0;
+  const cached = u.prompt_tokens_details?.cached_tokens ?? 0;
+  const usage = {
+    inputTokens: Math.max(0, u.prompt_tokens - cached),
+    outputTokens: u.completion_tokens
+  };
+  if (cached > 0) usage.cacheReadTokens = cached;
+  return usage;
+}
 var OpenAICompatibleProvider = class extends BaseProvider {
   client;
   defaultTimeout = 6e4;
@@ -1056,10 +1119,7 @@ var OpenAICompatibleProvider = class extends BaseProvider {
       return {
         content: firstChoice.message.content ?? "",
         model: response.model,
-        usage: response.usage ? {
-          inputTokens: response.usage.prompt_tokens,
-          outputTokens: response.usage.completion_tokens
-        } : void 0
+        usage: toUsage(response.usage)
       };
     } catch (err) {
       throw this.wrapError(err);
@@ -1088,10 +1148,7 @@ var OpenAICompatibleProvider = class extends BaseProvider {
           yield {
             delta: "",
             done: true,
-            usage: {
-              inputTokens: chunk.usage.prompt_tokens,
-              outputTokens: chunk.usage.completion_tokens
-            }
+            usage: toUsage(chunk.usage)
           };
           continue;
         }
@@ -1159,10 +1216,7 @@ var OpenAICompatibleProvider = class extends BaseProvider {
         return { content: "", usage: void 0 };
       }
       const message = firstChoice.message;
-      const usage = response.usage ? {
-        inputTokens: response.usage.prompt_tokens,
-        outputTokens: response.usage.completion_tokens
-      } : void 0;
+      const usage = toUsage(response.usage);
       const reasoningContent = message.reasoning_content;
       if (message.tool_calls && message.tool_calls.length > 0) {
         const toolCalls = message.tool_calls.map((tc) => {
@@ -1275,10 +1329,7 @@ var OpenAICompatibleProvider = class extends BaseProvider {
           }
           yield {
             type: "done",
-            usage: {
-              inputTokens: chunk.usage.prompt_tokens,
-              outputTokens: chunk.usage.completion_tokens
-            }
+            usage: toUsage(chunk.usage)
           };
           continue;
         }
@@ -2331,7 +2382,12 @@ var Session = class _Session {
   updated;
   messages = [];
   title;
-  tokenUsage = { inputTokens: 0, outputTokens: 0 };
+  tokenUsage = {
+    inputTokens: 0,
+    outputTokens: 0,
+    cacheCreationTokens: 0,
+    cacheReadTokens: 0
+  };
   checkpoints = [];
   constructor(id, provider, model) {
     this.id = id;
@@ -2359,11 +2415,18 @@ var Session = class _Session {
   addTokenUsage(usage) {
     this.tokenUsage.inputTokens += usage.inputTokens;
     this.tokenUsage.outputTokens += usage.outputTokens;
+    this.tokenUsage.cacheCreationTokens += usage.cacheCreationTokens ?? 0;
+    this.tokenUsage.cacheReadTokens += usage.cacheReadTokens ?? 0;
   }
   clear() {
     this.messages = [];
     this.title = void 0;
-    this.tokenUsage = { inputTokens: 0, outputTokens: 0 };
+    this.tokenUsage = {
+      inputTokens: 0,
+      outputTokens: 0,
+      cacheCreationTokens: 0,
+      cacheReadTokens: 0
+    };
     this.updated = /* @__PURE__ */ new Date();
   }
   /**
@@ -2491,7 +2554,9 @@ var Session = class _Session {
     if (tu && typeof tu === "object") {
       session.tokenUsage = {
         inputTokens: typeof tu.inputTokens === "number" ? tu.inputTokens : 0,
-        outputTokens: typeof tu.outputTokens === "number" ? tu.outputTokens : 0
+        outputTokens: typeof tu.outputTokens === "number" ? tu.outputTokens : 0,
+        cacheCreationTokens: typeof tu.cacheCreationTokens === "number" ? tu.cacheCreationTokens : 0,
+        cacheReadTokens: typeof tu.cacheReadTokens === "number" ? tu.cacheReadTokens : 0
       };
     }
     if (Array.isArray(d.checkpoints)) {
@@ -3495,6 +3560,87 @@ async function setupProxy(configProxy) {
   }
 }
+// src/core/pricing.ts
+var PRICING_TABLE = {
+  // ── Anthropic Claude ──────────────────────────────────────────
+  "claude-opus-4-6": { input: 15, output: 75, cacheWrite: 18.75, cacheRead: 1.5 },
+  "claude-opus-4-5": { input: 15, output: 75, cacheWrite: 18.75, cacheRead: 1.5 },
+  "claude-sonnet-4-6": { input: 3, output: 15, cacheWrite: 3.75, cacheRead: 0.3 },
+  "claude-sonnet-4-5-20250929": { input: 3, output: 15, cacheWrite: 3.75, cacheRead: 0.3 },
+  "claude-haiku-4-5-20251001": { input: 1, output: 5, cacheWrite: 1.25, cacheRead: 0.1 },
+  "claude-haiku-4-5": { input: 1, output: 5, cacheWrite: 1.25, cacheRead: 0.1 },
+  // Legacy Claude 3.x families (prefix fallback handles minor date suffixes)
+  "claude-3-5-sonnet": { input: 3, output: 15, cacheWrite: 3.75, cacheRead: 0.3 },
+  "claude-3-5-haiku": { input: 0.8, output: 4, cacheWrite: 1, cacheRead: 0.08 },
+  "claude-3-opus": { input: 15, output: 75, cacheWrite: 18.75, cacheRead: 1.5 },
+  // ── OpenAI ────────────────────────────────────────────────────
+  "gpt-4o": { input: 2.5, output: 10, cacheRead: 1.25 },
+  "gpt-4o-mini": { input: 0.15, output: 0.6, cacheRead: 0.075 },
+  "gpt-4-turbo": { input: 10, output: 30 },
+  "gpt-4": { input: 30, output: 60 },
+  "gpt-4.1": { input: 2, output: 8, cacheRead: 0.5 },
+  "gpt-4.1-mini": { input: 0.4, output: 1.6, cacheRead: 0.1 },
+  "gpt-4.1-nano": { input: 0.1, output: 0.4, cacheRead: 0.025 },
+  "o1": { input: 15, output: 60, cacheRead: 7.5 },
+  "o1-mini": { input: 3, output: 12, cacheRead: 1.5 },
+  "o3": { input: 10, output: 40, cacheRead: 2.5 },
+  "o3-mini": { input: 1.1, output: 4.4, cacheRead: 0.55 },
+  // ── Google Gemini ─────────────────────────────────────────────
+  "gemini-2.5-pro": { input: 1.25, output: 10 },
+  "gemini-2.5-flash": { input: 0.3, output: 2.5 },
+  "gemini-2.0-flash": { input: 0.1, output: 0.4 },
+  "gemini-1.5-pro": { input: 1.25, output: 5 },
+  "gemini-1.5-flash": { input: 0.075, output: 0.3 },
+  // ── DeepSeek ──────────────────────────────────────────────────
+  "deepseek-chat": { input: 0.27, output: 1.1, cacheRead: 0.07 },
+  "deepseek-reasoner": { input: 0.55, output: 2.19, cacheRead: 0.14 },
+  "deepseek-v3": { input: 0.27, output: 1.1, cacheRead: 0.07 },
+  // ── Moonshot Kimi ─────────────────────────────────────────────
+  "moonshot-v1-8k": { input: 0.17, output: 0.17 },
+  "moonshot-v1-32k": { input: 0.33, output: 0.33 },
+  "moonshot-v1-128k": { input: 0.83, output: 0.83 },
+  "kimi-k2": { input: 0.6, output: 2.5 },
+  "kimi-latest": { input: 0.6, output: 2.5 },
+  // ── Zhipu GLM ─────────────────────────────────────────────────
+  "glm-4-plus": { input: 0.7, output: 0.7 },
+  "glm-4": { input: 0.14, output: 0.14 },
+  "glm-4-flash": { input: 0, output: 0 },
+  "glm-4.5": { input: 0.29, output: 1.14 },
+  "glm-4.6": { input: 0.6, output: 2.2 }
+  // ── OpenRouter (pass-through — actual cost depends on underlying model) ──
+  // Left empty; callers should resolve via underlying model ID.
+  // ── Ollama (local, zero cost) ─────────────────────────────────
+  // Handled via provider check below.
+};
+var FREE_PROVIDERS = /* @__PURE__ */ new Set(["ollama"]);
+function getPricing(provider, model) {
+  if (FREE_PROVIDERS.has(provider.toLowerCase())) {
+    return { input: 0, output: 0 };
+  }
+  const key = model.toLowerCase();
+  if (PRICING_TABLE[key]) return PRICING_TABLE[key];
+  const keys = Object.keys(PRICING_TABLE).sort((a, b) => b.length - a.length);
+  for (const k of keys) {
+    if (key.startsWith(k)) return PRICING_TABLE[k];
+  }
+  return null;
+}
+function computeCost(provider, model, usage) {
+  const p = getPricing(provider, model);
+  if (!p) return null;
+  const input = usage.inputTokens * p.input;
+  const output = usage.outputTokens * p.output;
+  const cacheWrite = (usage.cacheCreationTokens ?? 0) * (p.cacheWrite ?? p.input);
+  const cacheRead = (usage.cacheReadTokens ?? 0) * (p.cacheRead ?? p.input);
+  return (input + output + cacheWrite + cacheRead) / 1e6;
+}
+function formatCost(amount) {
+  if (amount === 0) return "$0.0000";
+  if (amount < 0.01) return `$${amount.toFixed(4)}`;
+  if (amount < 1) return `$${amount.toFixed(3)}`;
+  return `$${amount.toFixed(2)}`;
+}
 // src/repl/dev-state.ts
 import { existsSync as existsSync5, readFileSync as readFileSync4, writeFileSync as writeFileSync3, unlinkSync as unlinkSync2, mkdirSync as mkdirSync4 } from "fs";
 import { join as join5 } from "path";
@@ -3601,6 +3747,9 @@ export {
   getGitRoot,
   getGitContext,
   formatGitContextForPrompt,
+  getPricing,
+  computeCost,
+  formatCost,
   parseSimpleYaml,
   SNAPSHOT_PROMPT,
   sessionHasMeaningfulContent,

package/dist/{chunk-NP5KZVP6.js → chunk-W7QVBFIJ.js} RENAMED Viewed

@@ -8,7 +8,7 @@ import { platform } from "os";
 import chalk from "chalk";
 // src/core/constants.ts
-var VERSION = "0.4.54";
+var VERSION = "0.4.55";
 var APP_NAME = "ai-cli";
 var CONFIG_DIR_NAME = ".aicli";
 var CONFIG_FILE_NAME = "config.json";

package/dist/{chunk-TAR67QTH.js → chunk-YQEIQJ6K.js} RENAMED Viewed

@@ -10,7 +10,7 @@ import {
   SUBAGENT_DEFAULT_MAX_ROUNDS,
   SUBAGENT_MAX_ROUNDS_LIMIT,
   runTestsTool
-} from "./chunk-NP5KZVP6.js";
+} from "./chunk-W7QVBFIJ.js";
 // src/tools/builtin/bash.ts
 import { execSync } from "child_process";

package/dist/{hub-6V54V4O3.js → hub-AUWP4SWJ.js} RENAMED Viewed

@@ -385,7 +385,7 @@ ${content}`);
   }
 }
 async function runTaskMode(config, providers, configManager, topic) {
-  const { TaskOrchestrator } = await import("./task-orchestrator-TSY7CJE6.js");
+  const { TaskOrchestrator } = await import("./task-orchestrator-MWO6A4KQ.js");
   const orchestrator = new TaskOrchestrator(config, providers, configManager);
   let interrupted = false;
   const onSigint = () => {

package/dist/index.js CHANGED Viewed

@@ -11,20 +11,23 @@ import {
   buildPhantomCorrectionMessage,
   buildWriteRoundReminder,
   clearDevState,
+  computeCost,
   detectsHallucinatedFileOp,
   extractWrittenFilePaths,
   findPhantomClaims,
+  formatCost,
   formatGitContextForPrompt,
   getContentText,
   getGitContext,
   getGitRoot,
+  getPricing,
   hadPreviousWriteToolCalls,
   loadDevState,
   parseSimpleYaml,
   saveDevState,
   sessionHasMeaningfulContent,
   setupProxy
-} from "./chunk-6FYFVPVE.js";
+} from "./chunk-JL5NK6AR.js";
 import {
   ToolExecutor,
   ToolRegistry,
@@ -38,7 +41,7 @@ import {
   spawnAgentContext,
   theme,
   undoStack
-} from "./chunk-TAR67QTH.js";
+} from "./chunk-YQEIQJ6K.js";
 import {
   fileCheckpoints
 } from "./chunk-4BKXL7SM.js";
@@ -63,7 +66,7 @@ import {
   SKILLS_DIR_NAME,
   VERSION,
   buildUserIdentityPrompt
-} from "./chunk-NP5KZVP6.js";
+} from "./chunk-W7QVBFIJ.js";
 // src/index.ts
 import { program } from "commander";
@@ -487,8 +490,12 @@ Error${typeName}: ${lines.join("\n")}
   renderUsage(usage, sessionTotal) {
     const total = usage.inputTokens + usage.outputTokens;
     let line = theme.dim("\u{1F4CA} ") + theme.dim(`in ${usage.inputTokens.toLocaleString()}`) + theme.dim(" + ") + theme.dim(`out ${usage.outputTokens.toLocaleString()}`) + theme.dim(` = ${total.toLocaleString()} tokens`);
+    const cacheRead = usage.cacheReadTokens ?? 0;
+    if (cacheRead > 0) {
+      line += theme.dim(`  \u2502  cache: ${cacheRead.toLocaleString()}`);
+    }
     if (sessionTotal) {
-      const sessionSum = sessionTotal.inputTokens + sessionTotal.outputTokens;
+      const sessionSum = sessionTotal.inputTokens + sessionTotal.outputTokens + (sessionTotal.cacheCreationTokens ?? 0) + (sessionTotal.cacheReadTokens ?? 0);
       line += theme.dim(`  \u2502  session total: ${sessionSum.toLocaleString()}`);
     }
     process.stdout.write(line + "\n\n");
@@ -1217,11 +1224,18 @@ function createDefaultCommands() {
         if (sys) {
           console.log(`  System   : ${sys.slice(0, 60)}...`);
         }
-        const totalTokens = tokenUsage.inputTokens + tokenUsage.outputTokens;
+        const cacheRead = tokenUsage.cacheReadTokens ?? 0;
+        const cacheCreate = tokenUsage.cacheCreationTokens ?? 0;
+        const totalTokens = tokenUsage.inputTokens + tokenUsage.outputTokens + cacheRead + cacheCreate;
         if (totalTokens > 0) {
+          const cacheSuffix = cacheRead > 0 || cacheCreate > 0 ? ` [cache: +${cacheCreate.toLocaleString()} / -${cacheRead.toLocaleString()}]` : "";
           console.log(
-            `  Tokens   : in ${tokenUsage.inputTokens.toLocaleString()} + out ${tokenUsage.outputTokens.toLocaleString()} = ${totalTokens.toLocaleString()} (session total)`
+            `  Tokens   : in ${tokenUsage.inputTokens.toLocaleString()} + out ${tokenUsage.outputTokens.toLocaleString()} = ${totalTokens.toLocaleString()}${cacheSuffix}`
           );
+          const cost = computeCost(ctx.getCurrentProvider(), ctx.getCurrentModel(), tokenUsage);
+          if (cost != null) {
+            console.log(`  Cost     : ${formatCost(cost)} (session total)`);
+          }
         }
         const ctxWindowSize = ctx.getContextWindowSize();
         if (ctxWindowSize > 0) {
@@ -1823,7 +1837,7 @@ ${hint}` : "")
     },
     {
       name: "cost",
-      description: "Show session token usage summary",
+      description: "Show session token usage, prompt-cache hits, and USD cost",
       usage: "/cost [reset]",
       execute(args, ctx) {
         const sub = args[0]?.toLowerCase();
@@ -1832,24 +1846,65 @@ ${hint}` : "")
           ctx.renderer.printSuccess("Session token counters reset.");
           return;
         }
-        const usage = ctx.getSessionTokenUsage();
-        const totalTokens = usage.inputTokens + usage.outputTokens;
+        const session = ctx.sessions.current;
+        const usage = session?.tokenUsage ?? {
+          inputTokens: 0,
+          outputTokens: 0,
+          cacheCreationTokens: 0,
+          cacheReadTokens: 0
+        };
+        const cacheCreate = usage.cacheCreationTokens ?? 0;
+        const cacheRead = usage.cacheReadTokens ?? 0;
+        const totalTokens = usage.inputTokens + usage.outputTokens + cacheCreate + cacheRead;
         if (totalTokens === 0) {
           ctx.renderer.printInfo("No token usage recorded this session.");
           return;
         }
+        const provider = ctx.getCurrentProvider();
+        const model = ctx.getCurrentModel();
+        const cost = computeCost(provider, model, usage);
+        const pricing = getPricing(provider, model);
+        let savings = null;
+        if (cost != null && pricing && cacheRead > 0) {
+          const costWithoutCache = computeCost(provider, model, {
+            inputTokens: usage.inputTokens + cacheRead,
+            outputTokens: usage.outputTokens,
+            cacheCreationTokens: cacheCreate,
+            cacheReadTokens: 0
+          });
+          if (costWithoutCache != null) savings = costWithoutCache - cost;
+        }
         console.log();
-        console.log(theme.heading("  \u{1F4CA} Session Token Usage"));
-        console.log(theme.dim("  " + "\u2500".repeat(40)));
-        console.log(theme.dim("  Input tokens  : ") + chalk2.white(usage.inputTokens.toLocaleString()));
-        console.log(theme.dim("  Output tokens : ") + chalk2.white(usage.outputTokens.toLocaleString()));
-        console.log(theme.dim("  Total tokens  : ") + chalk2.bold.white(totalTokens.toLocaleString()));
-        console.log(theme.dim("  " + "\u2500".repeat(40)));
-        const session = ctx.sessions.current;
+        console.log(theme.heading("  \u{1F4B0} Session Cost & Token Usage"));
+        console.log(theme.dim("  " + "\u2500".repeat(48)));
+        console.log(theme.dim("  Input (uncached) : ") + chalk2.white(usage.inputTokens.toLocaleString().padStart(12)));
+        console.log(theme.dim("  Output           : ") + chalk2.white(usage.outputTokens.toLocaleString().padStart(12)));
+        if (cacheCreate > 0) {
+          console.log(theme.dim("  Cache write      : ") + chalk2.yellow(cacheCreate.toLocaleString().padStart(12)));
+        }
+        if (cacheRead > 0) {
+          const pct = Math.round(cacheRead / (cacheRead + usage.inputTokens) * 100);
+          console.log(
+            theme.dim("  Cache read       : ") + chalk2.green(cacheRead.toLocaleString().padStart(12)) + theme.dim(`  (${pct}% hit rate)`)
+          );
+        }
+        console.log(theme.dim("  Total tokens     : ") + chalk2.bold.white(totalTokens.toLocaleString().padStart(12)));
+        console.log(theme.dim("  " + "\u2500".repeat(48)));
+        if (cost != null) {
+          console.log(theme.dim("  Cost             : ") + chalk2.bold.cyan(formatCost(cost).padStart(12)));
+          if (savings != null && savings > 0) {
+            console.log(
+              theme.dim("  Cache savings    : ") + chalk2.green(`-${formatCost(savings)}`.padStart(12)) + theme.dim(`  (vs no cache)`)
+            );
+          }
+        } else {
+          console.log(theme.dim("  Cost             : ") + theme.dim("      \u2014 (pricing unknown)"));
+        }
+        console.log(theme.dim("  " + "\u2500".repeat(48)));
         if (session) {
-          console.log(theme.dim("  Provider      : ") + theme.dim(ctx.getCurrentProvider()));
-          console.log(theme.dim("  Model         : ") + theme.dim(ctx.getCurrentModel()));
-          console.log(theme.dim("  Messages      : ") + theme.dim(String(session.messages.length)));
+          console.log(theme.dim("  Provider         : ") + theme.dim(provider));
+          console.log(theme.dim("  Model            : ") + theme.dim(model));
+          console.log(theme.dim("  Messages         : ") + theme.dim(String(session.messages.length)));
         }
         console.log();
       }
@@ -2106,7 +2161,7 @@ ${hint}` : "")
       usage: "/test [command|filter]",
       async execute(args, ctx) {
         try {
-          const { executeTests } = await import("./run-tests-P53FNUJY.js");
+          const { executeTests } = await import("./run-tests-X4PCLXA2.js");
           const argStr = args.join(" ").trim();
           let testArgs = {};
           if (argStr) {
@@ -3344,7 +3399,14 @@ var Repl = class {
   /** 当前加载的层级上下文（全局/项目/子目录） */
   contextLayers = [];
   /** 本次会话累计 token 用量 */
-  sessionTokenUsage = { inputTokens: 0, outputTokens: 0 };
+  sessionTokenUsage = { inputTokens: 0, outputTokens: 0, cacheCreationTokens: 0, cacheReadTokens: 0 };
+  /** Fold a single-request TokenUsage (with optional cache fields) into sessionTokenUsage. */
+  addSessionUsage(u) {
+    this.sessionTokenUsage.inputTokens += u.inputTokens;
+    this.sessionTokenUsage.outputTokens += u.outputTokens;
+    this.sessionTokenUsage.cacheCreationTokens += u.cacheCreationTokens ?? 0;
+    this.sessionTokenUsage.cacheReadTokens += u.cacheReadTokens ?? 0;
+  }
   /** 启动时检测到的 Git 分支（无 git 仓库时为 null） */
   gitBranch = null;
   /** MCP 多服务器管理器（无 MCP 配置时为 null） */
@@ -4607,8 +4669,7 @@ Session '${this.resumeSessionId}' not found.
         session.addMessage({ role: "assistant", content, timestamp: /* @__PURE__ */ new Date() });
         this.events.emit("message.after", { content });
         if (usage) {
-          this.sessionTokenUsage.inputTokens += usage.inputTokens;
-          this.sessionTokenUsage.outputTokens += usage.outputTokens;
+          this.addSessionUsage(usage);
           session.addTokenUsage(usage);
           if (showTokens && !tokensShown) {
             this.renderer.renderUsage(usage, this.sessionTokenUsage);
@@ -4637,8 +4698,7 @@ Session '${this.resumeSessionId}' not found.
         session.addMessage({ role: "assistant", content: response.content, timestamp: /* @__PURE__ */ new Date() });
         this.events.emit("message.after", { content: response.content });
         if (response.usage) {
-          this.sessionTokenUsage.inputTokens += response.usage.inputTokens;
-          this.sessionTokenUsage.outputTokens += response.usage.outputTokens;
+          this.addSessionUsage(response.usage);
           session.addTokenUsage(response.usage);
           if (this.shouldShowTokens()) {
             this.renderer.renderUsage(response.usage, this.sessionTokenUsage);
@@ -4797,7 +4857,7 @@ You have a maximum of ${maxToolRounds} tool call rounds for this task. Plan effi
     const modelParams = this.getModelParams();
     const useStreaming = this.config.get("ui").streaming;
     const spinner = this.renderer.showSpinner("Thinking...");
-    const roundUsage = { inputTokens: 0, outputTokens: 0 };
+    const roundUsage = { inputTokens: 0, outputTokens: 0, cacheCreationTokens: 0, cacheReadTokens: 0 };
     const supportsStreamingTools = useStreaming && typeof provider.chatWithToolsStream === "function";
     let consecutiveFreeRounds = 0;
     let lastToolCallSignature = "";
@@ -4904,6 +4964,8 @@ You have a maximum of ${maxToolRounds} tool call rounds for this task. Plan effi
         if (result.usage) {
           roundUsage.inputTokens += result.usage.inputTokens;
           roundUsage.outputTokens += result.usage.outputTokens;
+          roundUsage.cacheCreationTokens += result.usage.cacheCreationTokens ?? 0;
+          roundUsage.cacheReadTokens += result.usage.cacheReadTokens ?? 0;
         }
         if ("content" in result) {
           const hasWriteTools = toolDefs.some((t) => t.name === "write_file" || t.name === "edit_file");
@@ -4954,8 +5016,7 @@ You have a maximum of ${maxToolRounds} tool call rounds for this task. Plan effi
           });
           this.events.emit("message.after", { content: finalContent });
           if (roundUsage.inputTokens > 0 || roundUsage.outputTokens > 0) {
-            this.sessionTokenUsage.inputTokens += roundUsage.inputTokens;
-            this.sessionTokenUsage.outputTokens += roundUsage.outputTokens;
+            this.addSessionUsage(roundUsage);
             session.addTokenUsage(roundUsage);
             if (this.shouldShowTokens()) {
               this.renderer.renderUsage(roundUsage, this.sessionTokenUsage);
@@ -4993,6 +5054,8 @@ You have a maximum of ${maxToolRounds} tool call rounds for this task. Plan effi
               if (genUsage) {
                 roundUsage.inputTokens += genUsage.inputTokens;
                 roundUsage.outputTokens += genUsage.outputTokens;
+                roundUsage.cacheCreationTokens += genUsage.cacheCreationTokens ?? 0;
+                roundUsage.cacheReadTokens += genUsage.cacheReadTokens ?? 0;
               }
               session.addMessage({ role: "assistant", content: genContent, timestamp: /* @__PURE__ */ new Date() });
               this.events.emit("message.after", { content: genContent });
@@ -5007,8 +5070,7 @@ You have a maximum of ${maxToolRounds} tool call rounds for this task. Plan effi
               const newMsgs2 = provider.buildToolResultMessages(result.toolCalls, syntheticResults, reasoningContent2);
               extraMessages.push(...newMsgs2);
               if (roundUsage.inputTokens > 0 || roundUsage.outputTokens > 0) {
-                this.sessionTokenUsage.inputTokens += roundUsage.inputTokens;
-                this.sessionTokenUsage.outputTokens += roundUsage.outputTokens;
+                this.addSessionUsage(roundUsage);
                 session.addTokenUsage(roundUsage);
                 if (teeShowTokens && !teeTokShown) {
                   this.renderer.renderUsage(roundUsage, this.sessionTokenUsage);
@@ -5204,6 +5266,8 @@ You have a maximum of ${maxToolRounds} tool call rounds for this task. Plan effi
           if (summaryResult.usage) {
             roundUsage.inputTokens += summaryResult.usage.inputTokens;
             roundUsage.outputTokens += summaryResult.usage.outputTokens;
+            roundUsage.cacheCreationTokens += summaryResult.usage.cacheCreationTokens ?? 0;
+            roundUsage.cacheReadTokens += summaryResult.usage.cacheReadTokens ?? 0;
           }
         } else {
           this.renderer.renderError(
@@ -5218,8 +5282,7 @@ Tip: You can continue the conversation by asking the AI to proceed.`
         );
       }
       if (roundUsage.inputTokens > 0 || roundUsage.outputTokens > 0) {
-        this.sessionTokenUsage.inputTokens += roundUsage.inputTokens;
-        this.sessionTokenUsage.outputTokens += roundUsage.outputTokens;
+        this.addSessionUsage(roundUsage);
         session.addTokenUsage(roundUsage);
         if (this.shouldShowTokens()) {
           this.renderer.renderUsage(roundUsage, this.sessionTokenUsage);
@@ -5316,7 +5379,12 @@ Tip: You can continue the conversation by asking the AI to proceed.`
       },
       getSessionTokenUsage: () => ({ ...this.sessionTokenUsage }),
       resetSessionTokenUsage: () => {
-        this.sessionTokenUsage = { inputTokens: 0, outputTokens: 0 };
+        this.sessionTokenUsage = {
+          inputTokens: 0,
+          outputTokens: 0,
+          cacheCreationTokens: 0,
+          cacheReadTokens: 0
+        };
       },
       getGitBranch: () => this.gitBranch,
       getLastResponse: () => lastResponseStore.content,
@@ -5493,7 +5561,7 @@ program.command("web").description("Start Web UI server with browser-based chat
     console.error("Error: Invalid port number. Must be between 1 and 65535.");
     process.exit(1);
   }
-  const { startWebServer } = await import("./server-BQHIMEBH.js");
+  const { startWebServer } = await import("./server-YPAZWGUE.js");
   await startWebServer({ port, host: options.host });
 });
 program.command("user [action] [username]").description("Manage Web UI users (list | create <name> | delete <name> | reset-password <name> | migrate <name>)").action(async (action, username) => {
@@ -5726,7 +5794,7 @@ program.command("hub [topic]").description("Start multi-agent hub (discuss / bra
     }),
     config.get("customProviders")
   );
-  const { startHub } = await import("./hub-6V54V4O3.js");
+  const { startHub } = await import("./hub-AUWP4SWJ.js");
   await startHub(
     {
       topic: topic ?? "",

package/dist/{run-tests-6G65OGSL.js → run-tests-I6UDHVIS.js} RENAMED Viewed

@@ -1,7 +1,7 @@
 import {
   executeTests,
   runTestsTool
-} from "./chunk-FOFQAEU6.js";
+} from "./chunk-DJ342VFS.js";
 export {
   executeTests,
   runTestsTool

package/dist/{run-tests-P53FNUJY.js → run-tests-X4PCLXA2.js} RENAMED Viewed

@@ -2,7 +2,7 @@
 import {
   executeTests,
   runTestsTool
-} from "./chunk-NP5KZVP6.js";
+} from "./chunk-W7QVBFIJ.js";
 export {
   executeTests,
   runTestsTool

package/dist/{server-BQHIMEBH.js → server-YPAZWGUE.js} RENAMED Viewed

@@ -7,7 +7,9 @@ import {
   SessionManager,
   SkillManager,
   TOOL_CALL_REMINDER,
+  computeCost,
   detectsHallucinatedFileOp,
+  formatCost,
   formatGitContextForPrompt,
   getContentText,
   getGitContext,
@@ -15,7 +17,7 @@ import {
   hadPreviousWriteToolCalls,
   loadDevState,
   setupProxy
-} from "./chunk-6FYFVPVE.js";
+} from "./chunk-JL5NK6AR.js";
 import {
   AuthManager
 } from "./chunk-BYNY5JPB.js";
@@ -34,7 +36,7 @@ import {
   spawnAgentContext,
   truncateOutput,
   undoStack
-} from "./chunk-TAR67QTH.js";
+} from "./chunk-YQEIQJ6K.js";
 import "./chunk-4BKXL7SM.js";
 import {
   AGENTIC_BEHAVIOR_GUIDELINE,
@@ -54,7 +56,7 @@ import {
   SKILLS_DIR_NAME,
   VERSION,
   buildUserIdentityPrompt
-} from "./chunk-NP5KZVP6.js";
+} from "./chunk-W7QVBFIJ.js";
 // src/web/server.ts
 import express from "express";
@@ -483,7 +485,17 @@ var SessionHandler = class _SessionHandler {
   currentModel;
   planMode = false;
   runtimeThinking = null;
-  sessionTokenUsage = { inputTokens: 0, outputTokens: 0 };
+  sessionTokenUsage = { inputTokens: 0, outputTokens: 0, cacheCreationTokens: 0, cacheReadTokens: 0 };
+  /** Accumulate a TokenUsage (with optional cache fields) into sessionTokenUsage. */
+  addWebSessionUsage(u) {
+    this.sessionTokenUsage.inputTokens += u.inputTokens;
+    this.sessionTokenUsage.outputTokens += u.outputTokens;
+    this.sessionTokenUsage.cacheCreationTokens += u.cacheCreationTokens ?? 0;
+    this.sessionTokenUsage.cacheReadTokens += u.cacheReadTokens ?? 0;
+  }
+  resetWebSessionUsage() {
+    this.sessionTokenUsage = { inputTokens: 0, outputTokens: 0, cacheCreationTokens: 0, cacheReadTokens: 0 };
+  }
   abortController = null;
   userInterjection = null;
   processing = false;
@@ -547,6 +559,7 @@ var SessionHandler = class _SessionHandler {
       displayName: p.info.displayName,
       models: p.info.models.map((m) => ({ id: m.id, name: m.displayName ?? m.id }))
     }));
+    const costUsd = computeCost(this.currentProvider, this.currentModel, this.sessionTokenUsage);
     this.send({
       type: "status",
       provider: this.currentProvider,
@@ -557,6 +570,7 @@ var SessionHandler = class _SessionHandler {
       planMode: this.planMode,
       thinkingMode: this.runtimeThinking ?? false,
       tokenUsage: { ...this.sessionTokenUsage },
+      costUsd,
       providers: providerList
     });
   }
@@ -724,8 +738,7 @@ var SessionHandler = class _SessionHandler {
         if (chunk.done) {
           this.send({ type: "response_done", content: fullContent, usage: chunk.usage });
           if (chunk.usage) {
-            this.sessionTokenUsage.inputTokens += chunk.usage.inputTokens;
-            this.sessionTokenUsage.outputTokens += chunk.usage.outputTokens;
+            this.addWebSessionUsage(chunk.usage);
             session.addTokenUsage(chunk.usage);
           }
           break;
@@ -759,7 +772,7 @@ You have a maximum of ${maxToolRounds} tool call rounds for this task. Plan effi
 - When remaining rounds are low, focus on completing the current task and summarizing.`;
     const systemPrompt = baseSystemPrompt + roundBudgetHint;
     const modelParams = this.getModelParams();
-    const roundUsage = { inputTokens: 0, outputTokens: 0 };
+    const roundUsage = { inputTokens: 0, outputTokens: 0, cacheCreationTokens: 0, cacheReadTokens: 0 };
     const supportsStreamingTools = typeof provider.chatWithToolsStream === "function";
     let consecutiveFreeRounds = 0;
     const warnNoteAt = Math.max(10, Math.floor(maxToolRounds * 0.2));
@@ -829,6 +842,8 @@ You have a maximum of ${maxToolRounds} tool call rounds for this task. Plan effi
         if (result.usage) {
           roundUsage.inputTokens += result.usage.inputTokens;
           roundUsage.outputTokens += result.usage.outputTokens;
+          roundUsage.cacheCreationTokens += result.usage.cacheCreationTokens ?? 0;
+          roundUsage.cacheReadTokens += result.usage.cacheReadTokens ?? 0;
         }
         if (result.content && !result.toolCalls) {
           const hasWriteTools = toolDefs.some((t) => t.name === "write_file" || t.name === "edit_file");
@@ -843,8 +858,7 @@ You have a maximum of ${maxToolRounds} tool call rounds for this task. Plan effi
           }
           this.send({ type: "response_done", content: result.content, usage: roundUsage });
           session.addMessage({ role: "assistant", content: result.content, timestamp: /* @__PURE__ */ new Date() });
-          this.sessionTokenUsage.inputTokens += roundUsage.inputTokens;
-          this.sessionTokenUsage.outputTokens += roundUsage.outputTokens;
+          this.addWebSessionUsage(roundUsage);
           session.addTokenUsage(roundUsage);
           return;
         }
@@ -917,8 +931,7 @@ ${summaryResult.content}`,
           message: `Reached maximum tool call rounds (${maxToolRounds}). You can continue by asking the AI to proceed.`
         });
       }
-      this.sessionTokenUsage.inputTokens += roundUsage.inputTokens;
-      this.sessionTokenUsage.outputTokens += roundUsage.outputTokens;
+      this.addWebSessionUsage(roundUsage);
       session.addTokenUsage(roundUsage);
     } catch (err) {
       if (err.name === "AbortError") {
@@ -1034,7 +1047,7 @@ ${summaryResult.content}`,
       case "clear":
         this.saveIfNeeded();
         this.sessions.createSession(this.currentProvider, this.currentModel);
-        this.sessionTokenUsage = { inputTokens: 0, outputTokens: 0 };
+        this.resetWebSessionUsage();
         this.send({ type: "info", message: "Conversation cleared." });
         this.sendStatus();
         this.sendSessionList();
@@ -1068,12 +1081,19 @@ ${summaryResult.content}`,
       }
       case "status": {
         const session = this.sessions.current;
+        const cacheRead = this.sessionTokenUsage.cacheReadTokens;
+        const cacheCreate = this.sessionTokenUsage.cacheCreationTokens;
+        const cost = computeCost(this.currentProvider, this.currentModel, this.sessionTokenUsage);
+        const cacheLine = cacheRead > 0 || cacheCreate > 0 ? `
+Cache:  write=${cacheCreate} read=${cacheRead}` : "";
+        const costLine = cost != null ? `
+Cost:   ${formatCost(cost)}` : "";
         this.send({
           type: "info",
           message: `Provider: ${this.currentProvider}
 Model: ${this.currentModel}
 Session: ${session?.id ?? "none"} (${session?.messages.length ?? 0} messages)
-Tokens: in=${this.sessionTokenUsage.inputTokens} out=${this.sessionTokenUsage.outputTokens}`
+Tokens: in=${this.sessionTokenUsage.inputTokens} out=${this.sessionTokenUsage.outputTokens}${cacheLine}${costLine}`
         });
         break;
       }
@@ -1083,7 +1103,7 @@ Tokens: in=${this.sessionTokenUsage.inputTokens} out=${this.sessionTokenUsage.ou
           this.saveIfNeeded();
           const created = this.sessions.createSession(this.currentProvider, this.currentModel);
           this.unsavedSessions.set(created.id, created);
-          this.sessionTokenUsage = { inputTokens: 0, outputTokens: 0 };
+          this.resetWebSessionUsage();
           this.send({ type: "info", message: "New session created." });
           this.sendStatus();
           this.sendSessionList();
@@ -1094,7 +1114,7 @@ Tokens: in=${this.sessionTokenUsage.inputTokens} out=${this.sessionTokenUsage.ou
           const cached = cachedExact ?? [...this.unsavedSessions.values()].find((s) => s.id.startsWith(targetId));
           if (cached) {
             this.sessions.setCurrent(cached);
-            this.sessionTokenUsage = { inputTokens: 0, outputTokens: 0 };
+            this.resetWebSessionUsage();
             this.send({
               type: "info",
               message: `Loaded session: ${cached.id.slice(0, 8)} "${cached.title ?? ""}" (${cached.messages.length} messages)`
@@ -1108,7 +1128,7 @@ Tokens: in=${this.sessionTokenUsage.inputTokens} out=${this.sessionTokenUsage.ou
           const found = list.find((s) => s.id.startsWith(targetId));
           if (found) {
             this.sessions.loadSession(found.id);
-            this.sessionTokenUsage = { inputTokens: 0, outputTokens: 0 };
+            this.resetWebSessionUsage();
             this.send({ type: "info", message: `Loaded session: ${found.id.slice(0, 8)} "${found.title ?? ""}" (${found.messageCount} messages)` });
             this.sendSessionMessages();
             this.sendStatus();
@@ -1116,7 +1136,7 @@ Tokens: in=${this.sessionTokenUsage.inputTokens} out=${this.sessionTokenUsage.ou
           } else {
             const recreated = this.sessions.createSession(this.currentProvider, this.currentModel);
             this.unsavedSessions.set(recreated.id, recreated);
-            this.sessionTokenUsage = { inputTokens: 0, outputTokens: 0 };
+            this.resetWebSessionUsage();
             this.send({
               type: "info",
               message: `Previous session (${targetId.slice(0, 8)}) is no longer available \u2014 started a new one.`
@@ -1256,16 +1276,41 @@ Tokens: in=${this.sessionTokenUsage.inputTokens} out=${this.sessionTokenUsage.ou
         });
         break;
       case "cost": {
-        const total = this.sessionTokenUsage.inputTokens + this.sessionTokenUsage.outputTokens;
-        this.send({
-          type: "info",
-          message: `\u{1F4CA} Token Usage
-  Provider: ${this.currentProvider}
-  Model: ${this.currentModel}
-  Input:  ${this.sessionTokenUsage.inputTokens.toLocaleString()}
-  Output: ${this.sessionTokenUsage.outputTokens.toLocaleString()}
-  Total:  ${total.toLocaleString()}`
-        });
+        const u = this.sessionTokenUsage;
+        const total = u.inputTokens + u.outputTokens + u.cacheCreationTokens + u.cacheReadTokens;
+        const cost = computeCost(this.currentProvider, this.currentModel, u);
+        let savings = null;
+        if (cost != null && u.cacheReadTokens > 0) {
+          const withoutCache = computeCost(this.currentProvider, this.currentModel, {
+            inputTokens: u.inputTokens + u.cacheReadTokens,
+            outputTokens: u.outputTokens,
+            cacheCreationTokens: u.cacheCreationTokens,
+            cacheReadTokens: 0
+          });
+          if (withoutCache != null) savings = withoutCache - cost;
+        }
+        const lines = [
+          "\u{1F4B0} Session Cost & Token Usage",
+          `  Provider        : ${this.currentProvider}`,
+          `  Model           : ${this.currentModel}`,
+          `  Input (uncached): ${u.inputTokens.toLocaleString()}`,
+          `  Output          : ${u.outputTokens.toLocaleString()}`
+        ];
+        if (u.cacheCreationTokens > 0) lines.push(`  Cache write     : ${u.cacheCreationTokens.toLocaleString()}`);
+        if (u.cacheReadTokens > 0) {
+          const pct = Math.round(u.cacheReadTokens / (u.cacheReadTokens + u.inputTokens) * 100);
+          lines.push(`  Cache read      : ${u.cacheReadTokens.toLocaleString()} (${pct}% hit rate)`);
+        }
+        lines.push(`  Total tokens    : ${total.toLocaleString()}`);
+        if (cost != null) {
+          lines.push(`  Cost            : ${formatCost(cost)}`);
+          if (savings != null && savings > 0) {
+            lines.push(`  Cache savings   : -${formatCost(savings)} (vs no cache)`);
+          }
+        } else {
+          lines.push(`  Cost            : \u2014 (pricing unknown for this model)`);
+        }
+        this.send({ type: "info", message: lines.join("\n") });
         break;
       }
       case "tools":
@@ -1691,7 +1736,7 @@ ${undoResults.map((r) => `  \u2022 ${r}`).join("\n")}` });
       case "test": {
         this.send({ type: "info", message: "\u{1F9EA} Running tests..." });
         try {
-          const { executeTests } = await import("./run-tests-P53FNUJY.js");
+          const { executeTests } = await import("./run-tests-X4PCLXA2.js");
           const argStr = args.join(" ").trim();
           let testArgs = {};
           if (argStr) {

package/dist/{task-orchestrator-TSY7CJE6.js → task-orchestrator-MWO6A4KQ.js} RENAMED Viewed

@@ -4,11 +4,11 @@ import {
   getDangerLevel,
   googleSearchContext,
   truncateOutput
-} from "./chunk-TAR67QTH.js";
+} from "./chunk-YQEIQJ6K.js";
 import "./chunk-4BKXL7SM.js";
 import {
   SUBAGENT_ALLOWED_TOOLS
-} from "./chunk-NP5KZVP6.js";
+} from "./chunk-W7QVBFIJ.js";
 // src/hub/task-orchestrator.ts
 import { createInterface } from "readline";

package/dist/web/client/app.js CHANGED Viewed

@@ -496,7 +496,16 @@ function handleStatus(msg) {
     btnPlan.classList.toggle('btn-active-toggle', msg.planMode);
     statusSession.textContent = `📋 ${msg.sessionId?.slice(0, 8) || '—'} (${msg.messageCount} msgs)`;
     if (msg.tokenUsage) {
-      statusTokens.textContent = `📊 in: ${msg.tokenUsage.inputTokens}  out: ${msg.tokenUsage.outputTokens}`;
+      const u = msg.tokenUsage;
+      const cacheRead = u.cacheReadTokens || 0;
+      let line = `📊 in: ${u.inputTokens.toLocaleString()}  out: ${u.outputTokens.toLocaleString()}`;
+      if (cacheRead > 0) line += `  cache: ${cacheRead.toLocaleString()}`;
+      if (msg.costUsd != null) {
+        const cost = msg.costUsd;
+        const costStr = cost === 0 ? '$0' : cost < 0.01 ? `$${cost.toFixed(4)}` : cost < 1 ? `$${cost.toFixed(3)}` : `$${cost.toFixed(2)}`;
+        line += `  💰 ${costStr}`;
+      }
+      statusTokens.textContent = line;
     }
     sessionListEl.querySelectorAll('.session-item').forEach(el => {
       el.classList.toggle('active', el.dataset.sessionId === msg.sessionId);

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "jinzd-ai-cli",
-  "version": "0.4.54",
+  "version": "0.4.55",
   "description": "Cross-platform REPL-style AI CLI with multi-provider support",
   "type": "module",
   "main": "./dist/index.js",