npm - @chenpu17/cc-gw - Versions diffs - 0.4.2 → 0.5.0 - Mend

@chenpu17/cc-gw 0.4.2 → 0.5.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (23) hide show

package/src/server/dist/index.js CHANGED Viewed

@@ -11103,7 +11103,11 @@ async function migrateDailyMetricsTable(db) {
   if (!hasEndpointColumn || !hasCompositePrimaryKey) {
     const endpointSelector = hasEndpointColumn ? "COALESCE(endpoint, 'anthropic')" : "'anthropic'";
     const hasCachedTokensColumn = columns.some((column) => column.name === "total_cached_tokens");
+    const hasCacheReadColumn = columns.some((column) => column.name === "total_cache_read_tokens");
+    const hasCacheCreationColumn = columns.some((column) => column.name === "total_cache_creation_tokens");
     const cachedTokensSelector = hasCachedTokensColumn ? "COALESCE(total_cached_tokens, 0)" : "0";
+    const cacheReadSelector = hasCacheReadColumn ? "COALESCE(total_cache_read_tokens, 0)" : "0";
+    const cacheCreationSelector = hasCacheCreationColumn ? "COALESCE(total_cache_creation_tokens, 0)" : "0";
     await exec(
       db,
       `ALTER TABLE daily_metrics RENAME TO daily_metrics_old;
@@ -11114,16 +11118,20 @@ async function migrateDailyMetricsTable(db) {
          total_input_tokens INTEGER DEFAULT 0,
          total_output_tokens INTEGER DEFAULT 0,
          total_cached_tokens INTEGER DEFAULT 0,
+         total_cache_read_tokens INTEGER DEFAULT 0,
+         total_cache_creation_tokens INTEGER DEFAULT 0,
          total_latency_ms INTEGER DEFAULT 0,
          PRIMARY KEY (date, endpoint)
        );
-       INSERT INTO daily_metrics (date, endpoint, request_count, total_input_tokens, total_output_tokens, total_cached_tokens, total_latency_ms)
+       INSERT INTO daily_metrics (date, endpoint, request_count, total_input_tokens, total_output_tokens, total_cached_tokens, total_cache_read_tokens, total_cache_creation_tokens, total_latency_ms)
          SELECT date,
                 ${endpointSelector},
                 request_count,
                 total_input_tokens,
                 total_output_tokens,
                 ${cachedTokensSelector},
+                ${cacheReadSelector},
+                ${cacheCreationSelector},
                 total_latency_ms
            FROM daily_metrics_old;
        DROP TABLE daily_metrics_old;`
@@ -11181,6 +11189,8 @@ async function ensureSchema(db) {
       total_input_tokens INTEGER DEFAULT 0,
       total_output_tokens INTEGER DEFAULT 0,
       total_cached_tokens INTEGER DEFAULT 0,
+      total_cache_read_tokens INTEGER DEFAULT 0,
+      total_cache_creation_tokens INTEGER DEFAULT 0,
       total_latency_ms INTEGER DEFAULT 0,
       PRIMARY KEY (date, endpoint)
     );
@@ -11217,6 +11227,8 @@ async function ensureSchema(db) {
   );
   await maybeAddColumn(db, "request_logs", "client_model", "TEXT");
   await maybeAddColumn(db, "request_logs", "cached_tokens", "INTEGER");
+  await maybeAddColumn(db, "request_logs", "cache_read_tokens", "INTEGER DEFAULT 0");
+  await maybeAddColumn(db, "request_logs", "cache_creation_tokens", "INTEGER DEFAULT 0");
   await maybeAddColumn(db, "request_logs", "ttft_ms", "INTEGER");
   await maybeAddColumn(db, "request_logs", "tpot_ms", "REAL");
   await maybeAddColumn(db, "request_logs", "stream", "INTEGER");
@@ -11239,6 +11251,8 @@ async function ensureSchema(db) {
   await maybeAddColumn(db, "api_keys", "total_output_tokens", "INTEGER DEFAULT 0");
   await migrateDailyMetricsTable(db);
   await maybeAddColumn(db, "daily_metrics", "total_cached_tokens", "INTEGER DEFAULT 0");
+  await maybeAddColumn(db, "daily_metrics", "total_cache_read_tokens", "INTEGER DEFAULT 0");
+  await maybeAddColumn(db, "daily_metrics", "total_cache_creation_tokens", "INTEGER DEFAULT 0");
   await run(db, "CREATE UNIQUE INDEX IF NOT EXISTS idx_api_keys_hash ON api_keys(key_hash) WHERE key_hash IS NOT NULL");
   await run(db, "UPDATE api_keys SET key_hash = '*' WHERE is_wildcard = 1 AND (key_hash IS NULL OR key_hash = '')");
   await run(db, "UPDATE api_keys SET updated_at = created_at WHERE updated_at IS NULL");
@@ -11404,6 +11418,14 @@ async function updateLogTokens(requestId, values) {
     values.outputTokens,
     values.cachedTokens ?? null
   ];
+  if (values.cacheReadTokens !== void 0) {
+    setters.push("cache_read_tokens = ?");
+    params.push(values.cacheReadTokens ?? null);
+  }
+  if (values.cacheCreationTokens !== void 0) {
+    setters.push("cache_creation_tokens = ?");
+    params.push(values.cacheCreationTokens ?? null);
+  }
   if (values.ttftMs !== void 0) {
     setters.push("ttft_ms = ?");
     params.push(values.ttftMs ?? null);
@@ -11455,25 +11477,33 @@ async function upsertLogPayload(requestId, payload) {
   );
 }
 async function updateMetrics(date, endpoint, delta) {
-  await runQuery(
-    `INSERT INTO daily_metrics (date, endpoint, request_count, total_input_tokens, total_output_tokens, total_cached_tokens, total_latency_ms)
-     VALUES (?, ?, ?, ?, ?, ?, ?)
-     ON CONFLICT(date, endpoint) DO UPDATE SET
-       request_count = daily_metrics.request_count + excluded.request_count,
-       total_input_tokens = daily_metrics.total_input_tokens + excluded.total_input_tokens,
-       total_output_tokens = daily_metrics.total_output_tokens + excluded.total_output_tokens,
-       total_cached_tokens = daily_metrics.total_cached_tokens + excluded.total_cached_tokens,
-       total_latency_ms = daily_metrics.total_latency_ms + excluded.total_latency_ms`,
-    [
-      date,
-      endpoint,
-      delta.requests,
-      delta.inputTokens,
-      delta.outputTokens,
-      delta.cachedTokens ?? 0,
-      delta.latencyMs
-    ]
-  );
+  try {
+    await runQuery(
+      `INSERT INTO daily_metrics (date, endpoint, request_count, total_input_tokens, total_output_tokens, total_cached_tokens, total_cache_read_tokens, total_cache_creation_tokens, total_latency_ms)
+       VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?)
+       ON CONFLICT(date, endpoint) DO UPDATE SET
+         request_count = daily_metrics.request_count + excluded.request_count,
+         total_input_tokens = daily_metrics.total_input_tokens + excluded.total_input_tokens,
+         total_output_tokens = daily_metrics.total_output_tokens + excluded.total_output_tokens,
+         total_cached_tokens = daily_metrics.total_cached_tokens + excluded.total_cached_tokens,
+         total_cache_read_tokens = daily_metrics.total_cache_read_tokens + excluded.total_cache_read_tokens,
+         total_cache_creation_tokens = daily_metrics.total_cache_creation_tokens + excluded.total_cache_creation_tokens,
+         total_latency_ms = daily_metrics.total_latency_ms + excluded.total_latency_ms`,
+      [
+        date,
+        endpoint,
+        delta.requests,
+        delta.inputTokens,
+        delta.outputTokens,
+        delta.cachedTokens ?? 0,
+        delta.cacheReadTokens ?? 0,
+        delta.cacheCreationTokens ?? 0,
+        delta.latencyMs
+      ]
+    );
+  } catch (err) {
+    console.error("[updateMetrics] Failed to update metrics:", err);
+  }
 }
 // metrics/activity.ts
@@ -11943,23 +11973,24 @@ function computeTpot(totalLatencyMs, outputTokens, options) {
   return Number.isFinite(raw) ? roundTwoDecimals(raw) : null;
 }
 function resolveCachedTokens(usage) {
+  const result = { read: 0, creation: 0 };
   if (!usage || typeof usage !== "object") {
-    return null;
+    return result;
+  }
+  if (typeof usage.cache_read_input_tokens === "number") {
+    result.read = usage.cache_read_input_tokens;
+  }
+  if (typeof usage.cache_creation_input_tokens === "number") {
+    result.creation = usage.cache_creation_input_tokens;
   }
   if (typeof usage.cached_tokens === "number") {
-    return usage.cached_tokens;
+    result.read = usage.cached_tokens;
   }
   const promptDetails = usage.prompt_tokens_details;
   if (promptDetails && typeof promptDetails.cached_tokens === "number") {
-    return promptDetails.cached_tokens;
-  }
-  if (typeof usage.cache_read_input_tokens === "number") {
-    return usage.cache_read_input_tokens;
-  }
-  if (typeof usage.cache_creation_input_tokens === "number") {
-    return usage.cache_creation_input_tokens;
+    result.read = promptDetails.cached_tokens;
   }
-  return null;
+  return result;
 }
 function cloneOriginalPayload(value) {
   const structuredCloneFn = globalThis.structuredClone;
@@ -12222,7 +12253,8 @@ async function registerMessagesRoute(app) {
         if (providerType === "anthropic") {
           let inputTokens2 = json.usage?.input_tokens ?? 0;
           let outputTokens2 = json.usage?.output_tokens ?? 0;
-          const cachedTokens3 = resolveCachedTokens(json.usage);
+          const cached2 = resolveCachedTokens(json.usage);
+          const cachedTokens2 = cached2.read + cached2.creation;
           if (!inputTokens2) {
             inputTokens2 = target.tokenEstimate || estimateTokens(normalized, target.modelId);
           }
@@ -12233,13 +12265,13 @@ async function registerMessagesRoute(app) {
           logUsage("non_stream.anthropic", {
             input: inputTokens2,
             output: outputTokens2,
-            cached: cachedTokens3
+            cached: cachedTokens2
           });
           const latencyMs2 = Date.now() - requestStart;
           await updateLogTokens(logId, {
             inputTokens: inputTokens2,
             outputTokens: outputTokens2,
-            cachedTokens: cachedTokens3,
+            cachedTokens: cachedTokens2,
             ttftMs: latencyMs2,
             tpotMs: computeTpot(latencyMs2, outputTokens2, { streaming: false })
           });
@@ -12248,7 +12280,9 @@ async function registerMessagesRoute(app) {
             requests: 1,
             inputTokens: inputTokens2,
             outputTokens: outputTokens2,
-            cachedTokens: cachedTokens3,
+            cachedTokens: cachedTokens2,
+            cacheReadTokens: cached2.read,
+            cacheCreationTokens: cached2.creation,
             latencyMs: latencyMs2
           });
           if (storeResponsePayloads) {
@@ -12269,7 +12303,8 @@ async function registerMessagesRoute(app) {
         const claudeResponse = buildClaudeResponse(json, target.modelId);
         let inputTokens = json.usage?.prompt_tokens ?? 0;
         let outputTokens = json.usage?.completion_tokens ?? 0;
-        const cachedTokens2 = resolveCachedTokens(json.usage);
+        const cached = resolveCachedTokens(json.usage);
+        const cachedTokens = cached.read + cached.creation;
         if (!inputTokens) {
           inputTokens = target.tokenEstimate || estimateTokens(normalized, target.modelId);
         }
@@ -12280,13 +12315,13 @@ async function registerMessagesRoute(app) {
         logUsage("non_stream.openai", {
           input: inputTokens,
           output: outputTokens,
-          cached: cachedTokens2
+          cached: cachedTokens
         });
         const latencyMs = Date.now() - requestStart;
         await updateLogTokens(logId, {
           inputTokens,
           outputTokens,
-          cachedTokens: cachedTokens2,
+          cachedTokens,
           ttftMs: latencyMs,
           tpotMs: computeTpot(latencyMs, outputTokens, { streaming: false })
         });
@@ -12295,6 +12330,9 @@ async function registerMessagesRoute(app) {
           requests: 1,
           inputTokens,
           outputTokens,
+          cachedTokens,
+          cacheReadTokens: cached.read,
+          cacheCreationTokens: cached.creation,
           latencyMs
         });
         if (storeResponsePayloads) {
@@ -12466,9 +12504,7 @@ async function registerMessagesRoute(app) {
                         usagePrompt2 = payload2.usage.input_tokens ?? usagePrompt2;
                         usageCompletion2 = payload2.usage.output_tokens ?? usageCompletion2;
                         const maybeCached = resolveCachedTokens(payload2.usage);
-                        if (maybeCached !== null) {
-                          usageCached2 = maybeCached;
-                        }
+                        usageCached2 = maybeCached.read + maybeCached.creation;
                         lastUsagePayload = payload2.usage;
                       }
                       if (payload2?.delta) {
@@ -12495,9 +12531,7 @@ async function registerMessagesRoute(app) {
                         usagePrompt2 = payload2.usage.input_tokens ?? usagePrompt2;
                         usageCompletion2 = payload2.usage.output_tokens ?? usageCompletion2;
                         const maybeCached = resolveCachedTokens(payload2.usage);
-                        if (maybeCached !== null) {
-                          usageCached2 = maybeCached;
-                        }
+                        usageCached2 = maybeCached.read + maybeCached.creation;
                         lastUsagePayload = payload2.usage;
                       }
                       if (payload2?.stop_reason) {
@@ -12549,8 +12583,9 @@ async function registerMessagesRoute(app) {
         }
         const totalLatencyMs = Date.now() - requestStart;
         const ttftMs = firstTokenAt2 ? firstTokenAt2 - requestStart : null;
+        const cached = resolveCachedTokens(lastUsagePayload);
         if (usageCached2 === null) {
-          usageCached2 = resolveCachedTokens(lastUsagePayload);
+          usageCached2 = cached.read + cached.creation;
         }
         logUsage("stream.anthropic.final", {
           input: usagePrompt2,
@@ -12561,6 +12596,8 @@ async function registerMessagesRoute(app) {
           inputTokens: usagePrompt2,
           outputTokens: usageCompletion2,
           cachedTokens: usageCached2,
+          cacheReadTokens: cached.read,
+          cacheCreationTokens: cached.creation,
           ttftMs,
           tpotMs: computeTpot(totalLatencyMs, usageCompletion2, {
             streaming: true,
@@ -12573,6 +12610,8 @@ async function registerMessagesRoute(app) {
           inputTokens: usagePrompt2,
           outputTokens: usageCompletion2,
           cachedTokens: usageCached2,
+          cacheReadTokens: cached.read,
+          cacheCreationTokens: cached.creation,
           latencyMs: totalLatencyMs
         });
         if (storeResponsePayloads) {
@@ -12732,6 +12771,8 @@ data: ${JSON.stringify(data)}
               inputTokens: finalPromptTokens,
               outputTokens: finalCompletionTokens,
               cachedTokens: usageCached,
+              cacheReadTokens: 0,
+              cacheCreationTokens: 0,
               ttftMs,
               tpotMs: computeTpot(totalLatencyMs, finalCompletionTokens, {
                 streaming: true,
@@ -12743,7 +12784,9 @@ data: ${JSON.stringify(data)}
               requests: 1,
               inputTokens: finalPromptTokens,
               outputTokens: finalCompletionTokens,
-              cachedTokens: usageCached,
+              cachedTokens: usageCached ?? 0,
+              cacheReadTokens: 0,
+              cacheCreationTokens: 0,
               latencyMs: totalLatencyMs
             });
             if (storeResponsePayloads) {
@@ -12894,6 +12937,8 @@ data: ${JSON.stringify(data)}
           inputTokens: fallbackPrompt,
           outputTokens: fallbackCompletion,
           cachedTokens: usageCached,
+          cacheReadTokens: 0,
+          cacheCreationTokens: 0,
           ttftMs,
           tpotMs: computeTpot(totalLatencyMs, fallbackCompletion, {
             streaming: true,
@@ -12905,7 +12950,9 @@ data: ${JSON.stringify(data)}
           requests: 1,
           inputTokens: fallbackPrompt,
           outputTokens: fallbackCompletion,
-          cachedTokens: usageCached,
+          cachedTokens: usageCached ?? 0,
+          cacheReadTokens: 0,
+          cacheCreationTokens: 0,
           latencyMs: totalLatencyMs
         });
         if (storeResponsePayloads) {
@@ -13306,27 +13353,28 @@ function computeTpot2(totalLatencyMs, outputTokens, options) {
   return Number.isFinite(raw) ? roundTwoDecimals2(raw) : null;
 }
 function resolveCachedTokens2(usage) {
+  const result = { read: 0, creation: 0 };
   if (!usage || typeof usage !== "object") {
-    return null;
+    return result;
+  }
+  if (typeof usage.cache_read_input_tokens === "number") {
+    result.read = usage.cache_read_input_tokens;
+  }
+  if (typeof usage.cache_creation_input_tokens === "number") {
+    result.creation = usage.cache_creation_input_tokens;
   }
   if (typeof usage.cached_tokens === "number") {
-    return usage.cached_tokens;
+    result.read = usage.cached_tokens;
   }
   const promptDetails = usage.prompt_tokens_details;
   if (promptDetails && typeof promptDetails.cached_tokens === "number") {
-    return promptDetails.cached_tokens;
+    result.read = promptDetails.cached_tokens;
   }
   const inputDetails = usage.input_tokens_details;
   if (inputDetails && typeof inputDetails.cached_tokens === "number") {
-    return inputDetails.cached_tokens;
-  }
-  if (typeof usage.cache_read_input_tokens === "number") {
-    return usage.cache_read_input_tokens;
-  }
-  if (typeof usage.cache_creation_input_tokens === "number") {
-    return usage.cache_creation_input_tokens;
+    result.read = inputDetails.cached_tokens;
   }
-  return null;
+  return result;
 }
 var generateId = (prefix) => `${prefix}_${Math.random().toString(36).slice(2, 10)}`;
 var isText = (input) => typeof input === "string" && input.length > 0;
@@ -13848,17 +13896,20 @@ async function registerOpenAiRoutes(app) {
           if (!Number.isFinite(inputTokens3) || inputTokens3 <= 0) {
             inputTokens3 = target.tokenEstimate ?? estimateTokens(normalized, target.modelId);
           }
-          const cachedTokens3 = resolveCachedTokens2(usagePayload2);
+          const cached2 = resolveCachedTokens2(usagePayload2);
+          const cachedTokens2 = cached2.read + cached2.creation;
           const latencyMs3 = Date.now() - requestStart;
           const openAIResponse = buildOpenAIResponseFromClaude(parsed, target.modelId, converted, {
             inputTokens: inputTokens3,
             outputTokens: outputTokens3,
-            cachedTokens: cachedTokens3
+            cachedTokens: cachedTokens2
           });
           await updateLogTokens(logId, {
             inputTokens: inputTokens3,
             outputTokens: outputTokens3,
-            cachedTokens: cachedTokens3,
+            cachedTokens: usageCached,
+            cacheReadTokens: cached2.read,
+            cacheCreationTokens: cached2.creation,
             ttftMs: latencyMs3,
             tpotMs: computeTpot2(latencyMs3, outputTokens3, { streaming: false })
           });
@@ -13867,7 +13918,9 @@ async function registerOpenAiRoutes(app) {
             requests: 1,
             inputTokens: inputTokens3,
             outputTokens: outputTokens3,
-            cachedTokens: cachedTokens3,
+            cachedTokens: usageCached,
+            cacheReadTokens: usageCacheRead,
+            cacheCreationTokens: usageCacheCreation,
             latencyMs: latencyMs3
           });
           if (storeResponsePayloads) {
@@ -13902,12 +13955,15 @@ async function registerOpenAiRoutes(app) {
           return 0;
         })();
         const outputTokens2 = baseOutputTokens + reasoningTokens2;
-        const cachedTokens2 = resolveCachedTokens2(usagePayload);
+        const cached = resolveCachedTokens2(usagePayload);
+        const cachedTokens = cached.read + cached.creation;
         const latencyMs2 = Date.now() - requestStart;
         await updateLogTokens(logId, {
           inputTokens: inputTokens2,
           outputTokens: outputTokens2,
-          cachedTokens: cachedTokens2,
+          cachedTokens: usageCached,
+          cacheReadTokens: cached.read,
+          cacheCreationTokens: cached.creation,
           ttftMs: usagePayload?.first_token_latency_ms ?? latencyMs2,
           tpotMs: usagePayload?.tokens_per_second ? computeTpot2(latencyMs2, outputTokens2, { streaming: false, reasoningTokens: reasoningTokens2 }) : null
         });
@@ -13949,6 +14005,8 @@ async function registerOpenAiRoutes(app) {
         let usagePrompt2 = null;
         let usageCompletion2 = null;
         let usageCached2 = null;
+        let usageCacheRead2 = 0;
+        let usageCacheCreation2 = 0;
         let lastUsagePayload = null;
         let firstTokenAt2 = null;
         let claudeMessageId = null;
@@ -13990,9 +14048,9 @@ async function registerOpenAiRoutes(app) {
           );
           if (usageCached2 == null) {
             const candidate = resolveCachedTokens2(usagePayload);
-            if (candidate != null) {
-              usageCached2 = candidate;
-            }
+            usageCacheRead2 = candidate.read;
+            usageCacheCreation2 = candidate.creation;
+            usageCached2 = candidate.read + candidate.creation;
           }
           lastUsagePayload = usagePayload;
         };
@@ -14263,7 +14321,8 @@ async function registerOpenAiRoutes(app) {
         ensureCreatedSent();
         let finalPromptTokens = typeof usagePrompt2 === "number" && usagePrompt2 > 0 ? usagePrompt2 : target.tokenEstimate ?? estimateTokens(normalized, target.modelId);
         let finalCompletionTokens = typeof usageCompletion2 === "number" && usageCompletion2 > 0 ? usageCompletion2 : aggregatedText ? estimateTextTokens(aggregatedText, target.modelId) : 0;
-        const finalCachedTokens = usageCached2 != null ? usageCached2 : resolveCachedTokens2(lastUsagePayload);
+        const finalCachedResult = usageCached2 != null ? { read: usageCacheRead2, creation: usageCacheCreation2 } : resolveCachedTokens2(lastUsagePayload);
+        const finalCachedTokens = finalCachedResult.read + finalCachedResult.creation;
         const totalLatencyMs = Date.now() - requestStart;
         const ttftMs = firstTokenAt2 ? firstTokenAt2 - requestStart : null;
         const openAIResponse = buildOpenAIResponseFromClaude(claudeMessage, target.modelId, converted, {
@@ -14294,6 +14353,8 @@ async function registerOpenAiRoutes(app) {
           inputTokens: finalPromptTokens,
           outputTokens: finalCompletionTokens,
           cachedTokens: finalCachedTokens ?? null,
+          cacheReadTokens: 0,
+          cacheCreationTokens: 0,
           ttftMs,
           tpotMs: computeTpot2(totalLatencyMs, finalCompletionTokens, {
             streaming: true,
@@ -14305,7 +14366,9 @@ async function registerOpenAiRoutes(app) {
           requests: 1,
           inputTokens: finalPromptTokens,
           outputTokens: finalCompletionTokens,
-          cachedTokens: usageCached2,
+          cachedTokens: finalCachedTokens,
+          cacheReadTokens: finalCachedResult.read,
+          cacheCreationTokens: finalCachedResult.creation,
           latencyMs: totalLatencyMs
         });
         if (storeResponsePayloads && capturedResponseChunks2) {
@@ -14325,6 +14388,8 @@ async function registerOpenAiRoutes(app) {
       let usageCompletion = null;
       let usageReasoning = null;
       let usageCached = null;
+      let usageCacheRead = 0;
+      let usageCacheCreation = 0;
       let firstTokenAt = null;
       let chunkCount = 0;
       const capturedResponseChunks = storeResponsePayloads ? [] : null;
@@ -14364,7 +14429,10 @@ async function registerOpenAiRoutes(app) {
             usageReasoning
           );
           if (usageCached == null) {
-            usageCached = resolveCachedTokens2(usagePayload);
+            const cachedResult = resolveCachedTokens2(usagePayload);
+            usageCacheRead = cachedResult.read;
+            usageCacheCreation = cachedResult.creation;
+            usageCached = cachedResult.read + cachedResult.creation;
           }
           if (OPENAI_DEBUG) {
             debugLog("usage payload received", usagePayload);
@@ -14456,6 +14524,8 @@ async function registerOpenAiRoutes(app) {
         inputTokens,
         outputTokens,
         cachedTokens: usageCached,
+        cacheReadTokens: 0,
+        cacheCreationTokens: 0,
         ttftMs: firstTokenAt ? firstTokenAt - requestStart : null,
         tpotMs: computeTpot2(latencyMs, outputTokens, {
           streaming: true,
@@ -14713,12 +14783,15 @@ async function registerOpenAiRoutes(app) {
             inputTokens: inputTokens3,
             outputTokens: outputTokens3
           });
-          const cachedTokens3 = resolveCachedTokens2(usagePayload2);
+          const cached2 = resolveCachedTokens2(usagePayload2);
+          const cachedTokens2 = cached2.read + cached2.creation;
           const latencyMs3 = Date.now() - requestStart;
           await updateLogTokens(logId, {
             inputTokens: inputTokens3,
             outputTokens: outputTokens3,
-            cachedTokens: cachedTokens3,
+            cachedTokens: usageCached,
+            cacheReadTokens: cached2.read,
+            cacheCreationTokens: cached2.creation,
             ttftMs: latencyMs3,
             tpotMs: computeTpot2(latencyMs3, outputTokens3, { streaming: false })
           });
@@ -14727,7 +14800,9 @@ async function registerOpenAiRoutes(app) {
             requests: 1,
             inputTokens: inputTokens3,
             outputTokens: outputTokens3,
-            cachedTokens: cachedTokens3,
+            cachedTokens: usageCached,
+            cacheReadTokens: usageCacheRead,
+            cacheCreationTokens: usageCacheCreation,
             latencyMs: latencyMs3
           });
           if (storeResponsePayloads) {
@@ -14757,12 +14832,15 @@ async function registerOpenAiRoutes(app) {
           })(),
           target.modelId
         );
-        const cachedTokens2 = resolveCachedTokens2(usagePayload);
+        const cached = resolveCachedTokens2(usagePayload);
+        const cachedTokens = cached.read + cached.creation;
         const latencyMs2 = Date.now() - requestStart;
         await updateLogTokens(logId, {
           inputTokens: inputTokens2,
           outputTokens: outputTokens2,
-          cachedTokens: cachedTokens2,
+          cachedTokens: usageCached,
+          cacheReadTokens: cached.read,
+          cacheCreationTokens: cached.creation,
           ttftMs: usagePayload?.first_token_latency_ms ?? latencyMs2,
           tpotMs: usagePayload?.tokens_per_second ? computeTpot2(latencyMs2, outputTokens2, { streaming: false }) : null
         });
@@ -14804,6 +14882,8 @@ async function registerOpenAiRoutes(app) {
         let usagePrompt2 = null;
         let usageCompletion2 = null;
         let usageCached2 = null;
+        let usageCacheRead2 = 0;
+        let usageCacheCreation2 = 0;
         let lastUsagePayload = null;
         let firstTokenAt2 = null;
         let claudeStopReason = null;
@@ -14846,9 +14926,9 @@ async function registerOpenAiRoutes(app) {
           );
           if (usageCached2 == null) {
             const candidate = resolveCachedTokens2(usagePayload);
-            if (candidate != null) {
-              usageCached2 = candidate;
-            }
+            usageCacheRead2 = candidate.read;
+            usageCacheCreation2 = candidate.creation;
+            usageCached2 = candidate.read + candidate.creation;
           }
           lastUsagePayload = usagePayload;
         };
@@ -15159,7 +15239,8 @@ async function registerOpenAiRoutes(app) {
         }
         const finalPromptTokens = typeof usagePrompt2 === "number" && usagePrompt2 > 0 ? usagePrompt2 : target.tokenEstimate ?? estimateTokens(normalized, target.modelId);
         const finalCompletionTokens = typeof usageCompletion2 === "number" && usageCompletion2 > 0 ? usageCompletion2 : aggregatedText ? estimateTextTokens(aggregatedText, target.modelId) : 0;
-        const finalCachedTokens = usageCached2 != null ? usageCached2 : resolveCachedTokens2(lastUsagePayload);
+        const finalCachedResult = usageCached2 != null ? { read: usageCacheRead2, creation: usageCacheCreation2 } : resolveCachedTokens2(lastUsagePayload);
+        const finalCachedTokens = finalCachedResult.read + finalCachedResult.creation;
         const totalLatencyMs = Date.now() - requestStart;
         const ttftMs = firstTokenAt2 ? firstTokenAt2 - requestStart : null;
         const finishReason = mapClaudeStopReasonToChatFinish(claudeStopReason) ?? "stop";
@@ -15192,6 +15273,8 @@ async function registerOpenAiRoutes(app) {
           inputTokens: finalPromptTokens,
           outputTokens: finalCompletionTokens,
           cachedTokens: finalCachedTokens ?? null,
+          cacheReadTokens: 0,
+          cacheCreationTokens: 0,
           ttftMs,
           tpotMs: computeTpot2(totalLatencyMs, finalCompletionTokens, {
             streaming: true,
@@ -15203,7 +15286,9 @@ async function registerOpenAiRoutes(app) {
           requests: 1,
           inputTokens: finalPromptTokens,
           outputTokens: finalCompletionTokens,
-          cachedTokens: usageCached2,
+          cachedTokens: finalCachedTokens,
+          cacheReadTokens: finalCachedResult.read,
+          cacheCreationTokens: finalCachedResult.creation,
           latencyMs: totalLatencyMs
         });
         if (storeResponsePayloads && capturedResponseChunks2) {
@@ -15222,6 +15307,8 @@ async function registerOpenAiRoutes(app) {
       let usagePrompt = null;
       let usageCompletion = null;
       let usageCached = null;
+      let usageCacheRead = 0;
+      let usageCacheCreation = 0;
       let firstTokenAt = null;
       const capturedResponseChunks = storeResponsePayloads ? [] : null;
       const replyClosed = () => {
@@ -15254,7 +15341,10 @@ async function registerOpenAiRoutes(app) {
             usageCompletion
           );
           if (usageCached == null) {
-            usageCached = resolveCachedTokens2(usagePayload);
+            const cachedResult = resolveCachedTokens2(usagePayload);
+            usageCacheRead = cachedResult.read;
+            usageCacheCreation = cachedResult.creation;
+            usageCached = cachedResult.read + cachedResult.creation;
           }
         };
         while (true) {
@@ -15329,6 +15419,8 @@ async function registerOpenAiRoutes(app) {
         inputTokens,
         outputTokens,
         cachedTokens: usageCached,
+        cacheReadTokens: 0,
+        cacheCreationTokens: 0,
         ttftMs: firstTokenAt ? firstTokenAt - requestStart : null,
         tpotMs: computeTpot2(latencyMs, outputTokens, {
           streaming: true,
@@ -15614,6 +15706,8 @@ async function getDailyMetrics(days = 7, endpoint) {
             total_input_tokens AS inputTokens,
             total_output_tokens AS outputTokens,
             total_cached_tokens AS cachedTokens,
+            total_cache_read_tokens AS cacheReadTokens,
+            total_cache_creation_tokens AS cacheCreationTokens,
             total_latency_ms AS totalLatency
        FROM daily_metrics
        ${whereClause}
@@ -15627,6 +15721,8 @@ async function getDailyMetrics(days = 7, endpoint) {
     inputTokens: row.inputTokens ?? 0,
     outputTokens: row.outputTokens ?? 0,
     cachedTokens: row.cachedTokens ?? 0,
+    cacheReadTokens: row.cacheReadTokens ?? 0,
+    cacheCreationTokens: row.cacheCreationTokens ?? 0,
     avgLatencyMs: row.requestCount ? Math.round((row.totalLatency ?? 0) / row.requestCount) : 0
   })).reverse();
 }
@@ -15638,6 +15734,8 @@ async function getMetricsOverview(endpoint) {
        COALESCE(SUM(total_input_tokens), 0) AS inputTokens,
        COALESCE(SUM(total_output_tokens), 0) AS outputTokens,
        COALESCE(SUM(total_cached_tokens), 0) AS cachedTokens,
+       COALESCE(SUM(total_cache_read_tokens), 0) AS cacheReadTokens,
+       COALESCE(SUM(total_cache_creation_tokens), 0) AS cacheCreationTokens,
        COALESCE(SUM(total_latency_ms), 0) AS totalLatency
      FROM daily_metrics
      ${totalsWhere}`,
@@ -15649,6 +15747,8 @@ async function getMetricsOverview(endpoint) {
             total_input_tokens AS inputTokens,
             total_output_tokens AS outputTokens,
             total_cached_tokens AS cachedTokens,
+            total_cache_read_tokens AS cacheReadTokens,
+            total_cache_creation_tokens AS cacheCreationTokens,
             total_latency_ms AS totalLatency
        FROM daily_metrics
        WHERE date = ?
@@ -15666,6 +15766,8 @@ async function getMetricsOverview(endpoint) {
       inputTokens: totalsRow?.inputTokens ?? 0,
       outputTokens: totalsRow?.outputTokens ?? 0,
       cachedTokens: totalsRow?.cachedTokens ?? 0,
+      cacheReadTokens: totalsRow?.cacheReadTokens ?? 0,
+      cacheCreationTokens: totalsRow?.cacheCreationTokens ?? 0,
       avgLatencyMs: resolveAvg(totalsLatency, totalsRequests)
     },
     today: {
@@ -15673,6 +15775,8 @@ async function getMetricsOverview(endpoint) {
       inputTokens: todayRow?.inputTokens ?? 0,
       outputTokens: todayRow?.outputTokens ?? 0,
       cachedTokens: todayRow?.cachedTokens ?? 0,
+      cacheReadTokens: todayRow?.cacheReadTokens ?? 0,
+      cacheCreationTokens: todayRow?.cacheCreationTokens ?? 0,
       avgLatencyMs: resolveAvg(todayLatency, todayRequests)
     }
   };
@@ -17097,23 +17201,24 @@ function getPathsToRegister(basePath, protocol) {
   }
 }
 function resolveCachedTokens3(usage) {
+  const result = { read: 0, creation: 0 };
   if (!usage || typeof usage !== "object") {
-    return null;
+    return result;
+  }
+  if (typeof usage.cache_read_input_tokens === "number") {
+    result.read = usage.cache_read_input_tokens;
+  }
+  if (typeof usage.cache_creation_input_tokens === "number") {
+    result.creation = usage.cache_creation_input_tokens;
   }
   if (typeof usage.cached_tokens === "number") {
-    return usage.cached_tokens;
+    result.read = usage.cached_tokens;
   }
   const promptDetails = usage.prompt_tokens_details;
   if (promptDetails && typeof promptDetails.cached_tokens === "number") {
-    return promptDetails.cached_tokens;
-  }
-  if (typeof usage.cache_read_input_tokens === "number") {
-    return usage.cache_read_input_tokens;
-  }
-  if (typeof usage.cache_creation_input_tokens === "number") {
-    return usage.cache_creation_input_tokens;
+    result.read = promptDetails.cached_tokens;
   }
-  return null;
+  return result;
 }
 var roundTwoDecimals3 = (value) => Math.round(value * 100) / 100;
 function cloneOriginalPayload2(value) {
@@ -17470,12 +17575,15 @@ async function handleAnthropicProtocol(request, reply, endpoint, endpointId, app
       const json = await new Response(upstream.body).json();
       const inputTokens = json.usage?.input_tokens ?? estimateTokens(normalized, target.modelId);
       const outputTokens = json.usage?.output_tokens ?? 0;
-      const cachedTokens2 = resolveCachedTokens3(json.usage);
+      const cached = resolveCachedTokens3(json.usage);
+      const cachedTokens = cached.read + cached.creation;
       const latencyMs = Date.now() - requestStart;
       await updateLogTokens(logId, {
         inputTokens,
         outputTokens,
-        cachedTokens: cachedTokens2,
+        cachedTokens: usageCached,
+        cacheReadTokens: cached.read,
+        cacheCreationTokens: cached.creation,
         ttftMs: latencyMs,
         tpotMs: computeTpot3(latencyMs, outputTokens, { streaming: false })
       });
@@ -17484,7 +17592,9 @@ async function handleAnthropicProtocol(request, reply, endpoint, endpointId, app
         requests: 1,
         inputTokens,
         outputTokens,
-        cachedTokens: cachedTokens2,
+        cachedTokens: usageCached,
+        cacheReadTokens: usageCacheRead,
+        cacheCreationTokens: usageCacheCreation,
         latencyMs
       });
       if (storeResponsePayloads) {
@@ -17512,6 +17622,8 @@ async function handleAnthropicProtocol(request, reply, endpoint, endpointId, app
     let usagePrompt = 0;
     let usageCompletion = 0;
     let usageCached = null;
+    let usageCacheRead = 0;
+    let usageCacheCreation = 0;
     let firstTokenAt = null;
     const capturedChunks = storeResponsePayloads ? [] : null;
     try {
@@ -17541,9 +17653,9 @@ async function handleAnthropicProtocol(request, reply, endpoint, endpointId, app
                   usagePrompt = parsed.usage.input_tokens ?? usagePrompt;
                   usageCompletion = parsed.usage.output_tokens ?? usageCompletion;
                   const cached = resolveCachedTokens3(parsed.usage);
-                  if (cached !== null) {
-                    usageCached = cached;
-                  }
+                  usageCacheRead = cached.read;
+                  usageCacheCreation = cached.creation;
+                  usageCached = cached.read + cached.creation;
                 }
                 if (!firstTokenAt && (parsed?.type === "content_block_delta" || parsed?.delta?.text)) {
                   firstTokenAt = Date.now();
@@ -17570,6 +17682,8 @@ async function handleAnthropicProtocol(request, reply, endpoint, endpointId, app
       inputTokens: usagePrompt,
       outputTokens: usageCompletion,
       cachedTokens: usageCached,
+      cacheReadTokens: usageCacheRead,
+      cacheCreationTokens: usageCacheCreation,
       ttftMs,
       tpotMs: computeTpot3(totalLatencyMs, usageCompletion, {
         streaming: true,
@@ -17761,12 +17875,15 @@ async function handleOpenAIChatProtocol(request, reply, endpoint, endpointId, ap
       const usagePayload = json?.usage ?? null;
       const inputTokens2 = usagePayload?.prompt_tokens ?? usagePayload?.input_tokens ?? target.tokenEstimate ?? estimateTokens(normalized, target.modelId);
       const outputTokens2 = usagePayload?.completion_tokens ?? usagePayload?.output_tokens ?? estimateTextTokens(json?.choices?.[0]?.message?.content ?? "", target.modelId);
-      const cachedTokens2 = resolveCachedTokens3(usagePayload);
+      const cached = resolveCachedTokens3(usagePayload);
+      const cachedTokens = cached.read + cached.creation;
       const latencyMs2 = Date.now() - requestStart;
       await updateLogTokens(logId, {
         inputTokens: inputTokens2,
         outputTokens: outputTokens2,
-        cachedTokens: cachedTokens2,
+        cachedTokens: usageCached,
+        cacheReadTokens: cached.read,
+        cacheCreationTokens: cached.creation,
         ttftMs: latencyMs2,
         tpotMs: computeTpot3(latencyMs2, outputTokens2, { streaming: false })
       });
@@ -17775,7 +17892,9 @@ async function handleOpenAIChatProtocol(request, reply, endpoint, endpointId, ap
         requests: 1,
         inputTokens: inputTokens2,
         outputTokens: outputTokens2,
-        cachedTokens: cachedTokens2,
+        cachedTokens: usageCached,
+        cacheReadTokens: usageCacheRead,
+        cacheCreationTokens: usageCacheCreation,
         latencyMs: latencyMs2
       });
       if (storeResponsePayloads) {
@@ -17800,6 +17919,8 @@ async function handleOpenAIChatProtocol(request, reply, endpoint, endpointId, ap
     let usagePrompt = null;
     let usageCompletion = null;
     let usageCached = null;
+    let usageCacheRead = 0;
+    let usageCacheCreation = 0;
     let firstTokenAt = null;
     const capturedChunks = storeResponsePayloads ? [] : null;
     try {
@@ -17829,7 +17950,10 @@ async function handleOpenAIChatProtocol(request, reply, endpoint, endpointId, ap
                   if (usage) {
                     usagePrompt = usage.prompt_tokens ?? usage.input_tokens ?? usagePrompt;
                     usageCompletion = usage.completion_tokens ?? usage.output_tokens ?? usageCompletion;
-                    usageCached = usage.cached_tokens ?? usageCached;
+                    const cachedResult = resolveCachedTokens3(usage);
+                    usageCacheRead = cachedResult.read;
+                    usageCacheCreation = cachedResult.creation;
+                    usageCached = cachedResult.read + cachedResult.creation;
                   }
                 } catch {
                 }
@@ -17851,6 +17975,8 @@ async function handleOpenAIChatProtocol(request, reply, endpoint, endpointId, ap
       inputTokens,
       outputTokens,
       cachedTokens: usageCached,
+      cacheReadTokens: usageCacheRead,
+      cacheCreationTokens: usageCacheCreation,
       ttftMs: firstTokenAt ? firstTokenAt - requestStart : null,
       tpotMs: computeTpot3(latencyMs, outputTokens, {
         streaming: true,
@@ -18041,12 +18167,15 @@ async function handleOpenAIResponsesProtocol(request, reply, endpoint, endpointI
       const inputTokens2 = usagePayload?.prompt_tokens ?? usagePayload?.input_tokens ?? target.tokenEstimate ?? estimateTokens(normalized, target.modelId);
       const content = json?.response?.body?.content ?? json?.choices?.[0]?.message?.content ?? "";
       const outputTokens2 = usagePayload?.completion_tokens ?? usagePayload?.output_tokens ?? estimateTextTokens(content, target.modelId);
-      const cachedTokens2 = resolveCachedTokens3(usagePayload);
+      const cached = resolveCachedTokens3(usagePayload);
+      const cachedTokens = cached.read + cached.creation;
       const latencyMs2 = Date.now() - requestStart;
       await updateLogTokens(logId, {
         inputTokens: inputTokens2,
         outputTokens: outputTokens2,
-        cachedTokens: cachedTokens2,
+        cachedTokens: usageCached,
+        cacheReadTokens: cached.read,
+        cacheCreationTokens: cached.creation,
         ttftMs: latencyMs2,
         tpotMs: computeTpot3(latencyMs2, outputTokens2, { streaming: false })
       });
@@ -18055,7 +18184,9 @@ async function handleOpenAIResponsesProtocol(request, reply, endpoint, endpointI
         requests: 1,
         inputTokens: inputTokens2,
         outputTokens: outputTokens2,
-        cachedTokens: cachedTokens2,
+        cachedTokens: usageCached,
+        cacheReadTokens: usageCacheRead,
+        cacheCreationTokens: usageCacheCreation,
         latencyMs: latencyMs2
       });
       if (storeResponsePayloads) {
@@ -18080,6 +18211,8 @@ async function handleOpenAIResponsesProtocol(request, reply, endpoint, endpointI
     let usagePrompt = null;
     let usageCompletion = null;
     let usageCached = null;
+    let usageCacheRead = 0;
+    let usageCacheCreation = 0;
     let firstTokenAt = null;
     const capturedChunks = storeResponsePayloads ? [] : null;
     try {
@@ -18109,7 +18242,10 @@ async function handleOpenAIResponsesProtocol(request, reply, endpoint, endpointI
                   if (usage) {
                     usagePrompt = usage.prompt_tokens ?? usage.input_tokens ?? usagePrompt;
                     usageCompletion = usage.completion_tokens ?? usage.output_tokens ?? usageCompletion;
-                    usageCached = usage.cached_tokens ?? usageCached;
+                    const cachedResult = resolveCachedTokens3(usage);
+                    usageCacheRead = cachedResult.read;
+                    usageCacheCreation = cachedResult.creation;
+                    usageCached = cachedResult.read + cachedResult.creation;
                   }
                 } catch {
                 }
@@ -18131,6 +18267,8 @@ async function handleOpenAIResponsesProtocol(request, reply, endpoint, endpointI
       inputTokens,
       outputTokens,
       cachedTokens: usageCached,
+      cacheReadTokens: usageCacheRead,
+      cacheCreationTokens: usageCacheCreation,
       ttftMs: firstTokenAt ? firstTokenAt - requestStart : null,
       tpotMs: computeTpot3(latencyMs, outputTokens, {
         streaming: true,