npm - @hebo-ai/gateway - Versions diffs - 0.5.1 → 0.6.0-rc0 - Mend

@hebo-ai/gateway 0.5.1 → 0.6.0-rc0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (184) hide show

package/README.md +32 -1
package/package.json +17 -12
package/src/endpoints/chat-completions/converters.test.ts +85 -1
package/src/endpoints/chat-completions/converters.ts +139 -18
package/src/endpoints/chat-completions/handler.test.ts +2 -0
package/src/endpoints/chat-completions/handler.ts +10 -3
package/src/endpoints/chat-completions/index.ts +1 -0
package/src/endpoints/chat-completions/otel.ts +1 -0
package/src/endpoints/chat-completions/schema.ts +38 -4
package/src/endpoints/embeddings/handler.ts +5 -3
package/src/endpoints/embeddings/index.ts +1 -0
package/src/lifecycle.ts +2 -2
package/src/middleware/debug.ts +37 -0
package/src/middleware/matcher.ts +4 -0
package/src/models/anthropic/middleware.test.ts +45 -1
package/src/models/anthropic/middleware.ts +21 -1
package/src/models/google/middleware.test.ts +30 -1
package/src/models/google/middleware.ts +20 -1
package/src/models/openai/middleware.test.ts +32 -1
package/src/models/openai/middleware.ts +25 -1
package/src/providers/bedrock/middleware.test.ts +121 -1
package/src/providers/bedrock/middleware.ts +61 -1
package/src/telemetry/fetch.ts +31 -4
package/src/telemetry/index.ts +1 -0
package/dist/config.d.ts +0 -2
package/dist/config.js +0 -81
package/dist/endpoints/chat-completions/converters.d.ts +0 -43
package/dist/endpoints/chat-completions/converters.js +0 -551
package/dist/endpoints/chat-completions/handler.d.ts +0 -2
package/dist/endpoints/chat-completions/handler.js +0 -145
package/dist/endpoints/chat-completions/index.d.ts +0 -3
package/dist/endpoints/chat-completions/index.js +0 -3
package/dist/endpoints/chat-completions/otel.d.ts +0 -6
package/dist/endpoints/chat-completions/otel.js +0 -134
package/dist/endpoints/chat-completions/schema.d.ts +0 -946
package/dist/endpoints/chat-completions/schema.js +0 -257
package/dist/endpoints/embeddings/converters.d.ts +0 -10
package/dist/endpoints/embeddings/converters.js +0 -31
package/dist/endpoints/embeddings/handler.d.ts +0 -2
package/dist/endpoints/embeddings/handler.js +0 -101
package/dist/endpoints/embeddings/index.d.ts +0 -3
package/dist/endpoints/embeddings/index.js +0 -3
package/dist/endpoints/embeddings/otel.d.ts +0 -6
package/dist/endpoints/embeddings/otel.js +0 -35
package/dist/endpoints/embeddings/schema.d.ts +0 -38
package/dist/endpoints/embeddings/schema.js +0 -26
package/dist/endpoints/models/converters.d.ts +0 -6
package/dist/endpoints/models/converters.js +0 -42
package/dist/endpoints/models/handler.d.ts +0 -2
package/dist/endpoints/models/handler.js +0 -29
package/dist/endpoints/models/index.d.ts +0 -3
package/dist/endpoints/models/index.js +0 -3
package/dist/endpoints/models/schema.d.ts +0 -42
package/dist/endpoints/models/schema.js +0 -31
package/dist/errors/ai-sdk.d.ts +0 -2
package/dist/errors/ai-sdk.js +0 -52
package/dist/errors/gateway.d.ts +0 -5
package/dist/errors/gateway.js +0 -13
package/dist/errors/openai.d.ts +0 -20
package/dist/errors/openai.js +0 -40
package/dist/errors/utils.d.ts +0 -22
package/dist/errors/utils.js +0 -44
package/dist/gateway.d.ts +0 -9
package/dist/gateway.js +0 -34
package/dist/index.d.ts +0 -14
package/dist/index.js +0 -13
package/dist/lifecycle.d.ts +0 -2
package/dist/lifecycle.js +0 -94
package/dist/logger/default.d.ts +0 -4
package/dist/logger/default.js +0 -81
package/dist/logger/index.d.ts +0 -14
package/dist/logger/index.js +0 -25
package/dist/middleware/common.d.ts +0 -12
package/dist/middleware/common.js +0 -145
package/dist/middleware/matcher.d.ts +0 -27
package/dist/middleware/matcher.js +0 -112
package/dist/middleware/utils.d.ts +0 -2
package/dist/middleware/utils.js +0 -27
package/dist/models/amazon/index.d.ts +0 -2
package/dist/models/amazon/index.js +0 -2
package/dist/models/amazon/middleware.d.ts +0 -3
package/dist/models/amazon/middleware.js +0 -65
package/dist/models/amazon/presets.d.ts +0 -2390
package/dist/models/amazon/presets.js +0 -80
package/dist/models/anthropic/index.d.ts +0 -2
package/dist/models/anthropic/index.js +0 -2
package/dist/models/anthropic/middleware.d.ts +0 -4
package/dist/models/anthropic/middleware.js +0 -111
package/dist/models/anthropic/presets.d.ts +0 -4802
package/dist/models/anthropic/presets.js +0 -135
package/dist/models/catalog.d.ts +0 -4
package/dist/models/catalog.js +0 -4
package/dist/models/cohere/index.d.ts +0 -2
package/dist/models/cohere/index.js +0 -2
package/dist/models/cohere/middleware.d.ts +0 -3
package/dist/models/cohere/middleware.js +0 -60
package/dist/models/cohere/presets.d.ts +0 -2918
package/dist/models/cohere/presets.js +0 -134
package/dist/models/google/index.d.ts +0 -2
package/dist/models/google/index.js +0 -2
package/dist/models/google/middleware.d.ts +0 -7
package/dist/models/google/middleware.js +0 -103
package/dist/models/google/presets.d.ts +0 -2553
package/dist/models/google/presets.js +0 -83
package/dist/models/meta/index.d.ts +0 -1
package/dist/models/meta/index.js +0 -1
package/dist/models/meta/presets.d.ts +0 -3254
package/dist/models/meta/presets.js +0 -95
package/dist/models/openai/index.d.ts +0 -2
package/dist/models/openai/index.js +0 -2
package/dist/models/openai/middleware.d.ts +0 -3
package/dist/models/openai/middleware.js +0 -62
package/dist/models/openai/presets.d.ts +0 -6634
package/dist/models/openai/presets.js +0 -213
package/dist/models/types.d.ts +0 -20
package/dist/models/types.js +0 -84
package/dist/models/voyage/index.d.ts +0 -2
package/dist/models/voyage/index.js +0 -2
package/dist/models/voyage/middleware.d.ts +0 -2
package/dist/models/voyage/middleware.js +0 -18
package/dist/models/voyage/presets.d.ts +0 -3471
package/dist/models/voyage/presets.js +0 -85
package/dist/providers/anthropic/canonical.d.ts +0 -3
package/dist/providers/anthropic/canonical.js +0 -9
package/dist/providers/anthropic/index.d.ts +0 -1
package/dist/providers/anthropic/index.js +0 -1
package/dist/providers/bedrock/canonical.d.ts +0 -17
package/dist/providers/bedrock/canonical.js +0 -61
package/dist/providers/bedrock/index.d.ts +0 -2
package/dist/providers/bedrock/index.js +0 -2
package/dist/providers/bedrock/middleware.d.ts +0 -3
package/dist/providers/bedrock/middleware.js +0 -55
package/dist/providers/cohere/canonical.d.ts +0 -3
package/dist/providers/cohere/canonical.js +0 -17
package/dist/providers/cohere/index.d.ts +0 -1
package/dist/providers/cohere/index.js +0 -1
package/dist/providers/groq/canonical.d.ts +0 -3
package/dist/providers/groq/canonical.js +0 -12
package/dist/providers/groq/index.d.ts +0 -1
package/dist/providers/groq/index.js +0 -1
package/dist/providers/openai/canonical.d.ts +0 -3
package/dist/providers/openai/canonical.js +0 -8
package/dist/providers/openai/index.d.ts +0 -1
package/dist/providers/openai/index.js +0 -1
package/dist/providers/registry.d.ts +0 -24
package/dist/providers/registry.js +0 -100
package/dist/providers/types.d.ts +0 -7
package/dist/providers/types.js +0 -11
package/dist/providers/vertex/canonical.d.ts +0 -3
package/dist/providers/vertex/canonical.js +0 -8
package/dist/providers/vertex/index.d.ts +0 -1
package/dist/providers/vertex/index.js +0 -1
package/dist/providers/voyage/canonical.d.ts +0 -3
package/dist/providers/voyage/canonical.js +0 -7
package/dist/providers/voyage/index.d.ts +0 -1
package/dist/providers/voyage/index.js +0 -1
package/dist/telemetry/ai-sdk.d.ts +0 -2
package/dist/telemetry/ai-sdk.js +0 -31
package/dist/telemetry/baggage.d.ts +0 -1
package/dist/telemetry/baggage.js +0 -24
package/dist/telemetry/fetch.d.ts +0 -2
package/dist/telemetry/fetch.js +0 -24
package/dist/telemetry/gen-ai.d.ts +0 -5
package/dist/telemetry/gen-ai.js +0 -60
package/dist/telemetry/http.d.ts +0 -3
package/dist/telemetry/http.js +0 -54
package/dist/telemetry/memory.d.ts +0 -2
package/dist/telemetry/memory.js +0 -27
package/dist/telemetry/span.d.ts +0 -13
package/dist/telemetry/span.js +0 -60
package/dist/telemetry/stream.d.ts +0 -3
package/dist/telemetry/stream.js +0 -51
package/dist/types.d.ts +0 -176
package/dist/types.js +0 -1
package/dist/utils/env.d.ts +0 -2
package/dist/utils/env.js +0 -5
package/dist/utils/headers.d.ts +0 -4
package/dist/utils/headers.js +0 -22
package/dist/utils/preset.d.ts +0 -9
package/dist/utils/preset.js +0 -41
package/dist/utils/request.d.ts +0 -2
package/dist/utils/request.js +0 -14
package/dist/utils/response.d.ts +0 -3
package/dist/utils/response.js +0 -68

package/README.md CHANGED Viewed

@@ -38,7 +38,7 @@ bun install @hebo-ai/gateway
 - Runtime Support
   - [Vercel Edge](#vercel-edge) | [Cloudflare Workers](#cloudflare-workers) | [Deno Deploy](#deno-deploy) | [AWS Lambda](#aws-lambda)
 - OpenAI Extensions
-  - [Reasoning](#reasoning)
+  - [Reasoning](#reasoning) | [Prompt Caching](#prompt-caching)
 - Advanced Usage
   - [Passing Framework State to Hooks](#passing-framework-state-to-hooks) | [Selective Route Mounting](#selective-route-mounting) | [Low-level Schemas & Converters](#low-level-schemas--converters)
@@ -565,6 +565,37 @@ Advanced models (like Anthropic Claude 3.7 or Gemini 3) surface structured reaso
 For **Gemini 3** models, returning the thought signature via `extra_content` is mandatory to resume the chain-of-thought; failing to do so may result in errors or degraded performance.
+### Prompt Caching
+The chat completions endpoint supports both implicit (provider-managed) and explicit prompt caching across OpenAI-compatible providers.
+Accepted request fields:
+- `prompt_cache_key` + `prompt_cache_retention` (OpenAI style)
+- `cache_control` (OpenRouter / Vercel / Claude style)
+- `cached_content` (Gemini style)
+```json
+{
+  "model": "anthropic/claude-sonnet-4.6",
+  "messages": [
+    {
+      "role": "system",
+      "content": "Reusable policy and instructions",
+      "cache_control": { "type": "ephemeral", "ttl": "1h" }
+    },
+    { "role": "user", "content": "Apply policy to this request." }
+  ]
+}
+```
+Provider behavior:
+- **OpenAI-compatible**: forwards `prompt_cache_key` and `prompt_cache_retention` as native provider options.
+- **Anthropic Claude**: maps top-level caching to Anthropic cache control, while message/part `cache_control` breakpoints are preserved.
+- **Google Gemini**: maps `cached_content` to Gemini `cachedContent`.
+- **Amazon Nova (Bedrock)**: maps `cache_control` to Bedrock `cachePoints` and inserts an automatic cache point on a stable prefix when none is provided.
 ## 🧪 Advanced Usage
 ### Logger Settings

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@hebo-ai/gateway",
-  "version": "0.5.1",
+  "version": "0.6.0-rc0",
   "description": "AI gateway as a framework. For full control over models, routing & lifecycle. OpenAI-compatible /chat/completions, /embeddings & /models.",
   "keywords": [
     "ai",
@@ -140,6 +140,11 @@
       "types": "./dist/providers/voyage/index.d.ts",
       "import": "./dist/providers/voyage/index.js",
       "dev-source": "./src/providers/voyage/index.ts"
+    },
+    "./telemetry": {
+      "types": "./dist/telemetry/index.d.ts",
+      "import": "./dist/telemetry/index.js",
+      "dev-source": "./src/telemetry/index.ts"
     }
   },
   "scripts": {
@@ -155,33 +160,33 @@
   },
   "dependencies": {
     "@ai-sdk/provider": "^3.0.8",
-    "ai": "^6.0.97",
+    "ai": "^6.0.101",
     "zod": "^4.3.6"
   },
   "devDependencies": {
-    "@ai-sdk/amazon-bedrock": "^4.0.63",
-    "@ai-sdk/anthropic": "^3.0.46",
+    "@ai-sdk/amazon-bedrock": "^4.0.65",
+    "@ai-sdk/anthropic": "^3.0.47",
     "@ai-sdk/cohere": "^3.0.21",
-    "@ai-sdk/google-vertex": "^4.0.61",
+    "@ai-sdk/google-vertex": "^4.0.63",
     "@ai-sdk/groq": "^3.0.24",
-    "@ai-sdk/openai": "^3.0.30",
-    "@aws-sdk/credential-providers": "^3.995.0",
+    "@ai-sdk/openai": "^3.0.34",
+    "@aws-sdk/credential-providers": "^3.998.0",
     "@langfuse/otel": "^4.6.1",
     "@mjackson/node-fetch-server": "^0.7.0",
     "@opentelemetry/api": "^1.9.0",
     "@opentelemetry/context-async-hooks": "^2.5.1",
     "@opentelemetry/sdk-trace-base": "^2.5.1",
-    "@tanstack/react-router": "^1.161.3",
-    "@tanstack/react-start": "^1.161.3",
+    "@tanstack/react-router": "^1.163.2",
+    "@tanstack/react-start": "^1.163.2",
     "@types/bun": "latest",
     "@types/react": "^19.2.14",
     "@types/react-dom": "^19.2.3",
-    "elysia": "^1.4.25",
-    "hono": "^4.12.0",
+    "elysia": "^1.4.26",
+    "hono": "^4.12.2",
     "lefthook": "^2.1.1",
     "next": "^16.1.6",
     "oxfmt": "^0.24.0",
-    "oxlint": "^1.49.0",
+    "oxlint": "^1.50.0",
     "pino": "^10.3.1",
     "typescript": "^5.9.3",
     "vite": "^7.3.1",

package/src/endpoints/chat-completions/converters.test.ts CHANGED Viewed

@@ -1,4 +1,4 @@
-import type { GenerateTextResult, ToolSet, Output } from "ai";
+import type { GenerateTextResult, ToolSet, Output, LanguageModelUsage } from "ai";
 import { describe, expect, test } from "bun:test";
@@ -8,6 +8,7 @@ import {
   convertToTextCallOptions,
   toChatCompletionsAssistantMessage,
   toChatCompletionsToolCall,
+  toChatCompletionsUsage,
   fromChatCompletionsAssistantMessage,
   fromChatCompletionsToolResultMessage,
 } from "./converters";
@@ -520,6 +521,89 @@ describe("Chat Completions Converters", () => {
       expect(result.tools).toBeDefined();
       expect(Object.keys(result.tools!)).toEqual(["get_weather"]);
     });
+    test("should map prompt cache options into providerOptions.unknown", () => {
+      const result = convertToTextCallOptions({
+        messages: [{ role: "system", content: "You are concise." }],
+        prompt_cache_key: "tenant:docs:v1",
+        prompt_cache_retention: "24h",
+      });
+      expect(result.providerOptions).toEqual({
+        unknown: {
+          prompt_cache_key: "tenant:docs:v1",
+          prompt_cache_retention: "24h",
+          cached_content: "tenant:docs:v1",
+          cache_control: {
+            type: "ephemeral",
+            ttl: "24h",
+          },
+        },
+      });
+    });
+    test("should sync retention from cache_control ttl", () => {
+      const result = convertToTextCallOptions({
+        messages: [{ role: "system", content: "You are concise." }],
+        cache_control: {
+          type: "ephemeral",
+          ttl: "5m",
+        },
+      });
+      expect(result.providerOptions).toEqual({
+        unknown: {
+          prompt_cache_retention: "in_memory",
+          cache_control: {
+            type: "ephemeral",
+            ttl: "5m",
+          },
+        },
+      });
+    });
+    test("should preserve cache_control on message and content parts", () => {
+      const result = convertToTextCallOptions({
+        messages: [
+          {
+            role: "system",
+            content: "Policy block",
+            cache_control: { type: "ephemeral", ttl: "1h" },
+          },
+          {
+            role: "user",
+            content: [{ type: "text", text: "Question", cache_control: { type: "ephemeral" } }],
+          },
+        ],
+      });
+      expect((result.messages[0] as any).providerOptions.unknown.cache_control).toEqual({
+        type: "ephemeral",
+        ttl: "1h",
+      });
+      expect((result.messages[1] as any).content[0].providerOptions.unknown.cache_control).toEqual({
+        type: "ephemeral",
+      });
+    });
+  });
+  describe("toChatCompletionsUsage", () => {
+    test("should include cached token details", () => {
+      const usage = toChatCompletionsUsage({
+        inputTokens: 100,
+        outputTokens: 20,
+        totalTokens: 120,
+        inputTokenDetails: {
+          cacheReadTokens: 60,
+          cacheWriteTokens: 10,
+        },
+      } as LanguageModelUsage);
+      expect(usage.prompt_tokens_details).toEqual({
+        cached_tokens: 60,
+        cache_write_tokens: 10,
+      });
+    });
   });
   describe("toChatCompletionsToolCall", () => {

package/src/endpoints/chat-completions/converters.ts CHANGED Viewed

@@ -17,6 +17,9 @@ import type {
   AssistantModelMessage,
   ToolModelMessage,
   UserModelMessage,
+  TextPart,
+  ImagePart,
+  FilePart,
 } from "ai";
 import { Output, jsonSchema, tool } from "ai";
@@ -28,7 +31,6 @@ import type {
   ChatCompletionsToolChoice,
   ChatCompletionsContentPart,
   ChatCompletionsMessage,
-  ChatCompletionsSystemMessage,
   ChatCompletionsUserMessage,
   ChatCompletionsAssistantMessage,
   ChatCompletionsToolMessage,
@@ -46,6 +48,7 @@ import type {
   ChatCompletionsReasoningDetail,
   ChatCompletionsResponseFormat,
   ChatCompletionsContentPartText,
+  ChatCompletionsCacheControl,
 } from "./schema";
 import { GatewayError } from "../../errors/gateway";
@@ -81,6 +84,10 @@ export function convertToTextCallOptions(params: ChatCompletionsInputs): TextCal
     response_format,
     reasoning_effort,
     reasoning,
+    prompt_cache_key,
+    prompt_cache_retention,
+    cached_content,
+    cache_control,
     frequency_penalty,
     presence_penalty,
     seed,
@@ -90,6 +97,15 @@ export function convertToTextCallOptions(params: ChatCompletionsInputs): TextCal
   } = params;
   Object.assign(rest, parseReasoningOptions(reasoning_effort, reasoning));
+  Object.assign(
+    rest,
+    parsePromptCachingOptions(
+      prompt_cache_key,
+      prompt_cache_retention,
+      cached_content,
+      cache_control,
+    ),
+  );
   const { toolChoice, activeTools } = convertToToolChoiceOptions(tool_choice);
@@ -133,7 +149,12 @@ export function convertToModelMessages(messages: ChatCompletionsMessage[]): Mode
     if (message.role === "tool") continue;
     if (message.role === "system") {
-      modelMessages.push(message satisfies ChatCompletionsSystemMessage);
+      if (message.cache_control) {
+        (message as ModelMessage).providerOptions = {
+          unknown: { cache_control: message.cache_control },
+        };
+      }
+      modelMessages.push(message);
       continue;
     }
@@ -161,18 +182,24 @@ function indexToolMessages(messages: ChatCompletionsMessage[]) {
 export function fromChatCompletionsUserMessage(
   message: ChatCompletionsUserMessage,
 ): UserModelMessage {
-  return {
+  const out: UserModelMessage = {
     role: "user",
     content: Array.isArray(message.content)
       ? fromChatCompletionsContent(message.content)
       : message.content,
   };
+  if (message.cache_control) {
+    out.providerOptions = {
+      unknown: { cache_control: message.cache_control },
+    };
+  }
+  return out;
 }
 export function fromChatCompletionsAssistantMessage(
   message: ChatCompletionsAssistantMessage,
 ): AssistantModelMessage {
-  const { tool_calls, role, content, extra_content, reasoning_details } = message;
+  const { tool_calls, role, content, extra_content, reasoning_details, cache_control } = message;
   const parts: AssistantContent = [];
@@ -211,10 +238,16 @@ export function fromChatCompletionsAssistantMessage(
         : content;
     for (const part of inputContent) {
       if (part.type === "text") {
-        parts.push({
+        const textPart: TextPart = {
           type: "text",
           text: part.text,
-        });
+        };
+        if (part.cache_control) {
+          textPart.providerOptions = {
+            unknown: { cache_control: part.cache_control },
+          };
+        }
+        parts.push(textPart);
       }
     }
   }
@@ -245,6 +278,10 @@ export function fromChatCompletionsAssistantMessage(
     out.providerOptions = extra_content as SharedV3ProviderOptions;
   }
+  if (cache_control) {
+    ((out.providerOptions ??= { unknown: {} })["unknown"] ??= {})["cache_control"] = cache_control;
+  }
   return out;
 }
@@ -275,44 +312,87 @@ export function fromChatCompletionsContent(content: ChatCompletionsContentPart[]
   return content.map((part) => {
     switch (part.type) {
       case "image_url":
-        return fromImageUrlPart(part.image_url.url);
+        return fromImageUrlPart(part.image_url.url, part.cache_control);
       case "file":
-        return fromFilePart(part.file.data, part.file.media_type, part.file.filename);
+        return fromFilePart(
+          part.file.data,
+          part.file.media_type,
+          part.file.filename,
+          part.cache_control,
+        );
       case "input_audio":
-        return fromFilePart(part.input_audio.data, `audio/${part.input_audio.format}`);
-      default:
-        return part;
+        return fromFilePart(
+          part.input_audio.data,
+          `audio/${part.input_audio.format}`,
+          undefined,
+          part.cache_control,
+        );
+      default: {
+        const out: TextPart = {
+          type: "text" as const,
+          text: part.text,
+        };
+        if (part.cache_control) {
+          out.providerOptions = {
+            unknown: { cache_control: part.cache_control },
+          };
+        }
+        return out;
+      }
     }
   });
 }
-function fromImageUrlPart(url: string) {
+function fromImageUrlPart(url: string, cacheControl?: ChatCompletionsCacheControl) {
   if (url.startsWith("data:")) {
     const { mimeType, base64Data } = parseDataUrl(url);
-    return fromFilePart(base64Data, mimeType);
+    return fromFilePart(base64Data, mimeType, undefined, cacheControl);
   }
-  return {
+  const out: ImagePart = {
     type: "image" as const,
     image: new URL(url),
   };
+  if (cacheControl) {
+    out.providerOptions = {
+      unknown: { cache_control: cacheControl },
+    };
+  }
+  return out;
 }
-function fromFilePart(base64Data: string, mediaType: string, filename?: string) {
+function fromFilePart(
+  base64Data: string,
+  mediaType: string,
+  filename?: string,
+  cacheControl?: ChatCompletionsCacheControl,
+) {
   if (mediaType.startsWith("image/")) {
-    return {
+    const out: ImagePart = {
       type: "image" as const,
       image: z.util.base64ToUint8Array(base64Data),
       mediaType,
     };
+    if (cacheControl) {
+      out.providerOptions = {
+        unknown: { cache_control: cacheControl },
+      };
+    }
+    return out;
   }
-  return {
+  const out: FilePart = {
     type: "file" as const,
     data: z.util.base64ToUint8Array(base64Data),
     filename,
     mediaType,
   };
+  if (cacheControl) {
+    out.providerOptions = {
+      unknown: { cache_control: cacheControl },
+    };
+  }
+  return out;
 }
 export const convertToToolSet = (tools: ChatCompletionsTool[] | undefined): ToolSet | undefined => {
@@ -438,6 +518,38 @@ function parseReasoningOptions(
   return out;
 }
+function parsePromptCachingOptions(
+  prompt_cache_key: string | undefined,
+  prompt_cache_retention: "in_memory" | "24h" | undefined,
+  cached_content: string | undefined,
+  cache_control: ChatCompletionsCacheControl | undefined,
+) {
+  const out: Record<string, unknown> = {};
+  const syncedCacheKey = prompt_cache_key ?? cached_content;
+  const syncedCachedContent = cached_content ?? prompt_cache_key;
+  let syncedCacheRetention = prompt_cache_retention;
+  if (!syncedCacheRetention && cache_control?.ttl) {
+    syncedCacheRetention = cache_control.ttl === "24h" ? "24h" : "in_memory";
+  }
+  let syncedCacheControl = cache_control;
+  if (!syncedCacheControl && syncedCacheRetention) {
+    syncedCacheControl = {
+      type: "ephemeral",
+      ttl: syncedCacheRetention === "24h" ? "24h" : "5m",
+    };
+  }
+  if (syncedCacheKey) out["prompt_cache_key"] = syncedCacheKey;
+  if (syncedCacheRetention) out["prompt_cache_retention"] = syncedCacheRetention;
+  if (syncedCachedContent) out["cached_content"] = syncedCachedContent;
+  if (syncedCacheControl) out["cache_control"] = syncedCacheControl;
+  return out;
+}
 // --- Response Flow ---
 export function toChatCompletions(
@@ -731,7 +843,16 @@ export function toChatCompletionsUsage(usage: LanguageModelUsage): ChatCompletio
   if (reasoning !== undefined) out.completion_tokens_details = { reasoning_tokens: reasoning };
   const cached = usage.inputTokenDetails?.cacheReadTokens;
-  if (cached !== undefined) out.prompt_tokens_details = { cached_tokens: cached };
+  const cacheWrite = usage.inputTokenDetails?.cacheWriteTokens;
+  if (cached !== undefined || cacheWrite !== undefined) {
+    out.prompt_tokens_details = {};
+    if (cached !== undefined) {
+      out.prompt_tokens_details.cached_tokens = cached;
+    }
+    if (cacheWrite !== undefined) {
+      out.prompt_tokens_details.cache_write_tokens = cacheWrite;
+    }
+  }
   return out;
 }

package/src/endpoints/chat-completions/handler.test.ts CHANGED Viewed

@@ -197,6 +197,7 @@ describe("Chat Completions Handler", () => {
         },
         prompt_tokens_details: {
           cached_tokens: 20,
+          cache_write_tokens: 0,
         },
       },
       provider_metadata: { provider: { key: "value" } },
@@ -284,6 +285,7 @@ describe("Chat Completions Handler", () => {
         },
         prompt_tokens_details: {
           cached_tokens: 20,
+          cache_write_tokens: 0,
         },
       },
       provider_metadata: { provider: { key: "value" } },

package/src/endpoints/chat-completions/handler.ts CHANGED Viewed

@@ -36,7 +36,7 @@ import {
   getChatRequestAttributes,
   getChatResponseAttributes,
 } from "./otel";
-import { ChatCompletionsBodySchema } from "./schema";
+import { ChatCompletionsBodySchema, type ChatCompletionsBody } from "./schema";
 export const chatCompletions = (config: GatewayConfig): Endpoint => {
   const hooks = config.hooks;
@@ -57,6 +57,7 @@ export const chatCompletions = (config: GatewayConfig): Endpoint => {
     } catch {
       throw new GatewayError("Invalid JSON", 400);
     }
+    logger.trace({ requestId: ctx.requestId, body: ctx.body }, "[chat] ChatCompletionsBody");
     addSpanEvent("hebo.request.deserialized");
     const parsed = ChatCompletionsBodySchema.safeParse(ctx.body);
@@ -68,7 +69,8 @@ export const chatCompletions = (config: GatewayConfig): Endpoint => {
     addSpanEvent("hebo.request.parsed");
     if (hooks?.before) {
-      ctx.body = (await hooks.before(ctx as BeforeHookContext)) ?? ctx.body;
+      ctx.body =
+        ((await hooks.before(ctx as BeforeHookContext)) as ChatCompletionsBody) ?? ctx.body;
       addSpanEvent("hebo.hooks.before.completed");
     }
@@ -110,7 +112,7 @@ export const chatCompletions = (config: GatewayConfig): Endpoint => {
       "[chat] AI SDK options",
     );
     addSpanEvent("hebo.options.prepared");
-    setSpanAttributes(getChatRequestAttributes(inputs, genAiSignalLevel));
+    setSpanAttributes(getChatRequestAttributes(ctx.body, genAiSignalLevel));
     // Build middleware chain (model -> forward params -> provider).
     const languageModelWithMiddleware = wrapLanguageModel({
@@ -138,6 +140,10 @@ export const chatCompletions = (config: GatewayConfig): Endpoint => {
             res as unknown as GenerateTextResult<ToolSet, Output.Output>,
             ctx.resolvedModelId!,
           );
+          logger.trace(
+            { requestId: ctx.requestId, result: streamResult },
+            "[chat] ChatCompletions",
+          );
           addSpanEvent("hebo.result.transformed");
           const genAiResponseAttrs = getChatResponseAttributes(streamResult, genAiSignalLevel);
@@ -180,6 +186,7 @@ export const chatCompletions = (config: GatewayConfig): Endpoint => {
     // Transform result.
     ctx.result = toChatCompletions(result, ctx.resolvedModelId);
+    logger.trace({ requestId: ctx.requestId, result: ctx.result }, "[chat] ChatCompletions");
     addSpanEvent("hebo.result.transformed");
     const genAiResponseAttrs = getChatResponseAttributes(ctx.result, genAiSignalLevel);

package/src/endpoints/chat-completions/index.ts CHANGED Viewed

@@ -1,3 +1,4 @@
 export * from "./converters";
 export * from "./handler";
 export * from "./schema";
+export * from "./otel";

package/src/endpoints/chat-completions/otel.ts CHANGED Viewed

@@ -98,6 +98,7 @@ export const getChatRequestAttributes = (
   if (signalLevel !== "required") {
     Object.assign(attrs, {
+      // FUTURE: add reasoning info
       "gen_ai.request.stream": inputs.stream,
       "gen_ai.request.frequency_penalty": inputs.frequency_penalty,
       "gen_ai.request.max_tokens": inputs.max_completion_tokens,