npm - @relayplane/proxy - Versions diffs - 1.5.44 → 1.5.46 - Mend

@relayplane/proxy 1.5.44 → 1.5.46

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (11) hide show

package/README.md +7 -0
package/dist/standalone-proxy.d.ts.map +1 -1
package/dist/standalone-proxy.js +65 -249
package/dist/standalone-proxy.js.map +1 -1
package/dist/swarm-client.d.ts +8 -8
package/dist/swarm-client.d.ts.map +1 -1
package/dist/swarm-client.js +24 -24
package/dist/swarm-client.js.map +1 -1
package/dist/telemetry.js +3 -3
package/dist/telemetry.js.map +1 -1
package/package.json +1 -1

package/README.md CHANGED Viewed

@@ -5,6 +5,13 @@
 An open-source LLM proxy that sits between your AI agents and providers. Tracks every request, shows where the money goes, and offers configurable task-aware routing — all running locally.
+**Key features:**
+- 📊 Per-request cost tracking across 11+ providers
+- 💰 **Cache-aware cost tracking** — accurately tracks Anthropic prompt caching with cache read savings, creation costs, and true per-request costs including cached tokens
+- 🔀 Configurable task-aware routing (complexity-based, cascade, model overrides)
+- 🛡️ Circuit breaker architecture — if the proxy fails, your agent doesn't notice
+- 📈 Local dashboard with cost breakdown, savings analysis, and provider health
 ## Quick Start
 ```bash

package/dist/standalone-proxy.d.ts.map CHANGED Viewed

	@@ -1 +1 @@
1	- {"version":3,"file":"standalone-proxy.d.ts","sourceRoot":"","sources":["../src/standalone-proxy.ts"],"names":[],"mappings":"AAAA;;;;;;;;;;;;;;;;;;;GAmBG;AAEH,OAAO,KAAK,IAAI,MAAM,WAAW,CAAC;AAKlC,OAAO,KAAK,EAAE,QAAQ,EAAY,MAAM,kBAAkB,CAAC;AAG3D,OAAO,EAAE,cAAc,EAAE,MAAM,YAAY,CAAC;AAU5C,2DAA2D;AAC3D,eAAO,MAAM,mBAAmB,gBAAuB,CAAC;AAExD;;GAEG;AACH,MAAM,WAAW,gBAAgB;IAC/B,OAAO,EAAE,MAAM,CAAC;IAChB,SAAS,EAAE,MAAM,CAAC;CACnB;AAED;;GAEG;AACH,eAAO,MAAM,iBAAiB,EAAE,MAAM,CAAC,MAAM,EAAE,gBAAgB,CA6C9D,CAAC;AAEF;;GAEG;AACH,eAAO,MAAM,aAAa,EAAE,MAAM,CAAC,MAAM,EAAE;IAAE,QAAQ,EAAE,QAAQ,CAAC;IAAC,KAAK,EAAE,MAAM,CAAA;CAAE,CAc/E,CAAC;AAEF;;;GAGG;AACH,eAAO,MAAM,kBAAkB,EAAE,MAAM,CAAC,MAAM,EAAE,MAAM,CAGrD,CAAC;AAEF;;;GAGG;AACH,eAAO,MAAM,aAAa,EAAE,MAAM,CAAC,MAAM,EAAE;IAAE,QAAQ,EAAE,QAAQ,CAAC;IAAC,KAAK,EAAE,MAAM,CAAA;CAAE,CAQ/E,CAAC;~~AAsCF~~;;GAEG;AACH,wBAAgB,sBAAsB,IAAI,MAAM,EAAE,CAWjD;AAED;;;GAGG;AACH,wBAAgB,iBAAiB,CAAC,KAAK,EAAE,MAAM,GAAG,MAAM,CAMvD;AAkBD,KAAK,aAAa,GAAG,MAAM,GAAG,MAAM,GAAG,SAAS,CAAC;AAEjD,UAAU,WAAW;IACnB,SAAS,EAAE,MAAM,CAAC;IAClB,MAAM,EAAE,aAAa,GAAG,IAAI,CAAC;CAC9B;AAcD,UAAU,aAAa;IACrB,OAAO,EAAE,OAAO,CAAC;IACjB,MAAM,EAAE,MAAM,EAAE,CAAC;IACjB,UAAU,EAAE,aAAa,GAAG,SAAS,GAAG,OAAO,CAAC;IAChD,cAAc,EAAE,MAAM,CAAC;CACxB;AAmBD,KAAK,UAAU,GAAG,QAAQ,GAAG,UAAU,GAAG,SAAS,CAAC;AA6EpD;;GAEG;AACH,MAAM,WAAW,WAAW;IAC1B,IAAI,CAAC,EAAE,MAAM,CAAC;IACd,IAAI,CAAC,EAAE,MAAM,CAAC;IACd,MAAM,CAAC,EAAE,MAAM,CAAC;IAChB,OAAO,CAAC,EAAE,OAAO,CAAC;IAClB;;;;;OAKG;IACH,aAAa,CAAC,EAAE,aAAa,GAAG,KAAK,GAAG,MAAM,CAAC;CAChD;AAuZD,wBAAgB,gBAAgB,CAAC,KAAK,EAAE,MAAM,GAAG,WAAW,CAe3D;AAuDD,wBAAgB,kBAAkB,CAAC,QAAQ,EAAE,KAAK,CAAC;IAAE,IAAI,CAAC,EAAE,MAAM,CAAC;IAAC,OAAO,CAAC,EAAE,OAAO,CAAA;CAAE,CAAC,GAAG,UAAU,CAuCpG;AAED,wBAAgB,cAAc,CAAC,YAAY,EAAE,MAAM,EAAE,OAAO,EAAE,aAAa,CAAC,YAAY,CAAC,GAAG,OAAO,CAIlG;~~AAuoDD~~;;GAEG;AACH,wBAAsB,UAAU,CAAC,MAAM,GAAE,WAAgB,GAAG,OAAO,CAAC,IAAI,CAAC,MAAM,CAAC,~~CAu5C~~/E"}
1	+ {"version":3,"file":"standalone-proxy.d.ts","sourceRoot":"","sources":["../src/standalone-proxy.ts"],"names":[],"mappings":"AAAA;;;;;;;;;;;;;;;;;;;GAmBG;AAEH,OAAO,KAAK,IAAI,MAAM,WAAW,CAAC;AAKlC,OAAO,KAAK,EAAE,QAAQ,EAAY,MAAM,kBAAkB,CAAC;AAG3D,OAAO,EAAE,cAAc,EAAE,MAAM,YAAY,CAAC;AAU5C,2DAA2D;AAC3D,eAAO,MAAM,mBAAmB,gBAAuB,CAAC;AAExD;;GAEG;AACH,MAAM,WAAW,gBAAgB;IAC/B,OAAO,EAAE,MAAM,CAAC;IAChB,SAAS,EAAE,MAAM,CAAC;CACnB;AAED;;GAEG;AACH,eAAO,MAAM,iBAAiB,EAAE,MAAM,CAAC,MAAM,EAAE,gBAAgB,CA6C9D,CAAC;AAEF;;GAEG;AACH,eAAO,MAAM,aAAa,EAAE,MAAM,CAAC,MAAM,EAAE;IAAE,QAAQ,EAAE,QAAQ,CAAC;IAAC,KAAK,EAAE,MAAM,CAAA;CAAE,CAc/E,CAAC;AAEF;;;GAGG;AACH,eAAO,MAAM,kBAAkB,EAAE,MAAM,CAAC,MAAM,EAAE,MAAM,CAGrD,CAAC;AAEF;;;GAGG;AACH,eAAO,MAAM,aAAa,EAAE,MAAM,CAAC,MAAM,EAAE;IAAE,QAAQ,EAAE,QAAQ,CAAC;IAAC,KAAK,EAAE,MAAM,CAAA;CAAE,CAQ/E,CAAC;AAiCF;;GAEG;AACH,wBAAgB,sBAAsB,IAAI,MAAM,EAAE,CAWjD;AAED;;;GAGG;AACH,wBAAgB,iBAAiB,CAAC,KAAK,EAAE,MAAM,GAAG,MAAM,CAMvD;AAkBD,KAAK,aAAa,GAAG,MAAM,GAAG,MAAM,GAAG,SAAS,CAAC;AAEjD,UAAU,WAAW;IACnB,SAAS,EAAE,MAAM,CAAC;IAClB,MAAM,EAAE,aAAa,GAAG,IAAI,CAAC;CAC9B;AAcD,UAAU,aAAa;IACrB,OAAO,EAAE,OAAO,CAAC;IACjB,MAAM,EAAE,MAAM,EAAE,CAAC;IACjB,UAAU,EAAE,aAAa,GAAG,SAAS,GAAG,OAAO,CAAC;IAChD,cAAc,EAAE,MAAM,CAAC;CACxB;AAmBD,KAAK,UAAU,GAAG,QAAQ,GAAG,UAAU,GAAG,SAAS,CAAC;AA6EpD;;GAEG;AACH,MAAM,WAAW,WAAW;IAC1B,IAAI,CAAC,EAAE,MAAM,CAAC;IACd,IAAI,CAAC,EAAE,MAAM,CAAC;IACd,MAAM,CAAC,EAAE,MAAM,CAAC;IAChB,OAAO,CAAC,EAAE,OAAO,CAAC;IAClB;;;;;OAKG;IACH,aAAa,CAAC,EAAE,aAAa,GAAG,KAAK,GAAG,MAAM,CAAC;CAChD;AAuZD,wBAAgB,gBAAgB,CAAC,KAAK,EAAE,MAAM,GAAG,WAAW,CAe3D;AAuDD,wBAAgB,kBAAkB,CAAC,QAAQ,EAAE,KAAK,CAAC;IAAE,IAAI,CAAC,EAAE,MAAM,CAAC;IAAC,OAAO,CAAC,EAAE,OAAO,CAAA;CAAE,CAAC,GAAG,UAAU,CAuCpG;AAED,wBAAgB,cAAc,CAAC,YAAY,EAAE,MAAM,EAAE,OAAO,EAAE,aAAa,CAAC,YAAY,CAAC,GAAG,OAAO,CAIlG;AAulDD;;GAEG;AACH,wBAAsB,UAAU,CAAC,MAAM,GAAE,WAAgB,GAAG,OAAO,CAAC,IAAI,CAAC,MAAM,CAAC,CA2xC/E"}

package/dist/standalone-proxy.js CHANGED Viewed

@@ -133,14 +133,14 @@ exports.DEFAULT_ENDPOINTS = {
  */
 exports.MODEL_MAPPING = {
     // Anthropic models (using correct API model IDs)
-    'claude-opus-4-5': { provider: 'anthropic', model: 'claude-opus-4-20250514' },
-    'claude-sonnet-4': { provider: 'anthropic', model: 'claude-sonnet-4-20250514' },
-    'claude-3-5-sonnet': { provider: 'anthropic', model: 'claude-3-5-sonnet-20241022' },
-    'claude-3-5-haiku': { provider: 'anthropic', model: 'claude-3-5-haiku-20241022' },
-    'claude-haiku-4-5': { provider: 'anthropic', model: 'claude-haiku-4-5-20250514' },
-    haiku: { provider: 'anthropic', model: 'claude-haiku-4-5-20250514' },
-    sonnet: { provider: 'anthropic', model: 'claude-sonnet-4-20250514' },
-    opus: { provider: 'anthropic', model: 'claude-opus-4-20250514' },
+    'claude-opus-4-5': { provider: 'anthropic', model: 'claude-opus-4-6' },
+    'claude-sonnet-4': { provider: 'anthropic', model: 'claude-sonnet-4-6' },
+    'claude-3-5-sonnet': { provider: 'anthropic', model: 'claude-3-5-sonnet-latest' },
+    'claude-3-5-haiku': { provider: 'anthropic', model: 'claude-haiku-4-5' },
+    'claude-haiku-4-5': { provider: 'anthropic', model: 'claude-haiku-4-5' },
+    haiku: { provider: 'anthropic', model: 'claude-haiku-4-5' },
+    sonnet: { provider: 'anthropic', model: 'claude-sonnet-4-6' },
+    opus: { provider: 'anthropic', model: 'claude-opus-4-6' },
     // OpenAI models
     'gpt-4o': { provider: 'openai', model: 'gpt-4o' },
     'gpt-4o-mini': { provider: 'openai', model: 'gpt-4o-mini' },
@@ -171,10 +171,10 @@ exports.SMART_ALIASES = {
  * Send a telemetry event to the cloud (anonymous or authenticated).
  * Non-blocking — errors are silently swallowed.
  */
-function sendCloudTelemetry(taskType, model, tokensIn, tokensOut, latencyMs, success, costUsd, requestedModel, cacheCreationTokens, cacheReadTokens) {
+function sendCloudTelemetry(taskType, model, tokensIn, tokensOut, latencyMs, success, costUsd, requestedModel) {
     try {
-        const cost = costUsd ?? (0, telemetry_js_1.estimateCost)(model, tokensIn, tokensOut, cacheCreationTokens, cacheReadTokens);
-        const event = {
+        const cost = costUsd ?? (0, telemetry_js_1.estimateCost)(model, tokensIn, tokensOut);
+        (0, telemetry_js_1.recordTelemetry)({
             task_type: taskType,
             model,
             tokens_in: tokensIn,
@@ -183,12 +183,7 @@ function sendCloudTelemetry(taskType, model, tokensIn, tokensOut, latencyMs, suc
             success,
             cost_usd: cost,
             requested_model: requestedModel,
-        };
-        if (cacheCreationTokens)
-            event.cache_creation_tokens = cacheCreationTokens;
-        if (cacheReadTokens)
-            event.cache_read_tokens = cacheReadTokens;
-        (0, telemetry_js_1.recordTelemetry)(event);
+        });
     }
     catch {
         // Telemetry should never break the proxy
@@ -494,18 +489,18 @@ const DEFAULT_PROXY_CONFIG = {
         cascade: {
             enabled: true,
             models: [
-                'claude-3-5-haiku-20241022',
-                'claude-sonnet-4-20250514',
-                'claude-opus-4-20250514',
+                'claude-haiku-4-5',
+                'claude-sonnet-4-6',
+                'claude-opus-4-6',
             ],
             escalateOn: 'uncertainty',
             maxEscalations: 1,
         },
         complexity: {
             enabled: true,
-            simple: 'claude-3-5-haiku-20241022',
-            moderate: 'claude-sonnet-4-20250514',
-            complex: 'claude-opus-4-20250514',
+            simple: 'claude-haiku-4-5',
+            moderate: 'claude-sonnet-4-6',
+            complex: 'claude-opus-4-6',
         },
     },
     reliability: {
@@ -746,24 +741,29 @@ function getAuthForModel(model, authConfig, envApiKey) {
  * MAX tokens (sk-ant-oat*) use Authorization: Bearer header
  * API keys (sk-ant-api*) use x-api-key header
  */
-function buildAnthropicHeadersWithAuth(ctx, apiKey, isMaxToken, isRerouted) {
+function buildAnthropicHeadersWithAuth(ctx, apiKey, isMaxToken) {
     const headers = {
         'Content-Type': 'application/json',
         'anthropic-version': ctx.versionHeader || '2023-06-01',
     };
-    // Detect if incoming auth is OAuth
-    const incomingIsOAuth = ctx.apiKeyHeader?.startsWith('sk-ant-oat') || ctx.authHeader?.includes('sk-ant-oat');
-    const apiKeyIsRegular = apiKey && apiKey.startsWith('sk-ant-api');
-    // When rerouted (auto mode changed the model) and incoming is OAuth,
-    // prefer the regular API key — OAuth doesn't work for all models (e.g. Haiku)
-    if (isRerouted && incomingIsOAuth && apiKeyIsRegular) {
+    // Auth: prefer incoming auth for passthrough, but OAuth doesn't work for all models (e.g. Haiku)
+    // When we have a regular API key AND incoming auth is OAuth, prefer the API key for rerouted requests
+    // because OAuth may not be supported on the target model. The API key works for ALL models.
+    const incomingIsOAuth = !!(ctx.apiKeyHeader?.startsWith('sk-ant-oat') || ctx.authHeader?.includes('sk-ant-oat'));
+    if (incomingIsOAuth && apiKey && !apiKey.startsWith('sk-ant-oat')) {
         headers['x-api-key'] = apiKey;
     }
     else if (ctx.authHeader) {
         headers['Authorization'] = ctx.authHeader;
     }
     else if (ctx.apiKeyHeader) {
-        headers['x-api-key'] = ctx.apiKeyHeader;
+        // MAX/OAuth tokens (sk-ant-oat*) must use Authorization: Bearer, not x-api-key
+        if (ctx.apiKeyHeader.startsWith('sk-ant-oat')) {
+            headers['Authorization'] = `Bearer ${ctx.apiKeyHeader}`;
+        }
+        else {
+            headers['x-api-key'] = ctx.apiKeyHeader;
+        }
     }
     else if (apiKey) {
         // MAX tokens (OAuth) use Authorization: Bearer, API keys use x-api-key
@@ -850,8 +850,8 @@ async function forwardToAnthropicStream(request, targetModel, ctx, envApiKey) {
  * Forward native Anthropic /v1/messages request (passthrough with routing)
  * Used for Claude Code direct integration
  */
-async function forwardNativeAnthropicRequest(body, ctx, envApiKey, isMaxToken, isRerouted) {
-    const headers = buildAnthropicHeadersWithAuth(ctx, envApiKey, isMaxToken, isRerouted);
+async function forwardNativeAnthropicRequest(body, ctx, envApiKey, isMaxToken) {
+    const headers = buildAnthropicHeadersWithAuth(ctx, envApiKey, isMaxToken);
     const response = await fetch('https://api.anthropic.com/v1/messages', {
         method: 'POST',
         headers,
@@ -1412,11 +1412,9 @@ function convertAnthropicResponse(anthropicData) {
             },
         ],
         usage: {
-            prompt_tokens: (anthropicData.usage?.input_tokens ?? 0) + (anthropicData.usage?.cache_creation_input_tokens ?? 0) + (anthropicData.usage?.cache_read_input_tokens ?? 0),
+            prompt_tokens: anthropicData.usage?.input_tokens ?? 0,
             completion_tokens: anthropicData.usage?.output_tokens ?? 0,
-            total_tokens: (anthropicData.usage?.input_tokens ?? 0) + (anthropicData.usage?.cache_creation_input_tokens ?? 0) + (anthropicData.usage?.cache_read_input_tokens ?? 0) + (anthropicData.usage?.output_tokens ?? 0),
-            cache_creation_input_tokens: anthropicData.usage?.cache_creation_input_tokens ?? 0,
-            cache_read_input_tokens: anthropicData.usage?.cache_read_input_tokens ?? 0,
+            total_tokens: (anthropicData.usage?.input_tokens ?? 0) + (anthropicData.usage?.output_tokens ?? 0),
         },
     };
 }
@@ -1439,16 +1437,11 @@ function convertAnthropicStreamEvent(eventType, eventData, messageId, model, too
             const msg = eventData['message'];
             baseChunk.id = msg?.['id'] || messageId;
             choice.delta = { role: 'assistant', content: '' };
-            // Pass through input token count from message_start (including cache tokens)
+            // Pass through input token count from message_start
             const msgUsage = msg?.['usage'];
             if (msgUsage) {
-                const cacheCreation = msgUsage['cache_creation_input_tokens'] ?? 0;
-                const cacheRead = msgUsage['cache_read_input_tokens'] ?? 0;
-                const inputTokens = msgUsage['input_tokens'] ?? 0;
                 baseChunk['usage'] = {
-                    prompt_tokens: inputTokens + cacheCreation + cacheRead,
-                    cache_creation_input_tokens: cacheCreation,
-                    cache_read_input_tokens: cacheRead,
+                    prompt_tokens: msgUsage['input_tokens'] ?? 0,
                 };
             }
             return `data: ${JSON.stringify(baseChunk)}\n\n`;
@@ -1819,7 +1812,7 @@ function getCascadeConfig(config) {
     const c = config.routing?.cascade;
     return {
         enabled: c?.enabled ?? true,
-        models: c?.models ?? ['claude-3-5-haiku-20241022', 'claude-sonnet-4-20250514', 'claude-opus-4-20250514'],
+        models: c?.models ?? ['claude-haiku-4-5', 'claude-sonnet-4-6', 'claude-opus-4-6'],
         escalateOn: c?.escalateOn ?? 'uncertainty',
         maxEscalations: c?.maxEscalations ?? 1,
     };
@@ -1836,18 +1829,18 @@ function getCooldownConfig(config) {
 function getCostModel(config) {
     return (config.routing?.complexity?.simple ||
         config.routing?.cascade?.models?.[0] ||
-        'claude-3-5-haiku-20241022');
+        'claude-haiku-4-5');
 }
 function getFastModel(config) {
     return (config.routing?.complexity?.simple ||
         config.routing?.cascade?.models?.[0] ||
-        'claude-3-5-haiku-20241022');
+        'claude-haiku-4-5');
 }
 function getQualityModel(config) {
     return (config.routing?.complexity?.complex ||
         config.routing?.cascade?.models?.[config.routing?.cascade?.models?.length ? config.routing.cascade.models.length - 1 : 0] ||
         process.env['RELAYPLANE_QUALITY_MODEL'] ||
-        'claude-sonnet-4-20250514');
+        'claude-sonnet-4-6');
 }
 async function cascadeRequest(config, makeRequest, log) {
     let escalations = 0;
@@ -1909,18 +1902,9 @@ td{padding:8px 12px;border-bottom:1px solid #111318}
 <div class="cards">
   <div class="card"><div class="label">Total Requests</div><div class="value" id="totalReq">—</div></div>
   <div class="card"><div class="label">Total Cost</div><div class="value" id="totalCost">—</div></div>
-  <div class="card"><div class="label">Savings (vs Opus)</div><div class="value green" id="savings">—</div></div>
+  <div class="card"><div class="label">Savings</div><div class="value green" id="savings">—</div></div>
   <div class="card"><div class="label">Avg Latency</div><div class="value" id="avgLat">—</div></div>
 </div>
-<div class="section"><h2>Auth & Routing</h2>
-<div id="routingDetails" style="display:flex;gap:16px;flex-wrap:wrap;margin-bottom:12px">
-  <div class="prov-item"><span class="dot" id="authDot"></span> <strong>Auth:</strong>&nbsp;<span id="authInfo">—</span></div>
-  <div class="prov-item"><strong>Routing:</strong>&nbsp;<span id="routingMode">—</span></div>
-  <div class="prov-item"><strong>Simple→</strong>&nbsp;<span id="routeSimple">—</span></div>
-  <div class="prov-item"><strong>Moderate→</strong>&nbsp;<span id="routeModerate">—</span></div>
-  <div class="prov-item"><strong>Complex→</strong>&nbsp;<span id="routeComplex">—</span></div>
-</div>
-</div>
 <div class="section"><h2>Model Breakdown</h2>
 <table><thead><tr><th>Model</th><th>Requests</th><th>Cost</th><th>% of Total</th></tr></thead><tbody id="models"></tbody></table></div>
 <div class="section"><h2>Provider Status</h2><div class="prov" id="providers"></div></div>
@@ -1941,39 +1925,6 @@ async function load(){
       fetch('/v1/telemetry/health').then(r=>r.json())
     ]);
     $('ver').textContent='v'+health.version;
-    const authDot=$('authDot'),authInfo=$('authInfo');
-    if(health.auth){
-      if(health.auth.anthropicApiKey){authDot.className='dot up';authInfo.textContent='API key ('+health.auth.anthropicApiKeyPrefix+')';}
-      else{authDot.className='dot warn';authInfo.textContent='OAuth only (no API key)';}
-    }
-    if(health.routing){
-      const mode=health.routing.mode||'passthrough';
-      $('routingMode').textContent=mode;
-      const routingSection=document.getElementById('routingDetails');
-      const hasApiKey=health.auth&&health.auth.anthropicApiKey;
-      if(mode==='passthrough'){
-        if(routingSection)routingSection.innerHTML='<div class="prov-item">Routing: passthrough → model from incoming requests</div>';
-      }else{
-        if(health.routing.complexity){
-          const cx=health.routing.complexity;
-          const authLabel=function(model){
-            if(hasApiKey)return '<span style="color:#34d399">● API key</span>';
-            const isHaiku=model&&model.toLowerCase().includes('haiku');
-            if(isHaiku)return '<span style="color:#ef4444">⚠️ OAuth - may fail</span>';
-            return '<span style="color:#fbbf24">● OAuth</span>';
-          };
-          $('routeSimple').innerHTML=(cx.simple||'—')+' <small>'+authLabel(cx.simple)+'</small>';
-          $('routeModerate').innerHTML=(cx.moderate||'—')+' <small>'+authLabel(cx.moderate)+'</small>';
-          $('routeComplex').innerHTML=(cx.complex||'—')+' <small>'+authLabel(cx.complex)+'</small>';
-          if(!hasApiKey&&cx.simple&&cx.simple.toLowerCase().includes('haiku')){
-            const warn=document.createElement('div');
-            warn.className='prov-item';warn.style.borderColor='#ef4444';warn.style.color='#ef4444';
-            warn.innerHTML='⚠️ Haiku requires ANTHROPIC_API_KEY — OAuth not supported';
-            if(routingSection)routingSection.appendChild(warn);
-          }
-        }
-      }
-    }
     $('uptime').textContent=dur(health.uptime);
     const total=stats.summary?.totalEvents||0;
     $('totalReq').textContent=total;
@@ -2102,60 +2053,6 @@ async function startProxy(config = {}) {
     process.on('SIGTERM', handleShutdown);
     const configPath = getProxyConfigPath();
     let proxyConfig = await loadProxyConfig(configPath, log);
-    // Auto-config on startup: detect available auth and set optimal routing
-    const configExists = await fs.promises.access(configPath).then(() => true).catch(() => false);
-    if (!configExists || proxyConfig.routing?.mode === 'auto') {
-        const envAnthropicKey = process.env['ANTHROPIC_API_KEY'];
-        const hasRegularApiKey = !!envAnthropicKey && envAnthropicKey.startsWith('sk-ant-api');
-        if (hasRegularApiKey) {
-            // Full 3-tier routing with API key
-            log('Auto-config: ANTHROPIC_API_KEY detected — enabling 3-tier routing (haiku/sonnet/opus)');
-            if (!configExists) {
-                const autoConfig = {
-                    enabled: true,
-                    modelOverrides: {},
-                    routing: {
-                        mode: 'auto',
-                        cascade: { enabled: false, models: [], escalateOn: 'uncertainty', maxEscalations: 1 },
-                        complexity: {
-                            enabled: true,
-                            simple: 'claude-haiku-4-5',
-                            moderate: 'claude-sonnet-4-6',
-                            complex: 'claude-opus-4-6',
-                        },
-                    },
-                    reliability: proxyConfig.reliability,
-                };
-                await saveProxyConfig(configPath, autoConfig);
-                proxyConfig = await loadProxyConfig(configPath, log);
-                log('Auto-config: wrote config to ' + configPath);
-            }
-        }
-        else {
-            // No regular API key — OAuth only, skip Haiku
-            console.warn('[relayplane] ⚠️  No ANTHROPIC_API_KEY set — Haiku routing disabled (OAuth not supported). Set ANTHROPIC_API_KEY to enable 3-tier routing.');
-            if (!configExists) {
-                const autoConfig = {
-                    enabled: true,
-                    modelOverrides: {},
-                    routing: {
-                        mode: 'auto',
-                        cascade: { enabled: false, models: [], escalateOn: 'uncertainty', maxEscalations: 1 },
-                        complexity: {
-                            enabled: true,
-                            simple: 'claude-sonnet-4-6',
-                            moderate: 'claude-sonnet-4-6',
-                            complex: 'claude-opus-4-6',
-                        },
-                    },
-                    reliability: proxyConfig.reliability,
-                };
-                await saveProxyConfig(configPath, autoConfig);
-                proxyConfig = await loadProxyConfig(configPath, log);
-                log('Auto-config: wrote OAuth-safe config to ' + configPath + ' (no Haiku)');
-            }
-        }
-    }
     const cooldownManager = new CooldownManager(getCooldownConfig(proxyConfig));
     let configWatcher = null;
     let configReloadTimer = null;
@@ -2171,8 +2068,6 @@ async function startProxy(config = {}) {
             reloadConfig().catch(() => { });
         }, 50);
     };
-    let credentialsWatcher = null;
-    const credentialsPath = path.join(path.dirname(configPath), 'credentials.json');
     const startConfigWatcher = () => {
         if (configWatcher)
             return;
@@ -2184,45 +2079,7 @@ async function startProxy(config = {}) {
             log(`Config watch error: ${error.message}`);
         }
     };
-    const startCredentialsWatcher = () => {
-        if (credentialsWatcher)
-            return;
-        try {
-            // Watch credentials.json so login triggers a reload without proxy restart
-            if (fs.existsSync(credentialsPath)) {
-                credentialsWatcher = fs.watch(credentialsPath, () => {
-                    log('Credentials changed — reloading config');
-                    scheduleConfigReload();
-                });
-            }
-            else {
-                // Watch the directory for credentials.json creation
-                const dir = path.dirname(credentialsPath);
-                const dirWatcher = fs.watch(dir, (_, filename) => {
-                    if (filename === 'credentials.json') {
-                        log('Credentials file created — reloading config');
-                        scheduleConfigReload();
-                        // Now watch the file directly
-                        dirWatcher.close();
-                        try {
-                            credentialsWatcher = fs.watch(credentialsPath, () => {
-                                log('Credentials changed — reloading config');
-                                scheduleConfigReload();
-                            });
-                        }
-                        catch { }
-                    }
-                });
-                credentialsWatcher = dirWatcher;
-            }
-        }
-        catch (err) {
-            const error = err;
-            log(`Credentials watch error: ${error.message}`);
-        }
-    };
     startConfigWatcher();
-    startCredentialsWatcher();
     // Initialize RelayPlane
     const relay = new core_1.RelayPlane({ dbPath: config.dbPath });
     // Startup migration: clear default routing rules so complexity config takes priority
@@ -2253,10 +2110,6 @@ async function startProxy(config = {}) {
         if (req.method === 'GET' && (pathname === '/health' || pathname === '/healthz')) {
             const uptimeMs = Date.now() - globalStats.startedAt;
             res.writeHead(200, { 'Content-Type': 'application/json' });
-            const anthropicEnvKeySet = !!process.env['ANTHROPIC_API_KEY'];
-            const anthropicEnvKeyPrefix = anthropicEnvKeySet ? process.env['ANTHROPIC_API_KEY'].slice(0, 12) + '...' : null;
-            const routingMode = proxyConfig.routing?.mode || 'passthrough';
-            const complexityConfig = proxyConfig.routing?.complexity;
             res.end(JSON.stringify({
                 status: 'ok',
                 version: PROXY_VERSION,
@@ -2266,15 +2119,6 @@ async function startProxy(config = {}) {
                 successRate: globalStats.totalRequests > 0
                     ? parseFloat(((globalStats.successfulRequests / globalStats.totalRequests) * 100).toFixed(1))
                     : null,
-                auth: {
-                    anthropicApiKey: anthropicEnvKeySet,
-                    anthropicApiKeyPrefix: anthropicEnvKeyPrefix,
-                    note: anthropicEnvKeySet ? 'API key available for models that don\'t support OAuth' : 'No API key — OAuth passthrough only',
-                },
-                routing: {
-                    mode: routingMode,
-                    complexity: complexityConfig,
-                },
                 stats: {
                     totalRequests: globalStats.totalRequests,
                     successfulRequests: globalStats.successfulRequests,
@@ -2400,7 +2244,7 @@ async function startProxy(config = {}) {
                 const offset = parseInt(params.get('offset') || '0', 10);
                 const sorted = [...requestHistory].reverse();
                 const runs = sorted.slice(offset, offset + limit).map(r => {
-                    const origCost = (0, telemetry_js_1.estimateCost)('claude-opus-4-20250514', r.tokensIn, r.tokensOut);
+                    const origCost = (0, telemetry_js_1.estimateCost)('claude-opus-4-6', r.tokensIn, r.tokensOut);
                     const perRunSavings = Math.max(0, origCost - r.costUsd);
                     return {
                         id: r.id,
@@ -2431,7 +2275,7 @@ async function startProxy(config = {}) {
             if (req.method === 'GET' && telemetryPath === 'savings') {
                 // Savings = cost if everything ran on Opus - actual cost
                 // Always compare against Opus as the baseline
-                const OPUS_BASELINE = 'claude-opus-4-20250514';
+                const OPUS_BASELINE = 'claude-opus-4-6';
                 let totalOriginalCost = 0;
                 let totalActualCost = 0;
                 let totalSavedAmount = 0;
@@ -2556,7 +2400,8 @@ async function startProxy(config = {}) {
             useAnthropicEnvKey = undefined; // Only use incoming auth
         }
         else {
-            // 'auto': Always keep env key available — needed for OAuth→API key fallback on rerouted requests
+            // 'auto': Use incoming auth if present, fallback to env
+            // ALWAYS keep env key available — OAuth (sk-ant-oat) doesn't work for all models (e.g. Haiku)
             useAnthropicEnvKey = anthropicEnvKey;
         }
         // === Native Anthropic /v1/messages endpoint (for Claude Code) ===
@@ -2795,8 +2640,7 @@ async function startProxy(config = {}) {
                         if (modelAuth.isMax) {
                             log(`Using MAX token for ${resolved.model}`);
                         }
-                        const isCascadeRerouted = resolved.model !== originalModel;
-                        const providerResponse = await forwardNativeAnthropicRequest(attemptBody, ctx, modelAuth.apiKey, modelAuth.isMax, isCascadeRerouted);
+                        const providerResponse = await forwardNativeAnthropicRequest(attemptBody, ctx, modelAuth.apiKey, modelAuth.isMax);
                         const responseData = (await providerResponse.json());
                         if (!providerResponse.ok) {
                             if (proxyConfig.reliability?.cooldowns?.enabled) {
@@ -2823,12 +2667,7 @@ async function startProxy(config = {}) {
                     if (modelAuth.isMax) {
                         log(`Using MAX token for ${finalModel}`);
                     }
-                    // isRerouted: true when auto-routing changed the model from what the user requested
-                    const isRerouted = routingMode !== 'passthrough' && finalModel !== originalModel;
-                    if (isRerouted) {
-                        log(`Rerouted: ${originalModel} → ${finalModel} (auth fallback enabled)`);
-                    }
-                    const providerResponse = await forwardNativeAnthropicRequest({ ...requestBody, model: finalModel }, ctx, modelAuth.apiKey, modelAuth.isMax, isRerouted);
+                    const providerResponse = await forwardNativeAnthropicRequest({ ...requestBody, model: finalModel }, ctx, modelAuth.apiKey, modelAuth.isMax);
                     if (!providerResponse.ok) {
                         const errorPayload = (await providerResponse.json());
                         if (proxyConfig.reliability?.cooldowns?.enabled) {
@@ -2854,8 +2693,6 @@ async function startProxy(config = {}) {
                         const reader = providerResponse.body?.getReader();
                         let streamTokensIn = 0;
                         let streamTokensOut = 0;
-                        let streamCacheCreation = 0;
-                        let streamCacheRead = 0;
                         if (reader) {
                             const decoder = new TextDecoder();
                             let sseBuffer = '';
@@ -2878,12 +2715,9 @@ async function startProxy(config = {}) {
                                                 if (evt.type === 'message_delta' && evt.usage) {
                                                     streamTokensOut = evt.usage.output_tokens ?? streamTokensOut;
                                                 }
-                                                // Anthropic: message_start has usage.input_tokens + cache token fields
+                                                // Anthropic: message_start has usage.input_tokens
                                                 if (evt.type === 'message_start' && evt.message?.usage) {
-                                                    const u = evt.message.usage;
-                                                    streamCacheCreation = u.cache_creation_input_tokens ?? 0;
-                                                    streamCacheRead = u.cache_read_input_tokens ?? 0;
-                                                    streamTokensIn = (u.input_tokens ?? 0) + streamCacheCreation + streamCacheRead;
+                                                    streamTokensIn = evt.message.usage.input_tokens ?? streamTokensIn;
                                                 }
                                                 // OpenAI format: choices with usage
                                                 if (evt.usage) {
@@ -2903,7 +2737,7 @@ async function startProxy(config = {}) {
                             }
                         }
                         // Store streaming token counts so telemetry can use them
-                        nativeResponseData = { usage: { input_tokens: streamTokensIn, output_tokens: streamTokensOut, cache_creation_input_tokens: streamCacheCreation, cache_read_input_tokens: streamCacheRead } };
+                        nativeResponseData = { usage: { input_tokens: streamTokensIn, output_tokens: streamTokensOut } };
                         res.end();
                     }
                     else {
@@ -2920,12 +2754,9 @@ async function startProxy(config = {}) {
                 // nativeResponseData holds response JSON for non-streaming, or { usage: { input_tokens, output_tokens } }
                 // synthesised from SSE events for streaming
                 const nativeUsageData = nativeResponseData?.usage;
-                const nativeCacheCreation = nativeUsageData?.cache_creation_input_tokens ?? 0;
-                const nativeCacheRead = nativeUsageData?.cache_read_input_tokens ?? 0;
-                const nativeRawIn = nativeUsageData?.input_tokens ?? nativeUsageData?.prompt_tokens ?? 0;
-                const nativeTokIn = nativeRawIn + nativeCacheCreation + nativeCacheRead;
+                const nativeTokIn = nativeUsageData?.input_tokens ?? nativeUsageData?.prompt_tokens ?? 0;
                 const nativeTokOut = nativeUsageData?.output_tokens ?? nativeUsageData?.completion_tokens ?? 0;
-                updateLastHistoryEntry(nativeTokIn, nativeTokOut, (0, telemetry_js_1.estimateCost)(targetModel || requestedModel, nativeRawIn, nativeTokOut, nativeCacheCreation, nativeCacheRead));
+                updateLastHistoryEntry(nativeTokIn, nativeTokOut, (0, telemetry_js_1.estimateCost)(targetModel || requestedModel, nativeTokIn, nativeTokOut));
                 if (recordTelemetry) {
                     relay
                         .run({
@@ -2934,7 +2765,7 @@ async function startProxy(config = {}) {
                         model: `${targetProvider}:${targetModel || requestedModel}`,
                     })
                         .catch(() => { });
-                    sendCloudTelemetry(taskType, targetModel || requestedModel, nativeTokIn, nativeTokOut, durationMs, true, undefined, originalModel ?? undefined, nativeCacheCreation, nativeCacheRead);
+                    sendCloudTelemetry(taskType, targetModel || requestedModel, nativeTokIn, nativeTokOut, durationMs, true, undefined, originalModel ?? undefined);
                 }
             }
             catch (err) {
@@ -3272,12 +3103,9 @@ async function startProxy(config = {}) {
                     // Log cascade request for stats tracking
                     logRequest(originalRequestedModel ?? 'unknown', cascadeResult.model, cascadeResult.provider, durationMs, true, 'cascade', cascadeResult.escalations > 0, taskType, complexity);
                     const cascadeUsage = responseData?.usage;
-                    const cascadeCacheCreation = cascadeUsage?.cache_creation_input_tokens ?? 0;
-                    const cascadeCacheRead = cascadeUsage?.cache_read_input_tokens ?? 0;
-                    const cascadeRawIn = cascadeUsage?.input_tokens ?? cascadeUsage?.prompt_tokens ?? 0;
-                    const cascadeTokensIn = cascadeRawIn + cascadeCacheCreation + cascadeCacheRead;
+                    const cascadeTokensIn = cascadeUsage?.input_tokens ?? cascadeUsage?.prompt_tokens ?? 0;
                     const cascadeTokensOut = cascadeUsage?.output_tokens ?? cascadeUsage?.completion_tokens ?? 0;
-                    const cascadeCost = (0, telemetry_js_1.estimateCost)(cascadeResult.model, cascadeRawIn, cascadeTokensOut, cascadeCacheCreation, cascadeCacheRead);
+                    const cascadeCost = (0, telemetry_js_1.estimateCost)(cascadeResult.model, cascadeTokensIn, cascadeTokensOut);
                     updateLastHistoryEntry(cascadeTokensIn, cascadeTokensOut, cascadeCost, chatCascadeRespModel);
                     if (recordTelemetry) {
                         try {
@@ -3300,7 +3128,7 @@ async function startProxy(config = {}) {
                         catch (err) {
                             log(`Failed to record run: ${err}`);
                         }
-                        sendCloudTelemetry(taskType, cascadeResult.model, cascadeTokensIn, cascadeTokensOut, durationMs, true, undefined, originalRequestedModel ?? undefined, cascadeCacheCreation, cascadeCacheRead);
+                        sendCloudTelemetry(taskType, cascadeResult.model, cascadeTokensIn, cascadeTokensOut, durationMs, true, undefined, originalRequestedModel ?? undefined);
                     }
                     const chatCascadeRpHeaders = buildRelayPlaneResponseHeaders(cascadeResult.model, originalRequestedModel ?? 'unknown', complexity, cascadeResult.provider, 'cascade');
                     res.writeHead(200, { 'Content-Type': 'application/json', ...chatCascadeRpHeaders });
@@ -3449,8 +3277,6 @@ async function handleStreamingRequest(res, request, targetProvider, targetModel,
     // Track token usage from streaming events
     let streamTokensIn = 0;
     let streamTokensOut = 0;
-    let streamCacheCreation = 0;
-    let streamCacheRead = 0;
     try {
         // Stream the response based on provider format
         switch (targetProvider) {
@@ -3467,8 +3293,6 @@ async function handleStreamingRequest(res, request, targetProvider, targetModel,
                                 if (evt.usage) {
                                     streamTokensIn = evt.usage.prompt_tokens ?? streamTokensIn;
                                     streamTokensOut = evt.usage.completion_tokens ?? streamTokensOut;
-                                    streamCacheCreation = evt.usage.cache_creation_input_tokens ?? streamCacheCreation;
-                                    streamCacheRead = evt.usage.cache_read_input_tokens ?? streamCacheRead;
                                 }
                             }
                         }
@@ -3525,9 +3349,7 @@ async function handleStreamingRequest(res, request, targetProvider, targetModel,
     // Always log the request for stats/telemetry tracking
     logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, true, routingMode, undefined, taskType, complexity);
     // Update token/cost info on the history entry
-    // For cost calculation with cache breakdown, pass raw input (total minus cache) separately
-    const streamRawIn = streamCacheCreation || streamCacheRead ? streamTokensIn - streamCacheCreation - streamCacheRead : streamTokensIn;
-    const streamCost = (0, telemetry_js_1.estimateCost)(targetModel, streamRawIn, streamTokensOut, streamCacheCreation || undefined, streamCacheRead || undefined);
+    const streamCost = (0, telemetry_js_1.estimateCost)(targetModel, streamTokensIn, streamTokensOut);
     updateLastHistoryEntry(streamTokensIn, streamTokensOut, streamCost);
     if (recordTelemetry) {
         // Record the run (non-blocking)
@@ -3543,7 +3365,7 @@ async function handleStreamingRequest(res, request, targetProvider, targetModel,
             .catch((err) => {
             log(`Failed to record run: ${err}`);
         });
-        sendCloudTelemetry(taskType, targetModel, streamTokensIn, streamTokensOut, durationMs, true, undefined, request.model ?? undefined, streamCacheCreation || undefined, streamCacheRead || undefined);
+        sendCloudTelemetry(taskType, targetModel, streamTokensIn, streamTokensOut, durationMs, true, undefined, request.model ?? undefined);
     }
     res.end();
 }
@@ -3587,12 +3409,9 @@ async function handleNonStreamingRequest(res, request, targetProvider, targetMod
     logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, true, routingMode, undefined, taskType, complexity);
     // Update token/cost info
     const usage = responseData?.usage;
-    const cacheCreation = usage?.cache_creation_input_tokens ?? 0;
-    const cacheRead = usage?.cache_read_input_tokens ?? 0;
-    const rawIn = usage?.input_tokens ?? usage?.prompt_tokens ?? 0;
-    const tokensIn = rawIn + cacheCreation + cacheRead;
+    const tokensIn = usage?.input_tokens ?? usage?.prompt_tokens ?? 0;
     const tokensOut = usage?.output_tokens ?? usage?.completion_tokens ?? 0;
-    const cost = (0, telemetry_js_1.estimateCost)(targetModel, rawIn, tokensOut, cacheCreation || undefined, cacheRead || undefined);
+    const cost = (0, telemetry_js_1.estimateCost)(targetModel, tokensIn, tokensOut);
     updateLastHistoryEntry(tokensIn, tokensOut, cost, nonStreamRespModel);
     if (recordTelemetry) {
         // Record the run in RelayPlane
@@ -3617,13 +3436,10 @@ async function handleNonStreamingRequest(res, request, targetProvider, targetMod
             log(`Failed to record run: ${err}`);
         }
         // Extract token counts from response if available (Anthropic/OpenAI format)
-        const usage2 = responseData?.usage;
-        const cc2 = usage2?.cache_creation_input_tokens ?? 0;
-        const cr2 = usage2?.cache_read_input_tokens ?? 0;
-        const rawIn2 = usage2?.input_tokens ?? usage2?.prompt_tokens ?? 0;
-        const tokensIn2 = rawIn2 + cc2 + cr2;
-        const tokensOut2 = usage2?.output_tokens ?? usage2?.completion_tokens ?? 0;
-        sendCloudTelemetry(taskType, targetModel, tokensIn2, tokensOut2, durationMs, true, undefined, undefined, cc2 || undefined, cr2 || undefined);
+        const usage = responseData?.usage;
+        const tokensIn = usage?.input_tokens ?? usage?.prompt_tokens ?? 0;
+        const tokensOut = usage?.output_tokens ?? usage?.completion_tokens ?? 0;
+        sendCloudTelemetry(taskType, targetModel, tokensIn, tokensOut, durationMs, true);
     }
     // Send response with RelayPlane routing headers
     const nonStreamRpHeaders = buildRelayPlaneResponseHeaders(targetModel, request.model ?? 'unknown', complexity, targetProvider, routingMode);