npm - @relayplane/proxy - Versions diffs - 1.7.2 → 1.7.4 - Mend

@relayplane/proxy 1.7.2 → 1.7.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

package/dist/agent-tracker.d.ts +82 -0
package/dist/agent-tracker.d.ts.map +1 -0
package/dist/agent-tracker.js +281 -0
package/dist/agent-tracker.js.map +1 -0
package/dist/standalone-proxy.d.ts +18 -0
package/dist/standalone-proxy.d.ts.map +1 -1
package/dist/standalone-proxy.js +413 -68
package/dist/standalone-proxy.js.map +1 -1
package/package.json +1 -1

package/dist/standalone-proxy.js CHANGED Viewed

@@ -56,6 +56,8 @@ Object.defineProperty(exports, "__esModule", { value: true });
 exports.SMART_ALIASES = exports.RELAYPLANE_ALIASES = exports.MODEL_MAPPING = exports.DEFAULT_ENDPOINTS = exports.proxyStatsCollector = void 0;
 exports.getAvailableModelNames = getAvailableModelNames;
 exports.resolveModelAlias = resolveModelAlias;
+exports.extractRequestContent = extractRequestContent;
+exports.extractResponseText = extractResponseText;
 exports.parseModelSuffix = parseModelSuffix;
 exports.classifyComplexity = classifyComplexity;
 exports.shouldEscalate = shouldEscalate;
@@ -76,6 +78,7 @@ const budget_js_1 = require("./budget.js");
 const anomaly_js_1 = require("./anomaly.js");
 const alerts_js_1 = require("./alerts.js");
 const downgrade_js_1 = require("./downgrade.js");
+const agent_tracker_js_1 = require("./agent-tracker.js");
 const version_status_js_1 = require("./utils/version-status.js");
 const PROXY_VERSION = (() => {
     try {
@@ -488,7 +491,7 @@ function shutdownHistory() {
     }
     flushHistoryBuffer();
 }
-function logRequest(originalModel, targetModel, provider, latencyMs, success, mode, escalated, taskType, complexity) {
+function logRequest(originalModel, targetModel, provider, latencyMs, success, mode, escalated, taskType, complexity, agentFingerprint, agentId, errorMessage, errorStatusCode) {
     const timestamp = new Date().toISOString();
     const status = success ? '✓' : '✗';
     const escalateTag = escalated ? ' [ESCALATED]' : '';
@@ -531,6 +534,10 @@ function logRequest(originalModel, targetModel, provider, latencyMs, success, mo
         costUsd: 0,
         taskType: taskType || 'general',
         complexity: complexity || 'simple',
+        agentFingerprint,
+        agentId,
+        error: errorMessage,
+        statusCode: errorStatusCode,
     };
     requestHistory.push(entry);
     if (requestHistory.length > MAX_HISTORY) {
@@ -539,7 +546,7 @@ function logRequest(originalModel, targetModel, provider, latencyMs, success, mo
     bufferHistoryEntry(entry);
 }
 /** Update the most recent history entry with token/cost info */
-function updateLastHistoryEntry(tokensIn, tokensOut, costUsd, responseModel, cacheCreationTokens, cacheReadTokens) {
+function updateLastHistoryEntry(tokensIn, tokensOut, costUsd, responseModel, cacheCreationTokens, cacheReadTokens, agentFingerprint, agentId, requestContent, errorMessage, errorStatusCode) {
     if (requestHistory.length > 0) {
         const last = requestHistory[requestHistory.length - 1];
         last.tokensIn = tokensIn;
@@ -552,8 +559,86 @@ function updateLastHistoryEntry(tokensIn, tokensOut, costUsd, responseModel, cac
             last.cacheCreationTokens = cacheCreationTokens;
         if (cacheReadTokens !== undefined)
             last.cacheReadTokens = cacheReadTokens;
+        if (agentFingerprint !== undefined)
+            last.agentFingerprint = agentFingerprint;
+        if (agentId !== undefined)
+            last.agentId = agentId;
+        if (requestContent)
+            last.requestContent = requestContent;
+        if (errorMessage !== undefined)
+            last.error = errorMessage;
+        if (errorStatusCode !== undefined)
+            last.statusCode = errorStatusCode;
     }
 }
+/**
+ * Extract request content for logging. Handles Anthropic and OpenAI formats.
+ */
+function extractRequestContent(body, isAnthropic) {
+    let systemPrompt = '';
+    let userMessage = '';
+    if (isAnthropic) {
+        if (typeof body.system === 'string') {
+            systemPrompt = body.system;
+        }
+        else if (Array.isArray(body.system)) {
+            systemPrompt = body.system
+                .map(p => p.type === 'text' ? (p.text ?? '') : (typeof p === 'string' ? String(p) : ''))
+                .join('');
+        }
+    }
+    else {
+        const sysmsgs = body.messages;
+        if (Array.isArray(sysmsgs)) {
+            for (const msg of sysmsgs) {
+                if (msg.role === 'system') {
+                    systemPrompt = typeof msg.content === 'string' ? msg.content : '';
+                    break;
+                }
+            }
+        }
+    }
+    const msgs = body.messages;
+    if (Array.isArray(msgs)) {
+        for (let i = msgs.length - 1; i >= 0; i--) {
+            if (msgs[i].role === 'user') {
+                const content = msgs[i].content;
+                if (typeof content === 'string') {
+                    userMessage = content;
+                }
+                else if (Array.isArray(content)) {
+                    userMessage = content
+                        .filter(p => p.type === 'text')
+                        .map(p => p.text ?? '')
+                        .join('');
+                }
+                break;
+            }
+        }
+    }
+    return {
+        systemPrompt: systemPrompt ? systemPrompt.slice(0, 200) : undefined,
+        userMessage: userMessage || undefined,
+    };
+}
+/**
+ * Extract assistant response text from response payload.
+ */
+function extractResponseText(responseData, isAnthropic) {
+    if (isAnthropic) {
+        const content = responseData.content;
+        if (Array.isArray(content)) {
+            return content.filter(p => p.type === 'text').map(p => p.text ?? '').join('');
+        }
+    }
+    else {
+        const choices = responseData.choices;
+        if (Array.isArray(choices) && choices[0]?.message?.content) {
+            return choices[0].message.content;
+        }
+    }
+    return '';
+}
 const DEFAULT_PROXY_CONFIG = {
     enabled: true,
     modelOverrides: {},
@@ -584,6 +669,11 @@ const DEFAULT_PROXY_CONFIG = {
         },
     },
 };
+/** Module-level ref to active proxy config (set during startProxy) */
+let _activeProxyConfig = {};
+function isContentLoggingEnabled() {
+    return _activeProxyConfig.dashboard?.showRequestContent !== false;
+}
 function getProxyConfigPath() {
     const customPath = process.env['RELAYPLANE_CONFIG_PATH'];
     if (customPath && customPath.trim())
@@ -835,19 +925,16 @@ function buildAnthropicHeadersWithAuth(ctx, apiKey, isMaxToken) {
         'Content-Type': 'application/json',
         'anthropic-version': ctx.versionHeader || '2023-06-01',
     };
-    // Auth: prefer incoming auth for passthrough, but OAuth doesn't work for all models (e.g. Haiku)
-    // When we have a regular API key AND incoming auth is OAuth, prefer the API key for rerouted requests
-    // because OAuth may not be supported on the target model. The API key works for ALL models.
-    const incomingIsOAuth = !!(ctx.apiKeyHeader?.startsWith('sk-ant-oat') || ctx.authHeader?.includes('sk-ant-oat'));
-    if (incomingIsOAuth && apiKey && !apiKey.startsWith('sk-ant-oat')) {
-        headers['x-api-key'] = apiKey;
-    }
-    else if (ctx.authHeader) {
+    // Auth: ALWAYS prefer incoming auth for passthrough (don't replace it)
+    // Incoming auth is from Claude Code/OpenClaw and is already the right token for the request
+    if (ctx.authHeader) {
+        // Incoming Authorization header takes priority - use it as-is
         headers['Authorization'] = ctx.authHeader;
     }
     else if (ctx.apiKeyHeader) {
-        // MAX/OAuth tokens (sk-ant-oat*) must use Authorization: Bearer, not x-api-key
+        // Incoming x-api-key header
         if (ctx.apiKeyHeader.startsWith('sk-ant-oat')) {
+            // MAX/OAuth tokens must use Authorization: Bearer, not x-api-key
             headers['Authorization'] = `Bearer ${ctx.apiKeyHeader}`;
         }
         else {
@@ -855,7 +942,7 @@ function buildAnthropicHeadersWithAuth(ctx, apiKey, isMaxToken) {
         }
     }
     else if (apiKey) {
-        // MAX tokens (OAuth) use Authorization: Bearer, API keys use x-api-key
+        // Fallback to configured API key (only if no incoming auth)
         if (isMaxToken || apiKey.startsWith('sk-ant-oat')) {
             headers['Authorization'] = `Bearer ${apiKey}`;
         }
@@ -867,6 +954,13 @@ function buildAnthropicHeadersWithAuth(ctx, apiKey, isMaxToken) {
     if (ctx.betaHeaders) {
         headers['anthropic-beta'] = ctx.betaHeaders;
     }
+    // Pass through OAuth identity headers (required by Anthropic for OAuth token validation)
+    if (ctx.userAgent) {
+        headers['user-agent'] = ctx.userAgent;
+    }
+    if (ctx.xApp) {
+        headers['x-app'] = ctx.xApp;
+    }
     return headers;
 }
 /**
@@ -907,6 +1001,13 @@ function buildAnthropicHeaders(ctx, envApiKey) {
     if (ctx.betaHeaders) {
         headers['anthropic-beta'] = ctx.betaHeaders;
     }
+    // Pass through OAuth identity headers (required by Anthropic for OAuth token validation)
+    if (ctx.userAgent) {
+        headers['user-agent'] = ctx.userAgent;
+    }
+    if (ctx.xApp) {
+        headers['x-app'] = ctx.xApp;
+    }
     return headers;
 }
 /**
@@ -1772,7 +1873,7 @@ function resolveExplicitModel(modelName) {
 function resolveConfigModel(modelName) {
     return resolveExplicitModel(modelName) ?? parsePreferredModel(modelName);
 }
-function extractResponseText(responseData) {
+function extractResponseTextAuto(responseData) {
     const openAiChoices = responseData['choices'];
     if (openAiChoices && openAiChoices.length > 0) {
         const first = openAiChoices[0];
@@ -1816,6 +1917,28 @@ function checkResponseModelMismatch(responseData, requestedModel, provider, log)
     }
     return responseModel;
 }
+/**
+ * Extract a human-readable error message from a provider error payload.
+ * Handles Anthropic ({ error: { type, message } }) and OpenAI ({ error: { message } }) formats.
+ */
+function extractProviderErrorMessage(payload, statusCode) {
+    const err = payload['error'];
+    if (typeof err === 'string')
+        return err;
+    if (err && typeof err === 'object') {
+        const errType = err['type'];
+        const errMsg = err['message'];
+        if (errType && errMsg)
+            return `${errType}: ${errMsg}`;
+        if (errMsg)
+            return errMsg;
+        if (errType)
+            return errType;
+    }
+    if (statusCode)
+        return `HTTP ${statusCode}`;
+    return 'Unknown error';
+}
 class ProviderResponseError extends Error {
     status;
     payload;
@@ -1841,6 +1964,8 @@ function extractRequestContext(req) {
         betaHeaders: req.headers['anthropic-beta'],
         versionHeader: req.headers['anthropic-version'],
         apiKeyHeader: req.headers['x-api-key'],
+        userAgent: req.headers['user-agent'],
+        xApp: req.headers['x-app'],
     };
 }
 const MAX_BODY_SIZE = 10 * 1024 * 1024; // 10MB max request body
@@ -1940,7 +2065,7 @@ async function cascadeRequest(config, makeRequest, log) {
         const isLastModel = i === config.models.length - 1;
         try {
             const { responseData, provider, model: resolvedModel } = await makeRequest(model);
-            const text = extractResponseText(responseData);
+            const text = extractResponseTextAuto(responseData);
             if (isLastModel || escalations >= config.maxEscalations) {
                 return { responseData, provider, model: resolvedModel, escalations };
             }
@@ -1969,7 +2094,7 @@ async function cascadeRequest(config, makeRequest, log) {
 function getDashboardHTML() {
     return `<!DOCTYPE html><html lang="en"><head><meta charset="utf-8"><meta name="viewport" content="width=device-width,initial-scale=1"><title>RelayPlane Dashboard</title>
 <style>
-*{margin:0;padding:0;box-sizing:border-box}body{background:#0a0b0d;color:#e2e8f0;font-family:-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;padding:20px;max-width:1200px;margin:0 auto}
+*{margin:0;padding:0;box-sizing:border-box}body{background:#0a0b0d;color:#e2e8f0;font-family:-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;padding:20px;max-width:1600px;margin:0 auto}
 a{color:#34d399}h1{font-size:1.5rem;font-weight:600}
 .header{display:flex;justify-content:space-between;align-items:center;padding:16px 0;border-bottom:1px solid #1e293b;margin-bottom:24px}
 .header .meta{font-size:.8rem;color:#64748b}
@@ -1977,13 +2102,18 @@ a{color:#34d399}h1{font-size:1.5rem;font-weight:600}
 .card{background:#111318;border:1px solid #1e293b;border-radius:12px;padding:20px}
 .card .label{font-size:.75rem;color:#64748b;text-transform:uppercase;letter-spacing:.05em;margin-bottom:6px}
 .card .value{font-size:1.75rem;font-weight:700}.green{color:#34d399}
+.tooltip-wrap{position:relative;display:inline-block}
+.tooltip-wrap .tooltip-box{visibility:hidden;opacity:0;background:#1e293b;color:#e2e8f0;font-size:.8rem;font-weight:400;text-transform:none;letter-spacing:0;line-height:1.5;border:1px solid #334155;border-radius:8px;padding:10px 14px;position:absolute;top:calc(100% + 8px);left:50%;transform:translateX(-50%);width:280px;z-index:999;pointer-events:none;transition:opacity .15s;box-shadow:0 4px 16px rgba(0,0,0,.4)}
+.tooltip-wrap .tooltip-box::after{content:'';position:absolute;bottom:100%;left:50%;transform:translateX(-50%);border:6px solid transparent;border-bottom-color:#334155}
+.tooltip-wrap:hover .tooltip-box{visibility:visible;opacity:1}
+.info-icon{cursor:help;color:#64748b;font-size:.75rem;vertical-align:middle;margin-left:4px}
 table{width:100%;border-collapse:collapse;font-size:.85rem}
 th{text-align:left;color:#64748b;font-weight:500;padding:8px 12px;border-bottom:1px solid #1e293b;font-size:.75rem;text-transform:uppercase;letter-spacing:.04em}
 td{padding:8px 12px;border-bottom:1px solid #111318}
 .section{margin-bottom:32px}.section h2{font-size:1rem;font-weight:600;margin-bottom:12px;color:#94a3b8}
 .dot{display:inline-block;width:8px;height:8px;border-radius:50%;margin-right:6px}.dot.up{background:#34d399}.dot.warn{background:#fbbf24}.dot.down{background:#ef4444}
 .badge{display:inline-block;padding:2px 8px;border-radius:6px;font-size:.75rem;font-weight:500}
-.badge.ok{background:#052e1633;color:#34d399}.badge.err{background:#2d0a0a;color:#ef4444}
+.badge.ok{background:#052e1633;color:#34d399}.badge.err{background:#2d0a0a;color:#ef4444}.badge.err-auth{background:#2d0a0a;color:#ef4444}.badge.err-rate{background:#2d2a0a;color:#fbbf24}.badge.err-timeout{background:#2d1a0a;color:#fb923c}
 .badge.tt-code{background:#1e3a5f;color:#60a5fa}.badge.tt-analysis{background:#3b1f6e;color:#a78bfa}.badge.tt-summarization{background:#1a3a2a;color:#6ee7b7}.badge.tt-qa{background:#3a2f1e;color:#fbbf24}.badge.tt-general{background:#1e293b;color:#94a3b8}
 .badge.cx-simple{background:#052e1633;color:#34d399}.badge.cx-moderate{background:#2d2a0a;color:#fbbf24}.badge.cx-complex{background:#2d0a0a;color:#ef4444}
 .vstat{display:inline-flex;align-items:center;gap:6px;margin-left:8px;padding:1px 8px;border-radius:999px;border:1px solid #334155;font-size:.72rem}
@@ -1992,19 +2122,22 @@ td{padding:8px 12px;border-bottom:1px solid #111318}
 .vstat.unavailable{color:#a3a3a3;border-color:#52525b66;background:#18181b66}
 @media(max-width:768px){.col-tt,.col-cx{display:none}}
 .prov{display:flex;gap:16px;flex-wrap:wrap}.prov-item{display:flex;align-items:center;font-size:.85rem;background:#111318;padding:8px 14px;border-radius:8px;border:1px solid #1e293b}
+.rename-btn{background:none;border:none;cursor:pointer;font-size:.75rem;opacity:.5;padding:2px}.rename-btn:hover{opacity:1}
 </style></head><body>
 <div class="header"><div><h1>⚡ RelayPlane Dashboard</h1></div><div class="meta"><a href="/dashboard/config">Config</a> · <span id="ver"></span><span id="vstat" class="vstat unavailable">Unable to check</span> · up <span id="uptime"></span> · refreshes every 5s</div></div>
 <div class="cards">
   <div class="card"><div class="label">Total Requests</div><div class="value" id="totalReq">—</div></div>
   <div class="card"><div class="label">Total Cost</div><div class="value" id="totalCost">—</div></div>
-  <div class="card"><div class="label">Savings</div><div class="value green" id="savings">—</div></div>
+  <div class="card"><div class="label">Routing Savings <span class="tooltip-wrap"><span class="info-icon">ⓘ</span><span class="tooltip-box" id="savings-tooltip">Loading...</span></span></div><div class="value green" id="savings">—</div><div id="savings-detail" style="font-size:.75rem;color:#64748b;margin-top:4px">—</div></div>
   <div class="card"><div class="label">Avg Latency</div><div class="value" id="avgLat">—</div></div>
 </div>
 <div class="section"><h2>Model Breakdown</h2>
-<table><thead><tr><th>Model</th><th>Requests</th><th>Cost</th><th>% of Total</th></tr></thead><tbody id="models"></tbody></table></div>
+<table><thead><tr><th>Provider</th><th>Model</th><th>Requests</th><th>Cost</th><th>% of Total</th></tr></thead><tbody id="models"></tbody></table></div>
+<div class="section"><h2>Agent Cost Breakdown</h2>
+<table><thead><tr><th>Agent</th><th>Requests</th><th>Total Cost</th><th>Last Active</th><th></th></tr></thead><tbody id="agents"></tbody></table></div>
 <div class="section"><h2>Provider Status</h2><div class="prov" id="providers"></div></div>
 <div class="section"><h2>Recent Runs</h2>
-<table><thead><tr><th>Time</th><th>Model</th><th class="col-tt">Task Type</th><th class="col-cx">Complexity</th><th>Tokens In</th><th>Tokens Out</th><th class="col-cache">Cache Create</th><th class="col-cache">Cache Read</th><th>Cost</th><th>Latency</th><th>Status</th></tr></thead><tbody id="runs"></tbody></table></div>
+<table><thead><tr><th>Time</th><th>Agent</th><th>Model</th><th class="col-tt">Task Type</th><th class="col-cx">Complexity</th><th>Tokens In</th><th>Tokens Out</th><th class="col-cache">Cache Create</th><th class="col-cache">Cache Read</th><th>Cost</th><th>Latency</th><th>Status</th></tr></thead><tbody id="runs"></tbody></table></div>
 <script>
 const $ = id => document.getElementById(id);
 function fmt(n,d=2){return typeof n==='number'?n.toFixed(d):'-'}
@@ -2012,12 +2145,13 @@ function fmtTime(s){const d=new Date(s);return d.toLocaleTimeString()}
 function dur(s){const h=Math.floor(s/3600),m=Math.floor(s%3600/60);return h?h+'h '+m+'m':m+'m'}
 async function load(){
   try{
-    const [health,stats,runsR,sav,provH]=await Promise.all([
+    const [health,stats,runsR,sav,provH,agentsR]=await Promise.all([
       fetch('/health').then(r=>r.json()),
       fetch('/v1/telemetry/stats').then(r=>r.json()),
       fetch('/v1/telemetry/runs?limit=20').then(r=>r.json()),
       fetch('/v1/telemetry/savings').then(r=>r.json()),
-      fetch('/v1/telemetry/health').then(r=>r.json())
+      fetch('/v1/telemetry/health').then(r=>r.json()),
+      fetch('/api/agents').then(r=>r.json()).catch(()=>({agents:[]}))
     ]);
     $('ver').textContent='v'+health.version;
     $('uptime').textContent=dur(health.uptime);
@@ -2037,16 +2171,65 @@ async function load(){
     const total=stats.summary?.totalEvents||0;
     $('totalReq').textContent=total;
     $('totalCost').textContent='$'+fmt(stats.summary?.totalCostUsd??0,4);
-    $('savings').textContent=(sav.percentage??0)+'%';
+    const savAmt=sav.savedAmount??sav.savings??0;
+    const cacheSav=sav.cacheSavings??0;
+    const routeSav=sav.routingSavings??0;
+    const actual=sav.actualCost??0;
+    const hasAnthropic=sav.hasAnthropicCalls!==false;
+    const baseline=sav.potentialSavings??sav.total??0;
+    // Headline = routing savings % (RelayPlane's actual contribution)
+    const routeBaseline=baseline>0?baseline:1;
+    const routePct=hasAnthropic?Math.round((routeSav/routeBaseline)*100):0;
+    const totalPct=sav.percentage??0;
+    $('savings').textContent='$'+fmt(routeSav,2);
+    // Secondary: show total % including cache as context
+    if(hasAnthropic){
+      $('savings-detail').innerHTML='<span style="color:#60a5fa">routing savings</span> · <span style="color:#64748b" title="Includes Anthropic prompt cache hits which happen regardless of routing">'+totalPct+'% total incl. cache</span>';
+    } else {
+      $('savings-detail').innerHTML='<span style="color:#a78bfa">$'+fmt(cacheSav,2)+' cache</span> · <span style="color:#64748b">'+totalPct+'% total</span>';
+    }
+    const tipEl=$('savings-tooltip');
+    if(tipEl){
+      let tip='<strong>How savings are calculated</strong><br><br>';
+      if(hasAnthropic){
+        tip+='<span style="color:#60a5fa">🔀 Routing savings: $'+fmt(routeSav,2)+'</span><br><small>Requests routed to cheaper models (e.g. Sonnet) vs always using Opus. RelayPlane contribution.</small><br><br>';
+        tip+='<span style="color:#a78bfa">💾 Cache savings: $'+fmt(cacheSav,2)+'</span><br><small>Anthropic prompt cache hits (10× cheaper reads). This would happen without RelayPlane too.</small><br><br>';
+      } else {
+        tip+='<span style="color:#a78bfa">💾 Cache savings: $'+fmt(cacheSav,2)+'</span><br><small>Provider cache hits. Happens automatically, not specific to RelayPlane.</small><br><br>';
+      }
+      tip+='💳 Actual cost: <b>$'+fmt(actual,2)+'</b><br>✅ Total saved: <b>$'+fmt(savAmt,2)+'</b>';
+      tipEl.innerHTML=tip;
+    }
     $('avgLat').textContent=(stats.summary?.avgLatencyMs??0)+'ms';
     $('models').innerHTML=(stats.byModel||[]).map(m=>
-      '<tr><td>'+m.model+'</td><td>'+m.count+'</td><td>$'+fmt(m.costUsd,4)+'</td><td>'+fmt(total>0?m.count/total*100:0,1)+'%</td></tr>'
-    ).join('')||'<tr><td colspan=4 style="color:#64748b">No data yet</td></tr>';
+      '<tr><td style="color:#94a3b8;font-size:.85rem">'+(m.provider||'—')+'</td><td>'+m.model+'</td><td>'+m.count+'</td><td>$'+fmt(m.costUsd,4)+'</td><td>'+fmt(total>0?m.count/total*100:0,1)+'%</td></tr>'
+    ).join('')||'<tr><td colspan=5 style="color:#64748b">No data yet</td></tr>';
     function ttCls(t){const m={code_generation:'tt-code',analysis:'tt-analysis',summarization:'tt-summarization',question_answering:'tt-qa'};return m[t]||'tt-general'}
     function cxCls(c){const m={simple:'cx-simple',moderate:'cx-moderate',complex:'cx-complex'};return m[c]||'cx-simple'}
-    $('runs').innerHTML=(runsR.runs||[]).map(r=>
-      '<tr><td>'+fmtTime(r.started_at)+'</td><td>'+r.model+'</td><td class="col-tt"><span class="badge '+ttCls(r.taskType)+'">'+(r.taskType||'general').replace(/_/g,' ')+'</span></td><td class="col-cx"><span class="badge '+cxCls(r.complexity)+'">'+(r.complexity||'simple')+'</span></td><td>'+(r.tokensIn||0)+'</td><td>'+(r.tokensOut||0)+'</td><td class="col-cache" style="color:#60a5fa">'+(r.cacheCreationTokens||0)+'</td><td class="col-cache" style="color:#34d399">'+(r.cacheReadTokens||0)+'</td><td>$'+fmt(r.costUsd,4)+'</td><td>'+r.latencyMs+'ms</td><td><span class="badge '+(r.status==='success'?'ok':'err')+'">'+r.status+'</span></td></tr>'
-    ).join('')||'<tr><td colspan=11 style="color:#64748b">No runs yet</td></tr>';
+    function esc(s){if(!s)return'';return s.replace(/&/g,'&amp;').replace(/</g,'&lt;').replace(/>/g,'&gt;')}
+    const agents=(agentsR.agents||[]).sort((a,b)=>(b.totalCost||0)-(a.totalCost||0));
+    $('runs').innerHTML=(runsR.runs||[]).map((r,i)=>{
+      function errBadge(r){if(r.status==='success')return '<span class="badge ok">success</span>';var cls='err';var label=r.error||'error';if(r.statusCode===401||r.statusCode===403||(r.error&&/auth/i.test(r.error)))cls='err-auth';else if(r.statusCode===429||(r.error&&/rate.?limit/i.test(r.error)))cls='err-rate';else if(r.error&&/timeout/i.test(r.error))cls='err-timeout';return '<span class="badge '+cls+'" title="'+esc(r.error||'')+' (HTTP '+( r.statusCode||'?')+')">'+(r.statusCode?r.statusCode+' ':'')+ (label.length>40?label.slice(0,40)+'…':label)+'</span>';}
+      const agentName=agents.find(a=>a.fingerprint===r.agentFingerprint)?.name||(r.agentId||'—');
+      const row='<tr style="cursor:pointer" onclick="toggleDetail('+i+')"><td><span id="arrow-'+i+'" style="color:#64748b;font-size:.7rem;margin-right:6px">▶</span>'+fmtTime(r.started_at)+'</td><td style="font-size:.85rem">'+esc(agentName)+'</td><td>'+r.model+'</td><td class="col-tt"><span class="badge '+ttCls(r.taskType)+'">'+(r.taskType||'general').replace(/_/g,' ')+'</span></td><td class="col-cx"><span class="badge '+cxCls(r.complexity)+'">'+(r.complexity||'simple')+'</span></td><td>'+(r.tokensIn||0)+'</td><td>'+(r.tokensOut||0)+'</td><td class="col-cache" style="color:#60a5fa">'+(r.cacheCreationTokens||0)+'</td><td class="col-cache" style="color:#34d399">'+(r.cacheReadTokens||0)+'</td><td>$'+fmt(r.costUsd,4)+'</td><td>'+r.latencyMs+'ms</td><td>'+errBadge(r)+'</td></tr>';
+      const c=r.requestContent||{};
+      let detail='<tr id="run-detail-'+i+'" style="display:none"><td colspan="12" style="padding:16px;background:#111217;border-bottom:1px solid #1e293b">';
+      if(c.systemPrompt||c.userMessage||c.responsePreview){
+        if(c.systemPrompt) detail+='<div style="color:#64748b;font-size:.85rem;margin-bottom:10px;font-style:italic"><strong style="color:#94a3b8">System:</strong> '+esc(c.systemPrompt)+'</div>';
+        if(c.userMessage) detail+='<div style="background:#1a1c23;border:1px solid #1e293b;border-radius:8px;padding:12px;margin-bottom:10px"><strong style="color:#94a3b8;font-size:.8rem">User Message</strong><div style="margin-top:6px;white-space:pre-wrap">'+esc(c.userMessage)+'</div></div>';
+        if(c.responsePreview) detail+='<div style="background:#1a1c23;border:1px solid #1e293b;border-radius:8px;padding:12px;margin-bottom:10px"><strong style="color:#94a3b8;font-size:.8rem">Response Preview</strong><div style="margin-top:6px;white-space:pre-wrap">'+esc(c.responsePreview)+'</div></div>';
+        const btnAttrs='id="full-btn-'+i+'" style="background:#1e293b;color:#e2e8f0;border:1px solid #334155;padding:6px 12px;border-radius:6px;font-size:.8rem"';
+        detail+=(r.tokensOut>0?'<button onclick="event.stopPropagation();loadFullResponse(&quot;'+r.id+'&quot;,'+i+')" '+btnAttrs+'>Show full response</button>':'<button disabled '+btnAttrs+' style="opacity:.4;cursor:default">Response not available (streaming)</button>')+'<pre id="full-resp-'+i+'" style="display:none;white-space:pre-wrap;margin-top:10px;background:#0d0e11;border:1px solid #1e293b;border-radius:8px;padding:12px;max-height:400px;overflow:auto;font-size:.8rem"></pre>';
+      } else {
+        detail+='<span style="color:#64748b">No content captured for this request</span>';
+      }
+      detail+='</td></tr>';
+      return row+detail;
+    }).join('')||'<tr><td colspan=12 style="color:#64748b">No runs yet</td></tr>';
+    restoreExpanded();
+    $('agents').innerHTML=agents.length?agents.map(a=>
+      '<tr><td><span class="agent-name" data-fp="'+a.fingerprint+'">'+esc(a.name)+'</span> <button class="rename-btn" onclick="renameAgent(&quot;'+a.fingerprint+'&quot;,&quot;'+a.name.replace(/"/g,'')+'&quot;)">✏️</button></td><td>'+a.totalRequests+'</td><td>$'+fmt(a.totalCost,4)+'</td><td>'+fmtTime(a.lastSeen)+'</td><td style="font-size:.7rem;color:#64748b" title="'+esc(a.systemPromptPreview||'')+'">'+a.fingerprint+'</td></tr>'
+    ).join(''):'<tr><td colspan=5 style="color:#64748b">No agents detected yet</td></tr>';
     $('providers').innerHTML=(provH.providers||[]).map(p=>{
       const dotClass = p.status==='healthy'?'up':(p.status==='degraded'?'warn':'down');
       const rate = p.successRate!==undefined?(' '+Math.round(p.successRate*100)+'%'):'';
@@ -2054,13 +2237,34 @@ async function load(){
     }).join('');
   }catch(e){console.error(e)}
 }
+async function renameAgent(fp,currentName){
+  const name=prompt('Rename agent:',currentName);
+  if(!name||name===currentName)return;
+  await fetch('/api/agents/rename',{method:'POST',headers:{'Content-Type':'application/json'},body:JSON.stringify({fingerprint:fp,name:name})});
+  load();
+}
+const expandedRows=new Set();
+function toggleDetail(i){var d=document.getElementById('run-detail-'+i);var arrow=document.getElementById('arrow-'+i);if(d.style.display==='none'){d.style.display='table-row';expandedRows.add(i);if(arrow)arrow.textContent='▼'}else{d.style.display='none';expandedRows.delete(i);if(arrow)arrow.textContent='▶'}}
+function restoreExpanded(){expandedRows.forEach(i=>{var d=document.getElementById('run-detail-'+i);var arrow=document.getElementById('arrow-'+i);if(d)d.style.display='table-row';if(arrow)arrow.textContent='▼'})}
+async function loadFullResponse(runId,i){
+  const btn=document.getElementById('full-btn-'+i);
+  const pre=document.getElementById('full-resp-'+i);
+  if(pre.style.display!=='none'){pre.style.display='none';btn.textContent='Show full response';return}
+  btn.textContent='Loading...';
+  try{
+    const data=await fetch('/api/runs/'+runId).then(r=>r.json());
+    const full=data.requestContent&&data.requestContent.fullResponse;
+    if(full){pre.textContent=full;pre.style.display='block';btn.textContent='Hide full response'}
+    else{btn.textContent='No full response available'}
+  }catch{btn.textContent='Error loading response'}
+}
 load();setInterval(load,5000);
-</script></body></html>`;
+</script><footer style="text-align:center;padding:20px 0;color:#475569;font-size:.75rem;border-top:1px solid #1e293b;margin-top:20px">🔒 Request content stays on your machine. Never sent to cloud.</footer></body></html>`;
 }
 function getConfigDashboardHTML() {
     return `<!DOCTYPE html><html lang="en"><head><meta charset="utf-8"><meta name="viewport" content="width=device-width,initial-scale=1"><title>RelayPlane Config</title>
 <style>
-*{margin:0;padding:0;box-sizing:border-box}body{background:#0a0b0d;color:#e2e8f0;font-family:-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;padding:20px;max-width:1200px;margin:0 auto}
+*{margin:0;padding:0;box-sizing:border-box}body{background:#0a0b0d;color:#e2e8f0;font-family:-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;padding:20px;max-width:1600px;margin:0 auto}
 a{color:#34d399}h1{font-size:1.5rem;font-weight:600}
 .header{display:flex;justify-content:space-between;align-items:center;padding:16px 0;border-bottom:1px solid #1e293b;margin-bottom:24px}
 .header .meta{font-size:.8rem;color:#64748b}
@@ -2152,8 +2356,10 @@ async function startProxy(config = {}) {
     };
     // Load persistent history from disk
     loadHistoryFromDisk();
+    (0, agent_tracker_js_1.loadAgentRegistry)();
     // Flush history on shutdown
     const handleShutdown = () => {
+        (0, agent_tracker_js_1.flushAgentRegistry)();
         meshHandle.stop();
         shutdownHistory();
         process.exit(0);
@@ -2162,6 +2368,7 @@ async function startProxy(config = {}) {
     process.on('SIGTERM', handleShutdown);
     const configPath = getProxyConfigPath();
     let proxyConfig = await loadProxyConfig(configPath, log);
+    _activeProxyConfig = proxyConfig;
     const cooldownManager = new CooldownManager(getCooldownConfig(proxyConfig));
     // === Startup config validation (Task 4) ===
     try {
@@ -2500,11 +2707,11 @@ async function startProxy(config = {}) {
                 const days = parseInt(params.get('days') || '7', 10);
                 const cutoff = Date.now() - days * 86400000;
                 const recent = requestHistory.filter(r => new Date(r.timestamp).getTime() >= cutoff);
-                // Model breakdown
+                // Model breakdown (keyed by provider/model for disambiguation)
                 const modelMap = new Map();
                 for (const r of recent) {
-                    const key = r.targetModel;
-                    const cur = modelMap.get(key) || { count: 0, cost: 0 };
+                    const key = `${r.provider || 'unknown'}/${r.targetModel}`;
+                    const cur = modelMap.get(key) || { count: 0, cost: 0, provider: r.provider || 'unknown', model: r.targetModel };
                     cur.count++;
                     cur.cost += r.costUsd;
                     modelMap.set(key, cur);
@@ -2527,7 +2734,7 @@ async function startProxy(config = {}) {
                         avgLatencyMs: recent.length ? Math.round(totalLatency / recent.length) : 0,
                         successRate: recent.length ? recent.filter(r => r.success).length / recent.length : 0,
                     },
-                    byModel: Array.from(modelMap.entries()).map(([model, v]) => ({ model, count: v.count, costUsd: v.cost, savings: 0 })),
+                    byModel: Array.from(modelMap.entries()).map(([, v]) => ({ model: v.model, provider: v.provider, count: v.count, costUsd: v.cost, savings: 0 })),
                     dailyCosts: Array.from(dailyMap.entries()).map(([date, v]) => ({ date, costUsd: v.cost, requests: v.requests })),
                 };
                 res.writeHead(200, { 'Content-Type': 'application/json' });
@@ -2565,6 +2772,16 @@ async function startProxy(config = {}) {
                         cacheReadTokens: r.cacheReadTokens ?? 0,
                         savings: Math.round(perRunSavings * 10000) / 10000,
                         escalated: r.escalated,
+                        error: r.error ?? null,
+                        statusCode: r.statusCode ?? null,
+                        agentFingerprint: r.agentFingerprint ?? null,
+                        agentId: r.agentId ?? null,
+                        requestContent: r.requestContent ? {
+                            systemPrompt: r.requestContent.systemPrompt,
+                            userMessage: r.requestContent.userMessage,
+                            responsePreview: r.requestContent.responsePreview,
+                            // fullResponse excluded from list endpoint to keep payloads small
+                        } : undefined,
                     };
                 });
                 res.writeHead(200, { 'Content-Type': 'application/json' });
@@ -2572,26 +2789,34 @@ async function startProxy(config = {}) {
                 return;
             }
             if (req.method === 'GET' && telemetryPath === 'savings') {
-                // Savings = cost if everything ran on Opus - actual cost
-                // Always compare against Opus as the baseline
-                const OPUS_BASELINE = 'claude-opus-4-6';
-                let totalOriginalCost = 0;
+                // Routing savings: cost at same model with no cache vs actual cost
+                // Cache savings: what cache hits saved vs paying full input price
+                // Baseline: each request at full input price (no cache, no routing)
                 let totalActualCost = 0;
-                let totalSavedAmount = 0;
+                let totalCacheSavings = 0; // savings from cache hits (Anthropic feature)
+                let totalRoutingSavings = 0; // savings from routing to cheaper model
+                let hasAnthropicCalls = false;
                 const byDayMap = new Map();
                 for (const r of requestHistory) {
-                    // Pass same cache tokens to baseline so savings only reflect routing decisions,
-                    // not prompt-cache discounts (those happen regardless of which model is chosen).
-                    const origCost = (0, telemetry_js_1.estimateCost)(OPUS_BASELINE, r.tokensIn, r.tokensOut, r.cacheCreationTokens || undefined, r.cacheReadTokens || undefined);
                     const actualCost = r.costUsd;
-                    const saved = Math.max(0, origCost - actualCost);
-                    totalOriginalCost += origCost;
                     totalActualCost += actualCost;
-                    totalSavedAmount += saved;
+                    // Cache savings: full input price vs what was paid with cache
+                    const fullInputCost = (0, telemetry_js_1.estimateCost)(r.targetModel, r.tokensIn + (r.cacheCreationTokens || 0) + (r.cacheReadTokens || 0), r.tokensOut);
+                    const cachedCost = r.costUsd;
+                    const cacheSaved = Math.max(0, fullInputCost - cachedCost);
+                    totalCacheSavings += cacheSaved;
+                    // Routing savings: what would this request cost at full Opus price (no cache)
+                    // vs what the routed model cost (no cache). Only meaningful for Anthropic.
+                    if (r.provider === 'anthropic') {
+                        hasAnthropicCalls = true;
+                        const opusCost = (0, telemetry_js_1.estimateCost)('claude-opus-4-6', r.tokensIn, r.tokensOut);
+                        const modelCost = (0, telemetry_js_1.estimateCost)(r.targetModel, r.tokensIn, r.tokensOut);
+                        const routingSaved = Math.max(0, opusCost - modelCost);
+                        totalRoutingSavings += routingSaved;
+                    }
                     const date = r.timestamp.slice(0, 10);
                     const day = byDayMap.get(date) || { savedAmount: 0, originalCost: 0, actualCost: 0 };
-                    day.savedAmount += saved;
-                    day.originalCost += origCost;
+                    day.savedAmount += Math.max(0, totalCacheSavings + totalRoutingSavings);
                     day.actualCost += actualCost;
                     byDayMap.set(date, day);
                 }
@@ -2603,16 +2828,19 @@ async function startProxy(config = {}) {
                     originalCost: Math.round(v.originalCost * 10000) / 10000,
                     actualCost: Math.round(v.actualCost * 10000) / 10000,
                 }));
+                const totalSaved = totalCacheSavings + totalRoutingSavings;
+                const baseline = totalActualCost + totalSaved;
                 res.writeHead(200, { 'Content-Type': 'application/json' });
                 res.end(JSON.stringify({
-                    total: Math.round(totalOriginalCost * 10000) / 10000,
                     actualCost: Math.round(totalActualCost * 10000) / 10000,
-                    savings: Math.round(totalSavedAmount * 10000) / 10000,
-                    savedAmount: Math.round(totalSavedAmount * 10000) / 10000,
-                    potentialSavings: Math.round(totalOriginalCost * 10000) / 10000,
-                    percentage: totalOriginalCost > 0
-                        ? Math.round((totalSavedAmount / totalOriginalCost) * 100)
-                        : 0,
+                    savedAmount: Math.round(totalSaved * 10000) / 10000,
+                    savings: Math.round(totalSaved * 10000) / 10000,
+                    cacheSavings: Math.round(totalCacheSavings * 10000) / 10000,
+                    routingSavings: Math.round(totalRoutingSavings * 10000) / 10000,
+                    hasAnthropicCalls,
+                    potentialSavings: Math.round(baseline * 10000) / 10000,
+                    total: Math.round(baseline * 10000) / 10000,
+                    percentage: baseline > 0 ? Math.round((totalSaved / baseline) * 100) : 0,
                     byDay,
                 }));
                 return;
@@ -2662,6 +2890,63 @@ async function startProxy(config = {}) {
             res.end(JSON.stringify({ error: 'Not found' }));
             return;
         }
+        // === Agent tracking API ===
+        // === /api/runs/:id — full request/response content for a single run ===
+        const runsIdMatch = pathname.match(/^\/api\/runs\/(.+)$/);
+        if (req.method === 'GET' && runsIdMatch) {
+            const runId = runsIdMatch[1];
+            const run = requestHistory.find(r => r.id === runId);
+            if (!run) {
+                res.writeHead(404, { 'Content-Type': 'application/json' });
+                res.end(JSON.stringify({ error: 'Run not found' }));
+                return;
+            }
+            res.writeHead(200, { 'Content-Type': 'application/json' });
+            res.end(JSON.stringify({
+                id: run.id,
+                model: run.targetModel,
+                provider: run.provider,
+                timestamp: run.timestamp,
+                tokensIn: run.tokensIn,
+                tokensOut: run.tokensOut,
+                costUsd: run.costUsd,
+                latencyMs: run.latencyMs,
+                success: run.success,
+                requestContent: run.requestContent,
+            }));
+            return;
+        }
+        if (req.method === 'GET' && pathname === '/api/agents') {
+            const summaries = (0, agent_tracker_js_1.getAgentSummaries)(requestHistory);
+            res.writeHead(200, { 'Content-Type': 'application/json' });
+            res.end(JSON.stringify({ agents: summaries }));
+            return;
+        }
+        if (req.method === 'POST' && pathname === '/api/agents/rename') {
+            try {
+                const body = await readJsonBody(req);
+                const fingerprint = body['fingerprint'];
+                const name = body['name'];
+                if (!fingerprint || !name) {
+                    res.writeHead(400, { 'Content-Type': 'application/json' });
+                    res.end(JSON.stringify({ error: 'Missing fingerprint or name' }));
+                    return;
+                }
+                const ok = (0, agent_tracker_js_1.renameAgent)(fingerprint, name);
+                if (!ok) {
+                    res.writeHead(404, { 'Content-Type': 'application/json' });
+                    res.end(JSON.stringify({ error: 'Agent not found' }));
+                    return;
+                }
+                res.writeHead(200, { 'Content-Type': 'application/json' });
+                res.end(JSON.stringify({ ok: true }));
+            }
+            catch {
+                res.writeHead(400, { 'Content-Type': 'application/json' });
+                res.end(JSON.stringify({ error: 'Invalid JSON' }));
+            }
+            return;
+        }
         // === Dashboard ===
         if (req.method === 'GET' && (pathname === '/' || pathname === '/dashboard')) {
             res.writeHead(200, { 'Content-Type': 'text/html' });
@@ -2742,6 +3027,14 @@ async function startProxy(config = {}) {
                 res.end(JSON.stringify({ error: 'Invalid JSON' }));
                 return;
             }
+            // Extract agent fingerprint and explicit agent ID
+            const nativeSystemPrompt = (0, agent_tracker_js_1.extractSystemPromptFromBody)(requestBody);
+            const nativeExplicitAgentId = getHeaderValue(req, 'x-relayplane-agent') || undefined;
+            let nativeAgentFingerprint;
+            if (nativeSystemPrompt) {
+                const agentResult = (0, agent_tracker_js_1.trackAgent)(nativeSystemPrompt, 0, nativeExplicitAgentId);
+                nativeAgentFingerprint = agentResult.fingerprint;
+            }
             const originalModel = requestBody['model'];
             let requestedModel = headerModelOverride ?? originalModel ?? '';
             if (headerModelOverride) {
@@ -3076,7 +3369,8 @@ async function startProxy(config = {}) {
                             cooldownManager.recordFailure(targetProvider, JSON.stringify(errorPayload));
                         }
                         const durationMs = Date.now() - startTime;
-                        logRequest(originalModel ?? 'unknown', targetModel || requestedModel, targetProvider, durationMs, false, routingMode, undefined, taskType, complexity);
+                        const errMsg = extractProviderErrorMessage(errorPayload, providerResponse.status);
+                        logRequest(originalModel ?? 'unknown', targetModel || requestedModel, targetProvider, durationMs, false, routingMode, undefined, taskType, complexity, undefined, undefined, errMsg, providerResponse.status);
                         res.writeHead(providerResponse.status, { 'Content-Type': 'application/json' });
                         res.end(JSON.stringify(errorPayload));
                         return;
@@ -3203,7 +3497,22 @@ async function startProxy(config = {}) {
                 const nativeTokIn = nativeBaseTokIn + nativeCacheCreation + nativeCacheRead;
                 // Cost calculation expects inputTokens to include cache tokens when cache params are provided
                 const nativeCostUsd = (0, telemetry_js_1.estimateCost)(targetModel || requestedModel, nativeTokIn, nativeTokOut, nativeCacheCreation || undefined, nativeCacheRead || undefined);
-                updateLastHistoryEntry(nativeTokIn, nativeTokOut, nativeCostUsd, undefined, nativeCacheCreation || undefined, nativeCacheRead || undefined);
+                // Build request content if logging enabled
+                let nativeContentData;
+                if (isContentLoggingEnabled()) {
+                    const extracted = extractRequestContent(requestBody, true);
+                    const responseText = nativeResponseData ? extractResponseText(nativeResponseData, true) : '';
+                    nativeContentData = {
+                        ...extracted,
+                        responsePreview: responseText ? responseText.slice(0, 500) : undefined,
+                        fullResponse: responseText || undefined,
+                    };
+                }
+                updateLastHistoryEntry(nativeTokIn, nativeTokOut, nativeCostUsd, undefined, nativeCacheCreation || undefined, nativeCacheRead || undefined, nativeAgentFingerprint, nativeExplicitAgentId, nativeContentData);
+                // Update agent cost now that we know the actual cost
+                if (nativeAgentFingerprint && nativeAgentFingerprint !== 'unknown') {
+                    (0, agent_tracker_js_1.updateAgentCost)(nativeAgentFingerprint, nativeCostUsd);
+                }
                 // ── Post-request: budget spend + anomaly detection ──
                 postRequestRecord(targetModel || requestedModel, nativeTokIn, nativeTokOut, nativeCostUsd);
                 if (recordTelemetry) {
@@ -3224,7 +3533,17 @@ async function startProxy(config = {}) {
             }
             catch (err) {
                 const durationMs = Date.now() - startTime;
-                logRequest(originalModel ?? 'unknown', targetModel || requestedModel, targetProvider, durationMs, false, routingMode, undefined, taskType, complexity);
+                let catchErrMsg;
+                let catchErrStatus;
+                if (err instanceof ProviderResponseError) {
+                    catchErrMsg = extractProviderErrorMessage(err.payload, err.status);
+                    catchErrStatus = err.status;
+                }
+                else {
+                    catchErrMsg = err instanceof Error ? err.message : String(err);
+                    catchErrStatus = 500;
+                }
+                logRequest(originalModel ?? 'unknown', targetModel || requestedModel, targetProvider, durationMs, false, routingMode, undefined, taskType, complexity, undefined, undefined, catchErrMsg, catchErrStatus);
                 if (err instanceof ProviderResponseError) {
                     res.writeHead(err.status, { 'Content-Type': 'application/json' });
                     res.end(JSON.stringify(err.payload));
@@ -3301,6 +3620,14 @@ async function startProxy(config = {}) {
             return;
         }
         const isStreaming = request.stream === true;
+        // Extract agent fingerprint for chat/completions
+        const chatSystemPrompt = (0, agent_tracker_js_1.extractSystemPromptFromBody)(request);
+        const chatExplicitAgentId = getHeaderValue(req, 'x-relayplane-agent') || undefined;
+        let chatAgentFingerprint;
+        if (chatSystemPrompt) {
+            const agentResult = (0, agent_tracker_js_1.trackAgent)(chatSystemPrompt, 0, chatExplicitAgentId);
+            chatAgentFingerprint = agentResult.fingerprint;
+        }
         // ── Response Cache: check for cached response (chat/completions) ──
         const chatCacheBypass = responseCache.shouldBypass(request);
         let chatCacheHash;
@@ -3601,7 +3928,7 @@ async function startProxy(config = {}) {
         const startTime = Date.now();
         // Handle streaming vs non-streaming
         if (isStreaming) {
-            await handleStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, useCascade ? 'cascade' : routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled, complexity, chatCacheHash, chatCacheBypass);
+            await handleStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, useCascade ? 'cascade' : routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled, complexity, chatCacheHash, chatCacheBypass, chatAgentFingerprint, chatExplicitAgentId);
         }
         else {
             if (useCascade && cascadeConfig) {
@@ -3641,7 +3968,9 @@ async function startProxy(config = {}) {
                     const cascadeCacheCreation = cascadeUsage?.cache_creation_input_tokens || undefined;
                     const cascadeCacheRead = cascadeUsage?.cache_read_input_tokens || undefined;
                     const cascadeCost = (0, telemetry_js_1.estimateCost)(cascadeResult.model, cascadeTokensIn, cascadeTokensOut, cascadeCacheCreation, cascadeCacheRead);
-                    updateLastHistoryEntry(cascadeTokensIn, cascadeTokensOut, cascadeCost, chatCascadeRespModel, cascadeCacheCreation, cascadeCacheRead);
+                    updateLastHistoryEntry(cascadeTokensIn, cascadeTokensOut, cascadeCost, chatCascadeRespModel, cascadeCacheCreation, cascadeCacheRead, chatAgentFingerprint, chatExplicitAgentId);
+                    if (chatAgentFingerprint && chatAgentFingerprint !== 'unknown')
+                        (0, agent_tracker_js_1.updateAgentCost)(chatAgentFingerprint, cascadeCost);
                     if (recordTelemetry) {
                         try {
                             const runResult = await relay.run({
@@ -3674,7 +4003,17 @@ async function startProxy(config = {}) {
                 }
                 catch (err) {
                     const durationMs = Date.now() - startTime;
-                    logRequest(originalRequestedModel ?? 'unknown', targetModel || 'unknown', targetProvider, durationMs, false, 'cascade', undefined, taskType, complexity);
+                    let cascadeErrMsg;
+                    let cascadeErrStatus;
+                    if (err instanceof ProviderResponseError) {
+                        cascadeErrMsg = extractProviderErrorMessage(err.payload, err.status);
+                        cascadeErrStatus = err.status;
+                    }
+                    else {
+                        cascadeErrMsg = err instanceof Error ? err.message : String(err);
+                        cascadeErrStatus = 500;
+                    }
+                    logRequest(originalRequestedModel ?? 'unknown', targetModel || 'unknown', targetProvider, durationMs, false, 'cascade', undefined, taskType, complexity, undefined, undefined, cascadeErrMsg, cascadeErrStatus);
                     if (err instanceof ProviderResponseError) {
                         res.writeHead(err.status, { 'Content-Type': 'application/json' });
                         res.end(JSON.stringify(err.payload));
@@ -3686,7 +4025,7 @@ async function startProxy(config = {}) {
                 }
             }
             else {
-                await handleNonStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled, complexity);
+                await handleNonStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled, complexity, chatAgentFingerprint, chatExplicitAgentId);
             }
         }
     });
@@ -3829,7 +4168,7 @@ async function executeNonStreamingProviderRequest(request, targetProvider, targe
     }
     return { responseData, ok: true, status: 200 };
 }
-async function handleStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled, complexity = 'simple', cacheHash, cacheBypass) {
+async function handleStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled, complexity = 'simple', cacheHash, cacheBypass, agentFingerprint, agentId) {
     let providerResponse;
     try {
         switch (targetProvider) {
@@ -3857,7 +4196,8 @@ async function handleStreamingRequest(res, request, targetProvider, targetModel,
                 cooldownManager.recordFailure(targetProvider, JSON.stringify(errorData));
             }
             const durationMs = Date.now() - startTime;
-            logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, false, routingMode, undefined, taskType, complexity);
+            const streamErrMsg = extractProviderErrorMessage(errorData, providerResponse.status);
+            logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, false, routingMode, undefined, taskType, complexity, undefined, undefined, streamErrMsg, providerResponse.status);
             res.writeHead(providerResponse.status, { 'Content-Type': 'application/json' });
             res.end(JSON.stringify(errorData));
             return;
@@ -3869,7 +4209,7 @@ async function handleStreamingRequest(res, request, targetProvider, targetModel,
             cooldownManager.recordFailure(targetProvider, errorMsg);
         }
         const durationMs = Date.now() - startTime;
-        logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, false, routingMode, undefined, taskType, complexity);
+        logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, false, routingMode, undefined, taskType, complexity, undefined, undefined, errorMsg, 500);
         res.writeHead(500, { 'Content-Type': 'application/json' });
         res.end(JSON.stringify({ error: `Provider error: ${errorMsg}` }));
         return;
@@ -3988,7 +4328,9 @@ async function handleStreamingRequest(res, request, targetProvider, targetModel,
     logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, true, routingMode, undefined, taskType, complexity);
     // Update token/cost info on the history entry (with cache token discount)
     const streamCost = (0, telemetry_js_1.estimateCost)(targetModel, streamTokensIn, streamTokensOut, streamCacheCreation || undefined, streamCacheRead || undefined);
-    updateLastHistoryEntry(streamTokensIn, streamTokensOut, streamCost, undefined, streamCacheCreation || undefined, streamCacheRead || undefined);
+    updateLastHistoryEntry(streamTokensIn, streamTokensOut, streamCost, undefined, streamCacheCreation || undefined, streamCacheRead || undefined, agentFingerprint, agentId);
+    if (agentFingerprint && agentFingerprint !== 'unknown')
+        (0, agent_tracker_js_1.updateAgentCost)(agentFingerprint, streamCost);
     // ── Post-request: budget spend + anomaly detection ──
     try {
         (0, budget_js_1.getBudgetManager)().recordSpend(streamCost, targetModel);
@@ -4024,7 +4366,7 @@ async function handleStreamingRequest(res, request, targetProvider, targetModel,
 /**
  * Handle non-streaming request
  */
-async function handleNonStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled, complexity = 'simple') {
+async function handleNonStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled, complexity = 'simple', agentFingerprint, agentId) {
     let responseData;
     try {
         const result = await executeNonStreamingProviderRequest(request, targetProvider, targetModel, apiKey, ctx);
@@ -4034,7 +4376,8 @@ async function handleNonStreamingRequest(res, request, targetProvider, targetMod
                 cooldownManager.recordFailure(targetProvider, JSON.stringify(responseData));
             }
             const durationMs = Date.now() - startTime;
-            logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, false, routingMode, undefined, taskType, complexity);
+            const nsErrMsg = extractProviderErrorMessage(responseData, result.status);
+            logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, false, routingMode, undefined, taskType, complexity, undefined, undefined, nsErrMsg, result.status);
             res.writeHead(result.status, { 'Content-Type': 'application/json' });
             res.end(JSON.stringify(responseData));
             return;
@@ -4046,7 +4389,7 @@ async function handleNonStreamingRequest(res, request, targetProvider, targetMod
             cooldownManager.recordFailure(targetProvider, errorMsg);
         }
         const durationMs = Date.now() - startTime;
-        logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, false, routingMode, undefined, taskType, complexity);
+        logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, false, routingMode, undefined, taskType, complexity, undefined, undefined, errorMsg, 500);
         res.writeHead(500, { 'Content-Type': 'application/json' });
         res.end(JSON.stringify({ error: `Provider error: ${errorMsg}` }));
         return;
@@ -4066,7 +4409,9 @@ async function handleNonStreamingRequest(res, request, targetProvider, targetMod
     const cacheCreationTokens = usage?.cache_creation_input_tokens ?? 0;
     const cacheReadTokens = usage?.cache_read_input_tokens ?? 0;
     const cost = (0, telemetry_js_1.estimateCost)(targetModel, tokensIn, tokensOut, cacheCreationTokens || undefined, cacheReadTokens || undefined);
-    updateLastHistoryEntry(tokensIn, tokensOut, cost, nonStreamRespModel, cacheCreationTokens || undefined, cacheReadTokens || undefined);
+    updateLastHistoryEntry(tokensIn, tokensOut, cost, nonStreamRespModel, cacheCreationTokens || undefined, cacheReadTokens || undefined, agentFingerprint, agentId);
+    if (agentFingerprint && agentFingerprint !== 'unknown')
+        (0, agent_tracker_js_1.updateAgentCost)(agentFingerprint, cost);
     // ── Post-request: budget spend + anomaly detection ──
     try {
         (0, budget_js_1.getBudgetManager)().recordSpend(cost, targetModel);