npm - @relayplane/proxy - Versions diffs - 1.7.1 → 1.7.3 - Mend

@relayplane/proxy 1.7.1 → 1.7.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (13) hide show

package/README.md +48 -7
package/dist/agent-tracker.d.ts +82 -0
package/dist/agent-tracker.d.ts.map +1 -0
package/dist/agent-tracker.js +281 -0
package/dist/agent-tracker.js.map +1 -0
package/dist/standalone-proxy.d.ts +18 -0
package/dist/standalone-proxy.d.ts.map +1 -1
package/dist/standalone-proxy.js +317 -40
package/dist/standalone-proxy.js.map +1 -1
package/dist/telemetry.d.ts.map +1 -1
package/dist/telemetry.js +13 -0
package/dist/telemetry.js.map +1 -1
package/package.json +1 -1

package/dist/standalone-proxy.js CHANGED Viewed

@@ -56,6 +56,8 @@ Object.defineProperty(exports, "__esModule", { value: true });
 exports.SMART_ALIASES = exports.RELAYPLANE_ALIASES = exports.MODEL_MAPPING = exports.DEFAULT_ENDPOINTS = exports.proxyStatsCollector = void 0;
 exports.getAvailableModelNames = getAvailableModelNames;
 exports.resolveModelAlias = resolveModelAlias;
+exports.extractRequestContent = extractRequestContent;
+exports.extractResponseText = extractResponseText;
 exports.parseModelSuffix = parseModelSuffix;
 exports.classifyComplexity = classifyComplexity;
 exports.shouldEscalate = shouldEscalate;
@@ -76,6 +78,7 @@ const budget_js_1 = require("./budget.js");
 const anomaly_js_1 = require("./anomaly.js");
 const alerts_js_1 = require("./alerts.js");
 const downgrade_js_1 = require("./downgrade.js");
+const agent_tracker_js_1 = require("./agent-tracker.js");
 const version_status_js_1 = require("./utils/version-status.js");
 const PROXY_VERSION = (() => {
     try {
@@ -488,7 +491,7 @@ function shutdownHistory() {
     }
     flushHistoryBuffer();
 }
-function logRequest(originalModel, targetModel, provider, latencyMs, success, mode, escalated, taskType, complexity) {
+function logRequest(originalModel, targetModel, provider, latencyMs, success, mode, escalated, taskType, complexity, agentFingerprint, agentId) {
     const timestamp = new Date().toISOString();
     const status = success ? '✓' : '✗';
     const escalateTag = escalated ? ' [ESCALATED]' : '';
@@ -531,6 +534,8 @@ function logRequest(originalModel, targetModel, provider, latencyMs, success, mo
         costUsd: 0,
         taskType: taskType || 'general',
         complexity: complexity || 'simple',
+        agentFingerprint,
+        agentId,
     };
     requestHistory.push(entry);
     if (requestHistory.length > MAX_HISTORY) {
@@ -539,7 +544,7 @@ function logRequest(originalModel, targetModel, provider, latencyMs, success, mo
     bufferHistoryEntry(entry);
 }
 /** Update the most recent history entry with token/cost info */
-function updateLastHistoryEntry(tokensIn, tokensOut, costUsd, responseModel) {
+function updateLastHistoryEntry(tokensIn, tokensOut, costUsd, responseModel, cacheCreationTokens, cacheReadTokens, agentFingerprint, agentId, requestContent) {
     if (requestHistory.length > 0) {
         const last = requestHistory[requestHistory.length - 1];
         last.tokensIn = tokensIn;
@@ -548,8 +553,86 @@ function updateLastHistoryEntry(tokensIn, tokensOut, costUsd, responseModel) {
         if (responseModel) {
             last.responseModel = responseModel;
         }
+        if (cacheCreationTokens !== undefined)
+            last.cacheCreationTokens = cacheCreationTokens;
+        if (cacheReadTokens !== undefined)
+            last.cacheReadTokens = cacheReadTokens;
+        if (agentFingerprint !== undefined)
+            last.agentFingerprint = agentFingerprint;
+        if (agentId !== undefined)
+            last.agentId = agentId;
+        if (requestContent)
+            last.requestContent = requestContent;
     }
 }
+/**
+ * Extract request content for logging. Handles Anthropic and OpenAI formats.
+ */
+function extractRequestContent(body, isAnthropic) {
+    let systemPrompt = '';
+    let userMessage = '';
+    if (isAnthropic) {
+        if (typeof body.system === 'string') {
+            systemPrompt = body.system;
+        }
+        else if (Array.isArray(body.system)) {
+            systemPrompt = body.system
+                .map(p => p.type === 'text' ? (p.text ?? '') : (typeof p === 'string' ? String(p) : ''))
+                .join('');
+        }
+    }
+    else {
+        const sysmsgs = body.messages;
+        if (Array.isArray(sysmsgs)) {
+            for (const msg of sysmsgs) {
+                if (msg.role === 'system') {
+                    systemPrompt = typeof msg.content === 'string' ? msg.content : '';
+                    break;
+                }
+            }
+        }
+    }
+    const msgs = body.messages;
+    if (Array.isArray(msgs)) {
+        for (let i = msgs.length - 1; i >= 0; i--) {
+            if (msgs[i].role === 'user') {
+                const content = msgs[i].content;
+                if (typeof content === 'string') {
+                    userMessage = content;
+                }
+                else if (Array.isArray(content)) {
+                    userMessage = content
+                        .filter(p => p.type === 'text')
+                        .map(p => p.text ?? '')
+                        .join('');
+                }
+                break;
+            }
+        }
+    }
+    return {
+        systemPrompt: systemPrompt ? systemPrompt.slice(0, 200) : undefined,
+        userMessage: userMessage || undefined,
+    };
+}
+/**
+ * Extract assistant response text from response payload.
+ */
+function extractResponseText(responseData, isAnthropic) {
+    if (isAnthropic) {
+        const content = responseData.content;
+        if (Array.isArray(content)) {
+            return content.filter(p => p.type === 'text').map(p => p.text ?? '').join('');
+        }
+    }
+    else {
+        const choices = responseData.choices;
+        if (Array.isArray(choices) && choices[0]?.message?.content) {
+            return choices[0].message.content;
+        }
+    }
+    return '';
+}
 const DEFAULT_PROXY_CONFIG = {
     enabled: true,
     modelOverrides: {},
@@ -580,6 +663,11 @@ const DEFAULT_PROXY_CONFIG = {
         },
     },
 };
+/** Module-level ref to active proxy config (set during startProxy) */
+let _activeProxyConfig = {};
+function isContentLoggingEnabled() {
+    return _activeProxyConfig.dashboard?.showRequestContent !== false;
+}
 function getProxyConfigPath() {
     const customPath = process.env['RELAYPLANE_CONFIG_PATH'];
     if (customPath && customPath.trim())
@@ -773,6 +861,23 @@ function classifyComplexity(messages) {
         score += 1;
     if (andCount >= 5)
         score += 1;
+    // Calculate total tokens across ALL messages, not just last user message.
+    // For agent workloads (OpenClaw, aider, Claude Code) the last user message is
+    // often tiny while the real complexity lives in the 100K+ token context.
+    const allText = extractMessageText(messages);
+    const totalTokens = Math.ceil(allText.length / 4);
+    // Context size floor — use as a hard signal regardless of last-message score
+    if (totalTokens > 100000)
+        score += 5; // definitely complex
+    else if (totalTokens > 50000)
+        score += 3; // likely moderate+
+    else if (totalTokens > 20000)
+        score += 2;
+    // Message count signal — long conversations imply multi-step reasoning
+    if (messages.length > 50)
+        score += 2;
+    else if (messages.length > 20)
+        score += 1;
     if (score >= 4)
         return 'complex';
     if (score >= 2)
@@ -1505,11 +1610,13 @@ function convertAnthropicStreamEvent(eventType, eventData, messageId, model, too
             const msg = eventData['message'];
             baseChunk.id = msg?.['id'] || messageId;
             choice.delta = { role: 'assistant', content: '' };
-            // Pass through input token count from message_start
+            // Pass through input token count from message_start (including cache tokens)
             const msgUsage = msg?.['usage'];
             if (msgUsage) {
                 baseChunk['usage'] = {
                     prompt_tokens: msgUsage['input_tokens'] ?? 0,
+                    cache_creation_tokens: msgUsage['cache_creation_input_tokens'] ?? 0,
+                    cache_read_tokens: msgUsage['cache_read_input_tokens'] ?? 0,
                 };
             }
             return `data: ${JSON.stringify(baseChunk)}\n\n`;
@@ -1749,7 +1856,7 @@ function resolveExplicitModel(modelName) {
 function resolveConfigModel(modelName) {
     return resolveExplicitModel(modelName) ?? parsePreferredModel(modelName);
 }
-function extractResponseText(responseData) {
+function extractResponseTextAuto(responseData) {
     const openAiChoices = responseData['choices'];
     if (openAiChoices && openAiChoices.length > 0) {
         const first = openAiChoices[0];
@@ -1917,7 +2024,7 @@ async function cascadeRequest(config, makeRequest, log) {
         const isLastModel = i === config.models.length - 1;
         try {
             const { responseData, provider, model: resolvedModel } = await makeRequest(model);
-            const text = extractResponseText(responseData);
+            const text = extractResponseTextAuto(responseData);
             if (isLastModel || escalations >= config.maxEscalations) {
                 return { responseData, provider, model: resolvedModel, escalations };
             }
@@ -1969,6 +2076,7 @@ td{padding:8px 12px;border-bottom:1px solid #111318}
 .vstat.unavailable{color:#a3a3a3;border-color:#52525b66;background:#18181b66}
 @media(max-width:768px){.col-tt,.col-cx{display:none}}
 .prov{display:flex;gap:16px;flex-wrap:wrap}.prov-item{display:flex;align-items:center;font-size:.85rem;background:#111318;padding:8px 14px;border-radius:8px;border:1px solid #1e293b}
+.rename-btn{background:none;border:none;cursor:pointer;font-size:.75rem;opacity:.5;padding:2px}.rename-btn:hover{opacity:1}
 </style></head><body>
 <div class="header"><div><h1>⚡ RelayPlane Dashboard</h1></div><div class="meta"><a href="/dashboard/config">Config</a> · <span id="ver"></span><span id="vstat" class="vstat unavailable">Unable to check</span> · up <span id="uptime"></span> · refreshes every 5s</div></div>
 <div class="cards">
@@ -1979,9 +2087,11 @@ td{padding:8px 12px;border-bottom:1px solid #111318}
 </div>
 <div class="section"><h2>Model Breakdown</h2>
 <table><thead><tr><th>Model</th><th>Requests</th><th>Cost</th><th>% of Total</th></tr></thead><tbody id="models"></tbody></table></div>
+<div class="section"><h2>Agent Cost Breakdown</h2>
+<table><thead><tr><th>Agent</th><th>Requests</th><th>Total Cost</th><th>Last Active</th><th></th></tr></thead><tbody id="agents"></tbody></table></div>
 <div class="section"><h2>Provider Status</h2><div class="prov" id="providers"></div></div>
 <div class="section"><h2>Recent Runs</h2>
-<table><thead><tr><th>Time</th><th>Model</th><th class="col-tt">Task Type</th><th class="col-cx">Complexity</th><th>Tokens In</th><th>Tokens Out</th><th>Cost</th><th>Latency</th><th>Status</th></tr></thead><tbody id="runs"></tbody></table></div>
+<table><thead><tr><th>Time</th><th>Model</th><th class="col-tt">Task Type</th><th class="col-cx">Complexity</th><th>Tokens In</th><th>Tokens Out</th><th class="col-cache">Cache Create</th><th class="col-cache">Cache Read</th><th>Cost</th><th>Latency</th><th>Status</th></tr></thead><tbody id="runs"></tbody></table></div>
 <script>
 const $ = id => document.getElementById(id);
 function fmt(n,d=2){return typeof n==='number'?n.toFixed(d):'-'}
@@ -1989,12 +2099,13 @@ function fmtTime(s){const d=new Date(s);return d.toLocaleTimeString()}
 function dur(s){const h=Math.floor(s/3600),m=Math.floor(s%3600/60);return h?h+'h '+m+'m':m+'m'}
 async function load(){
   try{
-    const [health,stats,runsR,sav,provH]=await Promise.all([
+    const [health,stats,runsR,sav,provH,agentsR]=await Promise.all([
       fetch('/health').then(r=>r.json()),
       fetch('/v1/telemetry/stats').then(r=>r.json()),
       fetch('/v1/telemetry/runs?limit=20').then(r=>r.json()),
       fetch('/v1/telemetry/savings').then(r=>r.json()),
-      fetch('/v1/telemetry/health').then(r=>r.json())
+      fetch('/v1/telemetry/health').then(r=>r.json()),
+      fetch('/api/agents').then(r=>r.json()).catch(()=>({agents:[]}))
     ]);
     $('ver').textContent='v'+health.version;
     $('uptime').textContent=dur(health.uptime);
@@ -2021,9 +2132,26 @@ async function load(){
     ).join('')||'<tr><td colspan=4 style="color:#64748b">No data yet</td></tr>';
     function ttCls(t){const m={code_generation:'tt-code',analysis:'tt-analysis',summarization:'tt-summarization',question_answering:'tt-qa'};return m[t]||'tt-general'}
     function cxCls(c){const m={simple:'cx-simple',moderate:'cx-moderate',complex:'cx-complex'};return m[c]||'cx-simple'}
-    $('runs').innerHTML=(runsR.runs||[]).map(r=>
-      '<tr><td>'+fmtTime(r.started_at)+'</td><td>'+r.model+'</td><td class="col-tt"><span class="badge '+ttCls(r.taskType)+'">'+(r.taskType||'general').replace(/_/g,' ')+'</span></td><td class="col-cx"><span class="badge '+cxCls(r.complexity)+'">'+(r.complexity||'simple')+'</span></td><td>'+(r.tokensIn||0)+'</td><td>'+(r.tokensOut||0)+'</td><td>$'+fmt(r.costUsd,4)+'</td><td>'+r.latencyMs+'ms</td><td><span class="badge '+(r.status==='success'?'ok':'err')+'">'+r.status+'</span></td></tr>'
-    ).join('')||'<tr><td colspan=9 style="color:#64748b">No runs yet</td></tr>';
+    function esc(s){if(!s)return'';return s.replace(/&/g,'&amp;').replace(/</g,'&lt;').replace(/>/g,'&gt;')}
+    $('runs').innerHTML=(runsR.runs||[]).map((r,i)=>{
+      const row='<tr style="cursor:pointer" onclick="toggleDetail('+i+')" title="Click to expand"><td>'+fmtTime(r.started_at)+'</td><td>'+r.model+'</td><td class="col-tt"><span class="badge '+ttCls(r.taskType)+'">'+(r.taskType||'general').replace(/_/g,' ')+'</span></td><td class="col-cx"><span class="badge '+cxCls(r.complexity)+'">'+(r.complexity||'simple')+'</span></td><td>'+(r.tokensIn||0)+'</td><td>'+(r.tokensOut||0)+'</td><td class="col-cache" style="color:#60a5fa">'+(r.cacheCreationTokens||0)+'</td><td class="col-cache" style="color:#34d399">'+(r.cacheReadTokens||0)+'</td><td>$'+fmt(r.costUsd,4)+'</td><td>'+r.latencyMs+'ms</td><td><span class="badge '+(r.status==='success'?'ok':'err')+'">'+r.status+'</span></td></tr>';
+      const c=r.requestContent||{};
+      let detail='<tr id="run-detail-'+i+'" style="display:none"><td colspan="11" style="padding:16px;background:#111217;border-bottom:1px solid #1e293b">';
+      if(c.systemPrompt||c.userMessage||c.responsePreview){
+        if(c.systemPrompt) detail+='<div style="color:#64748b;font-size:.85rem;margin-bottom:10px;font-style:italic"><strong style="color:#94a3b8">System:</strong> '+esc(c.systemPrompt)+'</div>';
+        if(c.userMessage) detail+='<div style="background:#1a1c23;border:1px solid #1e293b;border-radius:8px;padding:12px;margin-bottom:10px"><strong style="color:#94a3b8;font-size:.8rem">User Message</strong><div style="margin-top:6px;white-space:pre-wrap">'+esc(c.userMessage)+'</div></div>';
+        if(c.responsePreview) detail+='<div style="background:#1a1c23;border:1px solid #1e293b;border-radius:8px;padding:12px;margin-bottom:10px"><strong style="color:#94a3b8;font-size:.8rem">Response Preview</strong><div style="margin-top:6px;white-space:pre-wrap">'+esc(c.responsePreview)+'</div></div>';
+        detail+='<button onclick="event.stopPropagation();loadFullResponse(\''+r.id+'\','+i+')" id="full-btn-'+i+'" style="background:#1e293b;color:#e2e8f0;border:1px solid #334155;padding:6px 12px;border-radius:6px;cursor:pointer;font-size:.8rem">Show full response</button><pre id="full-resp-'+i+'" style="display:none;white-space:pre-wrap;margin-top:10px;background:#0d0e11;border:1px solid #1e293b;border-radius:8px;padding:12px;max-height:400px;overflow:auto;font-size:.8rem"></pre>';
+      } else {
+        detail+='<span style="color:#64748b">No content captured for this request</span>';
+      }
+      detail+='</td></tr>';
+      return row+detail;
+    }).join('')||'<tr><td colspan=11 style="color:#64748b">No runs yet</td></tr>';
+    const agents=(agentsR.agents||[]).sort((a,b)=>(b.totalCost||0)-(a.totalCost||0));
+    $('agents').innerHTML=agents.length?agents.map(a=>
+      '<tr><td><span class="agent-name" data-fp="'+a.fingerprint+'">'+a.name+'</span> <button class="rename-btn" onclick="renameAgent(\''+a.fingerprint+'\',\''+a.name.replace(/'/g,"\\'")+'\')">✏️</button></td><td>'+a.totalRequests+'</td><td>$'+fmt(a.totalCost,4)+'</td><td>'+fmtTime(a.lastSeen)+'</td><td style="font-size:.7rem;color:#64748b" title="'+a.systemPromptPreview+'">'+a.fingerprint+'</td></tr>'
+    ).join(''):'<tr><td colspan=5 style="color:#64748b">No agents detected yet</td></tr>';
     $('providers').innerHTML=(provH.providers||[]).map(p=>{
       const dotClass = p.status==='healthy'?'up':(p.status==='degraded'?'warn':'down');
       const rate = p.successRate!==undefined?(' '+Math.round(p.successRate*100)+'%'):'';
@@ -2031,8 +2159,27 @@ async function load(){
     }).join('');
   }catch(e){console.error(e)}
 }
+async function renameAgent(fp,currentName){
+  const name=prompt('Rename agent:',currentName);
+  if(!name||name===currentName)return;
+  await fetch('/api/agents/rename',{method:'POST',headers:{'Content-Type':'application/json'},body:JSON.stringify({fingerprint:fp,name:name})});
+  load();
+}
+function toggleDetail(i){var d=document.getElementById('run-detail-'+i);d.style.display=d.style.display==='none'?'table-row':'none'}
+async function loadFullResponse(runId,i){
+  const btn=document.getElementById('full-btn-'+i);
+  const pre=document.getElementById('full-resp-'+i);
+  if(pre.style.display!=='none'){pre.style.display='none';btn.textContent='Show full response';return}
+  btn.textContent='Loading...';
+  try{
+    const data=await fetch('/api/runs/'+runId).then(r=>r.json());
+    const full=data.requestContent&&data.requestContent.fullResponse;
+    if(full){pre.textContent=full;pre.style.display='block';btn.textContent='Hide full response'}
+    else{btn.textContent='No full response available'}
+  }catch{btn.textContent='Error loading response'}
+}
 load();setInterval(load,5000);
-</script></body></html>`;
+</script><footer style="text-align:center;padding:20px 0;color:#475569;font-size:.75rem;border-top:1px solid #1e293b;margin-top:20px">🔒 Request content stays on your machine. Never sent to cloud.</footer></body></html>`;
 }
 function getConfigDashboardHTML() {
     return `<!DOCTYPE html><html lang="en"><head><meta charset="utf-8"><meta name="viewport" content="width=device-width,initial-scale=1"><title>RelayPlane Config</title>
@@ -2129,8 +2276,10 @@ async function startProxy(config = {}) {
     };
     // Load persistent history from disk
     loadHistoryFromDisk();
+    (0, agent_tracker_js_1.loadAgentRegistry)();
     // Flush history on shutdown
     const handleShutdown = () => {
+        (0, agent_tracker_js_1.flushAgentRegistry)();
         meshHandle.stop();
         shutdownHistory();
         process.exit(0);
@@ -2139,6 +2288,7 @@ async function startProxy(config = {}) {
     process.on('SIGTERM', handleShutdown);
     const configPath = getProxyConfigPath();
     let proxyConfig = await loadProxyConfig(configPath, log);
+    _activeProxyConfig = proxyConfig;
     const cooldownManager = new CooldownManager(getCooldownConfig(proxyConfig));
     // === Startup config validation (Task 4) ===
     try {
@@ -2516,7 +2666,9 @@ async function startProxy(config = {}) {
                 const offset = parseInt(params.get('offset') || '0', 10);
                 const sorted = [...requestHistory].reverse();
                 const runs = sorted.slice(offset, offset + limit).map(r => {
-                    const origCost = (0, telemetry_js_1.estimateCost)('claude-opus-4-6', r.tokensIn, r.tokensOut);
+                    // Savings should reflect routing decisions only — pass same cache tokens to baseline
+                    // so the cache discount doesn't get counted as "savings from routing"
+                    const origCost = (0, telemetry_js_1.estimateCost)('claude-opus-4-6', r.tokensIn, r.tokensOut, r.cacheCreationTokens || undefined, r.cacheReadTokens || undefined);
                     const perRunSavings = Math.max(0, origCost - r.costUsd);
                     return {
                         id: r.id,
@@ -2536,8 +2688,16 @@ async function startProxy(config = {}) {
                         latencyMs: r.latencyMs,
                         tokensIn: r.tokensIn,
                         tokensOut: r.tokensOut,
+                        cacheCreationTokens: r.cacheCreationTokens ?? 0,
+                        cacheReadTokens: r.cacheReadTokens ?? 0,
                         savings: Math.round(perRunSavings * 10000) / 10000,
                         escalated: r.escalated,
+                        requestContent: r.requestContent ? {
+                            systemPrompt: r.requestContent.systemPrompt,
+                            userMessage: r.requestContent.userMessage,
+                            responsePreview: r.requestContent.responsePreview,
+                            // fullResponse excluded from list endpoint to keep payloads small
+                        } : undefined,
                     };
                 });
                 res.writeHead(200, { 'Content-Type': 'application/json' });
@@ -2553,7 +2713,9 @@ async function startProxy(config = {}) {
                 let totalSavedAmount = 0;
                 const byDayMap = new Map();
                 for (const r of requestHistory) {
-                    const origCost = (0, telemetry_js_1.estimateCost)(OPUS_BASELINE, r.tokensIn, r.tokensOut);
+                    // Pass same cache tokens to baseline so savings only reflect routing decisions,
+                    // not prompt-cache discounts (those happen regardless of which model is chosen).
+                    const origCost = (0, telemetry_js_1.estimateCost)(OPUS_BASELINE, r.tokensIn, r.tokensOut, r.cacheCreationTokens || undefined, r.cacheReadTokens || undefined);
                     const actualCost = r.costUsd;
                     const saved = Math.max(0, origCost - actualCost);
                     totalOriginalCost += origCost;
@@ -2633,6 +2795,63 @@ async function startProxy(config = {}) {
             res.end(JSON.stringify({ error: 'Not found' }));
             return;
         }
+        // === Agent tracking API ===
+        // === /api/runs/:id — full request/response content for a single run ===
+        const runsIdMatch = pathname.match(/^\/api\/runs\/(.+)$/);
+        if (req.method === 'GET' && runsIdMatch) {
+            const runId = runsIdMatch[1];
+            const run = requestHistory.find(r => r.id === runId);
+            if (!run) {
+                res.writeHead(404, { 'Content-Type': 'application/json' });
+                res.end(JSON.stringify({ error: 'Run not found' }));
+                return;
+            }
+            res.writeHead(200, { 'Content-Type': 'application/json' });
+            res.end(JSON.stringify({
+                id: run.id,
+                model: run.targetModel,
+                provider: run.provider,
+                timestamp: run.timestamp,
+                tokensIn: run.tokensIn,
+                tokensOut: run.tokensOut,
+                costUsd: run.costUsd,
+                latencyMs: run.latencyMs,
+                success: run.success,
+                requestContent: run.requestContent,
+            }));
+            return;
+        }
+        if (req.method === 'GET' && pathname === '/api/agents') {
+            const summaries = (0, agent_tracker_js_1.getAgentSummaries)(requestHistory);
+            res.writeHead(200, { 'Content-Type': 'application/json' });
+            res.end(JSON.stringify({ agents: summaries }));
+            return;
+        }
+        if (req.method === 'POST' && pathname === '/api/agents/rename') {
+            try {
+                const body = await readJsonBody(req);
+                const fingerprint = body['fingerprint'];
+                const name = body['name'];
+                if (!fingerprint || !name) {
+                    res.writeHead(400, { 'Content-Type': 'application/json' });
+                    res.end(JSON.stringify({ error: 'Missing fingerprint or name' }));
+                    return;
+                }
+                const ok = (0, agent_tracker_js_1.renameAgent)(fingerprint, name);
+                if (!ok) {
+                    res.writeHead(404, { 'Content-Type': 'application/json' });
+                    res.end(JSON.stringify({ error: 'Agent not found' }));
+                    return;
+                }
+                res.writeHead(200, { 'Content-Type': 'application/json' });
+                res.end(JSON.stringify({ ok: true }));
+            }
+            catch {
+                res.writeHead(400, { 'Content-Type': 'application/json' });
+                res.end(JSON.stringify({ error: 'Invalid JSON' }));
+            }
+            return;
+        }
         // === Dashboard ===
         if (req.method === 'GET' && (pathname === '/' || pathname === '/dashboard')) {
             res.writeHead(200, { 'Content-Type': 'text/html' });
@@ -2713,6 +2932,14 @@ async function startProxy(config = {}) {
                 res.end(JSON.stringify({ error: 'Invalid JSON' }));
                 return;
             }
+            // Extract agent fingerprint and explicit agent ID
+            const nativeSystemPrompt = (0, agent_tracker_js_1.extractSystemPromptFromBody)(requestBody);
+            const nativeExplicitAgentId = getHeaderValue(req, 'x-relayplane-agent') || undefined;
+            let nativeAgentFingerprint;
+            if (nativeSystemPrompt) {
+                const agentResult = (0, agent_tracker_js_1.trackAgent)(nativeSystemPrompt, 0, nativeExplicitAgentId);
+                nativeAgentFingerprint = agentResult.fingerprint;
+            }
             const originalModel = requestBody['model'];
             let requestedModel = headerModelOverride ?? originalModel ?? '';
             if (headerModelOverride) {
@@ -3151,7 +3378,7 @@ async function startProxy(config = {}) {
                                 model: targetModel || requestedModel,
                                 tokensIn: nativeUsage?.input_tokens ?? 0,
                                 tokensOut: nativeUsage?.output_tokens ?? 0,
-                                costUsd: (0, telemetry_js_1.estimateCost)(targetModel || requestedModel, nativeUsage?.input_tokens ?? 0, nativeUsage?.output_tokens ?? 0),
+                                costUsd: (0, telemetry_js_1.estimateCost)(targetModel || requestedModel, nativeUsage?.input_tokens ?? 0, nativeUsage?.output_tokens ?? 0, nativeUsage?.cache_creation_input_tokens || undefined, nativeUsage?.cache_read_input_tokens || undefined),
                                 taskType,
                             });
                             log(`Cache STORE for ${targetModel || requestedModel} (hash: ${cacheHash.slice(0, 8)})`);
@@ -3174,7 +3401,22 @@ async function startProxy(config = {}) {
                 const nativeTokIn = nativeBaseTokIn + nativeCacheCreation + nativeCacheRead;
                 // Cost calculation expects inputTokens to include cache tokens when cache params are provided
                 const nativeCostUsd = (0, telemetry_js_1.estimateCost)(targetModel || requestedModel, nativeTokIn, nativeTokOut, nativeCacheCreation || undefined, nativeCacheRead || undefined);
-                updateLastHistoryEntry(nativeTokIn, nativeTokOut, nativeCostUsd);
+                // Build request content if logging enabled
+                let nativeContentData;
+                if (isContentLoggingEnabled()) {
+                    const extracted = extractRequestContent(requestBody, true);
+                    const responseText = nativeResponseData ? extractResponseText(nativeResponseData, true) : '';
+                    nativeContentData = {
+                        ...extracted,
+                        responsePreview: responseText ? responseText.slice(0, 500) : undefined,
+                        fullResponse: responseText || undefined,
+                    };
+                }
+                updateLastHistoryEntry(nativeTokIn, nativeTokOut, nativeCostUsd, undefined, nativeCacheCreation || undefined, nativeCacheRead || undefined, nativeAgentFingerprint, nativeExplicitAgentId, nativeContentData);
+                // Update agent cost now that we know the actual cost
+                if (nativeAgentFingerprint && nativeAgentFingerprint !== 'unknown') {
+                    (0, agent_tracker_js_1.updateAgentCost)(nativeAgentFingerprint, nativeCostUsd);
+                }
                 // ── Post-request: budget spend + anomaly detection ──
                 postRequestRecord(targetModel || requestedModel, nativeTokIn, nativeTokOut, nativeCostUsd);
                 if (recordTelemetry) {
@@ -3183,6 +3425,10 @@ async function startProxy(config = {}) {
                         prompt: promptText.slice(0, 500),
                         taskType,
                         model: `${targetProvider}:${targetModel || requestedModel}`,
+                    })
+                        .then((runResult) => {
+                        // Backfill token/cost data — relay.run() has no adapters so records NULLs
+                        relay.patchRunTokens(runResult.runId, nativeTokIn, nativeTokOut, nativeCostUsd);
                     })
                         .catch(() => { });
                     sendCloudTelemetry(taskType, targetModel || requestedModel, nativeTokIn, nativeTokOut, durationMs, true, undefined, originalModel ?? undefined, nativeCacheCreation || undefined, nativeCacheRead || undefined);
@@ -3268,6 +3514,14 @@ async function startProxy(config = {}) {
             return;
         }
         const isStreaming = request.stream === true;
+        // Extract agent fingerprint for chat/completions
+        const chatSystemPrompt = (0, agent_tracker_js_1.extractSystemPromptFromBody)(request);
+        const chatExplicitAgentId = getHeaderValue(req, 'x-relayplane-agent') || undefined;
+        let chatAgentFingerprint;
+        if (chatSystemPrompt) {
+            const agentResult = (0, agent_tracker_js_1.trackAgent)(chatSystemPrompt, 0, chatExplicitAgentId);
+            chatAgentFingerprint = agentResult.fingerprint;
+        }
         // ── Response Cache: check for cached response (chat/completions) ──
         const chatCacheBypass = responseCache.shouldBypass(request);
         let chatCacheHash;
@@ -3568,7 +3822,7 @@ async function startProxy(config = {}) {
         const startTime = Date.now();
         // Handle streaming vs non-streaming
         if (isStreaming) {
-            await handleStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, useCascade ? 'cascade' : routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled, complexity, chatCacheHash, chatCacheBypass);
+            await handleStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, useCascade ? 'cascade' : routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled, complexity, chatCacheHash, chatCacheBypass, chatAgentFingerprint, chatExplicitAgentId);
         }
         else {
             if (useCascade && cascadeConfig) {
@@ -3605,8 +3859,12 @@ async function startProxy(config = {}) {
                     const cascadeUsage = responseData?.usage;
                     const cascadeTokensIn = cascadeUsage?.input_tokens ?? cascadeUsage?.prompt_tokens ?? 0;
                     const cascadeTokensOut = cascadeUsage?.output_tokens ?? cascadeUsage?.completion_tokens ?? 0;
-                    const cascadeCost = (0, telemetry_js_1.estimateCost)(cascadeResult.model, cascadeTokensIn, cascadeTokensOut);
-                    updateLastHistoryEntry(cascadeTokensIn, cascadeTokensOut, cascadeCost, chatCascadeRespModel);
+                    const cascadeCacheCreation = cascadeUsage?.cache_creation_input_tokens || undefined;
+                    const cascadeCacheRead = cascadeUsage?.cache_read_input_tokens || undefined;
+                    const cascadeCost = (0, telemetry_js_1.estimateCost)(cascadeResult.model, cascadeTokensIn, cascadeTokensOut, cascadeCacheCreation, cascadeCacheRead);
+                    updateLastHistoryEntry(cascadeTokensIn, cascadeTokensOut, cascadeCost, chatCascadeRespModel, cascadeCacheCreation, cascadeCacheRead, chatAgentFingerprint, chatExplicitAgentId);
+                    if (chatAgentFingerprint && chatAgentFingerprint !== 'unknown')
+                        (0, agent_tracker_js_1.updateAgentCost)(chatAgentFingerprint, cascadeCost);
                     if (recordTelemetry) {
                         try {
                             const runResult = await relay.run({
@@ -3614,6 +3872,8 @@ async function startProxy(config = {}) {
                                 taskType,
                                 model: `${cascadeResult.provider}:${cascadeResult.model}`,
                             });
+                            // Backfill token/cost data — relay.run() has no adapters so records NULLs
+                            relay.patchRunTokens(runResult.runId, cascadeTokensIn, cascadeTokensOut, cascadeCost);
                             responseData['_relayplane'] = {
                                 runId: runResult.runId,
                                 routedTo: `${cascadeResult.provider}/${cascadeResult.model}`,
@@ -3628,7 +3888,7 @@ async function startProxy(config = {}) {
                         catch (err) {
                             log(`Failed to record run: ${err}`);
                         }
-                        sendCloudTelemetry(taskType, cascadeResult.model, cascadeTokensIn, cascadeTokensOut, durationMs, true, undefined, originalRequestedModel ?? undefined);
+                        sendCloudTelemetry(taskType, cascadeResult.model, cascadeTokensIn, cascadeTokensOut, durationMs, true, undefined, originalRequestedModel ?? undefined, cascadeCacheCreation, cascadeCacheRead);
                         meshCapture(cascadeResult.model, cascadeResult.provider, taskType, cascadeTokensIn, cascadeTokensOut, cascadeCost, durationMs, true);
                     }
                     const chatCascadeRpHeaders = buildRelayPlaneResponseHeaders(cascadeResult.model, originalRequestedModel ?? 'unknown', complexity, cascadeResult.provider, 'cascade');
@@ -3649,7 +3909,7 @@ async function startProxy(config = {}) {
                 }
             }
             else {
-                await handleNonStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled, complexity);
+                await handleNonStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled, complexity, chatAgentFingerprint, chatExplicitAgentId);
             }
         }
     });
@@ -3792,7 +4052,7 @@ async function executeNonStreamingProviderRequest(request, targetProvider, targe
     }
     return { responseData, ok: true, status: 200 };
 }
-async function handleStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled, complexity = 'simple', cacheHash, cacheBypass) {
+async function handleStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled, complexity = 'simple', cacheHash, cacheBypass, agentFingerprint, agentId) {
     let providerResponse;
     try {
         switch (targetProvider) {
@@ -3845,9 +4105,11 @@ async function handleStreamingRequest(res, request, targetProvider, targetModel,
         'Connection': 'keep-alive',
         ...streamRpHeaders,
     });
-    // Track token usage from streaming events
+    // Track token usage from streaming events (including Anthropic prompt cache tokens)
     let streamTokensIn = 0;
     let streamTokensOut = 0;
+    let streamCacheCreation = 0;
+    let streamCacheRead = 0;
     const shouldCacheStream = !!(cacheHash && !cacheBypass);
     const rawChunks = [];
     try {
@@ -3859,7 +4121,8 @@ async function handleStreamingRequest(res, request, targetProvider, targetModel,
                     res.write(chunk);
                     if (shouldCacheStream)
                         rawChunks.push(chunk);
-                    // Parse OpenAI-format chunks for usage (emitted at end of stream)
+                    // Parse OpenAI-format chunks for usage — the converter embeds
+                    // cache_creation_tokens and cache_read_tokens from message_start.
                     try {
                         const lines = chunk.split('\n');
                         for (const line of lines) {
@@ -3868,6 +4131,8 @@ async function handleStreamingRequest(res, request, targetProvider, targetModel,
                                 if (evt.usage) {
                                     streamTokensIn = evt.usage.prompt_tokens ?? streamTokensIn;
                                     streamTokensOut = evt.usage.completion_tokens ?? streamTokensOut;
+                                    streamCacheCreation = evt.usage.cache_creation_tokens ?? streamCacheCreation;
+                                    streamCacheRead = evt.usage.cache_read_tokens ?? streamCacheRead;
                                 }
                             }
                         }
@@ -3927,13 +4192,13 @@ async function handleStreamingRequest(res, request, targetProvider, targetModel,
         const streamPayload = JSON.stringify({
             _relayplaneStreamCache: true,
             ssePayload: rawChunks.join(''),
-            usage: { input_tokens: streamTokensIn, output_tokens: streamTokensOut, prompt_tokens: streamTokensIn, completion_tokens: streamTokensOut },
+            usage: { input_tokens: streamTokensIn, output_tokens: streamTokensOut, prompt_tokens: streamTokensIn, completion_tokens: streamTokensOut, cache_creation_input_tokens: streamCacheCreation, cache_read_input_tokens: streamCacheRead },
         });
         responseCache.set(cacheHash, streamPayload, {
             model: targetModel,
             tokensIn: streamTokensIn,
             tokensOut: streamTokensOut,
-            costUsd: (0, telemetry_js_1.estimateCost)(targetModel, streamTokensIn, streamTokensOut),
+            costUsd: (0, telemetry_js_1.estimateCost)(targetModel, streamTokensIn, streamTokensOut, streamCacheCreation || undefined, streamCacheRead || undefined),
             taskType,
         });
         log(`Cache STORE (stream) for chat/completions ${targetModel} (hash: ${cacheHash.slice(0, 8)})`);
@@ -3944,9 +4209,11 @@ async function handleStreamingRequest(res, request, targetProvider, targetModel,
     const durationMs = Date.now() - startTime;
     // Always log the request for stats/telemetry tracking
     logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, true, routingMode, undefined, taskType, complexity);
-    // Update token/cost info on the history entry
-    const streamCost = (0, telemetry_js_1.estimateCost)(targetModel, streamTokensIn, streamTokensOut);
-    updateLastHistoryEntry(streamTokensIn, streamTokensOut, streamCost);
+    // Update token/cost info on the history entry (with cache token discount)
+    const streamCost = (0, telemetry_js_1.estimateCost)(targetModel, streamTokensIn, streamTokensOut, streamCacheCreation || undefined, streamCacheRead || undefined);
+    updateLastHistoryEntry(streamTokensIn, streamTokensOut, streamCost, undefined, streamCacheCreation || undefined, streamCacheRead || undefined, agentFingerprint, agentId);
+    if (agentFingerprint && agentFingerprint !== 'unknown')
+        (0, agent_tracker_js_1.updateAgentCost)(agentFingerprint, streamCost);
     // ── Post-request: budget spend + anomaly detection ──
     try {
         (0, budget_js_1.getBudgetManager)().recordSpend(streamCost, targetModel);
@@ -3967,12 +4234,14 @@ async function handleStreamingRequest(res, request, targetProvider, targetModel,
             model: `${targetProvider}:${targetModel}`,
         })
             .then((runResult) => {
+            // Backfill token/cost data — relay.run() has no adapters so records NULLs
+            relay.patchRunTokens(runResult.runId, streamTokensIn, streamTokensOut, streamCost);
             log(`Completed streaming in ${durationMs}ms, runId: ${runResult.runId}`);
         })
             .catch((err) => {
             log(`Failed to record run: ${err}`);
         });
-        sendCloudTelemetry(taskType, targetModel, streamTokensIn, streamTokensOut, durationMs, true, undefined, request.model ?? undefined);
+        sendCloudTelemetry(taskType, targetModel, streamTokensIn, streamTokensOut, durationMs, true, undefined, request.model ?? undefined, streamCacheCreation || undefined, streamCacheRead || undefined);
         meshCapture(targetModel, targetProvider, taskType, streamTokensIn, streamTokensOut, streamCost, durationMs, true);
     }
     res.end();
@@ -3980,7 +4249,7 @@ async function handleStreamingRequest(res, request, targetProvider, targetModel,
 /**
  * Handle non-streaming request
  */
-async function handleNonStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled, complexity = 'simple') {
+async function handleNonStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled, complexity = 'simple', agentFingerprint, agentId) {
     let responseData;
     try {
         const result = await executeNonStreamingProviderRequest(request, targetProvider, targetModel, apiKey, ctx);
@@ -4015,12 +4284,16 @@ async function handleNonStreamingRequest(res, request, targetProvider, targetMod
     const nonStreamRespModel = checkResponseModelMismatch(responseData, targetModel, targetProvider, log);
     // Log the successful request
     logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, true, routingMode, undefined, taskType, complexity);
-    // Update token/cost info
+    // Update token/cost info (including Anthropic prompt cache tokens)
     const usage = responseData?.usage;
     const tokensIn = usage?.input_tokens ?? usage?.prompt_tokens ?? 0;
     const tokensOut = usage?.output_tokens ?? usage?.completion_tokens ?? 0;
-    const cost = (0, telemetry_js_1.estimateCost)(targetModel, tokensIn, tokensOut);
-    updateLastHistoryEntry(tokensIn, tokensOut, cost, nonStreamRespModel);
+    const cacheCreationTokens = usage?.cache_creation_input_tokens ?? 0;
+    const cacheReadTokens = usage?.cache_read_input_tokens ?? 0;
+    const cost = (0, telemetry_js_1.estimateCost)(targetModel, tokensIn, tokensOut, cacheCreationTokens || undefined, cacheReadTokens || undefined);
+    updateLastHistoryEntry(tokensIn, tokensOut, cost, nonStreamRespModel, cacheCreationTokens || undefined, cacheReadTokens || undefined, agentFingerprint, agentId);
+    if (agentFingerprint && agentFingerprint !== 'unknown')
+        (0, agent_tracker_js_1.updateAgentCost)(agentFingerprint, cost);
     // ── Post-request: budget spend + anomaly detection ──
     try {
         (0, budget_js_1.getBudgetManager)().recordSpend(cost, targetModel);
@@ -4040,6 +4313,8 @@ async function handleNonStreamingRequest(res, request, targetProvider, targetMod
                 taskType,
                 model: `${targetProvider}:${targetModel}`,
             });
+            // Backfill token/cost data — relay.run() has no adapters so records NULLs
+            relay.patchRunTokens(runResult.runId, tokensIn, tokensOut, cost);
             // Add routing metadata to response
             responseData['_relayplane'] = {
                 runId: runResult.runId,
@@ -4054,12 +4329,14 @@ async function handleNonStreamingRequest(res, request, targetProvider, targetMod
         catch (err) {
             log(`Failed to record run: ${err}`);
         }
-        // Extract token counts from response if available (Anthropic/OpenAI format)
-        const usage = responseData?.usage;
-        const tokensIn = usage?.input_tokens ?? usage?.prompt_tokens ?? 0;
-        const tokensOut = usage?.output_tokens ?? usage?.completion_tokens ?? 0;
-        sendCloudTelemetry(taskType, targetModel, tokensIn, tokensOut, durationMs, true);
-        meshCapture(targetModel, targetProvider, taskType, tokensIn, tokensOut, cost, durationMs, true);
+        // Extract token counts from response if available (Anthropic/OpenAI format, including cache)
+        const innerUsage = responseData?.usage;
+        const innerTokIn = innerUsage?.input_tokens ?? innerUsage?.prompt_tokens ?? 0;
+        const innerTokOut = innerUsage?.output_tokens ?? innerUsage?.completion_tokens ?? 0;
+        const innerCacheCreation = innerUsage?.cache_creation_input_tokens ?? 0;
+        const innerCacheRead = innerUsage?.cache_read_input_tokens ?? 0;
+        sendCloudTelemetry(taskType, targetModel, innerTokIn, innerTokOut, durationMs, true, undefined, undefined, innerCacheCreation || undefined, innerCacheRead || undefined);
+        meshCapture(targetModel, targetProvider, taskType, innerTokIn, innerTokOut, cost, durationMs, true);
     }
     // ── Cache: store non-streaming chat/completions response ──
     const chatRespCache = (0, response_cache_js_1.getResponseCache)();