npm - @relayplane/proxy - Versions diffs - 1.5.2 → 1.5.4 - Mend

@relayplane/proxy 1.5.2 → 1.5.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (20) hide show

package/README.md +255 -21
package/dist/cli.js +257 -2
package/dist/cli.js.map +1 -1
package/dist/server.js +2 -2
package/dist/server.js.map +1 -1
package/dist/standalone-proxy.d.ts.map +1 -1
package/dist/standalone-proxy.js +86 -31
package/dist/standalone-proxy.js.map +1 -1
package/dist/telemetry.d.ts.map +1 -1
package/dist/telemetry.js +11 -0
package/dist/telemetry.js.map +1 -1
package/package.json +3 -6
package/dist/__tests__/model-suggestions.test.d.ts +0 -2
package/dist/__tests__/model-suggestions.test.d.ts.map +0 -1
package/dist/__tests__/model-suggestions.test.js +0 -67
package/dist/__tests__/model-suggestions.test.js.map +0 -1
package/dist/__tests__/routing-aliases.test.d.ts +0 -2
package/dist/__tests__/routing-aliases.test.d.ts.map +0 -1
package/dist/__tests__/routing-aliases.test.js +0 -81
package/dist/__tests__/routing-aliases.test.js.map +0 -1

package/dist/standalone-proxy.js CHANGED Viewed

@@ -418,7 +418,7 @@ function shutdownHistory() {
     }
     flushHistoryBuffer();
 }
-function logRequest(originalModel, targetModel, provider, latencyMs, success, mode, escalated) {
+function logRequest(originalModel, targetModel, provider, latencyMs, success, mode, escalated, taskType, complexity) {
     const timestamp = new Date().toISOString();
     const status = success ? '✓' : '✗';
     const escalateTag = escalated ? ' [ESCALATED]' : '';
@@ -459,6 +459,8 @@ function logRequest(originalModel, targetModel, provider, latencyMs, success, mo
         tokensIn: 0,
         tokensOut: 0,
         costUsd: 0,
+        taskType: taskType || 'general',
+        complexity: complexity || 'simple',
     };
     requestHistory.push(entry);
     if (requestHistory.length > MAX_HISTORY) {
@@ -1111,6 +1113,15 @@ async function forwardToGemini(request, targetModel, apiKey) {
             parts: [{ text: systemMessage.content }],
         };
     }
+    if (request.tools && request.tools.length > 0) {
+        geminiBody["tools"] = [{
+                functionDeclarations: request.tools.map((t) => ({
+                    name: t.function.name,
+                    description: t.function.description || "",
+                    parameters: t.function.parameters || {}
+                }))
+            }];
+    }
     const response = await fetch(`https://generativelanguage.googleapis.com/v1beta/models/${targetModel}:generateContent?key=${apiKey}`, {
         method: 'POST',
         headers: {
@@ -1140,6 +1151,15 @@ async function forwardToGeminiStream(request, targetModel, apiKey) {
             parts: [{ text: systemMessage.content }],
         };
     }
+    if (request.tools && request.tools.length > 0) {
+        geminiBody["tools"] = [{
+                functionDeclarations: request.tools.map((t) => ({
+                    name: t.function.name,
+                    description: t.function.description || "",
+                    parameters: t.function.parameters || {}
+                }))
+            }];
+    }
     const response = await fetch(`https://generativelanguage.googleapis.com/v1beta/models/${targetModel}:streamGenerateContent?alt=sse&key=${apiKey}`, {
         method: 'POST',
         headers: {
@@ -1154,14 +1174,30 @@ async function forwardToGeminiStream(request, targetModel, apiKey) {
  */
 function convertGeminiResponse(geminiData, model) {
     const candidate = geminiData.candidates?.[0];
-    const text = candidate?.content?.parts?.map((p) => p.text ?? '').join('') ?? '';
+    const parts = candidate?.content?.parts ?? [];
+    const text = parts.map((p) => p.text ?? '').join('');
+    const functionCalls = parts.filter((p) => p.functionCall);
     let finishReason = 'stop';
-    if (candidate?.finishReason === 'MAX_TOKENS') {
+    if (functionCalls.length > 0) {
+        finishReason = 'tool_calls';
+    }
+    else if (candidate?.finishReason === 'MAX_TOKENS') {
         finishReason = 'length';
     }
     else if (candidate?.finishReason === 'SAFETY') {
         finishReason = 'content_filter';
     }
+    const message = { role: 'assistant', content: text || null };
+    if (functionCalls.length > 0) {
+        message['tool_calls'] = functionCalls.map((p, i) => ({
+            id: `call_${Date.now()}_${i}`,
+            type: 'function',
+            function: {
+                name: p.functionCall.name,
+                arguments: JSON.stringify(p.functionCall.args || {})
+            }
+        }));
+    }
     return {
         id: `chatcmpl-${Date.now()}`,
         object: 'chat.completion',
@@ -1170,10 +1206,7 @@ function convertGeminiResponse(geminiData, model) {
         choices: [
             {
                 index: 0,
-                message: {
-                    role: 'assistant',
-                    content: text,
-                },
+                message,
                 finish_reason: finishReason,
             },
         ],
@@ -1190,20 +1223,36 @@ function convertGeminiResponse(geminiData, model) {
  */
 function convertGeminiStreamEvent(eventData, messageId, model, isFirst) {
     const candidate = eventData.candidates?.[0];
-    const text = candidate?.content?.parts?.map((p) => p.text ?? '').join('') ?? '';
+    const parts = candidate?.content?.parts ?? [];
+    const text = parts.map((p) => p.text ?? '').join('');
+    const functionCalls = parts.filter((p) => p.functionCall);
     const choice = {
         index: 0,
         delta: {},
         finish_reason: null,
     };
+    const delta = {};
     if (isFirst) {
-        choice['delta'] = { role: 'assistant', content: text };
+        delta['role'] = 'assistant';
+    }
+    if (text) {
+        delta['content'] = text;
     }
-    else if (text) {
-        choice['delta'] = { content: text };
+    if (functionCalls.length > 0) {
+        delta['tool_calls'] = functionCalls.map((p, i) => ({
+            index: i,
+            id: `call_${messageId}_${i}`,
+            type: 'function',
+            function: {
+                name: p.functionCall.name,
+                arguments: JSON.stringify(p.functionCall.args || {})
+            }
+        }));
+        choice['finish_reason'] = 'tool_calls';
     }
+    choice['delta'] = delta;
     // Check for finish
-    if (candidate?.finishReason) {
+    if (candidate?.finishReason && choice['finish_reason'] === null) {
         let finishReason = 'stop';
         if (candidate.finishReason === 'MAX_TOKENS') {
             finishReason = 'length';
@@ -1773,6 +1822,9 @@ td{padding:8px 12px;border-bottom:1px solid #111318}
 .dot{display:inline-block;width:8px;height:8px;border-radius:50%;margin-right:6px}.dot.up{background:#34d399}.dot.down{background:#ef4444}
 .badge{display:inline-block;padding:2px 8px;border-radius:6px;font-size:.75rem;font-weight:500}
 .badge.ok{background:#052e1633;color:#34d399}.badge.err{background:#2d0a0a;color:#ef4444}
+.badge.tt-code{background:#1e3a5f;color:#60a5fa}.badge.tt-analysis{background:#3b1f6e;color:#a78bfa}.badge.tt-summarization{background:#1a3a2a;color:#6ee7b7}.badge.tt-qa{background:#3a2f1e;color:#fbbf24}.badge.tt-general{background:#1e293b;color:#94a3b8}
+.badge.cx-simple{background:#052e1633;color:#34d399}.badge.cx-moderate{background:#2d2a0a;color:#fbbf24}.badge.cx-complex{background:#2d0a0a;color:#ef4444}
+@media(max-width:768px){.col-tt,.col-cx{display:none}}
 .prov{display:flex;gap:16px;flex-wrap:wrap}.prov-item{display:flex;align-items:center;font-size:.85rem;background:#111318;padding:8px 14px;border-radius:8px;border:1px solid #1e293b}
 </style></head><body>
 <div class="header"><div><h1>⚡ RelayPlane Dashboard</h1></div><div class="meta"><span id="ver"></span> · up <span id="uptime"></span> · refreshes every 5s</div></div>
@@ -1786,7 +1838,7 @@ td{padding:8px 12px;border-bottom:1px solid #111318}
 <table><thead><tr><th>Model</th><th>Requests</th><th>Cost</th><th>% of Total</th></tr></thead><tbody id="models"></tbody></table></div>
 <div class="section"><h2>Provider Status</h2><div class="prov" id="providers"></div></div>
 <div class="section"><h2>Recent Runs</h2>
-<table><thead><tr><th>Time</th><th>Model</th><th>Tokens In</th><th>Tokens Out</th><th>Cost</th><th>Latency</th><th>Status</th></tr></thead><tbody id="runs"></tbody></table></div>
+<table><thead><tr><th>Time</th><th>Model</th><th class="col-tt">Task Type</th><th class="col-cx">Complexity</th><th>Tokens In</th><th>Tokens Out</th><th>Cost</th><th>Latency</th><th>Status</th></tr></thead><tbody id="runs"></tbody></table></div>
 <script>
 const $ = id => document.getElementById(id);
 function fmt(n,d=2){return typeof n==='number'?n.toFixed(d):'-'}
@@ -1811,9 +1863,11 @@ async function load(){
     $('models').innerHTML=(stats.byModel||[]).map(m=>
       '<tr><td>'+m.model+'</td><td>'+m.count+'</td><td>$'+fmt(m.costUsd,4)+'</td><td>'+fmt(m.count/total*100,1)+'%</td></tr>'
     ).join('')||'<tr><td colspan=4 style="color:#64748b">No data yet</td></tr>';
+    function ttCls(t){const m={code_generation:'tt-code',analysis:'tt-analysis',summarization:'tt-summarization',question_answering:'tt-qa'};return m[t]||'tt-general'}
+    function cxCls(c){const m={simple:'cx-simple',moderate:'cx-moderate',complex:'cx-complex'};return m[c]||'cx-simple'}
     $('runs').innerHTML=(runsR.runs||[]).map(r=>
-      '<tr><td>'+fmtTime(r.started_at)+'</td><td>'+r.model+'</td><td>'+(r.tokensIn||0)+'</td><td>'+(r.tokensOut||0)+'</td><td>$'+fmt(r.costUsd,4)+'</td><td>'+r.latencyMs+'ms</td><td><span class="badge '+(r.status==='success'?'ok':'err')+'">'+r.status+'</span></td></tr>'
-    ).join('')||'<tr><td colspan=7 style="color:#64748b">No runs yet</td></tr>';
+      '<tr><td>'+fmtTime(r.started_at)+'</td><td>'+r.model+'</td><td class="col-tt"><span class="badge '+ttCls(r.taskType)+'">'+(r.taskType||'general').replace(/_/g,' ')+'</span></td><td class="col-cx"><span class="badge '+cxCls(r.complexity)+'">'+(r.complexity||'simple')+'</span></td><td>'+(r.tokensIn||0)+'</td><td>'+(r.tokensOut||0)+'</td><td>$'+fmt(r.costUsd,4)+'</td><td>'+r.latencyMs+'ms</td><td><span class="badge '+(r.status==='success'?'ok':'err')+'">'+r.status+'</span></td></tr>'
+    ).join('')||'<tr><td colspan=9 style="color:#64748b">No runs yet</td></tr>';
     $('providers').innerHTML=(provH.providers||[]).map(p=>
       '<div class="prov-item"><span class="dot '+(p.status==='healthy'?'up':'down')+'"></span>'+p.provider+'</div>'
     ).join('');
@@ -2036,7 +2090,8 @@ async function startProxy(config = {}) {
                     started_at: r.timestamp,
                     model: r.targetModel,
                     routed_to: `${r.provider}/${r.targetModel}`,
-                    taskType: r.mode,
+                    taskType: r.taskType || 'general',
+                    complexity: r.complexity || 'simple',
                     costUsd: r.costUsd,
                     latencyMs: r.latencyMs,
                     tokensIn: r.tokensIn,
@@ -2366,7 +2421,7 @@ async function startProxy(config = {}) {
                             cooldownManager.recordFailure(targetProvider, JSON.stringify(errorPayload));
                         }
                         const durationMs = Date.now() - startTime;
-                        logRequest(originalModel ?? 'unknown', targetModel || requestedModel, targetProvider, durationMs, false, routingMode);
+                        logRequest(originalModel ?? 'unknown', targetModel || requestedModel, targetProvider, durationMs, false, routingMode, undefined, taskType, complexity);
                         res.writeHead(providerResponse.status, { 'Content-Type': 'application/json' });
                         res.end(JSON.stringify(errorPayload));
                         return;
@@ -2437,7 +2492,7 @@ async function startProxy(config = {}) {
                     }
                 }
                 const durationMs = Date.now() - startTime;
-                logRequest(originalModel ?? 'unknown', targetModel || requestedModel, targetProvider, durationMs, true, routingMode, useCascade && cascadeConfig ? undefined : false);
+                logRequest(originalModel ?? 'unknown', targetModel || requestedModel, targetProvider, durationMs, true, routingMode, useCascade && cascadeConfig ? undefined : false, taskType, complexity);
                 if (recordTelemetry) {
                     relay
                         .run({
@@ -2454,7 +2509,7 @@ async function startProxy(config = {}) {
             }
             catch (err) {
                 const durationMs = Date.now() - startTime;
-                logRequest(originalModel ?? 'unknown', targetModel || requestedModel, targetProvider, durationMs, false, routingMode);
+                logRequest(originalModel ?? 'unknown', targetModel || requestedModel, targetProvider, durationMs, false, routingMode, undefined, taskType, complexity);
                 if (err instanceof ProviderResponseError) {
                     res.writeHead(err.status, { 'Content-Type': 'application/json' });
                     res.end(JSON.stringify(err.payload));
@@ -2738,7 +2793,7 @@ async function startProxy(config = {}) {
         const startTime = Date.now();
         // Handle streaming vs non-streaming
         if (isStreaming) {
-            await handleStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, useCascade ? 'cascade' : routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled);
+            await handleStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, useCascade ? 'cascade' : routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled, complexity);
         }
         else {
             if (useCascade && cascadeConfig) {
@@ -2770,7 +2825,7 @@ async function startProxy(config = {}) {
                     const durationMs = Date.now() - startTime;
                     let responseData = cascadeResult.responseData;
                     // Log cascade request for stats tracking
-                    logRequest(originalRequestedModel ?? 'unknown', cascadeResult.model, cascadeResult.provider, durationMs, true, 'cascade', cascadeResult.escalations > 0);
+                    logRequest(originalRequestedModel ?? 'unknown', cascadeResult.model, cascadeResult.provider, durationMs, true, 'cascade', cascadeResult.escalations > 0, taskType, complexity);
                     const cascadeUsage = responseData?.usage;
                     const cascadeTokensIn = cascadeUsage?.input_tokens ?? cascadeUsage?.prompt_tokens ?? 0;
                     const cascadeTokensOut = cascadeUsage?.output_tokens ?? cascadeUsage?.completion_tokens ?? 0;
@@ -2804,7 +2859,7 @@ async function startProxy(config = {}) {
                 }
                 catch (err) {
                     const durationMs = Date.now() - startTime;
-                    logRequest(originalRequestedModel ?? 'unknown', targetModel || 'unknown', targetProvider, durationMs, false, 'cascade');
+                    logRequest(originalRequestedModel ?? 'unknown', targetModel || 'unknown', targetProvider, durationMs, false, 'cascade', undefined, taskType, complexity);
                     if (err instanceof ProviderResponseError) {
                         res.writeHead(err.status, { 'Content-Type': 'application/json' });
                         res.end(JSON.stringify(err.payload));
@@ -2816,7 +2871,7 @@ async function startProxy(config = {}) {
                 }
             }
             else {
-                await handleNonStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled);
+                await handleNonStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled, complexity);
             }
         }
     });
@@ -2889,7 +2944,7 @@ async function executeNonStreamingProviderRequest(request, targetProvider, targe
     }
     return { responseData, ok: true, status: 200 };
 }
-async function handleStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled) {
+async function handleStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled, complexity = 'simple') {
     let providerResponse;
     try {
         switch (targetProvider) {
@@ -2917,7 +2972,7 @@ async function handleStreamingRequest(res, request, targetProvider, targetModel,
                 cooldownManager.recordFailure(targetProvider, JSON.stringify(errorData));
             }
             const durationMs = Date.now() - startTime;
-            logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, false, routingMode);
+            logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, false, routingMode, undefined, taskType, complexity);
             res.writeHead(providerResponse.status, { 'Content-Type': 'application/json' });
             res.end(JSON.stringify(errorData));
             return;
@@ -2929,7 +2984,7 @@ async function handleStreamingRequest(res, request, targetProvider, targetModel,
             cooldownManager.recordFailure(targetProvider, errorMsg);
         }
         const durationMs = Date.now() - startTime;
-        logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, false, routingMode);
+        logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, false, routingMode, undefined, taskType, complexity);
         res.writeHead(500, { 'Content-Type': 'application/json' });
         res.end(JSON.stringify({ error: `Provider error: ${errorMsg}` }));
         return;
@@ -3013,7 +3068,7 @@ async function handleStreamingRequest(res, request, targetProvider, targetModel,
     }
     const durationMs = Date.now() - startTime;
     // Always log the request for stats/telemetry tracking
-    logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, true, routingMode);
+    logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, true, routingMode, undefined, taskType, complexity);
     // Update token/cost info on the history entry
     const streamCost = (0, telemetry_js_1.estimateCost)(targetModel, streamTokensIn, streamTokensOut);
     updateLastHistoryEntry(streamTokensIn, streamTokensOut, streamCost);
@@ -3038,7 +3093,7 @@ async function handleStreamingRequest(res, request, targetProvider, targetModel,
 /**
  * Handle non-streaming request
  */
-async function handleNonStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled) {
+async function handleNonStreamingRequest(res, request, targetProvider, targetModel, apiKey, ctx, relay, promptText, taskType, confidence, routingMode, recordTelemetry, startTime, log, cooldownManager, cooldownsEnabled, complexity = 'simple') {
     let responseData;
     try {
         const result = await executeNonStreamingProviderRequest(request, targetProvider, targetModel, apiKey, ctx);
@@ -3048,7 +3103,7 @@ async function handleNonStreamingRequest(res, request, targetProvider, targetMod
                 cooldownManager.recordFailure(targetProvider, JSON.stringify(responseData));
             }
             const durationMs = Date.now() - startTime;
-            logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, false, routingMode);
+            logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, false, routingMode, undefined, taskType, complexity);
             res.writeHead(result.status, { 'Content-Type': 'application/json' });
             res.end(JSON.stringify(responseData));
             return;
@@ -3060,7 +3115,7 @@ async function handleNonStreamingRequest(res, request, targetProvider, targetMod
             cooldownManager.recordFailure(targetProvider, errorMsg);
         }
         const durationMs = Date.now() - startTime;
-        logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, false, routingMode);
+        logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, false, routingMode, undefined, taskType, complexity);
         res.writeHead(500, { 'Content-Type': 'application/json' });
         res.end(JSON.stringify({ error: `Provider error: ${errorMsg}` }));
         return;
@@ -3070,7 +3125,7 @@ async function handleNonStreamingRequest(res, request, targetProvider, targetMod
     }
     const durationMs = Date.now() - startTime;
     // Log the successful request
-    logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, true, routingMode);
+    logRequest(request.model ?? 'unknown', targetModel, targetProvider, durationMs, true, routingMode, undefined, taskType, complexity);
     // Update token/cost info
     const usage = responseData?.usage;
     const tokensIn = usage?.input_tokens ?? usage?.prompt_tokens ?? 0;