npm - @relayplane/proxy - Versions diffs - 0.1.8 → 0.1.10 - Mend

@relayplane/proxy 0.1.8 → 0.1.10

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

package/dist/cli.mjs CHANGED Viewed

@@ -1578,12 +1578,19 @@ var StrategySchema = z.object({
   minConfidence: z.number().min(0).max(1).optional(),
   fallback: z.string().optional()
 });
+var AuthSchema = z.object({
+  anthropicApiKey: z.string().optional(),
+  anthropicMaxToken: z.string().optional(),
+  useMaxForModels: z.array(z.string()).optional()
+  // Default: ['opus']
+}).optional();
 var ConfigSchema = z.object({
   strategies: z.record(z.string(), StrategySchema).optional(),
   defaults: z.object({
     qualityModel: z.string().optional(),
     costModel: z.string().optional()
-  }).optional()
+  }).optional(),
+  auth: AuthSchema
 });
 var DEFAULT_CONFIG = {
   strategies: {
@@ -1643,6 +1650,19 @@ function loadConfig() {
 function getStrategy(config, taskType) {
   return config.strategies?.[taskType] ?? null;
 }
+function getAnthropicAuth(config, model) {
+  const auth = config.auth;
+  const useMaxForModels = auth?.useMaxForModels ?? ["opus"];
+  const shouldUseMax = useMaxForModels.some((m) => model.toLowerCase().includes(m.toLowerCase()));
+  if (shouldUseMax && auth?.anthropicMaxToken) {
+    return { type: "max", value: auth.anthropicMaxToken };
+  }
+  const apiKey = auth?.anthropicApiKey ?? process.env["ANTHROPIC_API_KEY"];
+  if (apiKey) {
+    return { type: "apiKey", value: apiKey };
+  }
+  return null;
+}
 function watchConfig(onChange) {
   const configPath = getConfigPath();
   const dir = path2.dirname(configPath);
@@ -1663,10 +1683,67 @@ function watchConfig(onChange) {
 }
 // src/proxy.ts
-var VERSION = "0.1.8";
+var VERSION = "0.1.9";
 var recentRuns = [];
 var MAX_RECENT_RUNS = 100;
 var modelCounts = {};
+var tokenStats = {};
+var MODEL_PRICING2 = {
+  // Anthropic
+  "claude-3-haiku-20240307": { input: 0.25, output: 1.25 },
+  "claude-3-5-haiku-20241022": { input: 1, output: 5 },
+  "claude-3-5-haiku-latest": { input: 1, output: 5 },
+  "claude-3-5-sonnet-20241022": { input: 3, output: 15 },
+  "claude-sonnet-4-20250514": { input: 3, output: 15 },
+  "claude-3-opus-20240229": { input: 15, output: 75 },
+  "claude-opus-4-5-20250514": { input: 15, output: 75 },
+  // OpenAI
+  "gpt-4o": { input: 2.5, output: 10 },
+  "gpt-4o-mini": { input: 0.15, output: 0.6 },
+  "gpt-4-turbo": { input: 10, output: 30 },
+  // Defaults for unknown models
+  "default-cheap": { input: 1, output: 5 },
+  "default-expensive": { input: 15, output: 75 }
+};
+function trackTokens(model, inputTokens, outputTokens) {
+  if (!tokenStats[model]) {
+    tokenStats[model] = { inputTokens: 0, outputTokens: 0, requests: 0 };
+  }
+  tokenStats[model].inputTokens += inputTokens;
+  tokenStats[model].outputTokens += outputTokens;
+  tokenStats[model].requests += 1;
+}
+function calculateCosts() {
+  let totalInputTokens = 0;
+  let totalOutputTokens = 0;
+  let actualCostUsd = 0;
+  const byModel = {};
+  for (const [model, stats] of Object.entries(tokenStats)) {
+    totalInputTokens += stats.inputTokens;
+    totalOutputTokens += stats.outputTokens;
+    const pricing = MODEL_PRICING2[model] || MODEL_PRICING2["default-cheap"];
+    const cost = stats.inputTokens / 1e6 * pricing.input + stats.outputTokens / 1e6 * pricing.output;
+    actualCostUsd += cost;
+    byModel[model] = {
+      inputTokens: stats.inputTokens,
+      outputTokens: stats.outputTokens,
+      costUsd: parseFloat(cost.toFixed(4))
+    };
+  }
+  const opusPricing = MODEL_PRICING2["claude-opus-4-5-20250514"];
+  const opusCostUsd = totalInputTokens / 1e6 * opusPricing.input + totalOutputTokens / 1e6 * opusPricing.output;
+  const savingsUsd = opusCostUsd - actualCostUsd;
+  const savingsPercent = opusCostUsd > 0 ? (savingsUsd / opusCostUsd * 100).toFixed(1) + "%" : "0%";
+  return {
+    totalInputTokens,
+    totalOutputTokens,
+    actualCostUsd: parseFloat(actualCostUsd.toFixed(4)),
+    opusCostUsd: parseFloat(opusCostUsd.toFixed(4)),
+    savingsUsd: parseFloat(savingsUsd.toFixed(4)),
+    savingsPercent,
+    byModel
+  };
+}
 var serverStartTime = 0;
 var currentConfig = loadConfig();
 var DEFAULT_ENDPOINTS = {
@@ -1731,13 +1808,17 @@ function extractPromptText(messages) {
     return "";
   }).join("\n");
 }
-async function forwardToAnthropic(request, targetModel, apiKey, betaHeaders) {
+async function forwardToAnthropic(request, targetModel, auth, betaHeaders) {
   const anthropicBody = buildAnthropicBody(request, targetModel, false);
   const headers = {
     "Content-Type": "application/json",
-    "x-api-key": apiKey,
     "anthropic-version": "2023-06-01"
   };
+  if (auth.type === "max") {
+    headers["Authorization"] = `Bearer ${auth.value}`;
+  } else {
+    headers["x-api-key"] = auth.value;
+  }
   if (betaHeaders) {
     headers["anthropic-beta"] = betaHeaders;
   }
@@ -1748,13 +1829,17 @@ async function forwardToAnthropic(request, targetModel, apiKey, betaHeaders) {
   });
   return response;
 }
-async function forwardToAnthropicStream(request, targetModel, apiKey, betaHeaders) {
+async function forwardToAnthropicStream(request, targetModel, auth, betaHeaders) {
   const anthropicBody = buildAnthropicBody(request, targetModel, true);
   const headers = {
     "Content-Type": "application/json",
-    "x-api-key": apiKey,
     "anthropic-version": "2023-06-01"
   };
+  if (auth.type === "max") {
+    headers["Authorization"] = `Bearer ${auth.value}`;
+  } else {
+    headers["x-api-key"] = auth.value;
+  }
   if (betaHeaders) {
     headers["anthropic-beta"] = betaHeaders;
   }
@@ -2286,6 +2371,7 @@ function convertAnthropicStreamEvent(eventType, eventData, messageId, model, too
       return null;
   }
 }
+var lastStreamingUsage = null;
 async function* convertAnthropicStream(response, model) {
   const reader = response.body?.getReader();
   if (!reader) {
@@ -2298,6 +2384,8 @@ async function* convertAnthropicStream(response, model) {
     currentToolIndex: 0,
     tools: /* @__PURE__ */ new Map()
   };
+  let streamInputTokens = 0;
+  let streamOutputTokens = 0;
   try {
     while (true) {
       const { done, value } = await reader.read();
@@ -2315,6 +2403,17 @@ async function* convertAnthropicStream(response, model) {
         } else if (line === "" && eventType && eventData) {
           try {
             const parsed = JSON.parse(eventData);
+            if (eventType === "message_start") {
+              const msg = parsed["message"];
+              if (msg?.usage?.input_tokens) {
+                streamInputTokens = msg.usage.input_tokens;
+              }
+            } else if (eventType === "message_delta") {
+              const usage = parsed["usage"];
+              if (usage?.output_tokens) {
+                streamOutputTokens = usage.output_tokens;
+              }
+            }
             const converted = convertAnthropicStreamEvent(eventType, parsed, messageId, model, toolState);
             if (converted) {
               yield converted;
@@ -2326,6 +2425,7 @@ async function* convertAnthropicStream(response, model) {
         }
       }
     }
+    lastStreamingUsage = { inputTokens: streamInputTokens, outputTokens: streamOutputTokens };
   } finally {
     reader.releaseLock();
   }
@@ -2423,23 +2523,32 @@ async function startProxy(config = {}) {
     }
     if (req.method === "GET" && pathname === "/stats") {
       const stats = relay.stats();
-      const savings = relay.savingsReport(30);
+      const costs = calculateCosts();
       const totalRuns = Object.values(modelCounts).reduce((a, b) => a + b, 0);
       const modelDistribution = {};
       for (const [model, count] of Object.entries(modelCounts)) {
+        const modelName = model.split("/")[1] || model;
+        const tokenData = costs.byModel[modelName];
         modelDistribution[model] = {
           count,
-          percentage: totalRuns > 0 ? (count / totalRuns * 100).toFixed(1) + "%" : "0%"
+          percentage: totalRuns > 0 ? (count / totalRuns * 100).toFixed(1) + "%" : "0%",
+          tokens: tokenData ? { input: tokenData.inputTokens, output: tokenData.outputTokens } : void 0,
+          costUsd: tokenData?.costUsd
         };
       }
       res.writeHead(200, { "Content-Type": "application/json" });
       res.end(JSON.stringify({
         totalRuns,
-        savings: {
-          estimatedSavingsPercent: savings.savingsPercent.toFixed(1) + "%",
-          actualCostUsd: savings.actualCost.toFixed(4),
-          baselineCostUsd: savings.baselineCost.toFixed(4),
-          savedUsd: savings.savings.toFixed(4)
+        tokens: {
+          input: costs.totalInputTokens,
+          output: costs.totalOutputTokens,
+          total: costs.totalInputTokens + costs.totalOutputTokens
+        },
+        costs: {
+          actualUsd: costs.actualCostUsd,
+          opusBaselineUsd: costs.opusCostUsd,
+          savingsUsd: costs.savingsUsd,
+          savingsPercent: costs.savingsPercent
         },
         modelDistribution,
         byTaskType: stats.byTaskType,
@@ -2560,12 +2669,24 @@ async function startProxy(config = {}) {
       }
     }
     log(`Routing to: ${targetProvider}/${targetModel}`);
-    const apiKeyEnv = DEFAULT_ENDPOINTS[targetProvider]?.apiKeyEnv ?? `${targetProvider.toUpperCase()}_API_KEY`;
-    const apiKey = process.env[apiKeyEnv];
-    if (!apiKey) {
-      res.writeHead(500, { "Content-Type": "application/json" });
-      res.end(JSON.stringify({ error: `Missing ${apiKeyEnv} environment variable` }));
-      return;
+    let apiKey;
+    let anthropicAuth = null;
+    if (targetProvider === "anthropic") {
+      anthropicAuth = getAnthropicAuth(currentConfig, targetModel);
+      if (!anthropicAuth) {
+        res.writeHead(500, { "Content-Type": "application/json" });
+        res.end(JSON.stringify({ error: "No Anthropic auth configured (set ANTHROPIC_API_KEY or config.auth.anthropicMaxToken)" }));
+        return;
+      }
+      log(`Using ${anthropicAuth.type === "max" ? "MAX token" : "API key"} auth for ${targetModel}`);
+    } else {
+      const apiKeyEnv = DEFAULT_ENDPOINTS[targetProvider]?.apiKeyEnv ?? `${targetProvider.toUpperCase()}_API_KEY`;
+      apiKey = process.env[apiKeyEnv];
+      if (!apiKey) {
+        res.writeHead(500, { "Content-Type": "application/json" });
+        res.end(JSON.stringify({ error: `Missing ${apiKeyEnv} environment variable` }));
+        return;
+      }
     }
     const startTime = Date.now();
     const betaHeaders = req.headers["anthropic-beta"];
@@ -2576,6 +2697,7 @@ async function startProxy(config = {}) {
         targetProvider,
         targetModel,
         apiKey,
+        anthropicAuth,
         relay,
         promptText,
         taskType,
@@ -2592,6 +2714,7 @@ async function startProxy(config = {}) {
         targetProvider,
         targetModel,
         apiKey,
+        anthropicAuth,
         relay,
         promptText,
         taskType,
@@ -2621,12 +2744,13 @@ async function startProxy(config = {}) {
     });
   });
 }
-async function handleStreamingRequest(res, request, targetProvider, targetModel, apiKey, relay, promptText, taskType, confidence, routingMode, startTime, log, betaHeaders) {
+async function handleStreamingRequest(res, request, targetProvider, targetModel, apiKey, anthropicAuth, relay, promptText, taskType, confidence, routingMode, startTime, log, betaHeaders) {
   let providerResponse;
   try {
     switch (targetProvider) {
       case "anthropic":
-        providerResponse = await forwardToAnthropicStream(request, targetModel, apiKey, betaHeaders);
+        if (!anthropicAuth) throw new Error("No Anthropic auth");
+        providerResponse = await forwardToAnthropicStream(request, targetModel, anthropicAuth, betaHeaders);
         break;
       case "google":
         providerResponse = await forwardToGeminiStream(request, targetModel, apiKey);
@@ -2680,6 +2804,11 @@ async function handleStreamingRequest(res, request, targetProvider, targetModel,
   const durationMs = Date.now() - startTime;
   const modelKey = `${targetProvider}/${targetModel}`;
   modelCounts[modelKey] = (modelCounts[modelKey] || 0) + 1;
+  if (lastStreamingUsage && (lastStreamingUsage.inputTokens > 0 || lastStreamingUsage.outputTokens > 0)) {
+    trackTokens(targetModel, lastStreamingUsage.inputTokens, lastStreamingUsage.outputTokens);
+    log(`Tokens: ${lastStreamingUsage.inputTokens} in, ${lastStreamingUsage.outputTokens} out`);
+    lastStreamingUsage = null;
+  }
   relay.run({
     prompt: promptText.slice(0, 500),
     taskType,
@@ -2704,13 +2833,14 @@ async function handleStreamingRequest(res, request, targetProvider, targetModel,
   });
   res.end();
 }
-async function handleNonStreamingRequest(res, request, targetProvider, targetModel, apiKey, relay, promptText, taskType, confidence, routingMode, startTime, log, betaHeaders) {
+async function handleNonStreamingRequest(res, request, targetProvider, targetModel, apiKey, anthropicAuth, relay, promptText, taskType, confidence, routingMode, startTime, log, betaHeaders) {
   let providerResponse;
   let responseData;
   try {
     switch (targetProvider) {
       case "anthropic": {
-        providerResponse = await forwardToAnthropic(request, targetModel, apiKey, betaHeaders);
+        if (!anthropicAuth) throw new Error("No Anthropic auth");
+        providerResponse = await forwardToAnthropic(request, targetModel, anthropicAuth, betaHeaders);
         const rawData = await providerResponse.json();
         if (!providerResponse.ok) {
           res.writeHead(providerResponse.status, { "Content-Type": "application/json" });
@@ -2770,6 +2900,11 @@ async function handleNonStreamingRequest(res, request, targetProvider, targetMod
   const durationMs = Date.now() - startTime;
   const modelKey = `${targetProvider}/${targetModel}`;
   modelCounts[modelKey] = (modelCounts[modelKey] || 0) + 1;
+  const usage = responseData["usage"];
+  if (usage?.prompt_tokens || usage?.completion_tokens) {
+    trackTokens(targetModel, usage.prompt_tokens ?? 0, usage.completion_tokens ?? 0);
+    log(`Tokens: ${usage.prompt_tokens ?? 0} in, ${usage.completion_tokens ?? 0} out`);
+  }
   try {
     const runResult = await relay.run({
       prompt: promptText.slice(0, 500),