npm - promptpilot - Versions diffs - 0.1.2 → 0.1.3 - Mend

promptpilot 0.1.2 → 0.1.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

package/dist/cli.js CHANGED Viewed

@@ -834,6 +834,9 @@ var DEFAULT_PROVIDER = "ollama";
 var DEFAULT_MAX_INPUT_TOKENS = 1200;
 var DEFAULT_MAX_CONTEXT_TOKENS = 800;
 var DEFAULT_MAX_TOTAL_TOKENS = 2200;
+var DEFAULT_ROUTING_PRIORITY = "cheapest_adequate";
+var DEFAULT_ROUTING_TOP_K = 3;
+var DEFAULT_WORKLOAD_BIAS = "code_first";
 var PromptOptimizer = class {
   config;
   logger;
@@ -871,6 +874,10 @@ var PromptOptimizer = class {
     const maxInputTokens = input.maxInputTokens ?? this.config.maxInputTokens ?? DEFAULT_MAX_INPUT_TOKENS;
     const maxContextTokens = input.maxContextTokens ?? this.config.maxContextTokens ?? DEFAULT_MAX_CONTEXT_TOKENS;
     const maxTotalTokens = input.maxTotalTokens ?? this.config.maxTotalTokens ?? DEFAULT_MAX_TOTAL_TOKENS;
+    const routingEnabled = input.routingEnabled !== false;
+    const routingPriority = input.routingPriority ?? DEFAULT_ROUTING_PRIORITY;
+    const routingTopK = input.routingTopK ?? DEFAULT_ROUTING_TOP_K;
+    const workloadBias = input.workloadBias ?? DEFAULT_WORKLOAD_BIAS;
     const warnings = [];
     const changes = [];
     const useContext = input.useContext !== false && Boolean(input.sessionId);
@@ -959,6 +966,22 @@ var PromptOptimizer = class {
     }
     warnings.push(...providerWarnings);
     changes.push(...providerChanges);
+    const routingDecision = await this.routeDownstreamTargets({
+      input: {
+        ...input,
+        prompt: originalPrompt,
+        mode,
+        preset,
+        routingPriority,
+        routingTopK,
+        workloadBias
+      },
+      routingEnabled,
+      routingPriority,
+      routingTopK,
+      workloadBias
+    });
+    warnings.push(...routingDecision.routingWarnings);
     let finalPrompt = composeFinalPrompt({
       optimizedPrompt,
       input: {
@@ -967,7 +990,8 @@ var PromptOptimizer = class {
         mode,
         preset
       },
-      context: relevantContext
+      context: relevantContext,
+      routingDecision
     });
     let estimatedTokensAfter = {
       prompt: this.estimator.estimateText(optimizedPrompt),
@@ -984,6 +1008,7 @@ var PromptOptimizer = class {
         },
         optimizedPrompt,
         context: relevantContext,
+        routingDecision,
         maxTotalTokens
       });
       finalPrompt = reduced.finalPrompt;
@@ -1019,6 +1044,11 @@ var PromptOptimizer = class {
       mode,
       provider,
       model,
+      selectedTarget: routingDecision.selectedTarget,
+      rankedTargets: routingDecision.rankedTargets,
+      routingReason: routingDecision.routingReason,
+      routingWarnings: routingDecision.routingWarnings,
+      routingProvider: routingDecision.routingProvider,
       warnings,
       changes,
       debugInfo: input.debug ? {
@@ -1027,7 +1057,8 @@ var PromptOptimizer = class {
         estimatedTokensAfter,
         extractedConstraints,
         preset,
-        selectedModel: model
+        selectedModel: model,
+        routingDecision
       } : void 0
     };
   }
@@ -1243,6 +1274,137 @@ var PromptOptimizer = class {
       };
     }
   }
+  async routeDownstreamTargets(options) {
+    const availableTargets = normalizeAvailableTargets(options.input.availableTargets ?? []);
+    if (!options.routingEnabled || availableTargets.length === 0) {
+      return {
+        selectedTarget: null,
+        rankedTargets: [],
+        routingReason: null,
+        routingWarnings: [],
+        routingProvider: null
+      };
+    }
+    if (availableTargets.length === 1) {
+      return {
+        selectedTarget: stripInternalTargetFields(availableTargets[0]),
+        rankedTargets: [
+          {
+            ...stripInternalTargetFields(availableTargets[0]),
+            rank: 1,
+            reason: "Only one downstream target was supplied."
+          }
+        ],
+        routingReason: "Only one downstream target was supplied, so it was selected directly.",
+        routingWarnings: [],
+        routingProvider: "direct"
+      };
+    }
+    if (!this.client.listModels) {
+      return {
+        selectedTarget: null,
+        rankedTargets: [],
+        routingReason: null,
+        routingWarnings: [
+          "Downstream target routing requires local Ollama model discovery so a Qwen router can run."
+        ],
+        routingProvider: null
+      };
+    }
+    try {
+      const installedModels = await this.client.listModels();
+      const routerModel = getQwenRouterModel(installedModels, this.config.routerModel);
+      if (!routerModel) {
+        return {
+          selectedTarget: null,
+          rankedTargets: [],
+          routingReason: null,
+          routingWarnings: [
+            "Downstream target routing could not run because no suitable local Qwen router model is installed."
+          ],
+          routingProvider: null
+        };
+      }
+      const response = await this.client.generateJson({
+        model: routerModel,
+        timeoutMs: options.input.timeoutMs ?? this.config.timeoutMs,
+        temperature: 0,
+        format: "json",
+        systemPrompt: buildDownstreamRoutingSystemPrompt(options.routingPriority, options.workloadBias),
+        prompt: JSON.stringify(
+          {
+            objective: "Rank the caller-supplied downstream targets for this prompt and choose the best top target.",
+            prompt: options.input.prompt,
+            task: options.input.task ?? null,
+            mode: options.input.mode,
+            preset: options.input.preset,
+            tone: options.input.tone ?? null,
+            targetHints: options.input.targetHints ?? [],
+            workloadBias: options.workloadBias,
+            routingPriority: options.routingPriority,
+            candidateTargets: availableTargets.map((target) => ({
+              id: target.id,
+              provider: target.provider,
+              model: target.model,
+              label: target.label ?? null,
+              costRank: target.costRank,
+              latencyRank: target.latencyRank,
+              capabilities: target.capabilities,
+              profile: describeDownstreamTarget(target)
+            }))
+          },
+          null,
+          2
+        )
+      });
+      const rankedTargetIds = Array.from(
+        new Set((response.rankedTargetIds ?? []).map((value) => value.trim()).filter(Boolean))
+      ).slice(0, Math.max(1, options.routingTopK));
+      const rankedTargets = rankedTargetIds.map((id, index) => {
+        const target = availableTargets.find((candidate) => candidate.id === id);
+        if (!target) {
+          return null;
+        }
+        return {
+          ...stripInternalTargetFields(target),
+          rank: index + 1,
+          reason: index === 0 ? response.reason?.trim() || "Selected by the local Qwen downstream router." : `Ranked #${index + 1} by the local Qwen downstream router.`
+        };
+      }).filter((value) => value !== null);
+      const selectedTargetId = response.selectedTargetId?.trim();
+      const selectedTargetCandidate = (selectedTargetId && availableTargets.find((candidate) => candidate.id === selectedTargetId)) ?? (rankedTargets[0] ? availableTargets.find(
+        (candidate) => candidate.provider === rankedTargets[0].provider && candidate.model === rankedTargets[0].model && candidate.label === rankedTargets[0].label
+      ) ?? null : null);
+      if (!selectedTargetCandidate || rankedTargets.length === 0) {
+        return {
+          selectedTarget: null,
+          rankedTargets: [],
+          routingReason: null,
+          routingWarnings: [
+            "Downstream target routing returned an invalid selection, so no downstream target was chosen."
+          ],
+          routingProvider: routerModel
+        };
+      }
+      return {
+        selectedTarget: stripInternalTargetFields(selectedTargetCandidate),
+        rankedTargets,
+        routingReason: response.reason?.trim() || "Selected by the local Qwen downstream router.",
+        routingWarnings: [],
+        routingProvider: routerModel
+      };
+    } catch {
+      return {
+        selectedTarget: null,
+        rankedTargets: [],
+        routingReason: null,
+        routingWarnings: [
+          "Downstream target routing could not complete, so no downstream target was selected."
+        ],
+        routingProvider: null
+      };
+    }
+  }
   heuristicOptimize(options) {
     const lines = [
       `Request: ${options.input.prompt}`,
@@ -1274,7 +1436,8 @@ var PromptOptimizer = class {
     const finalPrompt = composeFinalPrompt({
       optimizedPrompt: this.estimator.truncateToBudget(options.optimizedPrompt, Math.floor(options.maxTotalTokens * 0.5)),
       input: options.input,
-      context: compactContext
+      context: compactContext,
+      routingDecision: options.routingDecision
     });
     return {
       finalPrompt,
@@ -1335,7 +1498,7 @@ ${contextBlock}`);
 - ${constraints.join("\n- ")}`);
   }
   const desiredOutput = [
-    input.input.targetModel ? `Target model: ${input.input.targetModel}` : "Target model: claude",
+    input.routingDecision.selectedTarget ? `Selected target: ${formatTargetLabel(input.routingDecision.selectedTarget)}` : input.input.targetModel ? `Target model: ${input.input.targetModel}` : "Target model: claude",
     `Mode: ${input.input.mode}`,
     `Preset: ${input.input.preset}`
   ];
@@ -1361,6 +1524,77 @@ function emptyRelevantContext() {
     debugInfo: {}
   };
 }
+function normalizeAvailableTargets(targets) {
+  return targets.map((target, index) => ({
+    ...target,
+    id: `${target.provider}:${target.model}:${index}`,
+    label: target.label ?? `${target.provider}:${target.model}`,
+    capabilities: target.capabilities ?? inferCapabilities(target),
+    costRank: target.costRank ?? index + 1,
+    latencyRank: target.latencyRank ?? index + 1
+  }));
+}
+function stripInternalTargetFields(target) {
+  return {
+    provider: target.provider,
+    model: target.model,
+    label: target.label,
+    capabilities: target.capabilities,
+    costRank: target.costRank,
+    latencyRank: target.latencyRank
+  };
+}
+function buildDownstreamRoutingSystemPrompt(priority, workloadBias) {
+  return [
+    "You are a downstream model router for PromptPilot.",
+    "Return strict JSON only with this shape:",
+    '{"selectedTargetId":"string","rankedTargetIds":["string"],"reason":"string"}',
+    "Choose only from the supplied candidate target IDs.",
+    "Rank up to the requested top targets in best-first order.",
+    `Routing priority: ${priority}.`,
+    `Workload bias: ${workloadBias}.`,
+    "Code-first means ambiguous prompts should default toward coding-capable or agentic-capable targets.",
+    "Explicit email, support, chat, and lightweight writing prompts may prefer cheaper lighter targets.",
+    "Do not invent targets. Do not output prose outside JSON."
+  ].join("\n");
+}
+function inferCapabilities(target) {
+  const lower = `${target.provider} ${target.model} ${target.label ?? ""}`.toLowerCase();
+  const capabilities = /* @__PURE__ */ new Set();
+  if (/code|codex|coder|agent|tool/.test(lower)) {
+    capabilities.add("coding");
+  }
+  if (/agent|tool/.test(lower)) {
+    capabilities.add("agentic");
+    capabilities.add("tool_use");
+  }
+  if (/refactor|coder|codex/.test(lower)) {
+    capabilities.add("refactor");
+  }
+  if (/debug|fix|ci/.test(lower)) {
+    capabilities.add("debugging");
+  }
+  if (/write|email|chat|sonnet|mini/.test(lower)) {
+    capabilities.add("writing");
+  }
+  if (/email/.test(lower)) {
+    capabilities.add("email");
+  }
+  return Array.from(capabilities);
+}
+function describeDownstreamTarget(target) {
+  return [
+    `provider=${target.provider}`,
+    `model=${target.model}`,
+    `label=${target.label}`,
+    `costRank=${target.costRank}`,
+    `latencyRank=${target.latencyRank}`,
+    `capabilities=${target.capabilities?.join(",") || "none"}`
+  ].join("; ");
+}
+function formatTargetLabel(target) {
+  return target.label ?? `${target.provider}:${target.model}`;
+}
 // src/index.ts
 function createOptimizer(config = {}) {
@@ -1433,6 +1667,12 @@ async function runCli(argv, io = { stdout: process.stdout, stderr: process.stder
       maxLength: parsed.maxLength,
       tags: parsed.tags,
       pinnedConstraints: parsed.pinnedConstraints,
+      availableTargets: parsed.targets,
+      routingEnabled: parsed.routingEnabled,
+      routingPriority: parsed.routingPriority,
+      routingTopK: parsed.routingTopK,
+      targetHints: parsed.targetHints,
+      workloadBias: parsed.workloadBias,
       debug: parsed.debug,
       plainOutput: parsed.plain,
       maxTotalTokens: parsed.maxTotalTokens,
@@ -1456,6 +1696,10 @@ async function runCli(argv, io = { stdout: process.stdout, stderr: process.stder
 `);
     io.stdout.write(`provider=${result.provider} model=${result.model} tokens=${result.estimatedTokensAfter.total} savings=${result.tokenSavings}
 `);
+    if (result.selectedTarget) {
+      io.stdout.write(`selected_target=${formatTarget(result.selectedTarget)}
+`);
+    }
     if (result.warnings.length > 0) {
       io.stdout.write(`warnings=${result.warnings.join(" | ")}
 `);
@@ -1478,7 +1722,10 @@ function parseOptimizeArgs(args) {
     bypassOptimization: false,
     help: false,
     tags: [],
-    pinnedConstraints: []
+    pinnedConstraints: [],
+    targets: [],
+    targetHints: [],
+    routingEnabled: true
   };
   const positionals = [];
   for (let index = 0; index < args.length; index += 1) {
@@ -1517,6 +1764,24 @@ function parseOptimizeArgs(args) {
       case "--pin-constraint":
         parsed.pinnedConstraints.push(args[++index]);
         break;
+      case "--target":
+        parsed.targets.push(parseTargetCandidate(args[++index], parsed.targets.length));
+        break;
+      case "--target-hint":
+        parsed.targetHints.push(args[++index]);
+        break;
+      case "--routing-priority":
+        parsed.routingPriority = args[++index];
+        break;
+      case "--routing-top-k":
+        parsed.routingTopK = Number(args[++index]);
+        break;
+      case "--workload-bias":
+        parsed.workloadBias = args[++index];
+        break;
+      case "--no-routing":
+        parsed.routingEnabled = false;
+        break;
       case "--host":
         parsed.host = args[++index];
         break;
@@ -1589,6 +1854,12 @@ function getHelpText() {
     "  --max-length <n>",
     "  --tag <value>             Repeatable",
     "  --pin-constraint <text>   Repeatable",
+    "  --target <provider:model> Repeatable",
+    "  --target-hint <value>     Repeatable",
+    "  --routing-priority <value>",
+    "  --routing-top-k <n>",
+    "  --workload-bias <code_first>",
+    "  --no-routing",
     "  --host <url>",
     "  --store <local|sqlite>",
     "  --storage-dir <path>",
@@ -1606,6 +1877,20 @@ function getHelpText() {
     "  --bypass-optimization"
   ].join("\n");
 }
+function parseTargetCandidate(raw, index) {
+  const [provider, ...modelParts] = raw.split(":");
+  const model = modelParts.join(":").trim();
+  return {
+    provider: provider.trim(),
+    model,
+    label: raw,
+    costRank: index + 1,
+    latencyRank: index + 1
+  };
+}
+function formatTarget(target) {
+  return target.label ?? `${target.provider}:${target.model}`;
+}
 async function readStdin(stdin = process.stdin) {
   if (!stdin || stdin.isTTY) {
     return "";