npm - omnius - Versions diffs - 1.0.169 → 1.0.170 - Mend

omnius 1.0.169 → 1.0.170

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (3) hide show

package/dist/index.js CHANGED Viewed

@@ -615859,9 +615859,10 @@ function buildRealtimeSystemPrompt(opts) {
       `- Produce one natural spoken turn, normally ${maxReplyWords} words or fewer.`,
       "- Use one sentence when possible; two short sentences only when repair or confirmation needs it.",
       "- Lead with the answer. Do not preface with status, analysis, summaries, or implementation narration.",
-      "- No markdown, bullets, tables, headings, citations, code blocks, JSON, or labels like 'Assistant:'.",
+      "- No markdown, bullets, tables, headings, citations, inline code, code blocks, JSON, or labels like 'Assistant:'.",
       "- Sound like a person on a live call: brief acknowledgment, direct answer, one focused follow-up only if needed.",
       "- If the ASR text is garbled or underspecified, ask a single compact repair question.",
+      "- Do not invent app modes, method names, settings, or implementation details when the caller has not supplied them.",
       "- Do not mention ASR, TTS, prompts, realtime mode, hidden reasoning, tools, or policy unless the caller explicitly asks.",
       "- If a request needs work outside this text-only exchange, say the next handoff in one short sentence."
     ].join("\n"),
@@ -615952,7 +615953,7 @@ function wordParts(text) {
 }
 function finalizeRealtimeReply(text, opts = {}) {
   const maxWords = clampInt2(opts.maxReplyWords, DEFAULT_REALTIME_MAX_REPLY_WORDS, 8, 80);
-  let clean5 = stripHiddenThinking(String(text ?? "")).replace(/```[\s\S]*?```/g, "").split("\n").map((line) => line.replace(/^\s*(?:[-*]+|\d+[.)])\s+/, "").trim()).filter(Boolean).join(" ").replace(/^(?:assistant|omnius|agent)\s*:\s*/i, "").replace(/\s+/g, " ").trim();
+  let clean5 = stripHiddenThinking(String(text ?? "")).replace(/```[\s\S]*?```/g, "").split("\n").map((line) => line.replace(/^\s*(?:[-*]+|\d+[.)])\s+/, "").trim()).filter(Boolean).join(" ").replace(/^(?:assistant|omnius|agent)\s*:\s*/i, "").replace(/`([^`]+)`/g, "$1").replace(/\s+/g, " ").trim();
   if (!clean5) return "I didn't catch that. Can you say it again?";
   const sentences = clean5.match(/[^.!?]+[.!?]+(?=\s|$)|[^.!?]+$/g) ?? [clean5];
   const selected = [];
@@ -657279,6 +657280,49 @@ function bodyString(body, keys) {
   }
   return "";
 }
+function realtimeFallbackCacheKey(ollamaUrl, missingModel) {
+  return `${ollamaUrl}
+${missingModel}`;
+}
+function isOllamaMissingModelError(body) {
+  return /model ['\"]?[^'\"]+['\"]? not found/i.test(body);
+}
+async function resolveRealtimeOllamaFallbackModel(ollamaUrl, timeoutMs, missingModel) {
+  try {
+    const cacheKey = realtimeFallbackCacheKey(ollamaUrl, missingModel);
+    const cached = realtimeOllamaFallbackCache.get(cacheKey);
+    if (cached) return cached;
+    const result = await ollamaRequest(ollamaUrl, "/api/tags", "GET", void 0, Math.min(timeoutMs, 1e4));
+    if (result.status >= 400) return null;
+    const parsed = JSON.parse(result.body);
+    const names = (parsed.models ?? []).map((entry) => typeof entry.name === "string" ? entry.name : typeof entry.model === "string" ? entry.model : "").filter(Boolean);
+    if (!names.length) return null;
+    const remember = (name10) => {
+      realtimeOllamaFallbackCache.set(cacheKey, name10);
+      return name10;
+    };
+    const exactLatest = `${missingModel}:latest`;
+    if (names.includes(exactLatest)) return remember(exactLatest);
+    const preferred = [
+      "qwen3.5-9b-r10:q4km",
+      "open-agents-qwen35-9b-r10-q4km:latest",
+      "open-agents-qwen35-9b-r10-parsed-q4km:latest",
+      "open-agents-qwen35-9b-r9-q4km:latest",
+      "qwen3:8b",
+      "open-agents-qwen3-8b:latest",
+      "omnius-qwen36-35b:latest",
+      "open-agents-qwen36:latest",
+      "qwen3.6:35b"
+    ];
+    for (const name10 of preferred) {
+      if (names.includes(name10)) return remember(name10);
+    }
+    const fallback = names.find((name10) => /qwen/i.test(name10) && !/embed|vision/i.test(name10)) ?? names.find((name10) => !/embed|vision|moondream/i.test(name10)) ?? null;
+    return fallback ? remember(fallback) : null;
+  } catch {
+    return null;
+  }
+}
 function realtimeEndpointMessages(body) {
   const messages2 = [];
   const suppliedSoul = bodyString(body, ["soul_md", "soul", "soulMd"]);
@@ -657305,13 +657349,14 @@ ${suppliedContext}` });
 }
 async function completeRealtimeTextOnly(opts) {
   const cfg = loadConfig();
-  const model = bodyString(opts.body, ["model"]) || cfg.model;
+  const requestedModel = bodyString(opts.body, ["model"]);
+  const model = requestedModel || opts.defaultModel || cfg.model;
   const route = resolveModelEndpoint(model);
   const limitErr = route?.endpoint ? checkEndpointRateLimit(route.endpoint) : null;
   if (limitErr) throw new Error(limitErr);
   const targetUrl = route?.endpoint.url ?? opts.ollamaUrl;
-  const targetType = route?.endpoint.type ?? cfg.backendType ?? "ollama";
-  const originalModel = route?.originalId ?? model.replace(/^[a-z]+\//, "");
+  const targetType = route?.endpoint.type ?? opts.defaultBackendType ?? cfg.backendType ?? "ollama";
+  let originalModel = route?.originalId ?? model.replace(/^[a-z]+\//, "");
   const realtimeOpts = {
     ...realtimeOptionsFromBody(opts.body, process.cwd(), opts.sessionId),
     surface: "voice_adapter"
@@ -657333,13 +657378,24 @@ async function completeRealtimeTextOnly(opts) {
   }
   const maxTokens = typeof requestBody["max_tokens"] === "number" ? requestBody["max_tokens"] : 120;
   const temperature = typeof requestBody["temperature"] === "number" ? requestBody["temperature"] : 0.6;
-  const result = await ollamaRequest(targetUrl, "/api/chat", "POST", JSON.stringify({
-    model: originalModel,
+  if (!requestedModel) {
+    originalModel = realtimeOllamaFallbackCache.get(realtimeFallbackCacheKey(targetUrl, originalModel)) ?? originalModel;
+  }
+  const makeOllamaChatBody = (modelName) => JSON.stringify({
+    model: modelName,
     messages: requestBody["messages"],
     stream: false,
     think: false,
     options: { temperature, num_predict: maxTokens }
-  }), timeoutMs, route?.endpoint);
+  });
+  let result = await ollamaRequest(targetUrl, "/api/chat", "POST", makeOllamaChatBody(originalModel), timeoutMs, route?.endpoint);
+  if (result.status >= 400 && !requestedModel && isOllamaMissingModelError(result.body)) {
+    const fallbackModel = await resolveRealtimeOllamaFallbackModel(targetUrl, timeoutMs, originalModel);
+    if (fallbackModel && fallbackModel !== originalModel) {
+      originalModel = fallbackModel;
+      result = await ollamaRequest(targetUrl, "/api/chat", "POST", makeOllamaChatBody(originalModel), timeoutMs, route?.endpoint);
+    }
+  }
   if (result.status >= 400) throw new Error(`Backend HTTP ${result.status}: ${result.body.slice(0, 300)}`);
   const parsed = JSON.parse(result.body);
   const rawReply = String(parsed?.message?.content ?? "").trim();
@@ -657354,7 +657410,7 @@ async function completeRealtimeTextOnly(opts) {
     }
   };
 }
-async function handleRealtimeText(req2, res, ollamaUrl) {
+async function handleRealtimeText(req2, res, ollamaUrl, defaults3 = {}) {
   const body = await parseJsonBody(req2);
   if (!body || typeof body !== "object") {
     jsonResponse(res, 400, { error: "invalid_request", message: "Expected a JSON object." });
@@ -657367,7 +657423,14 @@ async function handleRealtimeText(req2, res, ollamaUrl) {
   }
   try {
     const sessionId = typeof body["session_id"] === "string" ? body["session_id"] : void 0;
-    const result = await completeRealtimeTextOnly({ body, messages: messages2, ollamaUrl, sessionId });
+    const result = await completeRealtimeTextOnly({
+      body,
+      messages: messages2,
+      ollamaUrl,
+      defaultModel: defaults3.model,
+      defaultBackendType: defaults3.backendType,
+      sessionId
+    });
     const wantsPlain = String(req2.headers["accept"] ?? "").includes("text/plain") || body["format"] === "text";
     if (wantsPlain) {
       res.writeHead(200, { "Content-Type": "text/plain; charset=utf-8", "Cache-Control": "no-store" });
@@ -660331,7 +660394,7 @@ async function handlePostCommand(res, cmd) {
     });
   }
 }
-async function handleRequest(req2, res, ollamaUrl, verbose) {
+async function handleRequest(req2, res, ollamaUrl, verbose, runtimeDefaults = {}) {
   try {
     const _liveCfg = loadConfig();
     if (_liveCfg.backendUrl) ollamaUrl = _liveCfg.backendUrl;
@@ -660606,7 +660669,7 @@ async function handleRequest(req2, res, ollamaUrl, verbose) {
         status = 401;
         return;
       }
-      await handleRealtimeText(req2, res, ollamaUrl);
+      await handleRealtimeText(req2, res, ollamaUrl, runtimeDefaults);
       return;
     }
     if (pathname === "/v1/files" && method === "GET") {
@@ -662614,13 +662677,14 @@ ${historyLines}
       }));
     }
   } finally {
-    recordMetric(method, pathname, status);
+    const finalStatus = res.headersSent ? res.statusCode : status;
+    recordMetric(method, pathname, finalStatus);
     const latencyMs = Math.round(performance.now() - startMs);
     logRequest({
       requestId,
       method,
       path: pathname,
-      status,
+      status: finalStatus,
       latencyMs,
       user: req2._authUser ?? "anonymous",
       scope: req2._authScope ?? "none"
@@ -662630,7 +662694,7 @@ ${historyLines}
       requestId,
       method,
       path: pathname,
-      status,
+      status: finalStatus,
       user: req2._authUser ?? "anonymous",
       scope: req2._authScope ?? "none",
       latencyMs: Math.round(performance.now() - startMs),
@@ -663552,7 +663616,10 @@ function startApiServer(options2 = {}) {
       }
     } catch {
     }
-    handleRequest(req2, res, ollamaUrl, verbose).catch((err) => {
+    handleRequest(req2, res, ollamaUrl, verbose, {
+      model: options2.model ?? config.model,
+      backendType: options2.backendType ?? config.backendType
+    }).catch((err) => {
       metrics.totalErrors++;
       try {
         jsonResponse(res, 500, {
@@ -664374,7 +664441,9 @@ async function apiServeCommand(opts, config) {
     port: opts.port,
     // Let startApiServer() parse OMNIUS_HOST env if no explicit --port
     verbose: opts.verbose,
-    ollamaUrl: config.backendUrl
+    ollamaUrl: config.backendUrl,
+    model: config.model,
+    backendType: config.backendType
   });
   await new Promise((resolve57) => {
     server2.on("close", resolve57);
@@ -664429,7 +664498,7 @@ function setTimerEnabled(name10, enabled2) {
     return false;
   }
 }
-var require4, NEXUS_DIRECTORY_ORIGIN2, NEXUS_SPONSORS_URL2, endpointRegistry, modelRouteMap, endpointUsage, _lastEndpointDiagnostics, BACKEND_TIMEOUT_DEFAULT_MS, BACKEND_TIMEOUT_MAX_MS, MODEL_LIST_TIMEOUT_DEFAULT_MS, metrics, startedAt, runningProcesses, perKeyUsage, CRON_MARKER2;
+var require4, NEXUS_DIRECTORY_ORIGIN2, NEXUS_SPONSORS_URL2, endpointRegistry, modelRouteMap, endpointUsage, _lastEndpointDiagnostics, BACKEND_TIMEOUT_DEFAULT_MS, BACKEND_TIMEOUT_MAX_MS, MODEL_LIST_TIMEOUT_DEFAULT_MS, metrics, startedAt, realtimeOllamaFallbackCache, runningProcesses, perKeyUsage, CRON_MARKER2;
 var init_serve = __esm({
   "packages/cli/src/api/serve.ts"() {
     "use strict";
@@ -664477,6 +664546,7 @@ var init_serve = __esm({
       totalErrors: 0
     };
     startedAt = Date.now();
+    realtimeOllamaFallbackCache = /* @__PURE__ */ new Map();
     runningProcesses = /* @__PURE__ */ new Map();
     perKeyUsage = /* @__PURE__ */ new Map();
     CRON_MARKER2 = "# OMNIUS-SCHEDULED:";

package/npm-shrinkwrap.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
   "name": "omnius",
-  "version": "1.0.169",
+  "version": "1.0.170",
   "lockfileVersion": 3,
   "requires": true,
   "packages": {
     "": {
       "name": "omnius",
-      "version": "1.0.169",
+      "version": "1.0.170",
       "bundleDependencies": [
         "image-to-ascii"
       ],

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "omnius",
-  "version": "1.0.169",
+  "version": "1.0.170",
   "description": "AI coding agent powered by open-source models (Ollama/vLLM) — interactive TUI with agentic tool-calling loop",
   "type": "module",
   "main": "./dist/index.js",