npm - @juspay/neurolink - Versions diffs - 9.59.5 → 9.60.0 - Mend

@juspay/neurolink 9.59.5 → 9.60.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (61) hide show

package/CHANGELOG.md +12 -0
package/README.md +11 -7
package/dist/adapters/providerImageAdapter.js +52 -2
package/dist/browser/neurolink.min.js +352 -352
package/dist/cli/factories/commandFactory.js +15 -1
package/dist/cli/utils/interactiveSetup.js +64 -0
package/dist/constants/contextWindows.d.ts +5 -1
package/dist/constants/contextWindows.js +67 -3
package/dist/constants/enums.d.ts +52 -0
package/dist/constants/enums.js +63 -0
package/dist/core/baseProvider.d.ts +15 -6
package/dist/core/baseProvider.js +28 -0
package/dist/factories/providerRegistry.js +25 -1
package/dist/lib/adapters/providerImageAdapter.js +52 -2
package/dist/lib/constants/contextWindows.d.ts +5 -1
package/dist/lib/constants/contextWindows.js +67 -3
package/dist/lib/constants/enums.d.ts +52 -0
package/dist/lib/constants/enums.js +63 -0
package/dist/lib/core/baseProvider.d.ts +15 -6
package/dist/lib/core/baseProvider.js +28 -0
package/dist/lib/factories/providerRegistry.js +25 -1
package/dist/lib/neurolink.js +1 -1
package/dist/lib/providers/deepseek.d.ts +29 -0
package/dist/lib/providers/deepseek.js +216 -0
package/dist/lib/providers/index.d.ts +4 -0
package/dist/lib/providers/index.js +4 -0
package/dist/lib/providers/llamaCpp.d.ts +34 -0
package/dist/lib/providers/llamaCpp.js +315 -0
package/dist/lib/providers/lmStudio.d.ts +34 -0
package/dist/lib/providers/lmStudio.js +306 -0
package/dist/lib/providers/nvidiaNim.d.ts +31 -0
package/dist/lib/providers/nvidiaNim.js +354 -0
package/dist/lib/proxy/proxyFetch.d.ts +9 -0
package/dist/lib/proxy/proxyFetch.js +6 -1
package/dist/lib/types/providers.d.ts +37 -2
package/dist/lib/types/providers.js +1 -1
package/dist/lib/utils/modelChoices.js +68 -4
package/dist/lib/utils/pricing.d.ts +5 -0
package/dist/lib/utils/pricing.js +94 -3
package/dist/lib/utils/providerConfig.d.ts +16 -0
package/dist/lib/utils/providerConfig.js +82 -0
package/dist/neurolink.js +1 -1
package/dist/providers/deepseek.d.ts +29 -0
package/dist/providers/deepseek.js +215 -0
package/dist/providers/index.d.ts +4 -0
package/dist/providers/index.js +4 -0
package/dist/providers/llamaCpp.d.ts +34 -0
package/dist/providers/llamaCpp.js +314 -0
package/dist/providers/lmStudio.d.ts +34 -0
package/dist/providers/lmStudio.js +305 -0
package/dist/providers/nvidiaNim.d.ts +31 -0
package/dist/providers/nvidiaNim.js +353 -0
package/dist/proxy/proxyFetch.d.ts +9 -0
package/dist/proxy/proxyFetch.js +6 -1
package/dist/types/providers.d.ts +37 -2
package/dist/utils/modelChoices.js +68 -4
package/dist/utils/pricing.d.ts +5 -0
package/dist/utils/pricing.js +94 -3
package/dist/utils/providerConfig.d.ts +16 -0
package/dist/utils/providerConfig.js +82 -0
package/package.json +19 -12

package/dist/cli/factories/commandFactory.js CHANGED Viewed

@@ -51,6 +51,16 @@ export class CLICommandFactory {
                 "mistral",
                 "litellm",
                 "sagemaker",
+                "deepseek",
+                "ds",
+                "nvidia-nim",
+                "nim",
+                "nvidia",
+                "lm-studio",
+                "lmstudio",
+                "lms",
+                "llamacpp",
+                "llama.cpp",
             ],
             default: "auto",
             description: "AI provider to use (auto-selects best available). Use 'anthropic-subscription' for Claude subscription plans.",
@@ -1322,6 +1332,10 @@ export class CLICommandFactory {
                         "vertex",
                         "huggingface",
                         "mistral",
+                        "deepseek",
+                        "nvidia-nim",
+                        "lm-studio",
+                        "llamacpp",
                     ],
                 })
                     .option("list", {
@@ -2877,7 +2891,7 @@ export class CLICommandFactory {
                 "        generate|gen)\n" +
                 '            case "${prev}" in\n' +
                 "                --provider|-p)\n" +
-                '                    COMPREPLY=( $(compgen -W "auto openai bedrock vertex googleVertex anthropic azure google-ai huggingface ollama mistral litellm" -- ${cur}) )\n' +
+                '                    COMPREPLY=( $(compgen -W "auto openai openai-compatible openrouter or bedrock vertex googleVertex anthropic anthropic-subscription azure google-ai google-ai-studio huggingface ollama mistral litellm sagemaker deepseek ds nvidia-nim nim lm-studio lmstudio llamacpp llama.cpp" -- ${cur}) )\n' +
                 "                    return 0\n" +
                 "                    ;;\n" +
                 "                --format|-f|--output-format)\n" +

package/dist/cli/utils/interactiveSetup.js CHANGED Viewed

@@ -204,6 +204,70 @@ export const PROVIDER_CONFIGS = [
             },
         ],
     },
+    {
+        id: AIProviderName.DEEPSEEK,
+        name: "DeepSeek",
+        description: "Cost-efficient frontier models (deepseek-chat V3, deepseek-reasoner R1)",
+        envVars: [
+            {
+                key: "DEEPSEEK_API_KEY",
+                prompt: "DeepSeek API Key (get one at https://platform.deepseek.com)",
+                secure: true,
+            },
+        ],
+    },
+    {
+        id: AIProviderName.NVIDIA_NIM,
+        name: "NVIDIA NIM",
+        description: "NVIDIA-hosted Llama, Nemotron, Mistral, and DeepSeek-R1 models",
+        envVars: [
+            {
+                key: "NVIDIA_NIM_API_KEY",
+                prompt: "NVIDIA NIM API Key (get one at https://build.nvidia.com/settings/api-keys)",
+                secure: true,
+            },
+        ],
+    },
+    {
+        id: AIProviderName.LM_STUDIO,
+        name: "LM Studio",
+        description: "Local inference via LM Studio desktop app (https://lmstudio.ai)",
+        envVars: [
+            {
+                key: "LM_STUDIO_BASE_URL",
+                prompt: "LM Studio server URL",
+                default: "http://localhost:1234/v1",
+                secure: false,
+                optional: true,
+            },
+            {
+                key: "LM_STUDIO_API_KEY",
+                prompt: "LM Studio API Key (leave blank — only needed behind an auth proxy)",
+                secure: false,
+                optional: true,
+            },
+        ],
+    },
+    {
+        id: AIProviderName.LLAMACPP,
+        name: "llama.cpp",
+        description: "Local inference via llama-server (https://github.com/ggerganov/llama.cpp). Start with: ./llama-server -m model.gguf --port 8080 --jinja",
+        envVars: [
+            {
+                key: "LLAMACPP_BASE_URL",
+                prompt: "llama-server URL",
+                default: "http://localhost:8080/v1",
+                secure: false,
+                optional: true,
+            },
+            {
+                key: "LLAMACPP_API_KEY",
+                prompt: "llama-server API Key (leave blank — only needed behind an auth proxy)",
+                secure: false,
+                optional: true,
+            },
+        ],
+    },
 ];
 /**
  * Run the interactive setup wizard

package/dist/constants/contextWindows.d.ts CHANGED Viewed

@@ -36,9 +36,13 @@ export declare function getContextWindowSize(provider: string, model?: string):
 /**
  * Calculate output token reserve for a given context window.
  *
+ * Returns the *real* token count that will be reserved for output so callers
+ * (`getAvailableInputTokens`, `BudgetChecker`, conversation-memory pruning, file
+ * summarisation) compute input budget against the actual outgoing maxTokens.
+ *
  * @param contextWindow - Total context window size
  * @param maxTokens - Explicit maxTokens from user config (if set)
- * @returns Number of tokens reserved for output
+ * @returns Number of tokens reserved for output (matches what's sent upstream)
  */
 export declare function getOutputReserve(contextWindow: number, maxTokens?: number): number;
 /**

package/dist/constants/contextWindows.js CHANGED Viewed

@@ -23,6 +23,34 @@ export const DEFAULT_OUTPUT_RESERVE_RATIO = 0.35;
  * The "_default" key is the fallback for unknown models within a provider.
  */
 export const MODEL_CONTEXT_WINDOWS = {
+    deepseek: {
+        _default: 64_000,
+        "deepseek-chat": 64_000,
+        "deepseek-reasoner": 64_000,
+    },
+    "nvidia-nim": {
+        _default: 128_000,
+        "meta/llama-3.3-70b-instruct": 128_000,
+        "meta/llama-3.1-405b-instruct": 128_000,
+        "meta/llama-3.1-70b-instruct": 128_000,
+        "meta/llama-3.2-90b-vision-instruct": 128_000,
+        "meta/llama-3.2-11b-vision-instruct": 128_000,
+        "nvidia/llama-3.3-nemotron-super-49b-v1": 128_000,
+        "nvidia/llama-3.1-nemotron-nano-8b-v1": 128_000,
+        "nvidia/llama-3.1-nemotron-70b-instruct": 128_000,
+        "deepseek-ai/deepseek-r1": 128_000,
+        "deepseek-ai/deepseek-r1-distill-llama-70b": 128_000,
+        "mistralai/mixtral-8x22b-instruct-v0.1": 65_536,
+        "mistralai/mixtral-8x7b-instruct-v0.1": 32_768,
+        "microsoft/phi-4": 16_384,
+        "google/gemma-3-27b-it": 8_192,
+    },
+    "lm-studio": {
+        _default: 8_192,
+    },
+    llamacpp: {
+        _default: 8_192,
+    },
     anthropic: {
         _default: 200_000,
         // Claude 4.6 (Feb 2026) — 1M context window
@@ -223,6 +251,36 @@ export const MODEL_CONTEXT_WINDOWS = {
         "qwen3-vl-8b-instruct": 32_768,
     },
 };
+/**
+ * Map of provider aliases to canonical MODEL_CONTEXT_WINDOWS keys.
+ *
+ * Callers reach `getContextWindowSize` via the unnormalized form on
+ * `options.provider` (e.g. CLI `--provider lmstudio`, alias `llama.cpp`),
+ * and `ProviderFactory.normalizeProviderName` runs only at instantiation —
+ * its output never reaches budget calculations. Without this normalization
+ * those alias forms miss the table and fall back to `DEFAULT_CONTEXT_WINDOW`,
+ * understating the budget for LM Studio / llama.cpp / NVIDIA NIM.
+ *
+ * The keys here are the result of stripping non-alpha characters, so
+ * `lm-studio` -> `lmstudio`, `nvidia-nim` -> `nvidianim`, `llama.cpp` -> `llamacpp`.
+ */
+const PROVIDER_ALIAS_MAP = {
+    googleaistudio: "google-ai-studio",
+    lmstudio: "lm-studio",
+    llamacpp: "llamacpp",
+    nvidianim: "nvidia-nim",
+    nim: "nvidia-nim",
+    nvidia: "nvidia-nim",
+    deepseek: "deepseek",
+};
+function normalizeProviderForLookup(provider) {
+    const stripped = provider.toLowerCase().replace(/[^a-z]/g, "");
+    // On alias miss, return the *stripped* key — not the raw input — so case /
+    // separator variants ("OpenAI", "open-ai", "Vertex AI") still find their
+    // table entry under the lowercase canonical key instead of falling through
+    // to DEFAULT_CONTEXT_WINDOW.
+    return PROVIDER_ALIAS_MAP[stripped] ?? stripped;
+}
 /**
  * Resolve context window size for a provider/model combination.
  *
@@ -252,8 +310,10 @@ export function getContextWindowSize(provider, model) {
             // Dynamic registry not initialized yet — fall through to static lookup
         }
     }
-    // Static fallback chain
-    const providerWindows = MODEL_CONTEXT_WINDOWS[provider];
+    // Static fallback chain — normalize aliases first so "lmstudio" / "llama.cpp" /
+    // "nvidianim" find their canonical entries instead of falling back to default.
+    const canonical = normalizeProviderForLookup(provider);
+    const providerWindows = MODEL_CONTEXT_WINDOWS[canonical] ?? MODEL_CONTEXT_WINDOWS[provider];
     if (!providerWindows) {
         return DEFAULT_CONTEXT_WINDOW;
     }
@@ -273,9 +333,13 @@ export function getContextWindowSize(provider, model) {
 /**
  * Calculate output token reserve for a given context window.
  *
+ * Returns the *real* token count that will be reserved for output so callers
+ * (`getAvailableInputTokens`, `BudgetChecker`, conversation-memory pruning, file
+ * summarisation) compute input budget against the actual outgoing maxTokens.
+ *
  * @param contextWindow - Total context window size
  * @param maxTokens - Explicit maxTokens from user config (if set)
- * @returns Number of tokens reserved for output
+ * @returns Number of tokens reserved for output (matches what's sent upstream)
  */
 export function getOutputReserve(contextWindow, maxTokens) {
     if (maxTokens !== undefined && maxTokens > 0) {

package/dist/constants/enums.d.ts CHANGED Viewed

@@ -15,6 +15,10 @@ export declare enum AIProviderName {
     MISTRAL = "mistral",
     LITELLM = "litellm",
     SAGEMAKER = "sagemaker",
+    DEEPSEEK = "deepseek",
+    NVIDIA_NIM = "nvidia-nim",
+    LM_STUDIO = "lm-studio",
+    LLAMACPP = "llamacpp",
     AUTO = "auto"
 }
 /**
@@ -622,6 +626,54 @@ export declare enum AnthropicBetaFeature {
     INTERLEAVED_THINKING = "interleaved-thinking-2025-05-14",
     FINE_GRAINED_STREAMING = "fine-grained-tool-streaming-2025-05-14"
 }
+/**
+ * Supported Models for DeepSeek
+ * Docs: https://api-docs.deepseek.com/quick_start/pricing
+ */
+export declare enum DeepSeekModels {
+    /** General-purpose chat (DeepSeek-V3) */
+    DEEPSEEK_CHAT = "deepseek-chat",
+    /** Reasoning model (DeepSeek-R1) — exposes reasoning_content */
+    DEEPSEEK_REASONER = "deepseek-reasoner"
+}
+/**
+ * Selected NVIDIA NIM Models
+ * Full catalog: https://build.nvidia.com/models
+ * Note: NIM hosts hundreds of models; pass arbitrary IDs via --model.
+ */
+export declare enum NvidiaNimModels {
+    LLAMA_3_3_70B_INSTRUCT = "meta/llama-3.3-70b-instruct",
+    LLAMA_3_1_405B_INSTRUCT = "meta/llama-3.1-405b-instruct",
+    LLAMA_3_1_70B_INSTRUCT = "meta/llama-3.1-70b-instruct",
+    LLAMA_3_2_90B_VISION = "meta/llama-3.2-90b-vision-instruct",
+    LLAMA_3_2_11B_VISION = "meta/llama-3.2-11b-vision-instruct",
+    NEMOTRON_SUPER_49B = "nvidia/llama-3.3-nemotron-super-49b-v1",
+    NEMOTRON_NANO_8B = "nvidia/llama-3.1-nemotron-nano-8b-v1",
+    NEMOTRON_70B_INSTRUCT = "nvidia/llama-3.1-nemotron-70b-instruct",
+    DEEPSEEK_R1 = "deepseek-ai/deepseek-r1",
+    DEEPSEEK_R1_DISTILL_LLAMA_70B = "deepseek-ai/deepseek-r1-distill-llama-70b",
+    MIXTRAL_8X22B_INSTRUCT = "mistralai/mixtral-8x22b-instruct-v0.1",
+    MIXTRAL_8X7B_INSTRUCT = "mistralai/mixtral-8x7b-instruct-v0.1",
+    PHI_4 = "microsoft/phi-4",
+    GEMMA_3_27B_IT = "google/gemma-3-27b-it",
+    GLM_4_5 = "z-ai/glm4.5"
+}
+/**
+ * LM Studio loads any GGUF model the user has downloaded.
+ * Default: empty string → triggers /v1/models auto-discovery.
+ */
+export declare enum LMStudioModels {
+    /** Sentinel value — triggers auto-discovery from /v1/models */
+    AUTO_DISCOVER = ""
+}
+/**
+ * llama.cpp serves a single model loaded at server startup.
+ * Default: empty string → uses whatever is loaded.
+ */
+export declare enum LlamaCppModels {
+    /** Sentinel value — uses the model loaded by the llama-server process */
+    AUTO_DISCOVER = ""
+}
 /**
  * Buffer time in milliseconds before token expiry to trigger refresh
  *

package/dist/constants/enums.js CHANGED Viewed

@@ -19,6 +19,10 @@ export var AIProviderName;
     AIProviderName["MISTRAL"] = "mistral";
     AIProviderName["LITELLM"] = "litellm";
     AIProviderName["SAGEMAKER"] = "sagemaker";
+    AIProviderName["DEEPSEEK"] = "deepseek";
+    AIProviderName["NVIDIA_NIM"] = "nvidia-nim";
+    AIProviderName["LM_STUDIO"] = "lm-studio";
+    AIProviderName["LLAMACPP"] = "llamacpp";
     AIProviderName["AUTO"] = "auto";
 })(AIProviderName || (AIProviderName = {}));
 /**
@@ -848,6 +852,65 @@ export var AnthropicBetaFeature;
     AnthropicBetaFeature["INTERLEAVED_THINKING"] = "interleaved-thinking-2025-05-14";
     AnthropicBetaFeature["FINE_GRAINED_STREAMING"] = "fine-grained-tool-streaming-2025-05-14";
 })(AnthropicBetaFeature || (AnthropicBetaFeature = {}));
+/**
+ * Supported Models for DeepSeek
+ * Docs: https://api-docs.deepseek.com/quick_start/pricing
+ */
+export var DeepSeekModels;
+(function (DeepSeekModels) {
+    /** General-purpose chat (DeepSeek-V3) */
+    DeepSeekModels["DEEPSEEK_CHAT"] = "deepseek-chat";
+    /** Reasoning model (DeepSeek-R1) — exposes reasoning_content */
+    DeepSeekModels["DEEPSEEK_REASONER"] = "deepseek-reasoner";
+})(DeepSeekModels || (DeepSeekModels = {}));
+/**
+ * Selected NVIDIA NIM Models
+ * Full catalog: https://build.nvidia.com/models
+ * Note: NIM hosts hundreds of models; pass arbitrary IDs via --model.
+ */
+export var NvidiaNimModels;
+(function (NvidiaNimModels) {
+    // Meta Llama
+    NvidiaNimModels["LLAMA_3_3_70B_INSTRUCT"] = "meta/llama-3.3-70b-instruct";
+    NvidiaNimModels["LLAMA_3_1_405B_INSTRUCT"] = "meta/llama-3.1-405b-instruct";
+    NvidiaNimModels["LLAMA_3_1_70B_INSTRUCT"] = "meta/llama-3.1-70b-instruct";
+    NvidiaNimModels["LLAMA_3_2_90B_VISION"] = "meta/llama-3.2-90b-vision-instruct";
+    NvidiaNimModels["LLAMA_3_2_11B_VISION"] = "meta/llama-3.2-11b-vision-instruct";
+    // NVIDIA Nemotron (reasoning)
+    NvidiaNimModels["NEMOTRON_SUPER_49B"] = "nvidia/llama-3.3-nemotron-super-49b-v1";
+    NvidiaNimModels["NEMOTRON_NANO_8B"] = "nvidia/llama-3.1-nemotron-nano-8b-v1";
+    NvidiaNimModels["NEMOTRON_70B_INSTRUCT"] = "nvidia/llama-3.1-nemotron-70b-instruct";
+    // DeepSeek hosted on NIM
+    NvidiaNimModels["DEEPSEEK_R1"] = "deepseek-ai/deepseek-r1";
+    NvidiaNimModels["DEEPSEEK_R1_DISTILL_LLAMA_70B"] = "deepseek-ai/deepseek-r1-distill-llama-70b";
+    // Mistral / Mixtral
+    NvidiaNimModels["MIXTRAL_8X22B_INSTRUCT"] = "mistralai/mixtral-8x22b-instruct-v0.1";
+    NvidiaNimModels["MIXTRAL_8X7B_INSTRUCT"] = "mistralai/mixtral-8x7b-instruct-v0.1";
+    // Microsoft Phi
+    NvidiaNimModels["PHI_4"] = "microsoft/phi-4";
+    // Google Gemma
+    NvidiaNimModels["GEMMA_3_27B_IT"] = "google/gemma-3-27b-it";
+    // Z.AI GLM
+    NvidiaNimModels["GLM_4_5"] = "z-ai/glm4.5";
+})(NvidiaNimModels || (NvidiaNimModels = {}));
+/**
+ * LM Studio loads any GGUF model the user has downloaded.
+ * Default: empty string → triggers /v1/models auto-discovery.
+ */
+export var LMStudioModels;
+(function (LMStudioModels) {
+    /** Sentinel value — triggers auto-discovery from /v1/models */
+    LMStudioModels["AUTO_DISCOVER"] = "";
+})(LMStudioModels || (LMStudioModels = {}));
+/**
+ * llama.cpp serves a single model loaded at server startup.
+ * Default: empty string → uses whatever is loaded.
+ */
+export var LlamaCppModels;
+(function (LlamaCppModels) {
+    /** Sentinel value — uses the model loaded by the llama-server process */
+    LlamaCppModels["AUTO_DISCOVER"] = "";
+})(LlamaCppModels || (LlamaCppModels = {}));
 // ============================================================================
 // ANTHROPIC OAUTH CONSTANTS
 // ============================================================================

package/dist/core/baseProvider.d.ts CHANGED Viewed

@@ -9,7 +9,7 @@ import { TelemetryHandler } from "./modules/TelemetryHandler.js";
  * Tools are integrated as first-class citizens - always available by default
  */
 export declare abstract class BaseProvider implements AIProvider {
-    protected readonly modelName: string;
+    protected modelName: string;
     protected readonly providerName: AIProviderName;
     protected readonly defaultTimeout: number;
     protected middlewareOptions?: MiddlewareFactoryOptions;
@@ -29,13 +29,22 @@ export declare abstract class BaseProvider implements AIProvider {
         traceId: string;
         parentSpanId: string;
     } | null): void;
-    private readonly messageBuilder;
-    private readonly streamHandler;
-    private readonly generationHandler;
-    protected readonly telemetryHandler: TelemetryHandler;
-    private readonly utilities;
+    private messageBuilder;
+    private streamHandler;
+    private generationHandler;
+    protected telemetryHandler: TelemetryHandler;
+    private utilities;
     private readonly toolsManager;
     constructor(modelName?: string, providerName?: AIProviderName, neurolink?: NeuroLink, middleware?: MiddlewareFactoryOptions);
+    /**
+     * Update modelName and rebuild composition handlers with the new value.
+     *
+     * Auto-discovery providers (lm-studio, llamacpp) call this once they have
+     * resolved the loaded model from `/v1/models`. Without this, handlers
+     * (TelemetryHandler, MessageBuilder, ...) keep the pre-discovery name and
+     * pricing / span / log metadata reports the stale value.
+     */
+    protected refreshHandlersForModel(model: string): void;
     /**
      * Check if this provider supports tool/function calling
      * Override in subclasses to disable tools for specific providers or models

package/dist/core/baseProvider.js CHANGED Viewed

@@ -23,6 +23,10 @@ import { Utilities } from "./modules/Utilities.js";
  * Tools are integrated as first-class citizens - always available by default
  */
 export class BaseProvider {
+    // Not `readonly` because providers that auto-discover the model from a
+    // /v1/models endpoint (lm-studio, llamacpp) need to update modelName after
+    // construction so handlers (TelemetryHandler, MessageBuilder) cache the
+    // resolved name. All other providers treat this as effectively readonly.
     modelName;
     providerName;
     defaultTimeout = 30000; // 30 seconds
@@ -43,6 +47,11 @@ export class BaseProvider {
         this._traceContext = ctx;
     }
     // Composition modules - Single Responsibility Principle
+    // Handlers below are not `readonly` so that providers which auto-discover
+    // their model after construction (lm-studio, llamacpp) can rebuild them
+    // via `refreshHandlersForModel(...)` and propagate the resolved name into
+    // pricing / telemetry / span attributes. All other providers leave these
+    // alone.
     messageBuilder;
     streamHandler;
     generationHandler;
@@ -67,6 +76,25 @@ export class BaseProvider {
             fixSchemaForOpenAIStrictMode: (schema) => this.fixSchemaForOpenAIStrictMode(schema),
         });
     }
+    /**
+     * Update modelName and rebuild composition handlers with the new value.
+     *
+     * Auto-discovery providers (lm-studio, llamacpp) call this once they have
+     * resolved the loaded model from `/v1/models`. Without this, handlers
+     * (TelemetryHandler, MessageBuilder, ...) keep the pre-discovery name and
+     * pricing / span / log metadata reports the stale value.
+     */
+    refreshHandlersForModel(model) {
+        this.modelName = model;
+        trace
+            .getSpan(context.active())
+            ?.setAttribute(ATTR.GEN_AI_MODEL, this.modelName);
+        this.messageBuilder = new MessageBuilder(this.providerName, this.modelName);
+        this.streamHandler = new StreamHandler(this.providerName, this.modelName);
+        this.telemetryHandler = new TelemetryHandler(this.providerName, this.modelName, this.neurolink);
+        this.generationHandler = new GenerationHandler(this.providerName, this.modelName, () => this.supportsTools(), (options, type) => this.telemetryHandler.getTelemetryConfig(options, type), (toolCalls, toolResults, options, timestamp) => this.handleToolExecutionStorage(toolCalls, toolResults, options, timestamp), () => this.neurolink?.getEventEmitter());
+        this.utilities = new Utilities(this.providerName, this.modelName, this.defaultTimeout, this.middlewareOptions);
+    }
     /**
      * Check if this provider supports tool/function calling
      * Override in subclasses to disable tools for specific providers or models

package/dist/factories/providerRegistry.js CHANGED Viewed

@@ -1,6 +1,6 @@
 import { ProviderFactory } from "./providerFactory.js";
 import { logger } from "../utils/logger.js";
-import { AIProviderName, GoogleAIModels, OpenAIModels, AnthropicModels, VertexModels, MistralModels, OllamaModels, LiteLLMModels, HuggingFaceModels, } from "../constants/enums.js";
+import { AIProviderName, GoogleAIModels, OpenAIModels, AnthropicModels, VertexModels, MistralModels, OllamaModels, LiteLLMModels, HuggingFaceModels, DeepSeekModels, NvidiaNimModels, } from "../constants/enums.js";
 /**
  * Provider Registry - registers all providers with the factory
  * This is where we migrate providers one by one to the new pattern
@@ -128,6 +128,30 @@ export class ProviderRegistry {
                 const { AmazonSageMakerProvider } = await import("../providers/amazonSagemaker.js");
                 return new AmazonSageMakerProvider(modelName, undefined, region, undefined, sagemakerCreds);
             }, process.env.SAGEMAKER_MODEL || "sagemaker-model", ["sagemaker", "aws-sagemaker"]);
+            // Register DeepSeek provider
+            ProviderFactory.registerProvider(AIProviderName.DEEPSEEK, async (modelName, _providerName, sdk, _region, credentials) => {
+                const deepseekCreds = credentials;
+                const { DeepSeekProvider } = await import("../providers/deepseek.js");
+                return new DeepSeekProvider(modelName, sdk, undefined, deepseekCreds);
+            }, process.env.DEEPSEEK_MODEL || DeepSeekModels.DEEPSEEK_CHAT, ["deepseek", "ds"]);
+            // Register NVIDIA NIM provider
+            ProviderFactory.registerProvider(AIProviderName.NVIDIA_NIM, async (modelName, _providerName, sdk, _region, credentials) => {
+                const nimCreds = credentials;
+                const { NvidiaNimProvider } = await import("../providers/nvidiaNim.js");
+                return new NvidiaNimProvider(modelName, sdk, undefined, nimCreds);
+            }, process.env.NVIDIA_NIM_MODEL || NvidiaNimModels.LLAMA_3_3_70B_INSTRUCT, ["nvidia", "nim", "nvidia-nim"]);
+            // Register LM Studio provider (local)
+            ProviderFactory.registerProvider(AIProviderName.LM_STUDIO, async (modelName, _providerName, sdk, _region, credentials) => {
+                const lmStudioCreds = credentials;
+                const { LMStudioProvider } = await import("../providers/lmStudio.js");
+                return new LMStudioProvider(modelName, sdk, undefined, lmStudioCreds);
+            }, process.env.LM_STUDIO_MODEL || undefined, ["lmstudio", "lm-studio", "lms"]);
+            // Register llama.cpp provider (local)
+            ProviderFactory.registerProvider(AIProviderName.LLAMACPP, async (modelName, _providerName, sdk, _region, credentials) => {
+                const llamaCppCreds = credentials;
+                const { LlamaCppProvider } = await import("../providers/llamaCpp.js");
+                return new LlamaCppProvider(modelName, sdk, undefined, llamaCppCreds);
+            }, process.env.LLAMACPP_MODEL || undefined, ["llamacpp", "llama.cpp", "llama-cpp"]);
             logger.debug("All providers registered successfully");
             this.registered = true;
             // ===== TTS HANDLER REGISTRATION =====

package/dist/lib/adapters/providerImageAdapter.js CHANGED Viewed

@@ -50,7 +50,19 @@ const PROXY_PROVIDERS = new Set(["litellm", "openrouter"]);
  */
 function normalizeVisionProvider(provider) {
     const lower = provider.toLowerCase();
-    switch (lower) {
+    // Strip non-alpha characters so alias forms (e.g. "lm-studio", "lm_studio",
+    // "llama.cpp", "nvidia_nim") all collapse onto a canonical key. Mirrors
+    // the alias-normalization pattern used in pricing.ts and contextWindows.ts.
+    const stripped = lower.replace(/[^a-z]/g, "");
+    switch (stripped) {
+        case "lmstudio":
+            return "lm-studio";
+        case "llamacpp":
+            return "llamacpp";
+        case "nvidianim":
+            return "nvidia-nim";
+        case "googleaistudio":
+            return "google-ai";
         case "or":
             return "openrouter";
         default:
@@ -436,6 +448,32 @@ const VISION_CAPABILITIES = {
         "meta-llama-4-maverick-17b-128e-instruct",
         "meta-llama-4-scout-17b-16e-instruct",
     ],
+    // DeepSeek has no vision support — empty list
+    deepseek: [],
+    "nvidia-nim": [
+        "meta/llama-3.2-90b-vision-instruct",
+        "meta/llama-3.2-11b-vision-instruct",
+    ],
+    // LM Studio + llama.cpp: vision depends on the loaded model.
+    // Substrings must point at known multimodal variants only — bare
+    // "llama-3.2" matches the text-only Llama-3.2-1B/3B chat models.
+    "lm-studio": [
+        "llava",
+        "llama-3.2-11b-vision",
+        "llama-3.2-90b-vision",
+        "vision-instruct",
+        "qwen2-vl",
+        "qwen2.5-vl",
+        "phi-3-vision",
+    ],
+    llamacpp: [
+        "llava",
+        "llama-3.2-11b-vision",
+        "llama-3.2-90b-vision",
+        "vision-instruct",
+        "qwen2-vl",
+        "phi-3-vision",
+    ],
 };
 /**
  * Provider Image Adapter - Smart routing and formatting
@@ -535,6 +573,13 @@ export class ProviderImageAdapter {
             if (!supportedModels) {
                 return false;
             }
+            // An empty list means the provider has NO vision support (e.g. deepseek).
+            // Without this guard, the no-model branch below would return `true` for
+            // every provider that has an entry in VISION_CAPABILITIES — even an empty
+            // one — letting vision requests through to a text-only API.
+            if (supportedModels.length === 0) {
+                return false;
+            }
             if (!model) {
                 return true; // Provider supports vision, but need to check specific model
             }
@@ -562,7 +607,12 @@ export class ProviderImageAdapter {
      * Get all vision-capable providers
      */
     static getVisionProviders() {
-        return Object.keys(VISION_CAPABILITIES);
+        // Filter out providers whose allowlist is empty (e.g. deepseek). They're
+        // listed in VISION_CAPABILITIES so supportsVision can return false for
+        // them, but they should not be advertised as vision-capable.
+        return Object.entries(VISION_CAPABILITIES)
+            .filter(([, models]) => models.length > 0)
+            .map(([provider]) => provider);
     }
     /**
      * Count total "images" in a message (actual images + PDF pages)

package/dist/lib/constants/contextWindows.d.ts CHANGED Viewed

@@ -36,9 +36,13 @@ export declare function getContextWindowSize(provider: string, model?: string):
 /**
  * Calculate output token reserve for a given context window.
  *
+ * Returns the *real* token count that will be reserved for output so callers
+ * (`getAvailableInputTokens`, `BudgetChecker`, conversation-memory pruning, file
+ * summarisation) compute input budget against the actual outgoing maxTokens.
+ *
  * @param contextWindow - Total context window size
  * @param maxTokens - Explicit maxTokens from user config (if set)
- * @returns Number of tokens reserved for output
+ * @returns Number of tokens reserved for output (matches what's sent upstream)
  */
 export declare function getOutputReserve(contextWindow: number, maxTokens?: number): number;
 /**