npm - @fugood/llama.node - Versions diffs - 1.4.12 → 1.4.14 - Mend

@fugood/llama.node 1.4.12 → 1.4.14

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (49) hide show

package/lib/binding.ts +11 -1
package/lib/index.js +2 -1
package/lib/index.ts +2 -0
package/lib/parallel.ts +2 -2
package/package.json +15 -15
package/scripts/llama.cpp.patch +9 -9
package/src/LlamaContext.cpp +5 -2
package/src/llama.cpp/common/arg.cpp +249 -101
package/src/llama.cpp/common/arg.h +0 -8
package/src/llama.cpp/common/chat.cpp +4 -4
package/src/llama.cpp/common/common.cpp +21 -1
package/src/llama.cpp/common/common.h +20 -7
package/src/llama.cpp/common/download.cpp +104 -55
package/src/llama.cpp/common/download.h +26 -5
package/src/llama.cpp/common/llguidance.cpp +10 -6
package/src/llama.cpp/common/preset.cpp +76 -1
package/src/llama.cpp/common/preset.h +10 -1
package/src/llama.cpp/common/regex-partial.cpp +13 -13
package/src/llama.cpp/common/sampling.cpp +58 -14
package/src/llama.cpp/common/sampling.h +3 -1
package/src/llama.cpp/ggml/include/ggml.h +5 -0
package/src/llama.cpp/include/llama.h +92 -10
package/src/llama.cpp/src/llama-arch.cpp +2 -0
package/src/llama.cpp/src/llama-arch.h +1 -0
package/src/llama.cpp/src/llama-context.cpp +615 -28
package/src/llama.cpp/src/llama-context.h +43 -1
package/src/llama.cpp/src/llama-grammar.cpp +40 -13
package/src/llama.cpp/src/llama-grammar.h +2 -0
package/src/llama.cpp/src/llama-graph.cpp +173 -5
package/src/llama.cpp/src/llama-graph.h +71 -6
package/src/llama.cpp/src/llama-hparams.cpp +4 -0
package/src/llama.cpp/src/llama-hparams.h +8 -2
package/src/llama.cpp/src/llama-mmap.cpp +70 -37
package/src/llama.cpp/src/llama-mmap.h +5 -4
package/src/llama.cpp/src/llama-model-loader.cpp +17 -5
package/src/llama.cpp/src/llama-model-loader.h +2 -0
package/src/llama.cpp/src/llama-model-saver.cpp +3 -0
package/src/llama.cpp/src/llama-model.cpp +66 -16
package/src/llama.cpp/src/llama-quant.cpp +1 -1
package/src/llama.cpp/src/llama-sampling.cpp +1233 -171
package/src/llama.cpp/src/llama-sampling.h +16 -7
package/src/llama.cpp/src/llama.cpp +101 -57
package/src/llama.cpp/src/models/afmoe.cpp +9 -5
package/src/llama.cpp/src/models/cohere2-iswa.cpp +3 -0
package/src/llama.cpp/src/models/gemma2-iswa.cpp +5 -2
package/src/llama.cpp/src/models/llama-iswa.cpp +6 -2
package/src/llama.cpp/src/models/modern-bert.cpp +4 -3
package/src/llama.cpp/src/models/openai-moe-iswa.cpp +5 -2
package/src/llama.cpp/src/models/smallthinker.cpp +11 -5

package/lib/binding.ts CHANGED Viewed

@@ -112,7 +112,7 @@ export type CompletionResponseFormat = {
 export type LlamaCompletionOptions = {
   messages?: ChatMessage[]
   jinja?: boolean
-  reasoning_format?: string
+  reasoning_format?: 'none' | 'auto' | 'deepseek'
   chat_template?: string
   response_format?: CompletionResponseFormat
   tools?: Tool[]
@@ -200,6 +200,13 @@ export type LlamaParallelCompletionOptions = LlamaCompletionOptions & {
    */
   save_state_path?: string
+  /**
+   * File path to save prompt-only state to after prompt processing.
+   * Useful for fast prompt reuse (especially for recurrent/hybrid models).
+   * Example: `'/path/to/prompt_state.bin'` or `'file:///path/to/prompt_state.bin'`
+   */
+  save_prompt_state_path?: string
   /**
    * Number of tokens to load when loading state.
    * If not specified or <= 0, all tokens from the state file will be loaded.
@@ -363,6 +370,8 @@ export type ModelInfo = {
   nEmbd: number
   nParams: number
   size: number
+  is_recurrent: boolean
+  is_hybrid: boolean
   chatTemplates: {
     llamaChat: boolean
     minja: {
@@ -475,6 +484,7 @@ export interface LlamaContext {
       parallel_tool_calls?: boolean
       tool_choice?: string
       enable_thinking?: boolean
+      reasoning_format?: 'none' | 'auto' | 'deepseek'
       add_generation_prompt?: boolean
       now?: string | number
       chat_template_kwargs?: Record<string, string>

package/lib/index.js CHANGED Viewed

@@ -87,7 +87,7 @@ class LlamaContextWrapper {
         return !!this.ctx.getModelInfo().chatTemplates.llamaChat;
     }
     getFormattedChat(messages, template, params) {
-        var _a, _b;
+        var _a, _b, _c;
         const { messages: chat, has_media, media_paths } = (0, utils_1.formatMediaChat)(messages);
         const useJinja = this.isJinjaSupported() && ((_a = params === null || params === void 0 ? void 0 : params.jinja) !== null && _a !== void 0 ? _a : true);
         let tmpl;
@@ -100,6 +100,7 @@ class LlamaContextWrapper {
             parallel_tool_calls: params === null || params === void 0 ? void 0 : params.parallel_tool_calls,
             tool_choice: params === null || params === void 0 ? void 0 : params.tool_choice,
             enable_thinking: (_b = params === null || params === void 0 ? void 0 : params.enable_thinking) !== null && _b !== void 0 ? _b : true,
+            reasoning_format: (_c = params === null || params === void 0 ? void 0 : params.reasoning_format) !== null && _c !== void 0 ? _c : 'none',
             add_generation_prompt: params === null || params === void 0 ? void 0 : params.add_generation_prompt,
             now: params === null || params === void 0 ? void 0 : params.now,
             chat_template_kwargs: (params === null || params === void 0 ? void 0 : params.chat_template_kwargs)

package/lib/index.ts CHANGED Viewed

@@ -118,6 +118,7 @@ class LlamaContextWrapper {
       parallel_tool_calls?: boolean
       tool_choice?: string
       enable_thinking?: boolean
+      reasoning_format?: 'none' | 'auto' | 'deepseek'
       add_generation_prompt?: boolean
       now?: string | number
       chat_template_kwargs?: Record<string, string>
@@ -136,6 +137,7 @@ class LlamaContextWrapper {
       parallel_tool_calls: params?.parallel_tool_calls,
       tool_choice: params?.tool_choice,
       enable_thinking: params?.enable_thinking ?? true,
+      reasoning_format: params?.reasoning_format ?? 'none',
       add_generation_prompt: params?.add_generation_prompt,
       now: params?.now,
       chat_template_kwargs: params?.chat_template_kwargs

package/lib/parallel.ts CHANGED Viewed

@@ -1,10 +1,10 @@
 // Parallel decoding API implementation for llama.node
 import type {
   LlamaContext,
-  LlamaCompletionOptions,
   LlamaCompletionToken,
   RerankParams,
   ParallelStatus,
+  LlamaParallelCompletionOptions,
 } from './binding'
 import { formatMediaChat } from './utils'
@@ -68,7 +68,7 @@ export class LlamaParallelAPI {
    * @returns Object with requestId, promise for result, and stop function
    */
   async completion(
-    options: LlamaCompletionOptions,
+    options: LlamaParallelCompletionOptions,
     onToken?: (requestId: number, data: LlamaCompletionToken) => void,
   ): Promise<{
     requestId: number

package/package.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "name": "@fugood/llama.node",
   "access": "public",
-  "version": "1.4.12",
+  "version": "1.4.14",
   "description": "An another Node binding of llama.cpp",
   "main": "lib/index.js",
   "scripts": {
@@ -72,20 +72,20 @@
     "CMakeLists.txt"
   ],
   "optionalDependencies": {
-    "@fugood/node-llama-darwin-arm64": "1.4.12",
-    "@fugood/node-llama-darwin-x64": "1.4.12",
-    "@fugood/node-llama-linux-arm64": "1.4.12",
-    "@fugood/node-llama-linux-arm64-cuda": "1.4.12",
-    "@fugood/node-llama-linux-arm64-snapdragon": "1.4.12",
-    "@fugood/node-llama-linux-arm64-vulkan": "1.4.12",
-    "@fugood/node-llama-linux-x64": "1.4.12",
-    "@fugood/node-llama-linux-x64-cuda": "1.4.12",
-    "@fugood/node-llama-linux-x64-vulkan": "1.4.12",
-    "@fugood/node-llama-win32-arm64": "1.4.12",
-    "@fugood/node-llama-win32-arm64-vulkan": "1.4.12",
-    "@fugood/node-llama-win32-x64": "1.4.12",
-    "@fugood/node-llama-win32-x64-cuda": "1.4.12",
-    "@fugood/node-llama-win32-x64-vulkan": "1.4.12"
+    "@fugood/node-llama-darwin-arm64": "1.4.14",
+    "@fugood/node-llama-darwin-x64": "1.4.14",
+    "@fugood/node-llama-linux-arm64": "1.4.14",
+    "@fugood/node-llama-linux-arm64-cuda": "1.4.14",
+    "@fugood/node-llama-linux-arm64-snapdragon": "1.4.14",
+    "@fugood/node-llama-linux-arm64-vulkan": "1.4.14",
+    "@fugood/node-llama-linux-x64": "1.4.14",
+    "@fugood/node-llama-linux-x64-cuda": "1.4.14",
+    "@fugood/node-llama-linux-x64-vulkan": "1.4.14",
+    "@fugood/node-llama-win32-arm64": "1.4.14",
+    "@fugood/node-llama-win32-arm64-vulkan": "1.4.14",
+    "@fugood/node-llama-win32-x64": "1.4.14",
+    "@fugood/node-llama-win32-x64-cuda": "1.4.14",
+    "@fugood/node-llama-win32-x64-vulkan": "1.4.14"
   },
   "devDependencies": {
     "@babel/preset-env": "^7.24.4",

package/scripts/llama.cpp.patch CHANGED Viewed

@@ -32,7 +32,7 @@ index 1bcba9cd8..b7cd68734 100644
  static std::string_view trim_trailing_space(std::string_view sv, int max = -1) {
      int count = 0;
 diff --git a/src/llama.cpp/common/chat.cpp b/src/llama.cpp/common/chat.cpp
-index b98ab21ce..2f782837a 100644
+index 22e527bab..c3d0affca 100644
 --- a/src/llama.cpp/common/chat.cpp
 +++ b/src/llama.cpp/common/chat.cpp
@@ -7,9 +7,6 @@
@@ -96,10 +96,10 @@ index 8bd4a325f..333b3301f 100644
  struct common_chat_tool_call {
      std::string name;
 diff --git a/src/llama.cpp/common/common.cpp b/src/llama.cpp/common/common.cpp
-index 79c475612..cf189f8bc 100644
+index 744f0b4ee..04fcebb9e 100644
 --- a/src/llama.cpp/common/common.cpp
 +++ b/src/llama.cpp/common/common.cpp
-@@ -1342,6 +1342,7 @@ struct llama_model_params common_model_params_to_llama(common_params & params) {
+@@ -1361,6 +1361,7 @@ struct llama_model_params common_model_params_to_llama(common_params & params) {
          mparams.devices = params.devices.data();
      }
@@ -108,10 +108,10 @@ index 79c475612..cf189f8bc 100644
      mparams.main_gpu        = params.main_gpu;
      mparams.split_mode      = params.split_mode;
 diff --git a/src/llama.cpp/common/common.h b/src/llama.cpp/common/common.h
-index f8bc686b6..555ba044a 100644
+index 7794c0268..5b77ae0c3 100644
 --- a/src/llama.cpp/common/common.h
 +++ b/src/llama.cpp/common/common.h
-@@ -307,6 +307,7 @@ struct lr_opt {
+@@ -310,6 +310,7 @@ struct lr_opt {
  struct ggml_opt_optimizer_params common_opt_lr_pars(void * userdata);
  struct common_params {
@@ -133,10 +133,10 @@ index 7622d0bf4..d2edcfddb 100644
              check_cxx_compiler_flag(-mfp16-format=ieee GGML_COMPILER_SUPPORTS_FP16_FORMAT_I3E)
              if (NOT "${GGML_COMPILER_SUPPORTS_FP16_FORMAT_I3E}" STREQUAL "")
 diff --git a/src/llama.cpp/ggml/src/ggml-hexagon/ggml-hexagon.cpp b/src/llama.cpp/ggml/src/ggml-hexagon/ggml-hexagon.cpp
-index 13b96d61f..5fa163442 100644
+index 365a24b49..83bf4ee62 100644
 --- a/src/llama.cpp/ggml/src/ggml-hexagon/ggml-hexagon.cpp
 +++ b/src/llama.cpp/ggml/src/ggml-hexagon/ggml-hexagon.cpp
-@@ -2680,9 +2680,24 @@ static const char * ggml_backend_hexagon_device_get_description(ggml_backend_dev
+@@ -2798,9 +2798,24 @@ static const char * ggml_backend_hexagon_device_get_description(ggml_backend_dev
      GGML_UNUSED(dev);
  }
@@ -163,7 +163,7 @@ index 13b96d61f..5fa163442 100644
      *total = *free;
      GGML_UNUSED(dev);
-@@ -2879,10 +2894,17 @@ ggml_hexagon_registry::ggml_hexagon_registry(ggml_backend_reg_t reg) {
+@@ -3010,10 +3025,17 @@ ggml_hexagon_registry::ggml_hexagon_registry(ggml_backend_reg_t reg) {
          }
      }
@@ -185,7 +185,7 @@ index 13b96d61f..5fa163442 100644
      GGML_LOG_INFO("ggml-hex: Hexagon Arch version v%d\n", opt_arch);
-@@ -2895,6 +2917,8 @@ ggml_hexagon_registry::ggml_hexagon_registry(ggml_backend_reg_t reg) {
+@@ -3026,6 +3048,8 @@ ggml_hexagon_registry::ggml_hexagon_registry(ggml_backend_reg_t reg) {
          } catch (const std::exception & exc) {
              GGML_LOG_ERROR("ggml-hex: failed to create device/session %zu\n", i);
              devices[i].context = nullptr;

package/src/LlamaContext.cpp CHANGED Viewed

@@ -595,6 +595,8 @@ Napi::Value LlamaContext::GetModelInfo(const Napi::CallbackInfo &info) {
   details.Set("nEmbd", llama_model_n_embd(model));
   details.Set("nParams", llama_model_n_params(model));
   details.Set("size", llama_model_size(model));
+  details.Set("is_recurrent", llama_model_is_recurrent(model));
+  details.Set("is_hybrid", llama_model_is_hybrid(model));
   Napi::Object chatTemplates = Napi::Object::New(info.Env());
   chatTemplates.Set("llamaChat", _rn_ctx->validateModelChatTemplate(false, nullptr));
@@ -703,6 +705,7 @@ Napi::Value LlamaContext::GetFormattedChat(const Napi::CallbackInfo &info) {
         get_option<bool>(params, "parallel_tool_calls", false);
     auto tool_choice = get_option<std::string>(params, "tool_choice", "");
     auto enable_thinking = get_option<bool>(params, "enable_thinking", false);
+    auto reasoning_format = get_option<std::string>(params, "reasoning_format", "none");
     auto add_generation_prompt = get_option<bool>(params, "add_generation_prompt", true);
     auto now_str = get_option<std::string>(params, "now", "");
@@ -721,7 +724,7 @@ Napi::Value LlamaContext::GetFormattedChat(const Napi::CallbackInfo &info) {
     try {
       chatParams = _rn_ctx->getFormattedChatWithJinja(
           messages, chat_template, json_schema_str, tools_str,
-          parallel_tool_calls, tool_choice, enable_thinking,
+          parallel_tool_calls, tool_choice, enable_thinking, reasoning_format,
           add_generation_prompt, now_str, chat_template_kwargs);
     } catch (const nlohmann::json_abi_v3_12_0::detail::parse_error& e) {
       Napi::Error::New(env, e.what()).ThrowAsJavaScriptException();
@@ -962,7 +965,7 @@ Napi::Value LlamaContext::Completion(const Napi::CallbackInfo &info) {
       try {
         chatParams = _rn_ctx->getFormattedChatWithJinja(
             json_stringify(messages), chat_template,
-            json_schema_str, tools_str, parallel_tool_calls, tool_choice, enable_thinking,
+            json_schema_str, tools_str, parallel_tool_calls, tool_choice, enable_thinking, reasoning_format,
             add_generation_prompt, now_str, chat_template_kwargs);
       } catch (const std::exception &e) {
         Napi::Error::New(env, e.what()).ThrowAsJavaScriptException();