npm - @fugood/llama.node - Versions diffs - 0.3.8 → 0.3.10 - Mend

@fugood/llama.node 0.3.8 → 0.3.10

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (105) hide show

package/bin/darwin/arm64/llama-node.node +0 -0
package/bin/darwin/x64/llama-node.node +0 -0
package/bin/linux/arm64/llama-node.node +0 -0
package/bin/linux/x64/llama-node.node +0 -0
package/bin/linux-cuda/arm64/llama-node.node +0 -0
package/bin/linux-cuda/x64/llama-node.node +0 -0
package/bin/linux-vulkan/arm64/llama-node.node +0 -0
package/bin/linux-vulkan/x64/llama-node.node +0 -0
package/bin/win32/arm64/llama-node.node +0 -0
package/bin/win32/arm64/node.lib +0 -0
package/bin/win32/x64/llama-node.node +0 -0
package/bin/win32/x64/node.lib +0 -0
package/bin/win32-vulkan/arm64/llama-node.node +0 -0
package/bin/win32-vulkan/arm64/node.lib +0 -0
package/bin/win32-vulkan/x64/llama-node.node +0 -0
package/bin/win32-vulkan/x64/node.lib +0 -0
package/lib/binding.js +2 -2
package/lib/binding.ts +52 -8
package/lib/index.ts +3 -1
package/package.json +8 -1
package/src/LlamaCompletionWorker.cpp +33 -6
package/src/LlamaCompletionWorker.h +3 -1
package/src/LlamaContext.cpp +387 -28
package/src/LlamaContext.h +5 -0
package/src/common.hpp +19 -2
package/src/llama.cpp/.github/workflows/build.yml +289 -107
package/src/llama.cpp/.github/workflows/close-issue.yml +1 -1
package/src/llama.cpp/.github/workflows/docker.yml +2 -1
package/src/llama.cpp/.github/workflows/server.yml +25 -2
package/src/llama.cpp/CMakeLists.txt +10 -19
package/src/llama.cpp/cmake/build-info.cmake +1 -1
package/src/llama.cpp/common/CMakeLists.txt +32 -0
package/src/llama.cpp/common/arg.cpp +66 -16
package/src/llama.cpp/common/chat-template.hpp +515 -0
package/src/llama.cpp/common/chat.cpp +966 -0
package/src/llama.cpp/common/chat.hpp +52 -0
package/src/llama.cpp/common/common.cpp +159 -36
package/src/llama.cpp/common/common.h +56 -14
package/src/llama.cpp/common/json-schema-to-grammar.cpp +46 -66
package/src/llama.cpp/common/json-schema-to-grammar.h +15 -1
package/src/llama.cpp/common/llguidance.cpp +270 -0
package/src/llama.cpp/common/log.cpp +1 -10
package/src/llama.cpp/common/log.h +10 -0
package/src/llama.cpp/common/minja.hpp +2868 -0
package/src/llama.cpp/common/sampling.cpp +22 -1
package/src/llama.cpp/common/sampling.h +3 -0
package/src/llama.cpp/docs/build.md +54 -9
package/src/llama.cpp/examples/export-lora/export-lora.cpp +12 -2
package/src/llama.cpp/examples/gbnf-validator/gbnf-validator.cpp +1 -1
package/src/llama.cpp/examples/llava/CMakeLists.txt +7 -0
package/src/llama.cpp/examples/llava/clip-quantize-cli.cpp +59 -0
package/src/llama.cpp/examples/llava/clip.cpp +133 -14
package/src/llama.cpp/examples/llava/clip.h +2 -0
package/src/llama.cpp/examples/llava/llava.cpp +22 -8
package/src/llama.cpp/examples/llava/minicpmv-cli.cpp +9 -1
package/src/llama.cpp/examples/main/main.cpp +26 -25
package/src/llama.cpp/examples/run/linenoise.cpp/linenoise.cpp +136 -137
package/src/llama.cpp/examples/run/linenoise.cpp/linenoise.h +18 -4
package/src/llama.cpp/examples/run/run.cpp +224 -69
package/src/llama.cpp/examples/server/server.cpp +252 -81
package/src/llama.cpp/examples/server/utils.hpp +73 -21
package/src/llama.cpp/examples/simple-chat/simple-chat.cpp +6 -4
package/src/llama.cpp/examples/simple-cmake-pkg/CMakeLists.txt +11 -0
package/src/llama.cpp/ggml/CMakeLists.txt +78 -1
package/src/llama.cpp/ggml/include/ggml.h +1 -1
package/src/llama.cpp/ggml/src/CMakeLists.txt +21 -4
package/src/llama.cpp/ggml/src/ggml-alloc.c +1 -13
package/src/llama.cpp/ggml/src/ggml-cpu/ggml-cpu-quants.c +91 -78
package/src/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c +7 -7
package/src/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.cpp +2 -1
package/src/llama.cpp/ggml/src/ggml-cuda/CMakeLists.txt +1 -1
package/src/llama.cpp/ggml/src/ggml-cuda/vendors/hip.h +46 -0
package/src/llama.cpp/ggml/src/ggml-hip/CMakeLists.txt +16 -1
package/src/llama.cpp/ggml/src/ggml-musa/CMakeLists.txt +1 -1
package/src/llama.cpp/ggml/src/ggml-rpc/ggml-rpc.cpp +28 -8
package/src/llama.cpp/ggml/src/ggml-sycl/ggml-sycl.cpp +5 -7
package/src/llama.cpp/ggml/src/ggml-sycl/softmax.cpp +33 -23
package/src/llama.cpp/ggml/src/ggml-sycl/softmax.hpp +1 -5
package/src/llama.cpp/ggml/src/ggml-vulkan/ggml-vulkan.cpp +323 -121
package/src/llama.cpp/ggml/src/ggml-vulkan/vulkan-shaders/vulkan-shaders-gen.cpp +13 -3
package/src/llama.cpp/ggml/src/ggml.c +23 -13
package/src/llama.cpp/include/llama.h +14 -1
package/src/llama.cpp/models/ggml-vocab-deepseek-r1-qwen.gguf.inp +112 -0
package/src/llama.cpp/models/ggml-vocab-deepseek-r1-qwen.gguf.out +46 -0
package/src/llama.cpp/src/CMakeLists.txt +1 -1
package/src/llama.cpp/src/llama-arch.cpp +7 -2
package/src/llama.cpp/src/llama-arch.h +3 -1
package/src/llama.cpp/src/llama-chat.cpp +11 -2
package/src/llama.cpp/src/llama-chat.h +1 -0
package/src/llama.cpp/src/llama-grammar.cpp +86 -6
package/src/llama.cpp/src/llama-grammar.h +22 -1
package/src/llama.cpp/src/llama-mmap.cpp +1 -0
package/src/llama.cpp/src/llama-model-loader.cpp +1 -1
package/src/llama.cpp/src/llama-model.cpp +76 -6
package/src/llama.cpp/src/llama-sampling.cpp +47 -4
package/src/llama.cpp/src/llama-vocab.cpp +10 -4
package/src/llama.cpp/src/llama.cpp +181 -123
package/src/llama.cpp/tests/CMakeLists.txt +4 -0
package/src/llama.cpp/tests/test-backend-ops.cpp +158 -57
package/src/llama.cpp/tests/test-chat-template.cpp +154 -31
package/src/llama.cpp/tests/test-chat.cpp +607 -0
package/src/llama.cpp/tests/test-grammar-integration.cpp +2 -2
package/src/llama.cpp/tests/test-grammar-llguidance.cpp +1140 -0
package/src/llama.cpp/tests/test-json-schema-to-grammar.cpp +1 -1
package/src/llama.cpp/examples/main-cmake-pkg/CMakeLists.txt +0 -32

package/bin/darwin/arm64/llama-node.node CHANGED Viewed

Binary file

package/bin/darwin/x64/llama-node.node CHANGED Viewed

Binary file

package/bin/linux/arm64/llama-node.node CHANGED Viewed

Binary file

package/bin/linux/x64/llama-node.node CHANGED Viewed

Binary file

package/bin/linux-cuda/arm64/llama-node.node CHANGED Viewed

Binary file

package/bin/linux-cuda/x64/llama-node.node CHANGED Viewed

Binary file

package/bin/linux-vulkan/arm64/llama-node.node CHANGED Viewed

Binary file

package/bin/linux-vulkan/x64/llama-node.node CHANGED Viewed

Binary file

package/bin/win32/arm64/llama-node.node CHANGED Viewed

Binary file

package/bin/win32/arm64/node.lib CHANGED Viewed

Binary file

package/bin/win32/x64/llama-node.node CHANGED Viewed

Binary file

package/bin/win32/x64/node.lib CHANGED Viewed

Binary file

package/bin/win32-vulkan/arm64/llama-node.node CHANGED Viewed

Binary file

package/bin/win32-vulkan/arm64/node.lib CHANGED Viewed

Binary file

package/bin/win32-vulkan/x64/llama-node.node CHANGED Viewed

Binary file

package/bin/win32-vulkan/x64/node.lib CHANGED Viewed

Binary file

package/lib/binding.js CHANGED Viewed

@@ -52,11 +52,11 @@ const loadModule = (variant) => __awaiter(void 0, void 0, void 0, function* () {
     try {
         if (variant && variant !== 'default') {
             setupEnv(variant);
-            return yield Promise.resolve(`${`../bin/${process.platform}-${variant}/${process.arch}/llama-node.node`}`).then(s => __importStar(require(s)));
+            return (yield Promise.resolve(`${`../bin/${process.platform}-${variant}/${process.arch}/llama-node.node`}`).then(s => __importStar(require(s))));
         }
     }
     catch (_a) { } // ignore errors and try the common path
     setupEnv();
-    return yield Promise.resolve(`${`../bin/${process.platform}/${process.arch}/llama-node.node`}`).then(s => __importStar(require(s)));
+    return (yield Promise.resolve(`${`../bin/${process.platform}/${process.arch}/llama-node.node`}`).then(s => __importStar(require(s))));
 });
 exports.loadModule = loadModule;

package/lib/binding.ts CHANGED Viewed

@@ -2,11 +2,12 @@ import * as path from 'path'
 export type ChatMessage = {
   role: string
-  text: string
+  content: string
 }
 export type LlamaModelOptions = {
   model: string
+  chat_template?: string
   embedding?: boolean
   embd_normalize?: number
   pooling_type?: 'none' | 'mean' | 'cls' | 'last' | 'rank'
@@ -37,12 +38,29 @@ export type LlamaModelOptions = {
   use_mlock?: boolean
   use_mmap?: boolean
   vocab_only?: boolean
+  lora?: string
+  lora_scaled?: number
+  lora_list?: { path: string; scaled: number }[]
+}
+export type CompletionResponseFormat = {
+  type: 'text' | 'json_object' | 'json_schema'
+  json_schema?: {
+    strict?: boolean
+    schema: object
+  }
+  schema?: object // for json_object type
 }
 export type LlamaCompletionOptions = {
   messages?: ChatMessage[]
+  jinja?: boolean
+  chat_template?: string
+  response_format?: CompletionResponseFormat
+  tools?: object
+  parallel_tool_calls?: boolean
+  tool_choice?: string
   prompt?: string
-  n_samples?: number
   temperature?: number
   top_k?: number
   top_p?: number
@@ -67,6 +85,9 @@ export type LlamaCompletionOptions = {
   seed?: number
   stop?: string[]
   grammar?: string
+  grammar_lazy?: boolean
+  grammar_triggers?: { word: string; at_start: boolean }[]
+  preserved_tokens?: string[]
 }
 export type LlamaCompletionResult = {
@@ -102,8 +123,21 @@ export interface LlamaContext {
   new (options: LlamaModelOptions): LlamaContext
   getSystemInfo(): string
   getModelInfo(): object
-  getFormattedChat(messages: ChatMessage[]): string
-  completion(options: LlamaCompletionOptions, callback?: (token: LlamaCompletionToken) => void): Promise<LlamaCompletionResult>
+  getFormattedChat(
+    messages: ChatMessage[],
+    chat_template?: string,
+    params?: {
+      jinja?: boolean
+      response_format?: CompletionResponseFormat
+      tools?: object
+      parallel_tool_calls?: object
+      tool_choice?: string
+    },
+  ): object | string
+  completion(
+    options: LlamaCompletionOptions,
+    callback?: (token: LlamaCompletionToken) => void,
+  ): Promise<LlamaCompletionResult>
   stopCompletion(): void
   tokenize(text: string): Promise<TokenizeResult>
   detokenize(tokens: number[]): Promise<string>
@@ -111,6 +145,9 @@ export interface LlamaContext {
   saveSession(path: string): Promise<void>
   loadSession(path: string): Promise<void>
   release(): Promise<void>
+  applyLoraAdapters(adapters: { path: string; scaled: number }[]): void
+  removeLoraAdapters(adapters: { path: string }[]): void
+  getLoadedLoraAdapters(): { path: string; scaled: number }[]
   // static
   loadModelInfo(path: string, skip: string[]): Promise<Object>
 }
@@ -123,7 +160,10 @@ export type LibVariant = 'default' | 'vulkan' | 'cuda'
 const setupEnv = (variant?: string) => {
   const postfix = variant ? `-${variant}` : ''
-  const binPath = path.resolve(__dirname, `../bin/${process.platform}${postfix}/${process.arch}/`)
+  const binPath = path.resolve(
+    __dirname,
+    `../bin/${process.platform}${postfix}/${process.arch}/`,
+  )
   const systemPathEnv = process.env.PATH ?? process.env.Path ?? ''
   if (!systemPathEnv.includes(binPath)) {
     if (process.platform === 'win32') {
@@ -138,9 +178,13 @@ export const loadModule = async (variant?: LibVariant): Promise<Module> => {
   try {
     if (variant && variant !== 'default') {
       setupEnv(variant)
-      return await import(`../bin/${process.platform}-${variant}/${process.arch}/llama-node.node`) as Module
+      return (await import(
+        `../bin/${process.platform}-${variant}/${process.arch}/llama-node.node`
+      )) as Module
     }
   } catch {} // ignore errors and try the common path
   setupEnv()
-  return await import(`../bin/${process.platform}/${process.arch}/llama-node.node`) as Module
-}
+  return (await import(
+    `../bin/${process.platform}/${process.arch}/llama-node.node`
+  )) as Module
+}

package/lib/index.ts CHANGED Viewed

@@ -9,7 +9,9 @@ export interface LlamaModelOptionsExtended extends LlamaModelOptions {
 const mods: { [key: string]: Module } = {}
-export const loadModel = async (options: LlamaModelOptionsExtended): Promise<LlamaContext> => {
+export const loadModel = async (
+  options: LlamaModelOptionsExtended,
+): Promise<LlamaContext> => {
   const variant = options.lib_variant ?? 'default'
   mods[variant] ??= await loadModule(options.lib_variant)
   return new mods[variant].LlamaContext(options)

package/package.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "name": "@fugood/llama.node",
   "access": "public",
-  "version": "0.3.8",
+  "version": "0.3.10",
   "description": "Llama.cpp for Node.js",
   "main": "lib/index.js",
   "scripts": {
@@ -77,5 +77,12 @@
     "testMatch": [
       "**/*.test.ts"
     ]
+  },
+  "prettier": {
+    "trailingComma": "all",
+    "tabWidth": 2,
+    "semi": false,
+    "singleQuote": true,
+    "printWidth": 80
   }
 }

package/src/LlamaCompletionWorker.cpp CHANGED Viewed

@@ -35,9 +35,10 @@ size_t findStoppingStrings(const std::string &text,
 LlamaCompletionWorker::LlamaCompletionWorker(
     const Napi::CallbackInfo &info, LlamaSessionPtr &sess,
     Napi::Function callback, common_params params,
-    std::vector<std::string> stop_words)
+    std::vector<std::string> stop_words,
+    int32_t chat_format)
     : AsyncWorker(info.Env()), Deferred(info.Env()), _sess(sess),
-      _params(params), _stop_words(stop_words) {
+      _params(params), _stop_words(stop_words), _chat_format(chat_format) {
   if (!callback.IsEmpty()) {
     _tsfn = Napi::ThreadSafeFunction::New(info.Env(), callback,
                                           "LlamaCompletionCallback", 0, 1);
@@ -152,15 +153,41 @@ void LlamaCompletionWorker::Execute() {
 }
 void LlamaCompletionWorker::OnOK() {
-  auto result = Napi::Object::New(Napi::AsyncWorker::Env());
-  result.Set("tokens_evaluated", Napi::Number::New(Napi::AsyncWorker::Env(),
+  auto env = Napi::AsyncWorker::Env();
+  auto result = Napi::Object::New(env);
+  result.Set("tokens_evaluated", Napi::Number::New(env,
                                                    _result.tokens_evaluated));
   result.Set("tokens_predicted", Napi::Number::New(Napi::AsyncWorker::Env(),
                                                    _result.tokens_predicted));
   result.Set("truncated",
-             Napi::Boolean::New(Napi::AsyncWorker::Env(), _result.truncated));
+             Napi::Boolean::New(env, _result.truncated));
   result.Set("text",
-             Napi::String::New(Napi::AsyncWorker::Env(), _result.text.c_str()));
+             Napi::String::New(env, _result.text.c_str()));
+  Napi::Array tool_calls = Napi::Array::New(Napi::AsyncWorker::Env());
+  if (!_stop) {
+    try {
+      common_chat_msg message = common_chat_parse(_result.text, static_cast<common_chat_format>(_chat_format));
+      for (size_t i = 0; i < message.tool_calls.size(); i++) {
+        const auto &tc = message.tool_calls[i];
+        Napi::Object tool_call = Napi::Object::New(env);
+        tool_call.Set("type", "function");
+        Napi::Object function = Napi::Object::New(env);
+        function.Set("name", tc.name);
+        function.Set("arguments", tc.arguments);
+        tool_call.Set("function", function);
+        if (!tc.id.empty()) {
+          tool_call.Set("id", tc.id);
+        }
+        tool_calls.Set(i, tool_call);
+      }
+    } catch (const std::exception &e) {
+      // console_log(env, "Error parsing tool calls: " + std::string(e.what()));
+    }
+  }
+  if (tool_calls.Length() > 0) {
+    result.Set("tool_calls", tool_calls);
+  }
   auto ctx = _sess->context();
   const auto timings_token = llama_perf_context(ctx);

package/src/LlamaCompletionWorker.h CHANGED Viewed

@@ -13,7 +13,8 @@ class LlamaCompletionWorker : public Napi::AsyncWorker,
 public:
   LlamaCompletionWorker(const Napi::CallbackInfo &info, LlamaSessionPtr &sess,
                         Napi::Function callback, common_params params,
-                        std::vector<std::string> stop_words = {});
+                        std::vector<std::string> stop_words = {},
+                        int32_t chat_format = 0);
   ~LlamaCompletionWorker();
@@ -30,6 +31,7 @@ private:
   LlamaSessionPtr _sess;
   common_params _params;
   std::vector<std::string> _stop_words;
+  int32_t _chat_format;
   Napi::ThreadSafeFunction _tsfn;
   bool _has_callback = false;
   bool _stop = false;