npm - @fugood/llama.node - Versions diffs - 1.3.5 → 1.3.7 - Mend

@fugood/llama.node 1.3.5 → 1.3.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

package/CMakeLists.txt +21 -1
package/lib/binding.ts +7 -1
package/lib/index.js +22 -1
package/lib/index.ts +29 -1
package/package.json +15 -14
package/scripts/llama.cpp.patch +13 -0
package/src/LlamaContext.cpp +10 -0
package/src/llama.cpp/src/llama-model.cpp +4 -2
package/src/llama.cpp/src/models/deepseek2.cpp +2 -1

package/CMakeLists.txt CHANGED Viewed

@@ -44,7 +44,8 @@ else()
 endif()
 if (TO_PACKAGE)
-  set(PLATFORM_BINARY_DIR ${CMAKE_SOURCE_DIR}/packages/node-llama-${PLATFORM}-${ARCH}${VARIANT})
+  set(PACKAGE_NAME "node-llama-${PLATFORM}-${ARCH}${VARIANT}")
+  set(PLATFORM_BINARY_DIR ${CMAKE_SOURCE_DIR}/packages/${PACKAGE_NAME})
 else()
   set(PLATFORM_BINARY_DIR ${CMAKE_SOURCE_DIR}/build/Release)
 endif()
@@ -188,6 +189,13 @@ if (NOT MSVC AND CMAKE_SYSTEM_NAME STREQUAL "Windows")
   set(CMAKE_JS_LIB win_dynamic_load)
 endif()
+if (TO_PACKAGE AND GGML_HEXAGON)
+  set(NODE_RPATH "node_modules/@fugood/${PACKAGE_NAME}")
+  set(ELECTRON_ASAR_RPATH "resources/app.asar.unpacked/node_modules/@fugood/${PACKAGE_NAME}")
+  set(ELECTRON_RES_RPATH "resources/node_modules/@fugood/${PACKAGE_NAME}")
+  set(CMAKE_SHARED_LINKER_FLAGS "${CMAKE_SHARED_LINKER_FLAGS} -Wl,-rpath,${NODE_RPATH} -Wl,-rpath,${ELECTRON_ASAR_RPATH} -Wl,-rpath,${ELECTRON_RES_RPATH}")
+endif()
 add_library(${PROJECT_NAME} SHARED ${SOURCE_FILES} ${CMAKE_JS_SRC})
 set_target_properties(${PROJECT_NAME} PROPERTIES PREFIX "" SUFFIX ".node")
 target_link_libraries(${PROJECT_NAME} ${CMAKE_JS_LIB} llama ggml common mtmd ${CMAKE_THREAD_LIBS_INIT})
@@ -237,3 +245,15 @@ if (GGML_CLBLAST AND TO_PACKAGE)
     )
   endif()
 endif()
+if (GGML_HEXAGON)
+  get_target_property(HTP_LIBS_DIR ggml-hexagon BINARY_DIR)
+  add_custom_command(
+    TARGET copy_assets
+    COMMAND ${CMAKE_COMMAND} -E copy ${HTP_LIBS_DIR}/libggml-htp-v73.so ${PLATFORM_BINARY_DIR}
+    COMMAND ${CMAKE_COMMAND} -E copy ${HTP_LIBS_DIR}/libggml-htp-v75.so ${PLATFORM_BINARY_DIR}
+    COMMAND ${CMAKE_COMMAND} -E copy ${HTP_LIBS_DIR}/libggml-htp-v79.so ${PLATFORM_BINARY_DIR}
+    COMMAND ${CMAKE_COMMAND} -E copy ${HTP_LIBS_DIR}/libggml-htp-v81.so ${PLATFORM_BINARY_DIR}
+    COMMENT "Copying HTP libraries to bin folder"
+  )
+endif()

package/lib/binding.ts CHANGED Viewed

@@ -25,6 +25,12 @@ export type LlamaModelOptions = {
   n_ctx?: number
   n_batch?: number
   n_ubatch?: number
+  /**
+   * CPU affinity mask
+   * Example: '0xfc'
+   */
+  cpu_mask?: string
+  cpu_strict?: boolean
   /**
    * Number of parallel sequences to support (sets n_seq_max).
    * This determines the maximum number of parallel slots that can be used.
@@ -574,7 +580,7 @@ export interface Module {
   LlamaContext: LlamaContext
 }
-export type LibVariant = 'default' | 'vulkan' | 'cuda'
+export type LibVariant = 'default' | 'vulkan' | 'cuda' | 'snapdragon'
 const getPlatformPackageName = (variant?: LibVariant): string => {
   const platform = process.platform

package/lib/index.js CHANGED Viewed

@@ -201,7 +201,28 @@ const loadModel = (options, onProgress) => __awaiter(void 0, void 0, void 0, fun
     const variant = (_a = options.lib_variant) !== null && _a !== void 0 ? _a : 'default';
     (_b = mods[variant]) !== null && _b !== void 0 ? _b : (mods[variant] = yield (0, binding_1.loadModule)(options.lib_variant));
     refreshNativeLogSetup();
-    const nativeCtx = new mods[variant].LlamaContext(options, onProgress);
+    const { devices } = options;
+    let filteredDevs = [];
+    if (Array.isArray(devices)) {
+        filteredDevs = [...devices];
+        // Handle HTP* to use all HTP devices on Hexagon
+        if (variant === 'snapdragon' && devices.includes('HTP*')) {
+            const backendDevices = yield (0, exports.getBackendDevicesInfo)(variant);
+            const htpDevices = backendDevices
+                .filter((d) => d.deviceName.startsWith('HTP'))
+                .map((d) => d.deviceName);
+            filteredDevs = filteredDevs.reduce((acc, dev) => {
+                if (dev.startsWith('HTP*')) {
+                    acc.push(...htpDevices);
+                }
+                else if (!dev.startsWith('HTP')) {
+                    acc.push(dev);
+                }
+                return acc;
+            }, []);
+        }
+    }
+    const nativeCtx = new mods[variant].LlamaContext(Object.assign(Object.assign({}, options), { devices: filteredDevs.length > 0 ? filteredDevs : undefined }), onProgress);
     return new LlamaContextWrapper(nativeCtx);
 });
 exports.loadModel = loadModel;

package/lib/index.ts CHANGED Viewed

@@ -309,7 +309,35 @@ export const loadModel = async (
   mods[variant] ??= await loadModule(options.lib_variant)
   refreshNativeLogSetup()
-  const nativeCtx = new mods[variant].LlamaContext(options, onProgress)
+  const { devices } = options
+  let filteredDevs: Array<string> = []
+  if (Array.isArray(devices)) {
+    filteredDevs = [...devices]
+    // Handle HTP* to use all HTP devices on Hexagon
+    if (variant === 'snapdragon' && devices.includes('HTP*')) {
+      const backendDevices = await getBackendDevicesInfo(variant)
+      const htpDevices = backendDevices
+        .filter((d) => d.deviceName.startsWith('HTP'))
+        .map((d) => d.deviceName)
+      filteredDevs = filteredDevs.reduce((acc, dev) => {
+        if (dev.startsWith('HTP*')) {
+          acc.push(...htpDevices)
+        } else if (!dev.startsWith('HTP')) {
+          acc.push(dev)
+        }
+        return acc
+      }, [] as Array<string>)
+    }
+  }
+  const nativeCtx = new mods[variant].LlamaContext(
+    {
+      ...options,
+      devices: filteredDevs.length > 0 ? filteredDevs : undefined,
+    },
+    onProgress,
+  )
   return new LlamaContextWrapper(nativeCtx)
 }

package/package.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "name": "@fugood/llama.node",
   "access": "public",
-  "version": "1.3.5",
+  "version": "1.3.7",
   "description": "An another Node binding of llama.cpp",
   "main": "lib/index.js",
   "scripts": {
@@ -72,19 +72,20 @@
     "CMakeLists.txt"
   ],
   "optionalDependencies": {
-    "@fugood/node-llama-linux-x64": "1.3.5",
-    "@fugood/node-llama-linux-x64-vulkan": "1.3.5",
-    "@fugood/node-llama-linux-x64-cuda": "1.3.5",
-    "@fugood/node-llama-linux-arm64": "1.3.5",
-    "@fugood/node-llama-linux-arm64-vulkan": "1.3.5",
-    "@fugood/node-llama-linux-arm64-cuda": "1.3.5",
-    "@fugood/node-llama-win32-x64": "1.3.5",
-    "@fugood/node-llama-win32-x64-vulkan": "1.3.5",
-    "@fugood/node-llama-win32-x64-cuda": "1.3.5",
-    "@fugood/node-llama-win32-arm64": "1.3.5",
-    "@fugood/node-llama-win32-arm64-vulkan": "1.3.5",
-    "@fugood/node-llama-darwin-x64": "1.3.5",
-    "@fugood/node-llama-darwin-arm64": "1.3.5"
+    "@fugood/node-llama-linux-x64": "1.3.7",
+    "@fugood/node-llama-linux-x64-vulkan": "1.3.7",
+    "@fugood/node-llama-linux-x64-cuda": "1.3.7",
+    "@fugood/node-llama-linux-arm64-snapdragon": "1.3.7",
+    "@fugood/node-llama-linux-arm64": "1.3.7",
+    "@fugood/node-llama-linux-arm64-vulkan": "1.3.7",
+    "@fugood/node-llama-linux-arm64-cuda": "1.3.7",
+    "@fugood/node-llama-win32-x64": "1.3.7",
+    "@fugood/node-llama-win32-x64-vulkan": "1.3.7",
+    "@fugood/node-llama-win32-x64-cuda": "1.3.7",
+    "@fugood/node-llama-win32-arm64": "1.3.7",
+    "@fugood/node-llama-win32-arm64-vulkan": "1.3.7",
+    "@fugood/node-llama-darwin-x64": "1.3.7",
+    "@fugood/node-llama-darwin-arm64": "1.3.7"
   },
   "devDependencies": {
     "@babel/preset-env": "^7.24.4",

package/scripts/llama.cpp.patch CHANGED Viewed

@@ -121,6 +121,19 @@ index d0cab0bcb..48d532838 100644
          else()
              check_cxx_compiler_flag(-mfp16-format=ieee GGML_COMPILER_SUPPORTS_FP16_FORMAT_I3E)
              if (NOT "${GGML_COMPILER_SUPPORTS_FP16_FORMAT_I3E}" STREQUAL "")
+diff --git a/src/llama.cpp/ggml/src/ggml-hexagon/ggml-hexagon.cpp b/src/llama.cpp/ggml/src/ggml-hexagon/ggml-hexagon.cpp
+index 72a82a891..7869ad323 100644
+--- a/src/llama.cpp/ggml/src/ggml-hexagon/ggml-hexagon.cpp
++++ b/src/llama.cpp/ggml/src/ggml-hexagon/ggml-hexagon.cpp
+@@ -3417,6 +3417,8 @@ ggml_hexagon_registry::ggml_hexagon_registry(ggml_backend_reg_t reg) {
+         } catch (std::exception const &exc) {
+             GGML_LOG_ERROR("ggml-hex: failed to create device/session %zu\n", i);
+             devices[i].context = nullptr;
++            opt_ndev = i;
++            break;
+         }
+     }
+ }
 diff --git a/src/llama.cpp/ggml/src/ggml-vulkan/CMakeLists.txt b/src/llama.cpp/ggml/src/ggml-vulkan/CMakeLists.txt
 index de01336cd..29b1a043d 100644
 --- a/src/llama.cpp/ggml/src/ggml-vulkan/CMakeLists.txt

package/src/LlamaContext.cpp CHANGED Viewed

@@ -306,6 +306,16 @@ LlamaContext::LlamaContext(const Napi::CallbackInfo &info)
     params.tensor_buft_overrides.push_back({nullptr, nullptr});
   }
+  auto cpu_mask = get_option<std::string>(options, "cpu_mask", "");
+  if (!cpu_mask.empty()) {
+    params.cpuparams.mask_valid = true;
+    if (!parse_cpu_mask(cpu_mask, params.cpuparams.cpumask)) {
+      Napi::TypeError::New(env, "Invalid cpu_mask").ThrowAsJavaScriptException();
+    }
+  }
+  params.cpuparams.strict_cpu = get_option<bool>(options, "cpu_strict", false);
   llama_backend_init();
   llama_numa_init(params.numa);

package/src/llama.cpp/src/llama-model.cpp CHANGED Viewed

@@ -1593,7 +1593,8 @@ void llama_model::load_hparams(llama_model_loader & ml) {
             } break;
         case LLM_ARCH_DEEPSEEK2:
             {
-                bool is_lite = (hparams.n_layer == 27);
+                // lite variants include DeepSeek-V2-Lite, GigaChat3-10B-A1.8B
+                bool is_lite = (hparams.n_layer == 27 || hparams.n_layer == 26);
                 ml.get_key(LLM_KV_ATTENTION_LAYERNORM_RMS_EPS, hparams.f_norm_rms_eps);
                 ml.get_key(LLM_KV_LEADING_DENSE_BLOCK_COUNT,   hparams.n_layer_dense_lead);
                 if (!is_lite) {
@@ -4581,7 +4582,8 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
                 } break;
             case LLM_ARCH_DEEPSEEK2:
                 {
-                    const bool is_lite = (hparams.n_layer == 27);
+                    // lite variants include DeepSeek-V2-Lite, GigaChat3-10B-A1.8B
+                    const bool is_lite = (hparams.n_layer == 27 || hparams.n_layer == 26);
                     const bool is_mla = (hparams.n_embd_head_k_mla != 0 && hparams.n_embd_head_v_mla != 0);

package/src/llama.cpp/src/models/deepseek2.cpp CHANGED Viewed

@@ -4,7 +4,8 @@
 llm_build_deepseek2::llm_build_deepseek2(const llama_model & model, const llm_graph_params & params) :
     llm_graph_context(params) {
-    bool is_lite = (hparams.n_layer == 27);
+    // lite variants include DeepSeek-V2-Lite, GigaChat3-10B-A1.8B
+    bool is_lite = (hparams.n_layer == 27 || hparams.n_layer == 26);
     const bool is_mla = (hparams.n_embd_head_k_mla != 0 && hparams.n_embd_head_v_mla != 0);