npm - @fugood/llama.node - Versions diffs - 0.3.17 → 0.4.1 - Mend

@fugood/llama.node 0.3.17 → 0.4.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (193) hide show

package/CMakeLists.txt +3 -1
package/bin/darwin/arm64/llama-node.node +0 -0
package/bin/darwin/x64/llama-node.node +0 -0
package/bin/linux/arm64/llama-node.node +0 -0
package/bin/linux/x64/llama-node.node +0 -0
package/bin/linux-cuda/arm64/llama-node.node +0 -0
package/bin/linux-cuda/x64/llama-node.node +0 -0
package/bin/linux-vulkan/arm64/llama-node.node +0 -0
package/bin/linux-vulkan/x64/llama-node.node +0 -0
package/bin/win32/arm64/llama-node.node +0 -0
package/bin/win32/arm64/node.lib +0 -0
package/bin/win32/x64/llama-node.node +0 -0
package/bin/win32/x64/node.lib +0 -0
package/bin/win32-vulkan/arm64/llama-node.node +0 -0
package/bin/win32-vulkan/arm64/node.lib +0 -0
package/bin/win32-vulkan/x64/llama-node.node +0 -0
package/bin/win32-vulkan/x64/node.lib +0 -0
package/lib/binding.ts +39 -2
package/lib/index.js +132 -1
package/lib/index.ts +203 -3
package/package.json +2 -1
package/src/EmbeddingWorker.cpp +1 -1
package/src/LlamaCompletionWorker.cpp +366 -19
package/src/LlamaCompletionWorker.h +30 -10
package/src/LlamaContext.cpp +213 -5
package/src/LlamaContext.h +12 -0
package/src/common.hpp +15 -0
package/src/llama.cpp/.github/workflows/build-linux-cross.yml +133 -24
package/src/llama.cpp/.github/workflows/build.yml +41 -762
package/src/llama.cpp/.github/workflows/docker.yml +5 -2
package/src/llama.cpp/.github/workflows/release.yml +716 -0
package/src/llama.cpp/.github/workflows/server.yml +12 -12
package/src/llama.cpp/CMakeLists.txt +5 -17
package/src/llama.cpp/cmake/build-info.cmake +8 -2
package/src/llama.cpp/cmake/x64-windows-llvm.cmake +0 -6
package/src/llama.cpp/common/CMakeLists.txt +31 -3
package/src/llama.cpp/common/arg.cpp +48 -29
package/src/llama.cpp/common/chat.cpp +128 -106
package/src/llama.cpp/common/chat.h +2 -0
package/src/llama.cpp/common/common.cpp +37 -1
package/src/llama.cpp/common/common.h +18 -9
package/src/llama.cpp/common/llguidance.cpp +1 -0
package/src/llama.cpp/common/minja/chat-template.hpp +9 -5
package/src/llama.cpp/common/minja/minja.hpp +69 -36
package/src/llama.cpp/common/regex-partial.cpp +204 -0
package/src/llama.cpp/common/regex-partial.h +56 -0
package/src/llama.cpp/common/sampling.cpp +57 -50
package/src/llama.cpp/examples/CMakeLists.txt +2 -23
package/src/llama.cpp/examples/embedding/embedding.cpp +2 -11
package/src/llama.cpp/examples/parallel/parallel.cpp +86 -14
package/src/llama.cpp/examples/training/CMakeLists.txt +5 -0
package/src/llama.cpp/examples/training/finetune.cpp +96 -0
package/src/llama.cpp/ggml/CMakeLists.txt +27 -0
package/src/llama.cpp/ggml/include/ggml-backend.h +4 -4
package/src/llama.cpp/ggml/include/ggml-cpp.h +1 -1
package/src/llama.cpp/ggml/include/ggml-opt.h +47 -28
package/src/llama.cpp/ggml/include/ggml.h +10 -7
package/src/llama.cpp/ggml/src/CMakeLists.txt +1 -1
package/src/llama.cpp/ggml/src/ggml-alloc.c +4 -1
package/src/llama.cpp/ggml/src/ggml-backend.cpp +9 -5
package/src/llama.cpp/ggml/src/ggml-cpu/CMakeLists.txt +20 -13
package/src/llama.cpp/ggml/src/ggml-cpu/ggml-cpu-aarch64.cpp +0 -2
package/src/llama.cpp/ggml/src/ggml-cpu/ggml-cpu-quants.c +306 -6
package/src/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c +4 -13
package/src/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.cpp +29 -16
package/src/llama.cpp/ggml/src/ggml-cpu/kleidiai/kernels.cpp +88 -5
package/src/llama.cpp/ggml/src/ggml-cpu/kleidiai/kernels.h +47 -12
package/src/llama.cpp/ggml/src/ggml-cpu/kleidiai/kleidiai.cpp +264 -69
package/src/llama.cpp/ggml/src/ggml-cpu/llamafile/sgemm.cpp +501 -0
package/src/llama.cpp/ggml/src/ggml-cpu/ops.cpp +0 -13
package/src/llama.cpp/ggml/src/ggml-cpu/vec.cpp +0 -6
package/src/llama.cpp/ggml/src/ggml-cuda/CMakeLists.txt +23 -4
package/src/llama.cpp/ggml/src/ggml-metal/ggml-metal-impl.h +36 -11
package/src/llama.cpp/ggml/src/ggml-opencl/ggml-opencl.cpp +0 -2
package/src/llama.cpp/ggml/src/ggml-opt.cpp +368 -190
package/src/llama.cpp/ggml/src/ggml-quants.c +0 -6
package/src/llama.cpp/ggml/src/ggml-rpc/ggml-rpc.cpp +41 -27
package/src/llama.cpp/ggml/src/ggml-sycl/CMakeLists.txt +29 -23
package/src/llama.cpp/ggml/src/ggml-sycl/backend.hpp +9 -8
package/src/llama.cpp/ggml/src/ggml-sycl/binbcast.cpp +121 -232
package/src/llama.cpp/ggml/src/ggml-sycl/common.hpp +7 -15
package/src/llama.cpp/ggml/src/ggml-sycl/convert.cpp +72 -25
package/src/llama.cpp/ggml/src/ggml-sycl/convert.hpp +14 -7
package/src/llama.cpp/ggml/src/ggml-sycl/dequantize.hpp +59 -21
package/src/llama.cpp/ggml/src/ggml-sycl/dmmv.cpp +7 -1
package/src/llama.cpp/ggml/src/ggml-sycl/element_wise.cpp +0 -23
package/src/llama.cpp/ggml/src/ggml-sycl/gemm.hpp +37 -8
package/src/llama.cpp/ggml/src/ggml-sycl/ggml-sycl.cpp +338 -166
package/src/llama.cpp/ggml/src/ggml-sycl/mmvq.cpp +185 -89
package/src/llama.cpp/ggml/src/ggml-sycl/quants.hpp +83 -0
package/src/llama.cpp/ggml/src/ggml-sycl/vecdotq.hpp +128 -53
package/src/llama.cpp/ggml/src/ggml-vulkan/CMakeLists.txt +81 -70
package/src/llama.cpp/ggml/src/ggml-vulkan/ggml-vulkan.cpp +657 -193
package/src/llama.cpp/ggml/src/ggml-vulkan/vulkan-shaders/CMakeLists.txt +20 -0
package/src/llama.cpp/ggml/src/ggml-vulkan/vulkan-shaders/vulkan-shaders-gen.cpp +123 -29
package/src/llama.cpp/ggml/src/ggml.c +29 -20
package/src/llama.cpp/ggml/src/gguf.cpp +33 -33
package/src/llama.cpp/include/llama.h +52 -11
package/src/llama.cpp/requirements/requirements-all.txt +3 -3
package/src/llama.cpp/scripts/xxd.cmake +1 -1
package/src/llama.cpp/src/CMakeLists.txt +1 -0
package/src/llama.cpp/src/llama-adapter.cpp +6 -0
package/src/llama.cpp/src/llama-arch.cpp +3 -0
package/src/llama.cpp/src/llama-batch.cpp +5 -1
package/src/llama.cpp/src/llama-batch.h +2 -1
package/src/llama.cpp/src/llama-chat.cpp +17 -7
package/src/llama.cpp/src/llama-chat.h +1 -0
package/src/llama.cpp/src/llama-context.cpp +389 -501
package/src/llama.cpp/src/llama-context.h +44 -32
package/src/llama.cpp/src/llama-cparams.h +1 -0
package/src/llama.cpp/src/llama-graph.cpp +20 -38
package/src/llama.cpp/src/llama-graph.h +12 -8
package/src/llama.cpp/src/llama-kv-cache.cpp +1503 -389
package/src/llama.cpp/src/llama-kv-cache.h +271 -85
package/src/llama.cpp/src/llama-memory.h +11 -1
package/src/llama.cpp/src/llama-model-loader.cpp +24 -15
package/src/llama.cpp/src/llama-model-saver.cpp +281 -0
package/src/llama.cpp/src/llama-model-saver.h +37 -0
package/src/llama.cpp/src/llama-model.cpp +316 -69
package/src/llama.cpp/src/llama-model.h +8 -1
package/src/llama.cpp/src/llama-quant.cpp +15 -13
package/src/llama.cpp/src/llama-sampling.cpp +18 -6
package/src/llama.cpp/src/llama-vocab.cpp +42 -4
package/src/llama.cpp/src/llama-vocab.h +6 -0
package/src/llama.cpp/src/llama.cpp +14 -0
package/src/llama.cpp/tests/CMakeLists.txt +10 -2
package/src/llama.cpp/tests/test-backend-ops.cpp +107 -47
package/src/llama.cpp/tests/test-chat-template.cpp +10 -11
package/src/llama.cpp/tests/test-chat.cpp +3 -1
package/src/llama.cpp/tests/test-mtmd-c-api.c +63 -0
package/src/llama.cpp/tests/test-opt.cpp +33 -21
package/src/llama.cpp/tests/test-regex-partial.cpp +288 -0
package/src/llama.cpp/tests/test-sampling.cpp +1 -1
package/src/llama.cpp/tools/CMakeLists.txt +39 -0
package/src/llama.cpp/{examples → tools}/batched-bench/batched-bench.cpp +2 -2
package/src/llama.cpp/{examples → tools}/imatrix/imatrix.cpp +11 -9
package/src/llama.cpp/{examples → tools}/llama-bench/llama-bench.cpp +495 -348
package/src/llama.cpp/{examples → tools}/main/main.cpp +6 -9
package/src/llama.cpp/{examples/llava → tools/mtmd}/CMakeLists.txt +1 -35
package/src/llama.cpp/{examples/llava → tools/mtmd}/clip-impl.h +25 -5
package/src/llama.cpp/{examples/llava → tools/mtmd}/clip.cpp +1440 -1349
package/src/llama.cpp/tools/mtmd/clip.h +99 -0
package/src/llama.cpp/{examples/llava → tools/mtmd}/mtmd-cli.cpp +70 -44
package/src/llama.cpp/tools/mtmd/mtmd-helper.cpp +310 -0
package/src/llama.cpp/{examples/llava → tools/mtmd}/mtmd.cpp +251 -281
package/src/llama.cpp/tools/mtmd/mtmd.h +331 -0
package/src/llama.cpp/{examples → tools}/perplexity/perplexity.cpp +4 -2
package/src/llama.cpp/{examples → tools}/quantize/quantize.cpp +13 -76
package/src/llama.cpp/{examples → tools}/rpc/rpc-server.cpp +70 -74
package/src/llama.cpp/{examples → tools}/run/run.cpp +18 -4
package/src/llama.cpp/{examples → tools}/server/CMakeLists.txt +2 -1
package/src/llama.cpp/{examples → tools}/server/server.cpp +291 -76
package/src/llama.cpp/{examples → tools}/server/utils.hpp +377 -5
package/src/llama.cpp/cmake/arm64-windows-msvc.cmake +0 -6
package/src/llama.cpp/examples/infill/CMakeLists.txt +0 -5
package/src/llama.cpp/examples/infill/infill.cpp +0 -590
package/src/llama.cpp/examples/llava/android/build_64.sh +0 -8
package/src/llama.cpp/examples/llava/clip-quantize-cli.cpp +0 -59
package/src/llama.cpp/examples/llava/clip.h +0 -135
package/src/llama.cpp/examples/llava/llava.cpp +0 -586
package/src/llama.cpp/examples/llava/llava.h +0 -49
package/src/llama.cpp/examples/llava/mtmd.h +0 -168
package/src/llama.cpp/examples/llava/qwen2vl-test.cpp +0 -636
/package/src/llama.cpp/{examples → tools}/batched-bench/CMakeLists.txt +0 -0
/package/src/llama.cpp/{examples → tools}/cvector-generator/CMakeLists.txt +0 -0
/package/src/llama.cpp/{examples → tools}/cvector-generator/completions.txt +0 -0
/package/src/llama.cpp/{examples → tools}/cvector-generator/cvector-generator.cpp +0 -0
/package/src/llama.cpp/{examples → tools}/cvector-generator/mean.hpp +0 -0
/package/src/llama.cpp/{examples → tools}/cvector-generator/negative.txt +0 -0
/package/src/llama.cpp/{examples → tools}/cvector-generator/pca.hpp +0 -0
/package/src/llama.cpp/{examples → tools}/cvector-generator/positive.txt +0 -0
/package/src/llama.cpp/{examples → tools}/export-lora/CMakeLists.txt +0 -0
/package/src/llama.cpp/{examples → tools}/export-lora/export-lora.cpp +0 -0
/package/src/llama.cpp/{examples → tools}/gguf-split/CMakeLists.txt +0 -0
/package/src/llama.cpp/{examples → tools}/gguf-split/gguf-split.cpp +0 -0
/package/src/llama.cpp/{examples → tools}/imatrix/CMakeLists.txt +0 -0
/package/src/llama.cpp/{examples → tools}/llama-bench/CMakeLists.txt +0 -0
/package/src/llama.cpp/{examples → tools}/main/CMakeLists.txt +0 -0
/package/src/llama.cpp/{examples/llava → tools/mtmd}/deprecation-warning.cpp +0 -0
/package/src/llama.cpp/{examples/llava → tools/mtmd}/requirements.txt +0 -0
/package/src/llama.cpp/{examples → tools}/perplexity/CMakeLists.txt +0 -0
/package/src/llama.cpp/{examples → tools}/quantize/CMakeLists.txt +0 -0
/package/src/llama.cpp/{examples → tools}/rpc/CMakeLists.txt +0 -0
/package/src/llama.cpp/{examples → tools}/run/CMakeLists.txt +0 -0
/package/src/llama.cpp/{examples → tools}/run/linenoise.cpp/linenoise.cpp +0 -0
/package/src/llama.cpp/{examples → tools}/run/linenoise.cpp/linenoise.h +0 -0
/package/src/llama.cpp/{examples → tools}/server/bench/requirements.txt +0 -0
/package/src/llama.cpp/{examples → tools}/server/httplib.h +0 -0
/package/src/llama.cpp/{examples → tools}/server/tests/requirements.txt +0 -0
/package/src/llama.cpp/{examples → tools}/tokenize/CMakeLists.txt +0 -0
/package/src/llama.cpp/{examples → tools}/tokenize/tokenize.cpp +0 -0
/package/src/llama.cpp/{examples → tools}/tts/CMakeLists.txt +0 -0
/package/src/llama.cpp/{examples → tools}/tts/tts.cpp +0 -0

package/CMakeLists.txt CHANGED Viewed

@@ -73,11 +73,13 @@ set(LLAMA_CURL OFF CACHE BOOL "Build curl")
 set(BUILD_SHARED_LIBS OFF CACHE BOOL "Build shared libraries")
 add_subdirectory("src/llama.cpp")
+add_subdirectory("src/llama.cpp/tools/mtmd")
 include_directories(
   ${CMAKE_JS_INC}
   "src/llama.cpp"
   "src/llama.cpp/src"
+  "src/tools/mtmd"
 )
 file(
@@ -104,7 +106,7 @@ file(
 add_library(${PROJECT_NAME} SHARED ${SOURCE_FILES} ${CMAKE_JS_SRC})
 set_target_properties(${PROJECT_NAME} PROPERTIES PREFIX "" SUFFIX ".node")
-target_link_libraries(${PROJECT_NAME} ${CMAKE_JS_LIB} llama ggml common)
+target_link_libraries(${PROJECT_NAME} ${CMAKE_JS_LIB} llama ggml common mtmd ${CMAKE_THREAD_LIBS_INIT})
 add_custom_target(copy_assets ALL DEPENDS ${PROJECT_NAME})

package/bin/darwin/arm64/llama-node.node CHANGED Viewed

Binary file

package/bin/darwin/x64/llama-node.node CHANGED Viewed

Binary file

package/bin/linux/arm64/llama-node.node CHANGED Viewed

Binary file

package/bin/linux/x64/llama-node.node CHANGED Viewed

Binary file

package/bin/linux-cuda/arm64/llama-node.node CHANGED Viewed

Binary file

package/bin/linux-cuda/x64/llama-node.node CHANGED Viewed

Binary file

package/bin/linux-vulkan/arm64/llama-node.node CHANGED Viewed

Binary file

package/bin/linux-vulkan/x64/llama-node.node CHANGED Viewed

Binary file

package/bin/win32/arm64/llama-node.node CHANGED Viewed

Binary file

package/bin/win32/arm64/node.lib CHANGED Viewed

Binary file

package/bin/win32/x64/llama-node.node CHANGED Viewed

Binary file

package/bin/win32/x64/node.lib CHANGED Viewed

Binary file

package/bin/win32-vulkan/arm64/llama-node.node CHANGED Viewed

Binary file

package/bin/win32-vulkan/arm64/node.lib CHANGED Viewed

Binary file

package/bin/win32-vulkan/x64/llama-node.node CHANGED Viewed

Binary file

package/bin/win32-vulkan/x64/node.lib CHANGED Viewed

Binary file

package/lib/binding.ts CHANGED Viewed

@@ -1,8 +1,17 @@
 import * as path from 'path'
+export type MessagePart = {
+  type: string,
+  text?: string,
+  image_url?: {
+    url?: string
+  }
+}
 export type ChatMessage = {
   role: string
-  content: string
+  content?: string | MessagePart[]
 }
 export type LlamaModelOptions = {
@@ -93,6 +102,13 @@ export type LlamaCompletionOptions = {
   grammar_lazy?: boolean
   grammar_triggers?: { type: number; word: string; at_start: boolean }[]
   preserved_tokens?: string[]
+  /**
+   * Path(s) to image file(s) to process before generating text.
+   * When provided, the image(s) will be processed and added to the context.
+   * Requires multimodal support to be enabled via initMultimodal.
+   * Supports both file paths and base64 data URLs.
+   */
+  image_paths?: string | string[]
 }
 export type LlamaCompletionResult = {
@@ -154,9 +170,30 @@ export interface LlamaContext {
   applyLoraAdapters(adapters: { path: string; scaled: number }[]): void
   removeLoraAdapters(adapters: { path: string }[]): void
   getLoadedLoraAdapters(): { path: string; scaled: number }[]
+  /**
+   * Initialize multimodal support with a mmproj file
+   * @param mmproj_path Path to the multimodal projector file
+   * @returns Promise resolving to true if initialization was successful
+   */
+  initMultimodal(options: { path: string; use_gpu?: boolean }): Promise<boolean>
+  /**
+   * Check if multimodal support is enabled
+   * @returns Promise resolving to true if multimodal is enabled
+   */
+  isMultimodalEnabled(): Promise<boolean>
+  /**
+   * Release multimodal support
+   */
+  releaseMultimodal(): Promise<void>
   // static
   loadModelInfo(path: string, skip: string[]): Promise<Object>
-  toggleNativeLog(enable: boolean, callback: (level: string, text: string) => void): void
+  toggleNativeLog(
+    enable: boolean,
+    callback: (level: string, text: string) => void,
+  ): void
 }
 export interface Module {

package/lib/index.js CHANGED Viewed

@@ -51,12 +51,143 @@ function addNativeLogListener(listener) {
         },
     };
 }
+const getJsonSchema = (responseFormat) => {
+    var _a;
+    if ((responseFormat === null || responseFormat === void 0 ? void 0 : responseFormat.type) === 'json_schema') {
+        return (_a = responseFormat.json_schema) === null || _a === void 0 ? void 0 : _a.schema;
+    }
+    if ((responseFormat === null || responseFormat === void 0 ? void 0 : responseFormat.type) === 'json_object') {
+        return responseFormat.schema || {};
+    }
+    return null;
+};
+class LlamaContextWrapper {
+    constructor(nativeCtx) {
+        this.ctx = nativeCtx;
+    }
+    getSystemInfo() {
+        return this.ctx.getSystemInfo();
+    }
+    getModelInfo() {
+        return this.ctx.getModelInfo();
+    }
+    isJinjaSupported() {
+        const { minja } = this.ctx.getModelInfo().chatTemplates;
+        return !!(minja === null || minja === void 0 ? void 0 : minja.toolUse) || !!(minja === null || minja === void 0 ? void 0 : minja.default);
+    }
+    isLlamaChatSupported() {
+        return !!this.ctx.getModelInfo().chatTemplates.llamaChat;
+    }
+    _formatImageChat(messages) {
+        if (!messages)
+            return {
+                messages,
+                has_image: false,
+            };
+        const imagePaths = [];
+        return {
+            messages: messages.map((msg) => {
+                if (Array.isArray(msg.content)) {
+                    const content = msg.content.map((part) => {
+                        var _a;
+                        // Handle multimodal content
+                        if (part.type === 'image_url') {
+                            let path = ((_a = part.image_url) === null || _a === void 0 ? void 0 : _a.url) || '';
+                            imagePaths.push(path);
+                            return {
+                                type: 'text',
+                                text: '<__image__>',
+                            };
+                        }
+                        return part;
+                    });
+                    return Object.assign(Object.assign({}, msg), { content });
+                }
+                return msg;
+            }),
+            has_image: imagePaths.length > 0,
+            image_paths: imagePaths,
+        };
+    }
+    getFormattedChat(messages, template, params) {
+        const { messages: chat, has_image, image_paths, } = this._formatImageChat(messages);
+        const useJinja = this.isJinjaSupported() && (params === null || params === void 0 ? void 0 : params.jinja);
+        let tmpl = this.isLlamaChatSupported() || useJinja ? undefined : 'chatml';
+        if (template)
+            tmpl = template; // Force replace if provided
+        const jsonSchema = getJsonSchema(params === null || params === void 0 ? void 0 : params.response_format);
+        const result = this.ctx.getFormattedChat(chat, tmpl, {
+            jinja: useJinja,
+            json_schema: jsonSchema,
+            tools: params === null || params === void 0 ? void 0 : params.tools,
+            parallel_tool_calls: params === null || params === void 0 ? void 0 : params.parallel_tool_calls,
+            tool_choice: params === null || params === void 0 ? void 0 : params.tool_choice,
+        });
+        if (!useJinja) {
+            return {
+                type: 'llama-chat',
+                prompt: result,
+                has_image,
+                image_paths,
+            };
+        }
+        const jinjaResult = result;
+        jinjaResult.type = 'jinja';
+        jinjaResult.has_image = has_image;
+        jinjaResult.image_paths = image_paths;
+        return jinjaResult;
+    }
+    completion(options, callback) {
+        const { messages, image_paths = options.image_paths } = this._formatImageChat(options.messages);
+        return this.ctx.completion(Object.assign(Object.assign({}, options), { messages, image_paths: options.image_paths || image_paths }), callback || (() => { }));
+    }
+    stopCompletion() {
+        return this.ctx.stopCompletion();
+    }
+    tokenize(text) {
+        return this.ctx.tokenize(text);
+    }
+    detokenize(tokens) {
+        return this.ctx.detokenize(tokens);
+    }
+    embedding(text) {
+        return this.ctx.embedding(text);
+    }
+    saveSession(path) {
+        return this.ctx.saveSession(path);
+    }
+    loadSession(path) {
+        return this.ctx.loadSession(path);
+    }
+    release() {
+        return this.ctx.release();
+    }
+    applyLoraAdapters(adapters) {
+        return this.ctx.applyLoraAdapters(adapters);
+    }
+    removeLoraAdapters(adapters) {
+        return this.ctx.removeLoraAdapters(adapters);
+    }
+    getLoadedLoraAdapters() {
+        return this.ctx.getLoadedLoraAdapters();
+    }
+    initMultimodal(options) {
+        return this.ctx.initMultimodal(options);
+    }
+    isMultimodalEnabled() {
+        return this.ctx.isMultimodalEnabled();
+    }
+    releaseMultimodal() {
+        return this.ctx.releaseMultimodal();
+    }
+}
 const loadModel = (options) => __awaiter(void 0, void 0, void 0, function* () {
     var _a, _b;
     const variant = (_a = options.lib_variant) !== null && _a !== void 0 ? _a : 'default';
     (_b = mods[variant]) !== null && _b !== void 0 ? _b : (mods[variant] = yield (0, binding_1.loadModule)(options.lib_variant));
     refreshNativeLogSetup();
-    return new mods[variant].LlamaContext(options);
+    const nativeCtx = new mods[variant].LlamaContext(options);
+    return new LlamaContextWrapper(nativeCtx);
 });
 exports.loadModel = loadModel;
 exports.initLlama = binding_1.loadModule;

package/lib/index.ts CHANGED Viewed

@@ -1,5 +1,16 @@
 import { loadModule, LlamaModelOptions } from './binding'
-import type { Module, LlamaContext, LibVariant } from './binding'
+import type {
+  Module,
+  LlamaContext,
+  LibVariant,
+  ChatMessage,
+  LlamaCompletionOptions,
+  LlamaCompletionToken,
+  LlamaCompletionResult,
+  TokenizeResult,
+  EmbeddingResult,
+  CompletionResponseFormat,
+} from './binding'
 export * from './binding'
@@ -39,13 +50,202 @@ export function addNativeLogListener(
   }
 }
+const getJsonSchema = (responseFormat?: CompletionResponseFormat) => {
+  if (responseFormat?.type === 'json_schema') {
+    return responseFormat.json_schema?.schema
+  }
+  if (responseFormat?.type === 'json_object') {
+    return responseFormat.schema || {}
+  }
+  return null
+}
+class LlamaContextWrapper {
+  ctx: any
+  constructor(nativeCtx: any) {
+    this.ctx = nativeCtx
+  }
+  getSystemInfo(): string {
+    return this.ctx.getSystemInfo()
+  }
+  getModelInfo(): object {
+    return this.ctx.getModelInfo()
+  }
+  isJinjaSupported(): boolean {
+    const { minja } = this.ctx.getModelInfo().chatTemplates
+    return !!minja?.toolUse || !!minja?.default
+  }
+  isLlamaChatSupported(): boolean {
+    return !!this.ctx.getModelInfo().chatTemplates.llamaChat
+  }
+  _formatImageChat(messages: ChatMessage[] | undefined): {
+    messages: ChatMessage[] | undefined
+    has_image: boolean
+    image_paths?: string[]
+  } {
+    if (!messages)
+      return {
+        messages,
+        has_image: false,
+      }
+    const imagePaths: string[] = []
+    return {
+      messages: messages.map((msg) => {
+        if (Array.isArray(msg.content)) {
+          const content = msg.content.map((part) => {
+            // Handle multimodal content
+            if (part.type === 'image_url') {
+              let path = part.image_url?.url || ''
+              imagePaths.push(path)
+              return {
+                type: 'text',
+                text: '<__image__>',
+              }
+            }
+            return part
+          })
+          return {
+            ...msg,
+            content,
+          }
+        }
+        return msg
+      }),
+      has_image: imagePaths.length > 0,
+      image_paths: imagePaths,
+    }
+  }
+  getFormattedChat(
+    messages: ChatMessage[],
+    template?: string,
+    params?: {
+      jinja?: boolean
+      response_format?: CompletionResponseFormat
+      tools?: object
+      parallel_tool_calls?: object
+      tool_choice?: string
+    },
+  ): object {
+    const {
+      messages: chat,
+      has_image,
+      image_paths,
+    } = this._formatImageChat(messages)
+    const useJinja = this.isJinjaSupported() && params?.jinja
+    let tmpl = this.isLlamaChatSupported() || useJinja ? undefined : 'chatml'
+    if (template) tmpl = template // Force replace if provided
+    const jsonSchema = getJsonSchema(params?.response_format)
+    const result = this.ctx.getFormattedChat(chat, tmpl, {
+      jinja: useJinja,
+      json_schema: jsonSchema,
+      tools: params?.tools,
+      parallel_tool_calls: params?.parallel_tool_calls,
+      tool_choice: params?.tool_choice,
+    })
+    if (!useJinja) {
+      return {
+        type: 'llama-chat',
+        prompt: result as string,
+        has_image,
+        image_paths,
+      }
+    }
+    const jinjaResult = result
+    jinjaResult.type = 'jinja'
+    jinjaResult.has_image = has_image
+    jinjaResult.image_paths = image_paths
+    return jinjaResult
+  }
+  completion(
+    options: LlamaCompletionOptions,
+    callback?: (token: LlamaCompletionToken) => void,
+  ): Promise<LlamaCompletionResult> {
+    const { messages, image_paths = options.image_paths } =
+      this._formatImageChat(options.messages)
+    return this.ctx.completion({
+      ...options,
+      messages,
+      image_paths: options.image_paths || image_paths,
+    }, callback || (() => {}))
+  }
+  stopCompletion(): void {
+    return this.ctx.stopCompletion()
+  }
+  tokenize(text: string): Promise<TokenizeResult> {
+    return this.ctx.tokenize(text)
+  }
+  detokenize(tokens: number[]): Promise<string> {
+    return this.ctx.detokenize(tokens)
+  }
+  embedding(text: string): Promise<EmbeddingResult> {
+    return this.ctx.embedding(text)
+  }
+  saveSession(path: string): Promise<void> {
+    return this.ctx.saveSession(path)
+  }
+  loadSession(path: string): Promise<void> {
+    return this.ctx.loadSession(path)
+  }
+  release(): Promise<void> {
+    return this.ctx.release()
+  }
+  applyLoraAdapters(adapters: { path: string; scaled: number }[]): void {
+    return this.ctx.applyLoraAdapters(adapters)
+  }
+  removeLoraAdapters(adapters: { path: string }[]): void {
+    return this.ctx.removeLoraAdapters(adapters)
+  }
+  getLoadedLoraAdapters(): { path: string; scaled: number }[] {
+    return this.ctx.getLoadedLoraAdapters()
+  }
+  initMultimodal(options: {
+    path: string
+    use_gpu?: boolean
+  }): Promise<boolean> {
+    return this.ctx.initMultimodal(options)
+  }
+  isMultimodalEnabled(): Promise<boolean> {
+    return this.ctx.isMultimodalEnabled()
+  }
+  releaseMultimodal(): Promise<void> {
+    return this.ctx.releaseMultimodal()
+  }
+}
 export const loadModel = async (
   options: LlamaModelOptionsExtended,
-): Promise<LlamaContext> => {
+): Promise<LlamaContextWrapper> => {
   const variant = options.lib_variant ?? 'default'
   mods[variant] ??= await loadModule(options.lib_variant)
   refreshNativeLogSetup()
-  return new mods[variant].LlamaContext(options)
+  const nativeCtx = new mods[variant].LlamaContext(options)
+  return new LlamaContextWrapper(nativeCtx)
 }
 export const initLlama = loadModule

package/package.json CHANGED Viewed

@@ -1,10 +1,11 @@
 {
   "name": "@fugood/llama.node",
   "access": "public",
-  "version": "0.3.17",
+  "version": "0.4.1",
   "description": "An another Node binding of llama.cpp",
   "main": "lib/index.js",
   "scripts": {
+    "pretest": "node scripts/download-test-models.js",
     "test": "jest",
     "build": "tsc",
     "prepack": "yarn build",

package/src/EmbeddingWorker.cpp CHANGED Viewed

@@ -6,7 +6,7 @@ EmbeddingWorker::EmbeddingWorker(const Napi::CallbackInfo &info,
     : AsyncWorker(info.Env()), Deferred(info.Env()), _sess(sess), _text(text), _params(params) {}
 void EmbeddingWorker::Execute() {
-  llama_kv_cache_clear(_sess->context());
+  llama_kv_self_clear(_sess->context());
   auto tokens = ::common_tokenize(_sess->context(), _text, true);
   // add SEP if not present
   auto vocab = llama_model_get_vocab(_sess->model());