npm - node-llama-cpp - Versions diffs - 3.3.1 → 3.4.0 - Mend

node-llama-cpp 3.3.1 → 3.4.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (194) hide show

package/README.md +2 -1
package/dist/bindings/AddonTypes.d.ts +12 -4
package/dist/bindings/Llama.d.ts +9 -0
package/dist/bindings/Llama.js +52 -28
package/dist/bindings/Llama.js.map +1 -1
package/dist/bindings/getLlama.d.ts +2 -1
package/dist/bindings/getLlama.js +19 -9
package/dist/bindings/getLlama.js.map +1 -1
package/dist/bindings/utils/asyncSome.js +2 -0
package/dist/bindings/utils/asyncSome.js.map +1 -1
package/dist/bindings/utils/compileLLamaCpp.d.ts +1 -1
package/dist/bindings/utils/compileLLamaCpp.js +108 -34
package/dist/bindings/utils/compileLLamaCpp.js.map +1 -1
package/dist/bindings/utils/detectAvailableComputeLayers.d.ts +1 -0
package/dist/bindings/utils/detectAvailableComputeLayers.js +4 -4
package/dist/bindings/utils/detectAvailableComputeLayers.js.map +1 -1
package/dist/bindings/utils/detectBuildTools.d.ts +14 -0
package/dist/bindings/utils/detectBuildTools.js +149 -0
package/dist/bindings/utils/detectBuildTools.js.map +1 -0
package/dist/bindings/utils/resolveActualBindingBinaryPath.d.ts +1 -0
package/dist/bindings/utils/resolveActualBindingBinaryPath.js +18 -0
package/dist/bindings/utils/resolveActualBindingBinaryPath.js.map +1 -0
package/dist/bindings/utils/testBindingBinary.d.ts +1 -1
package/dist/bindings/utils/testBindingBinary.js +58 -5
package/dist/bindings/utils/testBindingBinary.js.map +1 -1
package/dist/chatWrappers/AlpacaChatWrapper.d.ts +4 -0
package/dist/chatWrappers/AlpacaChatWrapper.js +4 -0
package/dist/chatWrappers/AlpacaChatWrapper.js.map +1 -1
package/dist/chatWrappers/FalconChatWrapper.d.ts +4 -0
package/dist/chatWrappers/FalconChatWrapper.js +4 -0
package/dist/chatWrappers/FalconChatWrapper.js.map +1 -1
package/dist/chatWrappers/GeneralChatWrapper.d.ts +4 -0
package/dist/chatWrappers/GeneralChatWrapper.js +4 -0
package/dist/chatWrappers/GeneralChatWrapper.js.map +1 -1
package/dist/chatWrappers/utils/resolveChatWrapper.d.ts +2 -0
package/dist/chatWrappers/utils/resolveChatWrapper.js +8 -27
package/dist/chatWrappers/utils/resolveChatWrapper.js.map +1 -1
package/dist/cli/commands/ChatCommand.d.ts +4 -0
package/dist/cli/commands/ChatCommand.js +155 -11
package/dist/cli/commands/ChatCommand.js.map +1 -1
package/dist/cli/commands/CompleteCommand.d.ts +4 -0
package/dist/cli/commands/CompleteCommand.js +143 -10
package/dist/cli/commands/CompleteCommand.js.map +1 -1
package/dist/cli/commands/DebugCommand.js +5 -5
package/dist/cli/commands/DebugCommand.js.map +1 -1
package/dist/cli/commands/InfillCommand.d.ts +4 -0
package/dist/cli/commands/InfillCommand.js +142 -10
package/dist/cli/commands/InfillCommand.js.map +1 -1
package/dist/cli/commands/OnPostInstallCommand.js +12 -2
package/dist/cli/commands/OnPostInstallCommand.js.map +1 -1
package/dist/cli/commands/inspect/commands/InspectEstimateCommand.d.ts +1 -0
package/dist/cli/commands/inspect/commands/InspectEstimateCommand.js +14 -7
package/dist/cli/commands/inspect/commands/InspectEstimateCommand.js.map +1 -1
package/dist/cli/commands/inspect/commands/InspectGgufCommand.js +13 -3
package/dist/cli/commands/inspect/commands/InspectGgufCommand.js.map +1 -1
package/dist/cli/commands/inspect/commands/InspectGpuCommand.js +20 -10
package/dist/cli/commands/inspect/commands/InspectGpuCommand.js.map +1 -1
package/dist/cli/commands/inspect/commands/InspectMeasureCommand.d.ts +2 -0
package/dist/cli/commands/inspect/commands/InspectMeasureCommand.js +234 -77
package/dist/cli/commands/inspect/commands/InspectMeasureCommand.js.map +1 -1
package/dist/cli/utils/ConsoleTable.d.ts +1 -0
package/dist/cli/utils/ConsoleTable.js +5 -1
package/dist/cli/utils/ConsoleTable.js.map +1 -1
package/dist/cli/utils/interactivelyAskForModel.d.ts +2 -1
package/dist/cli/utils/interactivelyAskForModel.js +16 -13
package/dist/cli/utils/interactivelyAskForModel.js.map +1 -1
package/dist/cli/utils/isRunningUnderRosetta.d.ts +1 -0
package/dist/cli/utils/isRunningUnderRosetta.js +20 -0
package/dist/cli/utils/isRunningUnderRosetta.js.map +1 -0
package/dist/cli/utils/printCommonInfoLines.d.ts +4 -2
package/dist/cli/utils/printCommonInfoLines.js +67 -5
package/dist/cli/utils/printCommonInfoLines.js.map +1 -1
package/dist/cli/utils/resolveCommandGgufPath.d.ts +3 -1
package/dist/cli/utils/resolveCommandGgufPath.js +6 -5
package/dist/cli/utils/resolveCommandGgufPath.js.map +1 -1
package/dist/cli/utils/toBytes.d.ts +1 -0
package/dist/cli/utils/toBytes.js +5 -0
package/dist/cli/utils/toBytes.js.map +1 -0
package/dist/config.d.ts +3 -0
package/dist/config.js +3 -0
package/dist/config.js.map +1 -1
package/dist/evaluator/LlamaChat/LlamaChat.d.ts +12 -3
package/dist/evaluator/LlamaChat/LlamaChat.js +21 -7
package/dist/evaluator/LlamaChat/LlamaChat.js.map +1 -1
package/dist/evaluator/LlamaChatSession/LlamaChatSession.d.ts +6 -2
package/dist/evaluator/LlamaChatSession/LlamaChatSession.js +3 -0
package/dist/evaluator/LlamaChatSession/LlamaChatSession.js.map +1 -1
package/dist/evaluator/LlamaCompletion.d.ts +3 -0
package/dist/evaluator/LlamaCompletion.js +5 -0
package/dist/evaluator/LlamaCompletion.js.map +1 -1
package/dist/evaluator/LlamaContext/LlamaContext.d.ts +81 -38
package/dist/evaluator/LlamaContext/LlamaContext.js +678 -132
package/dist/evaluator/LlamaContext/LlamaContext.js.map +1 -1
package/dist/evaluator/LlamaContext/TokenPredictor.d.ts +55 -0
package/dist/evaluator/LlamaContext/TokenPredictor.js +20 -0
package/dist/evaluator/LlamaContext/TokenPredictor.js.map +1 -0
package/dist/evaluator/LlamaContext/tokenPredictors/DraftSequenceTokenPredictor.d.ts +56 -0
package/dist/evaluator/LlamaContext/tokenPredictors/DraftSequenceTokenPredictor.js +266 -0
package/dist/evaluator/LlamaContext/tokenPredictors/DraftSequenceTokenPredictor.js.map +1 -0
package/dist/evaluator/LlamaContext/tokenPredictors/InputLookupTokenPredictor.d.ts +58 -0
package/dist/evaluator/LlamaContext/tokenPredictors/InputLookupTokenPredictor.js +138 -0
package/dist/evaluator/LlamaContext/tokenPredictors/InputLookupTokenPredictor.js.map +1 -0
package/dist/evaluator/LlamaContext/types.d.ts +198 -5
package/dist/evaluator/LlamaEmbeddingContext.d.ts +3 -0
package/dist/evaluator/LlamaEmbeddingContext.js +3 -0
package/dist/evaluator/LlamaEmbeddingContext.js.map +1 -1
package/dist/evaluator/LlamaGrammar.d.ts +7 -1
package/dist/evaluator/LlamaGrammar.js +6 -0
package/dist/evaluator/LlamaGrammar.js.map +1 -1
package/dist/evaluator/LlamaGrammarEvaluationState.d.ts +4 -4
package/dist/evaluator/LlamaGrammarEvaluationState.js +16 -8
package/dist/evaluator/LlamaGrammarEvaluationState.js.map +1 -1
package/dist/evaluator/LlamaJsonSchemaGrammar.d.ts +5 -0
package/dist/evaluator/LlamaJsonSchemaGrammar.js +7 -0
package/dist/evaluator/LlamaJsonSchemaGrammar.js.map +1 -1
package/dist/evaluator/LlamaModel/LlamaModel.d.ts +19 -11
package/dist/evaluator/LlamaModel/LlamaModel.js +24 -38
package/dist/evaluator/LlamaModel/LlamaModel.js.map +1 -1
package/dist/evaluator/LlamaRankingContext.d.ts +76 -0
package/dist/evaluator/LlamaRankingContext.js +159 -0
package/dist/evaluator/LlamaRankingContext.js.map +1 -0
package/dist/evaluator/TokenBias.d.ts +3 -0
package/dist/evaluator/TokenBias.js +3 -0
package/dist/evaluator/TokenBias.js.map +1 -1
package/dist/evaluator/utils/chunkDocument.d.ts +86 -0
package/dist/evaluator/utils/chunkDocument.js +212 -0
package/dist/evaluator/utils/chunkDocument.js.map +1 -0
package/dist/gguf/insights/GgufInsights.d.ts +3 -1
package/dist/gguf/insights/GgufInsights.js +114 -8
package/dist/gguf/insights/GgufInsights.js.map +1 -1
package/dist/gguf/insights/GgufInsightsConfigurationResolver.d.ts +6 -3
package/dist/gguf/insights/GgufInsightsConfigurationResolver.js +11 -7
package/dist/gguf/insights/GgufInsightsConfigurationResolver.js.map +1 -1
package/dist/gguf/insights/utils/resolveModelGpuLayersOption.d.ts +2 -1
package/dist/gguf/insights/utils/resolveModelGpuLayersOption.js +13 -7
package/dist/gguf/insights/utils/resolveModelGpuLayersOption.js.map +1 -1
package/dist/gguf/parser/GgufV2Parser.js +29 -8
package/dist/gguf/parser/GgufV2Parser.js.map +1 -1
package/dist/gguf/parser/parseGguf.js +11 -11
package/dist/gguf/parser/parseGguf.js.map +1 -1
package/dist/gguf/readGgufFileInfo.js +8 -3
package/dist/gguf/readGgufFileInfo.js.map +1 -1
package/dist/gguf/types/GgufFileInfoTypes.d.ts +1 -0
package/dist/gguf/types/GgufMetadataTypes.d.ts +9 -9
package/dist/gguf/types/GgufMetadataTypes.js +1 -1
package/dist/gguf/types/GgufMetadataTypes.js.map +1 -1
package/dist/gguf/types/GgufTensorInfoTypes.d.ts +13 -0
package/dist/gguf/types/GgufTensorInfoTypes.js.map +1 -1
package/dist/index.d.ts +7 -2
package/dist/index.js +6 -1
package/dist/index.js.map +1 -1
package/dist/tsconfig.tsbuildinfo +1 -1
package/dist/utils/LlamaText.d.ts +4 -1
package/dist/utils/LlamaText.js +4 -1
package/dist/utils/LlamaText.js.map +1 -1
package/dist/utils/cmake.js +23 -0
package/dist/utils/cmake.js.map +1 -1
package/dist/utils/pushAll.d.ts +1 -1
package/dist/utils/pushAll.js.map +1 -1
package/dist/utils/tokenizerUtils.js +1 -1
package/dist/utils/utilTypes.d.ts +5 -0
package/llama/CMakeLists.txt +25 -8
package/llama/addon/AddonContext.cpp +188 -16
package/llama/addon/AddonContext.h +1 -0
package/llama/addon/AddonGrammar.cpp +1 -4
package/llama/addon/AddonGrammarEvaluationState.cpp +16 -5
package/llama/addon/AddonModel.cpp +11 -15
package/llama/addon/AddonModel.h +0 -1
package/llama/addon/AddonSampler.cpp +1 -6
package/llama/addon/addon.cpp +26 -7
package/llama/addon/globals/getGpuInfo.cpp +30 -5
package/llama/addon/globals/getGpuInfo.h +6 -1
package/llama/addon/globals/getMemoryInfo.cpp +63 -0
package/llama/addon/globals/getMemoryInfo.h +4 -0
package/llama/binariesGithubRelease.json +1 -1
package/llama/cmake/win32.ensureNinjaPath.cmake +68 -0
package/llama/cmake/win32.ensureNodeLib.cmake +34 -0
package/llama/cmake/win32.llvmApplyGnuModeAdaptations.cmake +12 -0
package/llama/cmake/win32.llvmEnsureCmakeAr.cmake +37 -0
package/llama/cmake/win32.llvmUseGnuModeCompilers.cmake +87 -0
package/llama/cmake/win32.programFilesPaths.cmake +31 -0
package/llama/gitRelease.bundle +0 -0
package/llama/gpuInfo/vulkan-gpu-info.cpp +29 -2
package/llama/gpuInfo/vulkan-gpu-info.h +1 -0
package/llama/llama.cpp.info.json +1 -1
package/llama/profiles/llvm.win32.host-arm64.target-arm64.cmake +14 -0
package/llama/profiles/llvm.win32.host-x64.target-arm64.cmake +14 -0
package/llama/profiles/llvm.win32.host-x64.target-x64.cmake +14 -0
package/llama/toolchains/llvm.win32.host-x64.target-x64.cmake +20 -0
package/llama/toolchains/win32.host-arm64.target-arm64.cmake +21 -0
package/llama/toolchains/win32.host-x64.target-arm64.cmake +14 -34
package/package.json +43 -43
package/templates/packed/electron-typescript-react.json +1 -1
package/templates/packed/node-typescript.json +1 -1

package/llama/addon/AddonContext.cpp CHANGED Viewed

@@ -1,5 +1,6 @@
 #include <thread>
 #include <algorithm>
+#include <cmath>
 #include "common/common.h"
 #include "llama-grammar.h"
 #include "llama.h"
@@ -190,6 +191,14 @@ class AddonContextSampleTokenWorker : public Napi::AsyncWorker {
     public:
         AddonContext* ctx;
         AddonSampler* sampler;
+        bool arrayResult = false;
+        bool returnProbabilities = false;
+        bool returnConfidence = false;
+        float tokenConfidence = -1;
+        bool has_probabilities = false;
+        size_t probabilities_size;
+        llama_token * probabilities_tokens;
+        float * probabilities_probs;
         int32_t batchLogitIndex;
         llama_token result;
         bool no_output = false;
@@ -202,11 +211,19 @@ class AddonContextSampleTokenWorker : public Napi::AsyncWorker {
             batchLogitIndex = info[0].As<Napi::Number>().Int32Value();
             sampler = Napi::ObjectWrap<AddonSampler>::Unwrap(info[1].As<Napi::Object>());
+            arrayResult = info.Length() > 2 && info[2].IsBoolean();
+            returnProbabilities = arrayResult ? info[2].As<Napi::Boolean>().Value() : false;
+            returnConfidence = arrayResult && info.Length() > 3 && info[3].IsBoolean() ? info[3].As<Napi::Boolean>().Value() : false;
             sampler->Ref();
         }
         ~AddonContextSampleTokenWorker() {
             ctx->Unref();
             sampler->Unref();
+            if (has_probabilities) {
+                delete[] probabilities_tokens;
+                delete[] probabilities_probs;
+            }
         }
         Napi::Promise GetPromise() {
@@ -239,7 +256,7 @@ class AddonContextSampleTokenWorker : public Napi::AsyncWorker {
             auto & candidates = sampler->tokenCandidates;
             for (llama_token token_id = 0; token_id < n_vocab; token_id++) {
-                candidates[token_id] = llama_token_data{token_id, logits[token_id], 0.0f};;
+                candidates[token_id] = llama_token_data{token_id, logits[token_id], 0.0f};
             }
             llama_token_data_array cur_p = {
@@ -257,18 +274,111 @@ class AddonContextSampleTokenWorker : public Napi::AsyncWorker {
             }
             auto new_token_id = cur_p.data[cur_p.selected].id;
+            if (returnProbabilities || returnConfidence) {
+                if (!cur_p.sorted) {
+                    std::sort(cur_p.data, cur_p.data + cur_p.size, [](const llama_token_data & a, const llama_token_data & b) {
+                        return a.logit > b.logit;
+                    });
+                    cur_p.sorted = true;
+                    for (size_t i = 0; i < cur_p.size; i++) {
+                        if (cur_p.data[i].id == new_token_id) {
+                            cur_p.selected = i;
+                            break;
+                        }
+                    }
+                }
+            }
+            if (returnProbabilities) {
+                probabilities_size = cur_p.size;
+                probabilities_tokens = new llama_token[probabilities_size];
+                probabilities_probs = new float[probabilities_size];
+                float maxLogit = cur_p.size > 0 ? cur_p.data[0].logit : -INFINITY;
+                for (size_t i = 0; i < cur_p.size; i++) {
+                    auto logit = cur_p.data[i].logit;
+                    probabilities_tokens[i] = cur_p.data[i].id;
+                    probabilities_probs[i] = logit;
+                    if (logit > maxLogit) {
+                        maxLogit = logit;
+                    }
+                }
+                if (probabilities_size > 0 && maxLogit != -INFINITY) {
+                    float sum = 0.0f;
+                    for (size_t i = 0; i < probabilities_size; i++) {
+                        float prob = expf(probabilities_probs[i] - maxLogit);
+                        probabilities_probs[i] = prob;
+                        sum += prob;
+                    }
+                    for (size_t i = 0; i < probabilities_size; i++) {
+                        probabilities_probs[i] /= sum;
+                    }
+                }
+                has_probabilities = true;
+            }
+            if (returnConfidence) {
+                if (has_probabilities && cur_p.selected < probabilities_size) {
+                    tokenConfidence = probabilities_probs[cur_p.selected];
+                } else {
+                    float maxLogit = cur_p.data[0].logit;
+                    float sum = 0.0f;
+                    for (size_t i = 0; i < cur_p.size; i++) {
+                        auto logit = cur_p.data[i].logit;
+                        if (logit > maxLogit) {
+                            maxLogit = logit;
+                        }
+                    }
+                    for (size_t i = 0; i < cur_p.size; i++) {
+                        sum += expf(cur_p.data[i].logit - maxLogit);
+                    }
+                    tokenConfidence = expf(cur_p.data[cur_p.selected].logit - maxLogit) / sum;
+                }
+            }
             sampler->acceptToken(new_token_id);
             result = new_token_id;
         }
         void OnOK() {
+            Napi::Number resultToken;
             if (no_output) {
-                Napi::Number resultValue = Napi::Number::New(Env(), -1);
-                deferred.Resolve(resultValue);
+                resultToken = Napi::Number::New(Env(), -1);
+            } else {
+                resultToken = Napi::Number::New(Env(), static_cast<uint32_t>(result));
+            }
+            if (!arrayResult) {
+                deferred.Resolve(resultToken);
                 return;
             }
-            Napi::Number resultValue = Napi::Number::New(Env(), static_cast<uint32_t>(result));
-            deferred.Resolve(resultValue);
+            Napi::Array resultArray = Napi::Array::New(Env(), 2);
+            resultArray.Set(Napi::Number::New(Env(), 0), resultToken);
+            if (has_probabilities) {
+                Napi::Array probabilities = Napi::Array::New(Env(), probabilities_size * 2);
+                for (size_t i = 0; i < probabilities_size; i++) {
+                    probabilities.Set(i * 2, Napi::Number::New(Env(), probabilities_tokens[i]));
+                    probabilities.Set(i * 2 + 1, Napi::Number::New(Env(), probabilities_probs[i]));
+                }
+                resultArray.Set(1, probabilities);
+            }
+            if (returnConfidence && tokenConfidence != -1) {
+                resultArray.Set(2, Napi::Number::New(Env(), tokenConfidence));
+            }
+            deferred.Resolve(resultArray);
         }
         void OnError(const Napi::Error& err) {
             deferred.Reject(err.Value());
@@ -305,6 +415,10 @@ AddonContext::AddonContext(const Napi::CallbackInfo& info) : Napi::ObjectWrap<Ad
             context_params.embeddings = options.Get("embeddings").As<Napi::Boolean>().Value();
         }
+        if (options.Has("ranking") && options.Get("ranking").As<Napi::Boolean>().Value()) {
+            context_params.pooling_type = LLAMA_POOLING_TYPE_RANK;
+        }
         if (options.Has("flashAttention")) {
             context_params.flash_attn = options.Get("flashAttention").As<Napi::Boolean>().Value();
         }
@@ -441,24 +555,25 @@ Napi::Value AddonContext::AddToBatch(const Napi::CallbackInfo& info) {
     int32_t sequenceId = info[0].As<Napi::Number>().Int32Value();
     int32_t firstTokenContextIndex = info[1].As<Napi::Number>().Int32Value();
     Napi::Uint32Array tokens = info[2].As<Napi::Uint32Array>();
-    bool generateLogitAtTheEnd = info[3].As<Napi::Boolean>().Value();
+    Napi::Uint32Array tokenLogitIndexes = info[3].As<Napi::Uint32Array>();
     auto tokensLength = tokens.ElementLength();
+    auto tokenLogitIndexesLength = tokenLogitIndexes.ElementLength();
     GGML_ASSERT(batch.n_tokens + tokensLength <= batch_n_tokens);
-    for (size_t i = 0; i < tokensLength; i++) {
-        common_batch_add(batch, static_cast<llama_token>(tokens[i]), firstTokenContextIndex + i, { sequenceId }, false);
-    }
-    if (generateLogitAtTheEnd) {
-        batch.logits[batch.n_tokens - 1] = true;
+    Napi::Uint32Array resLogitIndexes = Napi::Uint32Array::New(info.Env(), tokenLogitIndexesLength);
-        auto logit_index = batch.n_tokens - 1;
-        return Napi::Number::From(info.Env(), logit_index);
+    for (size_t i = 0, l = 0; i < tokensLength; i++) {
+        if (l < tokenLogitIndexesLength && l < tokenLogitIndexesLength && tokenLogitIndexes[l] == i) {
+            common_batch_add(batch, static_cast<llama_token>(tokens[i]), firstTokenContextIndex + i, { sequenceId }, true);
+            resLogitIndexes[l] = batch.n_tokens - 1;
+            l++;
+        } else {
+            common_batch_add(batch, static_cast<llama_token>(tokens[i]), firstTokenContextIndex + i, { sequenceId }, false);
+        }
     }
-    return info.Env().Undefined();
+    return resLogitIndexes;
 }
 Napi::Value AddonContext::DisposeSequence(const Napi::CallbackInfo& info) {
     if (disposed) {
@@ -592,6 +707,62 @@ Napi::Value AddonContext::PrintTimings(const Napi::CallbackInfo& info) {
     return info.Env().Undefined();
 }
+Napi::Value AddonContext::EnsureDraftContextIsCompatibleForSpeculative(const Napi::CallbackInfo& info) {
+    constexpr auto vocabSizeMaxDifference = 128; // SPEC_VOCAB_MAX_SIZE_DIFFERENCE
+    constexpr auto vocabCheckStartTokenId = 5; // SPEC_VOCAB_CHECK_START_TOKEN_ID
+    const AddonContext * draftContext = Napi::ObjectWrap<AddonContext>::Unwrap(info[0].As<Napi::Object>());
+    const auto currentCtx = ctx;
+    const auto draftCtx = draftContext->ctx;
+    const auto currentModel = model->model;
+    const auto draftModel = draftContext->model->model;
+    if (llama_vocab_type(currentModel) != llama_vocab_type(draftModel)) {
+        Napi::Error::New(info.Env(), "Speculative draft model vocabulary type must match the target model vocabulary type").ThrowAsJavaScriptException();
+        return info.Env().Undefined();
+    }
+    if (llama_add_bos_token(currentModel) != llama_add_bos_token(draftModel) ||
+        llama_add_eos_token(currentModel) != llama_add_eos_token(draftModel) ||
+        llama_token_bos(currentModel) != llama_token_bos(draftModel) ||
+        llama_token_eos(currentModel) != llama_token_eos(draftModel)
+    ) {
+        Napi::Error::New(info.Env(), "Speculative draft model special tokens must match the target model special tokens").ThrowAsJavaScriptException();
+        return info.Env().Undefined();
+    }
+    const int currentModelVocabSize = llama_n_vocab(currentModel);
+    const int draftModelVocabSize = llama_n_vocab(draftModel);
+    const int vocabDiff = std::abs(currentModelVocabSize - draftModelVocabSize);
+    if (vocabDiff > vocabSizeMaxDifference) {
+        Napi::Error::New(
+            info.Env(),
+            std::string("Speculative draft model vocabulary must closely match the target model vocabulary size (vocabulary size difference: ") +
+            std::to_string(vocabDiff) + std::string(", max allowed: ") + std::to_string(vocabSizeMaxDifference) + std::string(")")
+        ).ThrowAsJavaScriptException();
+        return info.Env().Undefined();
+    }
+    const int minVocabSize = std::min(currentModelVocabSize, draftModelVocabSize);
+    for (int i = vocabCheckStartTokenId; i < minVocabSize; ++i) {
+        const char * currentTokenText = llama_token_get_text(currentModel, i);
+        const char * draftTokenText = llama_token_get_text(draftModel, i);
+        if (std::strcmp(currentTokenText, draftTokenText) != 0) {
+            Napi::Error::New(
+                info.Env(),
+                std::string("Speculative draft model vocabulary must match the target model vocabulary, but token ") +
+                std::to_string(i) + std::string(" content differs. Target: \"") + std::string(currentTokenText) +
+                std::string("\", Draft: \"") + std::string(draftTokenText) + std::string("")
+            ).ThrowAsJavaScriptException();
+            return info.Env().Undefined();
+        }
+    }
+    return info.Env().Undefined();
+}
 Napi::Value AddonContext::SetLora(const Napi::CallbackInfo& info) {
     AddonModelLora* lora = Napi::ObjectWrap<AddonModelLora>::Unwrap(info[0].As<Napi::Object>());
     float scale = info[1].As<Napi::Number>().FloatValue();
@@ -622,6 +793,7 @@ void AddonContext::init(Napi::Object exports) {
                 InstanceMethod("getThreads", &AddonContext::GetThreads),
                 InstanceMethod("setThreads", &AddonContext::SetThreads),
                 InstanceMethod("printTimings", &AddonContext::PrintTimings),
+                InstanceMethod("ensureDraftContextIsCompatibleForSpeculative", &AddonContext::EnsureDraftContextIsCompatibleForSpeculative),
                 InstanceMethod("setLora", &AddonContext::SetLora),
                 InstanceMethod("dispose", &AddonContext::Dispose),
             }

package/llama/addon/AddonContext.h CHANGED Viewed

@@ -45,6 +45,7 @@ class AddonContext : public Napi::ObjectWrap<AddonContext> {
         Napi::Value SetThreads(const Napi::CallbackInfo& info);
         Napi::Value PrintTimings(const Napi::CallbackInfo& info);
+        Napi::Value EnsureDraftContextIsCompatibleForSpeculative(const Napi::CallbackInfo& info);
         Napi::Value SetLora(const Napi::CallbackInfo& info);

package/llama/addon/AddonGrammar.cpp CHANGED Viewed

@@ -46,13 +46,10 @@ Napi::Value AddonGrammar::isTextCompatible(const Napi::CallbackInfo& info) {
     }
     const auto cpts = unicode_cpts_from_utf8(testText);
-    const llama_grammar_rules  & rules = llama_grammar_get_rules(parsed_grammar);
     llama_grammar_stacks & stacks_cur = llama_grammar_get_stacks(parsed_grammar);
     for (const auto & cpt : cpts) {
-        const llama_grammar_stacks stacks_prev = llama_grammar_get_stacks(parsed_grammar);
-        llama_grammar_accept(rules, stacks_prev, cpt, stacks_cur);
+        llama_grammar_accept(parsed_grammar, cpt);
         if (stacks_cur.empty()) {
             // no stacks means that the grammar failed to match at this point

package/llama/addon/AddonGrammarEvaluationState.cpp CHANGED Viewed

@@ -6,13 +6,24 @@
 #include "AddonGrammar.h"
 AddonGrammarEvaluationState::AddonGrammarEvaluationState(const Napi::CallbackInfo& info) : Napi::ObjectWrap<AddonGrammarEvaluationState>(info) {
-    model = Napi::ObjectWrap<AddonModel>::Unwrap(info[0].As<Napi::Object>());
-    model->Ref();
+    if (info.Length() == 1) {
+        AddonGrammarEvaluationState* existingState = Napi::ObjectWrap<AddonGrammarEvaluationState>::Unwrap(info[0].As<Napi::Object>());
+        model = existingState->model;
+        model->Ref();
-    grammarDef = Napi::ObjectWrap<AddonGrammar>::Unwrap(info[1].As<Napi::Object>());
-    grammarDef->Ref();
+        grammarDef = existingState->grammarDef;
+        grammarDef->Ref();
-    sampler = llama_sampler_init_grammar(model->model, grammarDef->grammarCode.c_str(), grammarDef->rootRuleName.c_str());
+        sampler = llama_sampler_clone(existingState->sampler);
+    } else {
+        model = Napi::ObjectWrap<AddonModel>::Unwrap(info[0].As<Napi::Object>());
+        model->Ref();
+        grammarDef = Napi::ObjectWrap<AddonGrammar>::Unwrap(info[1].As<Napi::Object>());
+        grammarDef->Ref();
+        sampler = llama_sampler_init_grammar(model->model, grammarDef->grammarCode.c_str(), grammarDef->rootRuleName.c_str());
+    }
 }
 AddonGrammarEvaluationState::~AddonGrammarEvaluationState() {
     llama_sampler_free(sampler);

package/llama/addon/AddonModel.cpp CHANGED Viewed

@@ -92,13 +92,13 @@ class AddonModelLoadModelWorker : public Napi::AsyncWorker {
         void Execute() {
             try {
-                model->model = llama_load_model_from_file(model->modelPath.c_str(), model->model_params);
+                model->model = llama_model_load_from_file(model->modelPath.c_str(), model->model_params);
                 model->modelLoaded = model->model != nullptr && model->model != NULL;
             } catch (const std::exception& e) {
                 SetError(e.what());
             } catch(...) {
-                SetError("Unknown error when calling \"llama_load_model_from_file\"");
+                SetError("Unknown error when calling \"llama_model_load_from_file\"");
             }
         }
         void OnOK() {
@@ -141,14 +141,14 @@ class AddonModelUnloadModelWorker : public Napi::AsyncWorker {
         void Execute() {
             try {
-                llama_free_model(model->model);
+                llama_model_free(model->model);
                 model->modelLoaded = false;
                 model->dispose();
             } catch (const std::exception& e) {
                 SetError(e.what());
             } catch(...) {
-                SetError("Unknown error when calling \"llama_free_model\"");
+                SetError("Unknown error when calling \"llama_model_free\"");
             }
         }
         void OnOK() {
@@ -359,7 +359,7 @@ void AddonModel::dispose() {
     disposed = true;
     if (modelLoaded) {
         modelLoaded = false;
-        llama_free_model(model);
+        llama_model_free(model);
         adjustNapiExternalMemorySubtract(Env(), loadedModelSize);
         loadedModelSize = 0;
@@ -515,7 +515,12 @@ Napi::Value AddonModel::TokenBos(const Napi::CallbackInfo& info) {
         return info.Env().Undefined();
     }
-    return getNapiControlToken(info, model, llama_token_bos(model));
+    auto token = llama_token_bos(model);
+    if (token == LLAMA_TOKEN_NULL) {
+        token = llama_token_cls(model);
+    }
+    return getNapiControlToken(info, model, token);
 }
 Napi::Value AddonModel::TokenEos(const Napi::CallbackInfo& info) {
     if (disposed) {
@@ -565,14 +570,6 @@ Napi::Value AddonModel::EotToken(const Napi::CallbackInfo& info) {
     return getNapiToken(info, model, llama_token_eot(model));
 }
-Napi::Value AddonModel::ClsToken(const Napi::CallbackInfo& info) {
-    if (disposed) {
-        Napi::Error::New(info.Env(), "Model is disposed").ThrowAsJavaScriptException();
-        return info.Env().Undefined();
-    }
-    return getNapiToken(info, model, llama_token_cls(model));
-}
 Napi::Value AddonModel::SepToken(const Napi::CallbackInfo& info) {
     if (disposed) {
         Napi::Error::New(info.Env(), "Model is disposed").ThrowAsJavaScriptException();
@@ -678,7 +675,6 @@ void AddonModel::init(Napi::Object exports) {
                 InstanceMethod("middleToken", &AddonModel::MiddleToken),
                 InstanceMethod("suffixToken", &AddonModel::SuffixToken),
                 InstanceMethod("eotToken", &AddonModel::EotToken),
-                InstanceMethod("clsToken", &AddonModel::ClsToken),
                 InstanceMethod("sepToken", &AddonModel::SepToken),
                 InstanceMethod("getTokenString", &AddonModel::GetTokenString),
                 InstanceMethod("getTokenAttributes", &AddonModel::GetTokenAttributes),

package/llama/addon/AddonModel.h CHANGED Viewed

@@ -49,7 +49,6 @@ class AddonModel : public Napi::ObjectWrap<AddonModel> {
         Napi::Value MiddleToken(const Napi::CallbackInfo& info);
         Napi::Value SuffixToken(const Napi::CallbackInfo& info);
         Napi::Value EotToken(const Napi::CallbackInfo& info);
-        Napi::Value ClsToken(const Napi::CallbackInfo& info);
         Napi::Value SepToken(const Napi::CallbackInfo& info);
         Napi::Value GetTokenString(const Napi::CallbackInfo& info);

package/llama/addon/AddonSampler.cpp CHANGED Viewed

@@ -350,15 +350,10 @@ Napi::Value AddonSampler::ApplyConfig(const Napi::CallbackInfo& info) {
         if (shouldCreateSampler) {
             repeatPenaltySampler = llama_sampler_init_penalties(
-                llama_n_vocab(model->model),
-                llama_token_eos(model->model),
-                llama_token_nl(model->model),
                 repeatPenaltyMaxTokens,
                 repeatPenalty,
                 repeatPenaltyFrequencyPenalty,
-                repeatPenaltyPresencePenalty,
-                true,
-                false
+                repeatPenaltyPresencePenalty
             );
             repeatPenalty_lastTokens = RingBuffer<llama_token>(repeatPenaltyMaxTokens);

package/llama/addon/addon.cpp CHANGED Viewed

@@ -9,6 +9,7 @@
 #include "globals/addonProgress.h"
 #include "globals/getGpuInfo.h"
 #include "globals/getSwapInfo.h"
+#include "globals/getMemoryInfo.h"
 bool backendInitialized = false;
 bool backendDisposed = false;
@@ -25,6 +26,21 @@ Napi::Value addonGetSupportsMmap(const Napi::CallbackInfo& info) {
     return Napi::Boolean::New(info.Env(), llama_supports_mmap());
 }
+Napi::Value addonGetGpuSupportsMmap(const Napi::CallbackInfo& info) {
+    const auto llamaSupportsMmap = llama_supports_mmap();
+    const auto gpuDevice = getGpuDevice().first;
+    if (gpuDevice == nullptr) {
+        return Napi::Boolean::New(info.Env(), false);
+    }
+    ggml_backend_dev_props props;
+    ggml_backend_dev_get_props(gpuDevice, &props);
+    const bool gpuSupportsMmap = llama_supports_mmap() && props.caps.buffer_from_host_ptr;
+    return Napi::Boolean::New(info.Env(), gpuSupportsMmap);
+}
 Napi::Value addonGetSupportsMlock(const Napi::CallbackInfo& info) {
     return Napi::Boolean::New(info.Env(), llama_supports_mlock());
 }
@@ -152,16 +168,16 @@ class AddonBackendUnloadWorker : public Napi::AsyncWorker {
 };
 Napi::Value addonLoadBackends(const Napi::CallbackInfo& info) {
-    const bool forceLoadLibraries = info.Length() == 0
-        ? false
-        : info[0].IsBoolean()
-            ? info[0].As<Napi::Boolean>().Value()
-            : false;
+    const std::string forceLoadLibrariesSearchPath = info.Length() == 0
+        ? ""
+        : info[0].IsString()
+            ? info[0].As<Napi::String>().Utf8Value()
+            : "";
     ggml_backend_reg_count();
-    if (forceLoadLibraries) {
-        ggml_backend_load_all();
+    if (forceLoadLibrariesSearchPath.length() > 0) {
+        ggml_backend_load_all_from_path(forceLoadLibrariesSearchPath.c_str());
     }
     return info.Env().Undefined();
@@ -210,6 +226,7 @@ Napi::Object registerCallback(Napi::Env env, Napi::Object exports) {
         Napi::PropertyDescriptor::Function("systemInfo", systemInfo),
         Napi::PropertyDescriptor::Function("getSupportsGpuOffloading", addonGetSupportsGpuOffloading),
         Napi::PropertyDescriptor::Function("getSupportsMmap", addonGetSupportsMmap),
+        Napi::PropertyDescriptor::Function("getGpuSupportsMmap", addonGetGpuSupportsMmap),
         Napi::PropertyDescriptor::Function("getSupportsMlock", addonGetSupportsMlock),
         Napi::PropertyDescriptor::Function("getMathCores", addonGetMathCores),
         Napi::PropertyDescriptor::Function("getBlockSizeForGgmlType", addonGetBlockSizeForGgmlType),
@@ -220,7 +237,9 @@ Napi::Object registerCallback(Napi::Env env, Napi::Object exports) {
         Napi::PropertyDescriptor::Function("getGpuVramInfo", getGpuVramInfo),
         Napi::PropertyDescriptor::Function("getGpuDeviceInfo", getGpuDeviceInfo),
         Napi::PropertyDescriptor::Function("getGpuType", getGpuType),
+        Napi::PropertyDescriptor::Function("ensureGpuDeviceIsSupported", ensureGpuDeviceIsSupported),
         Napi::PropertyDescriptor::Function("getSwapInfo", getSwapInfo),
+        Napi::PropertyDescriptor::Function("getMemoryInfo", getMemoryInfo),
         Napi::PropertyDescriptor::Function("loadBackends", addonLoadBackends),
         Napi::PropertyDescriptor::Function("init", addonInit),
         Napi::PropertyDescriptor::Function("dispose", addonDispose),

package/llama/addon/globals/getGpuInfo.cpp CHANGED Viewed

@@ -89,17 +89,17 @@ Napi::Value getGpuDeviceInfo(const Napi::CallbackInfo& info) {
     return result;
 }
-Napi::Value getGpuType(const Napi::CallbackInfo& info) {
+std::pair<ggml_backend_dev_t, std::string> getGpuDevice() {
     for (size_t i = 0; i < ggml_backend_dev_count(); i++) {
         ggml_backend_dev_t device = ggml_backend_dev_get(i);
         const auto deviceName = std::string(ggml_backend_dev_name(device));
         if (deviceName == "Metal") {
-            return Napi::String::New(info.Env(), "metal");
+            return std::pair<ggml_backend_dev_t, std::string>(device, "metal");
         } else if (std::string(deviceName).find("Vulkan") == 0) {
-            return Napi::String::New(info.Env(), "vulkan");
+            return std::pair<ggml_backend_dev_t, std::string>(device, "vulkan");
         } else if (std::string(deviceName).find("CUDA") == 0 || std::string(deviceName).find("ROCm") == 0 || std::string(deviceName).find("MUSA") == 0) {
-            return Napi::String::New(info.Env(), "cuda");
+            return std::pair<ggml_backend_dev_t, std::string>(device, "cuda");
         }
     }
@@ -108,9 +108,34 @@ Napi::Value getGpuType(const Napi::CallbackInfo& info) {
         const auto deviceName = std::string(ggml_backend_dev_name(device));
         if (deviceName == "CPU") {
-            return Napi::Boolean::New(info.Env(), false);
+            return std::pair<ggml_backend_dev_t, std::string>(device, "cpu");
         }
     }
+    return std::pair<ggml_backend_dev_t, std::string>(nullptr, "");
+}
+Napi::Value getGpuType(const Napi::CallbackInfo& info) {
+    const auto gpuDeviceRes = getGpuDevice();
+    const auto device = gpuDeviceRes.first;
+    const auto deviceType = gpuDeviceRes.second;
+    if (deviceType == "cpu") {
+        return Napi::Boolean::New(info.Env(), false);
+    } else if (device != nullptr && deviceType != "") {
+        return Napi::String::New(info.Env(), deviceType);
+    }
+    return info.Env().Undefined();
+}
+Napi::Value ensureGpuDeviceIsSupported(const Napi::CallbackInfo& info) {
+#ifdef GPU_INFO_USE_VULKAN
+    if (!checkIsVulkanEnvSupported(logVulkanWarning)) {
+        Napi::Error::New(info.Env(), "Vulkan device is not supported").ThrowAsJavaScriptException();
+        return info.Env().Undefined();
+    }
+#endif
     return info.Env().Undefined();
 }

package/llama/addon/globals/getGpuInfo.h CHANGED Viewed

@@ -1,6 +1,11 @@
 #pragma once
+#include <utility>
+#include <string>
 #include "napi.h"
+#include "llama.h"
 Napi::Value getGpuVramInfo(const Napi::CallbackInfo& info);
 Napi::Value getGpuDeviceInfo(const Napi::CallbackInfo& info);
-Napi::Value getGpuType(const Napi::CallbackInfo& info);
+std::pair<ggml_backend_dev_t, std::string> getGpuDevice();
+Napi::Value getGpuType(const Napi::CallbackInfo& info);
+Napi::Value ensureGpuDeviceIsSupported(const Napi::CallbackInfo& info);

package/llama/addon/globals/getMemoryInfo.cpp ADDED Viewed

@@ -0,0 +1,63 @@
+#include "getMemoryInfo.h"
+#include "addonLog.h"
+#ifdef __APPLE__
+#include <iostream>
+#include <mach/mach.h>
+#include <sys/sysctl.h>
+#elif __linux__
+#include <fstream>
+#include <sstream>
+#include <string>
+#elif _WIN32
+#include <iostream>
+#include <windows.h>
+#include <psapi.h>
+#endif
+Napi::Value getMemoryInfo(const Napi::CallbackInfo& info) {
+    uint64_t totalMemoryUsage = 0;
+#ifdef __APPLE__
+    struct mach_task_basic_info taskInfo;
+    mach_msg_type_number_t infoCount = MACH_TASK_BASIC_INFO_COUNT;
+    if (task_info(mach_task_self(), MACH_TASK_BASIC_INFO, (task_info_t)&taskInfo, &infoCount) == KERN_SUCCESS) {
+        totalMemoryUsage = taskInfo.virtual_size;
+    } else {
+        addonLlamaCppLogCallback(GGML_LOG_LEVEL_ERROR, std::string("Failed to get memory usage info").c_str(), nullptr);
+    }
+#elif __linux__
+    std::ifstream procStatus("/proc/self/status");
+    std::string line;
+    bool foundMemoryUsage = false;
+    while (std::getline(procStatus, line)) {
+        if (line.rfind("VmSize:", 0) == 0) { // Resident Set Size (current memory usage)
+            std::istringstream iss(line);
+            std::string key, unit;
+            size_t value;
+            if (iss >> key >> value >> unit) {
+                totalMemoryUsage = value * 1024; // Convert from kB to bytes
+                foundMemoryUsage = true;
+            }
+            break;
+        }
+    }
+    if (!foundMemoryUsage) {
+        addonLlamaCppLogCallback(GGML_LOG_LEVEL_ERROR, std::string("Failed to get memory usage info").c_str(), nullptr);
+    }
+#elif _WIN32
+    PROCESS_MEMORY_COUNTERS_EX memCounters;
+    if (GetProcessMemoryInfo(GetCurrentProcess(), (PROCESS_MEMORY_COUNTERS*)&memCounters, sizeof(memCounters))) {
+        totalMemoryUsage = memCounters.PrivateUsage;
+    } else {
+        addonLlamaCppLogCallback(GGML_LOG_LEVEL_ERROR, std::string("Failed to get memory usage info").c_str(), nullptr);
+    }
+#endif
+    Napi::Object obj = Napi::Object::New(info.Env());
+    obj.Set("total", Napi::Number::New(info.Env(), totalMemoryUsage));
+    return obj;
+}

package/llama/addon/globals/getMemoryInfo.h ADDED Viewed

@@ -0,0 +1,4 @@
+#pragma once
+#include "napi.h"
+Napi::Value getMemoryInfo(const Napi::CallbackInfo& info);

package/llama/binariesGithubRelease.json CHANGED Viewed

@@ -1,3 +1,3 @@
 {
-    "release": "b4291"
+    "release": "b4435"
 }