npm - @fugood/llama.node - Versions diffs - 0.0.1-alpha.4 → 0.2.0 - Mend

@fugood/llama.node 0.0.1-alpha.4 → 0.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (84) hide show

package/CMakeLists.txt +42 -7
package/README.md +10 -0
package/bin/darwin/arm64/default.metallib +0 -0
package/bin/darwin/arm64/llama-node.node +0 -0
package/bin/darwin/x64/default.metallib +0 -0
package/bin/darwin/x64/llama-node.node +0 -0
package/bin/linux/arm64/llama-node.node +0 -0
package/bin/linux/x64/llama-node.node +0 -0
package/bin/linux-vulkan/arm64/llama-node.node +0 -0
package/bin/linux-vulkan/x64/llama-node.node +0 -0
package/lib/binding.js +1 -1
package/lib/binding.ts +16 -2
package/lib/index.ts +2 -2
package/package.json +15 -3
package/src/DetokenizeWorker.cpp +22 -0
package/src/DetokenizeWorker.h +19 -0
package/src/EmbeddingWorker.cpp +46 -0
package/src/EmbeddingWorker.h +23 -0
package/src/LlamaCompletionWorker.cpp +5 -1
package/src/LlamaCompletionWorker.h +4 -0
package/src/LlamaContext.cpp +80 -1
package/src/LlamaContext.h +3 -0
package/src/TokenizeWorker.cpp +26 -0
package/src/TokenizeWorker.h +23 -0
package/src/common.hpp +12 -7
package/src/llama.cpp/CMakeLists.txt +13 -7
package/src/llama.cpp/common/common.cpp +221 -173
package/src/llama.cpp/common/common.h +19 -8
package/src/llama.cpp/common/json-schema-to-grammar.h +4 -0
package/src/llama.cpp/common/log.h +2 -2
package/src/llama.cpp/common/sampling.cpp +17 -1
package/src/llama.cpp/common/sampling.h +28 -20
package/src/llama.cpp/examples/batched-bench/batched-bench.cpp +17 -11
package/src/llama.cpp/examples/eval-callback/eval-callback.cpp +5 -5
package/src/llama.cpp/examples/finetune/finetune.cpp +1 -1
package/src/llama.cpp/examples/gguf-split/gguf-split.cpp +15 -4
package/src/llama.cpp/examples/imatrix/imatrix.cpp +72 -39
package/src/llama.cpp/examples/llama-bench/llama-bench.cpp +42 -3
package/src/llama.cpp/examples/llava/clip.cpp +74 -23
package/src/llama.cpp/examples/llava/llava-cli.cpp +37 -28
package/src/llama.cpp/examples/lookup/lookup-stats.cpp +0 -1
package/src/llama.cpp/examples/lookup/lookup.cpp +0 -1
package/src/llama.cpp/examples/main/main.cpp +10 -8
package/src/llama.cpp/examples/perplexity/perplexity.cpp +175 -55
package/src/llama.cpp/examples/quantize/CMakeLists.txt +1 -1
package/src/llama.cpp/examples/quantize/quantize.cpp +74 -47
package/src/llama.cpp/examples/quantize-stats/quantize-stats.cpp +1 -1
package/src/llama.cpp/examples/server/server.cpp +97 -86
package/src/llama.cpp/examples/server/utils.hpp +17 -15
package/src/llama.cpp/ggml-backend.c +7 -5
package/src/llama.cpp/ggml-impl.h +339 -4
package/src/llama.cpp/ggml-kompute.cpp +7 -0
package/src/llama.cpp/ggml-opencl.cpp +1 -0
package/src/llama.cpp/ggml-quants.c +302 -293
package/src/llama.cpp/ggml-sycl.cpp +28 -16
package/src/llama.cpp/ggml-vulkan-shaders.hpp +46843 -39205
package/src/llama.cpp/ggml-vulkan.cpp +951 -263
package/src/llama.cpp/ggml.c +1469 -116
package/src/llama.cpp/ggml.h +37 -7
package/src/llama.cpp/llama.cpp +969 -432
package/src/llama.cpp/llama.h +46 -14
package/src/llama.cpp/requirements/requirements-convert-hf-to-gguf-update.txt +2 -0
package/src/llama.cpp/requirements/requirements-convert-hf-to-gguf.txt +0 -1
package/src/llama.cpp/requirements/requirements-convert.txt +2 -2
package/src/llama.cpp/requirements.txt +1 -0
package/src/llama.cpp/sgemm.cpp +134 -103
package/src/llama.cpp/sgemm.h +4 -2
package/src/llama.cpp/tests/CMakeLists.txt +96 -36
package/src/llama.cpp/tests/test-backend-ops.cpp +56 -6
package/src/llama.cpp/tests/test-chat-template.cpp +4 -0
package/src/llama.cpp/tests/test-grammar-integration.cpp +225 -136
package/src/llama.cpp/tests/test-json-schema-to-grammar.cpp +1 -0
package/src/llama.cpp/tests/test-tokenizer-0.cpp +292 -0
package/src/llama.cpp/tests/{test-tokenizer-1-llama.cpp → test-tokenizer-1-spm.cpp} +1 -1
package/src/llama.cpp/unicode-data.cpp +1188 -656
package/src/llama.cpp/unicode-data.h +4 -3
package/src/llama.cpp/unicode.cpp +590 -49
package/src/llama.cpp/unicode.h +6 -3
package/bin/win32/arm64/llama-node.node +0 -0
package/bin/win32/arm64/node.lib +0 -0
package/bin/win32/x64/llama-node.node +0 -0
package/bin/win32/x64/node.lib +0 -0
package/src/llama.cpp/tests/test-tokenizer-0-falcon.cpp +0 -187
package/src/llama.cpp/tests/test-tokenizer-0-llama.cpp +0 -190

package/CMakeLists.txt CHANGED Viewed

@@ -26,7 +26,7 @@ string(REPLACE "i686" "ia32" ARCH ${ARCH})
 string(REPLACE "i386" "ia32" ARCH ${ARCH})
 string(REPLACE "armv7l" "arm" ARCH ${ARCH})
 string(REPLACE "arm" "arm" ARCH ${ARCH})
-string(REPLACE "arm64ex" "arm64" ARCH ${ARCH})
+string(REPLACE "arm64x" "arm64" ARCH ${ARCH})
 string(REPLACE "aarch64" "arm64" ARCH ${ARCH})
 if(DEFINED VARIANT)
@@ -58,6 +58,12 @@ include_directories(${CMAKE_JS_INC})
 # flags: -fPIC
 set(CMAKE_POSITION_INDEPENDENT_CODE ON)
+# VULKAN_SDK
+if (VULKAN_SDK)
+  set(ENV{VULKAN_SDK} ${VULKAN_SDK})
+  find_package(Vulkan REQUIRED)
+endif()
 set(LLAMA_STATIC ON CACHE BOOL "Build llama as static library")
 add_subdirectory("src/llama.cpp")
@@ -71,6 +77,12 @@ file(
     "src/LlamaCompletionWorker.h"
     "src/LlamaContext.cpp"
     "src/LlamaContext.h"
+    "src/TokenizeWorker.cpp"
+    "src/TokenizeWorker.h"
+    "src/DetokenizeWorker.cpp"
+    "src/DetokenizeWorker.h"
+    "src/EmbeddingWorker.cpp"
+    "src/EmbeddingWorker.h"
     "src/LoadSessionWorker.cpp"
     "src/LoadSessionWorker.h"
     "src/SaveSessionWorker.cpp"
@@ -81,31 +93,54 @@ add_library(${PROJECT_NAME} SHARED ${SOURCE_FILES} ${CMAKE_JS_SRC})
 set_target_properties(${PROJECT_NAME} PROPERTIES PREFIX "" SUFFIX ".node")
 target_link_libraries(${PROJECT_NAME} ${CMAKE_JS_LIB} llama ggml common)
+add_custom_target(copy_assets ALL DEPENDS ${PROJECT_NAME})
+add_custom_command(
+  TARGET copy_assets
+  COMMAND ${CMAKE_COMMAND} -E remove_directory ${PLATFORM_BINARY_DIR}
+  COMMENT "Cleaning bin folder"
+)
 if(MSVC AND CMAKE_JS_NODELIB_DEF AND CMAKE_JS_NODELIB_TARGET)
   # Generate node.lib
   execute_process(COMMAND ${CMAKE_AR} /def:${CMAKE_JS_NODELIB_DEF} /out:${CMAKE_JS_NODELIB_TARGET} ${CMAKE_STATIC_LINKER_FLAGS})
   # copy target to bin folder
   get_filename_component(CMAKE_JS_NODELIB_TARGET_NAME ${CMAKE_JS_NODELIB_TARGET} NAME)
-  add_custom_command(TARGET ${PROJECT_NAME} POST_BUILD
+  add_custom_command(TARGET copy_assets
     COMMAND ${CMAKE_COMMAND} -E copy ${CMAKE_JS_NODELIB_TARGET} ${PLATFORM_BINARY_DIR}/${CMAKE_JS_NODELIB_TARGET_NAME}
     COMMENT "Copying to bin folder"
   )
 endif()
 # copy target to bin folder
-add_custom_command(TARGET ${PROJECT_NAME} POST_BUILD
+add_custom_command(TARGET copy_assets
   COMMAND ${CMAKE_COMMAND} -E copy $<TARGET_FILE:${PROJECT_NAME}> ${PLATFORM_BINARY_DIR}/$<TARGET_FILE_NAME:${PROJECT_NAME}>
   COMMENT "Copying to bin folder"
 )
 if (LLAMA_METAL)
   # copy ${CMAKE_BINARY_DIR}/bin/default.metallib
-  add_custom_target(copy_metallib)
   add_custom_command(
-    TARGET copy_metallib
+    TARGET copy_assets
     COMMAND ${CMAKE_COMMAND} -E copy ${CMAKE_BINARY_DIR}/bin/default.metallib ${PLATFORM_BINARY_DIR}/default.metallib
     COMMENT "Copying default.metallib to bin folder"
   )
-  add_dependencies(copy_metallib ggml-metal)
-  add_dependencies(${PROJECT_NAME} copy_metallib)
+  add_dependencies(copy_assets ggml-metal)
+endif()
+if (LLAMA_CLBLAST)
+  find_package(CLBlast)
+  if (CLBlast_FOUND)
+    message(STATUS "CLBlast found: ${CLBlast_DIR}")
+    file(
+      GLOB CLBlast_SO_FILES
+      ${CLBlast_DIR}/../../../bin/clblast.dll
+      ${CLBlast_DIR}/../../../lib/libclblast.so
+    )
+    add_custom_command(
+      TARGET copy_assets
+      COMMAND ${CMAKE_COMMAND} -E copy ${CLBlast_SO_FILES} ${PLATFORM_BINARY_DIR}
+      COMMENT "Copying CLBlast SO files to bin folder"
+    )
+  endif()
 endif()

package/README.md CHANGED Viewed

@@ -1,5 +1,9 @@
 # llama.node
+[![CI](https://github.com/mybigday/llama.node/actions/workflows/ci.yml/badge.svg?branch=main)](https://github.com/mybigday/llama.node/actions/workflows/ci.yml)
+[![NPM Version](https://img.shields.io/npm/v/%40fugood%2Fllama.node)](https://www.npmjs.com/package/@fugood/llama.node)
+![NPM Downloads](https://img.shields.io/npm/dw/%40fugood%2Fllama.node)
 Node binding of [llama.cpp](https://github.com/ggerganov/llama.cpp).
 [llama.cpp](https://github.com/ggerganov/llama.cpp): Inference of [LLaMA](https://arxiv.org/abs/2302.13971) model in pure C/C++
@@ -22,6 +26,7 @@ const context = await loadModel({
   n_ctx: 2048,
   n_gpu_layers: 1, // > 0: enable GPU
   // embedding: true, // use embedding
+  // lib_variant: 'opencl', // Change backend
 })
 // Do completion
@@ -40,6 +45,11 @@ const { text, timings } = await context.completion(
 console.log('Result:', text)
 ```
+## Lib Variants
+- [x] `default`: General usage, not support GPU except macOS (Metal)
+- [x] `vulkan`: Support GPU Vulkan (Windows/Linux), but some scenario might unstable
 ## License
 MIT

package/bin/darwin/arm64/default.metallib CHANGED Viewed

Binary file

package/bin/darwin/arm64/llama-node.node CHANGED Viewed

Binary file

package/bin/darwin/x64/default.metallib CHANGED Viewed

Binary file

package/bin/darwin/x64/llama-node.node CHANGED Viewed

Binary file

package/bin/linux/arm64/llama-node.node CHANGED Viewed

Binary file

package/bin/linux/x64/llama-node.node CHANGED Viewed

Binary file

package/bin/linux-vulkan/arm64/llama-node.node ADDED Viewed

Binary file

package/bin/linux-vulkan/x64/llama-node.node ADDED Viewed

Binary file

package/lib/binding.js CHANGED Viewed

@@ -50,7 +50,7 @@ const setupEnv = (variant) => {
 };
 const loadModule = (variant) => __awaiter(void 0, void 0, void 0, function* () {
     try {
-        if (variant) {
+        if (variant && variant !== 'default') {
             setupEnv(variant);
             return yield Promise.resolve(`${`../bin/${process.platform}-${variant}/${process.arch}/llama-node.node`}`).then(s => __importStar(require(s)));
         }

package/lib/binding.ts CHANGED Viewed

@@ -23,6 +23,7 @@ export type LlamaCompletionOptions = {
   max_tokens?: number
   seed?: number
   stop?: string[]
+  grammar?: string
 }
 export type LlamaCompletionResult = {
@@ -36,11 +37,22 @@ export type LlamaCompletionToken = {
   token: string
 }
+export type TokenizeResult = {
+  tokens: Int32Array
+}
+export type EmbeddingResult = {
+  embedding: Float32Array
+}
 export interface LlamaContext {
   new (options: LlamaModelOptions): LlamaContext
   getSystemInfo(): string
   completion(options: LlamaCompletionOptions, callback?: (token: LlamaCompletionToken) => void): Promise<LlamaCompletionResult>
   stopCompletion(): void
+  tokenize(text: string): Promise<TokenizeResult>
+  detokenize(tokens: number[]): Promise<string>
+  embedding(text: string): Promise<EmbeddingResult>
   saveSession(path: string): Promise<void>
   loadSession(path: string): Promise<void>
   release(): Promise<void>
@@ -50,6 +62,8 @@ export interface Module {
   LlamaContext: LlamaContext
 }
+export type LibVariant = 'default' | 'opencl'
 const setupEnv = (variant?: string) => {
   const postfix = variant ? `-${variant}` : ''
   const binPath = path.resolve(__dirname, `../bin/${process.platform}${postfix}/${process.arch}/`)
@@ -63,9 +77,9 @@ const setupEnv = (variant?: string) => {
   }
 }
-export const loadModule = async (variant?: string): Promise<Module> => {
+export const loadModule = async (variant?: LibVariant): Promise<Module> => {
   try {
-    if (variant) {
+    if (variant && variant !== 'default') {
       setupEnv(variant)
       return await import(`../bin/${process.platform}-${variant}/${process.arch}/llama-node.node`) as Module
     }

package/lib/index.ts CHANGED Viewed

@@ -1,10 +1,10 @@
 import { loadModule, LlamaModelOptions } from './binding'
-import type { Module, LlamaContext } from './binding'
+import type { Module, LlamaContext, LibVariant } from './binding'
 export * from './binding'
 export interface LlamaModelOptionsExtended extends LlamaModelOptions {
-  lib_variant?: string
+  lib_variant?: LibVariant
 }
 const mods: { [key: string]: Module } = {}

package/package.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "name": "@fugood/llama.node",
   "access": "public",
-  "version": "0.0.1-alpha.4",
+  "version": "0.2.0",
   "description": "Llama.cpp for Node.js",
   "main": "lib/index.js",
   "scripts": {
@@ -39,8 +39,6 @@
   },
   "files": [
     "bin/**/*",
-    "scripts/*.js",
-    "scripts/*.ts",
     "src/**/*.{c,cc,cpp,h,hh,hpp,txt,cmake}",
     "lib/*.js",
     "lib/*.ts",
@@ -62,5 +60,19 @@
   },
   "dependencies": {
     "node-addon-api": "^8.0.0"
+  },
+  "jest": {
+    "testEnvironment": "node",
+    "moduleFileExtensions": [
+      "ts",
+      "tsx",
+      "js",
+      "jsx",
+      "json",
+      "node"
+    ],
+    "testMatch": [
+      "**/*.test.ts"
+    ]
   }
 }

package/src/DetokenizeWorker.cpp ADDED Viewed

@@ -0,0 +1,22 @@
+#include "DetokenizeWorker.h"
+#include "LlamaContext.h"
+DetokenizeWorker::DetokenizeWorker(const Napi::CallbackInfo &info,
+                                   LlamaSessionPtr &sess,
+                                   std::vector<llama_token> &tokens)
+    : AsyncWorker(info.Env()), Deferred(info.Env()), _sess(sess),
+      _tokens(std::move(tokens)) {}
+void DetokenizeWorker::Execute() {
+  const auto text = ::llama_detokenize_bpe(_sess->context(), _tokens);
+  _text = std::move(text);
+}
+void DetokenizeWorker::OnOK() {
+  Napi::Promise::Deferred::Resolve(
+      Napi::String::New(Napi::AsyncWorker::Env(), _text));
+}
+void DetokenizeWorker::OnError(const Napi::Error &err) {
+  Napi::Promise::Deferred::Reject(err.Value());
+}

package/src/DetokenizeWorker.h ADDED Viewed

@@ -0,0 +1,19 @@
+#include "common.hpp"
+#include <vector>
+class DetokenizeWorker : public Napi::AsyncWorker,
+                         public Napi::Promise::Deferred {
+public:
+  DetokenizeWorker(const Napi::CallbackInfo &info, LlamaSessionPtr &sess,
+                   std::vector<llama_token> &tokens);
+protected:
+  void Execute();
+  void OnOK();
+  void OnError(const Napi::Error &err);
+private:
+  LlamaSessionPtr _sess;
+  std::vector<llama_token> _tokens;
+  std::string _text;
+};

package/src/EmbeddingWorker.cpp ADDED Viewed

@@ -0,0 +1,46 @@
+#include "EmbeddingWorker.h"
+#include "LlamaContext.h"
+EmbeddingWorker::EmbeddingWorker(const Napi::CallbackInfo &info,
+                                 LlamaSessionPtr &sess, std::string text)
+    : AsyncWorker(info.Env()), Deferred(info.Env()), _sess(sess), _text(text) {}
+void EmbeddingWorker::Execute() {
+  llama_kv_cache_clear(_sess->context());
+  auto tokens = ::llama_tokenize(_sess->context(), _text, true);
+  // add SEP if not present
+  if (tokens.empty() || tokens.back() != llama_token_sep(_sess->model())) {
+    tokens.push_back(llama_token_sep(_sess->model()));
+  }
+  const int n_embd = llama_n_embd(_sess->model());
+  do {
+    int ret =
+        llama_decode(_sess->context(),
+                     llama_batch_get_one(tokens.data(), tokens.size(), 0, 0));
+    if (ret < 0) {
+      SetError("Failed to inference, code: " + std::to_string(ret));
+      break;
+    }
+    const float *embd = llama_get_embeddings_seq(_sess->context(), 0);
+    if (embd == nullptr) {
+      SetError("Failed to get embeddings");
+      break;
+    }
+    _result.embedding.resize(n_embd);
+    memcpy(_result.embedding.data(), embd, n_embd * sizeof(float));
+  } while (false);
+}
+void EmbeddingWorker::OnOK() {
+  auto result = Napi::Object::New(Napi::AsyncWorker::Env());
+  auto embedding = Napi::Float32Array::New(Napi::AsyncWorker::Env(),
+                                           _result.embedding.size());
+  memcpy(embedding.Data(), _result.embedding.data(),
+         _result.embedding.size() * sizeof(float));
+  result.Set("embedding", embedding);
+  Napi::Promise::Deferred::Resolve(result);
+}
+void EmbeddingWorker::OnError(const Napi::Error &err) {
+  Napi::Promise::Deferred::Reject(err.Value());
+}

package/src/EmbeddingWorker.h ADDED Viewed

@@ -0,0 +1,23 @@
+#include "common.hpp"
+#include <vector>
+struct EmbeddingResult {
+  std::vector<float> embedding;
+};
+class EmbeddingWorker : public Napi::AsyncWorker,
+                        public Napi::Promise::Deferred {
+public:
+  EmbeddingWorker(const Napi::CallbackInfo &info, LlamaSessionPtr &sess,
+                  std::string text);
+protected:
+  void Execute();
+  void OnOK();
+  void OnError(const Napi::Error &err);
+private:
+  LlamaSessionPtr _sess;
+  std::string _text;
+  EmbeddingResult _result;
+};

package/src/LlamaCompletionWorker.cpp CHANGED Viewed

@@ -58,7 +58,7 @@ void LlamaCompletionWorker::Execute() {
   const auto n_keep = _params.n_keep;
   size_t n_cur = 0;
   size_t n_input = 0;
-  const auto model = llama_get_model(_sess->context());
+  const auto model = _sess->model();
   const bool add_bos = llama_should_add_bos_token(model);
   auto ctx = _sess->context();
@@ -110,6 +110,7 @@ void LlamaCompletionWorker::Execute() {
     // sample the next token
     const llama_token new_token_id =
         llama_sampling_sample(sampling.get(), ctx, nullptr);
+    llama_sampling_accept(sampling.get(), ctx, new_token_id, true);
     // prepare the next batch
     embd->emplace_back(new_token_id);
     auto token = llama_token_to_piece(ctx, new_token_id);
@@ -143,6 +144,9 @@ void LlamaCompletionWorker::Execute() {
   }
   const auto t_main_end = ggml_time_us();
   _sess->get_mutex().unlock();
+  if (_onComplete) {
+    _onComplete();
+  }
 }
 void LlamaCompletionWorker::OnOK() {

package/src/LlamaCompletionWorker.h CHANGED Viewed

@@ -1,4 +1,5 @@
 #include "common.hpp"
+#include <functional>
 struct CompletionResult {
   std::string text = "";
@@ -18,6 +19,8 @@ public:
   inline void Stop() { _stop = true; }
+  inline void onComplete(std::function<void()> cb) { _onComplete = cb; }
 protected:
   void Execute();
   void OnOK();
@@ -30,5 +33,6 @@ private:
   Napi::ThreadSafeFunction _tsfn;
   bool _has_callback = false;
   bool _stop = false;
+  std::function<void()> _onComplete;
   CompletionResult _result;
 };

package/src/LlamaContext.cpp CHANGED Viewed

@@ -1,8 +1,11 @@
 #include "LlamaContext.h"
+#include "DetokenizeWorker.h"
 #include "DisposeWorker.h"
+#include "EmbeddingWorker.h"
 #include "LlamaCompletionWorker.h"
 #include "LoadSessionWorker.h"
 #include "SaveSessionWorker.h"
+#include "TokenizeWorker.h"
 void LlamaContext::Init(Napi::Env env, Napi::Object &exports) {
   Napi::Function func = DefineClass(
@@ -16,6 +19,13 @@ void LlamaContext::Init(Napi::Env env, Napi::Object &exports) {
        InstanceMethod<&LlamaContext::StopCompletion>(
            "stopCompletion",
            static_cast<napi_property_attributes>(napi_enumerable)),
+       InstanceMethod<&LlamaContext::Tokenize>(
+           "tokenize", static_cast<napi_property_attributes>(napi_enumerable)),
+       InstanceMethod<&LlamaContext::Detokenize>(
+           "detokenize",
+           static_cast<napi_property_attributes>(napi_enumerable)),
+       InstanceMethod<&LlamaContext::Embedding>(
+           "embedding", static_cast<napi_property_attributes>(napi_enumerable)),
        InstanceMethod<&LlamaContext::SaveSession>(
            "saveSession",
            static_cast<napi_property_attributes>(napi_enumerable)),
@@ -70,7 +80,7 @@ LlamaContext::LlamaContext(const Napi::CallbackInfo &info)
         .ThrowAsJavaScriptException();
   }
-  _sess = std::make_shared<LlamaSession>(ctx, params);
+  _sess = std::make_shared<LlamaSession>(model, ctx, params);
   _info = get_system_info(params);
 }
@@ -93,6 +103,10 @@ Napi::Value LlamaContext::Completion(const Napi::CallbackInfo &info) {
     Napi::TypeError::New(env, "Context is disposed")
         .ThrowAsJavaScriptException();
   }
+  if (_wip != nullptr) {
+    Napi::TypeError::New(env, "Another completion is in progress")
+        .ThrowAsJavaScriptException();
+  }
   auto options = info[0].As<Napi::Object>();
   gpt_params params = _sess->params();
@@ -143,6 +157,7 @@ Napi::Value LlamaContext::Completion(const Napi::CallbackInfo &info) {
       new LlamaCompletionWorker(info, _sess, callback, params, stop_words);
   worker->Queue();
   _wip = worker;
+  worker->onComplete([this]() { _wip = nullptr; });
   return worker->Promise();
 }
@@ -153,6 +168,58 @@ void LlamaContext::StopCompletion(const Napi::CallbackInfo &info) {
   }
 }
+// tokenize(text: string): Promise<TokenizeResult>
+Napi::Value LlamaContext::Tokenize(const Napi::CallbackInfo &info) {
+  Napi::Env env = info.Env();
+  if (info.Length() < 1 || !info[0].IsString()) {
+    Napi::TypeError::New(env, "String expected").ThrowAsJavaScriptException();
+  }
+  if (_sess == nullptr) {
+    Napi::TypeError::New(env, "Context is disposed")
+        .ThrowAsJavaScriptException();
+  }
+  auto text = info[0].ToString().Utf8Value();
+  auto *worker = new TokenizeWorker(info, _sess, text);
+  worker->Queue();
+  return worker->Promise();
+}
+// detokenize(tokens: number[]): Promise<string>
+Napi::Value LlamaContext::Detokenize(const Napi::CallbackInfo &info) {
+  Napi::Env env = info.Env();
+  if (info.Length() < 1 || !info[0].IsArray()) {
+    Napi::TypeError::New(env, "Array expected").ThrowAsJavaScriptException();
+  }
+  if (_sess == nullptr) {
+    Napi::TypeError::New(env, "Context is disposed")
+        .ThrowAsJavaScriptException();
+  }
+  auto tokens = info[0].As<Napi::Array>();
+  std::vector<int32_t> token_ids;
+  for (size_t i = 0; i < tokens.Length(); i++) {
+    token_ids.push_back(tokens.Get(i).ToNumber().Int32Value());
+  }
+  auto *worker = new DetokenizeWorker(info, _sess, token_ids);
+  worker->Queue();
+  return worker->Promise();
+}
+// embedding(text: string): Promise<EmbeddingResult>
+Napi::Value LlamaContext::Embedding(const Napi::CallbackInfo &info) {
+  Napi::Env env = info.Env();
+  if (info.Length() < 1 || !info[0].IsString()) {
+    Napi::TypeError::New(env, "String expected").ThrowAsJavaScriptException();
+  }
+  if (_sess == nullptr) {
+    Napi::TypeError::New(env, "Context is disposed")
+        .ThrowAsJavaScriptException();
+  }
+  auto text = info[0].ToString().Utf8Value();
+  auto *worker = new EmbeddingWorker(info, _sess, text);
+  worker->Queue();
+  return worker->Promise();
+}
 // saveSession(path: string): Promise<void> throws error
 Napi::Value LlamaContext::SaveSession(const Napi::CallbackInfo &info) {
   Napi::Env env = info.Env();
@@ -163,6 +230,12 @@ Napi::Value LlamaContext::SaveSession(const Napi::CallbackInfo &info) {
     Napi::TypeError::New(env, "Context is disposed")
         .ThrowAsJavaScriptException();
   }
+#ifdef GGML_USE_VULKAN
+  if (_sess->params().n_gpu_layers > 0) {
+    Napi::TypeError::New(env, "Vulkan cannot save session")
+        .ThrowAsJavaScriptException();
+  }
+#endif
   auto *worker = new SaveSessionWorker(info, _sess);
   worker->Queue();
   return worker->Promise();
@@ -178,6 +251,12 @@ Napi::Value LlamaContext::LoadSession(const Napi::CallbackInfo &info) {
     Napi::TypeError::New(env, "Context is disposed")
         .ThrowAsJavaScriptException();
   }
+#ifdef GGML_USE_VULKAN
+  if (_sess->params().n_gpu_layers > 0) {
+    Napi::TypeError::New(env, "Vulkan cannot load session")
+        .ThrowAsJavaScriptException();
+  }
+#endif
   auto *worker = new LoadSessionWorker(info, _sess);
   worker->Queue();
   return worker->Promise();

package/src/LlamaContext.h CHANGED Viewed

@@ -11,6 +11,9 @@ private:
   Napi::Value GetSystemInfo(const Napi::CallbackInfo &info);
   Napi::Value Completion(const Napi::CallbackInfo &info);
   void StopCompletion(const Napi::CallbackInfo &info);
+  Napi::Value Tokenize(const Napi::CallbackInfo &info);
+  Napi::Value Detokenize(const Napi::CallbackInfo &info);
+  Napi::Value Embedding(const Napi::CallbackInfo &info);
   Napi::Value SaveSession(const Napi::CallbackInfo &info);
   Napi::Value LoadSession(const Napi::CallbackInfo &info);
   Napi::Value Release(const Napi::CallbackInfo &info);

package/src/TokenizeWorker.cpp ADDED Viewed

@@ -0,0 +1,26 @@
+#include "TokenizeWorker.h"
+#include "LlamaContext.h"
+TokenizeWorker::TokenizeWorker(const Napi::CallbackInfo &info,
+                               LlamaSessionPtr &sess, std::string text)
+    : AsyncWorker(info.Env()), Deferred(info.Env()), _sess(sess), _text(text) {}
+void TokenizeWorker::Execute() {
+  const auto tokens = ::llama_tokenize(_sess->context(), _text, false);
+  _result = {.tokens = std::move(tokens)};
+}
+void TokenizeWorker::OnOK() {
+  Napi::HandleScope scope(Napi::AsyncWorker::Env());
+  auto result = Napi::Object::New(Napi::AsyncWorker::Env());
+  auto tokens =
+      Napi::Int32Array::New(Napi::AsyncWorker::Env(), _result.tokens.size());
+  memcpy(tokens.Data(), _result.tokens.data(),
+         _result.tokens.size() * sizeof(llama_token));
+  result.Set("tokens", tokens);
+  Napi::Promise::Deferred::Resolve(result);
+}
+void TokenizeWorker::OnError(const Napi::Error &err) {
+  Napi::Promise::Deferred::Reject(err.Value());
+}

package/src/TokenizeWorker.h ADDED Viewed

@@ -0,0 +1,23 @@
+#include "common.hpp"
+#include <vector>
+struct TokenizeResult {
+  std::vector<llama_token> tokens;
+};
+class TokenizeWorker : public Napi::AsyncWorker,
+                       public Napi::Promise::Deferred {
+public:
+  TokenizeWorker(const Napi::CallbackInfo &info, LlamaSessionPtr &sess,
+                 std::string text);
+protected:
+  void Execute();
+  void OnOK();
+  void OnError(const Napi::Error &err);
+private:
+  LlamaSessionPtr _sess;
+  std::string _text;
+  TokenizeResult _result;
+};

package/src/common.hpp CHANGED Viewed

@@ -46,32 +46,37 @@ constexpr T get_option(const Napi::Object &options, const std::string &name,
 class LlamaSession {
 public:
-  LlamaSession(llama_context *ctx, gpt_params params)
-      : ctx_(LlamaCppContext(ctx, llama_free)), params_(params) {
+  LlamaSession(llama_model *model, llama_context *ctx, gpt_params params)
+      : model_(LlamaCppModel(model, llama_free_model)),
+        ctx_(LlamaCppContext(ctx, llama_free)), params_(params) {
     tokens_.reserve(params.n_ctx);
   }
   ~LlamaSession() { dispose(); }
-  llama_context *context() { return ctx_.get(); }
+  inline llama_context *context() { return ctx_.get(); }
-  std::vector<llama_token>* tokens_ptr() { return &tokens_; }
+  inline llama_model *model() { return model_.get(); }
-  void set_tokens(std::vector<llama_token> tokens) {
+  inline std::vector<llama_token> *tokens_ptr() { return &tokens_; }
+  inline void set_tokens(std::vector<llama_token> tokens) {
     tokens_ = std::move(tokens);
   }
-  const gpt_params &params() const { return params_; }
+  inline const gpt_params &params() const { return params_; }
-  std::mutex &get_mutex() { return mutex; }
+  inline std::mutex &get_mutex() { return mutex; }
   void dispose() {
     std::lock_guard<std::mutex> lock(mutex);
     tokens_.clear();
     ctx_.reset();
+    model_.reset();
   }
 private:
+  LlamaCppModel model_;
   LlamaCppContext ctx_;
   const gpt_params params_;
   std::vector<llama_token> tokens_{};