npm - cui-llama.rn - Versions diffs - 1.0.3 → 1.0.6 - Mend

cui-llama.rn 1.0.3 → 1.0.6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (62) hide show

package/README.md +35 -39
package/android/src/main/CMakeLists.txt +12 -2
package/android/src/main/java/com/rnllama/LlamaContext.java +29 -9
package/android/src/main/java/com/rnllama/RNLlama.java +33 -1
package/android/src/main/jni.cpp +62 -8
package/android/src/newarch/java/com/rnllama/RNLlamaModule.java +5 -0
package/android/src/oldarch/java/com/rnllama/RNLlamaModule.java +5 -0
package/cpp/common.cpp +3237 -3231
package/cpp/common.h +469 -468
package/cpp/ggml-aarch64.c +2193 -2193
package/cpp/ggml-aarch64.h +39 -39
package/cpp/ggml-alloc.c +1036 -1042
package/cpp/ggml-backend-impl.h +153 -153
package/cpp/ggml-backend.c +2240 -2234
package/cpp/ggml-backend.h +238 -238
package/cpp/ggml-common.h +1833 -1829
package/cpp/ggml-impl.h +755 -655
package/cpp/ggml-metal.h +65 -65
package/cpp/ggml-metal.m +3269 -3269
package/cpp/ggml-quants.c +14872 -14860
package/cpp/ggml-quants.h +132 -132
package/cpp/ggml.c +22055 -22044
package/cpp/ggml.h +2453 -2447
package/cpp/llama-grammar.cpp +539 -0
package/cpp/llama-grammar.h +39 -0
package/cpp/llama-impl.h +26 -0
package/cpp/llama-sampling.cpp +635 -0
package/cpp/llama-sampling.h +56 -0
package/cpp/llama-vocab.cpp +1721 -0
package/cpp/llama-vocab.h +130 -0
package/cpp/llama.cpp +19171 -21892
package/cpp/llama.h +1240 -1217
package/cpp/log.h +737 -737
package/cpp/rn-llama.hpp +207 -29
package/cpp/sampling.cpp +460 -460
package/cpp/sgemm.cpp +1027 -1027
package/cpp/sgemm.h +14 -14
package/cpp/unicode.cpp +6 -0
package/cpp/unicode.h +3 -0
package/ios/RNLlama.mm +15 -6
package/ios/RNLlamaContext.h +2 -8
package/ios/RNLlamaContext.mm +41 -34
package/lib/commonjs/NativeRNLlama.js.map +1 -1
package/lib/commonjs/chat.js +37 -0
package/lib/commonjs/chat.js.map +1 -0
package/lib/commonjs/index.js +14 -1
package/lib/commonjs/index.js.map +1 -1
package/lib/module/NativeRNLlama.js.map +1 -1
package/lib/module/chat.js +31 -0
package/lib/module/chat.js.map +1 -0
package/lib/module/index.js +14 -1
package/lib/module/index.js.map +1 -1
package/lib/typescript/NativeRNLlama.d.ts +5 -1
package/lib/typescript/NativeRNLlama.d.ts.map +1 -1
package/lib/typescript/chat.d.ts +10 -0
package/lib/typescript/chat.d.ts.map +1 -0
package/lib/typescript/index.d.ts +9 -2
package/lib/typescript/index.d.ts.map +1 -1
package/package.json +1 -1
package/src/NativeRNLlama.ts +10 -1
package/src/chat.ts +44 -0
package/src/index.ts +31 -4

package/README.md CHANGED Viewed

@@ -46,38 +46,7 @@ Add proguard rule if it's enabled in project (android/app/proguard-rules.pro):
 You can search HuggingFace for available models (Keyword: [`GGUF`](https://huggingface.co/search/full-text?q=GGUF&type=model)).
-For create a GGUF model manually, for example in Llama 2:
-Download the Llama 2 model
-1. Request access from [here](https://ai.meta.com/llama)
-2. Download the model from HuggingFace [here](https://huggingface.co/meta-llama/Llama-2-7b-chat) (`Llama-2-7b-chat`)
-Convert the model to ggml format
-```bash
-# Start with submodule in this repo (or you can clone the repo https://github.com/ggerganov/llama.cpp.git)
-yarn && yarn bootstrap
-cd llama.cpp
-# install Python dependencies
-python3 -m pip install -r requirements.txt
-# Move the Llama model weights to the models folder
-mv <path to Llama-2-7b-chat> ./models/7B
-# convert the 7B model to ggml FP16 format
-python3 convert.py models/7B/ --outtype f16
-# Build the quantize tool
-make quantize
-# quantize the model to 2-bits (using q2_k method)
-./quantize ./models/7B/ggml-model-f16.gguf ./models/7B/ggml-model-q2_k.gguf q2_k
-# quantize the model to 4-bits (using q4_0 method)
-./quantize ./models/7B/ggml-model-f16.gguf ./models/7B/ggml-model-q4_0.gguf q4_0
-```
+For get a GGUF model or quantize manually, see [`Prepare and Quantize`](https://github.com/ggerganov/llama.cpp?tab=readme-ov-file#prepare-and-quantize) section in llama.cpp.
 ## Usage
@@ -93,27 +62,54 @@ const context = await initLlama({
   // embedding: true, // use embedding
 })
-// Do completion
-const { text, timings } = await context.completion(
+const stopWords = ['</s>', '<|end|>', '<|eot_id|>', '<|end_of_text|>', '<|im_end|>', '<|EOT|>', '<|END_OF_TURN_TOKEN|>', '<|end_of_turn|>', '<|endoftext|>']
+// Do chat completion
+const msgResult = await context.completion(
+  {
+    messages: [
+      {
+        role: 'system',
+        content: 'This is a conversation between user and assistant, a friendly chatbot.',
+      },
+      {
+        role: 'user',
+        content: 'Hello!',
+      },
+    ],
+    n_predict: 100,
+    stop: stopWords,
+    // ...other params
+  },
+  (data) => {
+    // This is a partial completion callback
+    const { token } = data
+  },
+)
+console.log('Result:', msgResult.text)
+console.log('Timings:', msgResult.timings)
+// Or do text completion
+const textResult = await context.completion(
   {
     prompt:
       'This is a conversation between user and llama, a friendly chatbot. respond in simple markdown.\n\nUser: Hello!\nLlama:',
     n_predict: 100,
-    stop: ['</s>', 'Llama:', 'User:'],
-    // n_threads: 4,
+    stop: [...stopWords, 'Llama:', 'User:'],
+    // ...other params
   },
   (data) => {
     // This is a partial completion callback
     const { token } = data
   },
 )
-console.log('Result:', text)
-console.log('Timings:', timings)
+console.log('Result:', textResult.text)
+console.log('Timings:', textResult.timings)
 ```
 The binding’s deisgn inspired by [server.cpp](https://github.com/ggerganov/llama.cpp/tree/master/examples/server) example in llama.cpp, so you can map its API to LlamaContext:
-- `/completion`: `context.completion(params, partialCompletionCallback)`
+- `/completion` and `/chat/completions`: `context.completion(params, partialCompletionCallback)`
 - `/tokenize`: `context.tokenize(content)`
 - `/detokenize`: `context.detokenize(tokens)`
 - `/embedding`: `context.embedding(content)`

package/android/src/main/CMakeLists.txt CHANGED Viewed

@@ -9,6 +9,10 @@ include_directories(${RNLLAMA_LIB_DIR})
 set(
     SOURCE_FILES
+    ${RNLLAMA_LIB_DIR}/llama-grammar.cpp
+    ${RNLLAMA_LIB_DIR}/llama-sampling.cpp
+    ${RNLLAMA_LIB_DIR}/llama-vocab.cpp
     ${RNLLAMA_LIB_DIR}/ggml-aarch64.c
     ${RNLLAMA_LIB_DIR}/ggml-alloc.c
     ${RNLLAMA_LIB_DIR}/ggml-backend.c
@@ -22,6 +26,9 @@ set(
     ${RNLLAMA_LIB_DIR}/unicode-data.cpp
     ${RNLLAMA_LIB_DIR}/unicode.cpp
     ${RNLLAMA_LIB_DIR}/llama.cpp
+    ${RNLLAMA_LIB_DIR}/llama-vocab.cpp
+    ${RNLLAMA_LIB_DIR}/llama-sampling.cpp
+    ${RNLLAMA_LIB_DIR}/llama-grammar.cpp
     ${RNLLAMA_LIB_DIR}/sgemm.cpp
     ${RNLLAMA_LIB_DIR}/ggml-aarch64.c
     ${RNLLAMA_LIB_DIR}/rn-llama.hpp
@@ -45,7 +52,9 @@ function(build_library target_name cpu_flags)
         target_compile_options(${target_name} PRIVATE -DRNLLAMA_ANDROID_ENABLE_LOGGING)
     endif ()
-    #if (NOT ${CMAKE_BUILD_TYPE} STREQUAL "Debug")
+    # NOTE: If you want to debug the native code, you can uncomment if and endif
+    # Note that it will be extremely slow
+    # if (NOT ${CMAKE_BUILD_TYPE} STREQUAL "Debug")
         target_compile_options(${target_name} PRIVATE -O3 -DNDEBUG)
         target_compile_options(${target_name} PRIVATE -fvisibility=hidden -fvisibility-inlines-hidden)
         target_compile_options(${target_name} PRIVATE -ffunction-sections -fdata-sections)
@@ -53,7 +62,7 @@ function(build_library target_name cpu_flags)
         target_link_options(${target_name} PRIVATE -Wl,--gc-sections)
         target_link_options(${target_name} PRIVATE -Wl,--exclude-libs,ALL)
         target_link_options(${target_name} PRIVATE -flto)
-    #endif ()
+    # endif ()
 endfunction()
 # Default target (no specific CPU features)
@@ -61,6 +70,7 @@ build_library("rnllama" "")
 if (${ANDROID_ABI} STREQUAL "arm64-v8a")
     # ARM64 targets
+    build_library("rnllama_v8_4_fp16_dotprod_i8mm" "-march=armv8.4-a+fp16+dotprod+i8mm")
     build_library("rnllama_v8_4_fp16_dotprod" "-march=armv8.4-a+fp16+dotprod")
     build_library("rnllama_v8_2_fp16_dotprod" "-march=armv8.2-a+fp16+dotprod")
     build_library("rnllama_v8_2_fp16" "-march=armv8.2-a+fp16")

package/android/src/main/java/com/rnllama/LlamaContext.java CHANGED Viewed

@@ -94,8 +94,6 @@ public class LlamaContext {
       params.hasKey("lora") ? params.getString("lora") : "",
       // float lora_scaled,
       params.hasKey("lora_scaled") ? (float) params.getDouble("lora_scaled") : 1.0f,
-      // String lora_base,
-      params.hasKey("lora_base") ? params.getString("lora_base") : "",
       // float rope_freq_base,
       params.hasKey("rope_freq_base") ? (float) params.getDouble("rope_freq_base") : 0.0f,
       // float rope_freq_scale
@@ -114,6 +112,14 @@ public class LlamaContext {
     return modelDetails;
   }
+  public String getFormattedChat(ReadableArray messages, String chatTemplate) {
+    ReadableMap[] msgs = new ReadableMap[messages.size()];
+    for (int i = 0; i < messages.size(); i++) {
+      msgs[i] = messages.getMap(i);
+    }
+    return getFormattedChat(this.context, msgs, chatTemplate == null ? "" : chatTemplate);
+  }
   private void emitPartialCompletion(WritableMap tokenResult) {
     WritableMap event = Arguments.createMap();
     event.putInt("contextId", LlamaContext.this.id);
@@ -176,7 +182,7 @@ public class LlamaContext {
       }
     }
-    return doCompletion(
+    WritableMap result = doCompletion(
       this.context,
       // String prompt,
       params.getString("prompt"),
@@ -230,6 +236,10 @@ public class LlamaContext {
         params.hasKey("emit_partial_completion") ? params.getBoolean("emit_partial_completion") : false
       )
     );
+    if (result.hasKey("error")) {
+      throw new IllegalStateException(result.getString("error"));
+    }
+    return result;
   }
   public void stopCompletion() {
@@ -254,12 +264,14 @@ public class LlamaContext {
     return detokenize(this.context, toks);
   }
-  public WritableMap embedding(String text) {
+  public WritableMap getEmbedding(String text) {
     if (isEmbeddingEnabled(this.context) == false) {
       throw new IllegalStateException("Embedding is not enabled");
     }
-    WritableMap result = Arguments.createMap();
-    result.putArray("embedding", embedding(this.context, text));
+    WritableMap result = embedding(this.context, text);
+    if (result.hasKey("error")) {
+      throw new IllegalStateException(result.getString("error"));
+    }
     return result;
   }
@@ -281,8 +293,12 @@ public class LlamaContext {
       boolean hasDotProd = cpuFeatures.contains("dotprod") || cpuFeatures.contains("asimddp");
       boolean isAtLeastArmV82 = cpuFeatures.contains("asimd") && cpuFeatures.contains("crc32") && cpuFeatures.contains("aes");
       boolean isAtLeastArmV84 = cpuFeatures.contains("dcpop") && cpuFeatures.contains("uscat");
+      boolean hasInt8Matmul = cpuFeatures.contains("i8mm");
-      if (isAtLeastArmV84 && hasFp16 && hasDotProd) {
+      if (isAtLeastArmV84 && hasFp16 && hasDotProd && hasInt8Matmul) {
+        Log.d(NAME, "Loading librnllama_v8_4_fp16_dotprod_i8mm.so");
+        System.loadLibrary("rnllama_v8_4_fp16_dotprod_i8mm");
+      } else if (isAtLeastArmV84 && hasFp16 && hasDotProd) {
         Log.d(NAME, "Loading librnllama_v8_4_fp16_dotprod.so");
         System.loadLibrary("rnllama_v8_4_fp16_dotprod");
       } else if (isAtLeastArmV82 && hasFp16 && hasDotProd) {
@@ -344,13 +360,17 @@ public class LlamaContext {
     boolean vocab_only,
     String lora,
     float lora_scaled,
-    String lora_base,
     float rope_freq_base,
     float rope_freq_scale
   );
   protected static native WritableMap loadModelDetails(
     long contextPtr
   );
+  protected static native String getFormattedChat(
+    long contextPtr,
+    ReadableMap[] messages,
+    String chatTemplate
+  );
   protected static native WritableMap loadSession(
     long contextPtr,
     String path
@@ -392,7 +412,7 @@ public class LlamaContext {
   protected static native WritableArray tokenize(long contextPtr, String text);
   protected static native String detokenize(long contextPtr, int[] tokens);
   protected static native boolean isEmbeddingEnabled(long contextPtr);
-  protected static native WritableArray embedding(long contextPtr, String text);
+  protected static native WritableMap embedding(long contextPtr, String text);
   protected static native String bench(long contextPtr, int pp, int tg, int pl, int nr);
   protected static native void freeContext(long contextPtr);
 }

package/android/src/main/java/com/rnllama/RNLlama.java CHANGED Viewed

@@ -80,6 +80,38 @@ public class RNLlama implements LifecycleEventListener {
     tasks.put(task, "initContext");
   }
+  public void getFormattedChat(double id, final ReadableArray messages, final String chatTemplate, Promise promise) {
+    final int contextId = (int) id;
+    AsyncTask task = new AsyncTask<Void, Void, String>() {
+      private Exception exception;
+      @Override
+      protected String doInBackground(Void... voids) {
+        try {
+          LlamaContext context = contexts.get(contextId);
+          if (context == null) {
+            throw new Exception("Context not found");
+          }
+          return context.getFormattedChat(messages, chatTemplate);
+        } catch (Exception e) {
+          exception = e;
+          return null;
+        }
+      }
+      @Override
+      protected void onPostExecute(String result) {
+        if (exception != null) {
+          promise.reject(exception);
+          return;
+        }
+        promise.resolve(result);
+        tasks.remove(this);
+      }
+    }.executeOnExecutor(AsyncTask.THREAD_POOL_EXECUTOR);
+    tasks.put(task, "getFormattedChat-" + contextId);
+  }
   public void loadSession(double id, final String path, Promise promise) {
     final int contextId = (int) id;
     AsyncTask task = new AsyncTask<Void, Void, WritableMap>() {
@@ -307,7 +339,7 @@ public class RNLlama implements LifecycleEventListener {
           if (context == null) {
             throw new Exception("Context not found");
           }
-          return context.embedding(text);
+          return context.getEmbedding(text);
         } catch (Exception e) {
           exception = e;
         }

package/android/src/main/jni.cpp CHANGED Viewed

@@ -62,6 +62,16 @@ static inline void putDouble(JNIEnv *env, jobject map, const char *key, double v
     env->CallVoidMethod(map, putDoubleMethod, jKey, value);
 }
+// Method to put boolean into WritableMap
+static inline void putBoolean(JNIEnv *env, jobject map, const char *key, bool value) {
+    jclass mapClass = env->FindClass("com/facebook/react/bridge/WritableMap");
+    jmethodID putBooleanMethod = env->GetMethodID(mapClass, "putBoolean", "(Ljava/lang/String;Z)V");
+    jstring jKey = env->NewStringUTF(key);
+    env->CallVoidMethod(map, putBooleanMethod, jKey, value);
+}
 // Method to put WriteableMap into WritableMap
 static inline void putMap(JNIEnv *env, jobject map, const char *key, jobject value) {
     jclass mapClass = env->FindClass("com/facebook/react/bridge/WritableMap");
@@ -132,7 +142,6 @@ Java_com_rnllama_LlamaContext_initContext(
     jboolean vocab_only,
     jstring lora_str,
     jfloat lora_scaled,
-    jstring lora_base_str,
     jfloat rope_freq_base,
     jfloat rope_freq_scale
 ) {
@@ -164,10 +173,8 @@ Java_com_rnllama_LlamaContext_initContext(
     defaultParams.use_mmap = use_mmap;
     const char *lora_chars = env->GetStringUTFChars(lora_str, nullptr);
-    const char *lora_base_chars = env->GetStringUTFChars(lora_base_str, nullptr);
     if (lora_chars != nullptr && lora_chars[0] != '\0') {
         defaultParams.lora_adapter.push_back({lora_chars, lora_scaled});
-        defaultParams.lora_base = lora_base_chars;
         defaultParams.use_mmap = false;
     }
@@ -186,7 +193,6 @@ Java_com_rnllama_LlamaContext_initContext(
     env->ReleaseStringUTFChars(model_path_str, model_path_chars);
     env->ReleaseStringUTFChars(lora_str, lora_chars);
-    env->ReleaseStringUTFChars(lora_base_str, lora_base_chars);
     return reinterpret_cast<jlong>(llama->ctx);
 }
@@ -218,11 +224,52 @@ Java_com_rnllama_LlamaContext_loadModelDetails(
     putString(env, result, "desc", desc);
     putDouble(env, result, "size", llama_model_size(llama->model));
     putDouble(env, result, "nParams", llama_model_n_params(llama->model));
+    putBoolean(env, result, "isChatTemplateSupported", llama->validateModelChatTemplate());
     putMap(env, result, "metadata", meta);
     return reinterpret_cast<jobject>(result);
 }
+JNIEXPORT jobject JNICALL
+Java_com_rnllama_LlamaContext_getFormattedChat(
+    JNIEnv *env,
+    jobject thiz,
+    jlong context_ptr,
+    jobjectArray messages,
+    jstring chat_template
+) {
+    UNUSED(thiz);
+    auto llama = context_map[(long) context_ptr];
+    std::vector<llama_chat_msg> chat;
+    int messages_len = env->GetArrayLength(messages);
+    for (int i = 0; i < messages_len; i++) {
+        jobject msg = env->GetObjectArrayElement(messages, i);
+        jclass msgClass = env->GetObjectClass(msg);
+        jmethodID getRoleMethod = env->GetMethodID(msgClass, "getString", "(Ljava/lang/String;)Ljava/lang/String;");
+        jstring roleKey = env->NewStringUTF("role");
+        jstring contentKey = env->NewStringUTF("content");
+        jstring role_str = (jstring) env->CallObjectMethod(msg, getRoleMethod, roleKey);
+        jstring content_str = (jstring) env->CallObjectMethod(msg, getRoleMethod, contentKey);
+        const char *role = env->GetStringUTFChars(role_str, nullptr);
+        const char *content = env->GetStringUTFChars(content_str, nullptr);
+        chat.push_back({ role, content });
+        env->ReleaseStringUTFChars(role_str, role);
+        env->ReleaseStringUTFChars(content_str, content);
+    }
+    const char *tmpl_chars = env->GetStringUTFChars(chat_template, nullptr);
+    std::string formatted_chat = llama_chat_apply_template(llama->model, tmpl_chars, chat, true);
+    return env->NewStringUTF(formatted_chat.c_str());
+}
 JNIEXPORT jobject JNICALL
 Java_com_rnllama_LlamaContext_loadSession(
     JNIEnv *env,
@@ -416,7 +463,7 @@ Java_com_rnllama_LlamaContext_doCompletion(
     while (llama->has_next_token && !llama->is_interrupted) {
         const rnllama::completion_token_output token_with_probs = llama->doCompletion();
-        if (token_with_probs.tok == -1 || llama->multibyte_pending > 0) {
+        if (token_with_probs.tok == -1 || llama->incomplete) {
             continue;
         }
         const std::string token_text = llama_token_to_piece(llama->ctx, token_with_probs.tok);
@@ -587,17 +634,24 @@ Java_com_rnllama_LlamaContext_embedding(
     llama->params.prompt = text_chars;
     llama->params.n_predict = 0;
+    auto result = createWriteableMap(env);
+    if (!llama->initSampling()) {
+        putString(env, result, "error", "Failed to initialize sampling");
+        return reinterpret_cast<jobject>(result);
+    }
     llama->beginCompletion();
     llama->loadPrompt();
     llama->doCompletion();
     std::vector<float> embedding = llama->getEmbedding();
-    jobject result = createWritableArray(env);
+    auto embeddings = createWritableArray(env);
     for (const auto &val : embedding) {
-      pushDouble(env, result, (double) val);
+      pushDouble(env, embeddings, (double) val);
     }
+    putArray(env, result, "embedding", embeddings);
     env->ReleaseStringUTFChars(text, text_chars);
     return result;

package/android/src/newarch/java/com/rnllama/RNLlamaModule.java CHANGED Viewed

@@ -43,6 +43,11 @@ public class RNLlamaModule extends NativeRNLlamaSpec {
     rnllama.initContext(params, promise);
   }
+  @ReactMethod
+  public void getFormattedChat(double id, ReadableArray messages, String chatTemplate, Promise promise) {
+    rnllama.getFormattedChat(id, messages, chatTemplate, promise);
+  }
   @ReactMethod
   public void loadSession(double id, String path, Promise promise) {
     rnllama.loadSession(id, path, promise);

package/android/src/oldarch/java/com/rnllama/RNLlamaModule.java CHANGED Viewed

@@ -44,6 +44,11 @@ public class RNLlamaModule extends ReactContextBaseJavaModule {
     rnllama.initContext(params, promise);
   }
+  @ReactMethod
+  public void getFormattedChat(double id, ReadableArray messages, String chatTemplate, Promise promise) {
+    rnllama.getFormattedChat(id, messages, chatTemplate, promise);
+  }
   @ReactMethod
   public void loadSession(double id, String path, Promise promise) {
     rnllama.loadSession(id, path, promise);