npm - cui-llama.rn - Versions diffs - 1.2.4 → 1.3.0 - Mend

cui-llama.rn 1.2.4 → 1.3.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (70) hide show

package/README.md +3 -4
package/android/src/main/CMakeLists.txt +21 -5
package/android/src/main/java/com/rnllama/LlamaContext.java +115 -30
package/android/src/main/java/com/rnllama/RNLlama.java +40 -7
package/android/src/main/jni.cpp +222 -36
package/android/src/newarch/java/com/rnllama/RNLlamaModule.java +9 -4
package/android/src/oldarch/java/com/rnllama/RNLlamaModule.java +9 -4
package/cpp/common.cpp +1682 -2122
package/cpp/common.h +600 -594
package/cpp/ggml-aarch64.c +129 -3209
package/cpp/ggml-aarch64.h +19 -39
package/cpp/ggml-alloc.c +1040 -1040
package/cpp/ggml-alloc.h +76 -76
package/cpp/ggml-backend-impl.h +216 -227
package/cpp/ggml-backend-reg.cpp +195 -0
package/cpp/ggml-backend.cpp +1997 -2625
package/cpp/ggml-backend.h +328 -326
package/cpp/ggml-common.h +1853 -1853
package/cpp/ggml-cpp.h +38 -0
package/cpp/ggml-cpu-aarch64.c +3560 -0
package/cpp/ggml-cpu-aarch64.h +30 -0
package/cpp/ggml-cpu-impl.h +371 -614
package/cpp/ggml-cpu-quants.c +10822 -0
package/cpp/ggml-cpu-quants.h +63 -0
package/cpp/ggml-cpu.c +13975 -0
package/cpp/ggml-cpu.cpp +663 -0
package/cpp/ggml-cpu.h +177 -0
package/cpp/ggml-impl.h +550 -209
package/cpp/ggml-metal.h +66 -66
package/cpp/ggml-metal.m +4294 -3819
package/cpp/ggml-quants.c +5247 -15752
package/cpp/ggml-quants.h +100 -147
package/cpp/ggml-threading.cpp +12 -0
package/cpp/ggml-threading.h +12 -0
package/cpp/ggml.c +8180 -23464
package/cpp/ggml.h +2411 -2562
package/cpp/llama-grammar.cpp +1138 -1138
package/cpp/llama-grammar.h +144 -144
package/cpp/llama-impl.h +181 -181
package/cpp/llama-sampling.cpp +2348 -2194
package/cpp/llama-sampling.h +48 -30
package/cpp/llama-vocab.cpp +1984 -1968
package/cpp/llama-vocab.h +170 -165
package/cpp/llama.cpp +22132 -21969
package/cpp/llama.h +1253 -1253
package/cpp/log.cpp +401 -401
package/cpp/log.h +121 -121
package/cpp/rn-llama.hpp +83 -19
package/cpp/sampling.cpp +466 -458
package/cpp/sgemm.cpp +1884 -1219
package/ios/RNLlama.mm +43 -20
package/ios/RNLlamaContext.h +9 -3
package/ios/RNLlamaContext.mm +133 -33
package/jest/mock.js +0 -1
package/lib/commonjs/NativeRNLlama.js.map +1 -1
package/lib/commonjs/index.js +52 -15
package/lib/commonjs/index.js.map +1 -1
package/lib/module/NativeRNLlama.js.map +1 -1
package/lib/module/index.js +51 -15
package/lib/module/index.js.map +1 -1
package/lib/typescript/NativeRNLlama.d.ts +29 -6
package/lib/typescript/NativeRNLlama.d.ts.map +1 -1
package/lib/typescript/index.d.ts +12 -5
package/lib/typescript/index.d.ts.map +1 -1
package/package.json +1 -1
package/src/NativeRNLlama.ts +41 -7
package/src/index.ts +82 -27
package/cpp/json-schema-to-grammar.cpp +0 -1045
package/cpp/json-schema-to-grammar.h +0 -8
package/cpp/json.hpp +0 -24766

package/android/src/main/jni.cpp CHANGED Viewed

@@ -4,13 +4,15 @@
 #include <android/log.h>
 #include <cstdlib>
 #include <ctime>
+#include <ctime>
 #include <sys/sysinfo.h>
 #include <string>
 #include <thread>
 #include <unordered_map>
 #include "llama.h"
-#include "rn-llama.hpp"
+#include "llama-impl.h"
 #include "ggml.h"
+#include "rn-llama.hpp"
 #define UNUSED(x) (void)(x)
 #define TAG "RNLLAMA_ANDROID_JNI"
@@ -22,6 +24,13 @@ static inline int min(int a, int b) {
     return (a < b) ? a : b;
 }
+static void log_callback(lm_ggml_log_level level, const char * fmt, void * data) {
+    if (level == LM_GGML_LOG_LEVEL_ERROR)     __android_log_print(ANDROID_LOG_ERROR, TAG, fmt, data);
+    else if (level == LM_GGML_LOG_LEVEL_INFO) __android_log_print(ANDROID_LOG_INFO, TAG, fmt, data);
+    else if (level == LM_GGML_LOG_LEVEL_WARN) __android_log_print(ANDROID_LOG_WARN, TAG, fmt, data);
+    else __android_log_print(ANDROID_LOG_DEFAULT, TAG, fmt, data);
+}
 extern "C" {
 // Method to create WritableMap
@@ -107,6 +116,15 @@ static inline void pushDouble(JNIEnv *env, jobject arr, double value) {
     env->CallVoidMethod(arr, pushDoubleMethod, value);
 }
+// Method to push string into WritableArray
+static inline void pushString(JNIEnv *env, jobject arr, const char *value) {
+    jclass mapClass = env->FindClass("com/facebook/react/bridge/WritableArray");
+    jmethodID pushStringMethod = env->GetMethodID(mapClass, "pushString", "(Ljava/lang/String;)V");
+    jstring jValue = env->NewStringUTF(value);
+    env->CallVoidMethod(arr, pushStringMethod, jValue);
+}
 // Method to push WritableMap into WritableArray
 static inline void pushMap(JNIEnv *env, jobject arr, jobject value) {
     jclass mapClass = env->FindClass("com/facebook/react/bridge/WritableArray");
@@ -125,6 +143,77 @@ static inline void putArray(JNIEnv *env, jobject map, const char *key, jobject v
     env->CallVoidMethod(map, putArrayMethod, jKey, value);
 }
+JNIEXPORT jobject JNICALL
+Java_com_rnllama_LlamaContext_modelInfo(
+    JNIEnv *env,
+    jobject thiz,
+    jstring model_path_str,
+    jobjectArray skip
+) {
+    UNUSED(thiz);
+    const char *model_path_chars = env->GetStringUTFChars(model_path_str, nullptr);
+    std::vector<std::string> skip_vec;
+    int skip_len = env->GetArrayLength(skip);
+    for (int i = 0; i < skip_len; i++) {
+        jstring skip_str = (jstring) env->GetObjectArrayElement(skip, i);
+        const char *skip_chars = env->GetStringUTFChars(skip_str, nullptr);
+        skip_vec.push_back(skip_chars);
+        env->ReleaseStringUTFChars(skip_str, skip_chars);
+    }
+    struct lm_gguf_init_params params = {
+        /*.no_alloc = */ false,
+        /*.ctx      = */ NULL,
+    };
+    struct lm_gguf_context * ctx = lm_gguf_init_from_file(model_path_chars, params);
+    if (!ctx) {
+        LOGI("%s: failed to load '%s'\n", __func__, model_path_chars);
+        return nullptr;
+    }
+    auto info = createWriteableMap(env);
+    putInt(env, info, "version", lm_gguf_get_version(ctx));
+    putInt(env, info, "alignment", lm_gguf_get_alignment(ctx));
+    putInt(env, info, "data_offset", lm_gguf_get_data_offset(ctx));
+    {
+        const int n_kv = lm_gguf_get_n_kv(ctx);
+        for (int i = 0; i < n_kv; ++i) {
+            const char * key = lm_gguf_get_key(ctx, i);
+            bool skipped = false;
+            if (skip_len > 0) {
+                for (int j = 0; j < skip_len; j++) {
+                    if (skip_vec[j] == key) {
+                        skipped = true;
+                        break;
+                    }
+                }
+            }
+            if (skipped) {
+                continue;
+            }
+            const std::string value = rnllama::lm_gguf_kv_to_str(ctx, i);
+            putString(env, info, key, value.c_str());
+        }
+    }
+    env->ReleaseStringUTFChars(model_path_str, model_path_chars);
+    lm_gguf_free(ctx);
+    return reinterpret_cast<jobject>(info);
+}
+struct callback_context {
+    JNIEnv *env;
+    rnllama::llama_rn_context *llama;
+    jobject callback;
+};
 std::unordered_map<long, rnllama::llama_rn_context *> context_map;
@@ -141,10 +230,14 @@ Java_com_rnllama_LlamaContext_initContext(
     jobject thiz,
     jstring model_path_str,
     jboolean embedding,
+    jint embd_normalize,
     jint n_ctx,
     jint n_batch,
     jint n_threads,
     jint n_gpu_layers, // TODO: Support this
+    jboolean flash_attn,
+    jstring cache_type_k,
+    jstring cache_type_v,
     jboolean use_mlock,
     jboolean use_mmap,
     jboolean vocab_only,
@@ -152,7 +245,8 @@ Java_com_rnllama_LlamaContext_initContext(
     jfloat lora_scaled,
     jfloat rope_freq_base,
     jfloat rope_freq_scale,
-    jobject javaLlamaContext
+    jint pooling_type,
+    jobject load_progress_callback
 ) {
     UNUSED(thiz);
@@ -166,64 +260,109 @@ Java_com_rnllama_LlamaContext_initContext(
     const char *model_path_chars = env->GetStringUTFChars(model_path_str, nullptr);
     defaultParams.model = model_path_chars;
-    defaultParams.embedding = embedding;
     defaultParams.n_ctx = n_ctx;
     defaultParams.n_batch = n_batch;
+    if (pooling_type != -1) {
+        defaultParams.pooling_type = static_cast<enum llama_pooling_type>(pooling_type);
+    }
+    defaultParams.embedding = embedding;
+    if (embd_normalize != -1) {
+        defaultParams.embd_normalize = embd_normalize;
+    }
+    if (embedding) {
+        // For non-causal models, batch size must be equal to ubatch size
+        defaultParams.n_ubatch = defaultParams.n_batch;
+    }
     int max_threads = std::thread::hardware_concurrency();
     // Use 2 threads by default on 4-core devices, 4 threads on more cores
     int default_n_threads = max_threads == 4 ? 2 : min(4, max_threads);
     defaultParams.cpuparams.n_threads = n_threads > 0 ? n_threads : default_n_threads;
     defaultParams.n_gpu_layers = n_gpu_layers;
+    defaultParams.flash_attn = flash_attn;
+    const char *cache_type_k_chars = env->GetStringUTFChars(cache_type_k, nullptr);
+    const char *cache_type_v_chars = env->GetStringUTFChars(cache_type_v, nullptr);
+    defaultParams.cache_type_k = cache_type_k_chars;
+    defaultParams.cache_type_v = cache_type_v_chars;
     defaultParams.use_mlock = use_mlock;
     defaultParams.use_mmap = use_mmap;
     const char *lora_chars = env->GetStringUTFChars(lora_str, nullptr);
     if (lora_chars != nullptr && lora_chars[0] != '\0') {
         defaultParams.lora_adapters.push_back({lora_chars, lora_scaled});
-        defaultParams.use_mmap = false;
     }
     defaultParams.rope_freq_base = rope_freq_base;
     defaultParams.rope_freq_scale = rope_freq_scale;
-    // progress callback when loading
-    jclass llamaContextClass = env->GetObjectClass(javaLlamaContext);
-    jmethodID sendProgressMethod = env->GetMethodID(llamaContextClass, "emitModelProgressUpdate", "(I)V");
-    CallbackContext callbackctx = {env, javaLlamaContext, sendProgressMethod, 0};
-    defaultParams.progress_callback_user_data = &callbackctx;
-    defaultParams.progress_callback = [](float progress, void * ctx) {
-        unsigned percentage = (unsigned) (100 * progress);
-        CallbackContext * cbctx = static_cast<CallbackContext*>(ctx);
-        // reduce call frequency by only calling method when value changes
-        if (percentage <= cbctx->current) return true;
-        cbctx->current = percentage;
-        cbctx->env->CallVoidMethod(cbctx->thiz, cbctx->sendProgressMethod, percentage);
-        return true;
-    };
     auto llama = new rnllama::llama_rn_context();
+    llama->is_load_interrupted = false;
+    llama->loading_progress = 0;
+    if (load_progress_callback != nullptr) {
+        defaultParams.progress_callback = [](float progress, void * user_data) {
+            callback_context *cb_ctx = (callback_context *)user_data;
+            JNIEnv *env = cb_ctx->env;
+            auto llama = cb_ctx->llama;
+            jobject callback = cb_ctx->callback;
+            int percentage = (int) (100 * progress);
+            if (percentage > llama->loading_progress) {
+                llama->loading_progress = percentage;
+                jclass callback_class = env->GetObjectClass(callback);
+                jmethodID onLoadProgress = env->GetMethodID(callback_class, "onLoadProgress", "(I)V");
+                env->CallVoidMethod(callback, onLoadProgress, percentage);
+            }
+            return !llama->is_load_interrupted;
+        };
+        callback_context *cb_ctx = new callback_context;
+        cb_ctx->env = env;
+        cb_ctx->llama = llama;
+        cb_ctx->callback = env->NewGlobalRef(load_progress_callback);
+        defaultParams.progress_callback_user_data = cb_ctx;
+    }
     bool is_model_loaded = llama->loadModel(defaultParams);
+    env->ReleaseStringUTFChars(model_path_str, model_path_chars);
+    env->ReleaseStringUTFChars(lora_str, lora_chars);
+    env->ReleaseStringUTFChars(cache_type_k, cache_type_k_chars);
+    env->ReleaseStringUTFChars(cache_type_v, cache_type_v_chars);
     LOGI("[RNLlama] is_model_loaded %s", (is_model_loaded ? "true" : "false"));
     if (is_model_loaded) {
+      if (embedding && llama_model_has_encoder(llama->model) && llama_model_has_decoder(llama->model)) {
+        LOGI("[RNLlama] computing embeddings in encoder-decoder models is not supported");
+        llama_free(llama->ctx);
+        return -1;
+      }
       context_map[(long) llama->ctx] = llama;
     } else {
       llama_free(llama->ctx);
     }
-    env->ReleaseStringUTFChars(model_path_str, model_path_chars);
-    env->ReleaseStringUTFChars(lora_str, lora_chars);
     return reinterpret_cast<jlong>(llama->ctx);
 }
+JNIEXPORT void JNICALL
+Java_com_rnllama_LlamaContext_interruptLoad(
+    JNIEnv *env,
+    jobject thiz,
+    jlong context_ptr
+) {
+    UNUSED(thiz);
+    auto llama = context_map[(long) context_ptr];
+    if (llama) {
+        llama->is_load_interrupted = true;
+    }
+}
 JNIEXPORT jobject JNICALL
 Java_com_rnllama_LlamaContext_loadModelDetails(
     JNIEnv *env,
@@ -397,14 +536,18 @@ Java_com_rnllama_LlamaContext_doCompletion(
     jint top_k,
     jfloat top_p,
     jfloat min_p,
-    jfloat xtc_t,
-    jfloat xtc_p,
-    jfloat tfs_z,
+    jfloat xtc_threshold,
+    jfloat xtc_probability,
     jfloat typical_p,
     jint seed,
     jobjectArray stop,
     jboolean ignore_eos,
     jobjectArray logit_bias,
+    jfloat   dry_multiplier,
+    jfloat   dry_base,
+    jint dry_allowed_length,
+    jint dry_penalty_last_n,
+    jobjectArray dry_sequence_breakers,
     jobject partial_completion_callback
 ) {
     UNUSED(thiz);
@@ -438,18 +581,37 @@ Java_com_rnllama_LlamaContext_doCompletion(
     sparams.top_k = top_k;
     sparams.top_p = top_p;
     sparams.min_p = min_p;
-    sparams.tfs_z = tfs_z;
     sparams.typ_p = typical_p;
     sparams.n_probs = n_probs;
     sparams.grammar = env->GetStringUTFChars(grammar, nullptr);
-    sparams.xtc_t = xtc_t;
-    sparams.xtc_p = xtc_p;
+    sparams.xtc_threshold = xtc_threshold;
+    sparams.xtc_probability = xtc_probability;
+    sparams.dry_multiplier = dry_multiplier;
+    sparams.dry_base = dry_base;
+    sparams.dry_allowed_length = dry_allowed_length;
+    sparams.dry_penalty_last_n = dry_penalty_last_n;
     sparams.logit_bias.clear();
     if (ignore_eos) {
         sparams.logit_bias[llama_token_eos(llama->model)].bias = -INFINITY;
     }
+    // dry break seq
+    jint size = env->GetArrayLength(dry_sequence_breakers);
+    std::vector<std::string> dry_sequence_breakers_vector;
+    for (jint i = 0; i < size; i++) {
+        jstring javaString = (jstring)env->GetObjectArrayElement(dry_sequence_breakers, i);
+        const char *nativeString = env->GetStringUTFChars(javaString, 0);
+        dry_sequence_breakers_vector.push_back(std::string(nativeString));
+        env->ReleaseStringUTFChars(javaString, nativeString);
+        env->DeleteLocalRef(javaString);
+    }
+    sparams.dry_sequence_breakers = dry_sequence_breakers_vector;
+    // logit bias
     const int n_vocab = llama_n_vocab(llama_get_model(llama->ctx));
     jsize logit_bias_len = env->GetArrayLength(logit_bias);
@@ -653,16 +815,27 @@ Java_com_rnllama_LlamaContext_isEmbeddingEnabled(
 JNIEXPORT jobject JNICALL
 Java_com_rnllama_LlamaContext_embedding(
-        JNIEnv *env, jobject thiz, jlong context_ptr, jstring text) {
+        JNIEnv *env, jobject thiz,
+        jlong context_ptr,
+        jstring text,
+        jint embd_normalize
+) {
     UNUSED(thiz);
     auto llama = context_map[(long) context_ptr];
+    common_params embdParams;
+    embdParams.embedding = true;
+    embdParams.embd_normalize = llama->params.embd_normalize;
+    if (embd_normalize != -1) {
+      embdParams.embd_normalize = embd_normalize;
+    }
     const char *text_chars = env->GetStringUTFChars(text, nullptr);
     llama->rewind();
     llama_perf_context_reset(llama->ctx);
     llama->params.prompt = text_chars;
     llama->params.n_predict = 0;
@@ -677,7 +850,7 @@ Java_com_rnllama_LlamaContext_embedding(
     llama->loadPrompt();
     llama->doCompletion();
-    std::vector<float> embedding = llama->getEmbedding();
+    std::vector<float> embedding = llama->getEmbedding(embdParams);
     auto embeddings = createWritableArray(env);
     for (const auto &val : embedding) {
@@ -685,6 +858,12 @@ Java_com_rnllama_LlamaContext_embedding(
     }
     putArray(env, result, "embedding", embeddings);
+    auto promptTokens = createWritableArray(env);
+    for (const auto &tok : llama->embd) {
+      pushString(env, promptTokens, common_token_to_piece(llama->ctx, tok).c_str());
+    }
+    putArray(env, result, "prompt_tokens", promptTokens);
     env->ReleaseStringUTFChars(text, text_chars);
     return result;
 }
@@ -724,4 +903,11 @@ Java_com_rnllama_LlamaContext_freeContext(
     context_map.erase((long) llama->ctx);
 }
+JNIEXPORT void JNICALL
+Java_com_rnllama_LlamaContext_logToAndroid(JNIEnv *env, jobject thiz) {
+    UNUSED(env);
+    UNUSED(thiz);
+    llama_log_set(log_callback, NULL);
+}
 } // extern "C"

package/android/src/newarch/java/com/rnllama/RNLlamaModule.java CHANGED Viewed

@@ -39,8 +39,13 @@ public class RNLlamaModule extends NativeRNLlamaSpec {
   }
   @ReactMethod
-  public void initContext(final ReadableMap params, final Promise promise) {
-    rnllama.initContext(params, promise);
+  public void modelInfo(final String model, final ReadableArray skip, final Promise promise) {
+    rnllama.modelInfo(model, skip, promise);
+  }
+  @ReactMethod
+  public void initContext(double id, final ReadableMap params, final Promise promise) {
+    rnllama.initContext(id, params, promise);
   }
   @ReactMethod
@@ -89,8 +94,8 @@ public class RNLlamaModule extends NativeRNLlamaSpec {
   }
   @ReactMethod
-  public void embedding(double id, final String text, final Promise promise) {
-    rnllama.embedding(id, text, promise);
+  public void embedding(double id, final String text, final ReadableMap params, final Promise promise) {
+    rnllama.embedding(id, text, params, promise);
   }
   @ReactMethod

package/android/src/oldarch/java/com/rnllama/RNLlamaModule.java CHANGED Viewed

@@ -40,8 +40,13 @@ public class RNLlamaModule extends ReactContextBaseJavaModule {
   }
   @ReactMethod
-  public void initContext(final ReadableMap params, final Promise promise) {
-    rnllama.initContext(params, promise);
+  public void modelInfo(final String model, final ReadableArray skip, final Promise promise) {
+    rnllama.modelInfo(model, skip, promise);
+  }
+  @ReactMethod
+  public void initContext(double id, final ReadableMap params, final Promise promise) {
+    rnllama.initContext(id, params, promise);
   }
   @ReactMethod
@@ -90,8 +95,8 @@ public class RNLlamaModule extends ReactContextBaseJavaModule {
   }
   @ReactMethod
-  public void embedding(double id, final String text, final Promise promise) {
-    rnllama.embedding(id, text, promise);
+  public void embedding(double id, final String text, final ReadableMap params, final Promise promise) {
+    rnllama.embedding(id, text, params, promise);
   }
   @ReactMethod