npm - cui-llama.rn - Versions diffs - 1.1.6 → 1.2.0 - Mend

cui-llama.rn 1.1.6 → 1.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (34) hide show

package/android/src/main/java/com/rnllama/LlamaContext.java +11 -3
package/android/src/main/jni.cpp +28 -4
package/cpp/common.cpp +3 -0
package/cpp/common.h +2 -0
package/cpp/ggml-aarch64.c +1794 -1368
package/cpp/ggml-alloc.c +6 -0
package/cpp/ggml-backend-impl.h +10 -9
package/cpp/ggml-backend.c +25 -0
package/cpp/ggml-backend.h +2 -1
package/cpp/ggml-cpu-impl.h +614 -0
package/cpp/ggml-impl.h +13 -609
package/cpp/ggml-metal.m +1 -0
package/cpp/ggml-quants.c +1 -0
package/cpp/ggml.c +457 -144
package/cpp/ggml.h +37 -8
package/cpp/llama-impl.h +2 -0
package/cpp/llama-sampling.cpp +7 -5
package/cpp/llama-vocab.cpp +1 -5
package/cpp/llama-vocab.h +9 -5
package/cpp/llama.cpp +202 -30
package/cpp/llama.h +2 -0
package/cpp/log.cpp +1 -1
package/cpp/log.h +2 -0
package/cpp/sampling.cpp +9 -1
package/cpp/sgemm.cpp +1 -0
package/cpp/unicode.cpp +1 -0
package/lib/commonjs/index.js +8 -1
package/lib/commonjs/index.js.map +1 -1
package/lib/module/index.js +8 -1
package/lib/module/index.js.map +1 -1
package/lib/typescript/index.d.ts +1 -1
package/lib/typescript/index.d.ts.map +1 -1
package/package.json +1 -1
package/src/index.ts +18 -4

package/android/src/main/java/com/rnllama/LlamaContext.java CHANGED Viewed

@@ -71,6 +71,7 @@ public class LlamaContext {
     }
     this.id = id;
+    eventEmitter = reactContext.getJSModule(DeviceEventManagerModule.RCTDeviceEventEmitter.class);
     this.context = initContext(
       // String model,
       params.getString("model"),
@@ -97,11 +98,11 @@ public class LlamaContext {
       // float rope_freq_base,
       params.hasKey("rope_freq_base") ? (float) params.getDouble("rope_freq_base") : 0.0f,
       // float rope_freq_scale
-      params.hasKey("rope_freq_scale") ? (float) params.getDouble("rope_freq_scale") : 0.0f
+      params.hasKey("rope_freq_scale") ? (float) params.getDouble("rope_freq_scale") : 0.0f,
+      this
     );
     this.modelDetails = loadModelDetails(this.context);
     this.reactContext = reactContext;
-    eventEmitter = reactContext.getJSModule(DeviceEventManagerModule.RCTDeviceEventEmitter.class);
   }
   public long getContext() {
@@ -352,6 +353,12 @@ public class LlamaContext {
     }
   }
+  public void emitModelProgressUpdate(int progress) {
+    WritableMap event = Arguments.createMap();
+    event.putInt("progress", progress);
+    eventEmitter.emit("@RNLlama_onModelProgress", event);
+  }
   protected static native long initContext(
     String model,
     boolean embedding,
@@ -365,7 +372,8 @@ public class LlamaContext {
     String lora,
     float lora_scaled,
     float rope_freq_base,
-    float rope_freq_scale
+    float rope_freq_scale,
+    LlamaContext javaLlamaContext
   );
   protected static native WritableMap loadModelDetails(
     long contextPtr

package/android/src/main/jni.cpp CHANGED Viewed

@@ -128,6 +128,13 @@ static inline void putArray(JNIEnv *env, jobject map, const char *key, jobject v
 std::unordered_map<long, rnllama::llama_rn_context *> context_map;
+struct CallbackContext {
+    JNIEnv * env;
+    jobject  thiz;
+    jmethodID sendProgressMethod;
+    unsigned current;
+};
 JNIEXPORT jlong JNICALL
 Java_com_rnllama_LlamaContext_initContext(
     JNIEnv *env,
@@ -144,7 +151,8 @@ Java_com_rnllama_LlamaContext_initContext(
     jstring lora_str,
     jfloat lora_scaled,
     jfloat rope_freq_base,
-    jfloat rope_freq_scale
+    jfloat rope_freq_scale,
+    jobject javaLlamaContext
 ) {
     UNUSED(thiz);
@@ -169,7 +177,7 @@ Java_com_rnllama_LlamaContext_initContext(
     defaultParams.cpuparams.n_threads = n_threads > 0 ? n_threads : default_n_threads;
     defaultParams.n_gpu_layers = n_gpu_layers;
     defaultParams.use_mlock = use_mlock;
     defaultParams.use_mmap = use_mmap;
@@ -182,6 +190,24 @@ Java_com_rnllama_LlamaContext_initContext(
     defaultParams.rope_freq_base = rope_freq_base;
     defaultParams.rope_freq_scale = rope_freq_scale;
+    // progress callback when loading
+    jclass llamaContextClass = env->GetObjectClass(javaLlamaContext);
+    jmethodID sendProgressMethod = env->GetMethodID(llamaContextClass, "emitModelProgressUpdate", "(I)V");
+    CallbackContext callbackctx = {env, javaLlamaContext, sendProgressMethod, 0};
+    defaultParams.progress_callback_user_data = &callbackctx;
+    defaultParams.progress_callback = [](float progress, void * ctx) {
+        unsigned percentage = (unsigned) (100 * progress);
+        CallbackContext * cbctx = static_cast<CallbackContext*>(ctx);
+        // reduce call frequency by only calling method when value changes
+        if (percentage <= cbctx->current) return true;
+        cbctx->current = percentage;
+        cbctx->env->CallVoidMethod(cbctx->thiz, cbctx->sendProgressMethod, percentage);
+        return true;
+    };
     auto llama = new rnllama::llama_rn_context();
     bool is_model_loaded = llama->loadModel(defaultParams);
@@ -636,9 +662,7 @@ Java_com_rnllama_LlamaContext_embedding(
     llama->rewind();
     llama_perf_context_reset(llama->ctx);
-    gpt_sampler_reset(llama->ctx_sampling);
     llama->params.prompt = text_chars;
     llama->params.n_predict = 0;

package/cpp/common.cpp CHANGED Viewed

@@ -954,6 +954,9 @@ struct llama_model_params llama_model_params_from_gpt_params(const gpt_params &
     if (params.n_gpu_layers != -1) {
         mparams.n_gpu_layers = params.n_gpu_layers;
     }
+    mparams.progress_callback_user_data = params.progress_callback_user_data;
+    mparams.progress_callback = params.progress_callback;
     mparams.vocab_only      = params.vocab_only;
     mparams.rpc_servers     = params.rpc_servers.c_str();
     mparams.main_gpu        = params.main_gpu;

package/cpp/common.h CHANGED Viewed

@@ -158,6 +158,8 @@ struct gpt_sampler_params {
 struct gpt_params {
+    void * progress_callback_user_data        = nullptr;
+    llama_progress_callback progress_callback = nullptr;
     bool vocab_only               = false;
     int32_t n_predict             =    -1; // new tokens to predict
     int32_t n_ctx                 =     0; // context size