npm - cui-llama.rn - Versions diffs - 1.4.6 → 1.5.0 - Mend

cui-llama.rn 1.4.6 → 1.5.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (80) hide show

package/android/src/main/CMakeLists.txt +9 -2
package/android/src/main/jni.cpp +52 -34
package/android/src/main/jniLibs/arm64-v8a/librnllama.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2_dotprod.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2_dotprod_i8mm.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2_i8mm.so +0 -0
package/android/src/main/jniLibs/x86_64/librnllama.so +0 -0
package/android/src/main/jniLibs/x86_64/librnllama_x86_64.so +0 -0
package/cpp/binary-ops.cpp +158 -0
package/cpp/binary-ops.h +16 -0
package/cpp/chat.cpp +1769 -1779
package/cpp/chat.h +9 -1
package/cpp/common.cpp +20 -522
package/cpp/common.h +13 -36
package/cpp/cpu-common.h +72 -0
package/cpp/ggml-common.h +12 -6
package/cpp/ggml-cpu-aarch64.cpp +1557 -80
package/cpp/ggml-cpu-impl.h +2 -21
package/cpp/ggml-cpu-quants.c +904 -405
package/cpp/ggml-cpu.c +909 -13237
package/cpp/ggml-impl.h +50 -23
package/cpp/ggml-metal-impl.h +77 -3
package/cpp/ggml-metal.m +794 -580
package/cpp/ggml.c +92 -3
package/cpp/ggml.h +29 -5
package/cpp/gguf.cpp +1 -0
package/cpp/llama-adapter.cpp +55 -20
package/cpp/llama-adapter.h +11 -9
package/cpp/llama-arch.cpp +217 -16
package/cpp/llama-arch.h +25 -0
package/cpp/llama-batch.h +2 -2
package/cpp/llama-chat.cpp +54 -2
package/cpp/llama-chat.h +3 -0
package/cpp/llama-context.cpp +2294 -1238
package/cpp/llama-context.h +214 -77
package/cpp/llama-cparams.h +1 -0
package/cpp/llama-graph.cpp +1695 -0
package/cpp/llama-graph.h +592 -0
package/cpp/llama-hparams.cpp +8 -0
package/cpp/llama-hparams.h +17 -0
package/cpp/llama-io.cpp +15 -0
package/cpp/llama-io.h +35 -0
package/cpp/llama-kv-cache.cpp +965 -303
package/cpp/llama-kv-cache.h +145 -151
package/cpp/llama-memory.cpp +1 -0
package/cpp/llama-memory.h +21 -0
package/cpp/llama-mmap.cpp +1 -1
package/cpp/llama-model-loader.cpp +10 -5
package/cpp/llama-model-loader.h +5 -3
package/cpp/llama-model.cpp +9194 -201
package/cpp/llama-model.h +40 -1
package/cpp/llama-sampling.cpp +5 -0
package/cpp/llama-vocab.cpp +36 -5
package/cpp/llama.cpp +51 -9984
package/cpp/llama.h +102 -22
package/cpp/log.cpp +34 -0
package/cpp/minja/chat-template.hpp +15 -7
package/cpp/minja/minja.hpp +120 -94
package/cpp/ops.cpp +8723 -0
package/cpp/ops.h +128 -0
package/cpp/rn-llama.cpp +44 -53
package/cpp/rn-llama.h +2 -12
package/cpp/sampling.cpp +3 -0
package/cpp/sgemm.cpp +533 -88
package/cpp/simd-mappings.h +888 -0
package/cpp/speculative.cpp +4 -4
package/cpp/unary-ops.cpp +186 -0
package/cpp/unary-ops.h +28 -0
package/cpp/vec.cpp +258 -0
package/cpp/vec.h +802 -0
package/ios/CMakeLists.txt +5 -2
package/ios/RNLlama.mm +2 -2
package/ios/RNLlamaContext.mm +40 -24
package/package.json +1 -1
package/src/NativeRNLlama.ts +6 -4
package/src/index.ts +3 -1
package/cpp/chat-template.hpp +0 -529
package/cpp/minja.hpp +0 -2915

package/cpp/ggml-impl.h CHANGED Viewed

@@ -16,14 +16,6 @@
 #include <arm_sve.h>
 #endif // __ARM_FEATURE_SVE
-#if defined(__ARM_NEON) && !defined(__CUDACC__) && !defined(__MUSACC__)
-// if YCM cannot find <arm_neon.h>, make a symbolic link to it, for example:
-//
-//   $ ln -sfn /Library/Developer/CommandLineTools/usr/lib/clang/13.1.6/include/arm_neon.h ./src/
-//
-#include <arm_neon.h>
-#endif
 #if defined(__F16C__)
 #include <immintrin.h>
 #endif
@@ -311,29 +303,35 @@ LM_GGML_API void lm_ggml_aligned_free(void * ptr, size_t size);
 // FP16 to FP32 conversion
-#if defined(__ARM_NEON)
-    #if defined(_MSC_VER) || (defined(__CUDACC__) && __CUDACC_VER_MAJOR__ <= 11)
-        typedef uint16_t lm_ggml_fp16_internal_t;
-    #else
-        typedef __fp16 lm_ggml_fp16_internal_t;
-    #endif
-#endif
+// 16-bit float
+// on Arm, we use __fp16
+// on x86, we use uint16_t
+//
+// for old CUDA compilers (<= 11), we use uint16_t: ref https://github.com/ggml-org/llama.cpp/pull/10616
+// for     MUSA compilers        , we use uint16_t: ref https://github.com/ggml-org/llama.cpp/pull/11843
+//
+#if defined(__ARM_NEON) && !(defined(__CUDACC__) && __CUDACC_VER_MAJOR__ <= 11) && !defined(__MUSACC__)
+    // if YCM cannot find <arm_neon.h>, make a symbolic link to it, for example:
+    //
+    //   $ ln -sfn /Library/Developer/CommandLineTools/usr/lib/clang/13.1.6/include/arm_neon.h ./src/
+    //
+    #include <arm_neon.h>
-#if defined(__ARM_NEON) && !defined(_MSC_VER) && !(defined(__CUDACC__) && __CUDACC_VER_MAJOR__ <= 11)
     #define LM_GGML_COMPUTE_FP16_TO_FP32(x) lm_ggml_compute_fp16_to_fp32(x)
     #define LM_GGML_COMPUTE_FP32_TO_FP16(x) lm_ggml_compute_fp32_to_fp16(x)
     #define LM_GGML_FP16_TO_FP32(x) lm_ggml_compute_fp16_to_fp32(x)
     static inline float lm_ggml_compute_fp16_to_fp32(lm_ggml_fp16_t h) {
-        lm_ggml_fp16_internal_t tmp;
+        __fp16 tmp;
         memcpy(&tmp, &h, sizeof(lm_ggml_fp16_t));
         return (float)tmp;
     }
     static inline lm_ggml_fp16_t lm_ggml_compute_fp32_to_fp16(float f) {
         lm_ggml_fp16_t res;
-        lm_ggml_fp16_internal_t tmp = f;
+        __fp16 tmp = f;
         memcpy(&res, &tmp, sizeof(lm_ggml_fp16_t));
         return res;
     }
@@ -357,8 +355,8 @@ LM_GGML_API void lm_ggml_aligned_free(void * ptr, size_t size);
     #define LM_GGML_FP32_TO_FP16(x) LM_GGML_COMPUTE_FP32_TO_FP16(x)
     static inline float lm_ggml_compute_fp16_to_fp32(lm_ggml_fp16_t h) {
-        register float f;
-        register double d;
+        float f;
+        double d;
         __asm__(
             "mtfprd %0,%2\n"
             "xscvhpdp %0,%0\n"
@@ -370,8 +368,8 @@ LM_GGML_API void lm_ggml_aligned_free(void * ptr, size_t size);
     }
     static inline lm_ggml_fp16_t lm_ggml_compute_fp32_to_fp16(float f) {
-        register double d;
-        register lm_ggml_fp16_t r;
+        double d;
+        lm_ggml_fp16_t r;
         __asm__( /* xscvdphp can work on double or single precision */
             "xscvdphp %0,%2\n"
             "mffprd %1,%0\n" :
@@ -381,6 +379,35 @@ LM_GGML_API void lm_ggml_aligned_free(void * ptr, size_t size);
         return r;
     }
+#elif defined(__riscv) && defined(LM_GGML_RV_ZFH)
+    static inline float lm_ggml_compute_fp16_to_fp32(lm_ggml_fp16_t h) {
+        float f;
+        __asm__(
+            "fmv.h.x %[f], %[h]\n\t"
+            "fcvt.s.h %[f], %[f]"
+            : [f] "=&f" (f)
+            : [h] "r" (h)
+        );
+        return f;
+    }
+    static inline lm_ggml_fp16_t lm_ggml_compute_fp32_to_fp16(float f) {
+        lm_ggml_fp16_t res;
+        __asm__(
+            "fcvt.h.s %[f], %[f]\n\t"
+            "fmv.x.h %[h], %[f]"
+            : [h] "=&r" (res)
+            : [f] "f" (f)
+        );
+        return res;
+    }
+    #define LM_GGML_COMPUTE_FP16_TO_FP32(x) lm_ggml_compute_fp16_to_fp32(x)
+    #define LM_GGML_COMPUTE_FP32_TO_FP16(x) lm_ggml_compute_fp32_to_fp16(x)
+    #define LM_GGML_FP16_TO_FP32(x) LM_GGML_COMPUTE_FP16_TO_FP32(x)
+    #define LM_GGML_FP32_TO_FP16(x) LM_GGML_COMPUTE_FP32_TO_FP16(x)
 #else
     // FP16 <-> FP32
@@ -456,7 +483,7 @@ LM_GGML_API void lm_ggml_aligned_free(void * ptr, size_t size);
     #define LM_GGML_COMPUTE_FP16_TO_FP32(x) lm_ggml_compute_fp16_to_fp32(x)
     #define LM_GGML_COMPUTE_FP32_TO_FP16(x) lm_ggml_compute_fp32_to_fp16(x)
-#endif // defined(__ARM_NEON) && (!defined(__MSC_VER)
+#endif // defined(__ARM_NEON) && !(defined(__CUDACC__) && __CUDACC_VER_MAJOR__ <= 11) && !defined(__MUSACC__)
 // precomputed f32 table for f16 (256 KB)
 // defined in ggml.c, initialized in lm_ggml_init()

package/cpp/ggml-metal-impl.h CHANGED Viewed

@@ -1,6 +1,70 @@
 #ifndef GGML_METAL_IMPL
 #define GGML_METAL_IMPL
+// kernel parameters for mat-vec threadgroups
+//
+// N_R0: number of src0 rows to process per simdgroup
+// N_SG: number of simdgroups per threadgroup
+//
+// TODO: for optimal performance, become function of the device and work size
+#define N_R0_Q4_0 4
+#define N_SG_Q4_0 2
+#define N_R0_Q4_1 4
+#define N_SG_Q4_1 2
+#define N_R0_Q5_0 4
+#define N_SG_Q5_0 2
+#define N_R0_Q5_1 4
+#define N_SG_Q5_1 2
+#define N_R0_Q8_0 4
+#define N_SG_Q8_0 2
+#define N_R0_Q2_K 4
+#define N_SG_Q2_K 2
+#define N_R0_Q3_K 2
+#define N_SG_Q3_K 2
+#define N_R0_Q4_K 4
+#define N_SG_Q4_K 2
+#define N_R0_Q5_K 2
+#define N_SG_Q5_K 2
+#define N_R0_Q6_K 1
+#define N_SG_Q6_K 2
+#define N_R0_IQ1_S 4
+#define N_SG_IQ1_S 2
+#define N_R0_IQ1_M 4
+#define N_SG_IQ1_M 2
+#define N_R0_IQ2_XXS 4
+#define N_SG_IQ2_XXS 2
+#define N_R0_IQ2_XS 4
+#define N_SG_IQ2_XS 2
+#define N_R0_IQ2_S 4
+#define N_SG_IQ2_S 2
+#define N_R0_IQ3_XXS 4
+#define N_SG_IQ3_XXS 2
+#define N_R0_IQ3_S 4
+#define N_SG_IQ3_S 2
+#define N_R0_IQ4_NL 2
+#define N_SG_IQ4_NL 2
+#define N_R0_IQ4_XS 2
+#define N_SG_IQ4_XS 2
 // kernel argument structs
 //
 // - element counters (e.g. ne00) typically use int32_t to reduce register usage
@@ -155,9 +219,12 @@ typedef struct {
     int32_t  ne11;
     int32_t  ne_12_2; // assume K and V are same shape
     int32_t  ne_12_3;
-    uint64_t nb_12_1;
-    uint64_t nb_12_2;
-    uint64_t nb_12_3;
+    uint64_t nb11;
+    uint64_t nb12;
+    uint64_t nb13;
+    uint64_t nb21;
+    uint64_t nb22;
+    uint64_t nb23;
     uint64_t nb31;
     int32_t  ne1;
     int32_t  ne2;
@@ -285,6 +352,13 @@ typedef struct {
     float    eps;
 } ggml_metal_kargs_rms_norm;
+typedef struct {
+    int32_t  ne00;
+    int32_t  ne00_4;
+    uint64_t nb01;
+    float    eps;
+} ggml_metal_kargs_l2_norm;
 typedef struct {
     int64_t  ne00;
     int64_t  ne01;