npm - cui-llama.rn - Versions diffs - 1.2.6 → 1.3.3 - Mend

cui-llama.rn 1.2.6 → 1.3.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (75) hide show

package/README.md +3 -2
package/android/src/main/CMakeLists.txt +26 -6
package/android/src/main/java/com/rnllama/LlamaContext.java +115 -27
package/android/src/main/java/com/rnllama/RNLlama.java +40 -7
package/android/src/main/jni.cpp +228 -40
package/android/src/newarch/java/com/rnllama/RNLlamaModule.java +9 -4
package/android/src/oldarch/java/com/rnllama/RNLlamaModule.java +9 -4
package/cpp/amx/amx.cpp +196 -0
package/cpp/amx/amx.h +20 -0
package/cpp/amx/common.h +101 -0
package/cpp/amx/mmq.cpp +2524 -0
package/cpp/amx/mmq.h +16 -0
package/cpp/common.cpp +118 -251
package/cpp/common.h +53 -30
package/cpp/ggml-aarch64.c +46 -3395
package/cpp/ggml-aarch64.h +0 -20
package/cpp/ggml-alloc.c +6 -8
package/cpp/ggml-backend-impl.h +33 -11
package/cpp/ggml-backend-reg.cpp +423 -0
package/cpp/ggml-backend.cpp +14 -676
package/cpp/ggml-backend.h +46 -9
package/cpp/ggml-common.h +6 -0
package/cpp/ggml-cpu-aarch64.c +3823 -0
package/cpp/ggml-cpu-aarch64.h +32 -0
package/cpp/ggml-cpu-impl.h +14 -242
package/cpp/ggml-cpu-quants.c +10835 -0
package/cpp/ggml-cpu-quants.h +63 -0
package/cpp/ggml-cpu.c +13971 -13720
package/cpp/ggml-cpu.cpp +715 -0
package/cpp/ggml-cpu.h +65 -63
package/cpp/ggml-impl.h +285 -25
package/cpp/ggml-metal.h +8 -8
package/cpp/ggml-metal.m +1221 -728
package/cpp/ggml-quants.c +189 -10681
package/cpp/ggml-quants.h +78 -125
package/cpp/ggml-threading.cpp +12 -0
package/cpp/ggml-threading.h +12 -0
package/cpp/ggml.c +688 -1460
package/cpp/ggml.h +58 -244
package/cpp/json-schema-to-grammar.cpp +1045 -1045
package/cpp/json.hpp +24766 -24766
package/cpp/llama-sampling.cpp +5 -2
package/cpp/llama.cpp +409 -123
package/cpp/llama.h +8 -4
package/cpp/rn-llama.hpp +89 -25
package/cpp/sampling.cpp +42 -3
package/cpp/sampling.h +22 -1
package/cpp/sgemm.cpp +608 -0
package/cpp/speculative.cpp +270 -0
package/cpp/speculative.h +28 -0
package/cpp/unicode.cpp +11 -0
package/ios/RNLlama.mm +43 -20
package/ios/RNLlamaContext.h +9 -3
package/ios/RNLlamaContext.mm +146 -33
package/jest/mock.js +0 -1
package/lib/commonjs/NativeRNLlama.js.map +1 -1
package/lib/commonjs/grammar.js +4 -2
package/lib/commonjs/grammar.js.map +1 -1
package/lib/commonjs/index.js +52 -15
package/lib/commonjs/index.js.map +1 -1
package/lib/module/NativeRNLlama.js.map +1 -1
package/lib/module/grammar.js +2 -1
package/lib/module/grammar.js.map +1 -1
package/lib/module/index.js +51 -15
package/lib/module/index.js.map +1 -1
package/lib/typescript/NativeRNLlama.d.ts +122 -8
package/lib/typescript/NativeRNLlama.d.ts.map +1 -1
package/lib/typescript/grammar.d.ts +5 -6
package/lib/typescript/grammar.d.ts.map +1 -1
package/lib/typescript/index.d.ts +15 -6
package/lib/typescript/index.d.ts.map +1 -1
package/package.json +2 -1
package/src/NativeRNLlama.ts +135 -13
package/src/grammar.ts +10 -8
package/src/index.ts +104 -28

package/cpp/ggml-backend.h CHANGED Viewed

@@ -3,6 +3,20 @@
 #include "ggml.h"
 #include "ggml-alloc.h"
+#ifdef LM_GGML_BACKEND_SHARED
+#    if defined(_WIN32) && !defined(__MINGW32__)
+#        ifdef LM_GGML_BACKEND_BUILD
+#            define LM_GGML_BACKEND_API __declspec(dllexport) extern
+#        else
+#            define LM_GGML_BACKEND_API __declspec(dllimport) extern
+#        endif
+#    else
+#        define LM_GGML_BACKEND_API __attribute__ ((visibility ("default"))) extern
+#    endif
+#else
+#    define LM_GGML_BACKEND_API extern
+#endif
 #ifdef  __cplusplus
 extern "C" {
 #endif
@@ -72,7 +86,7 @@ extern "C" {
     LM_GGML_API void lm_ggml_backend_tensor_set_async(lm_ggml_backend_t backend,       struct lm_ggml_tensor * tensor, const void * data, size_t offset, size_t size);
     LM_GGML_API void lm_ggml_backend_tensor_get_async(lm_ggml_backend_t backend, const struct lm_ggml_tensor * tensor,       void * data, size_t offset, size_t size);
-    // "offset" refers to the offset of the tensor data for setting/getting data
+    // "offset" refers to the offset in tensor->data for setting/getting data
     LM_GGML_API void lm_ggml_backend_tensor_set(      struct lm_ggml_tensor * tensor, const void * data, size_t offset, size_t size);
     LM_GGML_API void lm_ggml_backend_tensor_get(const struct lm_ggml_tensor * tensor,       void * data, size_t offset, size_t size);
     LM_GGML_API void lm_ggml_backend_tensor_memset(   struct lm_ggml_tensor * tensor,     uint8_t value, size_t offset, size_t size);
@@ -176,6 +190,14 @@ extern "C" {
     typedef void                         (*lm_ggml_backend_set_n_threads_t)(lm_ggml_backend_t backend, int n_threads);
     // Get additional buffer types provided by the device (returns a NULL-terminated array)
     typedef lm_ggml_backend_buffer_type_t * (*lm_ggml_backend_dev_get_extra_bufts_t)(lm_ggml_backend_dev_t device);
+    // Set the abort callback for the backend
+    typedef void                         (*lm_ggml_backend_set_abort_callback_t)(lm_ggml_backend_t backend, lm_ggml_abort_callback abort_callback, void * abort_callback_data);
+    // Get a list of feature flags supported by the backend (returns a NULL-terminated array)
+    struct lm_ggml_backend_feature {
+        const char * name;
+        const char * value;
+    };
+    typedef struct lm_ggml_backend_feature * (*lm_ggml_backend_get_features_t)(lm_ggml_backend_reg_t reg);
     //
     // Backend registry
@@ -200,6 +222,13 @@ extern "C" {
     // = lm_ggml_backend_dev_init(lm_ggml_backend_dev_by_type(GPU) OR lm_ggml_backend_dev_by_type(CPU), NULL)
     LM_GGML_API lm_ggml_backend_t lm_ggml_backend_init_best(void);
+    // Load a backend from a dynamic library and register it
+    LM_GGML_API lm_ggml_backend_reg_t lm_ggml_backend_load(const char * path);
+    // Unload a backend if loaded dynamically and unregister it
+    LM_GGML_API void               lm_ggml_backend_unload(lm_ggml_backend_reg_t reg);
+    // Load all known backends from dynamic libraries
+    LM_GGML_API void               lm_ggml_backend_load_all(void);
     //
     // Backend scheduler
     //
@@ -228,14 +257,20 @@ extern "C" {
         lm_ggml_backend_sched_reserve(sched, reserve_graph);
         // compute
-        graph = build_graph(sched);
-        lm_ggml_backend_sched_graph_compute(sched, graph);
+        graph = build_graph(sched); // the graph and its tensors are single-use in terms of allocation, multi-use in terms of computation
+        for (int i = 0; i < 10; ++i) {
+            lm_ggml_backend_sched_graph_compute(sched, graph); // on the first iteration the graph is allocated automatically
+        }
         // if there are graph inputs:
-        lm_ggml_backend_sched_reset(sched);
-        lm_ggml_backend_sched_alloc_graph(sched, graph);
-        lm_ggml_backend_tensor_set(input_tensor, ...);
-        lm_ggml_backend_sched_graph_compute(sched, graph);
+        graph = build_graph(sched); // get a new graph that is not allocated (the metadata for the old graph is freed once lm_ggml_free is called)
+        lm_ggml_backend_sched_reset(sched); // clear the allocation of the previous graph
+        lm_ggml_backend_sched_alloc_graph(sched, graph); // explicitly allocate the new graph but do not execute it
+        lm_ggml_backend_tensor_set(input_tensor, ...); // copy data to the newly allocated graph tensors
+        lm_ggml_backend_sched_graph_compute(sched, graph); // execute the graph
+        // as an alternative to the above it is also possible to assign the inputs to a dedicated context and
+        // allocate them statically via lm_ggml_backend_alloc_ctx_tensors
     }
     */
@@ -250,7 +285,7 @@ extern "C" {
     //
     typedef bool (*lm_ggml_backend_sched_eval_callback)(struct lm_ggml_tensor * t, bool ask, void * user_data);
-    // Initialize a backend scheduler
+    // Initialize a backend scheduler, backends with low index are given priority over backends with high index
     LM_GGML_API lm_ggml_backend_sched_t lm_ggml_backend_sched_new(lm_ggml_backend_t * backends, lm_ggml_backend_buffer_type_t * bufts, int n_backends, size_t graph_size, bool parallel);
     LM_GGML_API void                 lm_ggml_backend_sched_free(lm_ggml_backend_sched_t sched);
@@ -275,7 +310,9 @@ extern "C" {
     LM_GGML_API enum lm_ggml_status     lm_ggml_backend_sched_graph_compute_async(lm_ggml_backend_sched_t sched, struct lm_ggml_cgraph * graph);
     LM_GGML_API void                 lm_ggml_backend_sched_synchronize(lm_ggml_backend_sched_t sched);
-    // Reset all assignments and allocators - must be called before changing the node backends
+    // Reset all assignments and allocators - must be called before changing the node backends or allocating a new graph.
+    // This in effect deallocates all tensors that were previously allocated and leaves them with dangling pointers.
+    // The correct way to use this API is to discard the deallocated tensors and create new ones.
     LM_GGML_API void                 lm_ggml_backend_sched_reset(lm_ggml_backend_sched_t sched);
     // Set a callback to be called for each resulting node during graph compute

package/cpp/ggml-common.h CHANGED Viewed

@@ -418,6 +418,12 @@ typedef struct {
 } block_iq4_xs;
 static_assert(sizeof(block_iq4_xs) == sizeof(lm_ggml_half) + sizeof(uint16_t) + QK_K/64 + QK_K/2, "wrong iq4_xs block size/padding");
+typedef struct {
+    lm_ggml_half d[4];        // deltas for 4 iq4_nl blocks
+    uint8_t qs[QK4_NL * 2];// nibbles / quants for 4 iq4_nl blocks
+} block_iq4_nlx4;
+static_assert(sizeof(block_iq4_nlx4) == 4 * sizeof(lm_ggml_half) + QK4_NL * 2, "wrong iq4_nlx4 block size/padding");
 #endif // LM_GGML_COMMON_DECL
 #endif // LM_GGML_COMMON_DECL