npm - cui-llama.rn - Versions diffs - 1.4.3 → 1.4.6 - Mend

cui-llama.rn 1.4.3 → 1.4.6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (134) hide show

package/README.md +93 -114
package/android/src/main/CMakeLists.txt +5 -0
package/android/src/main/java/com/rnllama/LlamaContext.java +91 -17
package/android/src/main/java/com/rnllama/RNLlama.java +37 -4
package/android/src/main/jni-utils.h +6 -0
package/android/src/main/jni.cpp +289 -31
package/android/src/main/jniLibs/arm64-v8a/librnllama.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2_dotprod.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2_dotprod_i8mm.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2_i8mm.so +0 -0
package/android/src/main/jniLibs/x86_64/librnllama.so +0 -0
package/android/src/main/jniLibs/x86_64/librnllama_x86_64.so +0 -0
package/android/src/newarch/java/com/rnllama/RNLlamaModule.java +7 -2
package/android/src/oldarch/java/com/rnllama/RNLlamaModule.java +7 -2
package/cpp/chat-template.hpp +529 -0
package/cpp/chat.cpp +1779 -0
package/cpp/chat.h +135 -0
package/cpp/common.cpp +2064 -1873
package/cpp/common.h +700 -699
package/cpp/ggml-alloc.c +1039 -1042
package/cpp/ggml-alloc.h +1 -1
package/cpp/ggml-backend-impl.h +255 -255
package/cpp/ggml-backend-reg.cpp +586 -582
package/cpp/ggml-backend.cpp +2004 -2002
package/cpp/ggml-backend.h +354 -354
package/cpp/ggml-common.h +1851 -1853
package/cpp/ggml-cpp.h +39 -39
package/cpp/ggml-cpu-aarch64.cpp +4248 -4247
package/cpp/ggml-cpu-aarch64.h +8 -8
package/cpp/ggml-cpu-impl.h +531 -386
package/cpp/ggml-cpu-quants.c +12527 -10920
package/cpp/ggml-cpu-traits.cpp +36 -36
package/cpp/ggml-cpu-traits.h +38 -38
package/cpp/ggml-cpu.c +15766 -14391
package/cpp/ggml-cpu.cpp +655 -635
package/cpp/ggml-cpu.h +138 -135
package/cpp/ggml-impl.h +567 -567
package/cpp/ggml-metal-impl.h +235 -0
package/cpp/ggml-metal.h +1 -1
package/cpp/ggml-metal.m +5146 -4884
package/cpp/ggml-opt.cpp +854 -854
package/cpp/ggml-opt.h +216 -216
package/cpp/ggml-quants.c +5238 -5238
package/cpp/ggml-threading.h +14 -14
package/cpp/ggml.c +6529 -6514
package/cpp/ggml.h +2198 -2194
package/cpp/gguf.cpp +1329 -1329
package/cpp/gguf.h +202 -202
package/cpp/json-schema-to-grammar.cpp +1024 -1045
package/cpp/json-schema-to-grammar.h +21 -8
package/cpp/json.hpp +24766 -24766
package/cpp/llama-adapter.cpp +347 -347
package/cpp/llama-adapter.h +74 -74
package/cpp/llama-arch.cpp +1513 -1487
package/cpp/llama-arch.h +403 -400
package/cpp/llama-batch.cpp +368 -368
package/cpp/llama-batch.h +88 -88
package/cpp/llama-chat.cpp +588 -578
package/cpp/llama-chat.h +53 -52
package/cpp/llama-context.cpp +1775 -1775
package/cpp/llama-context.h +128 -128
package/cpp/llama-cparams.cpp +1 -1
package/cpp/llama-cparams.h +37 -37
package/cpp/llama-cpp.h +30 -30
package/cpp/llama-grammar.cpp +1219 -1139
package/cpp/llama-grammar.h +173 -143
package/cpp/llama-hparams.cpp +71 -71
package/cpp/llama-hparams.h +139 -139
package/cpp/llama-impl.cpp +167 -167
package/cpp/llama-impl.h +61 -61
package/cpp/llama-kv-cache.cpp +718 -718
package/cpp/llama-kv-cache.h +219 -218
package/cpp/llama-mmap.cpp +600 -590
package/cpp/llama-mmap.h +68 -67
package/cpp/llama-model-loader.cpp +1124 -1124
package/cpp/llama-model-loader.h +167 -167
package/cpp/llama-model.cpp +4087 -3997
package/cpp/llama-model.h +370 -370
package/cpp/llama-sampling.cpp +2558 -2408
package/cpp/llama-sampling.h +32 -32
package/cpp/llama-vocab.cpp +3264 -3247
package/cpp/llama-vocab.h +125 -125
package/cpp/llama.cpp +10284 -10077
package/cpp/llama.h +1354 -1323
package/cpp/log.cpp +393 -401
package/cpp/log.h +132 -121
package/cpp/minja/chat-template.hpp +529 -0
package/cpp/minja/minja.hpp +2915 -0
package/cpp/minja.hpp +2915 -0
package/cpp/rn-llama.cpp +66 -6
package/cpp/rn-llama.h +26 -1
package/cpp/sampling.cpp +570 -505
package/cpp/sampling.h +3 -0
package/cpp/sgemm.cpp +2598 -2597
package/cpp/sgemm.h +14 -14
package/cpp/speculative.cpp +278 -277
package/cpp/speculative.h +28 -28
package/cpp/unicode.cpp +9 -2
package/ios/CMakeLists.txt +6 -0
package/ios/RNLlama.h +0 -8
package/ios/RNLlama.mm +27 -3
package/ios/RNLlamaContext.h +10 -1
package/ios/RNLlamaContext.mm +269 -57
package/jest/mock.js +21 -2
package/lib/commonjs/NativeRNLlama.js.map +1 -1
package/lib/commonjs/grammar.js +3 -0
package/lib/commonjs/grammar.js.map +1 -1
package/lib/commonjs/index.js +87 -13
package/lib/commonjs/index.js.map +1 -1
package/lib/module/NativeRNLlama.js.map +1 -1
package/lib/module/grammar.js +3 -0
package/lib/module/grammar.js.map +1 -1
package/lib/module/index.js +86 -13
package/lib/module/index.js.map +1 -1
package/lib/typescript/NativeRNLlama.d.ts +107 -2
package/lib/typescript/NativeRNLlama.d.ts.map +1 -1
package/lib/typescript/grammar.d.ts.map +1 -1
package/lib/typescript/index.d.ts +32 -7
package/lib/typescript/index.d.ts.map +1 -1
package/llama-rn.podspec +1 -1
package/package.json +3 -2
package/src/NativeRNLlama.ts +115 -3
package/src/grammar.ts +3 -0
package/src/index.ts +138 -21
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CMakeCCompiler.cmake +0 -81
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CMakeSystem.cmake +0 -15
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CompilerIdC/CMakeCCompilerId.c +0 -904
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CompilerIdC/CMakeCCompilerId.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CompilerIdCXX/CMakeCXXCompilerId.cpp +0 -919
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CompilerIdCXX/CMakeCXXCompilerId.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/CMakeConfigureLog.yaml +0 -55
package/cpp/rn-llama.hpp +0 -913

package/cpp/llama-batch.h CHANGED Viewed

@@ -1,88 +1,88 @@
-#pragma once
-#include "llama.h"
-#include <array>
-#include <vector>
-// very similar to llama_batch,
-// but has more metadata about sequences
-struct llama_ubatch {
-    bool equal_seqs;
-    // TODO: whole_seqs for embeddings?
-    uint32_t n_tokens; // total tokens (n_seq_tokens * n_seqs)
-    uint32_t n_seq_tokens; // tokens per sequence
-    uint32_t n_seqs;
-    llama_token  *  token;    // [n_tokens]
-    float        *  embd;     // [n_embd, n_tokens]
-    llama_pos    *  pos;      // [n_tokens]
-    int32_t      *  n_seq_id; // [n_seqs]
-    llama_seq_id ** seq_id;   // [n_seqs]
-    int8_t       *  output;   // [n_tokens]
-};
-struct llama_sbatch_seq {
-    int32_t n_seq_id;
-    llama_seq_id * seq_id;
-    size_t offset;
-    size_t length;
-};
-// sequence-length-aware batch splitting
-struct llama_sbatch {
-    // tokens left in this batch
-    size_t n_tokens;
-    size_t n_embd;
-    bool logits_all; // TODO: remove once lctx.logits_all is removed too
-    // sorted indices into the batch
-    std::vector<size_t> ids;
-    // batch indices of the output
-    std::vector<size_t> out_ids;
-    std::vector<llama_sbatch_seq> seq;
-    const llama_batch * batch = nullptr;
-    // buffers for the ubatch
-    std::vector<llama_token>    ubatch_token;
-    std::vector<float>          ubatch_embd;
-    std::vector<llama_pos>      ubatch_pos;
-    std::vector<int32_t>        ubatch_n_seq_id;
-    std::vector<llama_seq_id *> ubatch_seq_id;
-    std::vector<int8_t>         ubatch_output;
-    llama_ubatch reserve_ubatch(size_t n_ubatch, bool has_embd = false);
-    void add_seq_to_ubatch(llama_ubatch & ubatch, llama_sbatch_seq & seq, size_t length);
-    // simple split, unknown number of sequences of unequal lengths
-    llama_ubatch split_simple(size_t n_ubatch);
-    // make batches of equal-length sequences
-    llama_ubatch split_equal(size_t n_ubatch);
-    // sequence-wise split
-    llama_ubatch split_seq(size_t n_ubatch);
-    void from_batch(const llama_batch & batch, size_t n_embd, bool simple_split = false, bool logits_all = false);
-};
-// temporary allocate memory for the input batch if needed
-struct llama_batch_allocr {
-    struct llama_batch batch;
-    std::array<llama_seq_id, 1> seq_id_0 = { 0 }; // default sequence id
-    std::vector<llama_pos>      pos;
-    std::vector<int32_t>        n_seq_id;
-    std::vector<llama_seq_id *> seq_id;
-    std::vector<int8_t>         logits;
-    // optionally fulfill the batch returned by llama_batch_get_one
-    llama_batch_allocr(struct llama_batch in_batch, llama_pos p0);
-};
+#pragma once
+#include "llama.h"
+#include <array>
+#include <vector>
+// very similar to llama_batch,
+// but has more metadata about sequences
+struct llama_ubatch {
+    bool equal_seqs;
+    // TODO: whole_seqs for embeddings?
+    uint32_t n_tokens; // total tokens (n_seq_tokens * n_seqs)
+    uint32_t n_seq_tokens; // tokens per sequence
+    uint32_t n_seqs;
+    llama_token  *  token;    // [n_tokens]
+    float        *  embd;     // [n_embd, n_tokens]
+    llama_pos    *  pos;      // [n_tokens]
+    int32_t      *  n_seq_id; // [n_seqs]
+    llama_seq_id ** seq_id;   // [n_seqs]
+    int8_t       *  output;   // [n_tokens]
+};
+struct llama_sbatch_seq {
+    int32_t n_seq_id;
+    llama_seq_id * seq_id;
+    size_t offset;
+    size_t length;
+};
+// sequence-length-aware batch splitting
+struct llama_sbatch {
+    // tokens left in this batch
+    size_t n_tokens;
+    size_t n_embd;
+    bool logits_all; // TODO: remove once lctx.logits_all is removed too
+    // sorted indices into the batch
+    std::vector<size_t> ids;
+    // batch indices of the output
+    std::vector<size_t> out_ids;
+    std::vector<llama_sbatch_seq> seq;
+    const llama_batch * batch = nullptr;
+    // buffers for the ubatch
+    std::vector<llama_token>    ubatch_token;
+    std::vector<float>          ubatch_embd;
+    std::vector<llama_pos>      ubatch_pos;
+    std::vector<int32_t>        ubatch_n_seq_id;
+    std::vector<llama_seq_id *> ubatch_seq_id;
+    std::vector<int8_t>         ubatch_output;
+    llama_ubatch reserve_ubatch(size_t n_ubatch, bool has_embd = false);
+    void add_seq_to_ubatch(llama_ubatch & ubatch, llama_sbatch_seq & seq, size_t length);
+    // simple split, unknown number of sequences of unequal lengths
+    llama_ubatch split_simple(size_t n_ubatch);
+    // make batches of equal-length sequences
+    llama_ubatch split_equal(size_t n_ubatch);
+    // sequence-wise split
+    llama_ubatch split_seq(size_t n_ubatch);
+    void from_batch(const llama_batch & batch, size_t n_embd, bool simple_split = false, bool logits_all = false);
+};
+// temporary allocate memory for the input batch if needed
+struct llama_batch_allocr {
+    struct llama_batch batch;
+    std::array<llama_seq_id, 1> seq_id_0 = { 0 }; // default sequence id
+    std::vector<llama_pos>      pos;
+    std::vector<int32_t>        n_seq_id;
+    std::vector<llama_seq_id *> seq_id;
+    std::vector<int8_t>         logits;
+    // optionally fulfill the batch returned by llama_batch_get_one
+    llama_batch_allocr(struct llama_batch in_batch, llama_pos p0);
+};