npm - cui-llama.rn - Versions diffs - 1.4.0 → 1.4.2 - Mend

cui-llama.rn 1.4.0 → 1.4.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (108) hide show

package/README.md +4 -23
package/android/build.gradle +12 -3
package/android/src/main/CMakeLists.txt +13 -7
package/android/src/main/java/com/rnllama/LlamaContext.java +27 -20
package/android/src/main/java/com/rnllama/RNLlama.java +5 -1
package/android/src/main/jni.cpp +15 -12
package/android/src/main/jniLibs/arm64-v8a/librnllama.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2_dotprod.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2_dotprod_i8mm.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2_i8mm.so +0 -0
package/android/src/main/jniLibs/x86_64/librnllama.so +0 -0
package/android/src/main/jniLibs/x86_64/librnllama_x86_64.so +0 -0
package/cpp/README.md +1 -1
package/cpp/common.cpp +158 -267
package/cpp/common.h +46 -12
package/cpp/ggml-alloc.c +1042 -1037
package/cpp/ggml-backend-impl.h +255 -256
package/cpp/ggml-backend-reg.cpp +582 -582
package/cpp/ggml-backend.cpp +2002 -2002
package/cpp/ggml-backend.h +354 -352
package/cpp/ggml-common.h +1853 -1853
package/cpp/ggml-cpp.h +39 -39
package/cpp/ggml-cpu-aarch64.cpp +4247 -4247
package/cpp/ggml-cpu-aarch64.h +8 -8
package/cpp/ggml-cpu-impl.h +386 -386
package/cpp/ggml-cpu-quants.c +10920 -10839
package/cpp/ggml-cpu-traits.cpp +36 -36
package/cpp/ggml-cpu-traits.h +38 -38
package/cpp/ggml-cpu.c +329 -60
package/cpp/ggml-cpu.cpp +10 -2
package/cpp/ggml-cpu.h +135 -135
package/cpp/ggml-impl.h +567 -567
package/cpp/ggml-metal-impl.h +17 -17
package/cpp/ggml-metal.m +4884 -4884
package/cpp/ggml-quants.c +5238 -5238
package/cpp/ggml-threading.h +14 -14
package/cpp/ggml.c +6514 -6448
package/cpp/ggml.h +2194 -2163
package/cpp/gguf.cpp +1329 -1325
package/cpp/gguf.h +202 -202
package/cpp/json-schema-to-grammar.cpp +1045 -1045
package/cpp/json-schema-to-grammar.h +8 -8
package/cpp/json.hpp +24766 -24766
package/cpp/llama-adapter.cpp +347 -346
package/cpp/llama-adapter.h +74 -73
package/cpp/llama-arch.cpp +1487 -1434
package/cpp/llama-arch.h +400 -395
package/cpp/llama-batch.cpp +368 -368
package/cpp/llama-batch.h +88 -88
package/cpp/llama-chat.cpp +578 -567
package/cpp/llama-chat.h +52 -51
package/cpp/llama-context.cpp +1775 -1771
package/cpp/llama-context.h +128 -128
package/cpp/llama-cparams.cpp +1 -1
package/cpp/llama-cparams.h +37 -37
package/cpp/llama-cpp.h +30 -30
package/cpp/llama-grammar.cpp +1139 -1139
package/cpp/llama-grammar.h +143 -143
package/cpp/llama-hparams.cpp +71 -71
package/cpp/llama-hparams.h +139 -140
package/cpp/llama-impl.cpp +167 -167
package/cpp/llama-impl.h +61 -61
package/cpp/llama-kv-cache.cpp +718 -718
package/cpp/llama-kv-cache.h +218 -218
package/cpp/llama-mmap.cpp +2 -1
package/cpp/llama-mmap.h +67 -67
package/cpp/llama-model-loader.cpp +1124 -1011
package/cpp/llama-model-loader.h +167 -158
package/cpp/llama-model.cpp +3997 -2202
package/cpp/llama-model.h +370 -391
package/cpp/llama-sampling.cpp +2408 -2406
package/cpp/llama-sampling.h +32 -48
package/cpp/llama-vocab.cpp +3247 -1982
package/cpp/llama-vocab.h +125 -182
package/cpp/llama.cpp +416 -2886
package/cpp/llama.h +1323 -1285
package/cpp/log.cpp +401 -401
package/cpp/log.h +121 -121
package/cpp/rn-llama.cpp +822 -0
package/cpp/rn-llama.h +123 -0
package/cpp/rn-llama.hpp +18 -12
package/cpp/sampling.cpp +505 -500
package/cpp/sgemm.cpp +2597 -2597
package/cpp/speculative.cpp +277 -274
package/cpp/speculative.h +28 -28
package/cpp/unicode.cpp +2 -3
package/ios/CMakeLists.txt +99 -0
package/ios/RNLlama.h +5 -1
package/ios/RNLlama.mm +2 -2
package/ios/RNLlamaContext.h +8 -1
package/ios/RNLlamaContext.mm +15 -11
package/ios/rnllama.xcframework/Info.plist +74 -0
package/jest/mock.js +3 -2
package/lib/commonjs/NativeRNLlama.js.map +1 -1
package/lib/commonjs/index.js +4 -2
package/lib/commonjs/index.js.map +1 -1
package/lib/module/NativeRNLlama.js.map +1 -1
package/lib/module/index.js +4 -2
package/lib/module/index.js.map +1 -1
package/lib/typescript/NativeRNLlama.d.ts +5 -1
package/lib/typescript/NativeRNLlama.d.ts.map +1 -1
package/lib/typescript/index.d.ts.map +1 -1
package/llama-rn.podspec +8 -2
package/package.json +5 -2
package/src/NativeRNLlama.ts +5 -1
package/src/index.ts +9 -2

package/cpp/rn-llama.h ADDED Viewed

@@ -0,0 +1,123 @@
+#ifndef RNLLAMA_H
+#define RNLLAMA_H
+#include <sstream>
+#include <iostream>
+#include "common.h"
+#include "ggml.h"
+#include "gguf.h"
+#include "llama.h"
+#include "llama-impl.h"
+#include "sampling.h"
+#if defined(__ANDROID__)
+#include <android/log.h>
+#endif
+namespace rnllama {
+std::string tokens_to_output_formatted_string(const llama_context *ctx, const llama_token token);
+std::string tokens_to_str(llama_context *ctx, const std::vector<llama_token>::const_iterator begin, const std::vector<llama_token>::const_iterator end);
+lm_ggml_type kv_cache_type_from_str(const std::string & s);
+enum stop_type
+{
+    STOP_FULL,
+    STOP_PARTIAL,
+};
+// completion token output with probabilities
+struct completion_token_output
+{
+    struct token_prob
+    {
+        llama_token tok;
+        float prob;
+    };
+    std::vector<token_prob> probs;
+    llama_token tok;
+};
+// Main context class
+struct llama_rn_context {
+    bool is_predicting = false;
+    bool is_interrupted = false;
+    bool has_next_token = false;
+    std::string generated_text;
+    std::vector<completion_token_output> generated_token_probs;
+    size_t num_prompt_tokens = 0;
+    size_t num_tokens_predicted = 0;
+    size_t n_past = 0;
+    size_t n_remain = 0;
+    std::vector<llama_token> embd;
+    common_params params;
+    common_init_result llama_init;
+    llama_model *model = nullptr;
+    float loading_progress = 0;
+    bool is_load_interrupted = false;
+    llama_context *ctx = nullptr;
+    common_sampler *ctx_sampling = nullptr;
+    int n_ctx;
+    bool truncated = false;
+    bool stopped_eos = false;
+    bool stopped_word = false;
+    bool stopped_limit = false;
+    std::string stopping_word;
+    bool incomplete = false;
+    std::vector<common_adapter_lora_info> lora;
+    ~llama_rn_context();
+    void rewind();
+    bool initSampling();
+    bool loadModel(common_params &params_);
+    bool validateModelChatTemplate() const;
+    void truncatePrompt(std::vector<llama_token> &prompt_tokens);
+    void loadPrompt();
+    void beginCompletion();
+    completion_token_output nextToken();
+    size_t findStoppingStrings(const std::string &text, const size_t last_token_size, const stop_type type);
+    completion_token_output doCompletion();
+    std::vector<float> getEmbedding(common_params &embd_params);
+    std::string bench(int pp, int tg, int pl, int nr);
+    int applyLoraAdapters(std::vector<common_adapter_lora_info> lora);
+    void removeLoraAdapters();
+    std::vector<common_adapter_lora_info> getLoadedLoraAdapters();
+    std::vector<int> longest_common_subseq(const std::vector<int> x, const std::vector<int> y);
+    bool arr_start_with(const std::vector<int> targetArray, const std::vector<int> searchSeq);
+    int arr_find_index_of(const std::vector<int> targetArray, const std::vector<int> searchSeq);
+    void purge_missing_tokens(llama_context * ctx, std::vector<int> &current_context_tokens, std::vector<int> &new_context_tokens, const int genamt, const int nctx);
+};\
+// Logging macros
+extern bool rnllama_verbose;
+#if RNLLAMA_VERBOSE != 1
+#define LOG_VERBOSE(MSG, ...)
+#else
+#define LOG_VERBOSE(MSG, ...)                                       \
+    do                                                              \
+    {                                                               \
+        if (rnllama_verbose)                                        \
+        {                                                           \
+            log("VERBOSE", __func__, __LINE__, MSG, ##__VA_ARGS__); \
+        }                                                           \
+    } while (0)
+#endif
+#define LOG_ERROR(MSG, ...) log("ERROR", __func__, __LINE__, MSG, ##__VA_ARGS__)
+#define LOG_WARNING(MSG, ...) log("WARNING", __func__, __LINE__, MSG, ##__VA_ARGS__)
+#define LOG_INFO(MSG, ...) log("INFO", __func__, __LINE__, MSG, ##__VA_ARGS__)
+} // namespace rnllama
+#endif /* RNLLAMA_H */

package/cpp/rn-llama.hpp CHANGED Viewed

@@ -219,7 +219,7 @@ struct llama_rn_context
     std::string stopping_word;
     bool incomplete = false;
-    std::vector<common_lora_adapter_info> lora;
+    std::vector<common_adapter_lora_info> lora;
     ~llama_rn_context()
     {
@@ -279,7 +279,7 @@ struct llama_rn_context
     bool validateModelChatTemplate() const {
         llama_chat_message chat[] = {{"user", "test"}};
-        int32_t chat_res = llama_chat_apply_template(model, nullptr, chat, 1, true, nullptr, 0);
+        int32_t chat_res = llama_chat_apply_template(llama_model_chat_template(model), chat, 1, true, nullptr, 0);
         return chat_res > 0;
     }
@@ -307,7 +307,7 @@ struct llama_rn_context
     void loadPrompt()
     {
-        std::vector<llama_token> prompt_tokens = ::common_tokenize(model, params.prompt, true, true);
+        std::vector<llama_token> prompt_tokens = ::common_tokenize(llama_model_get_vocab(model), params.prompt, true, true);
         num_prompt_tokens = prompt_tokens.size();
         // LOG tokens
@@ -439,14 +439,14 @@ struct llama_rn_context
         if (params.n_predict == 0)
         {
             has_next_token = false;
-            result.tok = llama_token_eos(model);
+            result.tok = llama_vocab_eos(llama_model_get_vocab(model));
             return result;
         }
         {
             // out of user input, sample next token
             std::vector<llama_token_data> candidates;
-            candidates.reserve(llama_n_vocab(model));
+            candidates.reserve(llama_vocab_n_tokens(llama_model_get_vocab(model)));
             result.tok = common_sampler_sample(ctx_sampling, ctx, -1);
@@ -479,7 +479,7 @@ struct llama_rn_context
         // decrement remaining sampling budget
         --n_remain;
-        if (!embd.empty() && embd.back() == llama_token_eos(model))
+        if (!embd.empty() && embd.back() == llama_vocab_eos(llama_model_get_vocab(model)))
         {
             // stopping_word = llama_token_to_piece(ctx, embd.back());
             has_next_token = false;
@@ -584,7 +584,7 @@ struct llama_rn_context
     std::vector<float> getEmbedding(common_params &embd_params)
     {
-        static const int n_embd = llama_n_embd(llama_get_model(ctx));
+        static const int n_embd = llama_model_n_embd(llama_get_model(ctx));
         if (!embd_params.embedding)
         {
             LOG_WARNING("embedding disabled, embedding: %s", embd_params.embedding);
@@ -716,25 +716,31 @@ struct llama_rn_context
             std::string("]");
     }
-    int applyLoraAdapters(std::vector<common_lora_adapter_info> lora) {
+    int applyLoraAdapters(std::vector<common_adapter_lora_info> lora) {
         for (auto &la : lora) {
-            la.ptr = llama_lora_adapter_init(model, la.path.c_str());
+            la.ptr = llama_adapter_lora_init(model, la.path.c_str());
             if (la.ptr == nullptr) {
                 LOG_ERROR("failed to apply lora adapter '%s'\n", la.path.c_str());
                 return -1;
             }
         }
         this->lora = lora;
-        common_lora_adapters_apply(ctx, lora);
+        for (auto &la : lora) {
+            llama_set_adapter_lora(ctx, la.ptr, 1);
+        }
         return 0;
     }
     void removeLoraAdapters() {
+        for (auto &la : this->lora) {
+            llama_adapter_lora_free(la.ptr);
+        }
         this->lora.clear();
-        common_lora_adapters_apply(ctx, this->lora); // apply empty list
+        llama_clear_adapter_lora(ctx);
     }
-    std::vector<common_lora_adapter_info> getLoadedLoraAdapters() {
+    std::vector<common_adapter_lora_info> getLoadedLoraAdapters() {
         return this->lora;
     }
 // Context Shifting from KoboldCpp <https://github.com/LostRuins/koboldcpp>