npm - cui-llama.rn - Versions diffs - 1.4.6 → 1.5.0 - Mend

cui-llama.rn 1.4.6 → 1.5.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (80) hide show

package/android/src/main/CMakeLists.txt +9 -2
package/android/src/main/jni.cpp +52 -34
package/android/src/main/jniLibs/arm64-v8a/librnllama.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2_dotprod.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2_dotprod_i8mm.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2_i8mm.so +0 -0
package/android/src/main/jniLibs/x86_64/librnllama.so +0 -0
package/android/src/main/jniLibs/x86_64/librnllama_x86_64.so +0 -0
package/cpp/binary-ops.cpp +158 -0
package/cpp/binary-ops.h +16 -0
package/cpp/chat.cpp +1769 -1779
package/cpp/chat.h +9 -1
package/cpp/common.cpp +20 -522
package/cpp/common.h +13 -36
package/cpp/cpu-common.h +72 -0
package/cpp/ggml-common.h +12 -6
package/cpp/ggml-cpu-aarch64.cpp +1557 -80
package/cpp/ggml-cpu-impl.h +2 -21
package/cpp/ggml-cpu-quants.c +904 -405
package/cpp/ggml-cpu.c +909 -13237
package/cpp/ggml-impl.h +50 -23
package/cpp/ggml-metal-impl.h +77 -3
package/cpp/ggml-metal.m +794 -580
package/cpp/ggml.c +92 -3
package/cpp/ggml.h +29 -5
package/cpp/gguf.cpp +1 -0
package/cpp/llama-adapter.cpp +55 -20
package/cpp/llama-adapter.h +11 -9
package/cpp/llama-arch.cpp +217 -16
package/cpp/llama-arch.h +25 -0
package/cpp/llama-batch.h +2 -2
package/cpp/llama-chat.cpp +54 -2
package/cpp/llama-chat.h +3 -0
package/cpp/llama-context.cpp +2294 -1238
package/cpp/llama-context.h +214 -77
package/cpp/llama-cparams.h +1 -0
package/cpp/llama-graph.cpp +1695 -0
package/cpp/llama-graph.h +592 -0
package/cpp/llama-hparams.cpp +8 -0
package/cpp/llama-hparams.h +17 -0
package/cpp/llama-io.cpp +15 -0
package/cpp/llama-io.h +35 -0
package/cpp/llama-kv-cache.cpp +965 -303
package/cpp/llama-kv-cache.h +145 -151
package/cpp/llama-memory.cpp +1 -0
package/cpp/llama-memory.h +21 -0
package/cpp/llama-mmap.cpp +1 -1
package/cpp/llama-model-loader.cpp +10 -5
package/cpp/llama-model-loader.h +5 -3
package/cpp/llama-model.cpp +9194 -201
package/cpp/llama-model.h +40 -1
package/cpp/llama-sampling.cpp +5 -0
package/cpp/llama-vocab.cpp +36 -5
package/cpp/llama.cpp +51 -9984
package/cpp/llama.h +102 -22
package/cpp/log.cpp +34 -0
package/cpp/minja/chat-template.hpp +15 -7
package/cpp/minja/minja.hpp +120 -94
package/cpp/ops.cpp +8723 -0
package/cpp/ops.h +128 -0
package/cpp/rn-llama.cpp +44 -53
package/cpp/rn-llama.h +2 -12
package/cpp/sampling.cpp +3 -0
package/cpp/sgemm.cpp +533 -88
package/cpp/simd-mappings.h +888 -0
package/cpp/speculative.cpp +4 -4
package/cpp/unary-ops.cpp +186 -0
package/cpp/unary-ops.h +28 -0
package/cpp/vec.cpp +258 -0
package/cpp/vec.h +802 -0
package/ios/CMakeLists.txt +5 -2
package/ios/RNLlama.mm +2 -2
package/ios/RNLlamaContext.mm +40 -24
package/package.json +1 -1
package/src/NativeRNLlama.ts +6 -4
package/src/index.ts +3 -1
package/cpp/chat-template.hpp +0 -529
package/cpp/minja.hpp +0 -2915

package/ios/CMakeLists.txt CHANGED Viewed

@@ -62,15 +62,18 @@ add_library(rnllama SHARED
     ${SOURCE_DIR}/llama-model-loader.cpp
     ${SOURCE_DIR}/llama-mmap.cpp
     ${SOURCE_DIR}/llama-vocab.cpp
+    ${SOURCE_DIR}/llama-memory.cpp
+    ${SOURCE_DIR}/llama-io.cpp
+    ${SOURCE_DIR}/llama-graph.cpp
     ${SOURCE_DIR}/sampling.cpp
     ${SOURCE_DIR}/unicode-data.cpp
     ${SOURCE_DIR}/unicode.cpp
     ${SOURCE_DIR}/sgemm.cpp
     ${SOURCE_DIR}/common.cpp
     ${SOURCE_DIR}/chat.cpp
-    ${SOURCE_DIR}/chat-template.hpp
     ${SOURCE_DIR}/json-schema-to-grammar.cpp
-    ${SOURCE_DIR}/minja.hpp
+    ${SOURCE_DIR}/minja/minja.hpp
+    ${SOURCE_DIR}/minja/chat-template.hpp
     ${SOURCE_DIR}/json.hpp
     ${SOURCE_DIR}/amx/amx.cpp
     ${SOURCE_DIR}/amx/mmq.cpp

package/ios/RNLlama.mm CHANGED Viewed

@@ -102,8 +102,8 @@ RCT_EXPORT_METHOD(getFormattedChat:(double)contextId
         if ([params[@"jinja"] boolValue]) {
             NSString *jsonSchema = params[@"json_schema"];
             NSString *tools = params[@"tools"];
-            NSString *parallelToolCalls = params[@"parallel_tool_calls"];
-            NSString *toolChoice = params[@"tool_choice"];\
+            bool parallelToolCalls = [params[@"parallel_tool_calls"] boolValue];
+            NSString *toolChoice = params[@"tool_choice"];
             resolve([context getFormattedChatWithJinja:messages withChatTemplate:chatTemplate withJsonSchema:jsonSchema withTools:tools withParallelToolCalls:parallelToolCalls withToolChoice:toolChoice]);
         } else {
             resolve([context getFormattedChat:messages withChatTemplate:chatTemplate]);

package/ios/RNLlamaContext.mm CHANGED Viewed

@@ -285,7 +285,7 @@
         [meta setValue:valStr forKey:keyStr];
     }
-    auto template_tool_use = llama->templates.template_tool_use.get();
+    auto template_tool_use = llama->templates.get()->template_tool_use.get();
     NSDictionary *tool_use_caps_dir = nil;
     if (template_tool_use) {
         auto tool_use_caps = template_tool_use->original_caps();
@@ -299,7 +299,7 @@
         };
     }
-    auto default_tmpl = llama->templates.template_default.get();
+    auto default_tmpl = llama->templates.get()->template_default.get();
     auto default_tmpl_caps = default_tmpl->original_caps();
     return @{
@@ -356,15 +356,16 @@
         parallelToolCalls,
         toolChoice == nil ? "" : [toolChoice UTF8String]
     );
-    result[@"prompt"] = [NSString stringWithUTF8String:chatParams.prompt.get<std::string>().c_str()];
+    result[@"prompt"] = [NSString stringWithUTF8String:chatParams.prompt.c_str()];
     result[@"chat_format"] = @(static_cast<int>(chatParams.format));
     result[@"grammar"] = [NSString stringWithUTF8String:chatParams.grammar.c_str()];
     result[@"grammar_lazy"] = @(chatParams.grammar_lazy);
     NSMutableArray *grammar_triggers = [[NSMutableArray alloc] init];
     for (const auto & trigger : chatParams.grammar_triggers) {
         [grammar_triggers addObject:@{
-            @"word": [NSString stringWithUTF8String:trigger.word.c_str()],
-            @"at_start": @(trigger.at_start),
+            @"type": @(trigger.type),
+            @"value": [NSString stringWithUTF8String:trigger.value.c_str()],
+            @"token": @(trigger.token),
         }];
     }
     result[@"grammar_triggers"] = grammar_triggers;
@@ -483,25 +484,6 @@
         sparams.grammar_lazy = [params[@"grammar_lazy"] boolValue];
     }
-    if (params[@"grammar_triggers"] && [params[@"grammar_triggers"] isKindOfClass:[NSArray class]]) {
-        NSArray *grammar_triggers = params[@"grammar_triggers"];
-        for (NSDictionary *grammar_trigger in grammar_triggers) {
-            common_grammar_trigger trigger;
-            trigger.word = [grammar_trigger[@"word"] UTF8String];
-            trigger.at_start = [grammar_trigger[@"at_start"] boolValue];
-            auto ids = common_tokenize(llama->ctx, trigger.word, /* add_special= */ false, /* parse_special= */ true);
-            if (ids.size() == 1) {
-                // LOG_DBG("Grammar trigger token: %d (`%s`)\n", ids[0], trigger.word.c_str());
-                sparams.grammar_trigger_tokens.push_back(ids[0]);
-                sparams.preserved_tokens.insert(ids[0]);
-                continue;
-            }
-            // LOG_DBG("Grammar trigger word: `%s`\n", trigger.word.c_str());
-            sparams.grammar_trigger_words.push_back(trigger);
-        }
-    }
     if (params[@"preserved_tokens"] && [params[@"preserved_tokens"] isKindOfClass:[NSArray class]]) {
         NSArray *preserved_tokens = params[@"preserved_tokens"];
         for (NSString *token in preserved_tokens) {
@@ -514,6 +496,40 @@
         }
     }
+    if (params[@"grammar_triggers"] && [params[@"grammar_triggers"] isKindOfClass:[NSArray class]]) {
+        NSArray *grammar_triggers = params[@"grammar_triggers"];
+        for (NSDictionary *grammar_trigger in grammar_triggers) {
+            const auto type = static_cast<common_grammar_trigger_type>([grammar_trigger[@"type"] intValue]);
+            const auto & word = [grammar_trigger[@"value"] UTF8String];
+            if (type == COMMON_GRAMMAR_TRIGGER_TYPE_WORD) {
+              auto ids = common_tokenize(llama->ctx, word, /* add_special= */ false, /* parse_special= */ true);
+              if (ids.size() == 1) {
+                  auto token = ids[0];
+                  if (std::find(sparams.preserved_tokens.begin(), sparams.preserved_tokens.end(), (llama_token) token) == sparams.preserved_tokens.end()) {
+                      throw std::runtime_error("Grammar trigger word should be marked as preserved token");
+                  }
+                  common_grammar_trigger trigger;
+                  trigger.type = COMMON_GRAMMAR_TRIGGER_TYPE_TOKEN;
+                  trigger.value = word;
+                  trigger.token = token;
+                  sparams.grammar_triggers.push_back(std::move(trigger));
+              } else {
+                  sparams.grammar_triggers.push_back({COMMON_GRAMMAR_TRIGGER_TYPE_WORD, word});
+              }
+            } else {
+                common_grammar_trigger trigger;
+                trigger.type = type;
+                trigger.value = word;
+                if (type == COMMON_GRAMMAR_TRIGGER_TYPE_TOKEN) {
+                    const auto token = (llama_token) [grammar_trigger[@"token"] intValue];
+                    trigger.token = token;
+                }
+                sparams.grammar_triggers.push_back(std::move(trigger));
+            }
+        }
+    }
     llama->params.antiprompt.clear();
     if (params[@"stop"]) {
         NSArray *stop = params[@"stop"];

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "cui-llama.rn",
-  "version": "1.4.6",
+  "version": "1.5.0",
   "description": "Fork of llama.rn for ChatterUI",
   "main": "lib/commonjs/index",
   "module": "lib/module/index",

package/src/NativeRNLlama.ts CHANGED Viewed

@@ -93,8 +93,9 @@ export type NativeCompletionParams = {
    * Lazy grammar triggers. Default: []
    */
   grammar_triggers?: Array<{
-    at_start: boolean
-    word: string
+    type: number
+    value: string
+    token: number
   }>
   preserved_tokens?: Array<string>
   chat_format?: number
@@ -347,8 +348,9 @@ export type JinjaFormattedChatResult = {
   grammar?: string
   grammar_lazy?: boolean
   grammar_triggers?: Array<{
-    at_start: boolean
-    word: string
+    type: number
+    value: string
+    token: number
   }>
   preserved_tokens?: Array<string>
   additional_stops?: Array<string>

package/src/index.ts CHANGED Viewed

@@ -70,7 +70,8 @@ if (EventEmitter) {
       logListeners.forEach((listener) => listener(evt.level, evt.text))
     },
   )
-  RNLlama?.toggleNativeLog?.(false) // Trigger unset to use default log callback
+  // Trigger unset to use default log callback
+  RNLlama?.toggleNativeLog?.(false)?.catch?.(() => {})
 }
 export type TokenData = {
@@ -398,6 +399,7 @@ const modelInfoSkip = [
   'tokenizer.ggml.tokens',
   'tokenizer.ggml.token_type',
   'tokenizer.ggml.merges',
+  'tokenizer.ggml.scores'
 ]
 export async function loadLlamaModelInfo(model: string): Promise<Object> {
   let path = model