npm - cui-llama.rn - Versions diffs - 1.4.4 → 1.5.0 - Mend

cui-llama.rn 1.4.4 → 1.5.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (216) hide show

package/android/src/main/CMakeLists.txt +9 -2
package/android/src/main/jni.cpp +54 -34
package/android/src/main/jniLibs/arm64-v8a/librnllama.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2_dotprod.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2_dotprod_i8mm.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2_i8mm.so +0 -0
package/android/src/main/jniLibs/x86_64/librnllama.so +0 -0
package/android/src/main/jniLibs/x86_64/librnllama_x86_64.so +0 -0
package/cpp/binary-ops.cpp +158 -0
package/cpp/binary-ops.h +16 -0
package/cpp/chat.cpp +1769 -1085
package/cpp/chat.h +143 -0
package/cpp/common.cpp +1562 -1996
package/cpp/common.h +677 -744
package/cpp/cpu-common.h +72 -0
package/cpp/ggml-alloc.c +1039 -1030
package/cpp/ggml-alloc.h +1 -1
package/cpp/ggml-backend-impl.h +255 -255
package/cpp/ggml-backend-reg.cpp +586 -582
package/cpp/ggml-backend.cpp +2004 -2002
package/cpp/ggml-backend.h +354 -354
package/cpp/ggml-common.h +1857 -1851
package/cpp/ggml-cpp.h +39 -39
package/cpp/ggml-cpu-aarch64.cpp +5725 -4247
package/cpp/ggml-cpu-aarch64.h +8 -8
package/cpp/ggml-cpu-impl.h +512 -380
package/cpp/ggml-cpu-quants.c +13026 -11517
package/cpp/ggml-cpu-traits.cpp +36 -36
package/cpp/ggml-cpu-traits.h +38 -38
package/cpp/ggml-cpu.c +3438 -14485
package/cpp/ggml-cpu.cpp +655 -633
package/cpp/ggml-cpu.h +138 -135
package/cpp/ggml-impl.h +594 -567
package/cpp/ggml-metal-impl.h +312 -3
package/cpp/ggml-metal.h +66 -66
package/cpp/ggml-metal.m +5360 -5002
package/cpp/ggml-opt.cpp +854 -854
package/cpp/ggml-opt.h +216 -216
package/cpp/ggml-quants.c +5238 -5238
package/cpp/ggml-threading.h +14 -14
package/cpp/ggml.c +6618 -6524
package/cpp/ggml.h +2222 -2194
package/cpp/gguf.cpp +1330 -1329
package/cpp/gguf.h +202 -202
package/cpp/json-schema-to-grammar.cpp +1024 -1025
package/cpp/json-schema-to-grammar.h +21 -22
package/cpp/json.hpp +24766 -24766
package/cpp/llama-adapter.cpp +382 -347
package/cpp/llama-adapter.h +76 -74
package/cpp/llama-arch.cpp +1714 -1492
package/cpp/llama-arch.h +428 -402
package/cpp/llama-batch.cpp +368 -368
package/cpp/llama-batch.h +88 -88
package/cpp/llama-chat.cpp +640 -587
package/cpp/llama-chat.h +56 -53
package/cpp/llama-context.cpp +2831 -1775
package/cpp/llama-context.h +265 -128
package/cpp/llama-cparams.cpp +1 -1
package/cpp/llama-cparams.h +38 -37
package/cpp/llama-cpp.h +30 -30
package/cpp/llama-grammar.cpp +1219 -1219
package/cpp/llama-grammar.h +173 -164
package/cpp/llama-graph.cpp +1695 -0
package/cpp/llama-graph.h +592 -0
package/cpp/llama-hparams.cpp +79 -71
package/cpp/llama-hparams.h +156 -139
package/cpp/llama-impl.cpp +167 -167
package/cpp/llama-impl.h +61 -61
package/cpp/llama-io.cpp +15 -0
package/cpp/llama-io.h +35 -0
package/cpp/llama-kv-cache.cpp +1380 -718
package/cpp/llama-kv-cache.h +213 -218
package/cpp/llama-memory.cpp +1 -0
package/cpp/llama-memory.h +21 -0
package/cpp/llama-mmap.cpp +600 -590
package/cpp/llama-mmap.h +68 -68
package/cpp/llama-model-loader.cpp +1129 -1124
package/cpp/llama-model-loader.h +169 -167
package/cpp/llama-model.cpp +13080 -4023
package/cpp/llama-model.h +409 -370
package/cpp/llama-sampling.cpp +2563 -2525
package/cpp/llama-sampling.h +32 -32
package/cpp/llama-vocab.cpp +3295 -3252
package/cpp/llama-vocab.h +125 -125
package/cpp/llama.cpp +351 -10137
package/cpp/llama.h +1434 -1340
package/cpp/log.cpp +427 -423
package/cpp/log.h +132 -132
package/cpp/{chat-template.hpp → minja/chat-template.hpp} +537 -529
package/cpp/{minja.hpp → minja/minja.hpp} +2941 -2883
package/cpp/ops.cpp +8723 -0
package/cpp/ops.h +128 -0
package/cpp/rn-llama.cpp +45 -71
package/cpp/rn-llama.h +3 -3
package/cpp/sampling.cpp +573 -532
package/cpp/sgemm.cpp +3043 -2598
package/cpp/sgemm.h +14 -14
package/cpp/simd-mappings.h +888 -0
package/cpp/speculative.cpp +278 -277
package/cpp/speculative.h +28 -28
package/cpp/unary-ops.cpp +186 -0
package/cpp/unary-ops.h +28 -0
package/cpp/vec.cpp +258 -0
package/cpp/vec.h +802 -0
package/ios/CMakeLists.txt +5 -2
package/ios/RNLlama.mm +2 -2
package/ios/RNLlamaContext.mm +40 -24
package/package.json +1 -1
package/src/NativeRNLlama.ts +6 -4
package/src/index.ts +3 -1
package/android/src/main/build-arm64/CMakeCache.txt +0 -429
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CMakeCCompiler.cmake +0 -81
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CMakeCXXCompiler.cmake +0 -101
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CMakeDetermineCompilerABI_C.bin +0 -0
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CMakeDetermineCompilerABI_CXX.bin +0 -0
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CMakeSystem.cmake +0 -15
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CompilerIdC/CMakeCCompilerId.c +0 -904
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CompilerIdC/CMakeCCompilerId.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CompilerIdCXX/CMakeCXXCompilerId.cpp +0 -919
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CompilerIdCXX/CMakeCXXCompilerId.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/CMakeConfigureLog.yaml +0 -431
package/android/src/main/build-arm64/CMakeFiles/CMakeDirectoryInformation.cmake +0 -16
package/android/src/main/build-arm64/CMakeFiles/Makefile.cmake +0 -165
package/android/src/main/build-arm64/CMakeFiles/Makefile2 +0 -297
package/android/src/main/build-arm64/CMakeFiles/Progress/1 +0 -1
package/android/src/main/build-arm64/CMakeFiles/Progress/2 +0 -1
package/android/src/main/build-arm64/CMakeFiles/Progress/3 +0 -1
package/android/src/main/build-arm64/CMakeFiles/Progress/4 +0 -1
package/android/src/main/build-arm64/CMakeFiles/Progress/5 +0 -1
package/android/src/main/build-arm64/CMakeFiles/Progress/6 +0 -1
package/android/src/main/build-arm64/CMakeFiles/Progress/count.txt +0 -1
package/android/src/main/build-arm64/CMakeFiles/TargetDirectories.txt +0 -8
package/android/src/main/build-arm64/CMakeFiles/cmake.check_cache +0 -1
package/android/src/main/build-arm64/CMakeFiles/progress.marks +0 -1
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-alloc.c.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-alloc.c.o.d +0 -58
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-backend-reg.cpp.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-backend-reg.cpp.o.d +0 -756
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-backend.cpp.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-backend.cpp.o.d +0 -709
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-cpu-aarch64.cpp.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-cpu-aarch64.cpp.o.d +0 -714
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-cpu-quants.c.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-cpu-quants.c.o.d +0 -62
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-cpu-traits.cpp.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-cpu-traits.cpp.o.d +0 -708
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-cpu.c.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-cpu.c.o.d +0 -113
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-cpu.cpp.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-cpu.cpp.o.d +0 -713
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-opt.cpp.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-opt.cpp.o.d +0 -763
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-quants.c.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-quants.c.o.d +0 -61
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-threading.cpp.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-threading.cpp.o.d +0 -707
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml.c.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml.c.o.d +0 -104
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/gguf.cpp.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/gguf.cpp.o.d +0 -714
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/log.cpp.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/log.cpp.o.d +0 -723
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/DependInfo.cmake +0 -62
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/build.make +0 -722
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/cmake_clean.cmake +0 -89
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/compiler_depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/compiler_depend.ts +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/flags.make +0 -17
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/progress.make +0 -41
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8.dir/DependInfo.cmake +0 -62
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8.dir/build.make +0 -722
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8.dir/cmake_clean.cmake +0 -89
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8.dir/compiler_depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8.dir/compiler_depend.ts +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8.dir/depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8.dir/flags.make +0 -17
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8.dir/progress.make +0 -41
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2.dir/DependInfo.cmake +0 -62
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2.dir/build.make +0 -722
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2.dir/cmake_clean.cmake +0 -89
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2.dir/compiler_depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2.dir/compiler_depend.ts +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2.dir/depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2.dir/flags.make +0 -17
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2.dir/progress.make +0 -41
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod.dir/DependInfo.cmake +0 -62
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod.dir/build.make +0 -722
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod.dir/cmake_clean.cmake +0 -89
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod.dir/compiler_depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod.dir/compiler_depend.ts +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod.dir/depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod.dir/flags.make +0 -17
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod.dir/progress.make +0 -41
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod_i8mm.dir/DependInfo.cmake +0 -62
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod_i8mm.dir/build.make +0 -722
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod_i8mm.dir/cmake_clean.cmake +0 -89
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod_i8mm.dir/compiler_depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod_i8mm.dir/compiler_depend.ts +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod_i8mm.dir/depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod_i8mm.dir/flags.make +0 -17
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod_i8mm.dir/progress.make +0 -41
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_i8mm.dir/DependInfo.cmake +0 -62
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_i8mm.dir/build.make +0 -722
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_i8mm.dir/cmake_clean.cmake +0 -89
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_i8mm.dir/compiler_depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_i8mm.dir/compiler_depend.ts +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_i8mm.dir/depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_i8mm.dir/flags.make +0 -17
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_i8mm.dir/progress.make +0 -41
package/android/src/main/build-arm64/Makefile +0 -1862
package/android/src/main/build-arm64/cmake_install.cmake +0 -66
package/cpp/chat.hpp +0 -55
package/cpp/rn-llama.hpp +0 -913

package/cpp/ops.h ADDED Viewed

@@ -0,0 +1,128 @@
+#pragma once
+#include "ggml.h"
+//
+// cache line
+//
+#if defined(__cpp_lib_hardware_interference_size)
+#define CACHE_LINE_SIZE std::hardware_destructive_interference_size
+#else
+#if defined(__POWER9_VECTOR__)
+#define CACHE_LINE_SIZE 128
+#elif defined(__VXE__) || defined(__VXE2__)
+#define CACHE_LINE_SIZE 256
+#else
+#define CACHE_LINE_SIZE 64
+#endif
+#endif
+static const size_t CACHE_LINE_SIZE_F32 = CACHE_LINE_SIZE/sizeof(float);
+#ifdef __cplusplus
+extern "C" {
+#endif
+void lm_ggml_compute_forward_dup(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_add(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_add1(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_acc(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_sum(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_sum_rows(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_mean(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_argmax(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_count_equal(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_repeat(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_repeat_back(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_concat(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_silu_back(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_norm(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_rms_norm(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_rms_norm_back(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_group_norm(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_l2_norm(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_out_prod(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_scale(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_set(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_cpy(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_cont(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_reshape(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_view(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_permute(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_transpose(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_get_rows(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_get_rows_back(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_diag(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_diag_mask_inf(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_diag_mask_zero(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_soft_max(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_soft_max_ext_back(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_rope(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_rope_back(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_clamp(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_conv_transpose_1d(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_im2col(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_im2col_back_f32(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_conv_transpose_2d(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_pool_1d(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_pool_2d(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_pool_2d_back(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_upscale(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_pad(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_pad_reflect_1d(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_arange(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_timestep_embedding(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_argsort(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_leaky_relu(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_flash_attn_ext(
+    const struct lm_ggml_compute_params * params,
+    const struct lm_ggml_tensor * q,
+    const struct lm_ggml_tensor * k,
+    const struct lm_ggml_tensor * v,
+    const struct lm_ggml_tensor * mask,
+    struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_flash_attn_back(
+        const struct lm_ggml_compute_params * params,
+        const bool masked,
+        struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_ssm_conv(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_ssm_scan(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_win_part(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_win_unpart(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_unary(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_get_rel_pos(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_add_rel_pos(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_rwkv_wkv6(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_rwkv_wkv7(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_gla(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_map_unary(
+    const struct lm_ggml_compute_params * params,
+    struct lm_ggml_tensor * dst,
+    const lm_ggml_unary_op_f32_t fun);
+void lm_ggml_compute_forward_map_binary(
+    const struct lm_ggml_compute_params * params,
+    struct lm_ggml_tensor * dst,
+    const lm_ggml_binary_op_f32_t fun);
+void lm_ggml_compute_forward_map_custom1_f32(
+    const struct lm_ggml_compute_params * params,
+    struct lm_ggml_tensor * dst,
+    const lm_ggml_custom1_op_f32_t fun);
+void lm_ggml_compute_forward_map_custom2_f32(
+    const struct lm_ggml_compute_params * params,
+    struct lm_ggml_tensor * dst,
+    const lm_ggml_custom2_op_f32_t fun);
+void lm_ggml_compute_forward_map_custom3_f32(
+    const struct lm_ggml_compute_params * params,
+    struct lm_ggml_tensor * dst,
+    const lm_ggml_custom3_op_f32_t fun);
+void lm_ggml_compute_forward_map_custom1(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_map_custom2(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_map_custom3(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_cross_entropy_loss(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_cross_entropy_loss_back(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+void lm_ggml_compute_forward_opt_step_adamw(const struct lm_ggml_compute_params * params, struct lm_ggml_tensor * dst);
+#ifdef __cplusplus
+}
+#endif

package/cpp/rn-llama.cpp CHANGED Viewed

@@ -191,10 +191,10 @@ bool llama_rn_context::loadModel(common_params &params_)
     ctx = llama_init.context.get();
     if (model == nullptr)
     {
-        LOG_ERROR("unable to load model: %s", params_.model.c_str());
+        LOG_ERROR("unable to load model: %s", params_.model.path.c_str());
         return false;
     }
-    templates = common_chat_templates_from_model(model, params.chat_template);
+    templates = common_chat_templates_init(model, params.chat_template);
     n_ctx = llama_n_ctx(ctx);
     // We can uncomment for debugging or after this fix: https://github.com/ggerganov/llama.cpp/pull/11101
@@ -219,71 +219,46 @@ common_chat_params llama_rn_context::getFormattedChatWithJinja(
   const bool &parallel_tool_calls,
   const std::string &tool_choice
 ) const {
-  common_chat_inputs inputs;
-  inputs.messages = json::parse(messages);
-  auto useTools = !tools.empty();
-  if (useTools) {
-      inputs.tools = json::parse(tools);
-  }
-  inputs.parallel_tool_calls = parallel_tool_calls;
-  if (!tool_choice.empty()) {
-      inputs.tool_choice = tool_choice;
-  }
-  if (!json_schema.empty()) {
-      inputs.json_schema = json::parse(json_schema);
-  }
-  inputs.extract_reasoning = params.reasoning_format != COMMON_REASONING_FORMAT_NONE;
-  inputs.stream = true;
-  // If chat_template is provided, create new one and use it (probably slow)
-  if (!chat_template.empty()) {
-      auto tmp = common_chat_templates_from_model(model, chat_template);
-      const common_chat_template* template_ptr = useTools && tmp.template_tool_use ? tmp.template_tool_use.get() : tmp.template_default.get();
-      if (inputs.parallel_tool_calls && !template_ptr->original_caps().supports_parallel_tool_calls) {
-          inputs.parallel_tool_calls = false;
-      }
-      return common_chat_params_init(*template_ptr, inputs);
-  } else {
-      const common_chat_template* template_ptr = useTools && templates.template_tool_use ? templates.template_tool_use.get() : templates.template_default.get();
-      if (inputs.parallel_tool_calls && !template_ptr->original_caps().supports_parallel_tool_calls) {
-          inputs.parallel_tool_calls = false;
-      }
-      return common_chat_params_init(*template_ptr, inputs);
-  }
+    common_chat_templates_inputs inputs;
+    inputs.use_jinja = true;
+    inputs.messages = common_chat_msgs_parse_oaicompat(json::parse(messages));
+    auto useTools = !tools.empty();
+    if (useTools) {
+        inputs.tools = common_chat_tools_parse_oaicompat(json::parse(tools));
+    }
+    inputs.parallel_tool_calls = parallel_tool_calls;
+    if (!tool_choice.empty()) {
+        inputs.tool_choice = common_chat_tool_choice_parse_oaicompat(tool_choice);
+    }
+    if (!json_schema.empty()) {
+        inputs.json_schema = json::parse(json_schema);
+    }
+    inputs.extract_reasoning = params.reasoning_format != COMMON_REASONING_FORMAT_NONE;
+    // If chat_template is provided, create new one and use it (probably slow)
+    if (!chat_template.empty()) {
+        auto tmps = common_chat_templates_init(model, chat_template);
+        return common_chat_templates_apply(tmps.get(), inputs);
+    } else {
+        return common_chat_templates_apply(templates.get(), inputs);
+    }
 }
 std::string llama_rn_context::getFormattedChat(
   const std::string &messages,
   const std::string &chat_template
 ) const {
-  auto chat_json = json::parse(messages);
-  // Handle regular chat without tools
-  std::vector<common_chat_msg> chat_msgs;
-  for (const auto &msg : chat_json) {
-      chat_msgs.push_back({
-          msg["role"].get<std::string>(),
-          msg["content"].get<std::string>()
-      });
-  }
-  // If chat_template is provided, create new one and use it (probably slow)
-  if (!chat_template.empty()) {
-      auto tmp = common_chat_templates_from_model(model, chat_template);
-      return common_chat_apply_template(
-          *tmp.template_default,
-          chat_msgs,
-          true,
-          false
-      );
-  } else {
-      return common_chat_apply_template(
-          *templates.template_default,
-          chat_msgs,
-          true,
-          false
-      );
-  }
+    common_chat_templates_inputs inputs;
+    inputs.messages = common_chat_msgs_parse_oaicompat(json::parse(messages));
+    inputs.use_jinja = false;
+    // If chat_template is provided, create new one and use it (probably slow)
+    if (!chat_template.empty()) {
+        auto tmps = common_chat_templates_init(model, chat_template);
+        return common_chat_templates_apply(tmps.get(), inputs).prompt;
+    } else {
+        return common_chat_templates_apply(templates.get(), inputs).prompt;
+    }
 }
 void llama_rn_context::truncatePrompt(std::vector<llama_token> &prompt_tokens) {
@@ -358,7 +333,7 @@ void llama_rn_context::loadPrompt() {
     }
     // since #3228 we now have to manually manage the KV cache
-    llama_kv_cache_seq_rm(ctx, 0, n_past, -1);
+    llama_kv_self_seq_rm(ctx, 0, n_past, -1);
     LOG_VERBOSE("prompt ingested, n_past: %d, cached: %s, to_eval: %s",
         n_past,
@@ -388,8 +363,8 @@ completion_token_output llama_rn_context::nextToken()
         const int n_left    = n_past - params.n_keep - 1;
         const int n_discard = n_left/2;
-        llama_kv_cache_seq_rm (ctx, 0, params.n_keep + 1            , params.n_keep + n_discard + 1);
-        llama_kv_cache_seq_add(ctx, 0, params.n_keep + 1 + n_discard, n_past, -n_discard);
+        llama_kv_self_seq_rm (ctx, 0, params.n_keep + 1            , params.n_keep + n_discard + 1);
+        llama_kv_self_seq_add(ctx, 0, params.n_keep + 1 + n_discard, n_past, -n_discard);
         for (size_t i = params.n_keep + 1 + n_discard; i < embd.size(); i++)
         {
@@ -595,7 +570,6 @@ std::vector<float> llama_rn_context::getEmbedding(common_params &embd_params)
     float *data;
     const enum llama_pooling_type pooling_type = llama_pooling_type(ctx);
-    printf("pooling_type: %d\n", pooling_type);
     if (pooling_type == LLAMA_POOLING_TYPE_NONE) {
         data = llama_get_embeddings(ctx);
     } else {
@@ -644,7 +618,7 @@ std::string llama_rn_context::bench(int pp, int tg, int pl, int nr)
         }
         batch.logits[batch.n_tokens - 1] = 1; // true
-        llama_kv_cache_clear(ctx);
+        llama_kv_self_clear(ctx);
         const int64_t t_pp_start = llama_time_us();
         if (llama_decode(ctx, batch) != 0)
@@ -652,7 +626,7 @@ std::string llama_rn_context::bench(int pp, int tg, int pl, int nr)
             LOG_ERROR("llama_decode() failed during prompt", "");
         }
         const int64_t t_pp_end = llama_time_us();
-        llama_kv_cache_clear(ctx);
+        llama_kv_self_clear(ctx);
         if (is_interrupted) break;
@@ -676,7 +650,7 @@ std::string llama_rn_context::bench(int pp, int tg, int pl, int nr)
         const int64_t t_tg_end = llama_time_us();
-        llama_kv_cache_clear(ctx);
+        llama_kv_self_clear(ctx);
         const double t_pp = (t_pp_end - t_pp_start) / 1000000.0;
         const double t_tg = (t_tg_end - t_tg_start) / 1000000.0;
@@ -702,7 +676,7 @@ std::string llama_rn_context::bench(int pp, int tg, int pl, int nr)
         tg_std = 0;
     }
-    if (is_interrupted) llama_kv_cache_clear(ctx);
+    if (is_interrupted) llama_kv_self_clear(ctx);
     is_predicting = false;
     char model_desc[128];
@@ -880,8 +854,8 @@ void llama_rn_context::purge_missing_tokens(llama_context * ctx, std::vector<int
             //extract the unwanted tokens out from context and KV
             int diff = found - trimstart;
-            llama_kv_cache_seq_rm(ctx, 0, trimstart, trimstart + diff);
-            llama_kv_cache_seq_add(ctx, 0, trimstart + diff, -1, -diff);
+            llama_kv_self_seq_rm(ctx, 0, trimstart, trimstart + diff);
+            llama_kv_self_seq_add(ctx, 0, trimstart + diff, -1, -diff);
             for (size_t i = trimstart + diff; i < current_context_tokens.size() - 1; i++)
             {

package/cpp/rn-llama.h CHANGED Viewed

@@ -3,8 +3,7 @@
 #include <sstream>
 #include <iostream>
-#include "chat.hpp"
-#include "chat-template.hpp"
+#include "chat.h"
 #include "common.h"
 #include "ggml.h"
 #include "gguf.h"
@@ -17,6 +16,7 @@
 namespace rnllama {
 std::string tokens_to_output_formatted_string(const llama_context *ctx, const llama_token token);
 std::string tokens_to_str(llama_context *ctx, const std::vector<llama_token>::const_iterator begin, const std::vector<llama_token>::const_iterator end);
@@ -65,7 +65,7 @@ struct llama_rn_context {
     llama_context *ctx = nullptr;
     common_sampler *ctx_sampling = nullptr;
-    common_chat_templates templates;
+    common_chat_templates_ptr templates;
     int n_ctx;