npm - cui-llama.rn - Versions diffs - 1.4.4 → 1.5.0 - Mend

cui-llama.rn 1.4.4 → 1.5.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (216) hide show

package/android/src/main/CMakeLists.txt +9 -2
package/android/src/main/jni.cpp +54 -34
package/android/src/main/jniLibs/arm64-v8a/librnllama.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2_dotprod.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2_dotprod_i8mm.so +0 -0
package/android/src/main/jniLibs/arm64-v8a/librnllama_v8_2_i8mm.so +0 -0
package/android/src/main/jniLibs/x86_64/librnllama.so +0 -0
package/android/src/main/jniLibs/x86_64/librnllama_x86_64.so +0 -0
package/cpp/binary-ops.cpp +158 -0
package/cpp/binary-ops.h +16 -0
package/cpp/chat.cpp +1769 -1085
package/cpp/chat.h +143 -0
package/cpp/common.cpp +1562 -1996
package/cpp/common.h +677 -744
package/cpp/cpu-common.h +72 -0
package/cpp/ggml-alloc.c +1039 -1030
package/cpp/ggml-alloc.h +1 -1
package/cpp/ggml-backend-impl.h +255 -255
package/cpp/ggml-backend-reg.cpp +586 -582
package/cpp/ggml-backend.cpp +2004 -2002
package/cpp/ggml-backend.h +354 -354
package/cpp/ggml-common.h +1857 -1851
package/cpp/ggml-cpp.h +39 -39
package/cpp/ggml-cpu-aarch64.cpp +5725 -4247
package/cpp/ggml-cpu-aarch64.h +8 -8
package/cpp/ggml-cpu-impl.h +512 -380
package/cpp/ggml-cpu-quants.c +13026 -11517
package/cpp/ggml-cpu-traits.cpp +36 -36
package/cpp/ggml-cpu-traits.h +38 -38
package/cpp/ggml-cpu.c +3438 -14485
package/cpp/ggml-cpu.cpp +655 -633
package/cpp/ggml-cpu.h +138 -135
package/cpp/ggml-impl.h +594 -567
package/cpp/ggml-metal-impl.h +312 -3
package/cpp/ggml-metal.h +66 -66
package/cpp/ggml-metal.m +5360 -5002
package/cpp/ggml-opt.cpp +854 -854
package/cpp/ggml-opt.h +216 -216
package/cpp/ggml-quants.c +5238 -5238
package/cpp/ggml-threading.h +14 -14
package/cpp/ggml.c +6618 -6524
package/cpp/ggml.h +2222 -2194
package/cpp/gguf.cpp +1330 -1329
package/cpp/gguf.h +202 -202
package/cpp/json-schema-to-grammar.cpp +1024 -1025
package/cpp/json-schema-to-grammar.h +21 -22
package/cpp/json.hpp +24766 -24766
package/cpp/llama-adapter.cpp +382 -347
package/cpp/llama-adapter.h +76 -74
package/cpp/llama-arch.cpp +1714 -1492
package/cpp/llama-arch.h +428 -402
package/cpp/llama-batch.cpp +368 -368
package/cpp/llama-batch.h +88 -88
package/cpp/llama-chat.cpp +640 -587
package/cpp/llama-chat.h +56 -53
package/cpp/llama-context.cpp +2831 -1775
package/cpp/llama-context.h +265 -128
package/cpp/llama-cparams.cpp +1 -1
package/cpp/llama-cparams.h +38 -37
package/cpp/llama-cpp.h +30 -30
package/cpp/llama-grammar.cpp +1219 -1219
package/cpp/llama-grammar.h +173 -164
package/cpp/llama-graph.cpp +1695 -0
package/cpp/llama-graph.h +592 -0
package/cpp/llama-hparams.cpp +79 -71
package/cpp/llama-hparams.h +156 -139
package/cpp/llama-impl.cpp +167 -167
package/cpp/llama-impl.h +61 -61
package/cpp/llama-io.cpp +15 -0
package/cpp/llama-io.h +35 -0
package/cpp/llama-kv-cache.cpp +1380 -718
package/cpp/llama-kv-cache.h +213 -218
package/cpp/llama-memory.cpp +1 -0
package/cpp/llama-memory.h +21 -0
package/cpp/llama-mmap.cpp +600 -590
package/cpp/llama-mmap.h +68 -68
package/cpp/llama-model-loader.cpp +1129 -1124
package/cpp/llama-model-loader.h +169 -167
package/cpp/llama-model.cpp +13080 -4023
package/cpp/llama-model.h +409 -370
package/cpp/llama-sampling.cpp +2563 -2525
package/cpp/llama-sampling.h +32 -32
package/cpp/llama-vocab.cpp +3295 -3252
package/cpp/llama-vocab.h +125 -125
package/cpp/llama.cpp +351 -10137
package/cpp/llama.h +1434 -1340
package/cpp/log.cpp +427 -423
package/cpp/log.h +132 -132
package/cpp/{chat-template.hpp → minja/chat-template.hpp} +537 -529
package/cpp/{minja.hpp → minja/minja.hpp} +2941 -2883
package/cpp/ops.cpp +8723 -0
package/cpp/ops.h +128 -0
package/cpp/rn-llama.cpp +45 -71
package/cpp/rn-llama.h +3 -3
package/cpp/sampling.cpp +573 -532
package/cpp/sgemm.cpp +3043 -2598
package/cpp/sgemm.h +14 -14
package/cpp/simd-mappings.h +888 -0
package/cpp/speculative.cpp +278 -277
package/cpp/speculative.h +28 -28
package/cpp/unary-ops.cpp +186 -0
package/cpp/unary-ops.h +28 -0
package/cpp/vec.cpp +258 -0
package/cpp/vec.h +802 -0
package/ios/CMakeLists.txt +5 -2
package/ios/RNLlama.mm +2 -2
package/ios/RNLlamaContext.mm +40 -24
package/package.json +1 -1
package/src/NativeRNLlama.ts +6 -4
package/src/index.ts +3 -1
package/android/src/main/build-arm64/CMakeCache.txt +0 -429
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CMakeCCompiler.cmake +0 -81
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CMakeCXXCompiler.cmake +0 -101
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CMakeDetermineCompilerABI_C.bin +0 -0
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CMakeDetermineCompilerABI_CXX.bin +0 -0
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CMakeSystem.cmake +0 -15
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CompilerIdC/CMakeCCompilerId.c +0 -904
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CompilerIdC/CMakeCCompilerId.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CompilerIdCXX/CMakeCXXCompilerId.cpp +0 -919
package/android/src/main/build-arm64/CMakeFiles/3.31.4/CompilerIdCXX/CMakeCXXCompilerId.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/CMakeConfigureLog.yaml +0 -431
package/android/src/main/build-arm64/CMakeFiles/CMakeDirectoryInformation.cmake +0 -16
package/android/src/main/build-arm64/CMakeFiles/Makefile.cmake +0 -165
package/android/src/main/build-arm64/CMakeFiles/Makefile2 +0 -297
package/android/src/main/build-arm64/CMakeFiles/Progress/1 +0 -1
package/android/src/main/build-arm64/CMakeFiles/Progress/2 +0 -1
package/android/src/main/build-arm64/CMakeFiles/Progress/3 +0 -1
package/android/src/main/build-arm64/CMakeFiles/Progress/4 +0 -1
package/android/src/main/build-arm64/CMakeFiles/Progress/5 +0 -1
package/android/src/main/build-arm64/CMakeFiles/Progress/6 +0 -1
package/android/src/main/build-arm64/CMakeFiles/Progress/count.txt +0 -1
package/android/src/main/build-arm64/CMakeFiles/TargetDirectories.txt +0 -8
package/android/src/main/build-arm64/CMakeFiles/cmake.check_cache +0 -1
package/android/src/main/build-arm64/CMakeFiles/progress.marks +0 -1
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-alloc.c.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-alloc.c.o.d +0 -58
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-backend-reg.cpp.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-backend-reg.cpp.o.d +0 -756
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-backend.cpp.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-backend.cpp.o.d +0 -709
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-cpu-aarch64.cpp.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-cpu-aarch64.cpp.o.d +0 -714
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-cpu-quants.c.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-cpu-quants.c.o.d +0 -62
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-cpu-traits.cpp.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-cpu-traits.cpp.o.d +0 -708
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-cpu.c.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-cpu.c.o.d +0 -113
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-cpu.cpp.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-cpu.cpp.o.d +0 -713
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-opt.cpp.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-opt.cpp.o.d +0 -763
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-quants.c.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-quants.c.o.d +0 -61
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-threading.cpp.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml-threading.cpp.o.d +0 -707
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml.c.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/ggml.c.o.d +0 -104
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/gguf.cpp.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/gguf.cpp.o.d +0 -714
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/log.cpp.o +0 -0
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/D_/dev/react-native/cui-llama.rn/cpp/log.cpp.o.d +0 -723
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/DependInfo.cmake +0 -62
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/build.make +0 -722
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/cmake_clean.cmake +0 -89
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/compiler_depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/compiler_depend.ts +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/flags.make +0 -17
package/android/src/main/build-arm64/CMakeFiles/rnllama.dir/progress.make +0 -41
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8.dir/DependInfo.cmake +0 -62
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8.dir/build.make +0 -722
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8.dir/cmake_clean.cmake +0 -89
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8.dir/compiler_depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8.dir/compiler_depend.ts +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8.dir/depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8.dir/flags.make +0 -17
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8.dir/progress.make +0 -41
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2.dir/DependInfo.cmake +0 -62
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2.dir/build.make +0 -722
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2.dir/cmake_clean.cmake +0 -89
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2.dir/compiler_depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2.dir/compiler_depend.ts +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2.dir/depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2.dir/flags.make +0 -17
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2.dir/progress.make +0 -41
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod.dir/DependInfo.cmake +0 -62
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod.dir/build.make +0 -722
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod.dir/cmake_clean.cmake +0 -89
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod.dir/compiler_depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod.dir/compiler_depend.ts +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod.dir/depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod.dir/flags.make +0 -17
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod.dir/progress.make +0 -41
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod_i8mm.dir/DependInfo.cmake +0 -62
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod_i8mm.dir/build.make +0 -722
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod_i8mm.dir/cmake_clean.cmake +0 -89
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod_i8mm.dir/compiler_depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod_i8mm.dir/compiler_depend.ts +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod_i8mm.dir/depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod_i8mm.dir/flags.make +0 -17
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_dotprod_i8mm.dir/progress.make +0 -41
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_i8mm.dir/DependInfo.cmake +0 -62
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_i8mm.dir/build.make +0 -722
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_i8mm.dir/cmake_clean.cmake +0 -89
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_i8mm.dir/compiler_depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_i8mm.dir/compiler_depend.ts +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_i8mm.dir/depend.make +0 -2
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_i8mm.dir/flags.make +0 -17
package/android/src/main/build-arm64/CMakeFiles/rnllama_v8_2_i8mm.dir/progress.make +0 -41
package/android/src/main/build-arm64/Makefile +0 -1862
package/android/src/main/build-arm64/cmake_install.cmake +0 -66
package/cpp/chat.hpp +0 -55
package/cpp/rn-llama.hpp +0 -913

package/cpp/ggml-backend-reg.cpp CHANGED Viewed

@@ -1,582 +1,586 @@
-#include "ggml-backend-impl.h"
-#include "ggml-backend.h"
-#include "ggml-impl.h"
-#include <algorithm>
-#include <codecvt>
-#include <cstring>
-#include <filesystem>
-#include <locale>
-#include <memory>
-#include <string>
-#include <type_traits>
-#include <vector>
-#ifdef _WIN32
-#    define WIN32_LEAN_AND_MEAN
-#    ifndef NOMINMAX
-#        define NOMINMAX
-#    endif
-#    include <windows.h>
-#elif defined(__APPLE__)
-#    include <mach-o/dyld.h>
-#    include <dlfcn.h>
-#else
-#    include <dlfcn.h>
-#    include <unistd.h>
-#endif
-// Backend registry
-#ifdef LM_GGML_USE_CPU
-#include "ggml-cpu.h"
-#endif
-#ifdef LM_GGML_USE_CUDA
-#include "ggml-cuda.h"
-#endif
-#ifdef LM_GGML_USE_METAL
-#include "ggml-metal.h"
-#endif
-#ifdef LM_GGML_USE_SYCL
-#include "ggml-sycl.h"
-#endif
-#ifdef LM_GGML_USE_VULKAN
-#include "ggml-vulkan.h"
-#endif
-#ifdef LM_GGML_USE_OPENCL
-#include "ggml-opencl.h"
-#endif
-#ifdef LM_GGML_USE_BLAS
-#include "ggml-blas.h"
-#endif
-#ifdef LM_GGML_USE_RPC
-#include "ggml-rpc.h"
-#endif
-#ifdef LM_GGML_USE_CANN
-#include "ggml-cann.h"
-#endif
-#ifdef LM_GGML_USE_KOMPUTE
-#include "ggml-kompute.h"
-#endif
-// disable C++17 deprecation warning for std::codecvt_utf8
-#if defined(__clang__)
-#    pragma clang diagnostic push
-#    pragma clang diagnostic ignored "-Wdeprecated-declarations"
-#endif
-static std::wstring utf8_to_utf16(const std::string & str) {
-    std::wstring_convert<std::codecvt_utf8_utf16<wchar_t>> converter;
-    return converter.from_bytes(str);
-}
-static std::string utf16_to_utf8(const std::wstring & str) {
-    std::wstring_convert<std::codecvt_utf8_utf16<wchar_t>> converter;
-    return converter.to_bytes(str);
-}
-#if defined(__clang__)
-#    pragma clang diagnostic pop
-#endif
-#ifdef _WIN32
-using dl_handle = std::remove_pointer_t<HMODULE>;
-struct dl_handle_deleter {
-    void operator()(HMODULE handle) {
-        FreeLibrary(handle);
-    }
-};
-static dl_handle * dl_load_library(const std::wstring & path) {
-    // suppress error dialogs for missing DLLs
-    DWORD old_mode = SetErrorMode(SEM_FAILCRITICALERRORS);
-    SetErrorMode(old_mode | SEM_FAILCRITICALERRORS);
-    HMODULE handle = LoadLibraryW(path.c_str());
-    SetErrorMode(old_mode);
-    return handle;
-}
-static void * dl_get_sym(dl_handle * handle, const char * name) {
-    DWORD old_mode = SetErrorMode(SEM_FAILCRITICALERRORS);
-    SetErrorMode(old_mode | SEM_FAILCRITICALERRORS);
-    void * p = (void *) GetProcAddress(handle, name);
-    SetErrorMode(old_mode);
-    return p;
-}
-#else
-using dl_handle = void;
-struct dl_handle_deleter {
-    void operator()(void * handle) {
-        dlclose(handle);
-    }
-};
-static void * dl_load_library(const std::wstring & path) {
-    dl_handle * handle = dlopen(utf16_to_utf8(path).c_str(), RTLD_NOW | RTLD_LOCAL);
-    return handle;
-}
-static void * dl_get_sym(dl_handle * handle, const char * name) {
-    return dlsym(handle, name);
-}
-#endif
-using dl_handle_ptr = std::unique_ptr<dl_handle, dl_handle_deleter>;
-struct lm_ggml_backend_reg_entry {
-    lm_ggml_backend_reg_t reg;
-    dl_handle_ptr handle;
-};
-struct lm_ggml_backend_registry {
-    std::vector<lm_ggml_backend_reg_entry> backends;
-    std::vector<lm_ggml_backend_dev_t> devices;
-    lm_ggml_backend_registry() {
-#ifdef LM_GGML_USE_CUDA
-        register_backend(lm_ggml_backend_cuda_reg());
-#endif
-#ifdef LM_GGML_USE_METAL
-        register_backend(lm_ggml_backend_metal_reg());
-#endif
-#ifdef LM_GGML_USE_SYCL
-        register_backend(lm_ggml_backend_sycl_reg());
-#endif
-#ifdef LM_GGML_USE_VULKAN
-        register_backend(lm_ggml_backend_vk_reg());
-#endif
-#ifdef LM_GGML_USE_OPENCL
-        register_backend(lm_ggml_backend_opencl_reg());
-#endif
-#ifdef LM_GGML_USE_CANN
-        register_backend(lm_ggml_backend_cann_reg());
-#endif
-#ifdef LM_GGML_USE_BLAS
-        register_backend(lm_ggml_backend_blas_reg());
-#endif
-#ifdef LM_GGML_USE_RPC
-        register_backend(lm_ggml_backend_rpc_reg());
-#endif
-#ifdef LM_GGML_USE_KOMPUTE
-        register_backend(lm_ggml_backend_kompute_reg());
-#endif
-#ifdef LM_GGML_USE_CPU
-        register_backend(lm_ggml_backend_cpu_reg());
-#endif
-    }
-    ~lm_ggml_backend_registry() {
-        // FIXME: backends cannot be safely unloaded without a function to destroy all the backend resources,
-        // since backend threads may still be running and accessing resources from the dynamic library
-        for (auto & entry : backends) {
-            if (entry.handle) {
-                entry.handle.release(); // NOLINT
-            }
-        }
-    }
-    void register_backend(lm_ggml_backend_reg_t reg, dl_handle_ptr handle = nullptr) {
-        if (!reg) {
-            return;
-        }
-#ifndef NDEBUG
-        LM_GGML_LOG_DEBUG("%s: registered backend %s (%zu devices)\n",
-            __func__, lm_ggml_backend_reg_name(reg), lm_ggml_backend_reg_dev_count(reg));
-#endif
-        backends.push_back({ reg, std::move(handle) });
-        for (size_t i = 0; i < lm_ggml_backend_reg_dev_count(reg); i++) {
-            register_device(lm_ggml_backend_reg_dev_get(reg, i));
-        }
-    }
-    void register_device(lm_ggml_backend_dev_t device) {
-#ifndef NDEBUG
-        LM_GGML_LOG_DEBUG("%s: registered device %s (%s)\n", __func__, lm_ggml_backend_dev_name(device), lm_ggml_backend_dev_description(device));
-#endif
-        devices.push_back(device);
-    }
-    lm_ggml_backend_reg_t load_backend(const std::wstring & path, bool silent) {
-        dl_handle_ptr handle { dl_load_library(path) };
-        if (!handle) {
-            if (!silent) {
-                LM_GGML_LOG_ERROR("%s: failed to load %s\n", __func__, utf16_to_utf8(path).c_str());
-            }
-            return nullptr;
-        }
-        auto score_fn = (lm_ggml_backend_score_t) dl_get_sym(handle.get(), "lm_ggml_backend_score");
-        if (score_fn && score_fn() == 0) {
-            if (!silent) {
-                LM_GGML_LOG_INFO("%s: backend %s is not supported on this system\n", __func__, utf16_to_utf8(path).c_str());
-            }
-            return nullptr;
-        }
-        auto backend_init_fn = (lm_ggml_backend_init_t) dl_get_sym(handle.get(), "lm_ggml_backend_init");
-        if (!backend_init_fn) {
-            if (!silent) {
-                LM_GGML_LOG_ERROR("%s: failed to find lm_ggml_backend_init in %s\n", __func__, utf16_to_utf8(path).c_str());
-            }
-            return nullptr;
-        }
-        lm_ggml_backend_reg_t reg = backend_init_fn();
-        if (!reg || reg->api_version != LM_GGML_BACKEND_API_VERSION) {
-            if (!silent) {
-                if (!reg) {
-                    LM_GGML_LOG_ERROR("%s: failed to initialize backend from %s: lm_ggml_backend_init returned NULL\n", __func__, utf16_to_utf8(path).c_str());
-                } else {
-                    LM_GGML_LOG_ERROR("%s: failed to initialize backend from %s: incompatible API version (backend: %d, current: %d)\n",
-                        __func__, utf16_to_utf8(path).c_str(), reg->api_version, LM_GGML_BACKEND_API_VERSION);
-                }
-            }
-            return nullptr;
-        }
-        LM_GGML_LOG_INFO("%s: loaded %s backend from %s\n", __func__, lm_ggml_backend_reg_name(reg), utf16_to_utf8(path).c_str());
-        register_backend(reg, std::move(handle));
-        return reg;
-    }
-    void unload_backend(lm_ggml_backend_reg_t reg, bool silent) {
-        auto it = std::find_if(backends.begin(), backends.end(),
-                               [reg](const lm_ggml_backend_reg_entry & entry) { return entry.reg == reg; });
-        if (it == backends.end()) {
-            if (!silent) {
-                LM_GGML_LOG_ERROR("%s: backend not found\n", __func__);
-            }
-            return;
-        }
-        if (!silent) {
-            LM_GGML_LOG_DEBUG("%s: unloading %s backend\n", __func__, lm_ggml_backend_reg_name(reg));
-        }
-        // remove devices
-        devices.erase(
-            std::remove_if(devices.begin(), devices.end(),
-                            [reg](lm_ggml_backend_dev_t dev) { return lm_ggml_backend_dev_backend_reg(dev) == reg; }),
-            devices.end());
-        // remove backend
-        backends.erase(it);
-    }
-};
-static lm_ggml_backend_registry & get_reg() {
-    static lm_ggml_backend_registry reg;
-    return reg;
-}
-// Internal API
-void lm_ggml_backend_register(lm_ggml_backend_reg_t reg) {
-    get_reg().register_backend(reg);
-}
-void lm_ggml_backend_device_register(lm_ggml_backend_dev_t device) {
-    get_reg().register_device(device);
-}
-// Backend (reg) enumeration
-static bool striequals(const char * a, const char * b) {
-    for (; *a && *b; a++, b++) {
-        if (std::tolower(*a) != std::tolower(*b)) {
-            return false;
-        }
-    }
-    return *a == *b;
-}
-size_t lm_ggml_backend_reg_count() {
-    return get_reg().backends.size();
-}
-lm_ggml_backend_reg_t lm_ggml_backend_reg_get(size_t index) {
-    LM_GGML_ASSERT(index < lm_ggml_backend_reg_count());
-    return get_reg().backends[index].reg;
-}
-lm_ggml_backend_reg_t lm_ggml_backend_reg_by_name(const char * name) {
-    for (size_t i = 0; i < lm_ggml_backend_reg_count(); i++) {
-        lm_ggml_backend_reg_t reg = lm_ggml_backend_reg_get(i);
-        if (striequals(lm_ggml_backend_reg_name(reg), name)) {
-            return reg;
-        }
-    }
-    return nullptr;
-}
-// Device enumeration
-size_t lm_ggml_backend_dev_count() {
-    return get_reg().devices.size();
-}
-lm_ggml_backend_dev_t lm_ggml_backend_dev_get(size_t index) {
-    LM_GGML_ASSERT(index < lm_ggml_backend_dev_count());
-    return get_reg().devices[index];
-}
-lm_ggml_backend_dev_t lm_ggml_backend_dev_by_name(const char * name) {
-    for (size_t i = 0; i < lm_ggml_backend_dev_count(); i++) {
-        lm_ggml_backend_dev_t dev = lm_ggml_backend_dev_get(i);
-        if (striequals(lm_ggml_backend_dev_name(dev), name)) {
-            return dev;
-        }
-    }
-    return nullptr;
-}
-lm_ggml_backend_dev_t lm_ggml_backend_dev_by_type(enum lm_ggml_backend_dev_type type) {
-    for (size_t i = 0; i < lm_ggml_backend_dev_count(); i++) {
-        lm_ggml_backend_dev_t dev = lm_ggml_backend_dev_get(i);
-        if (lm_ggml_backend_dev_type(dev) == type) {
-            return dev;
-        }
-    }
-    return nullptr;
-}
-// Convenience functions
-lm_ggml_backend_t lm_ggml_backend_init_by_name(const char * name, const char * params) {
-    lm_ggml_backend_dev_t dev = lm_ggml_backend_dev_by_name(name);
-    if (!dev) {
-        return nullptr;
-    }
-    return lm_ggml_backend_dev_init(dev, params);
-}
-lm_ggml_backend_t lm_ggml_backend_init_by_type(enum lm_ggml_backend_dev_type type, const char * params) {
-    lm_ggml_backend_dev_t dev = lm_ggml_backend_dev_by_type(type);
-    if (!dev) {
-        return nullptr;
-    }
-    return lm_ggml_backend_dev_init(dev, params);
-}
-lm_ggml_backend_t lm_ggml_backend_init_best(void) {
-    lm_ggml_backend_dev_t dev = lm_ggml_backend_dev_by_type(LM_GGML_BACKEND_DEVICE_TYPE_GPU);
-    if (!dev) {
-        dev = lm_ggml_backend_dev_by_type(LM_GGML_BACKEND_DEVICE_TYPE_CPU);
-    }
-    if (!dev) {
-        return nullptr;
-    }
-    return lm_ggml_backend_dev_init(dev, nullptr);
-}
-// Dynamic loading
-lm_ggml_backend_reg_t lm_ggml_backend_load(const char * path) {
-    return get_reg().load_backend(utf8_to_utf16(path), false);
-}
-void lm_ggml_backend_unload(lm_ggml_backend_reg_t reg) {
-    get_reg().unload_backend(reg, true);
-}
-static std::wstring get_executable_path() {
-#if defined(__APPLE__)
-    // get executable path
-    std::vector<char> path;
-    uint32_t size;
-    while (true) {
-        size = path.size();
-        if (_NSGetExecutablePath(path.data(), &size) == 0) {
-            break;
-        }
-        path.resize(size);
-    }
-    std::string base_path(path.data(), size);
-    // remove executable name
-    auto last_slash = base_path.find_last_of('/');
-    if (last_slash != std::string::npos) {
-        base_path = base_path.substr(0, last_slash);
-    }
-    return utf8_to_utf16(base_path + "/");
-#elif defined(__linux__) || defined(__FreeBSD__)
-    std::string base_path = ".";
-    std::vector<char> path(1024);
-    while (true) {
-        // get executable path
-#    if defined(__linux__)
-        ssize_t len = readlink("/proc/self/exe", path.data(), path.size());
-#    elif defined(__FreeBSD__)
-        ssize_t len = readlink("/proc/curproc/file", path.data(), path.size());
-#    endif
-        if (len == -1) {
-            break;
-        }
-        if (len < (ssize_t) path.size()) {
-            base_path = std::string(path.data(), len);
-            // remove executable name
-            auto last_slash = base_path.find_last_of('/');
-            if (last_slash != std::string::npos) {
-                base_path = base_path.substr(0, last_slash);
-            }
-            break;
-        }
-        path.resize(path.size() * 2);
-    }
-    return utf8_to_utf16(base_path + "/");
-#elif defined(_WIN32)
-    std::vector<wchar_t> path(MAX_PATH);
-    DWORD len = GetModuleFileNameW(NULL, path.data(), path.size());
-    if (len == 0) {
-        return {};
-    }
-    std::wstring base_path(path.data(), len);
-    // remove executable name
-    auto last_slash = base_path.find_last_of('\\');
-    if (last_slash != std::string::npos) {
-        base_path = base_path.substr(0, last_slash);
-    }
-    return base_path + L"\\";
-#else
-    return {};
-#endif
-}
-static std::wstring backend_filename_prefix() {
-#ifdef _WIN32
-    return L"ggml-";
-#else
-    return L"libggml-";
-#endif
-}
-static std::wstring backend_filename_suffix() {
-#ifdef _WIN32
-    return L".dll";
-#else
-    return L".so";
-#endif
-}
-static std::wstring path_separator() {
-#ifdef _WIN32
-    return L"\\";
-#else
-    return L"/";
-#endif
-}
-static lm_ggml_backend_reg_t lm_ggml_backend_load_best(const char * name, bool silent, const char * user_search_path) {
-    // enumerate all the files that match [lib]ggml-name-*.[so|dll] in the search paths
-     // TODO: search system paths
-    std::wstring file_prefix = backend_filename_prefix() + utf8_to_utf16(name) + L"-";
-    std::vector<std::wstring> search_paths;
-    if (user_search_path == nullptr) {
-        search_paths.push_back(L"." + path_separator());
-        search_paths.push_back(get_executable_path());
-    } else {
-        search_paths.push_back(utf8_to_utf16(user_search_path) + path_separator());
-    }
-    int best_score = 0;
-    std::wstring best_path;
-    namespace fs = std::filesystem;
-    for (const auto & search_path : search_paths) {
-        if (!fs::exists(search_path)) {
-            continue;
-        }
-        fs::directory_iterator dir_it(search_path, fs::directory_options::skip_permission_denied);
-        for (const auto & entry : dir_it) {
-            if (entry.is_regular_file()) {
-                std::wstring filename = entry.path().filename().wstring();
-                std::wstring ext = entry.path().extension().wstring();
-                if (filename.find(file_prefix) == 0 && ext == backend_filename_suffix()) {
-                    dl_handle_ptr handle { dl_load_library(entry.path().wstring()) };
-                    if (!handle && !silent) {
-                        LM_GGML_LOG_ERROR("%s: failed to load %s\n", __func__, utf16_to_utf8(entry.path().wstring()).c_str());
-                    }
-                    if (handle) {
-                        auto score_fn = (lm_ggml_backend_score_t) dl_get_sym(handle.get(), "lm_ggml_backend_score");
-                        if (score_fn) {
-                            int s = score_fn();
-#ifndef NDEBUG
-                            LM_GGML_LOG_DEBUG("%s: %s score: %d\n", __func__, utf16_to_utf8(entry.path().wstring()).c_str(), s);
-#endif
-                            if (s > best_score) {
-                                best_score = s;
-                                best_path = entry.path().wstring();
-                            }
-                        } else {
-                            if (!silent) {
-                                LM_GGML_LOG_INFO("%s: failed to find lm_ggml_backend_score in %s\n", __func__, utf16_to_utf8(entry.path().wstring()).c_str());
-                            }
-                        }
-                    }
-                }
-            }
-        }
-    }
-    if (best_score == 0) {
-        // try to load the base backend
-        for (const auto & search_path : search_paths) {
-            std::wstring path = search_path + backend_filename_prefix() + utf8_to_utf16(name) + backend_filename_suffix();
-            if (fs::exists(path)) {
-                return get_reg().load_backend(path, silent);
-            }
-        }
-        return nullptr;
-    }
-    return get_reg().load_backend(best_path, silent);
-}
-void lm_ggml_backend_load_all() {
-    lm_ggml_backend_load_all_from_path(nullptr);
-}
-void lm_ggml_backend_load_all_from_path(const char * dir_path) {
-#ifdef NDEBUG
-    bool silent = true;
-#else
-    bool silent = false;
-#endif
-    lm_ggml_backend_load_best("blas", silent, dir_path);
-    lm_ggml_backend_load_best("cann", silent, dir_path);
-    lm_ggml_backend_load_best("cuda", silent, dir_path);
-    lm_ggml_backend_load_best("hip", silent, dir_path);
-    lm_ggml_backend_load_best("kompute", silent, dir_path);
-    lm_ggml_backend_load_best("metal", silent, dir_path);
-    lm_ggml_backend_load_best("rpc", silent, dir_path);
-    lm_ggml_backend_load_best("sycl", silent, dir_path);
-    lm_ggml_backend_load_best("vulkan", silent, dir_path);
-    lm_ggml_backend_load_best("opencl", silent, dir_path);
-    lm_ggml_backend_load_best("musa", silent, dir_path);
-    lm_ggml_backend_load_best("cpu", silent, dir_path);
-    // check the environment variable LM_GGML_BACKEND_PATH to load an out-of-tree backend
-    const char * backend_path = std::getenv("LM_GGML_BACKEND_PATH");
-    if (backend_path) {
-        lm_ggml_backend_load(backend_path);
-    }
-}
+#include "ggml-backend-impl.h"
+#include "ggml-backend.h"
+#include "ggml-impl.h"
+#include <algorithm>
+#include <cstring>
+#include <filesystem>
+#include <memory>
+#include <string>
+#include <type_traits>
+#include <vector>
+#include <cctype>
+#ifdef _WIN32
+#    define WIN32_LEAN_AND_MEAN
+#    ifndef NOMINMAX
+#        define NOMINMAX
+#    endif
+#    include <windows.h>
+#elif defined(__APPLE__)
+#    include <mach-o/dyld.h>
+#    include <dlfcn.h>
+#else
+#    include <dlfcn.h>
+#    include <unistd.h>
+#endif
+// Backend registry
+#ifdef LM_GGML_USE_CPU
+#include "ggml-cpu.h"
+#endif
+#ifdef LM_GGML_USE_CUDA
+#include "ggml-cuda.h"
+#endif
+#ifdef LM_GGML_USE_METAL
+#include "ggml-metal.h"
+#endif
+#ifdef LM_GGML_USE_SYCL
+#include "ggml-sycl.h"
+#endif
+#ifdef LM_GGML_USE_VULKAN
+#include "ggml-vulkan.h"
+#endif
+#ifdef LM_GGML_USE_OPENCL
+#include "ggml-opencl.h"
+#endif
+#ifdef LM_GGML_USE_BLAS
+#include "ggml-blas.h"
+#endif
+#ifdef LM_GGML_USE_RPC
+#include "ggml-rpc.h"
+#endif
+#ifdef LM_GGML_USE_CANN
+#include "ggml-cann.h"
+#endif
+#ifdef LM_GGML_USE_KOMPUTE
+#include "ggml-kompute.h"
+#endif
+// disable C++17 deprecation warning for std::codecvt_utf8
+#if defined(__clang__)
+#    pragma clang diagnostic push
+#    pragma clang diagnostic ignored "-Wdeprecated-declarations"
+#endif
+namespace fs = std::filesystem;
+static std::string path_str(const fs::path & path) {
+    std::string u8path;
+    try {
+#if defined(__cpp_lib_char8_t)
+        // C++20 and later: u8string() returns std::u8string
+        std::u8string u8str = path.u8string();
+        u8path = std::string(reinterpret_cast<const char*>(u8str.c_str()));
+#else
+        // C++17: u8string() returns std::string
+        u8path = path.u8string();
+#endif
+    } catch (...) {
+    }
+    return u8path;
+}
+#if defined(__clang__)
+#    pragma clang diagnostic pop
+#endif
+#ifdef _WIN32
+using dl_handle = std::remove_pointer_t<HMODULE>;
+struct dl_handle_deleter {
+    void operator()(HMODULE handle) {
+        FreeLibrary(handle);
+    }
+};
+static dl_handle * dl_load_library(const fs::path & path) {
+    // suppress error dialogs for missing DLLs
+    DWORD old_mode = SetErrorMode(SEM_FAILCRITICALERRORS);
+    SetErrorMode(old_mode | SEM_FAILCRITICALERRORS);
+    HMODULE handle = LoadLibraryW(path.wstring().c_str());
+    SetErrorMode(old_mode);
+    return handle;
+}
+static void * dl_get_sym(dl_handle * handle, const char * name) {
+    DWORD old_mode = SetErrorMode(SEM_FAILCRITICALERRORS);
+    SetErrorMode(old_mode | SEM_FAILCRITICALERRORS);
+    void * p = (void *) GetProcAddress(handle, name);
+    SetErrorMode(old_mode);
+    return p;
+}
+#else
+using dl_handle = void;
+struct dl_handle_deleter {
+    void operator()(void * handle) {
+        dlclose(handle);
+    }
+};
+static void * dl_load_library(const fs::path & path) {
+    dl_handle * handle = dlopen(path.string().c_str(), RTLD_NOW | RTLD_LOCAL);
+    return handle;
+}
+static void * dl_get_sym(dl_handle * handle, const char * name) {
+    return dlsym(handle, name);
+}
+#endif
+using dl_handle_ptr = std::unique_ptr<dl_handle, dl_handle_deleter>;
+struct lm_ggml_backend_reg_entry {
+    lm_ggml_backend_reg_t reg;
+    dl_handle_ptr handle;
+};
+struct lm_ggml_backend_registry {
+    std::vector<lm_ggml_backend_reg_entry> backends;
+    std::vector<lm_ggml_backend_dev_t> devices;
+    lm_ggml_backend_registry() {
+#ifdef LM_GGML_USE_CUDA
+        register_backend(lm_ggml_backend_cuda_reg());
+#endif
+#ifdef LM_GGML_USE_METAL
+        register_backend(lm_ggml_backend_metal_reg());
+#endif
+#ifdef LM_GGML_USE_SYCL
+        register_backend(lm_ggml_backend_sycl_reg());
+#endif
+#ifdef LM_GGML_USE_VULKAN
+        register_backend(lm_ggml_backend_vk_reg());
+#endif
+#ifdef LM_GGML_USE_OPENCL
+        register_backend(lm_ggml_backend_opencl_reg());
+#endif
+#ifdef LM_GGML_USE_CANN
+        register_backend(lm_ggml_backend_cann_reg());
+#endif
+#ifdef LM_GGML_USE_BLAS
+        register_backend(lm_ggml_backend_blas_reg());
+#endif
+#ifdef LM_GGML_USE_RPC
+        register_backend(lm_ggml_backend_rpc_reg());
+#endif
+#ifdef LM_GGML_USE_KOMPUTE
+        register_backend(lm_ggml_backend_kompute_reg());
+#endif
+#ifdef LM_GGML_USE_CPU
+        register_backend(lm_ggml_backend_cpu_reg());
+#endif
+    }
+    ~lm_ggml_backend_registry() {
+        // FIXME: backends cannot be safely unloaded without a function to destroy all the backend resources,
+        // since backend threads may still be running and accessing resources from the dynamic library
+        for (auto & entry : backends) {
+            if (entry.handle) {
+                entry.handle.release(); // NOLINT
+            }
+        }
+    }
+    void register_backend(lm_ggml_backend_reg_t reg, dl_handle_ptr handle = nullptr) {
+        if (!reg) {
+            return;
+        }
+#ifndef NDEBUG
+        LM_GGML_LOG_DEBUG("%s: registered backend %s (%zu devices)\n",
+            __func__, lm_ggml_backend_reg_name(reg), lm_ggml_backend_reg_dev_count(reg));
+#endif
+        backends.push_back({ reg, std::move(handle) });
+        for (size_t i = 0; i < lm_ggml_backend_reg_dev_count(reg); i++) {
+            register_device(lm_ggml_backend_reg_dev_get(reg, i));
+        }
+    }
+    void register_device(lm_ggml_backend_dev_t device) {
+#ifndef NDEBUG
+        LM_GGML_LOG_DEBUG("%s: registered device %s (%s)\n", __func__, lm_ggml_backend_dev_name(device), lm_ggml_backend_dev_description(device));
+#endif
+        devices.push_back(device);
+    }
+    lm_ggml_backend_reg_t load_backend(const fs::path & path, bool silent) {
+        dl_handle_ptr handle { dl_load_library(path) };
+        if (!handle) {
+            if (!silent) {
+                LM_GGML_LOG_ERROR("%s: failed to load %s\n", __func__, path_str(path).c_str());
+            }
+            return nullptr;
+        }
+        auto score_fn = (lm_ggml_backend_score_t) dl_get_sym(handle.get(), "lm_ggml_backend_score");
+        if (score_fn && score_fn() == 0) {
+            if (!silent) {
+                LM_GGML_LOG_INFO("%s: backend %s is not supported on this system\n", __func__, path_str(path).c_str());
+            }
+            return nullptr;
+        }
+        auto backend_init_fn = (lm_ggml_backend_init_t) dl_get_sym(handle.get(), "lm_ggml_backend_init");
+        if (!backend_init_fn) {
+            if (!silent) {
+                LM_GGML_LOG_ERROR("%s: failed to find lm_ggml_backend_init in %s\n", __func__, path_str(path).c_str());
+            }
+            return nullptr;
+        }
+        lm_ggml_backend_reg_t reg = backend_init_fn();
+        if (!reg || reg->api_version != LM_GGML_BACKEND_API_VERSION) {
+            if (!silent) {
+                if (!reg) {
+                    LM_GGML_LOG_ERROR("%s: failed to initialize backend from %s: lm_ggml_backend_init returned NULL\n",
+                        __func__, path_str(path).c_str());
+                } else {
+                    LM_GGML_LOG_ERROR("%s: failed to initialize backend from %s: incompatible API version (backend: %d, current: %d)\n",
+                        __func__, path_str(path).c_str(), reg->api_version, LM_GGML_BACKEND_API_VERSION);
+                }
+            }
+            return nullptr;
+        }
+        LM_GGML_LOG_INFO("%s: loaded %s backend from %s\n", __func__, lm_ggml_backend_reg_name(reg), path_str(path).c_str());
+        register_backend(reg, std::move(handle));
+        return reg;
+    }
+    void unload_backend(lm_ggml_backend_reg_t reg, bool silent) {
+        auto it = std::find_if(backends.begin(), backends.end(),
+                               [reg](const lm_ggml_backend_reg_entry & entry) { return entry.reg == reg; });
+        if (it == backends.end()) {
+            if (!silent) {
+                LM_GGML_LOG_ERROR("%s: backend not found\n", __func__);
+            }
+            return;
+        }
+        if (!silent) {
+            LM_GGML_LOG_DEBUG("%s: unloading %s backend\n", __func__, lm_ggml_backend_reg_name(reg));
+        }
+        // remove devices
+        devices.erase(
+            std::remove_if(devices.begin(), devices.end(),
+                            [reg](lm_ggml_backend_dev_t dev) { return lm_ggml_backend_dev_backend_reg(dev) == reg; }),
+            devices.end());
+        // remove backend
+        backends.erase(it);
+    }
+};
+static lm_ggml_backend_registry & get_reg() {
+    static lm_ggml_backend_registry reg;
+    return reg;
+}
+// Internal API
+void lm_ggml_backend_register(lm_ggml_backend_reg_t reg) {
+    get_reg().register_backend(reg);
+}
+void lm_ggml_backend_device_register(lm_ggml_backend_dev_t device) {
+    get_reg().register_device(device);
+}
+// Backend (reg) enumeration
+static bool striequals(const char * a, const char * b) {
+    for (; *a && *b; a++, b++) {
+        if (std::tolower(*a) != std::tolower(*b)) {
+            return false;
+        }
+    }
+    return *a == *b;
+}
+size_t lm_ggml_backend_reg_count() {
+    return get_reg().backends.size();
+}
+lm_ggml_backend_reg_t lm_ggml_backend_reg_get(size_t index) {
+    LM_GGML_ASSERT(index < lm_ggml_backend_reg_count());
+    return get_reg().backends[index].reg;
+}
+lm_ggml_backend_reg_t lm_ggml_backend_reg_by_name(const char * name) {
+    for (size_t i = 0; i < lm_ggml_backend_reg_count(); i++) {
+        lm_ggml_backend_reg_t reg = lm_ggml_backend_reg_get(i);
+        if (striequals(lm_ggml_backend_reg_name(reg), name)) {
+            return reg;
+        }
+    }
+    return nullptr;
+}
+// Device enumeration
+size_t lm_ggml_backend_dev_count() {
+    return get_reg().devices.size();
+}
+lm_ggml_backend_dev_t lm_ggml_backend_dev_get(size_t index) {
+    LM_GGML_ASSERT(index < lm_ggml_backend_dev_count());
+    return get_reg().devices[index];
+}
+lm_ggml_backend_dev_t lm_ggml_backend_dev_by_name(const char * name) {
+    for (size_t i = 0; i < lm_ggml_backend_dev_count(); i++) {
+        lm_ggml_backend_dev_t dev = lm_ggml_backend_dev_get(i);
+        if (striequals(lm_ggml_backend_dev_name(dev), name)) {
+            return dev;
+        }
+    }
+    return nullptr;
+}
+lm_ggml_backend_dev_t lm_ggml_backend_dev_by_type(enum lm_ggml_backend_dev_type type) {
+    for (size_t i = 0; i < lm_ggml_backend_dev_count(); i++) {
+        lm_ggml_backend_dev_t dev = lm_ggml_backend_dev_get(i);
+        if (lm_ggml_backend_dev_type(dev) == type) {
+            return dev;
+        }
+    }
+    return nullptr;
+}
+// Convenience functions
+lm_ggml_backend_t lm_ggml_backend_init_by_name(const char * name, const char * params) {
+    lm_ggml_backend_dev_t dev = lm_ggml_backend_dev_by_name(name);
+    if (!dev) {
+        return nullptr;
+    }
+    return lm_ggml_backend_dev_init(dev, params);
+}
+lm_ggml_backend_t lm_ggml_backend_init_by_type(enum lm_ggml_backend_dev_type type, const char * params) {
+    lm_ggml_backend_dev_t dev = lm_ggml_backend_dev_by_type(type);
+    if (!dev) {
+        return nullptr;
+    }
+    return lm_ggml_backend_dev_init(dev, params);
+}
+lm_ggml_backend_t lm_ggml_backend_init_best(void) {
+    lm_ggml_backend_dev_t dev = lm_ggml_backend_dev_by_type(LM_GGML_BACKEND_DEVICE_TYPE_GPU);
+    if (!dev) {
+        dev = lm_ggml_backend_dev_by_type(LM_GGML_BACKEND_DEVICE_TYPE_CPU);
+    }
+    if (!dev) {
+        return nullptr;
+    }
+    return lm_ggml_backend_dev_init(dev, nullptr);
+}
+// Dynamic loading
+lm_ggml_backend_reg_t lm_ggml_backend_load(const char * path) {
+    return get_reg().load_backend(path, false);
+}
+void lm_ggml_backend_unload(lm_ggml_backend_reg_t reg) {
+    get_reg().unload_backend(reg, true);
+}
+static fs::path get_executable_path() {
+#if defined(__APPLE__)
+    // get executable path
+    std::vector<char> path;
+    uint32_t size;
+    while (true) {
+        size = path.size();
+        if (_NSGetExecutablePath(path.data(), &size) == 0) {
+            break;
+        }
+        path.resize(size);
+    }
+    std::string base_path(path.data(), size);
+    // remove executable name
+    auto last_slash = base_path.find_last_of('/');
+    if (last_slash != std::string::npos) {
+        base_path = base_path.substr(0, last_slash);
+    }
+    return base_path + "/";
+#elif defined(__linux__) || defined(__FreeBSD__)
+    std::string base_path = ".";
+    std::vector<char> path(1024);
+    while (true) {
+        // get executable path
+#    if defined(__linux__)
+        ssize_t len = readlink("/proc/self/exe", path.data(), path.size());
+#    elif defined(__FreeBSD__)
+        ssize_t len = readlink("/proc/curproc/file", path.data(), path.size());
+#    endif
+        if (len == -1) {
+            break;
+        }
+        if (len < (ssize_t) path.size()) {
+            base_path = std::string(path.data(), len);
+            // remove executable name
+            auto last_slash = base_path.find_last_of('/');
+            if (last_slash != std::string::npos) {
+                base_path = base_path.substr(0, last_slash);
+            }
+            break;
+        }
+        path.resize(path.size() * 2);
+    }
+    return base_path + "/";
+#elif defined(_WIN32)
+    std::vector<wchar_t> path(MAX_PATH);
+    DWORD len = GetModuleFileNameW(NULL, path.data(), path.size());
+    if (len == 0) {
+        return {};
+    }
+    std::wstring base_path(path.data(), len);
+    // remove executable name
+    auto last_slash = base_path.find_last_of('\\');
+    if (last_slash != std::string::npos) {
+        base_path = base_path.substr(0, last_slash);
+    }
+    return base_path + L"\\";
+#else
+    return {};
+#endif
+}
+static fs::path backend_filename_prefix() {
+#ifdef _WIN32
+    return fs::u8path("ggml-");
+#else
+    return fs::u8path("libggml-");
+#endif
+}
+static fs::path backend_filename_extension() {
+#ifdef _WIN32
+    return fs::u8path(".dll");
+#else
+    return fs::u8path(".so");
+#endif
+}
+static lm_ggml_backend_reg_t lm_ggml_backend_load_best(const char * name, bool silent, const char * user_search_path) {
+    // enumerate all the files that match [lib]ggml-name-*.[so|dll] in the search paths
+    const fs::path name_path = fs::u8path(name);
+    const fs::path file_prefix = backend_filename_prefix().native() + name_path.native() + fs::u8path("-").native();
+    const fs::path file_extension = backend_filename_extension();
+    std::vector<fs::path> search_paths;
+    if (user_search_path == nullptr) {
+        // default search paths: executable directory, current directory
+        search_paths.push_back(get_executable_path());
+        search_paths.push_back(fs::current_path());
+    } else {
+        search_paths.push_back(fs::u8path(user_search_path));
+    }
+    int best_score = 0;
+    fs::path best_path;
+    for (const auto & search_path : search_paths) {
+        if (!fs::exists(search_path)) {
+            LM_GGML_LOG_DEBUG("%s: search path %s does not exist\n", __func__, path_str(search_path).c_str());
+            continue;
+        }
+        fs::directory_iterator dir_it(search_path, fs::directory_options::skip_permission_denied);
+        for (const auto & entry : dir_it) {
+            if (entry.is_regular_file()) {
+                auto filename = entry.path().filename();
+                auto ext = entry.path().extension();
+                if (filename.native().find(file_prefix) == 0 && ext == file_extension) {
+                    dl_handle_ptr handle { dl_load_library(entry) };
+                    if (!handle && !silent) {
+                        LM_GGML_LOG_ERROR("%s: failed to load %s\n", __func__, path_str(entry.path()).c_str());
+                    }
+                    if (handle) {
+                        auto score_fn = (lm_ggml_backend_score_t) dl_get_sym(handle.get(), "lm_ggml_backend_score");
+                        if (score_fn) {
+                            int s = score_fn();
+#ifndef NDEBUG
+                            LM_GGML_LOG_DEBUG("%s: %s score: %d\n", __func__, path_str(entry.path()).c_str(), s);
+#endif
+                            if (s > best_score) {
+                                best_score = s;
+                                best_path = entry.path();
+                            }
+                        } else {
+                            if (!silent) {
+                                LM_GGML_LOG_INFO("%s: failed to find lm_ggml_backend_score in %s\n", __func__, path_str(entry.path()).c_str());
+                            }
+                        }
+                    }
+                }
+            }
+        }
+    }
+    if (best_score == 0) {
+        // try to load the base backend
+        for (const auto & search_path : search_paths) {
+            fs::path filename = backend_filename_prefix().native() + name_path.native() + backend_filename_extension().native();
+            fs::path path = search_path / filename;
+            if (fs::exists(path)) {
+                return get_reg().load_backend(path, silent);
+            }
+        }
+        return nullptr;
+    }
+    return get_reg().load_backend(best_path, silent);
+}
+void lm_ggml_backend_load_all() {
+    lm_ggml_backend_load_all_from_path(nullptr);
+}
+void lm_ggml_backend_load_all_from_path(const char * dir_path) {
+#ifdef NDEBUG
+    bool silent = true;
+#else
+    bool silent = false;
+#endif
+    lm_ggml_backend_load_best("blas", silent, dir_path);
+    lm_ggml_backend_load_best("cann", silent, dir_path);
+    lm_ggml_backend_load_best("cuda", silent, dir_path);
+    lm_ggml_backend_load_best("hip", silent, dir_path);
+    lm_ggml_backend_load_best("kompute", silent, dir_path);
+    lm_ggml_backend_load_best("metal", silent, dir_path);
+    lm_ggml_backend_load_best("rpc", silent, dir_path);
+    lm_ggml_backend_load_best("sycl", silent, dir_path);
+    lm_ggml_backend_load_best("vulkan", silent, dir_path);
+    lm_ggml_backend_load_best("opencl", silent, dir_path);
+    lm_ggml_backend_load_best("musa", silent, dir_path);
+    lm_ggml_backend_load_best("cpu", silent, dir_path);
+    // check the environment variable LM_GGML_BACKEND_PATH to load an out-of-tree backend
+    const char * backend_path = std::getenv("LM_GGML_BACKEND_PATH");
+    if (backend_path) {
+        lm_ggml_backend_load(backend_path);
+    }
+}