npm - local-llm-rn - Versions diffs - 1.0.0 - Mend

local-llm-rn 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (626) hide show

package/cpp/CMakeLists.txt +285 -0
package/cpp/common/CMakeLists.txt +149 -0
package/cpp/common/arg.cpp +3799 -0
package/cpp/common/arg.h +131 -0
package/cpp/common/base64.hpp +392 -0
package/cpp/common/build-info.cpp.in +4 -0
package/cpp/common/chat-parser-xml-toolcall.cpp +879 -0
package/cpp/common/chat-parser-xml-toolcall.h +45 -0
package/cpp/common/chat-parser.cpp +1649 -0
package/cpp/common/chat-parser.h +133 -0
package/cpp/common/chat-peg-parser.cpp +124 -0
package/cpp/common/chat-peg-parser.h +105 -0
package/cpp/common/chat.cpp +3355 -0
package/cpp/common/chat.h +252 -0
package/cpp/common/common.cpp +1824 -0
package/cpp/common/common.h +930 -0
package/cpp/common/console.cpp +1137 -0
package/cpp/common/console.h +41 -0
package/cpp/common/debug.cpp +167 -0
package/cpp/common/debug.h +43 -0
package/cpp/common/download.cpp +792 -0
package/cpp/common/download.h +84 -0
package/cpp/common/http.h +84 -0
package/cpp/common/jinja/README.md +88 -0
package/cpp/common/jinja/caps.cpp +285 -0
package/cpp/common/jinja/caps.h +30 -0
package/cpp/common/jinja/lexer.cpp +341 -0
package/cpp/common/jinja/lexer.h +157 -0
package/cpp/common/jinja/parser.cpp +591 -0
package/cpp/common/jinja/parser.h +21 -0
package/cpp/common/jinja/runtime.cpp +867 -0
package/cpp/common/jinja/runtime.h +638 -0
package/cpp/common/jinja/string.cpp +213 -0
package/cpp/common/jinja/string.h +61 -0
package/cpp/common/jinja/utils.h +149 -0
package/cpp/common/jinja/value.cpp +1393 -0
package/cpp/common/jinja/value.h +756 -0
package/cpp/common/json-partial.cpp +324 -0
package/cpp/common/json-partial.h +39 -0
package/cpp/common/json-schema-to-grammar.cpp +1153 -0
package/cpp/common/json-schema-to-grammar.h +43 -0
package/cpp/common/llguidance.cpp +258 -0
package/cpp/common/log.cpp +446 -0
package/cpp/common/log.h +119 -0
package/cpp/common/ngram-cache.cpp +285 -0
package/cpp/common/ngram-cache.h +101 -0
package/cpp/common/ngram-map.cpp +530 -0
package/cpp/common/ngram-map.h +115 -0
package/cpp/common/ngram-mod.cpp +60 -0
package/cpp/common/ngram-mod.h +38 -0
package/cpp/common/peg-parser.cpp +1712 -0
package/cpp/common/peg-parser.h +459 -0
package/cpp/common/preset.cpp +483 -0
package/cpp/common/preset.h +83 -0
package/cpp/common/regex-partial.cpp +204 -0
package/cpp/common/regex-partial.h +56 -0
package/cpp/common/sampling.cpp +745 -0
package/cpp/common/sampling.h +119 -0
package/cpp/common/speculative.cpp +1074 -0
package/cpp/common/speculative.h +41 -0
package/cpp/common/unicode.cpp +64 -0
package/cpp/common/unicode.h +22 -0
package/cpp/ggml/CMakeLists.txt +494 -0
package/cpp/ggml/cmake/GitVars.cmake +22 -0
package/cpp/ggml/cmake/common.cmake +50 -0
package/cpp/ggml/cmake/ggml-config.cmake.in +191 -0
package/cpp/ggml/include/ggml-alloc.h +85 -0
package/cpp/ggml/include/ggml-backend.h +373 -0
package/cpp/ggml/include/ggml-blas.h +25 -0
package/cpp/ggml/include/ggml-cann.h +123 -0
package/cpp/ggml/include/ggml-cpp.h +39 -0
package/cpp/ggml/include/ggml-cpu.h +151 -0
package/cpp/ggml/include/ggml-cuda.h +47 -0
package/cpp/ggml/include/ggml-hexagon.h +19 -0
package/cpp/ggml/include/ggml-metal.h +61 -0
package/cpp/ggml/include/ggml-opencl.h +26 -0
package/cpp/ggml/include/ggml-opt.h +256 -0
package/cpp/ggml/include/ggml-rpc.h +30 -0
package/cpp/ggml/include/ggml-sycl.h +49 -0
package/cpp/ggml/include/ggml-virtgpu.h +14 -0
package/cpp/ggml/include/ggml-vulkan.h +29 -0
package/cpp/ggml/include/ggml-webgpu.h +19 -0
package/cpp/ggml/include/ggml-zdnn.h +17 -0
package/cpp/ggml/include/ggml-zendnn.h +22 -0
package/cpp/ggml/include/ggml.h +2753 -0
package/cpp/ggml/include/gguf.h +204 -0
package/cpp/ggml/src/CMakeLists.txt +492 -0
package/cpp/ggml/src/ggml-alloc.c +1244 -0
package/cpp/ggml/src/ggml-backend-dl.cpp +48 -0
package/cpp/ggml/src/ggml-backend-dl.h +45 -0
package/cpp/ggml/src/ggml-backend-impl.h +255 -0
package/cpp/ggml/src/ggml-backend-reg.cpp +566 -0
package/cpp/ggml/src/ggml-backend.cpp +2270 -0
package/cpp/ggml/src/ggml-blas/CMakeLists.txt +101 -0
package/cpp/ggml/src/ggml-blas/ggml-blas.cpp +518 -0
package/cpp/ggml/src/ggml-common.h +1878 -0
package/cpp/ggml/src/ggml-cpu/CMakeLists.txt +691 -0
package/cpp/ggml/src/ggml-cpu/amx/amx.cpp +247 -0
package/cpp/ggml/src/ggml-cpu/amx/amx.h +8 -0
package/cpp/ggml/src/ggml-cpu/amx/common.h +91 -0
package/cpp/ggml/src/ggml-cpu/amx/mmq.cpp +2512 -0
package/cpp/ggml/src/ggml-cpu/amx/mmq.h +10 -0
package/cpp/ggml/src/ggml-cpu/arch/arm/cpu-feats.cpp +98 -0
package/cpp/ggml/src/ggml-cpu/arch/arm/quants.c +4052 -0
package/cpp/ggml/src/ggml-cpu/arch/arm/repack.cpp +4935 -0
package/cpp/ggml/src/ggml-cpu/arch/loongarch/quants.c +2159 -0
package/cpp/ggml/src/ggml-cpu/arch/powerpc/cpu-feats.cpp +82 -0
package/cpp/ggml/src/ggml-cpu/arch/powerpc/quants.c +2305 -0
package/cpp/ggml/src/ggml-cpu/arch/riscv/cpu-feats.cpp +38 -0
package/cpp/ggml/src/ggml-cpu/arch/riscv/quants.c +2726 -0
package/cpp/ggml/src/ggml-cpu/arch/riscv/repack.cpp +342 -0
package/cpp/ggml/src/ggml-cpu/arch/s390/cpu-feats.cpp +50 -0
package/cpp/ggml/src/ggml-cpu/arch/s390/quants.c +1468 -0
package/cpp/ggml/src/ggml-cpu/arch/wasm/quants.c +1221 -0
package/cpp/ggml/src/ggml-cpu/arch/x86/cpu-feats.cpp +327 -0
package/cpp/ggml/src/ggml-cpu/arch/x86/quants.c +3820 -0
package/cpp/ggml/src/ggml-cpu/arch/x86/repack.cpp +6307 -0
package/cpp/ggml/src/ggml-cpu/arch-fallback.h +313 -0
package/cpp/ggml/src/ggml-cpu/binary-ops.cpp +154 -0
package/cpp/ggml/src/ggml-cpu/binary-ops.h +16 -0
package/cpp/ggml/src/ggml-cpu/cmake/FindSIMD.cmake +100 -0
package/cpp/ggml/src/ggml-cpu/common.h +95 -0
package/cpp/ggml/src/ggml-cpu/ggml-cpu-impl.h +529 -0
package/cpp/ggml/src/ggml-cpu/ggml-cpu.c +3734 -0
package/cpp/ggml/src/ggml-cpu/ggml-cpu.cpp +701 -0
package/cpp/ggml/src/ggml-cpu/hbm.cpp +55 -0
package/cpp/ggml/src/ggml-cpu/hbm.h +8 -0
package/cpp/ggml/src/ggml-cpu/kleidiai/kernels.cpp +938 -0
package/cpp/ggml/src/ggml-cpu/kleidiai/kernels.h +90 -0
package/cpp/ggml/src/ggml-cpu/kleidiai/kleidiai.cpp +798 -0
package/cpp/ggml/src/ggml-cpu/kleidiai/kleidiai.h +17 -0
package/cpp/ggml/src/ggml-cpu/llamafile/sgemm.cpp +4033 -0
package/cpp/ggml/src/ggml-cpu/llamafile/sgemm.h +25 -0
package/cpp/ggml/src/ggml-cpu/ops.cpp +10978 -0
package/cpp/ggml/src/ggml-cpu/ops.h +116 -0
package/cpp/ggml/src/ggml-cpu/quants.c +1193 -0
package/cpp/ggml/src/ggml-cpu/quants.h +97 -0
package/cpp/ggml/src/ggml-cpu/repack.cpp +3316 -0
package/cpp/ggml/src/ggml-cpu/repack.h +173 -0
package/cpp/ggml/src/ggml-cpu/simd-gemm.h +136 -0
package/cpp/ggml/src/ggml-cpu/simd-mappings.h +1279 -0
package/cpp/ggml/src/ggml-cpu/spacemit/ime.cpp +1025 -0
package/cpp/ggml/src/ggml-cpu/spacemit/ime.h +13 -0
package/cpp/ggml/src/ggml-cpu/spacemit/ime1_kernels.cpp +3196 -0
package/cpp/ggml/src/ggml-cpu/spacemit/ime_kernels.h +26 -0
package/cpp/ggml/src/ggml-cpu/traits.cpp +36 -0
package/cpp/ggml/src/ggml-cpu/traits.h +38 -0
package/cpp/ggml/src/ggml-cpu/unary-ops.cpp +337 -0
package/cpp/ggml/src/ggml-cpu/unary-ops.h +35 -0
package/cpp/ggml/src/ggml-cpu/vec.cpp +629 -0
package/cpp/ggml/src/ggml-cpu/vec.h +1585 -0
package/cpp/ggml/src/ggml-hexagon/CMakeLists.txt +117 -0
package/cpp/ggml/src/ggml-hexagon/ggml-hexagon.cpp +3232 -0
package/cpp/ggml/src/ggml-hexagon/htp/CMakeLists.txt +45 -0
package/cpp/ggml/src/ggml-hexagon/htp/act-ops.c +815 -0
package/cpp/ggml/src/ggml-hexagon/htp/argsort-ops.c +281 -0
package/cpp/ggml/src/ggml-hexagon/htp/binary-ops.c +827 -0
package/cpp/ggml/src/ggml-hexagon/htp/cmake-toolchain.cmake +157 -0
package/cpp/ggml/src/ggml-hexagon/htp/cpy-ops.c +251 -0
package/cpp/ggml/src/ggml-hexagon/htp/flash-attn-ops.c +666 -0
package/cpp/ggml/src/ggml-hexagon/htp/get-rows-ops.c +111 -0
package/cpp/ggml/src/ggml-hexagon/htp/hex-dma.c +63 -0
package/cpp/ggml/src/ggml-hexagon/htp/hex-dma.h +182 -0
package/cpp/ggml/src/ggml-hexagon/htp/hex-dump.h +77 -0
package/cpp/ggml/src/ggml-hexagon/htp/hex-fastdiv.h +37 -0
package/cpp/ggml/src/ggml-hexagon/htp/hex-utils.h +51 -0
package/cpp/ggml/src/ggml-hexagon/htp/htp-ctx.h +35 -0
package/cpp/ggml/src/ggml-hexagon/htp/htp-msg.h +154 -0
package/cpp/ggml/src/ggml-hexagon/htp/htp-ops.h +65 -0
package/cpp/ggml/src/ggml-hexagon/htp/htp_iface.idl +16 -0
package/cpp/ggml/src/ggml-hexagon/htp/hvx-arith.h +470 -0
package/cpp/ggml/src/ggml-hexagon/htp/hvx-base.h +173 -0
package/cpp/ggml/src/ggml-hexagon/htp/hvx-copy.h +245 -0
package/cpp/ggml/src/ggml-hexagon/htp/hvx-div.h +116 -0
package/cpp/ggml/src/ggml-hexagon/htp/hvx-dump.h +129 -0
package/cpp/ggml/src/ggml-hexagon/htp/hvx-exp.h +215 -0
package/cpp/ggml/src/ggml-hexagon/htp/hvx-floor.h +100 -0
package/cpp/ggml/src/ggml-hexagon/htp/hvx-inverse.h +176 -0
package/cpp/ggml/src/ggml-hexagon/htp/hvx-reduce.h +266 -0
package/cpp/ggml/src/ggml-hexagon/htp/hvx-scale.h +133 -0
package/cpp/ggml/src/ggml-hexagon/htp/hvx-sigmoid.h +141 -0
package/cpp/ggml/src/ggml-hexagon/htp/hvx-sqrt.h +126 -0
package/cpp/ggml/src/ggml-hexagon/htp/hvx-types.h +36 -0
package/cpp/ggml/src/ggml-hexagon/htp/hvx-utils.h +18 -0
package/cpp/ggml/src/ggml-hexagon/htp/main.c +1150 -0
package/cpp/ggml/src/ggml-hexagon/htp/matmul-ops.c +2595 -0
package/cpp/ggml/src/ggml-hexagon/htp/rope-ops.c +498 -0
package/cpp/ggml/src/ggml-hexagon/htp/set-rows-ops.c +167 -0
package/cpp/ggml/src/ggml-hexagon/htp/softmax-ops.c +421 -0
package/cpp/ggml/src/ggml-hexagon/htp/sum-rows-ops.c +130 -0
package/cpp/ggml/src/ggml-hexagon/htp/unary-ops.c +384 -0
package/cpp/ggml/src/ggml-hexagon/htp/worker-pool.c +293 -0
package/cpp/ggml/src/ggml-hexagon/htp/worker-pool.h +57 -0
package/cpp/ggml/src/ggml-hexagon/htp-drv.cpp +418 -0
package/cpp/ggml/src/ggml-hexagon/htp-drv.h +121 -0
package/cpp/ggml/src/ggml-hexagon/libdl.h +79 -0
package/cpp/ggml/src/ggml-hexagon/libggml-htp.inf +38 -0
package/cpp/ggml/src/ggml-hexagon/op-desc.h +153 -0
package/cpp/ggml/src/ggml-impl.h +724 -0
package/cpp/ggml/src/ggml-metal/CMakeLists.txt +124 -0
package/cpp/ggml/src/ggml-metal/ggml-metal-common.cpp +457 -0
package/cpp/ggml/src/ggml-metal/ggml-metal-common.h +52 -0
package/cpp/ggml/src/ggml-metal/ggml-metal-context.h +41 -0
package/cpp/ggml/src/ggml-metal/ggml-metal-context.m +702 -0
package/cpp/ggml/src/ggml-metal/ggml-metal-device.cpp +1890 -0
package/cpp/ggml/src/ggml-metal/ggml-metal-device.h +290 -0
package/cpp/ggml/src/ggml-metal/ggml-metal-device.m +1749 -0
package/cpp/ggml/src/ggml-metal/ggml-metal-impl.h +1054 -0
package/cpp/ggml/src/ggml-metal/ggml-metal-ops.cpp +4370 -0
package/cpp/ggml/src/ggml-metal/ggml-metal-ops.h +94 -0
package/cpp/ggml/src/ggml-metal/ggml-metal.cpp +937 -0
package/cpp/ggml/src/ggml-metal/ggml-metal.metal +9819 -0
package/cpp/ggml/src/ggml-musa/CMakeLists.txt +125 -0
package/cpp/ggml/src/ggml-musa/mudnn.cu +112 -0
package/cpp/ggml/src/ggml-musa/mudnn.cuh +12 -0
package/cpp/ggml/src/ggml-opencl/CMakeLists.txt +150 -0
package/cpp/ggml/src/ggml-opencl/ggml-opencl.cpp +11553 -0
package/cpp/ggml/src/ggml-opencl/kernels/add.cl +190 -0
package/cpp/ggml/src/ggml-opencl/kernels/add_id.cl +42 -0
package/cpp/ggml/src/ggml-opencl/kernels/argsort.cl +86 -0
package/cpp/ggml/src/ggml-opencl/kernels/clamp.cl +20 -0
package/cpp/ggml/src/ggml-opencl/kernels/concat.cl +51 -0
package/cpp/ggml/src/ggml-opencl/kernels/conv2d.cl +185 -0
package/cpp/ggml/src/ggml-opencl/kernels/conv2d_f16_f32.cl +176 -0
package/cpp/ggml/src/ggml-opencl/kernels/cpy.cl +184 -0
package/cpp/ggml/src/ggml-opencl/kernels/cvt.cl +417 -0
package/cpp/ggml/src/ggml-opencl/kernels/diag_mask_inf.cl +58 -0
package/cpp/ggml/src/ggml-opencl/kernels/div.cl +138 -0
package/cpp/ggml/src/ggml-opencl/kernels/embed_kernel.py +26 -0
package/cpp/ggml/src/ggml-opencl/kernels/expm1.cl +113 -0
package/cpp/ggml/src/ggml-opencl/kernels/fill.cl +17 -0
package/cpp/ggml/src/ggml-opencl/kernels/flash_attn_f16.cl +370 -0
package/cpp/ggml/src/ggml-opencl/kernels/flash_attn_f32.cl +371 -0
package/cpp/ggml/src/ggml-opencl/kernels/flash_attn_f32_f16.cl +373 -0
package/cpp/ggml/src/ggml-opencl/kernels/gelu.cl +89 -0
package/cpp/ggml/src/ggml-opencl/kernels/gemm_moe_mxfp4_f32.cl +162 -0
package/cpp/ggml/src/ggml-opencl/kernels/gemv_moe_mxfp4_f32.cl +156 -0
package/cpp/ggml/src/ggml-opencl/kernels/gemv_noshuffle.cl +268 -0
package/cpp/ggml/src/ggml-opencl/kernels/gemv_noshuffle_general.cl +274 -0
package/cpp/ggml/src/ggml-opencl/kernels/gemv_noshuffle_general_q8_0_f32.cl +195 -0
package/cpp/ggml/src/ggml-opencl/kernels/get_rows.cl +187 -0
package/cpp/ggml/src/ggml-opencl/kernels/glu.cl +378 -0
package/cpp/ggml/src/ggml-opencl/kernels/group_norm.cl +121 -0
package/cpp/ggml/src/ggml-opencl/kernels/im2col_f16.cl +57 -0
package/cpp/ggml/src/ggml-opencl/kernels/im2col_f32.cl +57 -0
package/cpp/ggml/src/ggml-opencl/kernels/mean.cl +140 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul.cl +152 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mat_Ab_Bi_8x4.cl +139 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mat_f16_f32.cl +130 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mm_f16_f32_kq_kqv.cl +273 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mm_f16_f32_l4_lm.cl +146 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mm_f32_f32_l4_lm.cl +147 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mm_q4_0_f32_l4_lm.cl +163 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mm_q4_1_f32_l4_lm.cl +165 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mm_q6_k_f32_l4_lm.cl +158 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mm_q8_0_f32_8x4.cl +129 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mm_q8_0_f32_l4_lm.cl +154 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_f16_f16.cl +118 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_f16_f32.cl +118 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_f16_f32_1row.cl +94 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_f16_f32_l4.cl +84 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_f32_f32.cl +118 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_id_mxfp4_f32.cl +189 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_id_mxfp4_f32_flat.cl +176 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_id_q4_0_f32_8x_flat.cl +283 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_id_q8_0_f32.cl +140 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_id_q8_0_f32_flat.cl +222 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_mxfp4_f32.cl +144 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_mxfp4_f32_flat.cl +167 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_q4_0_f32.cl +192 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_q4_0_f32_1d_16x_flat.cl +307 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_q4_0_f32_1d_8x_flat.cl +265 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_q4_0_f32_8x_flat.cl +272 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_q4_0_f32_v.cl +254 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_q4_1_f32.cl +219 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_q4_1_f32_flat.cl +229 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_q4_k_f32.cl +180 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_q6_k_f32.cl +194 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_q6_k_f32_flat.cl +194 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_q8_0_f32.cl +125 -0
package/cpp/ggml/src/ggml-opencl/kernels/mul_mv_q8_0_f32_flat.cl +202 -0
package/cpp/ggml/src/ggml-opencl/kernels/norm.cl +161 -0
package/cpp/ggml/src/ggml-opencl/kernels/pad.cl +39 -0
package/cpp/ggml/src/ggml-opencl/kernels/relu.cl +16 -0
package/cpp/ggml/src/ggml-opencl/kernels/repeat.cl +38 -0
package/cpp/ggml/src/ggml-opencl/kernels/rms_norm.cl +190 -0
package/cpp/ggml/src/ggml-opencl/kernels/rope.cl +747 -0
package/cpp/ggml/src/ggml-opencl/kernels/scale.cl +27 -0
package/cpp/ggml/src/ggml-opencl/kernels/set_rows.cl +208 -0
package/cpp/ggml/src/ggml-opencl/kernels/sigmoid.cl +29 -0
package/cpp/ggml/src/ggml-opencl/kernels/silu.cl +30 -0
package/cpp/ggml/src/ggml-opencl/kernels/softmax_4_f16.cl +108 -0
package/cpp/ggml/src/ggml-opencl/kernels/softmax_4_f32.cl +108 -0
package/cpp/ggml/src/ggml-opencl/kernels/softmax_f16.cl +107 -0
package/cpp/ggml/src/ggml-opencl/kernels/softmax_f32.cl +107 -0
package/cpp/ggml/src/ggml-opencl/kernels/softplus.cl +116 -0
package/cpp/ggml/src/ggml-opencl/kernels/solve_tri.cl +51 -0
package/cpp/ggml/src/ggml-opencl/kernels/sqr.cl +53 -0
package/cpp/ggml/src/ggml-opencl/kernels/sqrt.cl +53 -0
package/cpp/ggml/src/ggml-opencl/kernels/ssm_conv.cl +77 -0
package/cpp/ggml/src/ggml-opencl/kernels/sub.cl +138 -0
package/cpp/ggml/src/ggml-opencl/kernels/sum_rows.cl +140 -0
package/cpp/ggml/src/ggml-opencl/kernels/tanh.cl +109 -0
package/cpp/ggml/src/ggml-opencl/kernels/transpose.cl +117 -0
package/cpp/ggml/src/ggml-opencl/kernels/tri.cl +32 -0
package/cpp/ggml/src/ggml-opencl/kernels/tsembd.cl +48 -0
package/cpp/ggml/src/ggml-opencl/kernels/upscale.cl +120 -0
package/cpp/ggml/src/ggml-opt.cpp +1093 -0
package/cpp/ggml/src/ggml-quants.c +5325 -0
package/cpp/ggml/src/ggml-quants.h +106 -0
package/cpp/ggml/src/ggml-rpc/CMakeLists.txt +9 -0
package/cpp/ggml/src/ggml-rpc/ggml-rpc.cpp +2118 -0
package/cpp/ggml/src/ggml-threading.cpp +12 -0
package/cpp/ggml/src/ggml-threading.h +14 -0
package/cpp/ggml/src/ggml-virtgpu/CMakeLists.txt +70 -0
package/cpp/ggml/src/ggml-virtgpu/apir_cs_ggml-rpc-front.cpp +87 -0
package/cpp/ggml/src/ggml-virtgpu/backend/CMakeLists.txt +21 -0
package/cpp/ggml/src/ggml-virtgpu/backend/apir_cs_ggml-rpc-back.cpp +115 -0
package/cpp/ggml/src/ggml-virtgpu/backend/backend-convert.h +13 -0
package/cpp/ggml/src/ggml-virtgpu/backend/backend-dispatched-backend.cpp +102 -0
package/cpp/ggml/src/ggml-virtgpu/backend/backend-dispatched-buffer-type.cpp +105 -0
package/cpp/ggml/src/ggml-virtgpu/backend/backend-dispatched-buffer.cpp +179 -0
package/cpp/ggml/src/ggml-virtgpu/backend/backend-dispatched-device.cpp +148 -0
package/cpp/ggml/src/ggml-virtgpu/backend/backend-dispatched.cpp +51 -0
package/cpp/ggml/src/ggml-virtgpu/backend/backend-dispatched.gen.h +73 -0
package/cpp/ggml/src/ggml-virtgpu/backend/backend-dispatched.h +27 -0
package/cpp/ggml/src/ggml-virtgpu/backend/backend-virgl-apir.h +32 -0
package/cpp/ggml/src/ggml-virtgpu/backend/backend.cpp +144 -0
package/cpp/ggml/src/ggml-virtgpu/backend/shared/api_remoting.h +95 -0
package/cpp/ggml/src/ggml-virtgpu/backend/shared/apir_backend.gen.h +94 -0
package/cpp/ggml/src/ggml-virtgpu/backend/shared/apir_backend.h +50 -0
package/cpp/ggml/src/ggml-virtgpu/backend/shared/apir_cs.h +378 -0
package/cpp/ggml/src/ggml-virtgpu/backend/shared/apir_cs_ggml.h +232 -0
package/cpp/ggml/src/ggml-virtgpu/backend/shared/apir_cs_rpc.h +58 -0
package/cpp/ggml/src/ggml-virtgpu/ggml-backend-buffer-type.cpp +81 -0
package/cpp/ggml/src/ggml-virtgpu/ggml-backend-buffer.cpp +119 -0
package/cpp/ggml/src/ggml-virtgpu/ggml-backend-device.cpp +158 -0
package/cpp/ggml/src/ggml-virtgpu/ggml-backend-reg.cpp +213 -0
package/cpp/ggml/src/ggml-virtgpu/ggml-backend.cpp +69 -0
package/cpp/ggml/src/ggml-virtgpu/ggml-remoting.h +71 -0
package/cpp/ggml/src/ggml-virtgpu/ggmlremoting_functions.yaml +166 -0
package/cpp/ggml/src/ggml-virtgpu/include/apir_hw.h +9 -0
package/cpp/ggml/src/ggml-virtgpu/regenerate_remoting.py +333 -0
package/cpp/ggml/src/ggml-virtgpu/virtgpu-apir.h +15 -0
package/cpp/ggml/src/ggml-virtgpu/virtgpu-forward-backend.cpp +58 -0
package/cpp/ggml/src/ggml-virtgpu/virtgpu-forward-buffer-type.cpp +110 -0
package/cpp/ggml/src/ggml-virtgpu/virtgpu-forward-buffer.cpp +173 -0
package/cpp/ggml/src/ggml-virtgpu/virtgpu-forward-device.cpp +192 -0
package/cpp/ggml/src/ggml-virtgpu/virtgpu-forward-impl.h +36 -0
package/cpp/ggml/src/ggml-virtgpu/virtgpu-forward.gen.h +53 -0
package/cpp/ggml/src/ggml-virtgpu/virtgpu-shm.cpp +98 -0
package/cpp/ggml/src/ggml-virtgpu/virtgpu-shm.h +23 -0
package/cpp/ggml/src/ggml-virtgpu/virtgpu-utils.cpp +179 -0
package/cpp/ggml/src/ggml-virtgpu/virtgpu-utils.h +86 -0
package/cpp/ggml/src/ggml-virtgpu/virtgpu.cpp +544 -0
package/cpp/ggml/src/ggml-virtgpu/virtgpu.h +117 -0
package/cpp/ggml/src/ggml-webgpu/CMakeLists.txt +80 -0
package/cpp/ggml/src/ggml-webgpu/ggml-webgpu-shader-lib.hpp +1231 -0
package/cpp/ggml/src/ggml-webgpu/ggml-webgpu.cpp +3150 -0
package/cpp/ggml/src/ggml-webgpu/pre_wgsl.hpp +778 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/argmax.wgsl +72 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/argsort.wgsl +106 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/argsort_merge.wgsl +134 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/binary.wgsl +107 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/common_decls.tmpl +923 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/cpy.tmpl.wgsl +107 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/cumsum.wgsl +66 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/embed_wgsl.py +182 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/flash_attn.wgsl +636 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/get_rows.wgsl +668 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/glu.tmpl.wgsl +323 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/memset.wgsl +40 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/mul_mat.wgsl +713 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/mul_mat_decls.tmpl +103 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/mul_mat_reg_tile.wgsl +138 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/mul_mat_subgroup_matrix.wgsl +188 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/mul_mat_vec.wgsl +194 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/pad.wgsl +86 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/rms_norm.wgsl +123 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/rope.tmpl.wgsl +295 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/scale.wgsl +63 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/set_rows.wgsl +109 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/soft_max.tmpl.wgsl +345 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/sum_rows.wgsl +55 -0
package/cpp/ggml/src/ggml-webgpu/wgsl-shaders/unary.wgsl +193 -0
package/cpp/ggml/src/ggml-zdnn/CMakeLists.txt +36 -0
package/cpp/ggml/src/ggml-zdnn/common.hpp +59 -0
package/cpp/ggml/src/ggml-zdnn/ggml-zdnn.cpp +633 -0
package/cpp/ggml/src/ggml-zdnn/mmf.cpp +80 -0
package/cpp/ggml/src/ggml-zdnn/mmf.hpp +12 -0
package/cpp/ggml/src/ggml-zdnn/utils.cpp +79 -0
package/cpp/ggml/src/ggml-zdnn/utils.hpp +19 -0
package/cpp/ggml/src/ggml-zendnn/CMakeLists.txt +92 -0
package/cpp/ggml/src/ggml-zendnn/ggml-zendnn.cpp +469 -0
package/cpp/ggml/src/ggml.c +7669 -0
package/cpp/ggml/src/ggml.cpp +26 -0
package/cpp/ggml/src/gguf.cpp +1699 -0
package/cpp/include/llama-cpp.h +32 -0
package/cpp/include/llama.h +1568 -0
package/cpp/mtmd/CMakeLists.txt +98 -0
package/cpp/mtmd/README.md +63 -0
package/cpp/mtmd/clip-graph.h +117 -0
package/cpp/mtmd/clip-impl.h +586 -0
package/cpp/mtmd/clip-model.h +390 -0
package/cpp/mtmd/clip.cpp +4154 -0
package/cpp/mtmd/clip.h +121 -0
package/cpp/mtmd/deprecation-warning.cpp +22 -0
package/cpp/mtmd/legacy-models/convert_image_encoder_to_gguf.py +412 -0
package/cpp/mtmd/legacy-models/glmedge-convert-image-encoder-to-gguf.py +280 -0
package/cpp/mtmd/legacy-models/glmedge-surgery.py +33 -0
package/cpp/mtmd/legacy-models/llava_surgery.py +38 -0
package/cpp/mtmd/legacy-models/llava_surgery_v2.py +180 -0
package/cpp/mtmd/legacy-models/minicpmv-convert-image-encoder-to-gguf.py +892 -0
package/cpp/mtmd/legacy-models/minicpmv-surgery.py +47 -0
package/cpp/mtmd/models/cogvlm.cpp +98 -0
package/cpp/mtmd/models/conformer.cpp +216 -0
package/cpp/mtmd/models/glm4v.cpp +122 -0
package/cpp/mtmd/models/internvl.cpp +69 -0
package/cpp/mtmd/models/kimik25.cpp +101 -0
package/cpp/mtmd/models/kimivl.cpp +63 -0
package/cpp/mtmd/models/llama4.cpp +96 -0
package/cpp/mtmd/models/llava.cpp +374 -0
package/cpp/mtmd/models/minicpmv.cpp +114 -0
package/cpp/mtmd/models/mobilenetv5.cpp +451 -0
package/cpp/mtmd/models/models.h +128 -0
package/cpp/mtmd/models/nemotron-v2-vl.cpp +35 -0
package/cpp/mtmd/models/paddleocr.cpp +52 -0
package/cpp/mtmd/models/pixtral.cpp +86 -0
package/cpp/mtmd/models/qwen2vl.cpp +183 -0
package/cpp/mtmd/models/qwen3vl.cpp +193 -0
package/cpp/mtmd/models/siglip.cpp +86 -0
package/cpp/mtmd/models/whisper-enc.cpp +115 -0
package/cpp/mtmd/models/youtuvl.cpp +179 -0
package/cpp/mtmd/mtmd-audio.cpp +730 -0
package/cpp/mtmd/mtmd-audio.h +113 -0
package/cpp/mtmd/mtmd-cli.cpp +437 -0
package/cpp/mtmd/mtmd-helper.cpp +521 -0
package/cpp/mtmd/mtmd-helper.h +96 -0
package/cpp/mtmd/mtmd.cpp +1156 -0
package/cpp/mtmd/mtmd.h +319 -0
package/cpp/mtmd/requirements.txt +5 -0
package/cpp/mtmd/test-1.jpeg +0 -0
package/cpp/mtmd/test-2.mp3 +0 -0
package/cpp/mtmd/tests.sh +192 -0
package/cpp/src/CMakeLists.txt +169 -0
package/cpp/src/llama-adapter.cpp +488 -0
package/cpp/src/llama-adapter.h +89 -0
package/cpp/src/llama-arch.cpp +2855 -0
package/cpp/src/llama-arch.h +619 -0
package/cpp/src/llama-batch.cpp +917 -0
package/cpp/src/llama-batch.h +173 -0
package/cpp/src/llama-chat.cpp +896 -0
package/cpp/src/llama-chat.h +71 -0
package/cpp/src/llama-context.cpp +3512 -0
package/cpp/src/llama-context.h +359 -0
package/cpp/src/llama-cparams.cpp +5 -0
package/cpp/src/llama-cparams.h +44 -0
package/cpp/src/llama-grammar.cpp +1464 -0
package/cpp/src/llama-grammar.h +194 -0
package/cpp/src/llama-graph.cpp +2685 -0
package/cpp/src/llama-graph.h +1026 -0
package/cpp/src/llama-hparams.cpp +234 -0
package/cpp/src/llama-hparams.h +339 -0
package/cpp/src/llama-impl.cpp +171 -0
package/cpp/src/llama-impl.h +73 -0
package/cpp/src/llama-io.cpp +15 -0
package/cpp/src/llama-io.h +35 -0
package/cpp/src/llama-kv-cache-iswa.cpp +330 -0
package/cpp/src/llama-kv-cache-iswa.h +137 -0
package/cpp/src/llama-kv-cache.cpp +2271 -0
package/cpp/src/llama-kv-cache.h +388 -0
package/cpp/src/llama-kv-cells.h +533 -0
package/cpp/src/llama-memory-hybrid-iswa.cpp +275 -0
package/cpp/src/llama-memory-hybrid-iswa.h +140 -0
package/cpp/src/llama-memory-hybrid.cpp +268 -0
package/cpp/src/llama-memory-hybrid.h +139 -0
package/cpp/src/llama-memory-recurrent.cpp +1165 -0
package/cpp/src/llama-memory-recurrent.h +182 -0
package/cpp/src/llama-memory.cpp +59 -0
package/cpp/src/llama-memory.h +122 -0
package/cpp/src/llama-mmap.cpp +785 -0
package/cpp/src/llama-mmap.h +92 -0
package/cpp/src/llama-model-loader.cpp +1414 -0
package/cpp/src/llama-model-loader.h +203 -0
package/cpp/src/llama-model-saver.cpp +286 -0
package/cpp/src/llama-model-saver.h +37 -0
package/cpp/src/llama-model.cpp +9253 -0
package/cpp/src/llama-model.h +576 -0
package/cpp/src/llama-quant.cpp +1119 -0
package/cpp/src/llama-quant.h +1 -0
package/cpp/src/llama-sampler.cpp +3885 -0
package/cpp/src/llama-sampler.h +42 -0
package/cpp/src/llama-vocab.cpp +3970 -0
package/cpp/src/llama-vocab.h +187 -0
package/cpp/src/llama.cpp +1313 -0
package/cpp/src/models/afmoe.cpp +191 -0
package/cpp/src/models/apertus.cpp +125 -0
package/cpp/src/models/arcee.cpp +135 -0
package/cpp/src/models/arctic.cpp +138 -0
package/cpp/src/models/arwkv7.cpp +86 -0
package/cpp/src/models/baichuan.cpp +122 -0
package/cpp/src/models/bailingmoe.cpp +144 -0
package/cpp/src/models/bailingmoe2.cpp +135 -0
package/cpp/src/models/bert.cpp +178 -0
package/cpp/src/models/bitnet.cpp +160 -0
package/cpp/src/models/bloom.cpp +101 -0
package/cpp/src/models/chameleon.cpp +178 -0
package/cpp/src/models/chatglm.cpp +132 -0
package/cpp/src/models/codeshell.cpp +111 -0
package/cpp/src/models/cogvlm.cpp +102 -0
package/cpp/src/models/cohere2-iswa.cpp +134 -0
package/cpp/src/models/command-r.cpp +122 -0
package/cpp/src/models/dbrx.cpp +123 -0
package/cpp/src/models/deci.cpp +135 -0
package/cpp/src/models/deepseek.cpp +144 -0
package/cpp/src/models/deepseek2.cpp +262 -0
package/cpp/src/models/delta-net-base.cpp +376 -0
package/cpp/src/models/dots1.cpp +134 -0
package/cpp/src/models/dream.cpp +105 -0
package/cpp/src/models/ernie4-5-moe.cpp +150 -0
package/cpp/src/models/ernie4-5.cpp +110 -0
package/cpp/src/models/eurobert.cpp +97 -0
package/cpp/src/models/exaone-moe.cpp +146 -0
package/cpp/src/models/exaone.cpp +114 -0
package/cpp/src/models/exaone4.cpp +123 -0
package/cpp/src/models/falcon-h1.cpp +111 -0
package/cpp/src/models/falcon.cpp +120 -0
package/cpp/src/models/gemma-embedding.cpp +116 -0
package/cpp/src/models/gemma.cpp +112 -0
package/cpp/src/models/gemma2-iswa.cpp +128 -0
package/cpp/src/models/gemma3.cpp +155 -0
package/cpp/src/models/gemma3n-iswa.cpp +384 -0
package/cpp/src/models/glm4-moe.cpp +170 -0
package/cpp/src/models/glm4.cpp +157 -0
package/cpp/src/models/gpt2.cpp +105 -0
package/cpp/src/models/gptneox.cpp +144 -0
package/cpp/src/models/granite-hybrid.cpp +196 -0
package/cpp/src/models/granite.cpp +211 -0
package/cpp/src/models/grok.cpp +159 -0
package/cpp/src/models/grovemoe.cpp +141 -0
package/cpp/src/models/hunyuan-dense.cpp +132 -0
package/cpp/src/models/hunyuan-moe.cpp +154 -0
package/cpp/src/models/internlm2.cpp +120 -0
package/cpp/src/models/jais.cpp +86 -0
package/cpp/src/models/jais2.cpp +123 -0
package/cpp/src/models/jamba.cpp +106 -0
package/cpp/src/models/kimi-linear.cpp +392 -0
package/cpp/src/models/lfm2.cpp +190 -0
package/cpp/src/models/llada-moe.cpp +122 -0
package/cpp/src/models/llada.cpp +99 -0
package/cpp/src/models/llama-iswa.cpp +178 -0
package/cpp/src/models/llama.cpp +168 -0
package/cpp/src/models/maincoder.cpp +117 -0
package/cpp/src/models/mamba-base.cpp +285 -0
package/cpp/src/models/mamba.cpp +54 -0
package/cpp/src/models/mimo2-iswa.cpp +123 -0
package/cpp/src/models/minicpm3.cpp +200 -0
package/cpp/src/models/minimax-m2.cpp +124 -0
package/cpp/src/models/mistral3.cpp +160 -0
package/cpp/src/models/models.h +684 -0
package/cpp/src/models/modern-bert.cpp +109 -0
package/cpp/src/models/mpt.cpp +126 -0
package/cpp/src/models/nemotron-h.cpp +148 -0
package/cpp/src/models/nemotron.cpp +122 -0
package/cpp/src/models/neo-bert.cpp +104 -0
package/cpp/src/models/olmo.cpp +121 -0
package/cpp/src/models/olmo2.cpp +150 -0
package/cpp/src/models/olmoe.cpp +124 -0
package/cpp/src/models/openai-moe-iswa.cpp +127 -0
package/cpp/src/models/openelm.cpp +124 -0
package/cpp/src/models/orion.cpp +123 -0
package/cpp/src/models/paddleocr.cpp +122 -0
package/cpp/src/models/pangu-embedded.cpp +121 -0
package/cpp/src/models/phi2.cpp +121 -0
package/cpp/src/models/phi3.cpp +152 -0
package/cpp/src/models/plamo.cpp +110 -0
package/cpp/src/models/plamo2.cpp +318 -0
package/cpp/src/models/plamo3.cpp +128 -0
package/cpp/src/models/plm.cpp +169 -0
package/cpp/src/models/qwen.cpp +108 -0
package/cpp/src/models/qwen2.cpp +126 -0
package/cpp/src/models/qwen2moe.cpp +151 -0
package/cpp/src/models/qwen2vl.cpp +117 -0
package/cpp/src/models/qwen3.cpp +117 -0
package/cpp/src/models/qwen35.cpp +386 -0
package/cpp/src/models/qwen35moe.cpp +420 -0
package/cpp/src/models/qwen3moe.cpp +124 -0
package/cpp/src/models/qwen3next.cpp +525 -0
package/cpp/src/models/qwen3vl-moe.cpp +140 -0
package/cpp/src/models/qwen3vl.cpp +132 -0
package/cpp/src/models/refact.cpp +94 -0
package/cpp/src/models/rnd1.cpp +126 -0
package/cpp/src/models/rwkv6-base.cpp +164 -0
package/cpp/src/models/rwkv6.cpp +94 -0
package/cpp/src/models/rwkv6qwen2.cpp +86 -0
package/cpp/src/models/rwkv7-base.cpp +137 -0
package/cpp/src/models/rwkv7.cpp +90 -0
package/cpp/src/models/seed-oss.cpp +124 -0
package/cpp/src/models/smallthinker.cpp +126 -0
package/cpp/src/models/smollm3.cpp +128 -0
package/cpp/src/models/stablelm.cpp +146 -0
package/cpp/src/models/starcoder.cpp +100 -0
package/cpp/src/models/starcoder2.cpp +121 -0
package/cpp/src/models/step35-iswa.cpp +168 -0
package/cpp/src/models/t5-dec.cpp +166 -0
package/cpp/src/models/t5-enc.cpp +96 -0
package/cpp/src/models/wavtokenizer-dec.cpp +149 -0
package/cpp/src/models/xverse.cpp +108 -0
package/cpp/src/unicode-data.cpp +7034 -0
package/cpp/src/unicode-data.h +20 -0
package/cpp/src/unicode.cpp +1103 -0
package/cpp/src/unicode.h +111 -0
package/cpp/vendor/nlohmann/json.hpp +25526 -0
package/cpp/vendor/nlohmann/json_fwd.hpp +187 -0
package/cpp/vendor/stb/stb_image.h +7988 -0
package/ios/LocalLLM-Bridging-Header.h +2 -0
package/ios/LocalLLM.h +5 -0
package/ios/LocalLLM.mm +1267 -0
package/local-llm-rn.podspec +60 -0
package/package.json +35 -0
package/src/NativeLocalLLM.ts +73 -0
package/src/device.ts +50 -0
package/src/download-adapter.ts +17 -0
package/src/index.ts +21 -0
package/src/native-bridge.ts +142 -0
package/src/rn-downloader.ts +37 -0

package/ios/LocalLLM.mm ADDED Viewed

@@ -0,0 +1,1267 @@
+#import "LocalLLM.h"
+#import <React/RCTBridge.h>
+#import <React/RCTLog.h>
+#include <string>
+#include <unordered_map>
+#include <mutex>
+#include <set>
+#include <vector>
+#include <cstdint>
+#include <cmath>
+#include <atomic>
+#include "llama.h"
+#include "common.h"
+#include "json-schema-to-grammar.h"
+#include "mtmd.h"
+#include "mtmd-helper.h"
+#import <Metal/Metal.h>
+#import <os/proc.h>
+// ── UUID generation ──────────────────────────────────────────────────────────
+static NSString *generateUUID() {
+  return [[NSUUID UUID] UUIDString];
+}
+// ── Handle maps ──────────────────────────────────────────────────────────────
+static std::mutex g_mutex;
+static std::unordered_map<std::string, llama_model *> g_models;
+static std::unordered_map<std::string, llama_context *> g_contexts;
+static std::unordered_map<std::string, mtmd_context *> g_mtmd_contexts;
+// Track live handles to prevent double-free
+static std::set<void *> g_live_handles;
+static void register_handle(void *ptr) {
+  std::lock_guard<std::mutex> lock(g_mutex);
+  g_live_handles.insert(ptr);
+}
+static bool unregister_handle(void *ptr) {
+  std::lock_guard<std::mutex> lock(g_mutex);
+  return g_live_handles.erase(ptr) > 0;
+}
+// ── Stream cancellation ──────────────────────────────────────────────────────
+static std::mutex g_cancel_mutex;
+static std::set<std::string> g_cancel_set;
+static void request_cancel(const std::string &ctxId) {
+  std::lock_guard<std::mutex> lock(g_cancel_mutex);
+  g_cancel_set.insert(ctxId);
+}
+static bool is_cancelled(const std::string &ctxId) {
+  std::lock_guard<std::mutex> lock(g_cancel_mutex);
+  return g_cancel_set.count(ctxId) > 0;
+}
+static void clear_cancel(const std::string &ctxId) {
+  std::lock_guard<std::mutex> lock(g_cancel_mutex);
+  g_cancel_set.erase(ctxId);
+}
+// ── Log state (static so the C callback can access without capturing `self`) ─
+static std::atomic<int> g_log_min_level{2};          // default: info (GGML_LOG_LEVEL_INFO)
+static std::atomic<bool> g_log_events_enabled{false};
+static __weak LocalLLM *g_log_module = nil;
+// ── Sampler creation ─────────────────────────────────────────────────────────
+struct SamplerParams {
+  int32_t max_tokens = 256;
+  float temperature = 0.7f;
+  float top_p = 0.95f;
+  int32_t top_k = 40;
+  float repeat_penalty = 1.1f;
+  float frequency_penalty = 0.0f;
+  float presence_penalty = 0.0f;
+  int32_t seed = -1;
+  std::string grammar;
+  std::string grammar_root;
+  int32_t n_past = 0;
+};
+static SamplerParams parse_sampler_params(NSDictionary *options) {
+  SamplerParams p;
+  if (options[@"max_tokens"])          p.max_tokens = [options[@"max_tokens"] intValue];
+  if (options[@"temperature"])         p.temperature = [options[@"temperature"] floatValue];
+  if (options[@"top_p"])               p.top_p = [options[@"top_p"] floatValue];
+  if (options[@"top_k"])               p.top_k = [options[@"top_k"] intValue];
+  if (options[@"repeat_penalty"])      p.repeat_penalty = [options[@"repeat_penalty"] floatValue];
+  if (options[@"frequency_penalty"])   p.frequency_penalty = [options[@"frequency_penalty"] floatValue];
+  if (options[@"presence_penalty"])    p.presence_penalty = [options[@"presence_penalty"] floatValue];
+  if (options[@"seed"])                p.seed = [options[@"seed"] intValue];
+  if (options[@"grammar"])             p.grammar = [options[@"grammar"] UTF8String];
+  if (options[@"grammar_root"])        p.grammar_root = [options[@"grammar_root"] UTF8String];
+  if (options[@"n_past"])              p.n_past = [options[@"n_past"] intValue];
+  return p;
+}
+static llama_sampler *create_sampler(const SamplerParams &p, const llama_model *model) {
+  auto *smpl = llama_sampler_chain_init(llama_sampler_chain_default_params());
+  if (p.repeat_penalty != 1.0f || p.frequency_penalty != 0.0f || p.presence_penalty != 0.0f) {
+    llama_sampler_chain_add(smpl,
+      llama_sampler_init_penalties(
+        llama_model_n_ctx_train(model),
+        p.repeat_penalty,
+        p.frequency_penalty,
+        p.presence_penalty
+      ));
+  }
+  if (p.temperature <= 0.0f) {
+    llama_sampler_chain_add(smpl, llama_sampler_init_greedy());
+  } else {
+    llama_sampler_chain_add(smpl, llama_sampler_init_top_k(p.top_k));
+    llama_sampler_chain_add(smpl, llama_sampler_init_top_p(p.top_p, 1));
+    llama_sampler_chain_add(smpl, llama_sampler_init_temp(p.temperature));
+    llama_sampler_chain_add(smpl, llama_sampler_init_dist(p.seed));
+  }
+  if (!p.grammar.empty()) {
+    llama_sampler_chain_add(smpl,
+      llama_sampler_init_grammar(
+        llama_model_get_vocab(model),
+        p.grammar.c_str(),
+        p.grammar_root.empty() ? "root" : p.grammar_root.c_str()
+      ));
+  }
+  return smpl;
+}
+// ── Token to string helper ───────────────────────────────────────────────────
+static std::string token_to_piece(const llama_model *model, llama_token token) {
+  char buf[256];
+  int n = llama_token_to_piece(llama_model_get_vocab(model), token, buf, sizeof(buf), 0, true);
+  if (n < 0) {
+    std::string result(-(int)n, '\0');
+    llama_token_to_piece(llama_model_get_vocab(model), token, result.data(), result.size(), 0, true);
+    return result;
+  }
+  return std::string(buf, n);
+}
+// ── Base64 decoding ──────────────────────────────────────────────────────────
+static std::vector<uint8_t> decode_base64(NSString *base64) {
+  NSData *data = [[NSData alloc] initWithBase64EncodedString:base64 options:0];
+  if (!data) return {};
+  const uint8_t *bytes = (const uint8_t *)[data bytes];
+  return std::vector<uint8_t>(bytes, bytes + [data length]);
+}
+// ── Inference dispatch queue ─────────────────────────────────────────────────
+static dispatch_queue_t inference_queue() {
+  static dispatch_queue_t q = dispatch_queue_create("com.hilum.llm.inference", DISPATCH_QUEUE_SERIAL);
+  return q;
+}
+// ── Download session management ──────────────────────────────────────────────
+@interface LLMDownloadDelegate : NSObject <NSURLSessionDownloadDelegate>
+@property (nonatomic, weak) LocalLLM *module;
+@property (nonatomic, strong) NSMutableDictionary<NSString *, NSString *> *destPaths;
+@end
+@implementation LLMDownloadDelegate
+- (instancetype)initWithModule:(LocalLLM *)module {
+  self = [super init];
+  if (self) {
+    _module = module;
+    _destPaths = [NSMutableDictionary new];
+  }
+  return self;
+}
+- (void)URLSession:(NSURLSession *)session
+      downloadTask:(NSURLSessionDownloadTask *)downloadTask
+      didWriteData:(int64_t)bytesWritten
+ totalBytesWritten:(int64_t)totalBytesWritten
+totalBytesExpectedToWrite:(int64_t)totalBytesExpectedToWrite {
+  NSString *url = downloadTask.originalRequest.URL.absoluteString;
+  double percent = totalBytesExpectedToWrite > 0
+    ? (double)totalBytesWritten / (double)totalBytesExpectedToWrite * 100.0
+    : 0.0;
+  [_module sendEventWithName:@"onDownloadProgress" body:@{
+    @"url": url ?: @"",
+    @"downloaded": @(totalBytesWritten),
+    @"total": @(totalBytesExpectedToWrite),
+    @"percent": @(percent),
+  }];
+}
+- (void)URLSession:(NSURLSession *)session
+      downloadTask:(NSURLSessionDownloadTask *)downloadTask
+didFinishDownloadingToURL:(NSURL *)location {
+  NSString *url = downloadTask.originalRequest.URL.absoluteString;
+  NSString *destPath = _destPaths[url];
+  if (destPath) {
+    NSError *error = nil;
+    NSFileManager *fm = [NSFileManager defaultManager];
+    // Remove existing file if present
+    [fm removeItemAtPath:destPath error:nil];
+    // Create parent directory
+    [fm createDirectoryAtPath:[destPath stringByDeletingLastPathComponent]
+      withIntermediateDirectories:YES attributes:nil error:nil];
+    [fm moveItemAtURL:location toURL:[NSURL fileURLWithPath:destPath] error:&error];
+    if (error) {
+      [_module sendEventWithName:@"onDownloadError" body:@{
+        @"url": url ?: @"",
+        @"error": error.localizedDescription ?: @"Move failed",
+        @"resumable": @NO,
+      }];
+      return;
+    }
+  }
+  [_module sendEventWithName:@"onDownloadComplete" body:@{
+    @"url": url ?: @"",
+  }];
+}
+- (void)URLSession:(NSURLSession *)session
+              task:(NSURLSessionTask *)task
+didCompleteWithError:(NSError *)error {
+  if (!error) return;
+  NSString *url = task.originalRequest.URL.absoluteString;
+  BOOL resumable = error.userInfo[NSURLSessionDownloadTaskResumeData] != nil;
+  [_module sendEventWithName:@"onDownloadError" body:@{
+    @"url": url ?: @"",
+    @"error": error.localizedDescription ?: @"Download failed",
+    @"resumable": @(resumable),
+  }];
+}
+@end
+// ── Module implementation ────────────────────────────────────────────────────
+@implementation LocalLLM {
+  NSURLSession *_downloadSession;
+  LLMDownloadDelegate *_downloadDelegate;
+  bool _hasListeners;
+}
+RCT_EXPORT_MODULE()
++ (BOOL)requiresMainQueueSetup {
+  return NO;
+}
+- (instancetype)init {
+  self = [super init];
+  if (self) {
+    _hasListeners = NO;
+    _downloadDelegate = [[LLMDownloadDelegate alloc] initWithModule:self];
+    NSURLSessionConfiguration *config =
+      [NSURLSessionConfiguration backgroundSessionConfigurationWithIdentifier:@"com.hilum.llm.downloads"];
+    config.sessionSendsLaunchEvents = YES;
+    _downloadSession = [NSURLSession sessionWithConfiguration:config
+                                                    delegate:_downloadDelegate
+                                               delegateQueue:nil];
+  }
+  return self;
+}
+- (NSArray<NSString *> *)supportedEvents {
+  return @[
+    @"onToken",
+    @"onBatchToken",
+    @"onQuantizeComplete",
+    @"onLog",
+    @"onDownloadProgress",
+    @"onDownloadComplete",
+    @"onDownloadError",
+  ];
+}
+- (void)startObserving { _hasListeners = YES; }
+- (void)stopObserving  { _hasListeners = NO; }
+// ── Backend info ─────────────────────────────────────────────────────────────
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(backendInfo) {
+  return @(llama_print_system_info());
+}
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(backendVersion) {
+  // Use LLAMA_BUILD_NUMBER if available, otherwise a static version
+  return @"1.0.0";
+}
+// ── Model lifecycle ──────────────────────────────────────────────────────────
+RCT_EXPORT_METHOD(loadModel:(NSString *)path
+                  options:(NSDictionary *)options
+                  resolve:(RCTPromiseResolveBlock)resolve
+                  reject:(RCTPromiseRejectBlock)reject) {
+  dispatch_async(inference_queue(), ^{
+    // RAM guard
+    uint64_t available = os_proc_available_memory();
+    uint64_t minimumRAM = 512 * 1024 * 1024;  // 512 MB absolute floor
+    if (available < minimumRAM) {
+      reject(@"E_INSUFFICIENT_MEMORY",
+        [NSString stringWithFormat:
+          @"Insufficient memory to load model. Available: %llu MB, minimum: %llu MB. "
+          @"Close other apps or use a smaller quantized model.",
+          available / (1024 * 1024), minimumRAM / (1024 * 1024)],
+        nil);
+      return;
+    }
+    int n_gpu_layers = options[@"n_gpu_layers"] ? [options[@"n_gpu_layers"] intValue] : 999;
+    bool use_mmap = options[@"use_mmap"] ? [options[@"use_mmap"] boolValue] : true;
+    llama_model_params params = llama_model_default_params();
+    params.n_gpu_layers = n_gpu_layers;
+    params.use_mmap = use_mmap;
+    llama_model *model = llama_model_load_from_file([path UTF8String], params);
+    if (!model) {
+      reject(@"E_MODEL_LOAD", @"Failed to load model", nil);
+      return;
+    }
+    register_handle(model);
+    NSString *modelId = generateUUID();
+    {
+      std::lock_guard<std::mutex> lock(g_mutex);
+      g_models[[modelId UTF8String]] = model;
+    }
+    resolve(modelId);
+  });
+}
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(getModelSize:(NSString *)modelId) {
+  std::lock_guard<std::mutex> lock(g_mutex);
+  auto it = g_models.find([modelId UTF8String]);
+  if (it == g_models.end()) return @(0);
+  return @((double)llama_model_size(it->second));
+}
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(freeModel:(NSString *)modelId) {
+  std::lock_guard<std::mutex> lock(g_mutex);
+  auto it = g_models.find([modelId UTF8String]);
+  if (it != g_models.end()) {
+    if (unregister_handle(it->second)) {
+      llama_model_free(it->second);
+    }
+    g_models.erase(it);
+  }
+  return nil;
+}
+// ── Context lifecycle ────────────────────────────────────────────────────────
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(createContext:(NSString *)modelId
+                                        options:(NSDictionary *)options) {
+  std::lock_guard<std::mutex> lock(g_mutex);
+  auto it = g_models.find([modelId UTF8String]);
+  if (it == g_models.end()) return @"";
+  llama_context_params params = llama_context_default_params();
+  if (options[@"n_ctx"])        params.n_ctx = [options[@"n_ctx"] intValue];
+  if (options[@"n_batch"])      params.n_batch = [options[@"n_batch"] intValue];
+  if (options[@"n_threads"])    params.n_threads = [options[@"n_threads"] intValue];
+  if (options[@"n_seq_max"])    params.n_seq_max = [options[@"n_seq_max"] intValue];
+  if (options[@"flash_attn_type"]) params.flash_attn = [options[@"flash_attn_type"] intValue] > 0;
+  if (options[@"type_k"])       params.type_k = (enum ggml_type)[options[@"type_k"] intValue];
+  if (options[@"type_v"])       params.type_v = (enum ggml_type)[options[@"type_v"] intValue];
+  llama_context *ctx = llama_init_from_model(it->second, params);
+  if (!ctx) return @"";
+  register_handle(ctx);
+  NSString *ctxId = generateUUID();
+  g_contexts[[ctxId UTF8String]] = ctx;
+  return ctxId;
+}
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(getContextSize:(NSString *)contextId) {
+  std::lock_guard<std::mutex> lock(g_mutex);
+  auto it = g_contexts.find([contextId UTF8String]);
+  if (it == g_contexts.end()) return @(0);
+  return @((int)llama_n_ctx(it->second));
+}
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(freeContext:(NSString *)contextId) {
+  std::lock_guard<std::mutex> lock(g_mutex);
+  auto it = g_contexts.find([contextId UTF8String]);
+  if (it != g_contexts.end()) {
+    if (unregister_handle(it->second)) {
+      llama_free(it->second);
+    }
+    g_contexts.erase(it);
+  }
+  return nil;
+}
+// ── KV cache ─────────────────────────────────────────────────────────────────
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(kvCacheClear:(NSString *)contextId
+                                        fromPos:(double)fromPos) {
+  std::lock_guard<std::mutex> lock(g_mutex);
+  auto it = g_contexts.find([contextId UTF8String]);
+  if (it != g_contexts.end()) {
+    llama_kv_cache_seq_rm(it->second, 0, (int)fromPos, -1);
+  }
+  return nil;
+}
+// ── Tokenization ─────────────────────────────────────────────────────────────
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(tokenize:(NSString *)modelId
+                                          text:(NSString *)text
+                                    addSpecial:(BOOL)addSpecial
+                                  parseSpecial:(BOOL)parseSpecial) {
+  std::lock_guard<std::mutex> lock(g_mutex);
+  auto it = g_models.find([modelId UTF8String]);
+  if (it == g_models.end()) return @[];
+  const char *ctext = [text UTF8String];
+  int text_len = (int)strlen(ctext);
+  const llama_vocab *vocab = llama_model_get_vocab(it->second);
+  std::vector<llama_token> tokens(text_len + 16);
+  int n = llama_tokenize(vocab, ctext, text_len, tokens.data(), (int)tokens.size(), addSpecial, parseSpecial);
+  if (n < 0) {
+    tokens.resize(-n);
+    n = llama_tokenize(vocab, ctext, text_len, tokens.data(), (int)tokens.size(), addSpecial, parseSpecial);
+  }
+  tokens.resize(n);
+  NSMutableArray *result = [NSMutableArray arrayWithCapacity:n];
+  for (int i = 0; i < n; i++) {
+    [result addObject:@(tokens[i])];
+  }
+  return result;
+}
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(detokenize:(NSString *)modelId
+                                          tokens:(NSArray<NSNumber *> *)tokens) {
+  std::lock_guard<std::mutex> lock(g_mutex);
+  auto it = g_models.find([modelId UTF8String]);
+  if (it == g_models.end()) return @"";
+  std::string result;
+  for (NSNumber *tok in tokens) {
+    result += token_to_piece(it->second, [tok intValue]);
+  }
+  return [NSString stringWithUTF8String:result.c_str()];
+}
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(applyChatTemplate:(NSString *)modelId
+                                            messages:(NSArray<NSDictionary *> *)messages
+                                        addAssistant:(BOOL)addAssistant) {
+  std::lock_guard<std::mutex> lock(g_mutex);
+  auto it = g_models.find([modelId UTF8String]);
+  if (it == g_models.end()) return @"";
+  std::vector<llama_chat_msg> chat_msgs;
+  for (NSDictionary *msg in messages) {
+    llama_chat_msg m;
+    m.role = [msg[@"role"] UTF8String];
+    m.content = [msg[@"content"] UTF8String];
+    chat_msgs.push_back(m);
+  }
+  std::string result(4096, '\0');
+  int n = llama_chat_apply_template(
+    llama_model_chat_template(it->second, nullptr),
+    chat_msgs.data(), chat_msgs.size(),
+    addAssistant,
+    result.data(), (int)result.size()
+  );
+  if (n > (int)result.size()) {
+    result.resize(n);
+    llama_chat_apply_template(
+      llama_model_chat_template(it->second, nullptr),
+      chat_msgs.data(), chat_msgs.size(),
+      addAssistant,
+      result.data(), (int)result.size()
+    );
+  }
+  result.resize(n);
+  return [NSString stringWithUTF8String:result.c_str()];
+}
+// ── Text inference ───────────────────────────────────────────────────────────
+RCT_EXPORT_METHOD(generate:(NSString *)modelId
+              contextId:(NSString *)contextId
+                 prompt:(NSString *)prompt
+                options:(NSDictionary *)options
+                resolve:(RCTPromiseResolveBlock)resolve
+                 reject:(RCTPromiseRejectBlock)reject) {
+  dispatch_async(inference_queue(), ^{
+    llama_model *model;
+    llama_context *ctx;
+    {
+      std::lock_guard<std::mutex> lock(g_mutex);
+      auto mi = g_models.find([modelId UTF8String]);
+      auto ci = g_contexts.find([contextId UTF8String]);
+      if (mi == g_models.end() || ci == g_contexts.end()) {
+        reject(@"E_NOT_FOUND", @"Model or context not found", nil);
+        return;
+      }
+      model = mi->second;
+      ctx = ci->second;
+    }
+    SamplerParams sp = parse_sampler_params(options);
+    const char *cprompt = [prompt UTF8String];
+    const llama_vocab *vocab = llama_model_get_vocab(model);
+    // Tokenize prompt
+    int prompt_len = (int)strlen(cprompt);
+    std::vector<llama_token> tokens(prompt_len + 16);
+    int n_tokens = llama_tokenize(vocab, cprompt, prompt_len, tokens.data(), (int)tokens.size(), true, true);
+    if (n_tokens < 0) {
+      tokens.resize(-n_tokens);
+      n_tokens = llama_tokenize(vocab, cprompt, prompt_len, tokens.data(), (int)tokens.size(), true, true);
+    }
+    tokens.resize(n_tokens);
+    // Eval prompt
+    llama_batch batch = llama_batch_init(n_tokens, 0, 1);
+    for (int i = sp.n_past; i < n_tokens; i++) {
+      llama_batch_add(batch, tokens[i], i, {0}, i == n_tokens - 1);
+    }
+    if (llama_decode(ctx, batch) != 0) {
+      llama_batch_free(batch);
+      reject(@"E_DECODE", @"Failed to decode prompt", nil);
+      return;
+    }
+    llama_batch_free(batch);
+    // Sample loop
+    llama_sampler *smpl = create_sampler(sp, model);
+    std::string result;
+    for (int i = 0; i < sp.max_tokens; i++) {
+      llama_token new_token = llama_sampler_sample(smpl, ctx, -1);
+      if (llama_vocab_is_eog(vocab, new_token)) break;
+      result += token_to_piece(model, new_token);
+      // Eval the new token
+      llama_batch single = llama_batch_init(1, 0, 1);
+      llama_batch_add(single, new_token, n_tokens + i, {0}, true);
+      if (llama_decode(ctx, single) != 0) {
+        llama_batch_free(single);
+        break;
+      }
+      llama_batch_free(single);
+    }
+    llama_sampler_free(smpl);
+    resolve([NSString stringWithUTF8String:result.c_str()]);
+  });
+}
+RCT_EXPORT_METHOD(startStream:(NSString *)modelId
+               contextId:(NSString *)contextId
+                  prompt:(NSString *)prompt
+                 options:(NSDictionary *)options) {
+  std::string ctxIdStr = [contextId UTF8String];
+  clear_cancel(ctxIdStr);
+  dispatch_async(inference_queue(), ^{
+    llama_model *model;
+    llama_context *ctx;
+    {
+      std::lock_guard<std::mutex> lock(g_mutex);
+      auto mi = g_models.find([modelId UTF8String]);
+      auto ci = g_contexts.find(ctxIdStr);
+      if (mi == g_models.end() || ci == g_contexts.end()) {
+        [self sendEventWithName:@"onToken" body:@{
+          @"contextId": contextId, @"done": @YES, @"error": @"Model or context not found"
+        }];
+        return;
+      }
+      model = mi->second;
+      ctx = ci->second;
+    }
+    SamplerParams sp = parse_sampler_params(options);
+    const char *cprompt = [prompt UTF8String];
+    const llama_vocab *vocab = llama_model_get_vocab(model);
+    // Tokenize prompt
+    int prompt_len = (int)strlen(cprompt);
+    std::vector<llama_token> tokens(prompt_len + 16);
+    int n_tokens = llama_tokenize(vocab, cprompt, prompt_len, tokens.data(), (int)tokens.size(), true, true);
+    if (n_tokens < 0) {
+      tokens.resize(-n_tokens);
+      n_tokens = llama_tokenize(vocab, cprompt, prompt_len, tokens.data(), (int)tokens.size(), true, true);
+    }
+    tokens.resize(n_tokens);
+    // Eval prompt
+    llama_batch batch = llama_batch_init(n_tokens, 0, 1);
+    for (int i = sp.n_past; i < n_tokens; i++) {
+      llama_batch_add(batch, tokens[i], i, {0}, i == n_tokens - 1);
+    }
+    if (llama_decode(ctx, batch) != 0) {
+      llama_batch_free(batch);
+      [self sendEventWithName:@"onToken" body:@{
+        @"contextId": contextId, @"done": @YES, @"error": @"Failed to decode prompt"
+      }];
+      return;
+    }
+    llama_batch_free(batch);
+    // Sample loop
+    llama_sampler *smpl = create_sampler(sp, model);
+    for (int i = 0; i < sp.max_tokens; i++) {
+      if (is_cancelled(ctxIdStr)) break;
+      llama_token new_token = llama_sampler_sample(smpl, ctx, -1);
+      if (llama_vocab_is_eog(vocab, new_token)) break;
+      std::string piece = token_to_piece(model, new_token);
+      [self sendEventWithName:@"onToken" body:@{
+        @"contextId": contextId,
+        @"token": [NSString stringWithUTF8String:piece.c_str()],
+        @"done": @NO,
+      }];
+      llama_batch single = llama_batch_init(1, 0, 1);
+      llama_batch_add(single, new_token, n_tokens + i, {0}, true);
+      if (llama_decode(ctx, single) != 0) {
+        llama_batch_free(single);
+        break;
+      }
+      llama_batch_free(single);
+    }
+    llama_sampler_free(smpl);
+    clear_cancel(ctxIdStr);
+    [self sendEventWithName:@"onToken" body:@{
+      @"contextId": contextId, @"done": @YES
+    }];
+  });
+}
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(stopStream:(NSString *)contextId) {
+  request_cancel([contextId UTF8String]);
+  return nil;
+}
+// ── Vision ───────────────────────────────────────────────────────────────────
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(loadProjector:(NSString *)modelId
+                                              path:(NSString *)path
+                                           options:(NSDictionary *)options) {
+  std::lock_guard<std::mutex> lock(g_mutex);
+  auto it = g_models.find([modelId UTF8String]);
+  if (it == g_models.end()) return @"";
+  mtmd_context_params mparams = mtmd_context_default_params();
+  mparams.use_gpu = options[@"use_gpu"] ? [options[@"use_gpu"] boolValue] : true;
+  if (options[@"n_threads"]) mparams.n_threads = [options[@"n_threads"] intValue];
+  mtmd_context *mctx = mtmd_init_from_file([path UTF8String], it->second, mparams);
+  if (!mctx) return @"";
+  register_handle(mctx);
+  NSString *mtmdId = generateUUID();
+  g_mtmd_contexts[[mtmdId UTF8String]] = mctx;
+  return mtmdId;
+}
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(supportVision:(NSString *)mtmdId) {
+  std::lock_guard<std::mutex> lock(g_mutex);
+  auto it = g_mtmd_contexts.find([mtmdId UTF8String]);
+  if (it == g_mtmd_contexts.end()) return @NO;
+  return @(mtmd_support_vision(it->second));
+}
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(freeMtmdContext:(NSString *)mtmdId) {
+  std::lock_guard<std::mutex> lock(g_mutex);
+  auto it = g_mtmd_contexts.find([mtmdId UTF8String]);
+  if (it != g_mtmd_contexts.end()) {
+    if (unregister_handle(it->second)) {
+      mtmd_free(it->second);
+    }
+    g_mtmd_contexts.erase(it);
+  }
+  return nil;
+}
+RCT_EXPORT_METHOD(generateVision:(NSString *)modelId
+                     contextId:(NSString *)contextId
+                        mtmdId:(NSString *)mtmdId
+                        prompt:(NSString *)prompt
+                  imageBase64s:(NSArray<NSString *> *)imageBase64s
+                       options:(NSDictionary *)options
+                       resolve:(RCTPromiseResolveBlock)resolve
+                        reject:(RCTPromiseRejectBlock)reject) {
+  dispatch_async(inference_queue(), ^{
+    llama_model *model;
+    llama_context *ctx;
+    mtmd_context *mctx;
+    {
+      std::lock_guard<std::mutex> lock(g_mutex);
+      auto mi = g_models.find([modelId UTF8String]);
+      auto ci = g_contexts.find([contextId UTF8String]);
+      auto vi = g_mtmd_contexts.find([mtmdId UTF8String]);
+      if (mi == g_models.end() || ci == g_contexts.end() || vi == g_mtmd_contexts.end()) {
+        reject(@"E_NOT_FOUND", @"Model, context, or vision context not found", nil);
+        return;
+      }
+      model = mi->second;
+      ctx = ci->second;
+      mctx = vi->second;
+    }
+    // Decode base64 images
+    std::vector<mtmd_bitmap> bitmaps;
+    for (NSString *b64 in imageBase64s) {
+      std::vector<uint8_t> imgData = decode_base64(b64);
+      if (imgData.empty()) continue;
+      mtmd_bitmap *bmp = mtmd_helper_bitmap_init_from_buf(imgData.data(), imgData.size());
+      if (bmp) bitmaps.push_back(*bmp);
+    }
+    // Tokenize with vision
+    SamplerParams sp = parse_sampler_params(options);
+    const llama_vocab *vocab = llama_model_get_vocab(model);
+    mtmd_input_chunks *chunks = mtmd_input_chunks_init();
+    if (mtmd_tokenize(mctx, chunks, [prompt UTF8String], bitmaps.data(), bitmaps.size()) != 0) {
+      mtmd_input_chunks_free(chunks);
+      reject(@"E_VISION_TOKENIZE", @"Failed to tokenize vision input", nil);
+      return;
+    }
+    // Eval chunks
+    if (mtmd_helper_eval(mctx, ctx, chunks, llama_n_ctx(ctx), 0) != 0) {
+      mtmd_input_chunks_free(chunks);
+      reject(@"E_VISION_EVAL", @"Failed to evaluate vision input", nil);
+      return;
+    }
+    int n_past = mtmd_helper_get_n_pos(chunks);
+    mtmd_input_chunks_free(chunks);
+    // Sample
+    llama_sampler *smpl = create_sampler(sp, model);
+    std::string result;
+    for (int i = 0; i < sp.max_tokens; i++) {
+      llama_token new_token = llama_sampler_sample(smpl, ctx, -1);
+      if (llama_vocab_is_eog(vocab, new_token)) break;
+      result += token_to_piece(model, new_token);
+      llama_batch single = llama_batch_init(1, 0, 1);
+      llama_batch_add(single, new_token, n_past + i, {0}, true);
+      if (llama_decode(ctx, single) != 0) {
+        llama_batch_free(single);
+        break;
+      }
+      llama_batch_free(single);
+    }
+    llama_sampler_free(smpl);
+    resolve([NSString stringWithUTF8String:result.c_str()]);
+  });
+}
+RCT_EXPORT_METHOD(startStreamVision:(NSString *)modelId
+                        contextId:(NSString *)contextId
+                           mtmdId:(NSString *)mtmdId
+                           prompt:(NSString *)prompt
+                     imageBase64s:(NSArray<NSString *> *)imageBase64s
+                          options:(NSDictionary *)options) {
+  std::string ctxIdStr = [contextId UTF8String];
+  clear_cancel(ctxIdStr);
+  dispatch_async(inference_queue(), ^{
+    llama_model *model;
+    llama_context *ctx;
+    mtmd_context *mctx;
+    {
+      std::lock_guard<std::mutex> lock(g_mutex);
+      auto mi = g_models.find([modelId UTF8String]);
+      auto ci = g_contexts.find(ctxIdStr);
+      auto vi = g_mtmd_contexts.find([mtmdId UTF8String]);
+      if (mi == g_models.end() || ci == g_contexts.end() || vi == g_mtmd_contexts.end()) {
+        [self sendEventWithName:@"onToken" body:@{
+          @"contextId": contextId, @"done": @YES, @"error": @"Not found"
+        }];
+        return;
+      }
+      model = mi->second;
+      ctx = ci->second;
+      mctx = vi->second;
+    }
+    // Decode base64 images
+    std::vector<mtmd_bitmap> bitmaps;
+    for (NSString *b64 in imageBase64s) {
+      std::vector<uint8_t> imgData = decode_base64(b64);
+      if (imgData.empty()) continue;
+      mtmd_bitmap *bmp = mtmd_helper_bitmap_init_from_buf(imgData.data(), imgData.size());
+      if (bmp) bitmaps.push_back(*bmp);
+    }
+    SamplerParams sp = parse_sampler_params(options);
+    const llama_vocab *vocab = llama_model_get_vocab(model);
+    mtmd_input_chunks *chunks = mtmd_input_chunks_init();
+    if (mtmd_tokenize(mctx, chunks, [prompt UTF8String], bitmaps.data(), bitmaps.size()) != 0) {
+      mtmd_input_chunks_free(chunks);
+      [self sendEventWithName:@"onToken" body:@{
+        @"contextId": contextId, @"done": @YES, @"error": @"Vision tokenize failed"
+      }];
+      return;
+    }
+    if (mtmd_helper_eval(mctx, ctx, chunks, llama_n_ctx(ctx), 0) != 0) {
+      mtmd_input_chunks_free(chunks);
+      [self sendEventWithName:@"onToken" body:@{
+        @"contextId": contextId, @"done": @YES, @"error": @"Vision eval failed"
+      }];
+      return;
+    }
+    int n_past = mtmd_helper_get_n_pos(chunks);
+    mtmd_input_chunks_free(chunks);
+    llama_sampler *smpl = create_sampler(sp, model);
+    for (int i = 0; i < sp.max_tokens; i++) {
+      if (is_cancelled(ctxIdStr)) break;
+      llama_token new_token = llama_sampler_sample(smpl, ctx, -1);
+      if (llama_vocab_is_eog(vocab, new_token)) break;
+      std::string piece = token_to_piece(model, new_token);
+      [self sendEventWithName:@"onToken" body:@{
+        @"contextId": contextId,
+        @"token": [NSString stringWithUTF8String:piece.c_str()],
+        @"done": @NO,
+      }];
+      llama_batch single = llama_batch_init(1, 0, 1);
+      llama_batch_add(single, new_token, n_past + i, {0}, true);
+      if (llama_decode(ctx, single) != 0) {
+        llama_batch_free(single);
+        break;
+      }
+      llama_batch_free(single);
+    }
+    llama_sampler_free(smpl);
+    clear_cancel(ctxIdStr);
+    [self sendEventWithName:@"onToken" body:@{
+      @"contextId": contextId, @"done": @YES
+    }];
+  });
+}
+// ── Grammar ──────────────────────────────────────────────────────────────────
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(jsonSchemaToGrammar:(NSString *)schemaJson) {
+  try {
+    auto schema = nlohmann::ordered_json::parse([schemaJson UTF8String]);
+    std::string grammar = json_schema_to_grammar(schema);
+    return [NSString stringWithUTF8String:grammar.c_str()];
+  } catch (...) {
+    return @"";
+  }
+}
+// ── Embeddings ───────────────────────────────────────────────────────────────
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(getEmbeddingDimension:(NSString *)modelId) {
+  std::lock_guard<std::mutex> lock(g_mutex);
+  auto it = g_models.find([modelId UTF8String]);
+  if (it == g_models.end()) return @(0);
+  return @((int)llama_model_n_embd(it->second));
+}
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(createEmbeddingContext:(NSString *)modelId
+                                                      options:(NSDictionary *)options) {
+  std::lock_guard<std::mutex> lock(g_mutex);
+  auto it = g_models.find([modelId UTF8String]);
+  if (it == g_models.end()) return @"";
+  llama_context_params params = llama_context_default_params();
+  params.embeddings = true;
+  if (options[@"n_ctx"])        params.n_ctx = [options[@"n_ctx"] intValue];
+  if (options[@"n_batch"])      params.n_batch = [options[@"n_batch"] intValue];
+  if (options[@"n_threads"])    params.n_threads = [options[@"n_threads"] intValue];
+  if (options[@"pooling_type"]) params.pooling_type = (enum llama_pooling_type)[options[@"pooling_type"] intValue];
+  llama_context *ctx = llama_init_from_model(it->second, params);
+  if (!ctx) return @"";
+  register_handle(ctx);
+  NSString *ctxId = generateUUID();
+  g_contexts[[ctxId UTF8String]] = ctx;
+  return ctxId;
+}
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(embed:(NSString *)contextId
+                                      modelId:(NSString *)modelId
+                                       tokens:(NSArray<NSNumber *> *)tokens) {
+  std::lock_guard<std::mutex> lock(g_mutex);
+  auto ci = g_contexts.find([contextId UTF8String]);
+  auto mi = g_models.find([modelId UTF8String]);
+  if (ci == g_contexts.end() || mi == g_models.end()) {
+    @throw [NSException exceptionWithName:@"E_INVALID_HANDLE"
+                                   reason:@"Invalid context or model ID for embed()"
+                                 userInfo:nil];
+  }
+  llama_context *ctx = ci->second;
+  // Build batch
+  int n = (int)tokens.count;
+  llama_batch batch = llama_batch_init(n, 0, 1);
+  for (int i = 0; i < n; i++) {
+    llama_batch_add(batch, [tokens[i] intValue], i, {0}, true);
+  }
+  if (llama_encode(ctx, batch) != 0) {
+    llama_batch_free(batch);
+    return @[];
+  }
+  llama_batch_free(batch);
+  // Extract embeddings
+  int n_embd = llama_model_n_embd(mi->second);
+  const float *embd = llama_get_embeddings_seq(ctx, 0);
+  if (!embd) return @[];
+  // L2 normalize
+  float norm = 0.0f;
+  for (int i = 0; i < n_embd; i++) norm += embd[i] * embd[i];
+  norm = sqrtf(norm);
+  NSMutableArray *result = [NSMutableArray arrayWithCapacity:n_embd];
+  for (int i = 0; i < n_embd; i++) {
+    [result addObject:@(norm > 0.0f ? embd[i] / norm : 0.0f)];
+  }
+  return result;
+}
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(embedBatch:(NSString *)contextId
+                                          modelId:(NSString *)modelId
+                                     tokenArrays:(NSArray<NSArray<NSNumber *> *> *)tokenArrays) {
+  std::lock_guard<std::mutex> lock(g_mutex);
+  auto ci = g_contexts.find([contextId UTF8String]);
+  auto mi = g_models.find([modelId UTF8String]);
+  if (ci == g_contexts.end() || mi == g_models.end()) {
+    @throw [NSException exceptionWithName:@"E_INVALID_HANDLE"
+                                   reason:@"Invalid context or model ID for embedBatch()"
+                                 userInfo:nil];
+  }
+  llama_context *ctx = ci->second;
+  int n_seqs = (int)tokenArrays.count;
+  int n_embd = llama_model_n_embd(mi->second);
+  // Calculate total tokens
+  int total_tokens = 0;
+  for (NSArray *toks in tokenArrays) total_tokens += (int)toks.count;
+  llama_batch batch = llama_batch_init(total_tokens, 0, n_seqs);
+  int pos = 0;
+  for (int seq = 0; seq < n_seqs; seq++) {
+    NSArray *toks = tokenArrays[seq];
+    for (int i = 0; i < (int)toks.count; i++) {
+      llama_batch_add(batch, [toks[i] intValue], i, {seq}, i == (int)toks.count - 1);
+    }
+  }
+  if (llama_encode(ctx, batch) != 0) {
+    llama_batch_free(batch);
+    return @[];
+  }
+  llama_batch_free(batch);
+  NSMutableArray *results = [NSMutableArray arrayWithCapacity:n_seqs];
+  for (int seq = 0; seq < n_seqs; seq++) {
+    const float *embd = llama_get_embeddings_seq(ctx, seq);
+    if (!embd) {
+      [results addObject:@[]];
+      continue;
+    }
+    float norm = 0.0f;
+    for (int i = 0; i < n_embd; i++) norm += embd[i] * embd[i];
+    norm = sqrtf(norm);
+    NSMutableArray *vec = [NSMutableArray arrayWithCapacity:n_embd];
+    for (int i = 0; i < n_embd; i++) {
+      [vec addObject:@(norm > 0.0f ? embd[i] / norm : 0.0f)];
+    }
+    [results addObject:vec];
+  }
+  return results;
+}
+// ── Batch inference ──────────────────────────────────────────────────────────
+RCT_EXPORT_METHOD(startBatch:(NSString *)modelId
+               contextId:(NSString *)contextId
+                 prompts:(NSArray<NSString *> *)prompts
+                 options:(NSDictionary *)options) {
+  std::string ctxIdStr = [contextId UTF8String];
+  dispatch_async(inference_queue(), ^{
+    llama_model *model;
+    llama_context *ctx;
+    {
+      std::lock_guard<std::mutex> lock(g_mutex);
+      auto mi = g_models.find([modelId UTF8String]);
+      auto ci = g_contexts.find(ctxIdStr);
+      if (mi == g_models.end() || ci == g_contexts.end()) {
+        [self sendEventWithName:@"onBatchToken" body:@{
+          @"contextId": contextId, @"done": @YES, @"error": @"Not found", @"seqIndex": @(-1)
+        }];
+        return;
+      }
+      model = mi->second;
+      ctx = ci->second;
+    }
+    SamplerParams sp = parse_sampler_params(options);
+    const llama_vocab *vocab = llama_model_get_vocab(model);
+    int n_seqs = (int)prompts.count;
+    // Tokenize all prompts
+    std::vector<std::vector<llama_token>> all_tokens(n_seqs);
+    int total_tokens = 0;
+    for (int s = 0; s < n_seqs; s++) {
+      const char *cprompt = [prompts[s] UTF8String];
+      int plen = (int)strlen(cprompt);
+      all_tokens[s].resize(plen + 16);
+      int n = llama_tokenize(vocab, cprompt, plen, all_tokens[s].data(), (int)all_tokens[s].size(), true, true);
+      if (n < 0) {
+        all_tokens[s].resize(-n);
+        n = llama_tokenize(vocab, cprompt, plen, all_tokens[s].data(), (int)all_tokens[s].size(), true, true);
+      }
+      all_tokens[s].resize(n);
+      total_tokens += n;
+    }
+    // Eval all prompts
+    llama_batch batch = llama_batch_init(total_tokens, 0, n_seqs);
+    for (int s = 0; s < n_seqs; s++) {
+      for (int i = 0; i < (int)all_tokens[s].size(); i++) {
+        llama_batch_add(batch, all_tokens[s][i], i, {s}, i == (int)all_tokens[s].size() - 1);
+      }
+    }
+    if (llama_decode(ctx, batch) != 0) {
+      llama_batch_free(batch);
+      [self sendEventWithName:@"onBatchToken" body:@{
+        @"contextId": contextId, @"done": @YES, @"error": @"Decode failed", @"seqIndex": @(-1)
+      }];
+      return;
+    }
+    llama_batch_free(batch);
+    // Sample per sequence
+    std::vector<llama_sampler *> samplers(n_seqs);
+    std::vector<bool> done(n_seqs, false);
+    std::vector<int> positions(n_seqs);
+    for (int s = 0; s < n_seqs; s++) {
+      samplers[s] = create_sampler(sp, model);
+      positions[s] = (int)all_tokens[s].size();
+    }
+    bool cancelled = false;
+    for (int iter = 0; iter < sp.max_tokens; iter++) {
+      if (is_cancelled(ctxIdStr)) { cancelled = true; break; }
+      bool all_done = true;
+      for (int s = 0; s < n_seqs; s++) {
+        if (done[s]) continue;
+        all_done = false;
+        llama_token new_token = llama_sampler_sample(samplers[s], ctx, -1);
+        if (llama_vocab_is_eog(vocab, new_token)) {
+          done[s] = true;
+          [self sendEventWithName:@"onBatchToken" body:@{
+            @"contextId": contextId, @"seqIndex": @(s), @"done": @YES, @"finishReason": @"stop"
+          }];
+          continue;
+        }
+        std::string piece = token_to_piece(model, new_token);
+        [self sendEventWithName:@"onBatchToken" body:@{
+          @"contextId": contextId, @"seqIndex": @(s),
+          @"token": [NSString stringWithUTF8String:piece.c_str()], @"done": @NO
+        }];
+        llama_batch single = llama_batch_init(1, 0, n_seqs);
+        llama_batch_add(single, new_token, positions[s], {s}, true);
+        positions[s]++;
+        llama_decode(ctx, single);
+        llama_batch_free(single);
+      }
+      if (all_done) break;
+    }
+    // Cleanup
+    for (auto *s : samplers) llama_sampler_free(s);
+    clear_cancel(ctxIdStr);
+    // Mark any remaining sequences as done
+    NSString *reason = cancelled ? @"cancelled" : @"length";
+    for (int s = 0; s < n_seqs; s++) {
+      if (!done[s]) {
+        [self sendEventWithName:@"onBatchToken" body:@{
+          @"contextId": contextId, @"seqIndex": @(s), @"done": @YES, @"finishReason": reason
+        }];
+      }
+    }
+  });
+}
+// ── Quantization ─────────────────────────────────────────────────────────────
+RCT_EXPORT_METHOD(quantize:(NSString *)inputPath
+             outputPath:(NSString *)outputPath
+                options:(NSDictionary *)options) {
+  dispatch_async(inference_queue(), ^{
+    llama_model_quantize_params params = llama_model_quantize_default_params();
+    params.ftype = options[@"ftype"] ? [options[@"ftype"] intValue] : 15; // Q4_K_M default
+    if (options[@"nthread"])                 params.nthread = [options[@"nthread"] intValue];
+    if (options[@"allow_requantize"])        params.allow_requantize = [options[@"allow_requantize"] boolValue];
+    if (options[@"quantize_output_tensor"])  params.quantize_output_tensor = [options[@"quantize_output_tensor"] boolValue];
+    if (options[@"pure"])                    params.pure = [options[@"pure"] boolValue];
+    uint32_t result = llama_model_quantize([inputPath UTF8String], [outputPath UTF8String], &params);
+    NSString *error = (result != 0) ? [NSString stringWithFormat:@"Quantization failed with code %u", result] : nil;
+    [self sendEventWithName:@"onQuantizeComplete" body:@{
+      @"error": error ?: [NSNull null],
+    }];
+  });
+}
+// ── Logging ──────────────────────────────────────────────────────────────────
+static void llm_log_callback(enum ggml_log_level level, const char *text, void * /*user_data*/) {
+  if (!g_log_events_enabled.load(std::memory_order_relaxed)) return;
+  if ((int)level < g_log_min_level.load(std::memory_order_relaxed)) return;
+  LocalLLM *module = g_log_module;
+  if (!module || !module->_hasListeners) return;
+  [module sendEventWithName:@"onLog" body:@{
+    @"level": @((int)level),
+    @"text": @(text),
+  }];
+}
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(setLogLevel:(double)level) {
+  g_log_min_level.store((int)level, std::memory_order_relaxed);
+  return nil;
+}
+RCT_EXPORT_METHOD(enableLogEvents:(BOOL)enabled) {
+  g_log_events_enabled.store(enabled, std::memory_order_relaxed);
+  if (enabled) {
+    g_log_module = self;
+    llama_log_set(llm_log_callback, nullptr);
+  } else {
+    llama_log_set(nullptr, nullptr);
+    g_log_module = nil;
+  }
+}
+// ── Downloads ────────────────────────────────────────────────────────────────
+RCT_EXPORT_METHOD(downloadModel:(NSString *)url destPath:(NSString *)destPath) {
+  NSURL *nsUrl = [NSURL URLWithString:url];
+  if (!nsUrl) return;
+  _downloadDelegate.destPaths[url] = destPath;
+  NSURLSessionDownloadTask *task = [_downloadSession downloadTaskWithURL:nsUrl];
+  [task resume];
+}
+RCT_EXPORT_METHOD(cancelDownload:(NSString *)url) {
+  [_downloadSession getTasksWithCompletionHandler:^(NSArray *dataTasks, NSArray *uploadTasks, NSArray *downloadTasks) {
+    for (NSURLSessionDownloadTask *task in downloadTasks) {
+      if ([task.originalRequest.URL.absoluteString isEqualToString:url]) {
+        [task cancel];
+      }
+    }
+  }];
+}
+// ── Device capabilities ──────────────────────────────────────────────────────
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(getDeviceCapabilities) {
+  NSProcessInfo *info = [NSProcessInfo processInfo];
+  id<MTLDevice> gpu = MTLCreateSystemDefaultDevice();
+  uint64_t totalRAM = info.physicalMemory;
+  uint64_t availableRAM = os_proc_available_memory();
+  NSOperatingSystemVersion ver = info.operatingSystemVersion;
+  NSString *iosVersion = [NSString stringWithFormat:@"%ld.%ld.%ld",
+    (long)ver.majorVersion, (long)ver.minorVersion, (long)ver.patchVersion];
+  // Detect Metal GPU family
+  int metalFamily = 0;
+  if (gpu) {
+    if ([gpu supportsFamily:MTLGPUFamilyApple9]) metalFamily = 9;
+    else if ([gpu supportsFamily:MTLGPUFamilyApple8]) metalFamily = 8;
+    else if ([gpu supportsFamily:MTLGPUFamilyApple7]) metalFamily = 7;
+    else if ([gpu supportsFamily:MTLGPUFamilyApple6]) metalFamily = 6;
+    else if ([gpu supportsFamily:MTLGPUFamilyApple5]) metalFamily = 5;
+    else if ([gpu supportsFamily:MTLGPUFamilyApple4]) metalFamily = 4;
+  }
+  int metalVersion = metalFamily >= 7 ? 3 : metalFamily >= 5 ? 2 : 1;
+  return @{
+    @"totalRAM":        @(totalRAM),
+    @"availableRAM":    @(availableRAM),
+    @"gpuName":         gpu ? gpu.name : @"unknown",
+    @"metalFamily":     @(metalFamily),
+    @"metalVersion":    @(metalVersion),
+    @"iosVersion":      iosVersion,
+    @"isLowPowerMode":  @(info.isLowPowerModeEnabled),
+  };
+}
+RCT_EXPORT_BLOCKING_SYNCHRONOUS_METHOD(getModelStoragePath) {
+  NSArray *paths = NSSearchPathForDirectoriesInDomains(NSApplicationSupportDirectory, NSUserDomainMask, YES);
+  NSString *appSupport = paths.firstObject;
+  NSString *llmDir = [appSupport stringByAppendingPathComponent:@"local-llm/models"];
+  NSFileManager *fm = [NSFileManager defaultManager];
+  if (![fm fileExistsAtPath:llmDir]) {
+    [fm createDirectoryAtPath:llmDir withIntermediateDirectories:YES attributes:nil error:nil];
+  }
+  return llmDir;
+}
+@end