RubyGems - whispercpp - Versions diffs - 1.3.2 → 1.3.3 - Mend

whispercpp 1.3.2 → 1.3.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (244) hide show

checksums.yaml +4 -4
data/.gitignore +6 -3
data/README.md +71 -14
data/Rakefile +20 -7
data/ext/.gitignore +4 -6
data/ext/dependencies.rb +36 -24
data/ext/extconf.rb +1 -1
data/ext/options.rb +48 -184
data/ext/ruby_whisper.c +18 -0
data/ext/ruby_whisper_context.c +43 -12
data/ext/ruby_whisper_model.c +1 -1
data/ext/ruby_whisper_params.c +4 -2
data/ext/ruby_whisper_segment.c +81 -4
data/ext/ruby_whisper_transcribe.cpp +13 -7
data/ext/ruby_whisper_vad_params.c +1 -1
data/ext/sources/CMakeLists.txt +5 -1
data/ext/sources/bindings/javascript/package.json +1 -1
data/ext/sources/examples/addon.node/__test__/whisper.spec.js +120 -24
data/ext/sources/examples/addon.node/addon.cpp +150 -31
data/ext/sources/examples/addon.node/index.js +3 -0
data/ext/sources/examples/addon.node/vad-example.js +132 -0
data/ext/sources/examples/bench/bench.cpp +3 -2
data/ext/sources/examples/cli/cli.cpp +3 -2
data/ext/sources/examples/command/command.cpp +32 -8
data/ext/sources/examples/common-whisper.cpp +14 -7
data/ext/sources/examples/lsp/lsp.cpp +2 -0
data/ext/sources/examples/quantize/quantize.cpp +3 -0
data/ext/sources/examples/server/CMakeLists.txt +3 -0
data/ext/sources/examples/server/server.cpp +169 -22
data/ext/sources/examples/stream/stream.cpp +6 -0
data/ext/sources/examples/talk-llama/CMakeLists.txt +4 -1
data/ext/sources/examples/talk-llama/llama-arch.cpp +171 -3
data/ext/sources/examples/talk-llama/llama-arch.h +28 -1
data/ext/sources/examples/talk-llama/llama-batch.cpp +741 -272
data/ext/sources/examples/talk-llama/llama-batch.h +112 -54
data/ext/sources/examples/talk-llama/llama-chat.cpp +30 -8
data/ext/sources/examples/talk-llama/llama-chat.h +1 -0
data/ext/sources/examples/talk-llama/llama-context.cpp +520 -351
data/ext/sources/examples/talk-llama/llama-context.h +38 -17
data/ext/sources/examples/talk-llama/llama-cparams.cpp +1 -1
data/ext/sources/examples/talk-llama/llama-cparams.h +1 -1
data/ext/sources/examples/talk-llama/llama-graph.cpp +447 -372
data/ext/sources/examples/talk-llama/llama-graph.h +128 -58
data/ext/sources/examples/talk-llama/llama-hparams.cpp +10 -2
data/ext/sources/examples/talk-llama/llama-hparams.h +19 -2
data/ext/sources/examples/talk-llama/llama-kv-cache-unified-iswa.cpp +279 -0
data/ext/sources/examples/talk-llama/llama-kv-cache-unified-iswa.h +128 -0
data/ext/sources/examples/talk-llama/llama-kv-cache-unified.cpp +1841 -0
data/ext/sources/examples/talk-llama/llama-kv-cache-unified.h +303 -0
data/ext/sources/examples/talk-llama/llama-kv-cache.h +14 -472
data/ext/sources/examples/talk-llama/llama-kv-cells.h +86 -26
data/ext/sources/examples/talk-llama/llama-memory-hybrid.cpp +246 -0
data/ext/sources/examples/talk-llama/llama-memory-hybrid.h +138 -0
data/ext/sources/examples/talk-llama/llama-memory-recurrent.cpp +1125 -0
data/ext/sources/examples/talk-llama/llama-memory-recurrent.h +183 -0
data/ext/sources/examples/talk-llama/llama-memory.cpp +58 -0
data/ext/sources/examples/talk-llama/llama-memory.h +88 -4
data/ext/sources/examples/talk-llama/llama-mmap.cpp +1 -1
data/ext/sources/examples/talk-llama/llama-model-loader.cpp +42 -17
data/ext/sources/examples/talk-llama/llama-model-saver.cpp +1 -0
data/ext/sources/examples/talk-llama/llama-model.cpp +1863 -563
data/ext/sources/examples/talk-llama/llama-model.h +27 -0
data/ext/sources/examples/talk-llama/llama-quant.cpp +89 -6
data/ext/sources/examples/talk-llama/llama-vocab.cpp +65 -28
data/ext/sources/examples/talk-llama/llama-vocab.h +1 -0
data/ext/sources/examples/talk-llama/llama.cpp +11 -7
data/ext/sources/examples/talk-llama/llama.h +147 -40
data/ext/sources/examples/talk-llama/talk-llama.cpp +2 -0
data/ext/sources/examples/talk-llama/unicode.cpp +5 -0
data/ext/sources/examples/vad-speech-segments/speech.cpp +6 -0
data/ext/sources/examples/wchess/wchess.cmd/wchess.cmd.cpp +2 -0
data/ext/sources/ggml/CMakeLists.txt +48 -3
data/ext/sources/ggml/cmake/common.cmake +24 -0
data/ext/sources/ggml/include/ggml-backend.h +1 -1
data/ext/sources/ggml/include/ggml-cpu.h +2 -0
data/ext/sources/ggml/include/ggml.h +144 -5
data/ext/sources/ggml/src/CMakeLists.txt +82 -24
data/ext/sources/ggml/src/ggml-backend-reg.cpp +5 -0
data/ext/sources/ggml/src/ggml-backend.cpp +46 -23
data/ext/sources/ggml/src/ggml-blas/CMakeLists.txt +3 -3
data/ext/sources/ggml/src/ggml-cann/CMakeLists.txt +1 -0
data/ext/sources/ggml/src/ggml-cann/common.h +6 -1
data/ext/sources/ggml/src/ggml-cann/ggml-cann.cpp +33 -9
data/ext/sources/ggml/src/ggml-common.h +4 -0
data/ext/sources/ggml/src/ggml-cpu/CMakeLists.txt +133 -40
data/ext/sources/ggml/src/ggml-cpu/amx/amx.cpp +1 -1
data/ext/sources/ggml/src/ggml-cpu/amx/mmq.cpp +11 -10
data/ext/sources/ggml/src/ggml-cpu/arch/arm/cpu-feats.cpp +94 -0
data/ext/sources/ggml/src/ggml-cpu/arch/arm/quants.c +4114 -0
data/ext/sources/ggml/src/ggml-cpu/arch/arm/repack.cpp +2163 -0
data/ext/sources/ggml/src/ggml-cpu/arch/loongarch/quants.c +2639 -0
data/ext/sources/ggml/src/ggml-cpu/arch/powerpc/cpu-feats.cpp +82 -0
data/ext/sources/ggml/src/ggml-cpu/arch/powerpc/quants.c +2732 -0
data/ext/sources/ggml/src/ggml-cpu/arch/riscv/quants.c +2069 -0
data/ext/sources/ggml/src/ggml-cpu/arch/riscv/repack.cpp +397 -0
data/ext/sources/ggml/src/ggml-cpu/arch/s390/quants.c +1300 -0
data/ext/sources/ggml/src/ggml-cpu/arch/wasm/quants.c +1481 -0
data/ext/sources/ggml/src/ggml-cpu/arch/x86/quants.c +4311 -0
data/ext/sources/ggml/src/ggml-cpu/{ggml-cpu-aarch64.cpp → arch/x86/repack.cpp} +79 -3225
data/ext/sources/ggml/src/ggml-cpu/arch-fallback.h +184 -0
data/ext/sources/ggml/src/ggml-cpu/common.h +4 -3
data/ext/sources/ggml/src/ggml-cpu/ggml-cpu-impl.h +16 -7
data/ext/sources/ggml/src/ggml-cpu/ggml-cpu.c +146 -105
data/ext/sources/ggml/src/ggml-cpu/ggml-cpu.cpp +12 -8
data/ext/sources/ggml/src/ggml-cpu/{ggml-cpu-hbm.cpp → hbm.cpp} +1 -1
data/ext/sources/ggml/src/ggml-cpu/kleidiai/kleidiai.cpp +1 -1
data/ext/sources/ggml/src/ggml-cpu/llamafile/sgemm.cpp +58 -8
data/ext/sources/ggml/src/ggml-cpu/llamafile/sgemm.h +5 -0
data/ext/sources/ggml/src/ggml-cpu/ops.cpp +1057 -174
data/ext/sources/ggml/src/ggml-cpu/ops.h +8 -0
data/ext/sources/ggml/src/ggml-cpu/quants.c +1158 -0
data/ext/sources/ggml/src/ggml-cpu/{ggml-cpu-quants.h → quants.h} +26 -0
data/ext/sources/ggml/src/ggml-cpu/repack.cpp +1571 -0
data/ext/sources/ggml/src/ggml-cpu/repack.h +98 -0
data/ext/sources/ggml/src/ggml-cpu/simd-mappings.h +330 -38
data/ext/sources/ggml/src/ggml-cpu/{ggml-cpu-traits.cpp → traits.cpp} +1 -1
data/ext/sources/ggml/src/ggml-cpu/vec.cpp +111 -18
data/ext/sources/ggml/src/ggml-cpu/vec.h +303 -94
data/ext/sources/ggml/src/ggml-cuda/common.cuh +60 -37
data/ext/sources/ggml/src/ggml-cuda/conv2d-dw.cu +161 -0
data/ext/sources/ggml/src/ggml-cuda/conv2d-dw.cuh +5 -0
data/ext/sources/ggml/src/ggml-cuda/conv2d-transpose.cu +91 -0
data/ext/sources/ggml/src/ggml-cuda/conv2d-transpose.cuh +4 -0
data/ext/sources/ggml/src/ggml-cuda/convert.cu +22 -0
data/ext/sources/ggml/src/ggml-cuda/convert.cuh +5 -0
data/ext/sources/ggml/src/ggml-cuda/fattn-common.cuh +2 -2
data/ext/sources/ggml/src/ggml-cuda/fattn-mma-f16.cuh +5 -2
data/ext/sources/ggml/src/ggml-cuda/fattn-wmma-f16.cu +4 -0
data/ext/sources/ggml/src/ggml-cuda/ggml-cuda.cu +265 -123
data/ext/sources/ggml/src/ggml-cuda/mean.cu +19 -0
data/ext/sources/ggml/src/ggml-cuda/mean.cuh +3 -0
data/ext/sources/ggml/src/ggml-cuda/mmv.cu +257 -87
data/ext/sources/ggml/src/ggml-cuda/mmv.cuh +2 -3
data/ext/sources/ggml/src/ggml-cuda/ssm-scan.cu +6 -4
data/ext/sources/ggml/src/ggml-cuda/sumrows.cu +5 -18
data/ext/sources/ggml/src/ggml-cuda/sumrows.cuh +0 -1
data/ext/sources/ggml/src/ggml-cuda/unary.cu +89 -0
data/ext/sources/ggml/src/ggml-cuda/unary.cuh +7 -0
data/ext/sources/ggml/src/ggml-hip/CMakeLists.txt +4 -0
data/ext/sources/ggml/src/ggml-impl.h +127 -183
data/ext/sources/ggml/src/ggml-metal/CMakeLists.txt +11 -10
data/ext/sources/ggml/src/ggml-metal/ggml-metal-impl.h +27 -0
data/ext/sources/ggml/src/ggml-metal/ggml-metal.m +331 -49
data/ext/sources/ggml/src/ggml-metal/ggml-metal.metal +564 -282
data/ext/sources/ggml/src/ggml-musa/mudnn.cuh +2 -2
data/ext/sources/ggml/src/ggml-opencl/CMakeLists.txt +14 -0
data/ext/sources/ggml/src/ggml-opencl/ggml-opencl.cpp +1859 -489
data/ext/sources/ggml/src/ggml-opencl/kernels/argsort.cl +86 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/concat.cl +109 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/div.cl +72 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/glu.cl +201 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/group_norm.cl +72 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/mul_mv_id_q4_0_f32_8x_flat.cl +283 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/pad.cl +30 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/repeat.cl +39 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/sigmoid.cl +29 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/sub.cl +72 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/sum_rows.cl +39 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/tanh.cl +63 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/tsembd.cl +48 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/upscale.cl +121 -0
data/ext/sources/ggml/src/ggml-quants.c +6 -8
data/ext/sources/ggml/src/ggml-rpc/ggml-rpc.cpp +18 -15
data/ext/sources/ggml/src/ggml-sycl/CMakeLists.txt +3 -3
data/ext/sources/ggml/src/ggml-sycl/binbcast.cpp +5 -6
data/ext/sources/ggml/src/ggml-sycl/common.hpp +20 -48
data/ext/sources/ggml/src/ggml-sycl/concat.cpp +28 -41
data/ext/sources/ggml/src/ggml-sycl/conv.cpp +4 -10
data/ext/sources/ggml/src/ggml-sycl/convert.cpp +117 -165
data/ext/sources/ggml/src/ggml-sycl/cpy.cpp +192 -53
data/ext/sources/ggml/src/ggml-sycl/dequantize.hpp +32 -0
data/ext/sources/ggml/src/ggml-sycl/dmmv.cpp +49 -67
data/ext/sources/ggml/src/ggml-sycl/dpct/helper.hpp +31 -1
data/ext/sources/ggml/src/ggml-sycl/element_wise.cpp +648 -1039
data/ext/sources/ggml/src/ggml-sycl/element_wise.hpp +18 -9
data/ext/sources/ggml/src/ggml-sycl/gemm.hpp +3 -0
data/ext/sources/ggml/src/ggml-sycl/getrows.cpp +8 -105
data/ext/sources/ggml/src/ggml-sycl/ggml-sycl.cpp +238 -100
data/ext/sources/ggml/src/ggml-sycl/gla.cpp +2 -2
data/ext/sources/ggml/src/ggml-sycl/im2col.cpp +1 -1
data/ext/sources/ggml/src/ggml-sycl/mmq.cpp +60 -80
data/ext/sources/ggml/src/ggml-sycl/mmvq.cpp +158 -203
data/ext/sources/ggml/src/ggml-sycl/norm.cpp +55 -74
data/ext/sources/ggml/src/ggml-sycl/quants.hpp +38 -10
data/ext/sources/ggml/src/ggml-sycl/rope.cpp +138 -27
data/ext/sources/ggml/src/ggml-sycl/softmax.cpp +3 -3
data/ext/sources/ggml/src/ggml-sycl/sycl_hw.cpp +3 -1
data/ext/sources/ggml/src/ggml-sycl/sycl_hw.hpp +3 -0
data/ext/sources/ggml/src/ggml-sycl/tsembd.cpp +3 -8
data/ext/sources/ggml/src/ggml-sycl/vecdotq.hpp +108 -16
data/ext/sources/ggml/src/ggml-sycl/wkv.cpp +12 -16
data/ext/sources/ggml/src/ggml-vulkan/CMakeLists.txt +36 -32
data/ext/sources/ggml/src/ggml-vulkan/ggml-vulkan.cpp +726 -282
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/CMakeLists.txt +4 -12
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/conv_transpose_1d.comp +98 -0
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/geglu.comp +13 -0
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/glu_head.comp +15 -0
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/glu_main.comp +29 -0
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/reglu.comp +9 -0
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/rms_norm.comp +12 -3
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/swiglu.comp +9 -0
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/vulkan-shaders-gen.cpp +10 -1
data/ext/sources/ggml/src/ggml.c +328 -48
data/ext/sources/ggml/src/ggml.cpp +26 -0
data/ext/sources/ggml/src/gguf.cpp +24 -3
data/ext/sources/include/whisper.h +2 -0
data/ext/sources/src/CMakeLists.txt +2 -0
data/ext/sources/src/coreml/whisper-compat.h +10 -0
data/ext/sources/src/coreml/whisper-compat.m +35 -0
data/ext/sources/src/coreml/whisper-decoder-impl.m +1 -0
data/ext/sources/src/coreml/whisper-encoder-impl.m +1 -0
data/ext/sources/src/whisper.cpp +218 -169
data/extsources.rb +15 -9
data/lib/whisper/context.rb +15 -0
data/lib/whisper/model/uri.rb +56 -1
data/lib/whisper/segment.rb +58 -0
data/sig/whisper.rbs +68 -38
data/{tests → test}/helper.rb +1 -12
data/{tests → test}/test_model.rb +9 -0
data/test/test_package.rb +51 -0
data/test/test_segment.rb +146 -0
data/{tests → test}/test_whisper.rb +70 -0
data/whispercpp.gemspec +2 -3
metadata +91 -43
data/ext/sources/.dockerignore +0 -3
data/ext/sources/.github/workflows/bindings-ruby.yml +0 -21
data/ext/sources/ci/run.sh +0 -336
data/ext/sources/close-issue.yml +0 -28
data/ext/sources/examples/talk-llama/llama-kv-cache.cpp +0 -2739
data/ext/sources/ggml/src/ggml-cpu/ggml-cpu-aarch64.h +0 -8
data/ext/sources/ggml/src/ggml-cpu/ggml-cpu-quants.c +0 -13747
data/tests/test_package.rb +0 -46
data/tests/test_segment.rb +0 -74
/data/ext/sources/ggml/src/ggml-cpu/{cpu-feats-x86.cpp → arch/x86/cpu-feats.cpp} +0 -0
/data/ext/sources/ggml/src/ggml-cpu/{ggml-cpu-hbm.h → hbm.h} +0 -0
/data/ext/sources/ggml/src/ggml-cpu/{ggml-cpu-traits.h → traits.h} +0 -0
/data/{tests → test}/jfk_reader/.gitignore +0 -0
/data/{tests → test}/jfk_reader/extconf.rb +0 -0
/data/{tests → test}/jfk_reader/jfk_reader.c +0 -0
/data/{tests → test}/test_callback.rb +0 -0
/data/{tests → test}/test_error.rb +0 -0
/data/{tests → test}/test_params.rb +0 -0
/data/{tests → test}/test_vad.rb +0 -0
/data/{tests → test}/test_vad_params.rb +0 -0

data/ext/sources/examples/server/server.cpp CHANGED Viewed

@@ -5,6 +5,7 @@
 #include "httplib.h"
 #include "json.hpp"
+#include <cfloat>
 #include <chrono>
 #include <cmath>
 #include <cstdio>
@@ -13,10 +14,23 @@
 #include <string>
 #include <thread>
 #include <vector>
+#include <memory>
+#include <csignal>
+#include <atomic>
+#include <functional>
+#include <cstdlib>
+#if defined (_WIN32)
+#include <windows.h>
+#endif
 using namespace httplib;
 using json = nlohmann::ordered_json;
+enum server_state {
+    SERVER_STATE_LOADING_MODEL,  // Server is starting up, model not fully loaded yet
+    SERVER_STATE_READY,          // Server is ready and model is loaded
+};
 namespace {
 // output formats
@@ -26,6 +40,20 @@ const std::string srt_format    = "srt";
 const std::string vjson_format  = "verbose_json";
 const std::string vtt_format    = "vtt";
+std::function<void(int)> shutdown_handler;
+std::atomic_flag is_terminating = ATOMIC_FLAG_INIT;
+inline void signal_handler(int signal) {
+    if (is_terminating.test_and_set()) {
+        // in case it hangs, we can force terminate the server by hitting Ctrl+C twice
+        // this is for better developer experience, we can remove when the server is stable enough
+        fprintf(stderr, "Received second interrupt, terminating immediately.\n");
+        exit(1);
+    }
+    shutdown_handler(signal);
+}
 struct server_params
 {
     std::string hostname = "127.0.0.1";
@@ -90,6 +118,16 @@ struct whisper_params {
     std::string openvino_encode_device = "CPU";
     std::string dtw = "";
+    // Voice Activity Detection (VAD) parameters
+    bool        vad           = false;
+    std::string vad_model     = "";
+    float       vad_threshold = 0.5f;
+    int         vad_min_speech_duration_ms = 250;
+    int         vad_min_silence_duration_ms = 100;
+    float       vad_max_speech_duration_s = FLT_MAX;
+    int         vad_speech_pad_ms = 30;
+    float       vad_samples_overlap = 0.1f;
 };
 void whisper_print_usage(int /*argc*/, char ** argv, const whisper_params & params, const server_params& sparams) {
@@ -140,6 +178,18 @@ void whisper_print_usage(int /*argc*/, char ** argv, const whisper_params & para
     fprintf(stderr, "  -nc,       --no-context        [%-7s] do not use previous audio context\n", params.no_context ? "true" : "false");
     fprintf(stderr, "  -ng,       --no-gpu            [%-7s] do not use gpu\n", params.use_gpu ? "false" : "true");
     fprintf(stderr, "  -fa,       --flash-attn        [%-7s] flash attention\n", params.flash_attn ? "true" : "false");
+    // Voice Activity Detection (VAD) parameters
+    fprintf(stderr, "\nVoice Activity Detection (VAD) options:\n");
+    fprintf(stderr, "             --vad                           [%-7s] enable Voice Activity Detection (VAD)\n",            params.vad ? "true" : "false");
+    fprintf(stderr, "  -vm FNAME, --vad-model FNAME               [%-7s] VAD model path\n",                                   params.vad_model.c_str());
+    fprintf(stderr, "  -vt N,     --vad-threshold N               [%-7.2f] VAD threshold for speech recognition\n",           params.vad_threshold);
+    fprintf(stderr, "  -vspd N,   --vad-min-speech-duration-ms  N [%-7d] VAD min speech duration (0.0-1.0)\n",                params.vad_min_speech_duration_ms);
+    fprintf(stderr, "  -vsd N,    --vad-min-silence-duration-ms N [%-7d] VAD min silence duration (to split segments)\n",      params.vad_min_silence_duration_ms);
+    fprintf(stderr, "  -vmsd N,   --vad-max-speech-duration-s   N [%-7s] VAD max speech duration (auto-split longer)\n",      params.vad_max_speech_duration_s == FLT_MAX ?
+                                                                                                                                  std::string("FLT_MAX").c_str() :
+                                                                                                                                  std::to_string(params.vad_max_speech_duration_s).c_str());
+    fprintf(stderr, "  -vp N,     --vad-speech-pad-ms           N [%-7d] VAD speech padding (extend segments)\n",             params.vad_speech_pad_ms);
+    fprintf(stderr, "  -vo N,     --vad-samples-overlap         N [%-7.2f] VAD samples overlap (seconds between segments)\n", params.vad_samples_overlap);
     fprintf(stderr, "\n");
 }
@@ -195,6 +245,16 @@ bool whisper_params_parse(int argc, char ** argv, whisper_params & params, serve
         else if (                  arg == "--request-path")    { sparams.request_path = argv[++i]; }
         else if (                  arg == "--inference-path")  { sparams.inference_path = argv[++i]; }
         else if (                  arg == "--convert")         { sparams.ffmpeg_converter     = true; }
+        // Voice Activity Detection (VAD)
+        else if (                  arg == "--vad")                         { params.vad                         = true; }
+        else if (arg == "-vm"   || arg == "--vad-model")                   { params.vad_model                   = argv[++i]; }
+        else if (arg == "-vt"   || arg == "--vad-threshold")               { params.vad_threshold               = std::stof(argv[++i]); }
+        else if (arg == "-vspd" || arg == "--vad-min-speech-duration-ms")  { params.vad_min_speech_duration_ms  = std::stoi(argv[++i]); }
+        else if (arg == "-vsd"  || arg == "--vad-min-silence-duration-ms") { params.vad_min_speech_duration_ms  = std::stoi(argv[++i]); }
+        else if (arg == "-vmsd" || arg == "--vad-max-speech-duration-s")   { params.vad_max_speech_duration_s   = std::stof(argv[++i]); }
+        else if (arg == "-vp"   || arg == "--vad-speech-pad-ms")           { params.vad_speech_pad_ms           = std::stoi(argv[++i]); }
+        else if (arg == "-vo"   || arg == "--vad-samples-overlap")         { params.vad_samples_overlap         = std::stof(argv[++i]); }
         else {
             fprintf(stderr, "error: unknown argument: %s\n", arg.c_str());
             whisper_print_usage(argc, argv, params, sparams);
@@ -511,11 +571,41 @@ void get_req_parameters(const Request & req, whisper_params & params)
     {
         params.no_context = parse_str_to_bool(req.get_file_value("no_context").content);
     }
+    if (req.has_file("vad"))
+    {
+        params.vad = parse_str_to_bool(req.get_file_value("vad").content);
+    }
+    if (req.has_file("vad_threshold"))
+    {
+        params.vad_threshold = std::stof(req.get_file_value("vad_threshold").content);
+    }
+    if (req.has_file("vad_min_speech_duration_ms"))
+    {
+        params.vad_min_speech_duration_ms = std::stof(req.get_file_value("vad_min_speech_duration_ms").content);
+    }
+    if (req.has_file("vad_min_silence_duration_ms"))
+    {
+        params.vad_min_silence_duration_ms = std::stof(req.get_file_value("vad_min_silence_duration_ms").content);
+    }
+    if (req.has_file("vad_max_speech_duration_s"))
+    {
+        params.vad_max_speech_duration_s = std::stof(req.get_file_value("vad_max_speech_duration_s").content);
+    }
+    if (req.has_file("vad_speech_pad_ms"))
+    {
+        params.vad_speech_pad_ms = std::stoi(req.get_file_value("vad_speech_pad_ms").content);
+    }
+    if (req.has_file("vad_samples_overlap"))
+    {
+        params.vad_samples_overlap = std::stof(req.get_file_value("vad_samples_overlap").content);
+    }
 }
 }  // namespace
 int main(int argc, char ** argv) {
+    ggml_backend_load_all();
     whisper_params params;
     server_params sparams;
@@ -584,13 +674,19 @@ int main(int argc, char ** argv) {
         if (params.dtw == "large.v3") {
             cparams.dtw_aheads_preset = WHISPER_AHEADS_LARGE_V3;
         }
+        if (params.dtw == "large.v3.turbo") {
+            cparams.dtw_aheads_preset = WHISPER_AHEADS_LARGE_V3_TURBO;
+        }
         if (cparams.dtw_aheads_preset == WHISPER_AHEADS_NONE) {
             fprintf(stderr, "error: unknown DTW preset '%s'\n", params.dtw.c_str());
             return 3;
         }
     }
+    std::unique_ptr<httplib::Server> svr = std::make_unique<httplib::Server>();
+    std::atomic<server_state> state{SERVER_STATE_LOADING_MODEL};
     struct whisper_context * ctx = whisper_init_from_file_with_params(params.model.c_str(), cparams);
     if (ctx == nullptr) {
@@ -600,9 +696,10 @@ int main(int argc, char ** argv) {
     // initialize openvino encoder. this has no effect on whisper.cpp builds that don't have OpenVINO configured
     whisper_ctx_init_openvino_encoder(ctx, nullptr, params.openvino_encode_device.c_str(), nullptr);
+    state.store(SERVER_STATE_READY);
-    Server svr;
-    svr.set_default_headers({{"Server", "whisper.cpp"},
+    svr->set_default_headers({{"Server", "whisper.cpp"},
                              {"Access-Control-Allow-Origin", "*"},
                              {"Access-Control-Allow-Headers", "content-type, authorization"}});
@@ -681,15 +778,15 @@ int main(int argc, char ** argv) {
     whisper_params default_params = params;
     // this is only called if no index.html is found in the public --path
-    svr.Get(sparams.request_path + "/", [&default_content](const Request &, Response &res){
+    svr->Get(sparams.request_path + "/", [&](const Request &, Response &res){
         res.set_content(default_content, "text/html");
         return false;
     });
-    svr.Options(sparams.request_path + sparams.inference_path, [&](const Request &, Response &){
+    svr->Options(sparams.request_path + sparams.inference_path, [&](const Request &, Response &){
     });
-    svr.Post(sparams.request_path + sparams.inference_path, [&](const Request &req, Response &res){
+    svr->Post(sparams.request_path + sparams.inference_path, [&](const Request &req, Response &res){
         // acquire whisper model mutex lock
         std::lock_guard<std::mutex> lock(whisper_mutex);
@@ -827,6 +924,16 @@ int main(int argc, char ** argv) {
             wparams.suppress_nst     = params.suppress_nst;
+            wparams.vad              = params.vad;
+            wparams.vad_model_path   = params.vad_model.c_str();
+            wparams.vad_params.threshold               = params.vad_threshold;
+            wparams.vad_params.min_speech_duration_ms  = params.vad_min_speech_duration_ms;
+            wparams.vad_params.min_silence_duration_ms = params.vad_min_silence_duration_ms;
+            wparams.vad_params.max_speech_duration_s   = params.vad_max_speech_duration_s;
+            wparams.vad_params.speech_pad_ms           = params.vad_speech_pad_ms;
+            wparams.vad_params.samples_overlap         = params.vad_samples_overlap;
             whisper_print_user_data user_data = { &params, &pcmf32s, 0 };
             // this callback is called on each new segment
@@ -995,8 +1102,9 @@ int main(int argc, char ** argv) {
         // reset params to their defaults
         params = default_params;
     });
-    svr.Post(sparams.request_path + "/load", [&](const Request &req, Response &res){
+    svr->Post(sparams.request_path + "/load", [&](const Request &req, Response &res){
         std::lock_guard<std::mutex> lock(whisper_mutex);
+        state.store(SERVER_STATE_LOADING_MODEL);
         if (!req.has_file("model"))
         {
             fprintf(stderr, "error: no 'model' field in the request\n");
@@ -1028,18 +1136,25 @@ int main(int argc, char ** argv) {
         // initialize openvino encoder. this has no effect on whisper.cpp builds that don't have OpenVINO configured
         whisper_ctx_init_openvino_encoder(ctx, nullptr, params.openvino_encode_device.c_str(), nullptr);
+        state.store(SERVER_STATE_READY);
         const std::string success = "Load was successful!";
         res.set_content(success, "application/text");
         // check if the model is in the file system
     });
-    svr.Get(sparams.request_path + "/health", [&](const Request &, Response &res){
-        const std::string health_response = "{\"status\":\"ok\"}";
-        res.set_content(health_response, "application/json");
+    svr->Get(sparams.request_path + "/health", [&](const Request &, Response &res){
+        server_state current_state = state.load();
+        if (current_state == SERVER_STATE_READY) {
+            const std::string health_response = "{\"status\":\"ok\"}";
+            res.set_content(health_response, "application/json");
+        } else {
+            res.set_content("{\"status\":\"loading model\"}", "application/json");
+            res.status = 503;
+        }
     });
-    svr.set_exception_handler([](const Request &, Response &res, std::exception_ptr ep) {
+    svr->set_exception_handler([](const Request &, Response &res, std::exception_ptr ep) {
         const char fmt[] = "500 Internal Server Error\n%s";
         char buf[BUFSIZ];
         try {
@@ -1053,7 +1168,7 @@ int main(int argc, char ** argv) {
         res.status = 500;
     });
-    svr.set_error_handler([](const Request &req, Response &res) {
+    svr->set_error_handler([](const Request &req, Response &res) {
         if (res.status == 400) {
             res.set_content("Invalid request", "text/plain");
         } else if (res.status != 500) {
@@ -1063,10 +1178,10 @@ int main(int argc, char ** argv) {
     });
     // set timeouts and change hostname and port
-    svr.set_read_timeout(sparams.read_timeout);
-    svr.set_write_timeout(sparams.write_timeout);
+    svr->set_read_timeout(sparams.read_timeout);
+    svr->set_write_timeout(sparams.write_timeout);
-    if (!svr.bind_to_port(sparams.hostname, sparams.port))
+    if (!svr->bind_to_port(sparams.hostname, sparams.port))
     {
         fprintf(stderr, "\ncouldn't bind to server socket: hostname=%s port=%d\n\n",
                 sparams.hostname.c_str(), sparams.port);
@@ -1074,18 +1189,50 @@ int main(int argc, char ** argv) {
     }
     // Set the base directory for serving static files
-    svr.set_base_dir(sparams.public_path);
+    svr->set_base_dir(sparams.public_path);
     // to make it ctrl+clickable:
     printf("\nwhisper server listening at http://%s:%d\n\n", sparams.hostname.c_str(), sparams.port);
-    if (!svr.listen_after_bind())
-    {
-        return 1;
-    }
+    shutdown_handler = [&](int signal) {
+        printf("\nCaught signal %d, shutting down gracefully...\n", signal);
+        if (svr) {
+            svr->stop();
+        }
+    };
+#if defined (__unix__) || (defined (__APPLE__) && defined (__MACH__))
+    struct sigaction sigint_action;
+    sigint_action.sa_handler = signal_handler;
+    sigemptyset (&sigint_action.sa_mask);
+    sigint_action.sa_flags = 0;
+    sigaction(SIGINT, &sigint_action, NULL);
+    sigaction(SIGTERM, &sigint_action, NULL);
+#elif defined (_WIN32)
+    auto console_ctrl_handler = +[](DWORD ctrl_type) -> BOOL {
+        return (ctrl_type == CTRL_C_EVENT) ? (signal_handler(SIGINT), true) : false;
+    };
+    SetConsoleCtrlHandler(reinterpret_cast<PHANDLER_ROUTINE>(console_ctrl_handler), true);
+#endif
+    // clean up function, to be called before exit
+    auto clean_up = [&]() {
+        whisper_print_timings(ctx);
+        whisper_free(ctx);
+    };
+    std::thread t([&] {
+        if (!svr->listen_after_bind()) {
+            fprintf(stderr, "error: server listen failed\n");
+        }
+    });
+    svr->wait_until_ready();
+    t.join();
-    whisper_print_timings(ctx);
-    whisper_free(ctx);
+    clean_up();
     return 0;
 }

data/ext/sources/examples/stream/stream.cpp CHANGED Viewed

@@ -116,6 +116,8 @@ void whisper_print_usage(int /*argc*/, char ** argv, const whisper_params & para
 }
 int main(int argc, char ** argv) {
+    ggml_backend_load_all();
     whisper_params params;
     if (whisper_params_parse(argc, argv, params) == false) {
@@ -161,6 +163,10 @@ int main(int argc, char ** argv) {
     cparams.flash_attn = params.flash_attn;
     struct whisper_context * ctx = whisper_init_from_file_with_params(params.model.c_str(), cparams);
+    if (ctx == nullptr) {
+        fprintf(stderr, "error: failed to initialize whisper context\n");
+        return 2;
+    }
     std::vector<float> pcmf32    (n_samples_30s, 0.0f);
     std::vector<float> pcmf32_old;

data/ext/sources/examples/talk-llama/CMakeLists.txt CHANGED Viewed

@@ -16,7 +16,10 @@ if (WHISPER_SDL2)
         llama-hparams.cpp
         llama-impl.cpp
         llama-io.cpp
-        llama-kv-cache.cpp
+        llama-kv-cache-unified.cpp
+        llama-kv-cache-unified-iswa.cpp
+        llama-memory-recurrent.cpp
+        llama-memory-hybrid.cpp
         llama-memory.cpp
         llama-mmap.cpp
         llama-model-loader.cpp

data/ext/sources/examples/talk-llama/llama-arch.cpp CHANGED Viewed

@@ -20,6 +20,7 @@ static const std::map<llm_arch, const char *> LLM_ARCH_NAMES = {
     { LLM_ARCH_BERT,             "bert"             },
     { LLM_ARCH_NOMIC_BERT,       "nomic-bert"       },
     { LLM_ARCH_NOMIC_BERT_MOE,   "nomic-bert-moe"   },
+    { LLM_ARCH_NEO_BERT,         "neo-bert"         },
     { LLM_ARCH_JINA_BERT_V2,     "jina-bert-v2"     },
     { LLM_ARCH_BLOOM,            "bloom"            },
     { LLM_ARCH_STABLELM,         "stablelm"         },
@@ -41,6 +42,7 @@ static const std::map<llm_arch, const char *> LLM_ARCH_NAMES = {
     { LLM_ARCH_GEMMA,            "gemma"            },
     { LLM_ARCH_GEMMA2,           "gemma2"           },
     { LLM_ARCH_GEMMA3,           "gemma3"           },
+    { LLM_ARCH_GEMMA3N,          "gemma3n"          },
     { LLM_ARCH_STARCODER2,       "starcoder2"       },
     { LLM_ARCH_MAMBA,            "mamba"            },
     { LLM_ARCH_XVERSE,           "xverse"           },
@@ -72,6 +74,9 @@ static const std::map<llm_arch, const char *> LLM_ARCH_NAMES = {
     { LLM_ARCH_WAVTOKENIZER_DEC, "wavtokenizer-dec" },
     { LLM_ARCH_PLM,              "plm"              },
     { LLM_ARCH_BAILINGMOE,       "bailingmoe"       },
+    { LLM_ARCH_DOTS1,            "dots1"            },
+    { LLM_ARCH_ARCEE,            "arcee"            },
+    { LLM_ARCH_ERNIE4_5,         "ernie4_5"         },
     { LLM_ARCH_UNKNOWN,          "(unknown)"        },
 };
@@ -144,6 +149,7 @@ static const std::map<llm_kv, const char *> LLM_KV_NAMES = {
     { LLM_KV_ATTENTION_SCALE,                        "%s.attention.scale"                        },
     { LLM_KV_ATTENTION_KEY_LENGTH_MLA,               "%s.attention.key_length_mla"               },
     { LLM_KV_ATTENTION_VALUE_LENGTH_MLA,             "%s.attention.value_length_mla"             },
+    { LLM_KV_ATTENTION_LAYER_INDICES,                "%s.attention.layer_indices"                },
     { LLM_KV_ROPE_DIMENSION_COUNT,      "%s.rope.dimension_count"                 },
     { LLM_KV_ROPE_DIMENSION_SECTIONS,   "%s.rope.dimension_sections"              },
@@ -174,6 +180,8 @@ static const std::map<llm_kv, const char *> LLM_KV_NAMES = {
     { LLM_KV_CONVNEXT_EMBEDDING_LENGTH, "%s.convnext.embedding_length" },
     { LLM_KV_CONVNEXT_BLOCK_COUNT,      "%s.convnext.block_count"      },
+    { LLM_KV_CLASSIFIER_OUTPUT_LABELS, "%s.classifier.output_labels" },
     { LLM_KV_TOKENIZER_MODEL,                "tokenizer.ggml.model"                    },
     { LLM_KV_TOKENIZER_PRE,                  "tokenizer.ggml.pre"                      },
     { LLM_KV_TOKENIZER_LIST,                 "tokenizer.ggml.tokens"                   },
@@ -192,13 +200,13 @@ static const std::map<llm_kv, const char *> LLM_KV_NAMES = {
     { LLM_KV_TOKENIZER_MASK_ID,              "tokenizer.ggml.mask_token_id"            },
     { LLM_KV_TOKENIZER_ADD_BOS,              "tokenizer.ggml.add_bos_token"            },
     { LLM_KV_TOKENIZER_ADD_EOS,              "tokenizer.ggml.add_eos_token"            },
+    { LLM_KV_TOKENIZER_ADD_SEP,              "tokenizer.ggml.add_sep_token"            },
     { LLM_KV_TOKENIZER_ADD_PREFIX,           "tokenizer.ggml.add_space_prefix"         },
     { LLM_KV_TOKENIZER_REMOVE_EXTRA_WS,      "tokenizer.ggml.remove_extra_whitespaces" },
     { LLM_KV_TOKENIZER_PRECOMPILED_CHARSMAP, "tokenizer.ggml.precompiled_charsmap"     },
     { LLM_KV_TOKENIZER_HF_JSON,              "tokenizer.huggingface.json"              },
     { LLM_KV_TOKENIZER_RWKV,                 "tokenizer.rwkv.world"                    },
     { LLM_KV_TOKENIZER_CHAT_TEMPLATE,        "tokenizer.chat_template"                 },
-    { LLM_KV_TOKENIZER_CHAT_TEMPLATE_N,      "tokenizer.chat_template.%s"              },
     { LLM_KV_TOKENIZER_FIM_PRE_ID,           "tokenizer.ggml.fim_pre_token_id"         },
     { LLM_KV_TOKENIZER_FIM_SUF_ID,           "tokenizer.ggml.fim_suf_token_id"         },
     { LLM_KV_TOKENIZER_FIM_MID_ID,           "tokenizer.ggml.fim_mid_token_id"         },
@@ -242,6 +250,24 @@ static const std::map<llm_arch, std::map<llm_tensor, const char *>> LLM_TENSOR_N
             { LLM_TENSOR_FFN_UP_EXPS,     "blk.%d.ffn_up_exps" },
         },
     },
+    {
+        LLM_ARCH_ARCEE,
+        {
+            { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
+            { LLM_TENSOR_OUTPUT_NORM,     "output_norm" },
+            { LLM_TENSOR_OUTPUT,          "output" },
+            { LLM_TENSOR_ROPE_FREQS,      "rope_freqs" },
+            { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm" },
+            { LLM_TENSOR_ATTN_Q,          "blk.%d.attn_q" },
+            { LLM_TENSOR_ATTN_K,          "blk.%d.attn_k" },
+            { LLM_TENSOR_ATTN_V,          "blk.%d.attn_v" },
+            { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output" },
+            { LLM_TENSOR_ATTN_ROT_EMBD,   "blk.%d.attn_rot_embd" },
+            { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm" },
+            { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
+            { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
+        },
+    },
     {
         LLM_ARCH_LLAMA4,
         {
@@ -448,6 +474,7 @@ static const std::map<llm_arch, std::map<llm_tensor, const char *>> LLM_TENSOR_N
             { LLM_TENSOR_TOKEN_TYPES,     "token_types" },
             { LLM_TENSOR_POS_EMBD,        "position_embd" },
             { LLM_TENSOR_ATTN_OUT_NORM,   "blk.%d.attn_output_norm" },
+            { LLM_TENSOR_ATTN_QKV,        "blk.%d.attn_qkv" },
             { LLM_TENSOR_ATTN_Q,          "blk.%d.attn_q" },
             { LLM_TENSOR_ATTN_K,          "blk.%d.attn_k" },
             { LLM_TENSOR_ATTN_V,          "blk.%d.attn_v" },
@@ -492,6 +519,21 @@ static const std::map<llm_arch, std::map<llm_tensor, const char *>> LLM_TENSOR_N
             { LLM_TENSOR_FFN_UP_EXPS,     "blk.%d.ffn_up_exps" },
         },
     },
+    {
+        LLM_ARCH_NEO_BERT,
+        {
+            { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
+            { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm" },
+            { LLM_TENSOR_ATTN_QKV,        "blk.%d.attn_qkv" },
+            { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output" },
+            { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm" },
+            { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
+            { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
+            { LLM_TENSOR_ENC_OUTPUT_NORM, "enc.output_norm" },
+            { LLM_TENSOR_CLS,             "cls" },
+            { LLM_TENSOR_CLS_OUT,         "cls.output" },
+        },
+    },
     {
         LLM_ARCH_JINA_BERT_V2,
         {
@@ -892,6 +934,42 @@ static const std::map<llm_arch, std::map<llm_tensor, const char *>> LLM_TENSOR_N
             { LLM_TENSOR_FFN_POST_NORM,   "blk.%d.post_ffw_norm" },
         },
     },
+    {
+        LLM_ARCH_GEMMA3N,
+        {
+            { LLM_TENSOR_TOKEN_EMBD,           "token_embd" },
+            { LLM_TENSOR_OUTPUT_NORM,          "output_norm" },
+            { LLM_TENSOR_ATTN_NORM,            "blk.%d.attn_norm" },
+            { LLM_TENSOR_ATTN_Q,               "blk.%d.attn_q" },
+            { LLM_TENSOR_ATTN_Q_NORM,          "blk.%d.attn_q_norm" },
+            { LLM_TENSOR_ATTN_K,               "blk.%d.attn_k" },
+            { LLM_TENSOR_ATTN_K_NORM,          "blk.%d.attn_k_norm" },
+            { LLM_TENSOR_ATTN_V,               "blk.%d.attn_v" },
+            { LLM_TENSOR_ATTN_OUT,             "blk.%d.attn_output" },
+            { LLM_TENSOR_ATTN_POST_NORM,       "blk.%d.post_attention_norm" },
+            { LLM_TENSOR_FFN_NORM,             "blk.%d.ffn_norm" },
+            { LLM_TENSOR_FFN_GATE,             "blk.%d.ffn_gate" },
+            { LLM_TENSOR_FFN_DOWN,             "blk.%d.ffn_down" },
+            { LLM_TENSOR_FFN_UP,               "blk.%d.ffn_up" },
+            { LLM_TENSOR_FFN_POST_NORM,        "blk.%d.post_ffw_norm" },
+            { LLM_TENSOR_PER_LAYER_TOKEN_EMBD, "per_layer_token_embd" },
+            { LLM_TENSOR_PER_LAYER_MODEL_PROJ, "per_layer_model_proj" },
+            { LLM_TENSOR_PER_LAYER_PROJ_NORM,  "per_layer_proj_norm" },
+            { LLM_TENSOR_ALTUP_UNEMBD_PROJ,    "altup_unembd_proj" },
+            { LLM_TENSOR_ALTUP_PROJ,           "altup_proj" },
+            { LLM_TENSOR_PER_LAYER_INP_GATE,   "blk.%d.inp_gate" },
+            { LLM_TENSOR_PER_LAYER_PROJ,       "blk.%d.proj" },
+            { LLM_TENSOR_PER_LAYER_POST_NORM,  "blk.%d.post_norm" },
+            { LLM_TENSOR_ALTUP_CORRECT_COEF,   "blk.%d.altup_correct_coef" },
+            { LLM_TENSOR_ALTUP_CORRECT_SCALE,  "blk.%d.altup_correct_scale" },
+            { LLM_TENSOR_ALTUP_PREDICT_COEF,   "blk.%d.altup_predict_coef" },
+            { LLM_TENSOR_ALTUP_ROUTER,         "blk.%d.altup_router" },
+            { LLM_TENSOR_ALTUP_ROUTER_NORM,    "blk.%d.altup_router_norm" },
+            { LLM_TENSOR_LAUREL_L,             "blk.%d.laurel_l" },
+            { LLM_TENSOR_LAUREL_R,             "blk.%d.laurel_r" },
+            { LLM_TENSOR_LAUREL_POST_NORM,     "blk.%d.laurel_post_norm" },
+        },
+    },
     {
         LLM_ARCH_STARCODER2,
         {
@@ -1553,6 +1631,51 @@ static const std::map<llm_arch, std::map<llm_tensor, const char *>> LLM_TENSOR_N
             { LLM_TENSOR_FFN_UP_SHEXP,       "blk.%d.ffn_up_shexp" },
         },
     },
+    {
+        LLM_ARCH_DOTS1,
+        {
+            { LLM_TENSOR_TOKEN_EMBD,         "token_embd" },
+            { LLM_TENSOR_OUTPUT_NORM,        "output_norm" },
+            { LLM_TENSOR_OUTPUT,             "output" },
+            { LLM_TENSOR_ATTN_NORM,          "blk.%d.attn_norm" },
+            { LLM_TENSOR_ATTN_Q,             "blk.%d.attn_q" },
+            { LLM_TENSOR_ATTN_Q_NORM,        "blk.%d.attn_q_norm" },
+            { LLM_TENSOR_ATTN_K,             "blk.%d.attn_k" },
+            { LLM_TENSOR_ATTN_K_NORM,        "blk.%d.attn_k_norm" },
+            { LLM_TENSOR_ATTN_V,             "blk.%d.attn_v" },
+            { LLM_TENSOR_ATTN_OUT,           "blk.%d.attn_output" },
+            { LLM_TENSOR_FFN_NORM,           "blk.%d.ffn_norm" },
+            { LLM_TENSOR_FFN_GATE,           "blk.%d.ffn_gate" },
+            { LLM_TENSOR_FFN_UP,             "blk.%d.ffn_up" },
+            { LLM_TENSOR_FFN_DOWN,           "blk.%d.ffn_down" },
+            { LLM_TENSOR_FFN_GATE_INP,       "blk.%d.ffn_gate_inp" },
+            { LLM_TENSOR_FFN_GATE_EXPS,      "blk.%d.ffn_gate_exps" },
+            { LLM_TENSOR_FFN_DOWN_EXPS,      "blk.%d.ffn_down_exps" },
+            { LLM_TENSOR_FFN_UP_EXPS,        "blk.%d.ffn_up_exps" },
+            { LLM_TENSOR_FFN_GATE_INP_SHEXP, "blk.%d.ffn_gate_inp_shexp" },
+            { LLM_TENSOR_FFN_GATE_SHEXP,     "blk.%d.ffn_gate_shexp" },
+            { LLM_TENSOR_FFN_DOWN_SHEXP,     "blk.%d.ffn_down_shexp" },
+            { LLM_TENSOR_FFN_UP_SHEXP,       "blk.%d.ffn_up_shexp" },
+            { LLM_TENSOR_FFN_EXP_PROBS_B,    "blk.%d.exp_probs_b" },
+        }
+    },
+    {
+        LLM_ARCH_ERNIE4_5,
+        {
+            { LLM_TENSOR_TOKEN_EMBD,         "token_embd" },
+            { LLM_TENSOR_OUTPUT_NORM,        "output_norm" },
+            { LLM_TENSOR_OUTPUT,             "output" },
+            { LLM_TENSOR_ATTN_NORM,          "blk.%d.attn_norm" },
+            { LLM_TENSOR_ATTN_Q,             "blk.%d.attn_q" },
+            { LLM_TENSOR_ATTN_K,             "blk.%d.attn_k" },
+            { LLM_TENSOR_ATTN_V,             "blk.%d.attn_v" },
+            { LLM_TENSOR_ATTN_OUT,           "blk.%d.attn_output" },
+            { LLM_TENSOR_FFN_NORM,           "blk.%d.ffn_norm" },
+            { LLM_TENSOR_FFN_GATE,           "blk.%d.ffn_gate" },
+            { LLM_TENSOR_FFN_DOWN,           "blk.%d.ffn_down" },
+            { LLM_TENSOR_FFN_UP,             "blk.%d.ffn_up" },
+        },
+    },
     {
         LLM_ARCH_UNKNOWN,
         {
@@ -1681,6 +1804,23 @@ static const std::map<llm_tensor, llm_tensor_info> LLM_TENSOR_INFOS = {
     {LLM_TENSOR_FFN_GATE_EXPS,              {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT_ID}},
     {LLM_TENSOR_FFN_UP_EXPS,                {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT_ID}},
     {LLM_TENSOR_FFN_EXP_PROBS_B,            {LLM_TENSOR_LAYER_REPEATING, GGML_OP_ADD}},
+    // altup / laurel (gemma 3n)
+    {LLM_TENSOR_PER_LAYER_TOKEN_EMBD,       {LLM_TENSOR_LAYER_OUTPUT,    GGML_OP_GET_ROWS}},
+    {LLM_TENSOR_PER_LAYER_MODEL_PROJ,       {LLM_TENSOR_LAYER_OUTPUT,    GGML_OP_MUL_MAT}},
+    {LLM_TENSOR_PER_LAYER_PROJ_NORM,        {LLM_TENSOR_LAYER_OUTPUT,    GGML_OP_MUL}},
+    {LLM_TENSOR_ALTUP_PROJ,                 {LLM_TENSOR_LAYER_OUTPUT,    GGML_OP_MUL_MAT}},
+    {LLM_TENSOR_ALTUP_UNEMBD_PROJ,          {LLM_TENSOR_LAYER_OUTPUT,    GGML_OP_MUL_MAT}},
+    {LLM_TENSOR_PER_LAYER_INP_GATE,         {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
+    {LLM_TENSOR_PER_LAYER_PROJ,             {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
+    {LLM_TENSOR_PER_LAYER_POST_NORM,        {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL}},
+    {LLM_TENSOR_ALTUP_CORRECT_COEF,         {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
+    {LLM_TENSOR_ALTUP_CORRECT_SCALE,        {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL}},
+    {LLM_TENSOR_ALTUP_PREDICT_COEF,         {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
+    {LLM_TENSOR_ALTUP_ROUTER,               {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
+    {LLM_TENSOR_ALTUP_ROUTER_NORM,          {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL}},
+    {LLM_TENSOR_LAUREL_L,                   {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
+    {LLM_TENSOR_LAUREL_R,                   {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
+    {LLM_TENSOR_LAUREL_POST_NORM,           {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL}},
     // this tensor is loaded for T5, but never used
     {LLM_TENSOR_DEC_CROSS_ATTN_REL_B,       {LLM_TENSOR_LAYER_REPEATING, GGML_OP_NONE}},
     {LLM_TENSOR_CONV1D,                     {LLM_TENSOR_LAYER_INPUT,     GGML_OP_IM2COL}},
@@ -1704,8 +1844,14 @@ static const std::map<llm_tensor, llm_tensor_info> LLM_TENSOR_INFOS = {
 LLM_KV::LLM_KV(llm_arch arch, const char * suffix) : arch(arch), suffix(suffix) {}
 std::string LLM_KV::operator()(llm_kv kv) const {
-    return suffix ? ::format(LLM_KV_NAMES.at(kv), LLM_ARCH_NAMES.at(arch), suffix)
-        : ::format(LLM_KV_NAMES.at(kv), LLM_ARCH_NAMES.at(arch));
+    std::string name = ::format(LLM_KV_NAMES.at(kv), LLM_ARCH_NAMES.at(arch));
+    if (suffix != nullptr) {
+        name += ".";
+        name += suffix;
+    }
+    return name;
 }
 std::string LLM_TN_IMPL::str() const {
@@ -1744,3 +1890,25 @@ llm_arch llm_arch_from_string(const std::string & name) {
 const llm_tensor_info & llm_tensor_info_for(llm_tensor tensor) {
     return LLM_TENSOR_INFOS.at(tensor);
 }
+bool llm_arch_is_recurrent(const llm_arch & arch) {
+    switch (arch) {
+        case LLM_ARCH_MAMBA:
+        case LLM_ARCH_RWKV6:
+        case LLM_ARCH_RWKV6QWEN2:
+        case LLM_ARCH_RWKV7:
+        case LLM_ARCH_ARWKV7:
+            return true;
+        default:
+            return false;
+    }
+}
+bool llm_arch_is_hybrid(const llm_arch & arch) {
+    // TODO: There are currently no hybrid models! Once there are, this will be
+    //  the place to identify them
+    switch (arch) {
+        default:
+            return false;
+    }
+}