RubyGems - whispercpp - Versions diffs - 1.3.2 → 1.3.3 - Mend

whispercpp 1.3.2 → 1.3.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (244) hide show

checksums.yaml +4 -4
data/.gitignore +6 -3
data/README.md +71 -14
data/Rakefile +20 -7
data/ext/.gitignore +4 -6
data/ext/dependencies.rb +36 -24
data/ext/extconf.rb +1 -1
data/ext/options.rb +48 -184
data/ext/ruby_whisper.c +18 -0
data/ext/ruby_whisper_context.c +43 -12
data/ext/ruby_whisper_model.c +1 -1
data/ext/ruby_whisper_params.c +4 -2
data/ext/ruby_whisper_segment.c +81 -4
data/ext/ruby_whisper_transcribe.cpp +13 -7
data/ext/ruby_whisper_vad_params.c +1 -1
data/ext/sources/CMakeLists.txt +5 -1
data/ext/sources/bindings/javascript/package.json +1 -1
data/ext/sources/examples/addon.node/__test__/whisper.spec.js +120 -24
data/ext/sources/examples/addon.node/addon.cpp +150 -31
data/ext/sources/examples/addon.node/index.js +3 -0
data/ext/sources/examples/addon.node/vad-example.js +132 -0
data/ext/sources/examples/bench/bench.cpp +3 -2
data/ext/sources/examples/cli/cli.cpp +3 -2
data/ext/sources/examples/command/command.cpp +32 -8
data/ext/sources/examples/common-whisper.cpp +14 -7
data/ext/sources/examples/lsp/lsp.cpp +2 -0
data/ext/sources/examples/quantize/quantize.cpp +3 -0
data/ext/sources/examples/server/CMakeLists.txt +3 -0
data/ext/sources/examples/server/server.cpp +169 -22
data/ext/sources/examples/stream/stream.cpp +6 -0
data/ext/sources/examples/talk-llama/CMakeLists.txt +4 -1
data/ext/sources/examples/talk-llama/llama-arch.cpp +171 -3
data/ext/sources/examples/talk-llama/llama-arch.h +28 -1
data/ext/sources/examples/talk-llama/llama-batch.cpp +741 -272
data/ext/sources/examples/talk-llama/llama-batch.h +112 -54
data/ext/sources/examples/talk-llama/llama-chat.cpp +30 -8
data/ext/sources/examples/talk-llama/llama-chat.h +1 -0
data/ext/sources/examples/talk-llama/llama-context.cpp +520 -351
data/ext/sources/examples/talk-llama/llama-context.h +38 -17
data/ext/sources/examples/talk-llama/llama-cparams.cpp +1 -1
data/ext/sources/examples/talk-llama/llama-cparams.h +1 -1
data/ext/sources/examples/talk-llama/llama-graph.cpp +447 -372
data/ext/sources/examples/talk-llama/llama-graph.h +128 -58
data/ext/sources/examples/talk-llama/llama-hparams.cpp +10 -2
data/ext/sources/examples/talk-llama/llama-hparams.h +19 -2
data/ext/sources/examples/talk-llama/llama-kv-cache-unified-iswa.cpp +279 -0
data/ext/sources/examples/talk-llama/llama-kv-cache-unified-iswa.h +128 -0
data/ext/sources/examples/talk-llama/llama-kv-cache-unified.cpp +1841 -0
data/ext/sources/examples/talk-llama/llama-kv-cache-unified.h +303 -0
data/ext/sources/examples/talk-llama/llama-kv-cache.h +14 -472
data/ext/sources/examples/talk-llama/llama-kv-cells.h +86 -26
data/ext/sources/examples/talk-llama/llama-memory-hybrid.cpp +246 -0
data/ext/sources/examples/talk-llama/llama-memory-hybrid.h +138 -0
data/ext/sources/examples/talk-llama/llama-memory-recurrent.cpp +1125 -0
data/ext/sources/examples/talk-llama/llama-memory-recurrent.h +183 -0
data/ext/sources/examples/talk-llama/llama-memory.cpp +58 -0
data/ext/sources/examples/talk-llama/llama-memory.h +88 -4
data/ext/sources/examples/talk-llama/llama-mmap.cpp +1 -1
data/ext/sources/examples/talk-llama/llama-model-loader.cpp +42 -17
data/ext/sources/examples/talk-llama/llama-model-saver.cpp +1 -0
data/ext/sources/examples/talk-llama/llama-model.cpp +1863 -563
data/ext/sources/examples/talk-llama/llama-model.h +27 -0
data/ext/sources/examples/talk-llama/llama-quant.cpp +89 -6
data/ext/sources/examples/talk-llama/llama-vocab.cpp +65 -28
data/ext/sources/examples/talk-llama/llama-vocab.h +1 -0
data/ext/sources/examples/talk-llama/llama.cpp +11 -7
data/ext/sources/examples/talk-llama/llama.h +147 -40
data/ext/sources/examples/talk-llama/talk-llama.cpp +2 -0
data/ext/sources/examples/talk-llama/unicode.cpp +5 -0
data/ext/sources/examples/vad-speech-segments/speech.cpp +6 -0
data/ext/sources/examples/wchess/wchess.cmd/wchess.cmd.cpp +2 -0
data/ext/sources/ggml/CMakeLists.txt +48 -3
data/ext/sources/ggml/cmake/common.cmake +24 -0
data/ext/sources/ggml/include/ggml-backend.h +1 -1
data/ext/sources/ggml/include/ggml-cpu.h +2 -0
data/ext/sources/ggml/include/ggml.h +144 -5
data/ext/sources/ggml/src/CMakeLists.txt +82 -24
data/ext/sources/ggml/src/ggml-backend-reg.cpp +5 -0
data/ext/sources/ggml/src/ggml-backend.cpp +46 -23
data/ext/sources/ggml/src/ggml-blas/CMakeLists.txt +3 -3
data/ext/sources/ggml/src/ggml-cann/CMakeLists.txt +1 -0
data/ext/sources/ggml/src/ggml-cann/common.h +6 -1
data/ext/sources/ggml/src/ggml-cann/ggml-cann.cpp +33 -9
data/ext/sources/ggml/src/ggml-common.h +4 -0
data/ext/sources/ggml/src/ggml-cpu/CMakeLists.txt +133 -40
data/ext/sources/ggml/src/ggml-cpu/amx/amx.cpp +1 -1
data/ext/sources/ggml/src/ggml-cpu/amx/mmq.cpp +11 -10
data/ext/sources/ggml/src/ggml-cpu/arch/arm/cpu-feats.cpp +94 -0
data/ext/sources/ggml/src/ggml-cpu/arch/arm/quants.c +4114 -0
data/ext/sources/ggml/src/ggml-cpu/arch/arm/repack.cpp +2163 -0
data/ext/sources/ggml/src/ggml-cpu/arch/loongarch/quants.c +2639 -0
data/ext/sources/ggml/src/ggml-cpu/arch/powerpc/cpu-feats.cpp +82 -0
data/ext/sources/ggml/src/ggml-cpu/arch/powerpc/quants.c +2732 -0
data/ext/sources/ggml/src/ggml-cpu/arch/riscv/quants.c +2069 -0
data/ext/sources/ggml/src/ggml-cpu/arch/riscv/repack.cpp +397 -0
data/ext/sources/ggml/src/ggml-cpu/arch/s390/quants.c +1300 -0
data/ext/sources/ggml/src/ggml-cpu/arch/wasm/quants.c +1481 -0
data/ext/sources/ggml/src/ggml-cpu/arch/x86/quants.c +4311 -0
data/ext/sources/ggml/src/ggml-cpu/{ggml-cpu-aarch64.cpp → arch/x86/repack.cpp} +79 -3225
data/ext/sources/ggml/src/ggml-cpu/arch-fallback.h +184 -0
data/ext/sources/ggml/src/ggml-cpu/common.h +4 -3
data/ext/sources/ggml/src/ggml-cpu/ggml-cpu-impl.h +16 -7
data/ext/sources/ggml/src/ggml-cpu/ggml-cpu.c +146 -105
data/ext/sources/ggml/src/ggml-cpu/ggml-cpu.cpp +12 -8
data/ext/sources/ggml/src/ggml-cpu/{ggml-cpu-hbm.cpp → hbm.cpp} +1 -1
data/ext/sources/ggml/src/ggml-cpu/kleidiai/kleidiai.cpp +1 -1
data/ext/sources/ggml/src/ggml-cpu/llamafile/sgemm.cpp +58 -8
data/ext/sources/ggml/src/ggml-cpu/llamafile/sgemm.h +5 -0
data/ext/sources/ggml/src/ggml-cpu/ops.cpp +1057 -174
data/ext/sources/ggml/src/ggml-cpu/ops.h +8 -0
data/ext/sources/ggml/src/ggml-cpu/quants.c +1158 -0
data/ext/sources/ggml/src/ggml-cpu/{ggml-cpu-quants.h → quants.h} +26 -0
data/ext/sources/ggml/src/ggml-cpu/repack.cpp +1571 -0
data/ext/sources/ggml/src/ggml-cpu/repack.h +98 -0
data/ext/sources/ggml/src/ggml-cpu/simd-mappings.h +330 -38
data/ext/sources/ggml/src/ggml-cpu/{ggml-cpu-traits.cpp → traits.cpp} +1 -1
data/ext/sources/ggml/src/ggml-cpu/vec.cpp +111 -18
data/ext/sources/ggml/src/ggml-cpu/vec.h +303 -94
data/ext/sources/ggml/src/ggml-cuda/common.cuh +60 -37
data/ext/sources/ggml/src/ggml-cuda/conv2d-dw.cu +161 -0
data/ext/sources/ggml/src/ggml-cuda/conv2d-dw.cuh +5 -0
data/ext/sources/ggml/src/ggml-cuda/conv2d-transpose.cu +91 -0
data/ext/sources/ggml/src/ggml-cuda/conv2d-transpose.cuh +4 -0
data/ext/sources/ggml/src/ggml-cuda/convert.cu +22 -0
data/ext/sources/ggml/src/ggml-cuda/convert.cuh +5 -0
data/ext/sources/ggml/src/ggml-cuda/fattn-common.cuh +2 -2
data/ext/sources/ggml/src/ggml-cuda/fattn-mma-f16.cuh +5 -2
data/ext/sources/ggml/src/ggml-cuda/fattn-wmma-f16.cu +4 -0
data/ext/sources/ggml/src/ggml-cuda/ggml-cuda.cu +265 -123
data/ext/sources/ggml/src/ggml-cuda/mean.cu +19 -0
data/ext/sources/ggml/src/ggml-cuda/mean.cuh +3 -0
data/ext/sources/ggml/src/ggml-cuda/mmv.cu +257 -87
data/ext/sources/ggml/src/ggml-cuda/mmv.cuh +2 -3
data/ext/sources/ggml/src/ggml-cuda/ssm-scan.cu +6 -4
data/ext/sources/ggml/src/ggml-cuda/sumrows.cu +5 -18
data/ext/sources/ggml/src/ggml-cuda/sumrows.cuh +0 -1
data/ext/sources/ggml/src/ggml-cuda/unary.cu +89 -0
data/ext/sources/ggml/src/ggml-cuda/unary.cuh +7 -0
data/ext/sources/ggml/src/ggml-hip/CMakeLists.txt +4 -0
data/ext/sources/ggml/src/ggml-impl.h +127 -183
data/ext/sources/ggml/src/ggml-metal/CMakeLists.txt +11 -10
data/ext/sources/ggml/src/ggml-metal/ggml-metal-impl.h +27 -0
data/ext/sources/ggml/src/ggml-metal/ggml-metal.m +331 -49
data/ext/sources/ggml/src/ggml-metal/ggml-metal.metal +564 -282
data/ext/sources/ggml/src/ggml-musa/mudnn.cuh +2 -2
data/ext/sources/ggml/src/ggml-opencl/CMakeLists.txt +14 -0
data/ext/sources/ggml/src/ggml-opencl/ggml-opencl.cpp +1859 -489
data/ext/sources/ggml/src/ggml-opencl/kernels/argsort.cl +86 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/concat.cl +109 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/div.cl +72 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/glu.cl +201 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/group_norm.cl +72 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/mul_mv_id_q4_0_f32_8x_flat.cl +283 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/pad.cl +30 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/repeat.cl +39 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/sigmoid.cl +29 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/sub.cl +72 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/sum_rows.cl +39 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/tanh.cl +63 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/tsembd.cl +48 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/upscale.cl +121 -0
data/ext/sources/ggml/src/ggml-quants.c +6 -8
data/ext/sources/ggml/src/ggml-rpc/ggml-rpc.cpp +18 -15
data/ext/sources/ggml/src/ggml-sycl/CMakeLists.txt +3 -3
data/ext/sources/ggml/src/ggml-sycl/binbcast.cpp +5 -6
data/ext/sources/ggml/src/ggml-sycl/common.hpp +20 -48
data/ext/sources/ggml/src/ggml-sycl/concat.cpp +28 -41
data/ext/sources/ggml/src/ggml-sycl/conv.cpp +4 -10
data/ext/sources/ggml/src/ggml-sycl/convert.cpp +117 -165
data/ext/sources/ggml/src/ggml-sycl/cpy.cpp +192 -53
data/ext/sources/ggml/src/ggml-sycl/dequantize.hpp +32 -0
data/ext/sources/ggml/src/ggml-sycl/dmmv.cpp +49 -67
data/ext/sources/ggml/src/ggml-sycl/dpct/helper.hpp +31 -1
data/ext/sources/ggml/src/ggml-sycl/element_wise.cpp +648 -1039
data/ext/sources/ggml/src/ggml-sycl/element_wise.hpp +18 -9
data/ext/sources/ggml/src/ggml-sycl/gemm.hpp +3 -0
data/ext/sources/ggml/src/ggml-sycl/getrows.cpp +8 -105
data/ext/sources/ggml/src/ggml-sycl/ggml-sycl.cpp +238 -100
data/ext/sources/ggml/src/ggml-sycl/gla.cpp +2 -2
data/ext/sources/ggml/src/ggml-sycl/im2col.cpp +1 -1
data/ext/sources/ggml/src/ggml-sycl/mmq.cpp +60 -80
data/ext/sources/ggml/src/ggml-sycl/mmvq.cpp +158 -203
data/ext/sources/ggml/src/ggml-sycl/norm.cpp +55 -74
data/ext/sources/ggml/src/ggml-sycl/quants.hpp +38 -10
data/ext/sources/ggml/src/ggml-sycl/rope.cpp +138 -27
data/ext/sources/ggml/src/ggml-sycl/softmax.cpp +3 -3
data/ext/sources/ggml/src/ggml-sycl/sycl_hw.cpp +3 -1
data/ext/sources/ggml/src/ggml-sycl/sycl_hw.hpp +3 -0
data/ext/sources/ggml/src/ggml-sycl/tsembd.cpp +3 -8
data/ext/sources/ggml/src/ggml-sycl/vecdotq.hpp +108 -16
data/ext/sources/ggml/src/ggml-sycl/wkv.cpp +12 -16
data/ext/sources/ggml/src/ggml-vulkan/CMakeLists.txt +36 -32
data/ext/sources/ggml/src/ggml-vulkan/ggml-vulkan.cpp +726 -282
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/CMakeLists.txt +4 -12
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/conv_transpose_1d.comp +98 -0
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/geglu.comp +13 -0
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/glu_head.comp +15 -0
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/glu_main.comp +29 -0
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/reglu.comp +9 -0
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/rms_norm.comp +12 -3
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/swiglu.comp +9 -0
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/vulkan-shaders-gen.cpp +10 -1
data/ext/sources/ggml/src/ggml.c +328 -48
data/ext/sources/ggml/src/ggml.cpp +26 -0
data/ext/sources/ggml/src/gguf.cpp +24 -3
data/ext/sources/include/whisper.h +2 -0
data/ext/sources/src/CMakeLists.txt +2 -0
data/ext/sources/src/coreml/whisper-compat.h +10 -0
data/ext/sources/src/coreml/whisper-compat.m +35 -0
data/ext/sources/src/coreml/whisper-decoder-impl.m +1 -0
data/ext/sources/src/coreml/whisper-encoder-impl.m +1 -0
data/ext/sources/src/whisper.cpp +218 -169
data/extsources.rb +15 -9
data/lib/whisper/context.rb +15 -0
data/lib/whisper/model/uri.rb +56 -1
data/lib/whisper/segment.rb +58 -0
data/sig/whisper.rbs +68 -38
data/{tests → test}/helper.rb +1 -12
data/{tests → test}/test_model.rb +9 -0
data/test/test_package.rb +51 -0
data/test/test_segment.rb +146 -0
data/{tests → test}/test_whisper.rb +70 -0
data/whispercpp.gemspec +2 -3
metadata +91 -43
data/ext/sources/.dockerignore +0 -3
data/ext/sources/.github/workflows/bindings-ruby.yml +0 -21
data/ext/sources/ci/run.sh +0 -336
data/ext/sources/close-issue.yml +0 -28
data/ext/sources/examples/talk-llama/llama-kv-cache.cpp +0 -2739
data/ext/sources/ggml/src/ggml-cpu/ggml-cpu-aarch64.h +0 -8
data/ext/sources/ggml/src/ggml-cpu/ggml-cpu-quants.c +0 -13747
data/tests/test_package.rb +0 -46
data/tests/test_segment.rb +0 -74
/data/ext/sources/ggml/src/ggml-cpu/{cpu-feats-x86.cpp → arch/x86/cpu-feats.cpp} +0 -0
/data/ext/sources/ggml/src/ggml-cpu/{ggml-cpu-hbm.h → hbm.h} +0 -0
/data/ext/sources/ggml/src/ggml-cpu/{ggml-cpu-traits.h → traits.h} +0 -0
/data/{tests → test}/jfk_reader/.gitignore +0 -0
/data/{tests → test}/jfk_reader/extconf.rb +0 -0
/data/{tests → test}/jfk_reader/jfk_reader.c +0 -0
/data/{tests → test}/test_callback.rb +0 -0
/data/{tests → test}/test_error.rb +0 -0
/data/{tests → test}/test_params.rb +0 -0
/data/{tests → test}/test_vad.rb +0 -0
/data/{tests → test}/test_vad_params.rb +0 -0

data/ext/sources/examples/addon.node/addon.cpp CHANGED Viewed

@@ -9,6 +9,7 @@
 #include <vector>
 #include <cmath>
 #include <cstdint>
+#include <cfloat>
 struct whisper_params {
     int32_t n_threads    = std::min(4, (int32_t) std::thread::hardware_concurrency());
@@ -38,6 +39,7 @@ struct whisper_params {
     bool print_progress = false;
     bool no_timestamps  = false;
     bool no_prints      = false;
+    bool detect_language= false;
     bool use_gpu        = true;
     bool flash_attn     = false;
     bool comma_in_time  = true;
@@ -50,6 +52,16 @@ struct whisper_params {
     std::vector<std::string> fname_out = {};
     std::vector<float> pcmf32 = {}; // mono-channel F32 PCM
+    // Voice Activity Detection (VAD) parameters
+    bool        vad           = false;
+    std::string vad_model     = "";
+    float       vad_threshold = 0.5f;
+    int         vad_min_speech_duration_ms = 250;
+    int         vad_min_silence_duration_ms = 100;
+    float       vad_max_speech_duration_s = FLT_MAX;
+    int         vad_speech_pad_ms = 30;
+    float       vad_samples_overlap = 0.1f;
 };
 struct whisper_print_user_data {
@@ -130,6 +142,11 @@ void whisper_print_segment_callback(struct whisper_context * ctx, struct whisper
 void cb_log_disable(enum ggml_log_level, const char *, void *) {}
+struct whisper_result {
+    std::vector<std::vector<std::string>> segments;
+    std::string language;
+};
 class ProgressWorker : public Napi::AsyncWorker {
  public:
     ProgressWorker(Napi::Function& callback, whisper_params params, Napi::Function progress_callback, Napi::Env env)
@@ -160,15 +177,27 @@ class ProgressWorker : public Napi::AsyncWorker {
     void OnOK() override {
         Napi::HandleScope scope(Env());
-        Napi::Object res = Napi::Array::New(Env(), result.size());
-        for (uint64_t i = 0; i < result.size(); ++i) {
+        if (params.detect_language) {
+            Napi::Object resultObj = Napi::Object::New(Env());
+            resultObj.Set("language", Napi::String::New(Env(), result.language));
+            Callback().Call({Env().Null(), resultObj});
+        }
+        Napi::Object returnObj = Napi::Object::New(Env());
+        if (!result.language.empty()) {
+            returnObj.Set("language", Napi::String::New(Env(), result.language));
+        }
+        Napi::Array transcriptionArray = Napi::Array::New(Env(), result.segments.size());
+        for (uint64_t i = 0; i < result.segments.size(); ++i) {
             Napi::Object tmp = Napi::Array::New(Env(), 3);
             for (uint64_t j = 0; j < 3; ++j) {
-                tmp[j] = Napi::String::New(Env(), result[i][j]);
+                tmp[j] = Napi::String::New(Env(), result.segments[i][j]);
             }
-            res[i] = tmp;
-        }
-        Callback().Call({Env().Null(), res});
+            transcriptionArray[i] = tmp;
+         }
+         returnObj.Set("transcription", transcriptionArray);
+         Callback().Call({Env().Null(), returnObj});
     }
     // Progress callback function - using thread-safe function
@@ -185,12 +214,12 @@ class ProgressWorker : public Napi::AsyncWorker {
  private:
     whisper_params params;
-    std::vector<std::vector<std::string>> result;
+    whisper_result result;
     Napi::Env env;
     Napi::ThreadSafeFunction tsfn;
     // Custom run function with progress callback support
-    int run_with_progress(whisper_params &params, std::vector<std::vector<std::string>> &result) {
+    int run_with_progress(whisper_params &params, whisper_result & result) {
         if (params.no_prints) {
             whisper_log_set(cb_log_disable, NULL);
         }
@@ -279,7 +308,8 @@ class ProgressWorker : public Napi::AsyncWorker {
                 wparams.print_timestamps = !params.no_timestamps;
                 wparams.print_special    = params.print_special;
                 wparams.translate        = params.translate;
-                wparams.language         = params.language.c_str();
+                wparams.language         = params.detect_language ? "auto" : params.language.c_str();
+                wparams.detect_language  = params.detect_language;
                 wparams.n_threads        = params.n_threads;
                 wparams.n_max_text_ctx   = params.max_context >= 0 ? params.max_context : wparams.n_max_text_ctx;
                 wparams.offset_ms        = params.offset_t_ms;
@@ -314,34 +344,38 @@ class ProgressWorker : public Napi::AsyncWorker {
                 };
                 wparams.progress_callback_user_data = this;
-                // Abort mechanism example
-                {
-                    static bool is_aborted = false; // Note: this should be atomic to avoid data races
+                // Set VAD parameters
+                wparams.vad            = params.vad;
+                wparams.vad_model_path = params.vad_model.c_str();
-                    wparams.encoder_begin_callback = [](struct whisper_context * /*ctx*/, struct whisper_state * /*state*/, void * user_data) {
-                        bool is_aborted = *(bool*)user_data;
-                        return !is_aborted;
-                    };
-                    wparams.encoder_begin_callback_user_data = &is_aborted;
-                }
+                wparams.vad_params.threshold               = params.vad_threshold;
+                wparams.vad_params.min_speech_duration_ms  = params.vad_min_speech_duration_ms;
+                wparams.vad_params.min_silence_duration_ms = params.vad_min_silence_duration_ms;
+                wparams.vad_params.max_speech_duration_s   = params.vad_max_speech_duration_s;
+                wparams.vad_params.speech_pad_ms           = params.vad_speech_pad_ms;
+                wparams.vad_params.samples_overlap         = params.vad_samples_overlap;
                 if (whisper_full_parallel(ctx, wparams, pcmf32.data(), pcmf32.size(), params.n_processors) != 0) {
                     fprintf(stderr, "failed to process audio\n");
                     return 10;
                 }
             }
-    }
+        }
+        if (params.detect_language || params.language == "auto") {
+            result.language = whisper_lang_str(whisper_full_lang_id(ctx));
+        }
         const int n_segments = whisper_full_n_segments(ctx);
-        result.resize(n_segments);
+        result.segments.resize(n_segments);
         for (int i = 0; i < n_segments; ++i) {
             const char * text = whisper_full_get_segment_text(ctx, i);
             const int64_t t0 = whisper_full_get_segment_t0(ctx, i);
             const int64_t t1 = whisper_full_get_segment_t1(ctx, i);
-            result[i].emplace_back(to_timestamp(t0, params.comma_in_time));
-            result[i].emplace_back(to_timestamp(t1, params.comma_in_time));
-            result[i].emplace_back(text);
+            result.segments[i].emplace_back(to_timestamp(t0, params.comma_in_time));
+            result.segments[i].emplace_back(to_timestamp(t1, params.comma_in_time));
+            result.segments[i].emplace_back(text);
         }
         whisper_print_timings(ctx);
@@ -362,13 +396,46 @@ Napi::Value whisper(const Napi::CallbackInfo& info) {
   std::string language = whisper_params.Get("language").As<Napi::String>();
   std::string model = whisper_params.Get("model").As<Napi::String>();
   std::string input = whisper_params.Get("fname_inp").As<Napi::String>();
-  bool use_gpu = whisper_params.Get("use_gpu").As<Napi::Boolean>();
-  bool flash_attn = whisper_params.Get("flash_attn").As<Napi::Boolean>();
-  bool no_prints = whisper_params.Get("no_prints").As<Napi::Boolean>();
-  bool no_timestamps = whisper_params.Get("no_timestamps").As<Napi::Boolean>();
-  int32_t audio_ctx = whisper_params.Get("audio_ctx").As<Napi::Number>();
-  bool comma_in_time = whisper_params.Get("comma_in_time").As<Napi::Boolean>();
-  int32_t max_len = whisper_params.Get("max_len").As<Napi::Number>();
+  bool use_gpu = true;
+  if (whisper_params.Has("use_gpu") && whisper_params.Get("use_gpu").IsBoolean()) {
+    use_gpu = whisper_params.Get("use_gpu").As<Napi::Boolean>();
+  }
+  bool flash_attn = false;
+  if (whisper_params.Has("flash_attn") && whisper_params.Get("flash_attn").IsBoolean()) {
+    flash_attn = whisper_params.Get("flash_attn").As<Napi::Boolean>();
+  }
+  bool no_prints = false;
+  if (whisper_params.Has("no_prints") && whisper_params.Get("no_prints").IsBoolean()) {
+    no_prints = whisper_params.Get("no_prints").As<Napi::Boolean>();
+  }
+  bool no_timestamps = false;
+  if (whisper_params.Has("no_timestamps") && whisper_params.Get("no_timestamps").IsBoolean()) {
+    no_timestamps = whisper_params.Get("no_timestamps").As<Napi::Boolean>();
+  }
+  bool detect_language = false;
+  if (whisper_params.Has("detect_language") && whisper_params.Get("detect_language").IsBoolean()) {
+    detect_language = whisper_params.Get("detect_language").As<Napi::Boolean>();
+  }
+  int32_t audio_ctx = 0;
+  if (whisper_params.Has("audio_ctx") && whisper_params.Get("audio_ctx").IsNumber()) {
+    audio_ctx = whisper_params.Get("audio_ctx").As<Napi::Number>();
+  }
+  bool comma_in_time = true;
+  if (whisper_params.Has("comma_in_time") && whisper_params.Get("comma_in_time").IsBoolean()) {
+    comma_in_time = whisper_params.Get("comma_in_time").As<Napi::Boolean>();
+  }
+  int32_t max_len = 0;
+  if (whisper_params.Has("max_len") && whisper_params.Get("max_len").IsNumber()) {
+    max_len = whisper_params.Get("max_len").As<Napi::Number>();
+  }
   // Add support for max_context
   int32_t max_context = -1;
@@ -384,7 +451,7 @@ Napi::Value whisper(const Napi::CallbackInfo& info) {
   // Add support for print_progress
   bool print_progress = false;
-  if (whisper_params.Has("print_progress")) {
+  if (whisper_params.Has("print_progress") && whisper_params.Get("print_progress").IsBoolean()) {
     print_progress = whisper_params.Get("print_progress").As<Napi::Boolean>();
   }
   // Add support for progress_callback
@@ -393,6 +460,47 @@ Napi::Value whisper(const Napi::CallbackInfo& info) {
     progress_callback = whisper_params.Get("progress_callback").As<Napi::Function>();
   }
+  // Add support for VAD parameters
+  bool vad = false;
+  if (whisper_params.Has("vad") && whisper_params.Get("vad").IsBoolean()) {
+    vad = whisper_params.Get("vad").As<Napi::Boolean>();
+  }
+  std::string vad_model = "";
+  if (whisper_params.Has("vad_model") && whisper_params.Get("vad_model").IsString()) {
+    vad_model = whisper_params.Get("vad_model").As<Napi::String>();
+  }
+  float vad_threshold = 0.5f;
+  if (whisper_params.Has("vad_threshold") && whisper_params.Get("vad_threshold").IsNumber()) {
+    vad_threshold = whisper_params.Get("vad_threshold").As<Napi::Number>();
+  }
+  int vad_min_speech_duration_ms = 250;
+  if (whisper_params.Has("vad_min_speech_duration_ms") && whisper_params.Get("vad_min_speech_duration_ms").IsNumber()) {
+    vad_min_speech_duration_ms = whisper_params.Get("vad_min_speech_duration_ms").As<Napi::Number>();
+  }
+  int vad_min_silence_duration_ms = 100;
+  if (whisper_params.Has("vad_min_silence_duration_ms") && whisper_params.Get("vad_min_silence_duration_ms").IsNumber()) {
+    vad_min_silence_duration_ms = whisper_params.Get("vad_min_silence_duration_ms").As<Napi::Number>();
+  }
+  float vad_max_speech_duration_s = FLT_MAX;
+  if (whisper_params.Has("vad_max_speech_duration_s") && whisper_params.Get("vad_max_speech_duration_s").IsNumber()) {
+    vad_max_speech_duration_s = whisper_params.Get("vad_max_speech_duration_s").As<Napi::Number>();
+  }
+  int vad_speech_pad_ms = 30;
+  if (whisper_params.Has("vad_speech_pad_ms") && whisper_params.Get("vad_speech_pad_ms").IsNumber()) {
+    vad_speech_pad_ms = whisper_params.Get("vad_speech_pad_ms").As<Napi::Number>();
+  }
+  float vad_samples_overlap = 0.1f;
+  if (whisper_params.Has("vad_samples_overlap") && whisper_params.Get("vad_samples_overlap").IsNumber()) {
+    vad_samples_overlap = whisper_params.Get("vad_samples_overlap").As<Napi::Number>();
+  }
   Napi::Value pcmf32Value = whisper_params.Get("pcmf32");
   std::vector<float> pcmf32_vec;
   if (pcmf32Value.IsTypedArray()) {
@@ -418,6 +526,17 @@ Napi::Value whisper(const Napi::CallbackInfo& info) {
   params.max_context = max_context;
   params.print_progress = print_progress;
   params.prompt = prompt;
+  params.detect_language = detect_language;
+  // Set VAD parameters
+  params.vad = vad;
+  params.vad_model = vad_model;
+  params.vad_threshold = vad_threshold;
+  params.vad_min_speech_duration_ms = vad_min_speech_duration_ms;
+  params.vad_min_silence_duration_ms = vad_min_silence_duration_ms;
+  params.vad_max_speech_duration_s = vad_max_speech_duration_s;
+  params.vad_speech_pad_ms = vad_speech_pad_ms;
+  params.vad_samples_overlap = vad_samples_overlap;
   Napi::Function callback = info[1].As<Napi::Function>();
   // Create a new Worker class with progress callback support

data/ext/sources/examples/addon.node/index.js CHANGED Viewed

@@ -17,6 +17,7 @@ const whisperParams = {
   comma_in_time: false,
   translate: true,
   no_timestamps: false,
+  detect_language: false,
   audio_ctx: 0,
   max_len: 0,
   progress_callback: (progress) => {
@@ -31,6 +32,8 @@ const params = Object.fromEntries(
       const [key, value] = item.slice(2).split("=");
       if (key === "audio_ctx") {
         whisperParams[key] = parseInt(value);
+      } else if (key === "detect_language") {
+        whisperParams[key] = value === "true";
       } else {
         whisperParams[key] = value;
       }

data/ext/sources/examples/addon.node/vad-example.js ADDED Viewed

@@ -0,0 +1,132 @@
+const path = require("path");
+const { whisper } = require(path.join(
+  __dirname,
+  "../../build/Release/addon.node"
+));
+const { promisify } = require("util");
+const whisperAsync = promisify(whisper);
+// Example with VAD enabled
+const vadParams = {
+  language: "en",
+  model: path.join(__dirname, "../../models/ggml-base.en.bin"),
+  fname_inp: path.join(__dirname, "../../samples/jfk.wav"),
+  use_gpu: true,
+  flash_attn: false,
+  no_prints: false,
+  comma_in_time: true,
+  translate: false,
+  no_timestamps: false,
+  detect_language: false,
+  audio_ctx: 0,
+  max_len: 0,
+  // VAD parameters
+  vad: true,
+  vad_model: path.join(__dirname, "../../models/ggml-silero-v5.1.2.bin"), // You need to download this model
+  vad_threshold: 0.5,
+  vad_min_speech_duration_ms: 250,
+  vad_min_silence_duration_ms: 100,
+  vad_max_speech_duration_s: 30.0,
+  vad_speech_pad_ms: 30,
+  vad_samples_overlap: 0.1,
+  progress_callback: (progress) => {
+    console.log(`VAD Transcription progress: ${progress}%`);
+  }
+};
+// Example without VAD (traditional approach)
+const traditionalParams = {
+  language: "en",
+  model: path.join(__dirname, "../../models/ggml-base.en.bin"),
+  fname_inp: path.join(__dirname, "../../samples/jfk.wav"),
+  use_gpu: true,
+  flash_attn: false,
+  no_prints: false,
+  comma_in_time: true,
+  translate: false,
+  no_timestamps: false,
+  detect_language: false,
+  audio_ctx: 0,
+  max_len: 0,
+  vad: false, // Explicitly disable VAD
+  progress_callback: (progress) => {
+    console.log(`Traditional transcription progress: ${progress}%`);
+  }
+};
+async function runVADExample() {
+  try {
+    console.log("=== Whisper.cpp Node.js VAD Example ===\n");
+    // Check if VAD model exists
+    const fs = require('fs');
+    if (!fs.existsSync(vadParams.vad_model)) {
+      console.log("⚠️  VAD model not found. Please download the VAD model first:");
+      console.log("   ./models/download-vad-model.sh silero-v5.1.2");
+      console.log("   Or run: python models/convert-silero-vad-to-ggml.py");
+      console.log("\n   Falling back to traditional transcription without VAD...\n");
+      // Run without VAD
+      console.log("🎵 Running traditional transcription...");
+      const traditionalResult = await whisperAsync(traditionalParams);
+      console.log("\n📝 Traditional transcription result:");
+      console.log(traditionalResult);
+      return;
+    }
+    console.log("🎵 Running transcription with VAD enabled...");
+    console.log("VAD Parameters:");
+    console.log(`  - Threshold: ${vadParams.vad_threshold}`);
+    console.log(`  - Min speech duration: ${vadParams.vad_min_speech_duration_ms}ms`);
+    console.log(`  - Min silence duration: ${vadParams.vad_min_silence_duration_ms}ms`);
+    console.log(`  - Max speech duration: ${vadParams.vad_max_speech_duration_s}s`);
+    console.log(`  - Speech padding: ${vadParams.vad_speech_pad_ms}ms`);
+    console.log(`  - Samples overlap: ${vadParams.vad_samples_overlap}\n`);
+    const startTime = Date.now();
+    const vadResult = await whisperAsync(vadParams);
+    const vadDuration = Date.now() - startTime;
+    console.log("\n✅ VAD transcription completed!");
+    console.log(`⏱️  Processing time: ${vadDuration}ms`);
+    console.log("\n📝 VAD transcription result:");
+    console.log(vadResult);
+    // Compare with traditional approach
+    console.log("\n🔄 Running traditional transcription for comparison...");
+    const traditionalStartTime = Date.now();
+    const traditionalResult = await whisperAsync(traditionalParams);
+    const traditionalDuration = Date.now() - traditionalStartTime;
+    console.log("\n✅ Traditional transcription completed!");
+    console.log(`⏱️  Processing time: ${traditionalDuration}ms`);
+    console.log("\n📝 Traditional transcription result:");
+    console.log(traditionalResult);
+    // Performance comparison
+    console.log("\n📊 Performance Comparison:");
+    console.log(`VAD:         ${vadDuration}ms`);
+    console.log(`Traditional: ${traditionalDuration}ms`);
+    const speedup = traditionalDuration / vadDuration;
+    if (speedup > 1) {
+      console.log(`🚀 VAD is ${speedup.toFixed(2)}x faster!`);
+    } else {
+      console.log(`ℹ️  Traditional approach was ${(1/speedup).toFixed(2)}x faster in this case.`);
+    }
+  } catch (error) {
+    console.error("❌ Error during transcription:", error);
+  }
+}
+// Run the example
+if (require.main === module) {
+  runVADExample();
+}
+module.exports = {
+  runVADExample,
+  vadParams,
+  traditionalParams
+};

data/ext/sources/examples/bench/bench.cpp CHANGED Viewed

@@ -66,13 +66,12 @@ static int whisper_bench_full(const whisper_params & params) {
     cparams.use_gpu    = params.use_gpu;
     cparams.flash_attn = params.flash_attn;
-    struct whisper_context * ctx = whisper_init_from_file_with_params(params.model.c_str(), cparams);
     {
         fprintf(stderr, "\n");
         fprintf(stderr, "system_info: n_threads = %d / %d | %s\n", params.n_threads, std::thread::hardware_concurrency(), whisper_print_system_info());
     }
+    struct whisper_context * ctx = whisper_init_from_file_with_params(params.model.c_str(), cparams);
     if (ctx == nullptr) {
         fprintf(stderr, "error: failed to initialize whisper context\n");
         return 2;
@@ -156,6 +155,8 @@ static int whisper_bench_full(const whisper_params & params) {
 }
 int main(int argc, char ** argv) {
+    ggml_backend_load_all();
     whisper_params params;
     if (whisper_params_parse(argc, argv, params) == false) {

data/ext/sources/examples/cli/cli.cpp CHANGED Viewed

@@ -202,7 +202,7 @@ static bool whisper_params_parse(int argc, char ** argv, whisper_params & params
         else if (                  arg == "--vad")                         { params.vad                         = true; }
         else if (arg == "-vm"   || arg == "--vad-model")                   { params.vad_model                   = ARGV_NEXT; }
         else if (arg == "-vt"   || arg == "--vad-threshold")               { params.vad_threshold               = std::stof(ARGV_NEXT); }
-        else if (arg == "-vsd"  || arg == "--vad-min-speech-duration-ms")  { params.vad_min_speech_duration_ms  = std::stoi(ARGV_NEXT); }
+        else if (arg == "-vspd" || arg == "--vad-min-speech-duration-ms")  { params.vad_min_speech_duration_ms  = std::stoi(ARGV_NEXT); }
         else if (arg == "-vsd"  || arg == "--vad-min-silence-duration-ms") { params.vad_min_speech_duration_ms  = std::stoi(ARGV_NEXT); }
         else if (arg == "-vmsd" || arg == "--vad-max-speech-duration-s")   { params.vad_max_speech_duration_s   = std::stof(ARGV_NEXT); }
         else if (arg == "-vp"   || arg == "--vad-speech-pad-ms")           { params.vad_speech_pad_ms           = std::stoi(ARGV_NEXT); }
@@ -909,6 +909,8 @@ static void output_lrc(struct whisper_context * ctx, std::ofstream & fout, const
 static void cb_log_disable(enum ggml_log_level , const char * , void * ) { }
 int main(int argc, char ** argv) {
+    ggml_backend_load_all();
 #if defined(_WIN32)
     // Set the console output code page to UTF-8, while command line arguments
     // are still encoded in the system's code page. In this way, we can print
@@ -988,7 +990,6 @@ int main(int argc, char ** argv) {
     }
     // whisper init
     struct whisper_context_params cparams = whisper_context_default_params();
     cparams.use_gpu    = params.use_gpu;

data/ext/sources/examples/command/command.cpp CHANGED Viewed

@@ -251,7 +251,7 @@ static std::vector<std::string> get_words(const std::string &txt) {
 // command-list mode
 // guide the transcription to match the most likely command from a provided list
-static int process_command_list(struct whisper_context * ctx, audio_async &audio, const whisper_params &params) {
+static int process_command_list(struct whisper_context * ctx, audio_async &audio, const whisper_params &params, std::ofstream &fout) {
     fprintf(stderr, "\n");
     fprintf(stderr, "%s: guided mode\n", __func__);
@@ -444,12 +444,16 @@ static int process_command_list(struct whisper_context * ctx, audio_async &audio
                     const float prob = probs_id[0].first;
                     const int index = probs_id[0].second;
+                    const char * best_command = allowed_commands[index].c_str();
                     fprintf(stdout, "\n");
                     fprintf(stdout, "%s: detected command: %s%s%s | p = %f | t = %d ms\n", __func__,
-                            "\033[1m", allowed_commands[index].c_str(), "\033[0m", prob,
+                            "\033[1m", best_command, "\033[0m", prob,
                             (int) std::chrono::duration_cast<std::chrono::milliseconds>(t_end - t_start).count());
                     fprintf(stdout, "\n");
+                    if (fout.is_open()) {
+                        fout << best_command << std::endl;
+                    }
                 }
             }
@@ -462,7 +466,7 @@ static int process_command_list(struct whisper_context * ctx, audio_async &audio
 // always-prompt mode
 // transcribe the voice into text after valid prompt
-static int always_prompt_transcription(struct whisper_context * ctx, audio_async & audio, const whisper_params & params) {
+static int always_prompt_transcription(struct whisper_context * ctx, audio_async & audio, const whisper_params & params, std::ofstream & fout) {
     bool is_running = true;
     bool ask_prompt = true;
@@ -528,6 +532,9 @@ static int always_prompt_transcription(struct whisper_context * ctx, audio_async
                 if ((sim > 0.7f) && (command.size() > 0)) {
                     fprintf(stdout, "%s: Command '%s%s%s', (t = %d ms)\n", __func__, "\033[1m", command.c_str(), "\033[0m", (int) t_ms);
+                    if (fout.is_open()) {
+                        fout << command << std::endl;
+                    }
                 }
                 fprintf(stdout, "\n");
@@ -542,7 +549,7 @@ static int always_prompt_transcription(struct whisper_context * ctx, audio_async
 // general-purpose mode
 // freely transcribe the voice into text
-static int process_general_transcription(struct whisper_context * ctx, audio_async & audio, const whisper_params & params) {
+static int process_general_transcription(struct whisper_context * ctx, audio_async & audio, const whisper_params & params, std::ofstream & fout) {
     bool is_running  = true;
     bool have_prompt = false;
     bool ask_prompt  = true;
@@ -662,8 +669,10 @@ static int process_general_transcription(struct whisper_context * ctx, audio_asy
                     } else {
                         // cut the prompt from the decoded text
                         const std::string command = ::trim(txt.substr(best_len));
                         fprintf(stdout, "%s: Command '%s%s%s', (t = %d ms)\n", __func__, "\033[1m", command.c_str(), "\033[0m", (int) t_ms);
+                        if (fout.is_open()) {
+                            fout << command << std::endl;
+                        }
                     }
                     fprintf(stdout, "\n");
@@ -678,6 +687,8 @@ static int process_general_transcription(struct whisper_context * ctx, audio_asy
 }
 int main(int argc, char ** argv) {
+    ggml_backend_load_all();
     whisper_params params;
     if (whisper_params_parse(argc, argv, params) == false) {
@@ -698,6 +709,10 @@ int main(int argc, char ** argv) {
     cparams.flash_attn = params.flash_attn;
     struct whisper_context * ctx = whisper_init_from_file_with_params(params.model.c_str(), cparams);
+    if (ctx == nullptr) {
+        fprintf(stderr, "error: failed to initialize whisper context\n");
+        return 2;
+    }
     // print some info about the processing
     {
@@ -757,13 +772,22 @@ int main(int argc, char ** argv) {
         }
     }
+    std::ofstream fout;
+    if (params.fname_out.length() > 0) {
+        fout.open(params.fname_out);
+        if (!fout.is_open()) {
+            fprintf(stderr, "%s: failed to open output file '%s'!\n", __func__, params.fname_out.c_str());
+            return 1;
+        }
+    }
     if (ret_val == 0) {
         if (!params.commands.empty()) {
-            ret_val = process_command_list(ctx, audio, params);
+            ret_val = process_command_list(ctx, audio, params, fout);
         } else if (!params.prompt.empty() && params.grammar_parsed.rules.empty()) {
-            ret_val = always_prompt_transcription(ctx, audio, params);
+            ret_val = always_prompt_transcription(ctx, audio, params, fout);
         } else {
-            ret_val = process_general_transcription(ctx, audio, params);
+            ret_val = process_general_transcription(ctx, audio, params, fout);
         }
     }

data/ext/sources/examples/common-whisper.cpp CHANGED Viewed

@@ -112,13 +112,20 @@ bool read_audio_data(const std::string & fname, std::vector<float>& pcmf32, std:
     }
     if (stereo) {
-		pcmf32s.resize(2);
-		pcmf32s[0].resize(frame_count);
-		pcmf32s[1].resize(frame_count);
-		for (uint64_t i = 0; i < frame_count; i++) {
-			pcmf32s[0][i] = pcmf32[2*i];
-			pcmf32s[1][i] = pcmf32[2*i + 1];
-		}
+        std::vector<float> stereo_data = pcmf32;
+        pcmf32.resize(frame_count);
+        for (uint64_t i = 0; i < frame_count; i++) {
+            pcmf32[i] = (stereo_data[2*i] + stereo_data[2*i + 1]);
+        }
+        pcmf32s.resize(2);
+        pcmf32s[0].resize(frame_count);
+        pcmf32s[1].resize(frame_count);
+        for (uint64_t i = 0; i < frame_count; i++) {
+            pcmf32s[0][i] = stereo_data[2*i];
+            pcmf32s[1][i] = stereo_data[2*i + 1];
+        }
     }
     ma_decoder_uninit(&decoder);

data/ext/sources/examples/lsp/lsp.cpp CHANGED Viewed

@@ -424,6 +424,8 @@ static void process_loop(struct whisper_context * ctx, audio_async &audio, const
 }
 int main(int argc, char ** argv) {
+    ggml_backend_load_all();
     whisper_params params;
     if (whisper_params_parse(argc, argv, params) == false) {
         return 1;

data/ext/sources/examples/quantize/quantize.cpp CHANGED Viewed

@@ -1,4 +1,5 @@
 #include "ggml.h"
+#include "ggml-backend.h"
 #include "common.h"
 #include "common-ggml.h"
@@ -176,6 +177,8 @@ static bool whisper_model_quantize(const std::string & fname_inp, const std::str
 }
 int main(int argc, char ** argv) {
+    ggml_backend_load_all();
     if (argc != 4) {
         fprintf(stderr, "usage: %s model-f32.bin model-quant.bin type\n", argv[0]);
         ggml_print_ftypes(stderr);

data/ext/sources/examples/server/CMakeLists.txt CHANGED Viewed

@@ -1,3 +1,6 @@
+set(CMAKE_CXX_STANDARD 17)
+set(CMAKE_CXX_STANDARD_REQUIRED ON)
 set(TARGET whisper-server)
 add_executable(${TARGET} server.cpp httplib.h)