RubyGems - whispercpp - Versions diffs - 1.3.2 → 1.3.3 - Mend

whispercpp 1.3.2 → 1.3.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (244) hide show

checksums.yaml +4 -4
data/.gitignore +6 -3
data/README.md +71 -14
data/Rakefile +20 -7
data/ext/.gitignore +4 -6
data/ext/dependencies.rb +36 -24
data/ext/extconf.rb +1 -1
data/ext/options.rb +48 -184
data/ext/ruby_whisper.c +18 -0
data/ext/ruby_whisper_context.c +43 -12
data/ext/ruby_whisper_model.c +1 -1
data/ext/ruby_whisper_params.c +4 -2
data/ext/ruby_whisper_segment.c +81 -4
data/ext/ruby_whisper_transcribe.cpp +13 -7
data/ext/ruby_whisper_vad_params.c +1 -1
data/ext/sources/CMakeLists.txt +5 -1
data/ext/sources/bindings/javascript/package.json +1 -1
data/ext/sources/examples/addon.node/__test__/whisper.spec.js +120 -24
data/ext/sources/examples/addon.node/addon.cpp +150 -31
data/ext/sources/examples/addon.node/index.js +3 -0
data/ext/sources/examples/addon.node/vad-example.js +132 -0
data/ext/sources/examples/bench/bench.cpp +3 -2
data/ext/sources/examples/cli/cli.cpp +3 -2
data/ext/sources/examples/command/command.cpp +32 -8
data/ext/sources/examples/common-whisper.cpp +14 -7
data/ext/sources/examples/lsp/lsp.cpp +2 -0
data/ext/sources/examples/quantize/quantize.cpp +3 -0
data/ext/sources/examples/server/CMakeLists.txt +3 -0
data/ext/sources/examples/server/server.cpp +169 -22
data/ext/sources/examples/stream/stream.cpp +6 -0
data/ext/sources/examples/talk-llama/CMakeLists.txt +4 -1
data/ext/sources/examples/talk-llama/llama-arch.cpp +171 -3
data/ext/sources/examples/talk-llama/llama-arch.h +28 -1
data/ext/sources/examples/talk-llama/llama-batch.cpp +741 -272
data/ext/sources/examples/talk-llama/llama-batch.h +112 -54
data/ext/sources/examples/talk-llama/llama-chat.cpp +30 -8
data/ext/sources/examples/talk-llama/llama-chat.h +1 -0
data/ext/sources/examples/talk-llama/llama-context.cpp +520 -351
data/ext/sources/examples/talk-llama/llama-context.h +38 -17
data/ext/sources/examples/talk-llama/llama-cparams.cpp +1 -1
data/ext/sources/examples/talk-llama/llama-cparams.h +1 -1
data/ext/sources/examples/talk-llama/llama-graph.cpp +447 -372
data/ext/sources/examples/talk-llama/llama-graph.h +128 -58
data/ext/sources/examples/talk-llama/llama-hparams.cpp +10 -2
data/ext/sources/examples/talk-llama/llama-hparams.h +19 -2
data/ext/sources/examples/talk-llama/llama-kv-cache-unified-iswa.cpp +279 -0
data/ext/sources/examples/talk-llama/llama-kv-cache-unified-iswa.h +128 -0
data/ext/sources/examples/talk-llama/llama-kv-cache-unified.cpp +1841 -0
data/ext/sources/examples/talk-llama/llama-kv-cache-unified.h +303 -0
data/ext/sources/examples/talk-llama/llama-kv-cache.h +14 -472
data/ext/sources/examples/talk-llama/llama-kv-cells.h +86 -26
data/ext/sources/examples/talk-llama/llama-memory-hybrid.cpp +246 -0
data/ext/sources/examples/talk-llama/llama-memory-hybrid.h +138 -0
data/ext/sources/examples/talk-llama/llama-memory-recurrent.cpp +1125 -0
data/ext/sources/examples/talk-llama/llama-memory-recurrent.h +183 -0
data/ext/sources/examples/talk-llama/llama-memory.cpp +58 -0
data/ext/sources/examples/talk-llama/llama-memory.h +88 -4
data/ext/sources/examples/talk-llama/llama-mmap.cpp +1 -1
data/ext/sources/examples/talk-llama/llama-model-loader.cpp +42 -17
data/ext/sources/examples/talk-llama/llama-model-saver.cpp +1 -0
data/ext/sources/examples/talk-llama/llama-model.cpp +1863 -563
data/ext/sources/examples/talk-llama/llama-model.h +27 -0
data/ext/sources/examples/talk-llama/llama-quant.cpp +89 -6
data/ext/sources/examples/talk-llama/llama-vocab.cpp +65 -28
data/ext/sources/examples/talk-llama/llama-vocab.h +1 -0
data/ext/sources/examples/talk-llama/llama.cpp +11 -7
data/ext/sources/examples/talk-llama/llama.h +147 -40
data/ext/sources/examples/talk-llama/talk-llama.cpp +2 -0
data/ext/sources/examples/talk-llama/unicode.cpp +5 -0
data/ext/sources/examples/vad-speech-segments/speech.cpp +6 -0
data/ext/sources/examples/wchess/wchess.cmd/wchess.cmd.cpp +2 -0
data/ext/sources/ggml/CMakeLists.txt +48 -3
data/ext/sources/ggml/cmake/common.cmake +24 -0
data/ext/sources/ggml/include/ggml-backend.h +1 -1
data/ext/sources/ggml/include/ggml-cpu.h +2 -0
data/ext/sources/ggml/include/ggml.h +144 -5
data/ext/sources/ggml/src/CMakeLists.txt +82 -24
data/ext/sources/ggml/src/ggml-backend-reg.cpp +5 -0
data/ext/sources/ggml/src/ggml-backend.cpp +46 -23
data/ext/sources/ggml/src/ggml-blas/CMakeLists.txt +3 -3
data/ext/sources/ggml/src/ggml-cann/CMakeLists.txt +1 -0
data/ext/sources/ggml/src/ggml-cann/common.h +6 -1
data/ext/sources/ggml/src/ggml-cann/ggml-cann.cpp +33 -9
data/ext/sources/ggml/src/ggml-common.h +4 -0
data/ext/sources/ggml/src/ggml-cpu/CMakeLists.txt +133 -40
data/ext/sources/ggml/src/ggml-cpu/amx/amx.cpp +1 -1
data/ext/sources/ggml/src/ggml-cpu/amx/mmq.cpp +11 -10
data/ext/sources/ggml/src/ggml-cpu/arch/arm/cpu-feats.cpp +94 -0
data/ext/sources/ggml/src/ggml-cpu/arch/arm/quants.c +4114 -0
data/ext/sources/ggml/src/ggml-cpu/arch/arm/repack.cpp +2163 -0
data/ext/sources/ggml/src/ggml-cpu/arch/loongarch/quants.c +2639 -0
data/ext/sources/ggml/src/ggml-cpu/arch/powerpc/cpu-feats.cpp +82 -0
data/ext/sources/ggml/src/ggml-cpu/arch/powerpc/quants.c +2732 -0
data/ext/sources/ggml/src/ggml-cpu/arch/riscv/quants.c +2069 -0
data/ext/sources/ggml/src/ggml-cpu/arch/riscv/repack.cpp +397 -0
data/ext/sources/ggml/src/ggml-cpu/arch/s390/quants.c +1300 -0
data/ext/sources/ggml/src/ggml-cpu/arch/wasm/quants.c +1481 -0
data/ext/sources/ggml/src/ggml-cpu/arch/x86/quants.c +4311 -0
data/ext/sources/ggml/src/ggml-cpu/{ggml-cpu-aarch64.cpp → arch/x86/repack.cpp} +79 -3225
data/ext/sources/ggml/src/ggml-cpu/arch-fallback.h +184 -0
data/ext/sources/ggml/src/ggml-cpu/common.h +4 -3
data/ext/sources/ggml/src/ggml-cpu/ggml-cpu-impl.h +16 -7
data/ext/sources/ggml/src/ggml-cpu/ggml-cpu.c +146 -105
data/ext/sources/ggml/src/ggml-cpu/ggml-cpu.cpp +12 -8
data/ext/sources/ggml/src/ggml-cpu/{ggml-cpu-hbm.cpp → hbm.cpp} +1 -1
data/ext/sources/ggml/src/ggml-cpu/kleidiai/kleidiai.cpp +1 -1
data/ext/sources/ggml/src/ggml-cpu/llamafile/sgemm.cpp +58 -8
data/ext/sources/ggml/src/ggml-cpu/llamafile/sgemm.h +5 -0
data/ext/sources/ggml/src/ggml-cpu/ops.cpp +1057 -174
data/ext/sources/ggml/src/ggml-cpu/ops.h +8 -0
data/ext/sources/ggml/src/ggml-cpu/quants.c +1158 -0
data/ext/sources/ggml/src/ggml-cpu/{ggml-cpu-quants.h → quants.h} +26 -0
data/ext/sources/ggml/src/ggml-cpu/repack.cpp +1571 -0
data/ext/sources/ggml/src/ggml-cpu/repack.h +98 -0
data/ext/sources/ggml/src/ggml-cpu/simd-mappings.h +330 -38
data/ext/sources/ggml/src/ggml-cpu/{ggml-cpu-traits.cpp → traits.cpp} +1 -1
data/ext/sources/ggml/src/ggml-cpu/vec.cpp +111 -18
data/ext/sources/ggml/src/ggml-cpu/vec.h +303 -94
data/ext/sources/ggml/src/ggml-cuda/common.cuh +60 -37
data/ext/sources/ggml/src/ggml-cuda/conv2d-dw.cu +161 -0
data/ext/sources/ggml/src/ggml-cuda/conv2d-dw.cuh +5 -0
data/ext/sources/ggml/src/ggml-cuda/conv2d-transpose.cu +91 -0
data/ext/sources/ggml/src/ggml-cuda/conv2d-transpose.cuh +4 -0
data/ext/sources/ggml/src/ggml-cuda/convert.cu +22 -0
data/ext/sources/ggml/src/ggml-cuda/convert.cuh +5 -0
data/ext/sources/ggml/src/ggml-cuda/fattn-common.cuh +2 -2
data/ext/sources/ggml/src/ggml-cuda/fattn-mma-f16.cuh +5 -2
data/ext/sources/ggml/src/ggml-cuda/fattn-wmma-f16.cu +4 -0
data/ext/sources/ggml/src/ggml-cuda/ggml-cuda.cu +265 -123
data/ext/sources/ggml/src/ggml-cuda/mean.cu +19 -0
data/ext/sources/ggml/src/ggml-cuda/mean.cuh +3 -0
data/ext/sources/ggml/src/ggml-cuda/mmv.cu +257 -87
data/ext/sources/ggml/src/ggml-cuda/mmv.cuh +2 -3
data/ext/sources/ggml/src/ggml-cuda/ssm-scan.cu +6 -4
data/ext/sources/ggml/src/ggml-cuda/sumrows.cu +5 -18
data/ext/sources/ggml/src/ggml-cuda/sumrows.cuh +0 -1
data/ext/sources/ggml/src/ggml-cuda/unary.cu +89 -0
data/ext/sources/ggml/src/ggml-cuda/unary.cuh +7 -0
data/ext/sources/ggml/src/ggml-hip/CMakeLists.txt +4 -0
data/ext/sources/ggml/src/ggml-impl.h +127 -183
data/ext/sources/ggml/src/ggml-metal/CMakeLists.txt +11 -10
data/ext/sources/ggml/src/ggml-metal/ggml-metal-impl.h +27 -0
data/ext/sources/ggml/src/ggml-metal/ggml-metal.m +331 -49
data/ext/sources/ggml/src/ggml-metal/ggml-metal.metal +564 -282
data/ext/sources/ggml/src/ggml-musa/mudnn.cuh +2 -2
data/ext/sources/ggml/src/ggml-opencl/CMakeLists.txt +14 -0
data/ext/sources/ggml/src/ggml-opencl/ggml-opencl.cpp +1859 -489
data/ext/sources/ggml/src/ggml-opencl/kernels/argsort.cl +86 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/concat.cl +109 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/div.cl +72 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/glu.cl +201 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/group_norm.cl +72 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/mul_mv_id_q4_0_f32_8x_flat.cl +283 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/pad.cl +30 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/repeat.cl +39 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/sigmoid.cl +29 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/sub.cl +72 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/sum_rows.cl +39 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/tanh.cl +63 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/tsembd.cl +48 -0
data/ext/sources/ggml/src/ggml-opencl/kernels/upscale.cl +121 -0
data/ext/sources/ggml/src/ggml-quants.c +6 -8
data/ext/sources/ggml/src/ggml-rpc/ggml-rpc.cpp +18 -15
data/ext/sources/ggml/src/ggml-sycl/CMakeLists.txt +3 -3
data/ext/sources/ggml/src/ggml-sycl/binbcast.cpp +5 -6
data/ext/sources/ggml/src/ggml-sycl/common.hpp +20 -48
data/ext/sources/ggml/src/ggml-sycl/concat.cpp +28 -41
data/ext/sources/ggml/src/ggml-sycl/conv.cpp +4 -10
data/ext/sources/ggml/src/ggml-sycl/convert.cpp +117 -165
data/ext/sources/ggml/src/ggml-sycl/cpy.cpp +192 -53
data/ext/sources/ggml/src/ggml-sycl/dequantize.hpp +32 -0
data/ext/sources/ggml/src/ggml-sycl/dmmv.cpp +49 -67
data/ext/sources/ggml/src/ggml-sycl/dpct/helper.hpp +31 -1
data/ext/sources/ggml/src/ggml-sycl/element_wise.cpp +648 -1039
data/ext/sources/ggml/src/ggml-sycl/element_wise.hpp +18 -9
data/ext/sources/ggml/src/ggml-sycl/gemm.hpp +3 -0
data/ext/sources/ggml/src/ggml-sycl/getrows.cpp +8 -105
data/ext/sources/ggml/src/ggml-sycl/ggml-sycl.cpp +238 -100
data/ext/sources/ggml/src/ggml-sycl/gla.cpp +2 -2
data/ext/sources/ggml/src/ggml-sycl/im2col.cpp +1 -1
data/ext/sources/ggml/src/ggml-sycl/mmq.cpp +60 -80
data/ext/sources/ggml/src/ggml-sycl/mmvq.cpp +158 -203
data/ext/sources/ggml/src/ggml-sycl/norm.cpp +55 -74
data/ext/sources/ggml/src/ggml-sycl/quants.hpp +38 -10
data/ext/sources/ggml/src/ggml-sycl/rope.cpp +138 -27
data/ext/sources/ggml/src/ggml-sycl/softmax.cpp +3 -3
data/ext/sources/ggml/src/ggml-sycl/sycl_hw.cpp +3 -1
data/ext/sources/ggml/src/ggml-sycl/sycl_hw.hpp +3 -0
data/ext/sources/ggml/src/ggml-sycl/tsembd.cpp +3 -8
data/ext/sources/ggml/src/ggml-sycl/vecdotq.hpp +108 -16
data/ext/sources/ggml/src/ggml-sycl/wkv.cpp +12 -16
data/ext/sources/ggml/src/ggml-vulkan/CMakeLists.txt +36 -32
data/ext/sources/ggml/src/ggml-vulkan/ggml-vulkan.cpp +726 -282
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/CMakeLists.txt +4 -12
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/conv_transpose_1d.comp +98 -0
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/geglu.comp +13 -0
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/glu_head.comp +15 -0
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/glu_main.comp +29 -0
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/reglu.comp +9 -0
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/rms_norm.comp +12 -3
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/swiglu.comp +9 -0
data/ext/sources/ggml/src/ggml-vulkan/vulkan-shaders/vulkan-shaders-gen.cpp +10 -1
data/ext/sources/ggml/src/ggml.c +328 -48
data/ext/sources/ggml/src/ggml.cpp +26 -0
data/ext/sources/ggml/src/gguf.cpp +24 -3
data/ext/sources/include/whisper.h +2 -0
data/ext/sources/src/CMakeLists.txt +2 -0
data/ext/sources/src/coreml/whisper-compat.h +10 -0
data/ext/sources/src/coreml/whisper-compat.m +35 -0
data/ext/sources/src/coreml/whisper-decoder-impl.m +1 -0
data/ext/sources/src/coreml/whisper-encoder-impl.m +1 -0
data/ext/sources/src/whisper.cpp +218 -169
data/extsources.rb +15 -9
data/lib/whisper/context.rb +15 -0
data/lib/whisper/model/uri.rb +56 -1
data/lib/whisper/segment.rb +58 -0
data/sig/whisper.rbs +68 -38
data/{tests → test}/helper.rb +1 -12
data/{tests → test}/test_model.rb +9 -0
data/test/test_package.rb +51 -0
data/test/test_segment.rb +146 -0
data/{tests → test}/test_whisper.rb +70 -0
data/whispercpp.gemspec +2 -3
metadata +91 -43
data/ext/sources/.dockerignore +0 -3
data/ext/sources/.github/workflows/bindings-ruby.yml +0 -21
data/ext/sources/ci/run.sh +0 -336
data/ext/sources/close-issue.yml +0 -28
data/ext/sources/examples/talk-llama/llama-kv-cache.cpp +0 -2739
data/ext/sources/ggml/src/ggml-cpu/ggml-cpu-aarch64.h +0 -8
data/ext/sources/ggml/src/ggml-cpu/ggml-cpu-quants.c +0 -13747
data/tests/test_package.rb +0 -46
data/tests/test_segment.rb +0 -74
/data/ext/sources/ggml/src/ggml-cpu/{cpu-feats-x86.cpp → arch/x86/cpu-feats.cpp} +0 -0
/data/ext/sources/ggml/src/ggml-cpu/{ggml-cpu-hbm.h → hbm.h} +0 -0
/data/ext/sources/ggml/src/ggml-cpu/{ggml-cpu-traits.h → traits.h} +0 -0
/data/{tests → test}/jfk_reader/.gitignore +0 -0
/data/{tests → test}/jfk_reader/extconf.rb +0 -0
/data/{tests → test}/jfk_reader/jfk_reader.c +0 -0
/data/{tests → test}/test_callback.rb +0 -0
/data/{tests → test}/test_error.rb +0 -0
/data/{tests → test}/test_params.rb +0 -0
/data/{tests → test}/test_vad.rb +0 -0
/data/{tests → test}/test_vad_params.rb +0 -0

data/ext/sources/examples/talk-llama/llama-graph.cpp CHANGED Viewed

@@ -3,7 +3,11 @@
 #include "llama-impl.h"
 #include "llama-batch.h"
 #include "llama-cparams.h"
-#include "llama-kv-cache.h"
+#include "llama-kv-cache-unified.h"
+#include "llama-kv-cache-unified-iswa.h"
+#include "llama-memory-hybrid.h"
+#include "llama-memory-recurrent.h"
 #include <cassert>
 #include <cmath>
@@ -83,41 +87,33 @@ void llm_graph_input_pos_bucket::set_input(const llama_ubatch * ubatch) {
 void llm_graph_input_pos_bucket_kv::set_input(const llama_ubatch * ubatch) {
     if (pos_bucket) {
-        kv_self->set_input_pos_bucket(pos_bucket, ubatch);
+        mctx->set_input_pos_bucket(pos_bucket, ubatch);
     }
 }
 void llm_graph_input_out_ids::set_input(const llama_ubatch * ubatch) {
-    if (hparams.causal_attn || cparams.pooling_type == LLAMA_POOLING_TYPE_NONE) {
-        //GGML_ASSERT(out_ids && "every model that can must skip unused outputs");
+    GGML_ASSERT(out_ids);
-        if (!out_ids) {
-            LLAMA_LOG_WARN("%s: 'out_ids' is not created\n", __func__);
-        } else {
-            const int64_t n_tokens = ubatch->n_tokens;
+    const int64_t n_tokens = ubatch->n_tokens;
-            GGML_ASSERT(ggml_backend_buffer_is_host(out_ids->buffer));
-            int32_t * data = (int32_t *) out_ids->data;
+    GGML_ASSERT(ggml_backend_buffer_is_host(out_ids->buffer));
+    int32_t * data = (int32_t *) out_ids->data;
-            if (n_outputs == n_tokens) {
-                for (int i = 0; i < n_tokens; ++i) {
-                    data[i] = i;
-                }
-            } else if (ubatch->output) {
-                int32_t n_outputs = 0;
-                for (int i = 0; i < n_tokens; ++i) {
-                    if (ubatch->output[i]) {
-                        data[n_outputs++] = i;
-                    }
-                }
-                // the graph needs to have been passed the correct number of outputs
-                GGML_ASSERT(n_outputs == n_outputs);
-            } else if (n_outputs == 1) {
-                // only keep last output
-                data[0] = n_tokens - 1;
-            } else {
-                GGML_ASSERT(n_outputs == 0);
-            }
+    if (n_outputs == n_tokens) {
+        for (int i = 0; i < n_tokens; ++i) {
+            data[i] = i;
+        }
+        return;
+    }
+    GGML_ASSERT(ubatch->output);
+    int n_outputs = 0;
+    for (int i = 0; i < n_tokens; ++i) {
+        if (ubatch->output[i]) {
+            data[n_outputs++] = i;
         }
     }
 }
@@ -126,139 +122,114 @@ void llm_graph_input_mean::set_input(const llama_ubatch * ubatch) {
     if (cparams.embeddings && cparams.pooling_type == LLAMA_POOLING_TYPE_MEAN) {
         const int64_t n_tokens     = ubatch->n_tokens;
         const int64_t n_seq_tokens = ubatch->n_seq_tokens;
-        const int64_t n_seqs       = ubatch->n_seqs;
+        const int64_t n_seqs_unq   = ubatch->n_seqs_unq;
         GGML_ASSERT(mean);
         GGML_ASSERT(ggml_backend_buffer_is_host(mean->buffer));
         float * data = (float *) mean->data;
-        memset(mean->data, 0, n_tokens * n_tokens * ggml_element_size(mean));
-        std::vector<uint64_t> sum(n_tokens, 0);
+        memset(mean->data, 0, n_tokens*n_seqs_unq*ggml_element_size(mean));
-        for (int s = 0; s < n_seqs; ++s) {
-            const llama_seq_id seq_id = ubatch->seq_id[s][0];
+        std::vector<uint64_t> sums(n_seqs_unq, 0);
+        for (int i = 0; i < n_tokens; i += n_seq_tokens) {
+            for (int s = 0; s < ubatch->n_seq_id[i]; ++s) {
+                const llama_seq_id seq_id  = ubatch->seq_id[i][s];
+                const int32_t      seq_idx = ubatch->seq_idx[seq_id];
-            // TODO: adapt limits to n_seqs when ubatch->equal_seqs is true
-            GGML_ASSERT(seq_id < n_tokens && "seq_id cannot be larger than n_tokens with pooling_type == MEAN");
-            sum[seq_id] += ubatch->n_seq_tokens;
+                sums[seq_idx] += ubatch->n_seq_tokens;
+            }
         }
-        std::vector<float> div(n_tokens, 0.0f);
-        for (int i = 0; i < n_tokens; ++i) {
-            const uint64_t s = sum[i];
-            if (s > 0) {
-                div[i] = 1.0f/float(s);
+        std::vector<float> div(n_seqs_unq, 0.0f);
+        for (int s = 0; s < n_seqs_unq; ++s) {
+            const uint64_t sum = sums[s];
+            if (sum > 0) {
+                div[s] = 1.0f/float(sum);
             }
         }
-        for (int s = 0; s < n_seqs; ++s) {
-            const llama_seq_id seq_id = ubatch->seq_id[s][0];
+        for (int i = 0; i < n_tokens; i += n_seq_tokens) {
+            for (int s = 0; s < ubatch->n_seq_id[i]; ++s) {
+                const llama_seq_id seq_id  = ubatch->seq_id[i][s];
+                const int32_t      seq_idx = ubatch->seq_idx[seq_id];
-            for (int i = 0; i < n_seq_tokens; ++i) {
-                data[seq_id*n_tokens + s*n_seq_tokens + i] = div[seq_id];
+                for (int j = 0; j < n_seq_tokens; ++j) {
+                    data[seq_idx*n_tokens + i + j] = div[seq_idx];
+                }
             }
         }
     }
 }
 void llm_graph_input_cls::set_input(const llama_ubatch * ubatch) {
-    if (cparams.embeddings && (
-                cparams.pooling_type == LLAMA_POOLING_TYPE_CLS ||
-                cparams.pooling_type == LLAMA_POOLING_TYPE_RANK)) {
-        const int64_t n_tokens     = ubatch->n_tokens;
-        const int64_t n_seq_tokens = ubatch->n_seq_tokens;
-        const int64_t n_seqs       = ubatch->n_seqs;
+    const int64_t n_tokens     = ubatch->n_tokens;
+    const int64_t n_seq_tokens = ubatch->n_seq_tokens;
+    const int64_t n_seqs_unq   = ubatch->n_seqs_unq;
+    if (cparams.embeddings && (
+            cparams.pooling_type == LLAMA_POOLING_TYPE_CLS ||
+            cparams.pooling_type == LLAMA_POOLING_TYPE_RANK
+        )) {
         GGML_ASSERT(cls);
         GGML_ASSERT(ggml_backend_buffer_is_host(cls->buffer));
         uint32_t * data = (uint32_t *) cls->data;
-        memset(cls->data, 0, n_tokens * ggml_element_size(cls));
-        for (int s = 0; s < n_seqs; ++s) {
-            const llama_seq_id seq_id = ubatch->seq_id[s][0];
+        memset(cls->data, 0, n_seqs_unq*ggml_element_size(cls));
-            // TODO: adapt limits to n_seqs when ubatch->equal_seqs is true
-            GGML_ASSERT(seq_id < n_tokens && "seq_id cannot be larger than n_tokens with pooling_type == CLS or RANK");
+        for (int i = 0; i < n_tokens; i += n_seq_tokens) {
+            for (int s = 0; s < ubatch->n_seq_id[i]; ++s) {
+                const llama_seq_id seq_id  = ubatch->seq_id[i][s];
+                const int32_t      seq_idx = ubatch->seq_idx[seq_id];
-            for (int i = 0; i < n_seq_tokens; ++i) {
-                const llama_pos pos = ubatch->pos[s*n_seq_tokens + i];
-                if (pos == 0) {
-                    data[seq_id] = s*n_seq_tokens + i;
-                }
+                data[seq_idx] = i;
             }
         }
     }
     if (cparams.embeddings && cparams.pooling_type == LLAMA_POOLING_TYPE_LAST) {
-        const int64_t n_tokens     = ubatch->n_tokens;
-        const int64_t n_seq_tokens = ubatch->n_seq_tokens;
-        const int64_t n_seqs       = ubatch->n_seqs;
         GGML_ASSERT(cls);
         GGML_ASSERT(ggml_backend_buffer_is_host(cls->buffer));
         uint32_t * data = (uint32_t *) cls->data;
-        memset(cls->data, 0, n_tokens * ggml_element_size(cls));
-        std::vector<int> last_pos(n_tokens, -1);
-        std::vector<int> last_row(n_tokens, -1);
+        memset(cls->data, 0, n_seqs_unq*ggml_element_size(cls));
-        for (int s = 0; s < n_seqs; ++s) {
-            const llama_seq_id seq_id = ubatch->seq_id[s][0];
+        std::vector<int> last_pos(n_seqs_unq, -1);
+        std::vector<int> last_row(n_seqs_unq, -1);
-            // TODO: adapt limits to n_seqs when ubatch->equal_seqs is true
-            GGML_ASSERT(seq_id < n_tokens && "seq_id cannot be larger than n_tokens with pooling_type == LAST");
+        for (int i = 0; i < n_tokens; ++i) {
+            const llama_pos pos = ubatch->pos[i];
-            for (int i = 0; i < n_seq_tokens; ++i) {
-                const llama_pos pos = ubatch->pos[s*n_seq_tokens + i];
+            for (int s = 0; s < ubatch->n_seq_id[i]; ++s) {
+                const llama_seq_id seq_id  = ubatch->seq_id[i][s];
+                const int32_t      seq_idx = ubatch->seq_idx[seq_id];
-                if (pos >= last_pos[seq_id]) {
-                    last_pos[seq_id] = pos;
-                    last_row[seq_id] = s*n_seq_tokens + i;
+                if (pos >= last_pos[seq_idx]) {
+                    last_pos[seq_idx] = pos;
+                    last_row[seq_idx] = i;
                 }
             }
         }
-        for (int i = 0; i < n_tokens; ++i) {
-            if (last_row[i] >= 0) {
-                data[i] = last_row[i];
+        for (int s = 0; s < n_seqs_unq; ++s) {
+            if (last_row[s] >= 0) {
+                data[s] = last_row[s];
             }
         }
     }
 }
-void llm_graph_input_s_copy::set_input(const llama_ubatch * ubatch) {
+void llm_graph_input_rs::set_input(const llama_ubatch * ubatch) {
     GGML_UNUSED(ubatch);
-    const int64_t n_kv = kv_self->n;
+    const int64_t n_rs = mctx->get_n_rs();
     if (s_copy) {
         GGML_ASSERT(ggml_backend_buffer_is_host(s_copy->buffer));
         int32_t * data = (int32_t *) s_copy->data;
         // assuming copy destinations ALWAYS happen ONLY on the cells between head and head+n
-        for (uint32_t i = 0; i < n_kv; ++i) {
-            data[i] = kv_self->s_copy(i);
-        }
-    }
-}
-void llm_graph_input_s_mask::set_input(const llama_ubatch * ubatch) {
-    GGML_UNUSED(ubatch);
-    const int64_t n_kv = kv_self->n;
-    if (s_mask) {
-        GGML_ASSERT(ggml_backend_buffer_is_host(s_mask->buffer));
-        float * data = (float *) s_mask->data;
-        // clear unused states
-        for (int i = 0; i < n_kv; ++i) {
-            data[i] = kv_self->s_mask(i);
+        for (uint32_t i = 0; i < n_rs; ++i) {
+            data[i] = mctx->s_copy(i);
         }
     }
 }
@@ -274,87 +245,36 @@ void llm_graph_input_cross_embd::set_input(const llama_ubatch * ubatch) {
 }
 void llm_graph_input_attn_no_cache::set_input(const llama_ubatch * ubatch) {
-    if (kq_mask) {
-        if (cparams.causal_attn) {
-            const int64_t n_kv         = ubatch->n_tokens;
-            const int64_t n_tokens     = ubatch->n_tokens;
-            const int64_t n_seq_tokens = ubatch->n_seq_tokens;
-            const int64_t n_seqs       = ubatch->n_seqs;
-            GGML_ASSERT(ggml_backend_buffer_is_host(kq_mask->buffer));
-            float * data = (float *) kq_mask->data;
-            for (int h = 0; h < 1; ++h) {
-                for (int s1 = 0; s1 < n_seqs; ++s1) {
-                    const llama_seq_id seq_id = ubatch->seq_id[s1][0];
-                    for (int j = 0; j < n_seq_tokens; ++j) {
-                        const int32_t tj = s1*n_seq_tokens + j;
-                        for (int s0 = 0; s0 < n_seqs; ++s0) {
-                            for (int i = 0; i < n_seq_tokens; ++i) {
-                                const int32_t ti = s0*n_seq_tokens + i;
-                                float f = -INFINITY;
-                                for (int s = 0; s < ubatch->n_seq_id[s0]; ++s) {
-                                    if (ubatch->seq_id[s0][s] == seq_id && ubatch->pos[ti] <= ubatch->pos[tj]) {
-                                        if (hparams.use_alibi) {
-                                            f = -std::abs(ubatch->pos[ti] - ubatch->pos[tj]);
-                                        } else {
-                                            f = 0.0f;
-                                        }
-                                        break;
-                                    }
-                                }
-                                data[h*(n_kv*n_tokens) + tj*n_kv + ti] = f;
-                            }
-                        }
-                    }
-                }
-            }
-        } else {
-            const int64_t n_tokens     = ubatch->n_tokens;
-            const int64_t n_seq_tokens = ubatch->n_seq_tokens;
-            const int64_t n_seqs       = ubatch->n_seqs;
-            const int64_t n_stride     = ubatch->n_tokens;
-            GGML_ASSERT(ggml_backend_buffer_is_host(kq_mask->buffer));
-            float * data = (float *) kq_mask->data;
-            for (int h = 0; h < 1; ++h) {
-                for (int s1 = 0; s1 < n_seqs; ++s1) {
-                    const llama_seq_id seq_id = ubatch->seq_id[s1][0];
-                    for (int j = 0; j < n_seq_tokens; ++j) {
-                        const int32_t tj = s1*n_seq_tokens + j;
-                        for (int s0 = 0; s0 < n_seqs; ++s0) {
-                            for (int i = 0; i < n_seq_tokens; ++i) {
-                                const int32_t ti = s0*n_seq_tokens + i;
-                                float f = -INFINITY;
-                                for (int s = 0; s < ubatch->n_seq_id[s0]; ++s) {
-                                    if (ubatch->seq_id[s0][s] == seq_id) {
-                                        if (hparams.use_alibi) {
-                                            f = -std::abs(ubatch->pos[ti] - ubatch->pos[tj]);
-                                        } else {
-                                            f = 0.0f;
-                                        }
-                                        break;
-                                    }
-                                }
-                                data[h*(n_tokens*n_tokens) + tj*n_stride + ti] = f;
-                            }
-                        }
+    const int64_t n_kv     = ubatch->n_tokens;
+    const int64_t n_tokens = ubatch->n_tokens;
+    GGML_ASSERT(kq_mask);
+    GGML_ASSERT(ggml_backend_buffer_is_host(kq_mask->buffer));
+    float * data = (float *) kq_mask->data;
+    for (int h = 0; h < 1; ++h) {
+        for (int i1 = 0; i1 < n_tokens; ++i1) {
+            const llama_seq_id s1 = ubatch->seq_id[i1][0];
+            for (int i0 = 0; i0 < n_tokens; ++i0) {
+                float f = -INFINITY;
-                        for (int i = n_tokens; i < n_stride; ++i) {
-                            data[h*(n_tokens*n_tokens) + tj*n_stride + i] = -INFINITY;
+                for (int s = 0; s < ubatch->n_seq_id[i0]; ++s) {
+                    const llama_seq_id s0 = ubatch->seq_id[i0][0];
+                    // TODO: reimplement this like in llama_kv_cache_unified
+                    if (s0 == s1 && (!cparams.causal_attn || ubatch->pos[i0] <= ubatch->pos[i1])) {
+                        if (hparams.use_alibi) {
+                            f = -std::abs(ubatch->pos[i0] - ubatch->pos[i1]);
+                        } else {
+                            f = 0.0f;
                         }
+                        break;
                     }
                 }
+                data[h*(n_kv*n_tokens) + i1*n_kv + i0] = f;
             }
         }
     }
@@ -362,53 +282,80 @@ void llm_graph_input_attn_no_cache::set_input(const llama_ubatch * ubatch) {
 void llm_graph_input_attn_kv_unified::set_input(const llama_ubatch * ubatch) {
     if (self_kq_mask) {
-        kv_self->set_input_kq_mask(self_kq_mask, ubatch, cparams.causal_attn);
+        mctx->set_input_kq_mask(self_kq_mask, ubatch, cparams.causal_attn);
     }
 }
 void llm_graph_input_attn_kv_unified_iswa::set_input(const llama_ubatch * ubatch) {
     if (self_kq_mask) {
-        kv_self->get_kv_base()->set_input_kq_mask(self_kq_mask, ubatch, cparams.causal_attn);
+        mctx->get_base()->set_input_kq_mask(self_kq_mask, ubatch, cparams.causal_attn);
     }
     if (self_kq_mask_swa) {
-        kv_self->get_kv_swa()->set_input_kq_mask(self_kq_mask_swa, ubatch, cparams.causal_attn);
+        mctx->get_swa()->set_input_kq_mask(self_kq_mask_swa, ubatch, cparams.causal_attn);
     }
 }
 void llm_graph_input_attn_cross::set_input(const llama_ubatch * ubatch) {
-    if (cross_kq_mask) {
-        const int64_t n_enc    = cross_kq_mask->ne[0];
-        const int64_t n_tokens = ubatch->n_tokens;
+    GGML_ASSERT(cross_kq_mask);
-        GGML_ASSERT(ggml_backend_buffer_is_host(cross_kq_mask->buffer));
-        GGML_ASSERT(!ubatch->equal_seqs); // TODO: use ubatch->n_seqs instead of failing
+    const int64_t n_enc    = cross_kq_mask->ne[0];
+    const int64_t n_tokens = ubatch->n_tokens;
-        float * data = (float *) cross_kq_mask->data;
+    GGML_ASSERT(ggml_backend_buffer_is_host(cross_kq_mask->buffer));
+    GGML_ASSERT(!ubatch->equal_seqs); // TODO: use ubatch->n_seqs instead of failing
-        for (int h = 0; h < 1; ++h) {
-            for (int j = 0; j < n_tokens; ++j) {
-                for (int i = 0; i < n_enc; ++i) {
-                    float f = -INFINITY;
-                    for (int s = 0; s < ubatch->n_seq_id[j]; ++s) {
-                        const llama_seq_id seq_id = ubatch->seq_id[j][s];
-                        if (cross->seq_ids_enc[i].find(seq_id) != cross->seq_ids_enc[i].end()) {
-                            f = 0.0f;
-                        }
+    float * data = (float *) cross_kq_mask->data;
+    for (int h = 0; h < 1; ++h) {
+        for (int i = 0; i < n_tokens; ++i) {
+            for (int j = 0; j < n_enc; ++j) {
+                float f = -INFINITY;
+                for (int s = 0; s < ubatch->n_seq_id[i]; ++s) {
+                    const llama_seq_id seq_id = ubatch->seq_id[i][s];
+                    if (cross->seq_ids_enc[j].find(seq_id) != cross->seq_ids_enc[j].end()) {
+                        f = 0.0f;
                     }
-                    data[h*(n_enc*n_tokens) + j*n_enc + i] = f;
                 }
+                data[h*(n_enc*n_tokens) + i*n_enc + j] = f;
             }
+        }
-            for (int i = n_tokens; i < GGML_PAD(n_tokens, GGML_KQ_MASK_PAD); ++i) {
-                for (int j = 0; j < n_enc; ++j) {
-                    data[h*(n_enc*n_tokens) + i*n_enc + j] = -INFINITY;
-                }
+        for (int i = n_tokens; i < GGML_PAD(n_tokens, GGML_KQ_MASK_PAD); ++i) {
+            for (int j = 0; j < n_enc; ++j) {
+                data[h*(n_enc*n_tokens) + i*n_enc + j] = -INFINITY;
             }
         }
     }
 }
+void llm_graph_input_mem_hybrid::set_input(const llama_ubatch * ubatch) {
+    if (self_kq_mask) {
+        mctx->get_attn()->set_input_kq_mask(self_kq_mask, ubatch, cparams.causal_attn);
+    }
+    const int64_t n_rs = mctx->get_recr()->get_n_rs();
+    if (s_copy) {
+        GGML_ASSERT(ggml_backend_buffer_is_host(s_copy->buffer));
+        int32_t * data = (int32_t *) s_copy->data;
+        // assuming copy destinations ALWAYS happen ONLY on the cells between head and head+n
+        for (uint32_t i = 0; i < n_rs; ++i) {
+            data[i] = mctx->get_recr()->s_copy(i);
+        }
+    }
+}
+void llm_graph_input_one::set_input(const llama_ubatch *) {
+    GGML_ASSERT(one && ggml_nelements(one) == 1);
+    float f_one = 1.0f;
+    ggml_backend_tensor_set(one, &f_one, 0, sizeof(float));
+}
 //
 // llm_graph_context
 //
@@ -448,16 +395,12 @@ llm_graph_context::llm_graph_context(const llm_graph_params & params) :
     backend_cpu      (params.backend_cpu),
     cvec             (params.cvec),
     loras            (params.loras),
-    memory           (params.memory),
+    mctx             (params.mctx),
     cross            (params.cross),
     cb_func          (params.cb),
     res              (std::make_unique<llm_graph_result>()) {
     }
-int64_t llm_graph_context::n_pos_per_embd() const {
-    return arch == LLM_ARCH_QWEN2VL ? 4 : 1;
-}
 void llm_graph_context::cb(ggml_tensor * cur, const char * name, int il) const {
     if (cb_func) {
         cb_func(ubatch, cur, name, il);
@@ -617,12 +560,20 @@ ggml_tensor * llm_graph_context::build_ffn(
     switch (type_op) {
         case LLM_FFN_SILU:
-            {
+            if (gate && type_gate == LLM_FFN_PAR) {
+                cur = ggml_swiglu_split(ctx0, cur, tmp);
+                cb(cur, "ffn_swiglu", il);
+                type_gate = LLM_FFN_SEQ;
+            } else {
                 cur = ggml_silu(ctx0, cur);
                 cb(cur, "ffn_silu", il);
             } break;
         case LLM_FFN_GELU:
-            {
+            if (gate && type_gate == LLM_FFN_PAR) {
+                cur = ggml_geglu_split(ctx0, cur, tmp);
+                cb(cur, "ffn_geglu", il);
+                type_gate = LLM_FFN_SEQ;
+            } else {
                 cur = ggml_gelu(ctx0, cur);
                 cb(cur, "ffn_gelu", il);
                 if (act_scales != NULL) {
@@ -631,7 +582,11 @@ ggml_tensor * llm_graph_context::build_ffn(
                 }
             } break;
         case LLM_FFN_RELU:
-            {
+            if (gate && type_gate == LLM_FFN_PAR) {
+                cur = ggml_reglu_split(ctx0, cur, tmp);
+                cb(cur, "ffn_reglu", il);
+                type_gate = LLM_FFN_SEQ;
+            } else {
                 cur = ggml_relu(ctx0, cur);
                 cb(cur, "ffn_relu", il);
             } break;
@@ -645,16 +600,18 @@ ggml_tensor * llm_graph_context::build_ffn(
             } break;
         case LLM_FFN_SWIGLU:
             {
-                // Project to 4h. If using swiglu double the output width, see https://arxiv.org/pdf/2002.05202.pdf
-                int64_t split_point = cur->ne[0] / 2;
-                ggml_tensor * x0 = ggml_cont(ctx0, ggml_view_2d(ctx0, cur, split_point, cur->ne[1], cur->nb[1], 0));
-                ggml_tensor * x1 = ggml_cont(ctx0, ggml_view_2d(ctx0, cur, split_point, cur->ne[1], cur->nb[1], split_point * ggml_element_size(cur)));
-                x0 = ggml_silu(ctx0, x0);
-                cb(cur, "ffn_silu", il);
-                cur = ggml_mul(ctx0, x0, x1);
-                cb(cur, "ffn_mul", il);
+                cur = ggml_swiglu(ctx0, cur);
+                cb(cur, "ffn_swiglu", il);
+            } break;
+        case LLM_FFN_GEGLU:
+            {
+                cur = ggml_geglu(ctx0, cur);
+                cb(cur, "ffn_geglu", il);
+            } break;
+        case LLM_FFN_REGLU:
+            {
+                cur = ggml_reglu(ctx0, cur);
+                cb(cur, "ffn_reglu", il);
             } break;
     }
@@ -766,9 +723,8 @@ ggml_tensor * llm_graph_context::build_moe_ffn(
     cur = ggml_reshape_3d(ctx0, cur, n_embd, 1, n_tokens);
     if (weight_before_ffn) {
-        // TODO: this is a workaround as we don't yet have a repeat op that takes custom dim (ggml_repeat_4d)
-        ggml_tensor * repeated = ggml_new_tensor_3d(ctx0, cur->type, n_embd, n_expert_used, n_tokens);
-        repeated = ggml_repeat(ctx0, cur, repeated); // [n_embd, n_expert_used, n_tokens]
+        // repeat cur to [n_embd, n_expert_used, n_tokens]
+        ggml_tensor * repeated = ggml_repeat_4d(ctx0, cur, n_embd, n_expert_used, n_tokens, 1);
         cur = ggml_mul(ctx0, repeated, weights);
         cb(cur, "ffn_moe_weighted", il);
     }
@@ -786,12 +742,18 @@ ggml_tensor * llm_graph_context::build_moe_ffn(
     switch (type_op) {
         case LLM_FFN_SILU:
-            {
+            if (gate_exps) {
+                cur = ggml_swiglu_split(ctx0, cur, up);
+                cb(cur, "ffn_moe_swiglu", il);
+            } else {
                 cur = ggml_silu(ctx0, cur);
                 cb(cur, "ffn_moe_silu", il);
             } break;
         case LLM_FFN_GELU:
-            {
+            if (gate_exps) {
+                cur = ggml_geglu_split(ctx0, cur, up);
+                cb(cur, "ffn_moe_geglu", il);
+            } else {
                 cur = ggml_gelu(ctx0, cur);
                 cb(cur, "ffn_moe_gelu", il);
             } break;
@@ -799,11 +761,6 @@ ggml_tensor * llm_graph_context::build_moe_ffn(
             GGML_ABORT("fatal error");
     }
-    if (gate_exps) {
-        cur = ggml_mul(ctx0, cur, up); // [n_ff, n_expert_used, n_tokens]
-        cb(cur, "ffn_moe_gate_par", il);
-    }
     experts = build_lora_mm_id(down_exps, cur, selected_experts); // [n_embd, n_expert_used, n_tokens]
     cb(experts, "ffn_moe_down", il);
@@ -888,11 +845,11 @@ ggml_tensor * llm_graph_context::build_inp_embd(ggml_tensor * tok_embd) const {
 }
 ggml_tensor * llm_graph_context::build_inp_pos() const {
-    auto inp = std::make_unique<llm_graph_input_pos>(n_pos_per_embd());
+    auto inp = std::make_unique<llm_graph_input_pos>(hparams.n_pos_per_embd());
     auto & cur = inp->pos;
-    cur = ggml_new_tensor_1d(ctx0, GGML_TYPE_I32, n_tokens*n_pos_per_embd());
+    cur = ggml_new_tensor_1d(ctx0, GGML_TYPE_I32, (int64_t)n_tokens*hparams.n_pos_per_embd());
     ggml_set_input(cur);
     res->add_input(std::move(inp));
@@ -915,6 +872,14 @@ ggml_tensor * llm_graph_context::build_inp_attn_scale() const {
 }
 ggml_tensor * llm_graph_context::build_inp_out_ids() const {
+    // note: when all tokens are output, we could skip this optimization to spare the ggml_get_rows() calls,
+    //       but this would make the graph topology depend on the number of output tokens, which can interere with
+    //       features that require constant topology such as pipline parallelism
+    //       ref: https://github.com/ggml-org/llama.cpp/pull/14275#issuecomment-2987424471
+    //if (n_outputs < n_tokens) {
+    //    return nullptr;
+    //}
     auto inp = std::make_unique<llm_graph_input_out_ids>(hparams, cparams, n_outputs);
     auto & cur = inp->out_ids;
@@ -932,7 +897,7 @@ ggml_tensor * llm_graph_context::build_inp_mean() const {
     auto & cur = inp->mean;
-    cur = ggml_new_tensor_2d(ctx0, GGML_TYPE_F32, n_tokens, n_tokens);
+    cur = ggml_new_tensor_2d(ctx0, GGML_TYPE_F32, n_tokens, ubatch.n_seqs_unq);
     ggml_set_input(cur);
     res->add_input(std::move(inp));
@@ -945,41 +910,7 @@ ggml_tensor * llm_graph_context::build_inp_cls() const {
     auto & cur = inp->cls;
-    cur = ggml_new_tensor_1d(ctx0, GGML_TYPE_I32, n_tokens);
-    ggml_set_input(cur);
-    res->add_input(std::move(inp));
-    return cur;
-}
-ggml_tensor * llm_graph_context::build_inp_s_copy() const {
-    const llama_kv_cache_recurrent * kv_self = static_cast<const llama_kv_cache_recurrent *>(memory);
-    auto inp = std::make_unique<llm_graph_input_s_copy>(kv_self);
-    const auto n_kv = kv_self->n;
-    auto & cur = inp->s_copy;
-    cur = ggml_new_tensor_1d(ctx0, GGML_TYPE_I32, n_kv);
-    ggml_set_input(cur);
-    res->add_input(std::move(inp));
-    return cur;
-}
-ggml_tensor * llm_graph_context::build_inp_s_mask() const {
-    const llama_kv_cache_recurrent * kv_self = static_cast<const llama_kv_cache_recurrent *>(memory);
-    auto inp = std::make_unique<llm_graph_input_s_mask>(kv_self);
-    const auto n_kv = kv_self->n;
-    auto & cur = inp->s_mask;
-    cur = ggml_new_tensor_2d(ctx0, GGML_TYPE_F32, 1, n_kv);
+    cur = ggml_new_tensor_1d(ctx0, GGML_TYPE_I32, ubatch.n_seqs_unq);
     ggml_set_input(cur);
     res->add_input(std::move(inp));
@@ -1025,11 +956,11 @@ ggml_tensor * llm_graph_context::build_inp_pos_bucket_enc() const {
 }
 ggml_tensor * llm_graph_context::build_inp_pos_bucket_dec() const {
-    const llama_kv_cache_unified * kv_self = static_cast<const llama_kv_cache_unified *>(memory);
+    const auto * mctx_cur = static_cast<const llama_kv_cache_unified_context *>(mctx);
-    auto inp = std::make_unique<llm_graph_input_pos_bucket_kv>(hparams, kv_self);
+    auto inp = std::make_unique<llm_graph_input_pos_bucket_kv>(hparams, mctx_cur);
-    const auto n_kv = kv_self->get_n();
+    const auto n_kv = mctx_cur->get_n_kv();
     auto & cur = inp->pos_bucket;
@@ -1056,6 +987,33 @@ ggml_tensor * llm_graph_context::build_pos_bias(ggml_tensor * pos_bucket, ggml_t
     return pos_bias;
 }
+llm_graph_input_mem_hybrid * llm_graph_context::build_inp_mem_hybrid() const {
+    const auto * mctx_cur = static_cast<const llama_memory_hybrid_context *>(mctx);
+    auto inp = std::make_unique<llm_graph_input_mem_hybrid>(hparams, cparams, mctx_cur);
+    {
+        GGML_ASSERT(hparams.swa_type == LLAMA_SWA_TYPE_NONE && "Hybrid recurrent is not supported with SWA attention layers");
+        const auto n_kv = inp->mctx->get_attn()->get_n_kv();
+        inp->self_kq_mask = ggml_new_tensor_2d(ctx0, GGML_TYPE_F32, n_kv, GGML_PAD(n_tokens, GGML_KQ_MASK_PAD));
+        //cb(inp->self_kq_mask, "KQ_mask", -1);
+        ggml_set_input(inp->self_kq_mask);
+        inp->self_kq_mask_cnv = cparams.flash_attn ? ggml_cast(ctx0, inp->self_kq_mask, GGML_TYPE_F16) : inp->self_kq_mask;
+    }
+    {
+        const auto n_rs = mctx_cur->get_recr()->get_n_rs();
+        inp->s_copy = ggml_new_tensor_1d(ctx0, GGML_TYPE_I32, n_rs);
+        ggml_set_input(inp->s_copy);
+    }
+    return (llm_graph_input_mem_hybrid *) res->add_input(std::move(inp));
+}
 ggml_tensor * llm_graph_context::build_attn_mha(
          ggml_cgraph * gf,
          ggml_tensor * q,
@@ -1231,14 +1189,14 @@ ggml_tensor * llm_graph_context::build_attn(
 }
 llm_graph_input_attn_kv_unified * llm_graph_context::build_attn_inp_kv_unified() const {
-    const llama_kv_cache_unified * kv_self = static_cast<const llama_kv_cache_unified *>(memory);
+    const auto * mctx_cur = static_cast<const llama_kv_cache_unified_context *>(mctx);
-    auto inp = std::make_unique<llm_graph_input_attn_kv_unified>(hparams, cparams, kv_self);
+    auto inp = std::make_unique<llm_graph_input_attn_kv_unified>(hparams, cparams, mctx_cur);
     {
         GGML_ASSERT(hparams.swa_type == LLAMA_SWA_TYPE_NONE && "Use llama_kv_cache_unified_iswa for SWA");
-        const auto n_kv = kv_self->get_n();
+        const auto n_kv = mctx_cur->get_n_kv();
         inp->self_kq_mask = ggml_new_tensor_2d(ctx0, GGML_TYPE_F32, n_kv, GGML_PAD(n_tokens, GGML_KQ_MASK_PAD));
         //cb(inp->self_kq_mask, "KQ_mask", -1);
@@ -1268,19 +1226,19 @@ ggml_tensor * llm_graph_context::build_attn(
     ggml_build_forward_expand(gf, k_cur);
     ggml_build_forward_expand(gf, v_cur);
-    const llama_kv_cache_unified * kv_self = static_cast<const llama_kv_cache_unified *>(memory);
+    const auto * mctx_cur = static_cast<const llama_kv_cache_unified_context *>(mctx);
     // store to KV cache
     {
-        ggml_build_forward_expand(gf, kv_self->cpy_k(ctx0, k_cur, il));
-        ggml_build_forward_expand(gf, kv_self->cpy_v(ctx0, v_cur, il));
+        ggml_build_forward_expand(gf, mctx_cur->cpy_k(ctx0, k_cur, il));
+        ggml_build_forward_expand(gf, mctx_cur->cpy_v(ctx0, v_cur, il));
     }
     const auto & kq_mask = inp->get_kq_mask();
     ggml_tensor * q = q_cur;
-    ggml_tensor * k = kv_self->get_k(ctx0, il);
-    ggml_tensor * v = kv_self->get_v(ctx0, il);
+    ggml_tensor * k = mctx_cur->get_k(ctx0, il);
+    ggml_tensor * v = mctx_cur->get_v(ctx0, il);
     ggml_tensor * cur = build_attn_mha(gf, q, k, v, kq_b, kq_mask, v_mla, kq_scale);
     cb(cur, "kqv_out", il);
@@ -1300,36 +1258,6 @@ ggml_tensor * llm_graph_context::build_attn(
     return cur;
 }
-llm_graph_input_attn_kv_unified_iswa * llm_graph_context::build_attn_inp_kv_unified_iswa() const {
-    const llama_kv_cache_unified_iswa * kv_self = static_cast<const llama_kv_cache_unified_iswa *>(memory);
-    auto inp = std::make_unique<llm_graph_input_attn_kv_unified_iswa>(hparams, cparams, kv_self);
-    {
-        const auto n_kv = kv_self->get_kv_base()->get_n();
-        inp->self_kq_mask = ggml_new_tensor_2d(ctx0, GGML_TYPE_F32, n_kv, GGML_PAD(n_tokens, GGML_KQ_MASK_PAD));
-        //cb(inp->self_kq_mask, "KQ_mask", -1);
-        ggml_set_input(inp->self_kq_mask);
-        inp->self_kq_mask_cnv = cparams.flash_attn ? ggml_cast(ctx0, inp->self_kq_mask, GGML_TYPE_F16) : inp->self_kq_mask;
-    }
-    {
-        GGML_ASSERT(hparams.swa_type != LLAMA_SWA_TYPE_NONE && "Use llama_kv_cache_unified for non-SWA");
-        const auto n_kv = kv_self->get_kv_swa()->get_n();
-        inp->self_kq_mask_swa = ggml_new_tensor_2d(ctx0, GGML_TYPE_F32, n_kv, GGML_PAD(n_tokens, GGML_KQ_MASK_PAD));
-        //cb(inp->self_kq_mask_swa, "KQ_mask_swa", -1);
-        ggml_set_input(inp->self_kq_mask_swa);
-        inp->self_kq_mask_swa_cnv = cparams.flash_attn ? ggml_cast(ctx0, inp->self_kq_mask_swa, GGML_TYPE_F16) : inp->self_kq_mask_swa;
-    }
-    return (llm_graph_input_attn_kv_unified_iswa *) res->add_input(std::move(inp));
-}
 ggml_tensor * llm_graph_context::build_attn(
         llm_graph_input_attn_kv_unified_iswa * inp,
         ggml_cgraph * gf,
@@ -1345,26 +1273,35 @@ ggml_tensor * llm_graph_context::build_attn(
     // these nodes are added to the graph together so that they are not reordered
     // by doing so, the number of splits in the graph is reduced
     ggml_build_forward_expand(gf, q_cur);
-    ggml_build_forward_expand(gf, k_cur);
-    ggml_build_forward_expand(gf, v_cur);
+    if (k_cur) {
+        ggml_build_forward_expand(gf, k_cur);
+    }
+    if (v_cur) {
+        ggml_build_forward_expand(gf, v_cur);
+    }
+    const auto * mctx_iswa = static_cast<const llama_kv_cache_unified_iswa_context *>(mctx);
     const bool is_swa = hparams.is_swa(il);
-    const llama_kv_cache_unified_iswa * kv_self = static_cast<const llama_kv_cache_unified_iswa *>(memory);
+    const auto * mctx_cur = is_swa ? mctx_iswa->get_swa() : mctx_iswa->get_base();
-    const auto * kv = is_swa ? kv_self->get_kv_swa() : kv_self->get_kv_base();
+    // optionally store to KV cache
+    if (k_cur) {
+        ggml_build_forward_expand(gf, mctx_cur->cpy_k(ctx0, k_cur, il));
+    }
-    // store to KV cache
-    {
-        ggml_build_forward_expand(gf, kv->cpy_k(ctx0, k_cur, il));
-        ggml_build_forward_expand(gf, kv->cpy_v(ctx0, v_cur, il));
+    if (v_cur) {
+        ggml_build_forward_expand(gf, mctx_cur->cpy_v(ctx0, v_cur, il));
     }
     const auto & kq_mask = is_swa ? inp->get_kq_mask_swa() : inp->get_kq_mask();
     ggml_tensor * q = q_cur;
-    ggml_tensor * k = kv->get_k(ctx0, il);
-    ggml_tensor * v = kv->get_v(ctx0, il);
+    ggml_tensor * k = mctx_cur->get_k(ctx0, il);
+    ggml_tensor * v = mctx_cur->get_v(ctx0, il);
     ggml_tensor * cur = build_attn_mha(gf, q, k, v, kq_b, kq_mask, v_mla, kq_scale);
     cb(cur, "kqv_out", il);
@@ -1439,56 +1376,182 @@ ggml_tensor * llm_graph_context::build_attn(
     return cur;
 }
-ggml_tensor * llm_graph_context::build_copy_mask_state(
-         ggml_cgraph * gf,
-         ggml_tensor * s,
-         ggml_tensor * state_copy,
-         ggml_tensor * state_mask,
-             int32_t   n_state,
-             int32_t   n_seqs) const {
-    const llama_kv_cache_recurrent * kv_self = static_cast<const llama_kv_cache_recurrent *>(memory);
+ggml_tensor * llm_graph_context::build_attn(
+        llm_graph_input_mem_hybrid * inp,
+        ggml_cgraph * gf,
+        ggml_tensor * wo,
+        ggml_tensor * wo_b,
+        ggml_tensor * q_cur,
+        ggml_tensor * k_cur,
+        ggml_tensor * v_cur,
+        ggml_tensor * kq_b,
+        ggml_tensor * v_mla,
+            float     kq_scale,
+            int       il) const {
+    // these nodes are added to the graph together so that they are not reordered
+    // by doing so, the number of splits in the graph is reduced
+    ggml_build_forward_expand(gf, q_cur);
+    ggml_build_forward_expand(gf, k_cur);
+    ggml_build_forward_expand(gf, v_cur);
+    const auto * mctx_cur = static_cast<const llama_memory_hybrid_context *>(mctx)->get_attn();
+    // store to KV cache
+    {
+        ggml_build_forward_expand(gf, mctx_cur->cpy_k(ctx0, k_cur, il));
+        ggml_build_forward_expand(gf, mctx_cur->cpy_v(ctx0, v_cur, il));
+    }
+    const auto & kq_mask = inp->get_kq_mask();
-    const auto n_kv    = kv_self->n;
-    const auto kv_head = kv_self->head;
+    ggml_tensor * q = q_cur;
+    ggml_tensor * k = mctx_cur->get_k(ctx0, il);
+    ggml_tensor * v = mctx_cur->get_v(ctx0, il);
+    ggml_tensor * cur = build_attn_mha(gf, q, k, v, kq_b, kq_mask, v_mla, kq_scale);
+    cb(cur, "kqv_out", il);
+    if (wo) {
+        cur = build_lora_mm(wo, cur);
+        if (arch == LLM_ARCH_GLM4) {
+            // GLM4 seems to have numerical issues with half-precision accumulators
+            ggml_mul_mat_set_prec(cur, GGML_PREC_F32);
+        }
+    }
-    ggml_tensor * states = ggml_reshape_2d(ctx0, s, n_state, kv_self->size);
+    if (wo_b) {
+        cur = ggml_add(ctx0, cur, wo_b);
+    }
-    // copy states
-    // NOTE: assuming the copy destinations are ALL contained between kv_head and kv_head + n_kv
-    // this shrinks the tensors's ne[1] to n_kv
-    states = ggml_get_rows(ctx0, states, state_copy);
+    return cur;
+}
-    // clear states of sequences which are starting at the beginning of this batch
-    // FIXME: zero-out NANs?
-    states = ggml_mul(ctx0, states, state_mask);
+llm_graph_input_attn_kv_unified_iswa * llm_graph_context::build_attn_inp_kv_unified_iswa() const {
+    const auto * mctx_cur = static_cast<const llama_kv_cache_unified_iswa_context *>(mctx);
-    // copy states which won't be changed further (between n_seqs and n_kv)
+    auto inp = std::make_unique<llm_graph_input_attn_kv_unified_iswa>(hparams, cparams, mctx_cur);
+    {
+        const auto n_kv = mctx_cur->get_base()->get_n_kv();
+        inp->self_kq_mask = ggml_new_tensor_2d(ctx0, GGML_TYPE_F32, n_kv, GGML_PAD(n_tokens, GGML_KQ_MASK_PAD));
+        //cb(inp->self_kq_mask, "KQ_mask", -1);
+        ggml_set_input(inp->self_kq_mask);
+        inp->self_kq_mask_cnv = cparams.flash_attn ? ggml_cast(ctx0, inp->self_kq_mask, GGML_TYPE_F16) : inp->self_kq_mask;
+    }
+    {
+        GGML_ASSERT(hparams.swa_type != LLAMA_SWA_TYPE_NONE && "Use llama_kv_cache_unified for non-SWA");
+        const auto n_kv = mctx_cur->get_swa()->get_n_kv();
+        inp->self_kq_mask_swa = ggml_new_tensor_2d(ctx0, GGML_TYPE_F32, n_kv, GGML_PAD(n_tokens, GGML_KQ_MASK_PAD));
+        //cb(inp->self_kq_mask_swa, "KQ_mask_swa", -1);
+        ggml_set_input(inp->self_kq_mask_swa);
+        inp->self_kq_mask_swa_cnv = cparams.flash_attn ? ggml_cast(ctx0, inp->self_kq_mask_swa, GGML_TYPE_F16) : inp->self_kq_mask_swa;
+    }
+    return (llm_graph_input_attn_kv_unified_iswa *) res->add_input(std::move(inp));
+}
+ggml_tensor * llm_graph_context::build_rs(
+        ggml_cgraph * gf,
+        ggml_tensor * s,
+        ggml_tensor * state_copy,
+            int32_t   state_size,
+            int32_t   n_seqs,
+           uint32_t   n_kv,
+           uint32_t   kv_head,
+           uint32_t   kv_size,
+            int32_t   rs_zero,
+               bool   avoid_copies) const {
+    ggml_tensor * states = ggml_reshape_2d(ctx0, s, state_size, kv_size);
+    // Clear a single state which will then be copied to the other cleared states.
+    // Note that this is a no-op when the view is zero-sized.
+    ggml_tensor * state_zero = ggml_view_1d(ctx0, states, state_size*(rs_zero >= 0), rs_zero*states->nb[1]*(rs_zero >= 0));
+    ggml_build_forward_expand(gf, ggml_scale_inplace(ctx0, state_zero, 0));
+    ggml_tensor * output_states;
+    if (!avoid_copies) {
+        // copy states
+        // NOTE: assuming the copy destinations are ALL contained between kv_head and kv_head + n_kv
+        // {state_size, kv_size} -> {state_size, n_seqs}
+        output_states = ggml_get_rows(ctx0, states, ggml_view_1d(ctx0, state_copy, n_seqs, 0));
+        ggml_build_forward_expand(gf, output_states);
+    } else {
+        // FIXME: make the gathering operation happen before the copy below
+        //        (maybe with an optional lambda function passed as a parameter instead of `avoid_copies`?)
+        output_states = states;
+    }
+    // copy extra states which won't be changed further (between n_seqs and n_kv)
+    ggml_tensor * states_extra = ggml_get_rows(ctx0, states, ggml_view_1d(ctx0, state_copy, n_kv - n_seqs, n_seqs*state_copy->nb[0]));
     ggml_build_forward_expand(gf,
         ggml_cpy(ctx0,
-            ggml_view_1d(ctx0, states, n_state*(n_kv - n_seqs), (n_seqs          )*n_state*ggml_element_size(states)),
-            ggml_view_1d(ctx0, s,      n_state*(n_kv - n_seqs), (kv_head + n_seqs)*n_state*ggml_element_size(s))));
+            states_extra,
+            ggml_view_1d(ctx0, s, state_size*(n_kv - n_seqs), (kv_head + n_seqs)*state_size*ggml_element_size(s))));
+    return output_states;
+}
+llm_graph_input_rs * llm_graph_context::build_rs_inp() const {
+    const auto * mctx_cur = static_cast<const llama_memory_recurrent_context *>(mctx);
+    auto inp = std::make_unique<llm_graph_input_rs>(mctx_cur);
+    const auto n_rs = mctx_cur->get_n_rs();
+    inp->s_copy = ggml_new_tensor_1d(ctx0, GGML_TYPE_I32, n_rs);
+    ggml_set_input(inp->s_copy);
-    // the part of the states that will be used and modified
-    return ggml_view_2d(ctx0, states, n_state, n_seqs, states->nb[1], 0);
+    return (llm_graph_input_rs *) res->add_input(std::move(inp));
+}
+ggml_tensor * llm_graph_context::build_rs(
+        llm_graph_input_rs * inp,
+        ggml_cgraph * gf,
+        ggml_tensor * s,
+            int32_t   state_size,
+            int32_t   n_seqs,
+               bool   avoid_copies) const {
+    const auto * mctx_cur = static_cast<const llama_memory_recurrent_context *>(mctx);
+    return build_rs(gf, s, inp->s_copy, state_size, n_seqs, mctx_cur->get_n_rs(), mctx_cur->get_head(), mctx_cur->get_size(), mctx_cur->get_rs_z(), avoid_copies);
+}
+ggml_tensor * llm_graph_context::build_rs(
+        llm_graph_input_mem_hybrid * inp,
+        ggml_cgraph * gf,
+        ggml_tensor * s,
+            int32_t   state_size,
+            int32_t   n_seqs,
+               bool   avoid_copies) const {
+    const auto * mctx_cur = static_cast<const llama_memory_hybrid_context *>(mctx)->get_recr();
+    return build_rs(gf, s, inp->s_copy, state_size, n_seqs, mctx_cur->get_n_rs(), mctx_cur->get_head(), mctx_cur->get_size(), mctx_cur->get_rs_z(), avoid_copies);
 }
 ggml_tensor * llm_graph_context::build_rwkv_token_shift_load(
-         ggml_cgraph * gf,
-         ggml_tensor * state_copy,
-         ggml_tensor * state_mask,
-  const llama_ubatch & ubatch,
+    llm_graph_input_rs * inp,
+           ggml_cgraph * gf,
+    const llama_ubatch & ubatch,
                  int   il) const {
-    const llama_kv_cache_recurrent * kv_self = static_cast<const llama_kv_cache_recurrent *>(memory);
+    const auto * mctx_cur = static_cast<const llama_memory_recurrent_context *>(mctx);
     const auto token_shift_count = hparams.token_shift_count;
     const int64_t n_seqs  = ubatch.n_seqs;
-    ggml_tensor * token_shift_all = kv_self->k_l[il];
+    ggml_tensor * token_shift_all = mctx_cur->get_r_l(il);
-    ggml_tensor * token_shift = build_copy_mask_state(
-            gf, token_shift_all, state_copy, state_mask,
-            hparams.n_embd_k_s(), n_seqs);
+    ggml_tensor * token_shift = build_rs(
+            inp, gf, token_shift_all,
+            hparams.n_embd_r(), n_seqs);
     token_shift = ggml_reshape_3d(ctx0, token_shift, hparams.n_embd, token_shift_count, n_seqs);
@@ -1499,19 +1562,19 @@ ggml_tensor * llm_graph_context::build_rwkv_token_shift_store(
          ggml_tensor * token_shift,
   const llama_ubatch & ubatch,
                  int   il) const {
-    const llama_kv_cache_recurrent * kv_self = static_cast<const llama_kv_cache_recurrent *>(memory);
+    const auto * mctx_cur = static_cast<const llama_memory_recurrent_context *>(mctx);
     const auto token_shift_count = hparams.token_shift_count;
     const auto n_embd = hparams.n_embd;
     const int64_t n_seqs = ubatch.n_seqs;
-    const auto kv_head = kv_self->head;
+    const auto kv_head = mctx_cur->get_head();
     return ggml_cpy(
         ctx0,
         ggml_view_1d(ctx0, token_shift, n_embd * n_seqs * token_shift_count, 0),
-        ggml_view_1d(ctx0, kv_self->k_l[il], hparams.n_embd_k_s() * n_seqs, hparams.n_embd_k_s() * kv_head * ggml_element_size(kv_self->k_l[il]))
+        ggml_view_1d(ctx0, mctx_cur->get_r_l(il), hparams.n_embd_r()*n_seqs, hparams.n_embd_r()*kv_head*ggml_element_size(mctx_cur->get_r_l(il)))
     );
 }
@@ -1562,20 +1625,32 @@ void llm_graph_context::build_pooling(
                 ggml_tensor * inp_cls = build_inp_cls();
                 inp = ggml_get_rows(ctx0, inp, inp_cls);
-                // classification head
-                // https://github.com/huggingface/transformers/blob/5af7d41e49bbfc8319f462eb45253dcb3863dfb7/src/transformers/models/roberta/modeling_roberta.py#L1566
-                GGML_ASSERT(cls   != nullptr);
-                GGML_ASSERT(cls_b != nullptr);
-                cur = ggml_add (ctx0, ggml_mul_mat(ctx0, cls, inp), cls_b);
-                cur = ggml_tanh(ctx0, cur);
-                // some models don't have `cls_out`, for example: https://huggingface.co/jinaai/jina-reranker-v1-tiny-en
-                // https://huggingface.co/jinaai/jina-reranker-v1-tiny-en/blob/cb5347e43979c3084a890e3f99491952603ae1b7/modeling_bert.py#L884-L896
-                if (cls_out) {
-                    GGML_ASSERT(cls_out_b != nullptr);
-                    cur = ggml_add (ctx0, ggml_mul_mat(ctx0, cls_out, cur), cls_out_b);
+                if (cls) {
+                    // classification head
+                    // https://github.com/huggingface/transformers/blob/5af7d41e49bbfc8319f462eb45253dcb3863dfb7/src/transformers/models/roberta/modeling_roberta.py#L1566
+                    cur = ggml_mul_mat(ctx0, cls, inp);
+                    if (cls_b) {
+                        cur = ggml_add(ctx0, cur, cls_b);
+                    }
+                    cur = ggml_tanh(ctx0, cur);
+                    // some models don't have `cls_out`, for example: https://huggingface.co/jinaai/jina-reranker-v1-tiny-en
+                    // https://huggingface.co/jinaai/jina-reranker-v1-tiny-en/blob/cb5347e43979c3084a890e3f99491952603ae1b7/modeling_bert.py#L884-L896
+                    if (cls_out) {
+                        cur = ggml_mul_mat(ctx0, cls_out, cur);
+                        if (cls_out_b) {
+                            cur = ggml_add(ctx0, cur, cls_out_b);
+                        }
+                    }
+                } else if (cls_out) {
+                    // Single layer classification head (direct projection)
+                    // https://github.com/huggingface/transformers/blob/f4fc42216cd56ab6b68270bf80d811614d8d59e4/src/transformers/models/bert/modeling_bert.py#L1476
+                    cur = ggml_mul_mat(ctx0, cls_out, inp);
+                    if (cls_out_b) {
+                        cur = ggml_add(ctx0, cur, cls_out_b);
+                    }
+                } else {
+                    GGML_ABORT("RANK pooling requires either cls+cls_b or cls_out+cls_out_b");
                 }
             } break;
         default: