npm - numkong - Versions diffs - 7.0.0 → 7.4.1 - Mend

numkong 7.0.0 → 7.4.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (315) hide show

package/README.md +239 -122
package/binding.gyp +25 -491
package/c/dispatch_bf16.c +59 -1
package/c/dispatch_e2m3.c +41 -8
package/c/dispatch_e3m2.c +49 -8
package/c/dispatch_e4m3.c +51 -9
package/c/dispatch_e5m2.c +45 -1
package/c/dispatch_f16.c +79 -26
package/c/dispatch_f16c.c +5 -5
package/c/dispatch_f32.c +56 -0
package/c/dispatch_f64.c +52 -0
package/c/dispatch_i4.c +3 -0
package/c/dispatch_i8.c +62 -3
package/c/dispatch_other.c +18 -0
package/c/dispatch_u1.c +54 -9
package/c/dispatch_u4.c +3 -0
package/c/dispatch_u8.c +64 -3
package/c/numkong.c +3 -0
package/include/README.md +79 -9
package/include/numkong/attention/sapphireamx.h +278 -276
package/include/numkong/attention/sme.h +983 -977
package/include/numkong/attention.h +1 -1
package/include/numkong/capabilities.h +289 -94
package/include/numkong/cast/README.md +40 -40
package/include/numkong/cast/diamond.h +64 -0
package/include/numkong/cast/haswell.h +42 -194
package/include/numkong/cast/icelake.h +42 -37
package/include/numkong/cast/loongsonasx.h +252 -0
package/include/numkong/cast/neon.h +216 -249
package/include/numkong/cast/powervsx.h +449 -0
package/include/numkong/cast/rvv.h +223 -274
package/include/numkong/cast/sapphire.h +18 -18
package/include/numkong/cast/serial.h +1018 -944
package/include/numkong/cast/skylake.h +82 -23
package/include/numkong/cast/v128relaxed.h +462 -105
package/include/numkong/cast.h +24 -0
package/include/numkong/cast.hpp +44 -0
package/include/numkong/curved/README.md +17 -17
package/include/numkong/curved/neon.h +131 -7
package/include/numkong/curved/neonbfdot.h +6 -7
package/include/numkong/curved/rvv.h +26 -26
package/include/numkong/curved/smef64.h +186 -182
package/include/numkong/curved.h +14 -18
package/include/numkong/dot/README.md +154 -137
package/include/numkong/dot/alder.h +43 -43
package/include/numkong/dot/diamond.h +158 -0
package/include/numkong/dot/genoa.h +4 -30
package/include/numkong/dot/haswell.h +215 -180
package/include/numkong/dot/icelake.h +190 -76
package/include/numkong/dot/loongsonasx.h +671 -0
package/include/numkong/dot/neon.h +124 -73
package/include/numkong/dot/neonbfdot.h +11 -12
package/include/numkong/dot/neonfhm.h +44 -46
package/include/numkong/dot/neonfp8.h +323 -0
package/include/numkong/dot/neonsdot.h +190 -76
package/include/numkong/dot/powervsx.h +752 -0
package/include/numkong/dot/rvv.h +92 -84
package/include/numkong/dot/rvvbf16.h +12 -12
package/include/numkong/dot/rvvhalf.h +12 -12
package/include/numkong/dot/sapphire.h +4 -4
package/include/numkong/dot/serial.h +66 -30
package/include/numkong/dot/sierra.h +31 -31
package/include/numkong/dot/skylake.h +142 -110
package/include/numkong/dot/sve.h +217 -177
package/include/numkong/dot/svebfdot.h +10 -10
package/include/numkong/dot/svehalf.h +85 -41
package/include/numkong/dot/svesdot.h +89 -0
package/include/numkong/dot/v128relaxed.h +124 -89
package/include/numkong/dot.h +114 -48
package/include/numkong/dots/README.md +203 -203
package/include/numkong/dots/alder.h +12 -9
package/include/numkong/dots/diamond.h +86 -0
package/include/numkong/dots/genoa.h +10 -4
package/include/numkong/dots/haswell.h +63 -48
package/include/numkong/dots/icelake.h +27 -18
package/include/numkong/dots/loongsonasx.h +176 -0
package/include/numkong/dots/neon.h +14 -11
package/include/numkong/dots/neonbfdot.h +4 -3
package/include/numkong/dots/neonfhm.h +11 -9
package/include/numkong/dots/neonfp8.h +99 -0
package/include/numkong/dots/neonsdot.h +48 -12
package/include/numkong/dots/powervsx.h +194 -0
package/include/numkong/dots/rvv.h +451 -344
package/include/numkong/dots/sapphireamx.h +1028 -984
package/include/numkong/dots/serial.h +213 -197
package/include/numkong/dots/sierra.h +10 -7
package/include/numkong/dots/skylake.h +47 -36
package/include/numkong/dots/sme.h +2001 -2364
package/include/numkong/dots/smebi32.h +175 -162
package/include/numkong/dots/smef64.h +328 -323
package/include/numkong/dots/v128relaxed.h +64 -41
package/include/numkong/dots.h +573 -293
package/include/numkong/dots.hpp +45 -43
package/include/numkong/each/README.md +133 -137
package/include/numkong/each/haswell.h +6 -6
package/include/numkong/each/icelake.h +7 -7
package/include/numkong/each/neon.h +76 -42
package/include/numkong/each/neonbfdot.h +11 -12
package/include/numkong/each/neonhalf.h +24 -116
package/include/numkong/each/rvv.h +28 -28
package/include/numkong/each/sapphire.h +27 -161
package/include/numkong/each/serial.h +6 -6
package/include/numkong/each/skylake.h +7 -7
package/include/numkong/each/v128relaxed.h +562 -0
package/include/numkong/each.h +148 -62
package/include/numkong/each.hpp +2 -2
package/include/numkong/geospatial/README.md +18 -18
package/include/numkong/geospatial/haswell.h +365 -325
package/include/numkong/geospatial/neon.h +350 -306
package/include/numkong/geospatial/rvv.h +4 -4
package/include/numkong/geospatial/skylake.h +376 -340
package/include/numkong/geospatial/v128relaxed.h +366 -327
package/include/numkong/geospatial.h +17 -17
package/include/numkong/matrix.hpp +4 -4
package/include/numkong/maxsim/README.md +14 -14
package/include/numkong/maxsim/alder.h +6 -6
package/include/numkong/maxsim/genoa.h +4 -4
package/include/numkong/maxsim/haswell.h +6 -6
package/include/numkong/maxsim/icelake.h +18 -18
package/include/numkong/maxsim/neonsdot.h +21 -21
package/include/numkong/maxsim/sapphireamx.h +14 -14
package/include/numkong/maxsim/serial.h +6 -6
package/include/numkong/maxsim/sme.h +221 -196
package/include/numkong/maxsim/v128relaxed.h +6 -6
package/include/numkong/mesh/README.md +62 -56
package/include/numkong/mesh/haswell.h +339 -464
package/include/numkong/mesh/neon.h +1100 -519
package/include/numkong/mesh/neonbfdot.h +36 -68
package/include/numkong/mesh/rvv.h +530 -435
package/include/numkong/mesh/serial.h +75 -91
package/include/numkong/mesh/skylake.h +1627 -302
package/include/numkong/mesh/v128relaxed.h +443 -330
package/include/numkong/mesh.h +63 -49
package/include/numkong/mesh.hpp +4 -4
package/include/numkong/numkong.h +3 -3
package/include/numkong/numkong.hpp +1 -0
package/include/numkong/probability/README.md +23 -19
package/include/numkong/probability/neon.h +82 -52
package/include/numkong/probability/rvv.h +28 -23
package/include/numkong/probability/serial.h +51 -39
package/include/numkong/probability.h +20 -23
package/include/numkong/random.h +1 -1
package/include/numkong/reduce/README.md +143 -138
package/include/numkong/reduce/alder.h +81 -77
package/include/numkong/reduce/haswell.h +222 -220
package/include/numkong/reduce/neon.h +629 -519
package/include/numkong/reduce/neonbfdot.h +7 -218
package/include/numkong/reduce/neonfhm.h +9 -381
package/include/numkong/reduce/neonsdot.h +9 -9
package/include/numkong/reduce/rvv.h +928 -802
package/include/numkong/reduce/serial.h +23 -27
package/include/numkong/reduce/sierra.h +20 -20
package/include/numkong/reduce/skylake.h +326 -324
package/include/numkong/reduce/v128relaxed.h +52 -52
package/include/numkong/reduce.h +4 -23
package/include/numkong/reduce.hpp +156 -11
package/include/numkong/scalar/README.md +6 -6
package/include/numkong/scalar/haswell.h +26 -17
package/include/numkong/scalar/loongsonasx.h +74 -0
package/include/numkong/scalar/neon.h +9 -9
package/include/numkong/scalar/powervsx.h +96 -0
package/include/numkong/scalar/rvv.h +2 -2
package/include/numkong/scalar/sapphire.h +21 -10
package/include/numkong/scalar/serial.h +21 -21
package/include/numkong/scalar.h +13 -0
package/include/numkong/set/README.md +28 -28
package/include/numkong/set/haswell.h +12 -12
package/include/numkong/set/icelake.h +14 -14
package/include/numkong/set/loongsonasx.h +181 -0
package/include/numkong/set/neon.h +17 -18
package/include/numkong/set/powervsx.h +326 -0
package/include/numkong/set/rvv.h +4 -4
package/include/numkong/set/serial.h +6 -6
package/include/numkong/set/sve.h +60 -59
package/include/numkong/set/v128relaxed.h +6 -6
package/include/numkong/set.h +21 -7
package/include/numkong/sets/README.md +26 -26
package/include/numkong/sets/loongsonasx.h +52 -0
package/include/numkong/sets/powervsx.h +65 -0
package/include/numkong/sets/smebi32.h +395 -364
package/include/numkong/sets.h +83 -40
package/include/numkong/sparse/README.md +4 -4
package/include/numkong/sparse/icelake.h +101 -101
package/include/numkong/sparse/serial.h +1 -1
package/include/numkong/sparse/sve2.h +137 -141
package/include/numkong/sparse/turin.h +12 -12
package/include/numkong/sparse.h +10 -10
package/include/numkong/spatial/README.md +230 -226
package/include/numkong/spatial/alder.h +113 -116
package/include/numkong/spatial/diamond.h +240 -0
package/include/numkong/spatial/genoa.h +0 -68
package/include/numkong/spatial/haswell.h +74 -55
package/include/numkong/spatial/icelake.h +539 -58
package/include/numkong/spatial/loongsonasx.h +483 -0
package/include/numkong/spatial/neon.h +125 -52
package/include/numkong/spatial/neonbfdot.h +8 -9
package/include/numkong/spatial/neonfp8.h +258 -0
package/include/numkong/spatial/neonsdot.h +180 -12
package/include/numkong/spatial/powervsx.h +738 -0
package/include/numkong/spatial/rvv.h +146 -139
package/include/numkong/spatial/rvvbf16.h +17 -12
package/include/numkong/spatial/rvvhalf.h +13 -10
package/include/numkong/spatial/serial.h +13 -12
package/include/numkong/spatial/sierra.h +232 -39
package/include/numkong/spatial/skylake.h +73 -74
package/include/numkong/spatial/sve.h +93 -72
package/include/numkong/spatial/svebfdot.h +29 -29
package/include/numkong/spatial/svehalf.h +52 -26
package/include/numkong/spatial/svesdot.h +142 -0
package/include/numkong/spatial/v128relaxed.h +293 -41
package/include/numkong/spatial.h +338 -82
package/include/numkong/spatials/README.md +194 -194
package/include/numkong/spatials/diamond.h +82 -0
package/include/numkong/spatials/haswell.h +2 -2
package/include/numkong/spatials/loongsonasx.h +153 -0
package/include/numkong/spatials/neonfp8.h +111 -0
package/include/numkong/spatials/neonsdot.h +34 -0
package/include/numkong/spatials/powervsx.h +153 -0
package/include/numkong/spatials/rvv.h +259 -243
package/include/numkong/spatials/sapphireamx.h +173 -173
package/include/numkong/spatials/serial.h +2 -2
package/include/numkong/spatials/skylake.h +2 -2
package/include/numkong/spatials/sme.h +590 -605
package/include/numkong/spatials/smef64.h +139 -130
package/include/numkong/spatials/v128relaxed.h +2 -2
package/include/numkong/spatials.h +820 -500
package/include/numkong/spatials.hpp +49 -48
package/include/numkong/tensor.hpp +406 -17
package/include/numkong/trigonometry/README.md +19 -19
package/include/numkong/trigonometry/haswell.h +402 -401
package/include/numkong/trigonometry/neon.h +386 -387
package/include/numkong/trigonometry/rvv.h +52 -51
package/include/numkong/trigonometry/serial.h +13 -13
package/include/numkong/trigonometry/skylake.h +373 -369
package/include/numkong/trigonometry/v128relaxed.h +375 -374
package/include/numkong/trigonometry.h +13 -13
package/include/numkong/trigonometry.hpp +2 -2
package/include/numkong/types.h +287 -49
package/include/numkong/types.hpp +436 -12
package/include/numkong/vector.hpp +82 -14
package/javascript/dist/cjs/numkong-wasm.js +6 -12
package/javascript/dist/cjs/numkong.d.ts +7 -1
package/javascript/dist/cjs/numkong.js +37 -11
package/javascript/dist/cjs/types.d.ts +9 -0
package/javascript/dist/cjs/types.js +96 -0
package/javascript/dist/esm/numkong-browser.d.ts +14 -0
package/javascript/dist/esm/numkong-browser.js +23 -0
package/javascript/dist/esm/numkong-wasm.js +6 -12
package/javascript/dist/esm/numkong.d.ts +7 -1
package/javascript/dist/esm/numkong.js +37 -11
package/javascript/dist/esm/types.d.ts +9 -0
package/javascript/dist/esm/types.js +96 -0
package/javascript/node-gyp-build.d.ts +4 -1
package/javascript/numkong-browser.ts +40 -0
package/javascript/numkong-wasm.ts +7 -13
package/javascript/numkong.c +5 -26
package/javascript/numkong.ts +36 -11
package/javascript/tsconfig-base.json +1 -0
package/javascript/tsconfig-cjs.json +6 -1
package/javascript/types.ts +110 -0
package/numkong.gypi +101 -0
package/package.json +34 -13
package/probes/arm_neon.c +8 -0
package/probes/arm_neon_bfdot.c +9 -0
package/probes/arm_neon_fhm.c +9 -0
package/probes/arm_neon_half.c +8 -0
package/probes/arm_neon_sdot.c +9 -0
package/probes/arm_neonfp8.c +9 -0
package/probes/arm_sme.c +16 -0
package/probes/arm_sme2.c +16 -0
package/probes/arm_sme2p1.c +16 -0
package/probes/arm_sme_bf16.c +16 -0
package/probes/arm_sme_bi32.c +16 -0
package/probes/arm_sme_f64.c +16 -0
package/probes/arm_sme_fa64.c +14 -0
package/probes/arm_sme_half.c +16 -0
package/probes/arm_sme_lut2.c +15 -0
package/probes/arm_sve.c +18 -0
package/probes/arm_sve2.c +20 -0
package/probes/arm_sve2p1.c +18 -0
package/probes/arm_sve_bfdot.c +20 -0
package/probes/arm_sve_half.c +18 -0
package/probes/arm_sve_sdot.c +21 -0
package/probes/loongarch_lasx.c +12 -0
package/probes/power_vsx.c +12 -0
package/probes/probe.js +127 -0
package/probes/riscv_rvv.c +14 -0
package/probes/riscv_rvv_bb.c +15 -0
package/probes/riscv_rvv_bf16.c +17 -0
package/probes/riscv_rvv_half.c +14 -0
package/probes/wasm_v128relaxed.c +11 -0
package/probes/x86_alder.c +17 -0
package/probes/x86_diamond.c +17 -0
package/probes/x86_genoa.c +17 -0
package/probes/x86_graniteamx.c +19 -0
package/probes/x86_haswell.c +11 -0
package/probes/x86_icelake.c +17 -0
package/probes/x86_sapphire.c +16 -0
package/probes/x86_sapphireamx.c +18 -0
package/probes/x86_sierra.c +17 -0
package/probes/x86_skylake.c +15 -0
package/probes/x86_turin.c +17 -0
package/wasm/numkong-emscripten.js +2 -0
package/wasm/numkong.d.ts +14 -0
package/wasm/numkong.js +1124 -0
package/wasm/numkong.wasm +0 -0
package/include/numkong/curved/neonhalf.h +0 -212
package/include/numkong/dot/neonhalf.h +0 -198
package/include/numkong/dots/neonhalf.h +0 -57
package/include/numkong/mesh/neonhalf.h +0 -616
package/include/numkong/reduce/neonhalf.h +0 -157
package/include/numkong/spatial/neonhalf.h +0 -118
package/include/numkong/spatial/sapphire.h +0 -343
package/include/numkong/spatials/neonhalf.h +0 -58
package/javascript/README.md +0 -246

package/include/numkong/maxsim/sme.h CHANGED Viewed

@@ -53,7 +53,7 @@ extern "C" {
 #endif
 #if defined(__clang__)
-#pragma clang attribute push(__attribute__((target("sme,sve"))), apply_to = function)
+#pragma clang attribute push(__attribute__((target("sme"))), apply_to = function)
 #elif defined(__GNUC__)
 #pragma GCC push_options
 #pragma GCC target("+sme")
@@ -112,8 +112,8 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_f16_streami
     nk_f32_t const *document_inverse_norms = (nk_f32_t const *)((char const *)document_packed +
                                                                 document_header->norms_offset);
-    svbool_t const predicate_all_f16x = svptrue_b16();
-    svbool_t const predicate_all_f32x = svptrue_b32();
+    svbool_t const predicate_all_b16x = svptrue_b16();
+    svbool_t const predicate_all_b32x = svptrue_b32();
     nk_f32_t total_angular_distance = 0.0f;
@@ -121,10 +121,10 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_f16_streami
         nk_size_t const row_start = row_tile_index * tile_dimension;
         nk_size_t const rows_remaining = (row_start + tile_dimension <= query_count) ? tile_dimension
                                                                                      : (query_count - row_start);
-        svbool_t const row_predicate_f16x = (rows_remaining == tile_dimension)
+        svbool_t const row_predicate_b16x = (rows_remaining == tile_dimension)
                                                 ? svptrue_b16()
                                                 : svwhilelt_b16_u64(0u, rows_remaining * 2);
-        svbool_t const row_predicate_f32x = (rows_remaining == tile_dimension) ? svptrue_b32()
+        svbool_t const row_predicate_b32x = (rows_remaining == tile_dimension) ? svptrue_b32()
                                                                                : svwhilelt_b32_u64(0u, rows_remaining);
         // Running max + argmax vectors for angular distance finalization
@@ -140,29 +140,29 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_f16_streami
             // Accumulate: for each depth step, load Q vector and 4 D vectors, issue 4 FMOPAs
             for (nk_size_t depth_step = 0; depth_step < depth_step_count; depth_step++) {
                 svfloat16_t query_packed_f16x = svld1_f16(
-                    row_predicate_f16x,
+                    row_predicate_b16x,
                     (float16_t const *)(query_vecs +
                                         (row_tile_index * depth_step_count + depth_step) * vector_elements));
                 svfloat16_t document_packed_0_f16x = svld1_f16(
-                    predicate_all_f16x,
+                    predicate_all_b16x,
                     (float16_t const *)(document_vecs +
                                         ((column_tile_index + 0) * depth_step_count + depth_step) * vector_elements));
                 svfloat16_t document_packed_1_f16x = svld1_f16(
-                    predicate_all_f16x,
+                    predicate_all_b16x,
                     (float16_t const *)(document_vecs +
                                         ((column_tile_index + 1) * depth_step_count + depth_step) * vector_elements));
                 svfloat16_t document_packed_2_f16x = svld1_f16(
-                    predicate_all_f16x,
+                    predicate_all_b16x,
                     (float16_t const *)(document_vecs +
                                         ((column_tile_index + 2) * depth_step_count + depth_step) * vector_elements));
                 svfloat16_t document_packed_3_f16x = svld1_f16(
-                    predicate_all_f16x,
+                    predicate_all_b16x,
                     (float16_t const *)(document_vecs +
                                         ((column_tile_index + 3) * depth_step_count + depth_step) * vector_elements));
-                svmopa_za32_f16_m(0, row_predicate_f16x, predicate_all_f16x, query_packed_f16x, document_packed_0_f16x);
-                svmopa_za32_f16_m(1, row_predicate_f16x, predicate_all_f16x, query_packed_f16x, document_packed_1_f16x);
-                svmopa_za32_f16_m(2, row_predicate_f16x, predicate_all_f16x, query_packed_f16x, document_packed_2_f16x);
-                svmopa_za32_f16_m(3, row_predicate_f16x, predicate_all_f16x, query_packed_f16x, document_packed_3_f16x);
+                svmopa_za32_f16_m(0, row_predicate_b16x, predicate_all_b16x, query_packed_f16x, document_packed_0_f16x);
+                svmopa_za32_f16_m(1, row_predicate_b16x, predicate_all_b16x, query_packed_f16x, document_packed_1_f16x);
+                svmopa_za32_f16_m(2, row_predicate_b16x, predicate_all_b16x, query_packed_f16x, document_packed_2_f16x);
+                svmopa_za32_f16_m(3, row_predicate_b16x, predicate_all_b16x, query_packed_f16x, document_packed_3_f16x);
             }
             // Vertical column extraction + argmax update (manually unrolled over 4 tiles)
@@ -170,36 +170,36 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_f16_streami
                 // Tile 0
                 {
                     nk_u32_t document_index = (nk_u32_t)((column_tile_index + 0) * tile_dimension + column_within_tile);
-                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_f32x, 0,
+                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_b32x, 0,
                                                                          column_within_tile);
-                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_f32x, column_dots_f32x, running_maximum_f32x);
+                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_b32x, column_dots_f32x, running_maximum_f32x);
                     running_maximum_f32x = svsel_f32(is_better_bx, column_dots_f32x, running_maximum_f32x);
                     running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
                 }
                 // Tile 1
                 {
                     nk_u32_t document_index = (nk_u32_t)((column_tile_index + 1) * tile_dimension + column_within_tile);
-                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_f32x, 1,
+                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_b32x, 1,
                                                                          column_within_tile);
-                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_f32x, column_dots_f32x, running_maximum_f32x);
+                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_b32x, column_dots_f32x, running_maximum_f32x);
                     running_maximum_f32x = svsel_f32(is_better_bx, column_dots_f32x, running_maximum_f32x);
                     running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
                 }
                 // Tile 2
                 {
                     nk_u32_t document_index = (nk_u32_t)((column_tile_index + 2) * tile_dimension + column_within_tile);
-                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_f32x, 2,
+                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_b32x, 2,
                                                                          column_within_tile);
-                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_f32x, column_dots_f32x, running_maximum_f32x);
+                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_b32x, column_dots_f32x, running_maximum_f32x);
                     running_maximum_f32x = svsel_f32(is_better_bx, column_dots_f32x, running_maximum_f32x);
                     running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
                 }
                 // Tile 3
                 {
                     nk_u32_t document_index = (nk_u32_t)((column_tile_index + 3) * tile_dimension + column_within_tile);
-                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_f32x, 3,
+                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_b32x, 3,
                                                                          column_within_tile);
-                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_f32x, column_dots_f32x, running_maximum_f32x);
+                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_b32x, column_dots_f32x, running_maximum_f32x);
                     running_maximum_f32x = svsel_f32(is_better_bx, column_dots_f32x, running_maximum_f32x);
                     running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
                 }
@@ -212,7 +212,7 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_f16_streami
             nk_size_t const cols_remaining = (col_start + tile_dimension <= document_count)
                                                  ? tile_dimension
                                                  : (document_count - col_start);
-            svbool_t const column_predicate_f16x = (cols_remaining == tile_dimension)
+            svbool_t const column_predicate_b16x = (cols_remaining == tile_dimension)
                                                        ? svptrue_b16()
                                                        : svwhilelt_b16_u64(0u, cols_remaining * 2);
@@ -220,23 +220,23 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_f16_streami
             for (nk_size_t depth_step = 0; depth_step < depth_step_count; depth_step++) {
                 svfloat16_t query_packed_f16x = svld1_f16(
-                    row_predicate_f16x,
+                    row_predicate_b16x,
                     (float16_t const *)(query_vecs +
                                         (row_tile_index * depth_step_count + depth_step) * vector_elements));
                 svfloat16_t document_packed_f16x = svld1_f16(
-                    column_predicate_f16x,
+                    column_predicate_b16x,
                     (float16_t const *)(document_vecs +
                                         (column_tile_index * depth_step_count + depth_step) * vector_elements));
-                svmopa_za32_f16_m(0, row_predicate_f16x, column_predicate_f16x, query_packed_f16x,
+                svmopa_za32_f16_m(0, row_predicate_b16x, column_predicate_b16x, query_packed_f16x,
                                   document_packed_f16x);
             }
             // Vertical column extraction from ZA0 + argmax update
             for (nk_size_t column_within_tile = 0; column_within_tile < cols_remaining; column_within_tile++) {
                 nk_u32_t document_index = (nk_u32_t)(col_start + column_within_tile);
-                svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_f32x, 0,
+                svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_b32x, 0,
                                                                      column_within_tile);
-                svbool_t is_better_bx = svcmpgt_f32(predicate_all_f32x, column_dots_f32x, running_maximum_f32x);
+                svbool_t is_better_bx = svcmpgt_f32(predicate_all_b32x, column_dots_f32x, running_maximum_f32x);
                 running_maximum_f32x = svsel_f32(is_better_bx, column_dots_f32x, running_maximum_f32x);
                 running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
             }
@@ -246,19 +246,19 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_f16_streami
         // Gather document inverse norms via argmax indices (no SVE gather in streaming mode)
         nk_u32_t best_document_indices[64];
         nk_f32_t document_inverse_norms_gathered[64];
-        svst1_u32(row_predicate_f32x, best_document_indices, running_argmax_u32x);
+        svst1_u32(row_predicate_b32x, best_document_indices, running_argmax_u32x);
         for (nk_size_t row_in_tile = 0; row_in_tile < rows_remaining; row_in_tile++)
             document_inverse_norms_gathered[row_in_tile] = document_inverse_norms[best_document_indices[row_in_tile]];
         // SVE-width: cosine = dot * inv_norm_q * inv_norm_d, angular = max(1 - cosine, 0)
-        svfloat32_t query_inverse_norms_f32x = svld1_f32(row_predicate_f32x, query_inverse_norms + row_start);
-        svfloat32_t document_inverse_norms_f32x = svld1_f32(row_predicate_f32x, document_inverse_norms_gathered);
+        svfloat32_t query_inverse_norms_f32x = svld1_f32(row_predicate_b32x, query_inverse_norms + row_start);
+        svfloat32_t document_inverse_norms_f32x = svld1_f32(row_predicate_b32x, document_inverse_norms_gathered);
         svfloat32_t cosine_f32x = svmul_f32_x(
-            row_predicate_f32x, svmul_f32_x(row_predicate_f32x, running_maximum_f32x, query_inverse_norms_f32x),
+            row_predicate_b32x, svmul_f32_x(row_predicate_b32x, running_maximum_f32x, query_inverse_norms_f32x),
             document_inverse_norms_f32x);
         svfloat32_t angular_distance_f32x = svmax_f32_x(
-            row_predicate_f32x, svsub_f32_x(row_predicate_f32x, svdup_f32(1.0f), cosine_f32x), svdup_f32(0.0f));
-        total_angular_distance += svaddv_f32(row_predicate_f32x, angular_distance_f32x);
+            row_predicate_b32x, svsub_f32_x(row_predicate_b32x, svdup_f32(1.0f), cosine_f32x), svdup_f32(0.0f));
+        total_angular_distance += svaddv_f32(row_predicate_b32x, angular_distance_f32x);
     }
     *result = total_angular_distance;
@@ -304,8 +304,8 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_bf16_stream
     nk_f32_t const *document_inverse_norms = (nk_f32_t const *)((char const *)document_packed +
                                                                 document_header->norms_offset);
-    svbool_t const predicate_all_f16x = svptrue_b16();
-    svbool_t const predicate_all_f32x = svptrue_b32();
+    svbool_t const predicate_all_b16x = svptrue_b16();
+    svbool_t const predicate_all_b32x = svptrue_b32();
     nk_f32_t total_angular_distance = 0.0f;
@@ -313,10 +313,10 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_bf16_stream
         nk_size_t const row_start = row_tile_index * tile_dimension;
         nk_size_t const rows_remaining = (row_start + tile_dimension <= query_count) ? tile_dimension
                                                                                      : (query_count - row_start);
-        svbool_t const row_predicate_f16x = (rows_remaining == tile_dimension)
+        svbool_t const row_predicate_b16x = (rows_remaining == tile_dimension)
                                                 ? svptrue_b16()
                                                 : svwhilelt_b16_u64(0u, rows_remaining * 2);
-        svbool_t const row_predicate_f32x = (rows_remaining == tile_dimension) ? svptrue_b32()
+        svbool_t const row_predicate_b32x = (rows_remaining == tile_dimension) ? svptrue_b32()
                                                                                : svwhilelt_b32_u64(0u, rows_remaining);
         // Running max + argmax vectors for angular distance finalization
@@ -332,32 +332,32 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_bf16_stream
             // Accumulate: for each depth step, load Q vector and 4 D vectors, issue 4 BFMOPAs
             for (nk_size_t depth_step = 0; depth_step < depth_step_count; depth_step++) {
                 svbfloat16_t query_packed_bf16x = svld1_bf16(
-                    row_predicate_f16x,
+                    row_predicate_b16x,
                     (bfloat16_t const *)(query_vecs +
                                          (row_tile_index * depth_step_count + depth_step) * vector_elements));
                 svbfloat16_t document_packed_0_bf16x = svld1_bf16(
-                    predicate_all_f16x,
+                    predicate_all_b16x,
                     (bfloat16_t const *)(document_vecs +
                                          ((column_tile_index + 0) * depth_step_count + depth_step) * vector_elements));
                 svbfloat16_t document_packed_1_bf16x = svld1_bf16(
-                    predicate_all_f16x,
+                    predicate_all_b16x,
                     (bfloat16_t const *)(document_vecs +
                                          ((column_tile_index + 1) * depth_step_count + depth_step) * vector_elements));
                 svbfloat16_t document_packed_2_bf16x = svld1_bf16(
-                    predicate_all_f16x,
+                    predicate_all_b16x,
                     (bfloat16_t const *)(document_vecs +
                                          ((column_tile_index + 2) * depth_step_count + depth_step) * vector_elements));
                 svbfloat16_t document_packed_3_bf16x = svld1_bf16(
-                    predicate_all_f16x,
+                    predicate_all_b16x,
                     (bfloat16_t const *)(document_vecs +
                                          ((column_tile_index + 3) * depth_step_count + depth_step) * vector_elements));
-                svmopa_za32_bf16_m(0, row_predicate_f16x, predicate_all_f16x, query_packed_bf16x,
+                svmopa_za32_bf16_m(0, row_predicate_b16x, predicate_all_b16x, query_packed_bf16x,
                                    document_packed_0_bf16x);
-                svmopa_za32_bf16_m(1, row_predicate_f16x, predicate_all_f16x, query_packed_bf16x,
+                svmopa_za32_bf16_m(1, row_predicate_b16x, predicate_all_b16x, query_packed_bf16x,
                                    document_packed_1_bf16x);
-                svmopa_za32_bf16_m(2, row_predicate_f16x, predicate_all_f16x, query_packed_bf16x,
+                svmopa_za32_bf16_m(2, row_predicate_b16x, predicate_all_b16x, query_packed_bf16x,
                                    document_packed_2_bf16x);
-                svmopa_za32_bf16_m(3, row_predicate_f16x, predicate_all_f16x, query_packed_bf16x,
+                svmopa_za32_bf16_m(3, row_predicate_b16x, predicate_all_b16x, query_packed_bf16x,
                                    document_packed_3_bf16x);
             }
@@ -366,36 +366,36 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_bf16_stream
                 // Tile 0
                 {
                     nk_u32_t document_index = (nk_u32_t)((column_tile_index + 0) * tile_dimension + column_within_tile);
-                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_f32x, 0,
+                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_b32x, 0,
                                                                          column_within_tile);
-                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_f32x, column_dots_f32x, running_maximum_f32x);
+                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_b32x, column_dots_f32x, running_maximum_f32x);
                     running_maximum_f32x = svsel_f32(is_better_bx, column_dots_f32x, running_maximum_f32x);
                     running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
                 }
                 // Tile 1
                 {
                     nk_u32_t document_index = (nk_u32_t)((column_tile_index + 1) * tile_dimension + column_within_tile);
-                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_f32x, 1,
+                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_b32x, 1,
                                                                          column_within_tile);
-                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_f32x, column_dots_f32x, running_maximum_f32x);
+                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_b32x, column_dots_f32x, running_maximum_f32x);
                     running_maximum_f32x = svsel_f32(is_better_bx, column_dots_f32x, running_maximum_f32x);
                     running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
                 }
                 // Tile 2
                 {
                     nk_u32_t document_index = (nk_u32_t)((column_tile_index + 2) * tile_dimension + column_within_tile);
-                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_f32x, 2,
+                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_b32x, 2,
                                                                          column_within_tile);
-                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_f32x, column_dots_f32x, running_maximum_f32x);
+                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_b32x, column_dots_f32x, running_maximum_f32x);
                     running_maximum_f32x = svsel_f32(is_better_bx, column_dots_f32x, running_maximum_f32x);
                     running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
                 }
                 // Tile 3
                 {
                     nk_u32_t document_index = (nk_u32_t)((column_tile_index + 3) * tile_dimension + column_within_tile);
-                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_f32x, 3,
+                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_b32x, 3,
                                                                          column_within_tile);
-                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_f32x, column_dots_f32x, running_maximum_f32x);
+                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_b32x, column_dots_f32x, running_maximum_f32x);
                     running_maximum_f32x = svsel_f32(is_better_bx, column_dots_f32x, running_maximum_f32x);
                     running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
                 }
@@ -408,7 +408,7 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_bf16_stream
             nk_size_t const cols_remaining = (col_start + tile_dimension <= document_count)
                                                  ? tile_dimension
                                                  : (document_count - col_start);
-            svbool_t const column_predicate_f16x = (cols_remaining == tile_dimension)
+            svbool_t const column_predicate_b16x = (cols_remaining == tile_dimension)
                                                        ? svptrue_b16()
                                                        : svwhilelt_b16_u64(0u, cols_remaining * 2);
@@ -416,23 +416,23 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_bf16_stream
             for (nk_size_t depth_step = 0; depth_step < depth_step_count; depth_step++) {
                 svbfloat16_t query_packed_bf16x = svld1_bf16(
-                    row_predicate_f16x,
+                    row_predicate_b16x,
                     (bfloat16_t const *)(query_vecs +
                                          (row_tile_index * depth_step_count + depth_step) * vector_elements));
                 svbfloat16_t document_packed_bf16x = svld1_bf16(
-                    column_predicate_f16x,
+                    column_predicate_b16x,
                     (bfloat16_t const *)(document_vecs +
                                          (column_tile_index * depth_step_count + depth_step) * vector_elements));
-                svmopa_za32_bf16_m(0, row_predicate_f16x, column_predicate_f16x, query_packed_bf16x,
+                svmopa_za32_bf16_m(0, row_predicate_b16x, column_predicate_b16x, query_packed_bf16x,
                                    document_packed_bf16x);
             }
             // Vertical column extraction from ZA0 + argmax update
             for (nk_size_t column_within_tile = 0; column_within_tile < cols_remaining; column_within_tile++) {
                 nk_u32_t document_index = (nk_u32_t)(col_start + column_within_tile);
-                svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_f32x, 0,
+                svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_b32x, 0,
                                                                      column_within_tile);
-                svbool_t is_better_bx = svcmpgt_f32(predicate_all_f32x, column_dots_f32x, running_maximum_f32x);
+                svbool_t is_better_bx = svcmpgt_f32(predicate_all_b32x, column_dots_f32x, running_maximum_f32x);
                 running_maximum_f32x = svsel_f32(is_better_bx, column_dots_f32x, running_maximum_f32x);
                 running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
             }
@@ -442,19 +442,19 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_bf16_stream
         // Gather document inverse norms via argmax indices (no SVE gather in streaming mode)
         nk_u32_t best_document_indices[64];
         nk_f32_t document_inverse_norms_gathered[64];
-        svst1_u32(row_predicate_f32x, best_document_indices, running_argmax_u32x);
+        svst1_u32(row_predicate_b32x, best_document_indices, running_argmax_u32x);
         for (nk_size_t row_in_tile = 0; row_in_tile < rows_remaining; row_in_tile++)
             document_inverse_norms_gathered[row_in_tile] = document_inverse_norms[best_document_indices[row_in_tile]];
         // SVE-width: cosine = dot * inv_norm_q * inv_norm_d, angular = max(1 - cosine, 0)
-        svfloat32_t query_inverse_norms_f32x = svld1_f32(row_predicate_f32x, query_inverse_norms + row_start);
-        svfloat32_t document_inverse_norms_f32x = svld1_f32(row_predicate_f32x, document_inverse_norms_gathered);
+        svfloat32_t query_inverse_norms_f32x = svld1_f32(row_predicate_b32x, query_inverse_norms + row_start);
+        svfloat32_t document_inverse_norms_f32x = svld1_f32(row_predicate_b32x, document_inverse_norms_gathered);
         svfloat32_t cosine_f32x = svmul_f32_x(
-            row_predicate_f32x, svmul_f32_x(row_predicate_f32x, running_maximum_f32x, query_inverse_norms_f32x),
+            row_predicate_b32x, svmul_f32_x(row_predicate_b32x, running_maximum_f32x, query_inverse_norms_f32x),
             document_inverse_norms_f32x);
         svfloat32_t angular_distance_f32x = svmax_f32_x(
-            row_predicate_f32x, svsub_f32_x(row_predicate_f32x, svdup_f32(1.0f), cosine_f32x), svdup_f32(0.0f));
-        total_angular_distance += svaddv_f32(row_predicate_f32x, angular_distance_f32x);
+            row_predicate_b32x, svsub_f32_x(row_predicate_b32x, svdup_f32(1.0f), cosine_f32x), svdup_f32(0.0f));
+        total_angular_distance += svaddv_f32(row_predicate_b32x, angular_distance_f32x);
     }
     *result = total_angular_distance;
@@ -468,20 +468,20 @@ NK_PUBLIC void nk_maxsim_packed_bf16_sme(                             //
     nk_maxsim_packed_bf16_streaming_(query_packed, document_packed, query_count, document_count, depth, result);
 }
-NK_PUBLIC nk_size_t nk_maxsim_packed_size_bf16_sme(nk_size_t n, nk_size_t k) { //
-    return nk_dots_packed_size_bf16_sme(n, k);
+NK_PUBLIC nk_size_t nk_maxsim_packed_size_bf16_sme(nk_size_t columns, nk_size_t depth) { //
+    return nk_dots_packed_size_bf16_sme(columns, depth);
 }
-NK_PUBLIC nk_size_t nk_maxsim_packed_size_f16_sme(nk_size_t n, nk_size_t k) { //
-    return nk_dots_packed_size_f16_sme(n, k);
+NK_PUBLIC nk_size_t nk_maxsim_packed_size_f16_sme(nk_size_t columns, nk_size_t depth) { //
+    return nk_dots_packed_size_f16_sme(columns, depth);
 }
-NK_PUBLIC void nk_maxsim_pack_bf16_sme(                                                   //
-    nk_bf16_t const *vectors, nk_size_t n, nk_size_t k, nk_size_t stride, void *packed) { //
+NK_PUBLIC void nk_maxsim_pack_bf16_sme(                                                                      //
+    nk_bf16_t const *vectors, nk_size_t columns, nk_size_t depth, nk_size_t stride_in_bytes, void *packed) { //
     // Delegate tile interleaving and squared norms computation to dots pack.
     // Both headers are 64 bytes with identical layout for the first 6 fields.
-    nk_dots_pack_bf16_sme(vectors, n, k, stride, packed);
+    nk_dots_pack_bf16_sme(vectors, columns, depth, stride_in_bytes, packed);
     // Set maxsim-specific header fields (overlaps dots reserved area)
     nk_maxsim_sme_packed_header_t *header = (nk_maxsim_sme_packed_header_t *)packed;
@@ -491,18 +491,18 @@ NK_PUBLIC void nk_maxsim_pack_bf16_sme(
     // Convert squared norms → inverse norms in-place
     nk_f32_t *norms = (nk_f32_t *)((char *)packed + header->norms_offset);
-    for (nk_size_t i = 0; i < n; i++) {
+    for (nk_size_t i = 0; i < columns; i++) {
         nk_f32_t norm_sq = norms[i];
         norms[i] = (norm_sq > 0.0f) ? (nk_f32_t)nk_f64_rsqrt_neon((nk_f64_t)norm_sq) : 0.0f;
     }
 }
-NK_PUBLIC void nk_maxsim_pack_f16_sme(                                                   //
-    nk_f16_t const *vectors, nk_size_t n, nk_size_t k, nk_size_t stride, void *packed) { //
+NK_PUBLIC void nk_maxsim_pack_f16_sme(                                                                      //
+    nk_f16_t const *vectors, nk_size_t columns, nk_size_t depth, nk_size_t stride_in_bytes, void *packed) { //
     // Delegate tile interleaving and squared norms computation to dots pack.
     // Both headers are 64 bytes with identical layout for the first 6 fields.
-    nk_dots_pack_f16_sme(vectors, n, k, stride, packed);
+    nk_dots_pack_f16_sme(vectors, columns, depth, stride_in_bytes, packed);
     // Set maxsim-specific header fields (overlaps dots reserved area)
     nk_maxsim_sme_packed_header_t *header = (nk_maxsim_sme_packed_header_t *)packed;
@@ -512,7 +512,7 @@ NK_PUBLIC void nk_maxsim_pack_f16_sme(
     // Convert squared norms → inverse norms in-place
     nk_f32_t *norms = (nk_f32_t *)((char *)packed + header->norms_offset);
-    for (nk_size_t i = 0; i < n; i++) {
+    for (nk_size_t i = 0; i < columns; i++) {
         nk_f32_t norm_sq = norms[i];
         norms[i] = (norm_sq > 0.0f) ? (nk_f32_t)nk_f64_rsqrt_neon((nk_f64_t)norm_sq) : 0.0f;
     }
@@ -527,45 +527,45 @@ NK_PUBLIC void nk_maxsim_pack_f16_sme(
  *  Refinement: tile-wide interleaved f64 dot products for the winning (query, document) pairs.
  *  Angular distance: 1 - dot / sqrt(||q||^2 * ||d||^2), accumulated with f64.
  */
-NK_PUBLIC nk_size_t nk_maxsim_packed_size_f32_sme(nk_size_t n, nk_size_t k) { //
-    nk_size_t const expansion = 4;                                            // i8->i32 SMOPA
-    nk_size_t const tile_dimension = svcntsw();                               // 16 for SVL=512
-    nk_size_t const vector_elements = svcntsb();                              // 64 for SVL=512
-    nk_size_t const column_tile_count = nk_size_divide_round_up_(n, tile_dimension);
-    nk_size_t const depth_step_count = nk_size_divide_round_up_(k, expansion);
-    nk_size_t const original_stride = nk_size_round_up_to_multiple_(k * sizeof(nk_f32_t), 64);
+NK_PUBLIC nk_size_t nk_maxsim_packed_size_f32_sme(nk_size_t columns, nk_size_t depth) { //
+    nk_size_t const expansion = 4;                                                      // i8->i32 SMOPA
+    nk_size_t const tile_dimension = nk_sme_cntw_();                                    // 16 for SVL=512
+    nk_size_t const vector_elements = nk_sme_cntb_();                                   // 64 for SVL=512
+    nk_size_t const column_tile_count = nk_size_divide_round_up_(columns, tile_dimension);
+    nk_size_t const depth_step_count = nk_size_divide_round_up_(depth, expansion);
+    nk_size_t const original_stride = nk_size_round_up_to_multiple_(depth * sizeof(nk_f32_t), 64);
     nk_size_t size = sizeof(nk_maxsim_sme_packed_header_t);         // 64 B header
     size += column_tile_count * depth_step_count * vector_elements; // i8 tiles
-    size += n * sizeof(nk_f32_t);                                   // f32 squared norms
-    size += n * original_stride;                                    // f32 originals
+    size += columns * sizeof(nk_f32_t);                             // f32 squared norms
+    size += columns * original_stride;                              // f32 originals
     return size;
 }
-NK_PUBLIC void nk_maxsim_pack_f32_sme(                                                   //
-    nk_f32_t const *vectors, nk_size_t n, nk_size_t k, nk_size_t stride, void *packed) { //
+NK_PUBLIC void nk_maxsim_pack_f32_sme(                                                                      //
+    nk_f32_t const *vectors, nk_size_t columns, nk_size_t depth, nk_size_t stride_in_bytes, void *packed) { //
-    nk_size_t const expansion = 4;               // i8->i32 SMOPA
-    nk_size_t const tile_dimension = svcntsw();  // 16 for SVL=512
-    nk_size_t const vector_elements = svcntsb(); // 64 for SVL=512
-    nk_size_t const stride_elements = stride / sizeof(nk_f32_t);
+    nk_size_t const expansion = 4;                    // i8->i32 SMOPA
+    nk_size_t const tile_dimension = nk_sme_cntw_();  // 16 for SVL=512
+    nk_size_t const vector_elements = nk_sme_cntb_(); // 64 for SVL=512
+    nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_f32_t);
-    nk_size_t const column_tile_count = nk_size_divide_round_up_(n, tile_dimension);
-    nk_size_t const depth_step_count = nk_size_divide_round_up_(k, expansion);
+    nk_size_t const column_tile_count = nk_size_divide_round_up_(columns, tile_dimension);
+    nk_size_t const depth_step_count = nk_size_divide_round_up_(depth, expansion);
     nk_size_t const total_vectors = column_tile_count * depth_step_count;
-    nk_size_t const original_stride = nk_size_round_up_to_multiple_(k * sizeof(nk_f32_t), 64);
+    nk_size_t const original_stride = nk_size_round_up_to_multiple_(depth * sizeof(nk_f32_t), 64);
     // Set up header
     nk_maxsim_sme_packed_header_t *header = (nk_maxsim_sme_packed_header_t *)packed;
     header->column_tile_count = (nk_u32_t)column_tile_count;
     header->depth_tile_count = (nk_u32_t)depth_step_count;
-    header->columns = (nk_u32_t)n;
-    header->depth = (nk_u32_t)k;
-    header->svl_bytes = (nk_u32_t)(svcntsw() * sizeof(nk_f32_t));
+    header->columns = (nk_u32_t)columns;
+    header->depth = (nk_u32_t)depth;
+    header->svl_bytes = (nk_u32_t)(tile_dimension * sizeof(nk_f32_t));
     nk_size_t const tiles_size = total_vectors * vector_elements;
     nk_size_t const norms_offset = sizeof(nk_maxsim_sme_packed_header_t) + tiles_size;
-    nk_size_t const originals_offset = norms_offset + n * sizeof(nk_f32_t);
+    nk_size_t const originals_offset = norms_offset + columns * sizeof(nk_f32_t);
     header->norms_offset = (nk_u32_t)norms_offset;
     header->originals_offset = (nk_u32_t)originals_offset;
@@ -580,13 +580,13 @@ NK_PUBLIC void nk_maxsim_pack_f32_sme(
     for (nk_size_t i = 0; i < tiles_size; i++) tiles[i] = 0;
     // For each vector: quantize metadata, quantize+interleave into tiles, copy originals
-    for (nk_size_t vector_index = 0; vector_index < n; vector_index++) {
-        nk_f32_t const *source = (nk_f32_t const *)((char const *)vectors + vector_index * stride);
+    for (nk_size_t vector_index = 0; vector_index < columns; vector_index++) {
+        nk_f32_t const *source = (nk_f32_t const *)((char const *)vectors + vector_index * stride_in_bytes);
         // Pass 1: Compute absmax and norm_sq simultaneously
         nk_f32_t absmax = 0.0f;
         nk_f32_t norm_sq = 0.0f;
-        for (nk_size_t dim = 0; dim < k; dim++) {
+        for (nk_size_t dim = 0; dim < depth; dim++) {
             nk_f32_t val = source[dim];
             nk_f32_t abs_val = nk_f32_abs_(val);
             if (abs_val > absmax) absmax = abs_val;
@@ -601,7 +601,7 @@ NK_PUBLIC void nk_maxsim_pack_f32_sme(
         nk_size_t const column_tile = vector_index / tile_dimension;
         nk_size_t const column_in_tile = vector_index % tile_dimension;
-        for (nk_size_t dim = 0; dim < k; dim++) {
+        for (nk_size_t dim = 0; dim < depth; dim++) {
             nk_size_t const depth_step = dim / expansion;
             nk_size_t const sub_element = dim % expansion;
             nk_size_t const vec_index = column_tile * depth_step_count + depth_step;
@@ -619,8 +619,8 @@ NK_PUBLIC void nk_maxsim_pack_f32_sme(
         // Pass 3: Copy originals (64B-aligned stride, zero-pad tail)
         char *dest_original = originals + vector_index * original_stride;
-        nk_copy_bytes_(dest_original, source, k * sizeof(nk_f32_t));
-        for (nk_size_t byte = k * sizeof(nk_f32_t); byte < original_stride; byte++) dest_original[byte] = 0;
+        nk_copy_bytes_(dest_original, source, depth * sizeof(nk_f32_t));
+        for (nk_size_t byte = depth * sizeof(nk_f32_t); byte < original_stride; byte++) dest_original[byte] = 0;
     }
 }
@@ -628,16 +628,28 @@ NK_PUBLIC void nk_maxsim_pack_f32_sme(
  *  Streaming-compatible f32 dot product with f64 accumulation.
  *  Follows the svcntd()-stride + svcvt_f64_f32_x pattern from nk_dots_reduce_sumsq_f32_ssve_.
  */
-NK_PUBLIC nk_f64_t nk_maxsim_reduce_dot_f32_ssve_(                                    //
-    nk_f32_t const *a, nk_f32_t const *b, nk_size_t count) NK_STREAMING_COMPATIBLE_ { //
-    svfloat64_t accumulator_f64x = svdup_f64(0.0);
-    for (nk_size_t i = 0; i < count; i += svcntd()) {
-        svbool_t predicate_f64x = svwhilelt_b64_u64(i, count);
-        svfloat64_t a_f64x = svcvt_f64_f32_x(predicate_f64x, svld1_f32(svwhilelt_b32_u64(i, count), a + i));
-        svfloat64_t b_f64x = svcvt_f64_f32_x(predicate_f64x, svld1_f32(svwhilelt_b32_u64(i, count), b + i));
-        accumulator_f64x = svmla_f64_x(predicate_f64x, accumulator_f64x, a_f64x, b_f64x);
+NK_PUBLIC nk_f64_t nk_maxsim_reduce_dot_f32_ssve_(                         //
+    nk_f32_t const *a, nk_f32_t const *b, nk_size_t count) NK_STREAMING_ { //
+    svfloat64_t accumulator_even_f64x = svdup_f64(0.0);
+    svfloat64_t accumulator_odd_f64x = svdup_f64(0.0);
+    nk_size_t const vector_length = svcntw();
+    nk_size_t const half_vector_length = svcntd();
+    for (nk_size_t i = 0; i < count; i += vector_length) {
+        svbool_t predicate_b32x = svwhilelt_b32_u64(i, count);
+        svfloat32_t a_f32x = svld1_f32(predicate_b32x, a + i);
+        svfloat32_t b_f32x = svld1_f32(predicate_b32x, b + i);
+        svbool_t predicate_even_b64x = svwhilelt_b64_u64(i, count);
+        svfloat64_t a_even_f64x = svcvt_f64_f32_x(predicate_even_b64x, a_f32x);
+        svfloat64_t b_even_f64x = svcvt_f64_f32_x(predicate_even_b64x, b_f32x);
+        accumulator_even_f64x = svmla_f64_m(predicate_even_b64x, accumulator_even_f64x, a_even_f64x, b_even_f64x);
+        svbool_t predicate_odd_b64x = svwhilelt_b64_u64(i + half_vector_length, count);
+        svfloat64_t a_odd_f64x = svcvtlt_f64_f32_x(predicate_odd_b64x, a_f32x);
+        svfloat64_t b_odd_f64x = svcvtlt_f64_f32_x(predicate_odd_b64x, b_f32x);
+        accumulator_odd_f64x = svmla_f64_m(predicate_odd_b64x, accumulator_odd_f64x, a_odd_f64x, b_odd_f64x);
     }
-    return svaddv_f64(svptrue_b64(), accumulator_f64x);
+    return svaddv_f64(svptrue_b64(), accumulator_even_f64x) + svaddv_f64(svptrue_b64(), accumulator_odd_f64x);
 }
 /**
@@ -680,8 +692,8 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_f32_streami
     nk_size_t const expansion = 4; // i8->i32 SMOPA
-    svbool_t const predicate_all_i8x = svptrue_b8();
-    svbool_t const predicate_all_f32x = svptrue_b32();
+    svbool_t const predicate_all_b8x = svptrue_b8();
+    svbool_t const predicate_all_b32x = svptrue_b32();
     nk_f64_t total_angular_distance_f64 = 0.0;
@@ -689,10 +701,10 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_f32_streami
         nk_size_t const row_start = row_tile_index * tile_dimension;
         nk_size_t const rows_remaining = (row_start + tile_dimension <= query_count) ? tile_dimension
                                                                                      : (query_count - row_start);
-        svbool_t const row_predicate_i8x = (rows_remaining == tile_dimension)
+        svbool_t const row_predicate_b8x = (rows_remaining == tile_dimension)
                                                ? svptrue_b8()
                                                : svwhilelt_b8_u64(0u, rows_remaining * expansion);
-        svbool_t const row_predicate_f32x = (rows_remaining == tile_dimension) ? svptrue_b32()
+        svbool_t const row_predicate_b32x = (rows_remaining == tile_dimension) ? svptrue_b32()
                                                                                : svwhilelt_b32_u64(0u, rows_remaining);
         svint32_t running_max_i32x = svdup_s32(NK_I32_MIN);
@@ -706,28 +718,29 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_f32_streami
             for (nk_size_t depth_step = 0; depth_step < depth_step_count; depth_step++) {
                 svint8_t query_packed_i8x = svld1_s8(
-                    row_predicate_i8x,
-                    (int8_t const *)(query_tiles + (row_tile_index * depth_step_count + depth_step) * vector_elements));
+                    row_predicate_b8x,
+                    (nk_i8_t const *)(query_tiles +
+                                      (row_tile_index * depth_step_count + depth_step) * vector_elements));
                 svint8_t document_packed_0_i8x = svld1_s8(
-                    predicate_all_i8x,
-                    (int8_t const *)(document_tiles +
-                                     ((column_tile_index + 0) * depth_step_count + depth_step) * vector_elements));
+                    predicate_all_b8x,
+                    (nk_i8_t const *)(document_tiles +
+                                      ((column_tile_index + 0) * depth_step_count + depth_step) * vector_elements));
                 svint8_t document_packed_1_i8x = svld1_s8(
-                    predicate_all_i8x,
-                    (int8_t const *)(document_tiles +
-                                     ((column_tile_index + 1) * depth_step_count + depth_step) * vector_elements));
+                    predicate_all_b8x,
+                    (nk_i8_t const *)(document_tiles +
+                                      ((column_tile_index + 1) * depth_step_count + depth_step) * vector_elements));
                 svint8_t document_packed_2_i8x = svld1_s8(
-                    predicate_all_i8x,
-                    (int8_t const *)(document_tiles +
-                                     ((column_tile_index + 2) * depth_step_count + depth_step) * vector_elements));
+                    predicate_all_b8x,
+                    (nk_i8_t const *)(document_tiles +
+                                      ((column_tile_index + 2) * depth_step_count + depth_step) * vector_elements));
                 svint8_t document_packed_3_i8x = svld1_s8(
-                    predicate_all_i8x,
-                    (int8_t const *)(document_tiles +
-                                     ((column_tile_index + 3) * depth_step_count + depth_step) * vector_elements));
-                svmopa_za32_s8_m(0, row_predicate_i8x, predicate_all_i8x, query_packed_i8x, document_packed_0_i8x);
-                svmopa_za32_s8_m(1, row_predicate_i8x, predicate_all_i8x, query_packed_i8x, document_packed_1_i8x);
-                svmopa_za32_s8_m(2, row_predicate_i8x, predicate_all_i8x, query_packed_i8x, document_packed_2_i8x);
-                svmopa_za32_s8_m(3, row_predicate_i8x, predicate_all_i8x, query_packed_i8x, document_packed_3_i8x);
+                    predicate_all_b8x,
+                    (nk_i8_t const *)(document_tiles +
+                                      ((column_tile_index + 3) * depth_step_count + depth_step) * vector_elements));
+                svmopa_za32_s8_m(0, row_predicate_b8x, predicate_all_b8x, query_packed_i8x, document_packed_0_i8x);
+                svmopa_za32_s8_m(1, row_predicate_b8x, predicate_all_b8x, query_packed_i8x, document_packed_1_i8x);
+                svmopa_za32_s8_m(2, row_predicate_b8x, predicate_all_b8x, query_packed_i8x, document_packed_2_i8x);
+                svmopa_za32_s8_m(3, row_predicate_b8x, predicate_all_b8x, query_packed_i8x, document_packed_3_i8x);
             }
             // Vertical column extraction + argmax update (manually unrolled over 4 tiles)
@@ -735,36 +748,36 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_f32_streami
                 // Tile 0
                 {
                     nk_u32_t document_index = (nk_u32_t)((column_tile_index + 0) * tile_dimension + column_within_tile);
-                    svint32_t column_dots_i32x = svread_ver_za32_s32_m(svdup_s32(NK_I32_MIN), predicate_all_f32x, 0,
+                    svint32_t column_dots_i32x = svread_ver_za32_s32_m(svdup_s32(NK_I32_MIN), predicate_all_b32x, 0,
                                                                        column_within_tile);
-                    svbool_t is_better_bx = svcmpgt_s32(predicate_all_f32x, column_dots_i32x, running_max_i32x);
+                    svbool_t is_better_bx = svcmpgt_s32(predicate_all_b32x, column_dots_i32x, running_max_i32x);
                     running_max_i32x = svsel_s32(is_better_bx, column_dots_i32x, running_max_i32x);
                     running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
                 }
                 // Tile 1
                 {
                     nk_u32_t document_index = (nk_u32_t)((column_tile_index + 1) * tile_dimension + column_within_tile);
-                    svint32_t column_dots_i32x = svread_ver_za32_s32_m(svdup_s32(NK_I32_MIN), predicate_all_f32x, 1,
+                    svint32_t column_dots_i32x = svread_ver_za32_s32_m(svdup_s32(NK_I32_MIN), predicate_all_b32x, 1,
                                                                        column_within_tile);
-                    svbool_t is_better_bx = svcmpgt_s32(predicate_all_f32x, column_dots_i32x, running_max_i32x);
+                    svbool_t is_better_bx = svcmpgt_s32(predicate_all_b32x, column_dots_i32x, running_max_i32x);
                     running_max_i32x = svsel_s32(is_better_bx, column_dots_i32x, running_max_i32x);
                     running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
                 }
                 // Tile 2
                 {
                     nk_u32_t document_index = (nk_u32_t)((column_tile_index + 2) * tile_dimension + column_within_tile);
-                    svint32_t column_dots_i32x = svread_ver_za32_s32_m(svdup_s32(NK_I32_MIN), predicate_all_f32x, 2,
+                    svint32_t column_dots_i32x = svread_ver_za32_s32_m(svdup_s32(NK_I32_MIN), predicate_all_b32x, 2,
                                                                        column_within_tile);
-                    svbool_t is_better_bx = svcmpgt_s32(predicate_all_f32x, column_dots_i32x, running_max_i32x);
+                    svbool_t is_better_bx = svcmpgt_s32(predicate_all_b32x, column_dots_i32x, running_max_i32x);
                     running_max_i32x = svsel_s32(is_better_bx, column_dots_i32x, running_max_i32x);
                     running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
                 }
                 // Tile 3
                 {
                     nk_u32_t document_index = (nk_u32_t)((column_tile_index + 3) * tile_dimension + column_within_tile);
-                    svint32_t column_dots_i32x = svread_ver_za32_s32_m(svdup_s32(NK_I32_MIN), predicate_all_f32x, 3,
+                    svint32_t column_dots_i32x = svread_ver_za32_s32_m(svdup_s32(NK_I32_MIN), predicate_all_b32x, 3,
                                                                        column_within_tile);
-                    svbool_t is_better_bx = svcmpgt_s32(predicate_all_f32x, column_dots_i32x, running_max_i32x);
+                    svbool_t is_better_bx = svcmpgt_s32(predicate_all_b32x, column_dots_i32x, running_max_i32x);
                     running_max_i32x = svsel_s32(is_better_bx, column_dots_i32x, running_max_i32x);
                     running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
                 }
@@ -777,7 +790,7 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_f32_streami
             nk_size_t const cols_remaining = (col_start + tile_dimension <= document_count)
                                                  ? tile_dimension
                                                  : (document_count - col_start);
-            svbool_t const column_predicate_i8x = (cols_remaining == tile_dimension)
+            svbool_t const column_predicate_b8x = (cols_remaining == tile_dimension)
                                                       ? svptrue_b8()
                                                       : svwhilelt_b8_u64(0u, cols_remaining * expansion);
@@ -785,20 +798,21 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_f32_streami
             for (nk_size_t depth_step = 0; depth_step < depth_step_count; depth_step++) {
                 svint8_t query_packed_i8x = svld1_s8(
-                    row_predicate_i8x,
-                    (int8_t const *)(query_tiles + (row_tile_index * depth_step_count + depth_step) * vector_elements));
+                    row_predicate_b8x,
+                    (nk_i8_t const *)(query_tiles +
+                                      (row_tile_index * depth_step_count + depth_step) * vector_elements));
                 svint8_t document_packed_i8x = svld1_s8(
-                    column_predicate_i8x,
-                    (int8_t const *)(document_tiles +
-                                     (column_tile_index * depth_step_count + depth_step) * vector_elements));
-                svmopa_za32_s8_m(0, row_predicate_i8x, column_predicate_i8x, query_packed_i8x, document_packed_i8x);
+                    column_predicate_b8x,
+                    (nk_i8_t const *)(document_tiles +
+                                      (column_tile_index * depth_step_count + depth_step) * vector_elements));
+                svmopa_za32_s8_m(0, row_predicate_b8x, column_predicate_b8x, query_packed_i8x, document_packed_i8x);
             }
             for (nk_size_t column_within_tile = 0; column_within_tile < cols_remaining; column_within_tile++) {
                 nk_u32_t document_index = (nk_u32_t)(col_start + column_within_tile);
-                svint32_t column_dots_i32x = svread_ver_za32_s32_m(svdup_s32(NK_I32_MIN), predicate_all_f32x, 0,
+                svint32_t column_dots_i32x = svread_ver_za32_s32_m(svdup_s32(NK_I32_MIN), predicate_all_b32x, 0,
                                                                    column_within_tile);
-                svbool_t is_better_bx = svcmpgt_s32(predicate_all_f32x, column_dots_i32x, running_max_i32x);
+                svbool_t is_better_bx = svcmpgt_s32(predicate_all_b32x, column_dots_i32x, running_max_i32x);
                 running_max_i32x = svsel_s32(is_better_bx, column_dots_i32x, running_max_i32x);
                 running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
             }
@@ -806,7 +820,7 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_f32_streami
         // Refinement: tile-wide interleaved f64 dot products
         nk_u32_t best_document_indices[64]; // max tile_dimension across all SVL values
-        svst1_u32(row_predicate_f32x, best_document_indices, running_argmax_u32x);
+        svst1_u32(row_predicate_b32x, best_document_indices, running_argmax_u32x);
         // Pointer setup: one (query, document) pair per row in the tile
         nk_f32_t const *query_original_ptrs[64];
@@ -828,46 +842,57 @@ __arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_f32_streami
             svfloat64_t accumulator_1_f64x = svdup_f64(0.0);
             svfloat64_t accumulator_2_f64x = svdup_f64(0.0);
             svfloat64_t accumulator_3_f64x = svdup_f64(0.0);
-            for (nk_size_t depth_index = 0; depth_index < depth; depth_index += svcntd()) {
-                svbool_t predicate_depth_f64x = svwhilelt_b64_u64(depth_index, depth);
-                svbool_t predicate_depth_f32x = svwhilelt_b32_u64(depth_index, depth);
-                svfloat64_t query_values_0_f64x = svcvt_f64_f32_x(
-                    predicate_depth_f64x,
-                    svld1_f32(predicate_depth_f32x, query_original_ptrs[row_batch_start + 0] + depth_index));
-                svfloat64_t document_values_0_f64x = svcvt_f64_f32_x(
-                    predicate_depth_f64x,
-                    svld1_f32(predicate_depth_f32x, document_original_ptrs[row_batch_start + 0] + depth_index));
-                accumulator_0_f64x = svmla_f64_x(predicate_depth_f64x, accumulator_0_f64x, query_values_0_f64x,
-                                                 document_values_0_f64x);
-                svfloat64_t query_values_1_f64x = svcvt_f64_f32_x(
-                    predicate_depth_f64x,
-                    svld1_f32(predicate_depth_f32x, query_original_ptrs[row_batch_start + 1] + depth_index));
-                svfloat64_t document_values_1_f64x = svcvt_f64_f32_x(
-                    predicate_depth_f64x,
-                    svld1_f32(predicate_depth_f32x, document_original_ptrs[row_batch_start + 1] + depth_index));
-                accumulator_1_f64x = svmla_f64_x(predicate_depth_f64x, accumulator_1_f64x, query_values_1_f64x,
-                                                 document_values_1_f64x);
-                svfloat64_t query_values_2_f64x = svcvt_f64_f32_x(
-                    predicate_depth_f64x,
-                    svld1_f32(predicate_depth_f32x, query_original_ptrs[row_batch_start + 2] + depth_index));
-                svfloat64_t document_values_2_f64x = svcvt_f64_f32_x(
-                    predicate_depth_f64x,
-                    svld1_f32(predicate_depth_f32x, document_original_ptrs[row_batch_start + 2] + depth_index));
-                accumulator_2_f64x = svmla_f64_x(predicate_depth_f64x, accumulator_2_f64x, query_values_2_f64x,
-                                                 document_values_2_f64x);
-                svfloat64_t query_values_3_f64x = svcvt_f64_f32_x(
-                    predicate_depth_f64x,
-                    svld1_f32(predicate_depth_f32x, query_original_ptrs[row_batch_start + 3] + depth_index));
-                svfloat64_t document_values_3_f64x = svcvt_f64_f32_x(
-                    predicate_depth_f64x,
-                    svld1_f32(predicate_depth_f32x, document_original_ptrs[row_batch_start + 3] + depth_index));
-                accumulator_3_f64x = svmla_f64_x(predicate_depth_f64x, accumulator_3_f64x, query_values_3_f64x,
-                                                 document_values_3_f64x);
+            nk_size_t const depth_vector_length = svcntw();
+            nk_size_t const depth_half_length = svcntd();
+            for (nk_size_t depth_index = 0; depth_index < depth; depth_index += depth_vector_length) {
+                svbool_t predicate_depth_b32x = svwhilelt_b32_u64(depth_index, depth);
+                svbool_t predicate_even_b64x = svwhilelt_b64_u64(depth_index, depth);
+                svbool_t predicate_odd_b64x = svwhilelt_b64_u64(depth_index + depth_half_length, depth);
+                svfloat32_t query_values_0_f32x = svld1_f32(predicate_depth_b32x,
+                                                            query_original_ptrs[row_batch_start + 0] + depth_index);
+                svfloat32_t document_values_0_f32x = svld1_f32(
+                    predicate_depth_b32x, document_original_ptrs[row_batch_start + 0] + depth_index);
+                accumulator_0_f64x = svmla_f64_m(predicate_even_b64x, accumulator_0_f64x,
+                                                 svcvt_f64_f32_x(predicate_even_b64x, query_values_0_f32x),
+                                                 svcvt_f64_f32_x(predicate_even_b64x, document_values_0_f32x));
+                accumulator_0_f64x = svmla_f64_m(predicate_odd_b64x, accumulator_0_f64x,
+                                                 svcvtlt_f64_f32_x(predicate_odd_b64x, query_values_0_f32x),
+                                                 svcvtlt_f64_f32_x(predicate_odd_b64x, document_values_0_f32x));
+                svfloat32_t query_values_1_f32x = svld1_f32(predicate_depth_b32x,
+                                                            query_original_ptrs[row_batch_start + 1] + depth_index);
+                svfloat32_t document_values_1_f32x = svld1_f32(
+                    predicate_depth_b32x, document_original_ptrs[row_batch_start + 1] + depth_index);
+                accumulator_1_f64x = svmla_f64_m(predicate_even_b64x, accumulator_1_f64x,
+                                                 svcvt_f64_f32_x(predicate_even_b64x, query_values_1_f32x),
+                                                 svcvt_f64_f32_x(predicate_even_b64x, document_values_1_f32x));
+                accumulator_1_f64x = svmla_f64_m(predicate_odd_b64x, accumulator_1_f64x,
+                                                 svcvtlt_f64_f32_x(predicate_odd_b64x, query_values_1_f32x),
+                                                 svcvtlt_f64_f32_x(predicate_odd_b64x, document_values_1_f32x));
+                svfloat32_t query_values_2_f32x = svld1_f32(predicate_depth_b32x,
+                                                            query_original_ptrs[row_batch_start + 2] + depth_index);
+                svfloat32_t document_values_2_f32x = svld1_f32(
+                    predicate_depth_b32x, document_original_ptrs[row_batch_start + 2] + depth_index);
+                accumulator_2_f64x = svmla_f64_m(predicate_even_b64x, accumulator_2_f64x,
+                                                 svcvt_f64_f32_x(predicate_even_b64x, query_values_2_f32x),
+                                                 svcvt_f64_f32_x(predicate_even_b64x, document_values_2_f32x));
+                accumulator_2_f64x = svmla_f64_m(predicate_odd_b64x, accumulator_2_f64x,
+                                                 svcvtlt_f64_f32_x(predicate_odd_b64x, query_values_2_f32x),
+                                                 svcvtlt_f64_f32_x(predicate_odd_b64x, document_values_2_f32x));
+                svfloat32_t query_values_3_f32x = svld1_f32(predicate_depth_b32x,
+                                                            query_original_ptrs[row_batch_start + 3] + depth_index);
+                svfloat32_t document_values_3_f32x = svld1_f32(
+                    predicate_depth_b32x, document_original_ptrs[row_batch_start + 3] + depth_index);
+                accumulator_3_f64x = svmla_f64_m(predicate_even_b64x, accumulator_3_f64x,
+                                                 svcvt_f64_f32_x(predicate_even_b64x, query_values_3_f32x),
+                                                 svcvt_f64_f32_x(predicate_even_b64x, document_values_3_f32x));
+                accumulator_3_f64x = svmla_f64_m(predicate_odd_b64x, accumulator_3_f64x,
+                                                 svcvtlt_f64_f32_x(predicate_odd_b64x, query_values_3_f32x),
+                                                 svcvtlt_f64_f32_x(predicate_odd_b64x, document_values_3_f32x));
             }
             // Reduce accumulators and compute angular distance per row