npm - numkong - Versions diffs - 7.0.0 → 7.4.2 - Mend

numkong 7.0.0 → 7.4.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (315) hide show

package/README.md +197 -124
package/binding.gyp +34 -484
package/c/dispatch_bf16.c +59 -1
package/c/dispatch_e2m3.c +41 -8
package/c/dispatch_e3m2.c +49 -8
package/c/dispatch_e4m3.c +51 -9
package/c/dispatch_e5m2.c +45 -1
package/c/dispatch_f16.c +79 -26
package/c/dispatch_f16c.c +5 -5
package/c/dispatch_f32.c +56 -0
package/c/dispatch_f64.c +52 -0
package/c/dispatch_i4.c +3 -0
package/c/dispatch_i8.c +62 -3
package/c/dispatch_other.c +18 -0
package/c/dispatch_u1.c +54 -9
package/c/dispatch_u4.c +3 -0
package/c/dispatch_u8.c +64 -3
package/c/numkong.c +3 -0
package/include/README.md +79 -9
package/include/numkong/attention/sapphireamx.h +278 -276
package/include/numkong/attention/sme.h +983 -977
package/include/numkong/attention.h +1 -1
package/include/numkong/capabilities.h +289 -94
package/include/numkong/cast/README.md +40 -40
package/include/numkong/cast/diamond.h +64 -0
package/include/numkong/cast/haswell.h +42 -194
package/include/numkong/cast/icelake.h +42 -37
package/include/numkong/cast/loongsonasx.h +252 -0
package/include/numkong/cast/neon.h +216 -249
package/include/numkong/cast/powervsx.h +449 -0
package/include/numkong/cast/rvv.h +223 -274
package/include/numkong/cast/sapphire.h +18 -18
package/include/numkong/cast/serial.h +1018 -944
package/include/numkong/cast/skylake.h +82 -23
package/include/numkong/cast/v128relaxed.h +462 -105
package/include/numkong/cast.h +24 -0
package/include/numkong/cast.hpp +44 -0
package/include/numkong/curved/README.md +17 -17
package/include/numkong/curved/neon.h +131 -7
package/include/numkong/curved/neonbfdot.h +6 -7
package/include/numkong/curved/rvv.h +26 -26
package/include/numkong/curved/smef64.h +186 -182
package/include/numkong/curved.h +14 -18
package/include/numkong/dot/README.md +154 -137
package/include/numkong/dot/alder.h +43 -43
package/include/numkong/dot/diamond.h +158 -0
package/include/numkong/dot/genoa.h +4 -30
package/include/numkong/dot/haswell.h +215 -180
package/include/numkong/dot/icelake.h +190 -76
package/include/numkong/dot/loongsonasx.h +671 -0
package/include/numkong/dot/neon.h +124 -73
package/include/numkong/dot/neonbfdot.h +11 -12
package/include/numkong/dot/neonfhm.h +44 -46
package/include/numkong/dot/neonfp8.h +323 -0
package/include/numkong/dot/neonsdot.h +190 -76
package/include/numkong/dot/powervsx.h +752 -0
package/include/numkong/dot/rvv.h +92 -84
package/include/numkong/dot/rvvbf16.h +12 -12
package/include/numkong/dot/rvvhalf.h +12 -12
package/include/numkong/dot/sapphire.h +4 -4
package/include/numkong/dot/serial.h +66 -30
package/include/numkong/dot/sierra.h +31 -31
package/include/numkong/dot/skylake.h +142 -110
package/include/numkong/dot/sve.h +217 -177
package/include/numkong/dot/svebfdot.h +10 -10
package/include/numkong/dot/svehalf.h +85 -41
package/include/numkong/dot/svesdot.h +89 -0
package/include/numkong/dot/v128relaxed.h +124 -89
package/include/numkong/dot.h +114 -48
package/include/numkong/dots/README.md +203 -203
package/include/numkong/dots/alder.h +12 -9
package/include/numkong/dots/diamond.h +86 -0
package/include/numkong/dots/genoa.h +10 -4
package/include/numkong/dots/haswell.h +63 -48
package/include/numkong/dots/icelake.h +27 -18
package/include/numkong/dots/loongsonasx.h +176 -0
package/include/numkong/dots/neon.h +14 -11
package/include/numkong/dots/neonbfdot.h +4 -3
package/include/numkong/dots/neonfhm.h +11 -9
package/include/numkong/dots/neonfp8.h +99 -0
package/include/numkong/dots/neonsdot.h +48 -12
package/include/numkong/dots/powervsx.h +194 -0
package/include/numkong/dots/rvv.h +451 -344
package/include/numkong/dots/sapphireamx.h +1028 -984
package/include/numkong/dots/serial.h +213 -197
package/include/numkong/dots/sierra.h +10 -7
package/include/numkong/dots/skylake.h +47 -36
package/include/numkong/dots/sme.h +2001 -2364
package/include/numkong/dots/smebi32.h +175 -162
package/include/numkong/dots/smef64.h +328 -323
package/include/numkong/dots/v128relaxed.h +64 -41
package/include/numkong/dots.h +573 -293
package/include/numkong/dots.hpp +45 -43
package/include/numkong/each/README.md +133 -137
package/include/numkong/each/haswell.h +6 -6
package/include/numkong/each/icelake.h +7 -7
package/include/numkong/each/neon.h +76 -42
package/include/numkong/each/neonbfdot.h +11 -12
package/include/numkong/each/neonhalf.h +24 -116
package/include/numkong/each/rvv.h +28 -28
package/include/numkong/each/sapphire.h +27 -161
package/include/numkong/each/serial.h +6 -6
package/include/numkong/each/skylake.h +7 -7
package/include/numkong/each/v128relaxed.h +562 -0
package/include/numkong/each.h +148 -62
package/include/numkong/each.hpp +2 -2
package/include/numkong/geospatial/README.md +18 -18
package/include/numkong/geospatial/haswell.h +365 -325
package/include/numkong/geospatial/neon.h +350 -306
package/include/numkong/geospatial/rvv.h +4 -4
package/include/numkong/geospatial/skylake.h +376 -340
package/include/numkong/geospatial/v128relaxed.h +366 -327
package/include/numkong/geospatial.h +17 -17
package/include/numkong/matrix.hpp +4 -4
package/include/numkong/maxsim/README.md +14 -14
package/include/numkong/maxsim/alder.h +6 -6
package/include/numkong/maxsim/genoa.h +4 -4
package/include/numkong/maxsim/haswell.h +6 -6
package/include/numkong/maxsim/icelake.h +18 -18
package/include/numkong/maxsim/neonsdot.h +21 -21
package/include/numkong/maxsim/sapphireamx.h +14 -14
package/include/numkong/maxsim/serial.h +6 -6
package/include/numkong/maxsim/sme.h +221 -196
package/include/numkong/maxsim/v128relaxed.h +6 -6
package/include/numkong/mesh/README.md +62 -56
package/include/numkong/mesh/haswell.h +339 -464
package/include/numkong/mesh/neon.h +1100 -519
package/include/numkong/mesh/neonbfdot.h +36 -68
package/include/numkong/mesh/rvv.h +530 -435
package/include/numkong/mesh/serial.h +75 -91
package/include/numkong/mesh/skylake.h +1627 -302
package/include/numkong/mesh/v128relaxed.h +443 -330
package/include/numkong/mesh.h +63 -49
package/include/numkong/mesh.hpp +4 -4
package/include/numkong/numkong.h +3 -3
package/include/numkong/numkong.hpp +1 -0
package/include/numkong/probability/README.md +23 -19
package/include/numkong/probability/neon.h +82 -52
package/include/numkong/probability/rvv.h +28 -23
package/include/numkong/probability/serial.h +51 -39
package/include/numkong/probability.h +20 -23
package/include/numkong/random.h +1 -1
package/include/numkong/reduce/README.md +143 -138
package/include/numkong/reduce/alder.h +81 -77
package/include/numkong/reduce/haswell.h +222 -220
package/include/numkong/reduce/neon.h +629 -519
package/include/numkong/reduce/neonbfdot.h +7 -218
package/include/numkong/reduce/neonfhm.h +9 -381
package/include/numkong/reduce/neonsdot.h +9 -9
package/include/numkong/reduce/rvv.h +928 -802
package/include/numkong/reduce/serial.h +23 -27
package/include/numkong/reduce/sierra.h +20 -20
package/include/numkong/reduce/skylake.h +326 -324
package/include/numkong/reduce/v128relaxed.h +52 -52
package/include/numkong/reduce.h +4 -23
package/include/numkong/reduce.hpp +156 -11
package/include/numkong/scalar/README.md +6 -6
package/include/numkong/scalar/haswell.h +26 -17
package/include/numkong/scalar/loongsonasx.h +74 -0
package/include/numkong/scalar/neon.h +9 -9
package/include/numkong/scalar/powervsx.h +96 -0
package/include/numkong/scalar/rvv.h +2 -2
package/include/numkong/scalar/sapphire.h +21 -10
package/include/numkong/scalar/serial.h +21 -21
package/include/numkong/scalar.h +13 -0
package/include/numkong/set/README.md +28 -28
package/include/numkong/set/haswell.h +12 -12
package/include/numkong/set/icelake.h +14 -14
package/include/numkong/set/loongsonasx.h +181 -0
package/include/numkong/set/neon.h +17 -18
package/include/numkong/set/powervsx.h +326 -0
package/include/numkong/set/rvv.h +4 -4
package/include/numkong/set/serial.h +6 -6
package/include/numkong/set/sve.h +60 -59
package/include/numkong/set/v128relaxed.h +6 -6
package/include/numkong/set.h +21 -7
package/include/numkong/sets/README.md +26 -26
package/include/numkong/sets/loongsonasx.h +52 -0
package/include/numkong/sets/powervsx.h +65 -0
package/include/numkong/sets/smebi32.h +395 -364
package/include/numkong/sets.h +83 -40
package/include/numkong/sparse/README.md +4 -4
package/include/numkong/sparse/icelake.h +101 -101
package/include/numkong/sparse/serial.h +1 -1
package/include/numkong/sparse/sve2.h +137 -141
package/include/numkong/sparse/turin.h +12 -12
package/include/numkong/sparse.h +10 -10
package/include/numkong/spatial/README.md +230 -226
package/include/numkong/spatial/alder.h +113 -116
package/include/numkong/spatial/diamond.h +240 -0
package/include/numkong/spatial/genoa.h +0 -68
package/include/numkong/spatial/haswell.h +74 -55
package/include/numkong/spatial/icelake.h +539 -58
package/include/numkong/spatial/loongsonasx.h +483 -0
package/include/numkong/spatial/neon.h +125 -52
package/include/numkong/spatial/neonbfdot.h +8 -9
package/include/numkong/spatial/neonfp8.h +258 -0
package/include/numkong/spatial/neonsdot.h +180 -12
package/include/numkong/spatial/powervsx.h +738 -0
package/include/numkong/spatial/rvv.h +146 -139
package/include/numkong/spatial/rvvbf16.h +17 -12
package/include/numkong/spatial/rvvhalf.h +13 -10
package/include/numkong/spatial/serial.h +13 -12
package/include/numkong/spatial/sierra.h +232 -39
package/include/numkong/spatial/skylake.h +73 -74
package/include/numkong/spatial/sve.h +93 -72
package/include/numkong/spatial/svebfdot.h +29 -29
package/include/numkong/spatial/svehalf.h +52 -26
package/include/numkong/spatial/svesdot.h +142 -0
package/include/numkong/spatial/v128relaxed.h +293 -41
package/include/numkong/spatial.h +338 -82
package/include/numkong/spatials/README.md +194 -194
package/include/numkong/spatials/diamond.h +82 -0
package/include/numkong/spatials/haswell.h +2 -2
package/include/numkong/spatials/loongsonasx.h +153 -0
package/include/numkong/spatials/neonfp8.h +111 -0
package/include/numkong/spatials/neonsdot.h +34 -0
package/include/numkong/spatials/powervsx.h +153 -0
package/include/numkong/spatials/rvv.h +259 -243
package/include/numkong/spatials/sapphireamx.h +173 -173
package/include/numkong/spatials/serial.h +2 -2
package/include/numkong/spatials/skylake.h +2 -2
package/include/numkong/spatials/sme.h +590 -605
package/include/numkong/spatials/smef64.h +139 -130
package/include/numkong/spatials/v128relaxed.h +2 -2
package/include/numkong/spatials.h +820 -500
package/include/numkong/spatials.hpp +49 -48
package/include/numkong/tensor.hpp +406 -17
package/include/numkong/trigonometry/README.md +19 -19
package/include/numkong/trigonometry/haswell.h +402 -401
package/include/numkong/trigonometry/neon.h +386 -387
package/include/numkong/trigonometry/rvv.h +52 -51
package/include/numkong/trigonometry/serial.h +13 -13
package/include/numkong/trigonometry/skylake.h +373 -369
package/include/numkong/trigonometry/v128relaxed.h +375 -374
package/include/numkong/trigonometry.h +13 -13
package/include/numkong/trigonometry.hpp +2 -2
package/include/numkong/types.h +287 -49
package/include/numkong/types.hpp +436 -12
package/include/numkong/vector.hpp +82 -14
package/javascript/dist/cjs/numkong-wasm.js +6 -12
package/javascript/dist/cjs/numkong.d.ts +7 -1
package/javascript/dist/cjs/numkong.js +37 -11
package/javascript/dist/cjs/types.d.ts +9 -0
package/javascript/dist/cjs/types.js +96 -0
package/javascript/dist/esm/numkong-browser.d.ts +14 -0
package/javascript/dist/esm/numkong-browser.js +23 -0
package/javascript/dist/esm/numkong-wasm.js +6 -12
package/javascript/dist/esm/numkong.d.ts +7 -1
package/javascript/dist/esm/numkong.js +37 -11
package/javascript/dist/esm/types.d.ts +9 -0
package/javascript/dist/esm/types.js +96 -0
package/javascript/node-gyp-build.d.ts +4 -1
package/javascript/numkong-browser.ts +40 -0
package/javascript/numkong-wasm.ts +7 -13
package/javascript/numkong.c +5 -26
package/javascript/numkong.ts +36 -11
package/javascript/tsconfig-base.json +1 -0
package/javascript/tsconfig-cjs.json +6 -1
package/javascript/types.ts +110 -0
package/numkong.gypi +101 -0
package/package.json +34 -13
package/probes/arm_neon.c +8 -0
package/probes/arm_neon_bfdot.c +9 -0
package/probes/arm_neon_fhm.c +9 -0
package/probes/arm_neon_half.c +8 -0
package/probes/arm_neon_sdot.c +9 -0
package/probes/arm_neonfp8.c +9 -0
package/probes/arm_sme.c +16 -0
package/probes/arm_sme2.c +16 -0
package/probes/arm_sme2p1.c +16 -0
package/probes/arm_sme_bf16.c +16 -0
package/probes/arm_sme_bi32.c +16 -0
package/probes/arm_sme_f64.c +16 -0
package/probes/arm_sme_fa64.c +14 -0
package/probes/arm_sme_half.c +16 -0
package/probes/arm_sme_lut2.c +15 -0
package/probes/arm_sve.c +18 -0
package/probes/arm_sve2.c +20 -0
package/probes/arm_sve2p1.c +18 -0
package/probes/arm_sve_bfdot.c +20 -0
package/probes/arm_sve_half.c +18 -0
package/probes/arm_sve_sdot.c +21 -0
package/probes/loongarch_lasx.c +12 -0
package/probes/power_vsx.c +12 -0
package/probes/probe.js +127 -0
package/probes/riscv_rvv.c +14 -0
package/probes/riscv_rvv_bb.c +15 -0
package/probes/riscv_rvv_bf16.c +17 -0
package/probes/riscv_rvv_half.c +14 -0
package/probes/wasm_v128relaxed.c +11 -0
package/probes/x86_alder.c +17 -0
package/probes/x86_diamond.c +17 -0
package/probes/x86_genoa.c +17 -0
package/probes/x86_graniteamx.c +19 -0
package/probes/x86_haswell.c +11 -0
package/probes/x86_icelake.c +17 -0
package/probes/x86_sapphire.c +16 -0
package/probes/x86_sapphireamx.c +18 -0
package/probes/x86_sierra.c +17 -0
package/probes/x86_skylake.c +15 -0
package/probes/x86_turin.c +17 -0
package/wasm/numkong-emscripten.js +2 -0
package/wasm/numkong.d.ts +14 -0
package/wasm/numkong.js +1124 -0
package/wasm/numkong.wasm +0 -0
package/include/numkong/curved/neonhalf.h +0 -212
package/include/numkong/dot/neonhalf.h +0 -198
package/include/numkong/dots/neonhalf.h +0 -57
package/include/numkong/mesh/neonhalf.h +0 -616
package/include/numkong/reduce/neonhalf.h +0 -157
package/include/numkong/spatial/neonhalf.h +0 -118
package/include/numkong/spatial/sapphire.h +0 -343
package/include/numkong/spatials/neonhalf.h +0 -58
package/javascript/README.md +0 -246

package/include/numkong/dots/smebi32.h CHANGED Viewed

@@ -25,7 +25,7 @@ extern "C" {
 #endif
 #if defined(__clang__)
-#pragma clang attribute push(__attribute__((target("sme2,sve2"))), apply_to = function)
+#pragma clang attribute push(__attribute__((target("sme2"))), apply_to = function)
 #elif defined(__GNUC__)
 #pragma GCC push_options
 #pragma GCC target("+sme2")
@@ -50,28 +50,32 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_packed_u1_smebi32_st
     nk_size_t const tile_dim = svcntw();        // 16 for 512-bit SVL
     nk_size_t const depth_tile_size = svcntw(); // 16 u32 per depth tile
     nk_size_t const tile_elements = tile_dim * depth_tile_size;
-    nk_size_t const depth_u32_total = nk_size_divide_round_up_(depth_bits, 32);
+    // BMOPA processes binary data in 32-bit words: each svbmopa_za32_u32_m step
+    // handles one u32 (32 bits) across all row×column pairs simultaneously.
+    nk_size_t const depth_words = nk_size_divide_round_up_(depth_bits, 32);
+    nk_size_t const depth_bytes = depth_bits / 8;
     nk_u32_t const *b_tiles = (nk_u32_t const *)((char const *)b_packed + sizeof(nk_sets_smebi32_packed_header_t));
     nk_u32_t const *b_norms = header->norms_offset ? (nk_u32_t const *)((char const *)b_packed + header->norms_offset)
                                                    : (nk_u32_t const *)0;
-    svbool_t const predicate_all_u32x = svptrue_b32();
-    svuint32_t const depth_u32x = svdup_u32((nk_u32_t)depth_bits);
-    nk_size_t const depth_in_bytes = nk_size_divide_round_up_(depth_bits, 8);
+    svbool_t const predicate_all_b32x = svptrue_b32();
+    // Use padded depth (depth_words * 32) for BMOPA: zero-padded bits always match in XNOR,
+    // so the effective depth for the matching→intersection conversion is the rounded-up bit count.
+    svuint32_t const depth_u32x = svdup_u32((nk_u32_t)(depth_words * 32));
     nk_size_t const row_tile_count_a = nk_size_divide_round_up_(row_count_a, tile_dim);
     for (nk_size_t row_tile_a = 0; row_tile_a < row_tile_count_a; row_tile_a++) {
         nk_size_t const row_start_a = row_tile_a * tile_dim;
         nk_size_t const rows_a_remaining = (row_start_a + tile_dim <= row_count_a) ? tile_dim
                                                                                    : (row_count_a - row_start_a);
-        svbool_t const row_predicate_u32x = svwhilelt_b32_u64(0u, rows_a_remaining);
+        svbool_t const row_predicate_b32x = svwhilelt_b32_u64(0u, rows_a_remaining);
         // Compute A row popcounts for this tile
         nk_u32_t a_popcounts[16];
         for (nk_size_t r = 0; r < rows_a_remaining; r++) {
             nk_u1x8_t const *a_row = (nk_u1x8_t const *)((char const *)a + (row_start_a + r) * a_stride_in_bytes);
-            a_popcounts[r] = nk_sets_reduce_sumsq_u1_streaming_(a_row, depth_in_bytes);
+            a_popcounts[r] = nk_sets_reduce_sumsq_u1_streaming_(a_row, depth_bytes);
         }
         // Fast path: 3 B column tiles using ZA1-ZA3 (ZA0.S = staging)
@@ -81,21 +85,21 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_packed_u1_smebi32_st
             for (nk_size_t d_tile = 0; d_tile < depth_tile_count; d_tile++) {
                 nk_size_t const d_start_u32 = d_tile * depth_tile_size;
-                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_u32_total)
+                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_words)
                                                      ? depth_tile_size
-                                                     : (depth_u32_total > d_start_u32 ? depth_u32_total - d_start_u32
-                                                                                      : 0);
+                                                     : (depth_words > d_start_u32 ? depth_words - d_start_u32 : 0);
                 if (u32s_this_tile == 0) break;
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
-                svbool_t const batch_predicate_u32x = svwhilelt_b32_u64(0u, u32s_this_tile);
+                svbool_t const batch_predicate_b32x = svwhilelt_b32_u64(0u, u32s_this_tile);
+                svbool_t const depth_predicate_b8x = svwhilelt_b8_u64(d_start_u32 * 4, depth_bytes);
                 for (nk_size_t row_in_tile = 0; row_in_tile < rows_a_remaining; row_in_tile++) {
-                    nk_u32_t const *a_row_u32 = (nk_u32_t const *)((char const *)a +
-                                                                   (row_start_a + row_in_tile) * a_stride_in_bytes) +
-                                                d_start_u32;
-                    svld1_hor_za32(0, row_in_tile, batch_predicate_u32x, a_row_u32);
+                    nk_u8_t const *a_row = (nk_u8_t const *)a + (row_start_a + row_in_tile) * a_stride_in_bytes +
+                                           d_start_u32 * 4;
+                    svuint8_t row_u8x = svld1_u8(depth_predicate_b8x, a_row);
+                    svwrite_hor_za32_u32_m(0, row_in_tile, batch_predicate_b32x, svreinterpret_u32_u8(row_u8x));
                 }
                 nk_u32_t const *b_tile0 = b_tiles + ((row_tile_b + 0) * depth_tile_count + d_tile) * tile_elements;
@@ -103,47 +107,47 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_packed_u1_smebi32_st
                 nk_u32_t const *b_tile2 = b_tiles + ((row_tile_b + 2) * depth_tile_count + d_tile) * tile_elements;
                 for (nk_size_t step = 0; step < u32s_this_tile; step++) {
-                    svuint32_t a_column_u32x = svread_ver_za32_u32_m(svdup_u32(0), row_predicate_u32x, 0, step);
-                    svbmopa_za32_u32_m(1, row_predicate_u32x, predicate_all_u32x, a_column_u32x,
-                                       svld1_u32(predicate_all_u32x, b_tile0 + step * tile_dim));
-                    svbmopa_za32_u32_m(2, row_predicate_u32x, predicate_all_u32x, a_column_u32x,
-                                       svld1_u32(predicate_all_u32x, b_tile1 + step * tile_dim));
-                    svbmopa_za32_u32_m(3, row_predicate_u32x, predicate_all_u32x, a_column_u32x,
-                                       svld1_u32(predicate_all_u32x, b_tile2 + step * tile_dim));
+                    svuint32_t a_column_u32x = svread_ver_za32_u32_m(svdup_u32(0), row_predicate_b32x, 0, step);
+                    svbmopa_za32_u32_m(1, row_predicate_b32x, predicate_all_b32x, a_column_u32x,
+                                       svld1_u32(predicate_all_b32x, b_tile0 + step * tile_dim));
+                    svbmopa_za32_u32_m(2, row_predicate_b32x, predicate_all_b32x, a_column_u32x,
+                                       svld1_u32(predicate_all_b32x, b_tile1 + step * tile_dim));
+                    svbmopa_za32_u32_m(3, row_predicate_b32x, predicate_all_b32x, a_column_u32x,
+                                       svld1_u32(predicate_all_b32x, b_tile2 + step * tile_dim));
                 }
             }
             // Extract: dot = (pop_a + pop_b - depth + matching) / 2
             // matching = ZA[i][j]
-            svuint32_t b_pop0_u32x = svld1_u32(predicate_all_u32x, b_norms + (row_tile_b + 0) * tile_dim);
-            svuint32_t b_pop1_u32x = svld1_u32(predicate_all_u32x, b_norms + (row_tile_b + 1) * tile_dim);
-            svuint32_t b_pop2_u32x = svld1_u32(predicate_all_u32x, b_norms + (row_tile_b + 2) * tile_dim);
+            svuint32_t b_pop0_u32x = svld1_u32(predicate_all_b32x, b_norms + (row_tile_b + 0) * tile_dim);
+            svuint32_t b_pop1_u32x = svld1_u32(predicate_all_b32x, b_norms + (row_tile_b + 1) * tile_dim);
+            svuint32_t b_pop2_u32x = svld1_u32(predicate_all_b32x, b_norms + (row_tile_b + 2) * tile_dim);
             for (nk_size_t row = 0; row < rows_a_remaining; row++) {
                 nk_u32_t *c_row = (nk_u32_t *)((char *)c + (row_start_a + row) * c_stride_in_bytes);
                 svuint32_t pop_a_u32x = svdup_u32(a_popcounts[row]);
-                svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_u32x, 1, row);
-                svuint32_t sum_pops0_u32x = svadd_u32_x(predicate_all_u32x, pop_a_u32x, b_pop0_u32x);
+                svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 1, row);
+                svuint32_t sum_pops0_u32x = svadd_u32_x(predicate_all_b32x, pop_a_u32x, b_pop0_u32x);
                 svuint32_t numerator0_u32x = svadd_u32_x(
-                    predicate_all_u32x, svsub_u32_x(predicate_all_u32x, sum_pops0_u32x, depth_u32x), za1_u32x);
-                svst1_u32(predicate_all_u32x, c_row + (row_tile_b + 0) * tile_dim,
-                          svlsr_n_u32_x(predicate_all_u32x, numerator0_u32x, 1));
+                    predicate_all_b32x, svsub_u32_x(predicate_all_b32x, sum_pops0_u32x, depth_u32x), za1_u32x);
+                svst1_u32(predicate_all_b32x, c_row + (row_tile_b + 0) * tile_dim,
+                          svlsr_n_u32_x(predicate_all_b32x, numerator0_u32x, 1));
-                svuint32_t za2_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_u32x, 2, row);
-                svuint32_t sum_pops1_u32x = svadd_u32_x(predicate_all_u32x, pop_a_u32x, b_pop1_u32x);
+                svuint32_t za2_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 2, row);
+                svuint32_t sum_pops1_u32x = svadd_u32_x(predicate_all_b32x, pop_a_u32x, b_pop1_u32x);
                 svuint32_t numerator1_u32x = svadd_u32_x(
-                    predicate_all_u32x, svsub_u32_x(predicate_all_u32x, sum_pops1_u32x, depth_u32x), za2_u32x);
-                svst1_u32(predicate_all_u32x, c_row + (row_tile_b + 1) * tile_dim,
-                          svlsr_n_u32_x(predicate_all_u32x, numerator1_u32x, 1));
+                    predicate_all_b32x, svsub_u32_x(predicate_all_b32x, sum_pops1_u32x, depth_u32x), za2_u32x);
+                svst1_u32(predicate_all_b32x, c_row + (row_tile_b + 1) * tile_dim,
+                          svlsr_n_u32_x(predicate_all_b32x, numerator1_u32x, 1));
-                svuint32_t za3_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_u32x, 3, row);
-                svuint32_t sum_pops2_u32x = svadd_u32_x(predicate_all_u32x, pop_a_u32x, b_pop2_u32x);
+                svuint32_t za3_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 3, row);
+                svuint32_t sum_pops2_u32x = svadd_u32_x(predicate_all_b32x, pop_a_u32x, b_pop2_u32x);
                 svuint32_t numerator2_u32x = svadd_u32_x(
-                    predicate_all_u32x, svsub_u32_x(predicate_all_u32x, sum_pops2_u32x, depth_u32x), za3_u32x);
-                svst1_u32(predicate_all_u32x, c_row + (row_tile_b + 2) * tile_dim,
-                          svlsr_n_u32_x(predicate_all_u32x, numerator2_u32x, 1));
+                    predicate_all_b32x, svsub_u32_x(predicate_all_b32x, sum_pops2_u32x, depth_u32x), za3_u32x);
+                svst1_u32(predicate_all_b32x, c_row + (row_tile_b + 2) * tile_dim,
+                          svlsr_n_u32_x(predicate_all_b32x, numerator2_u32x, 1));
             }
         }
@@ -152,49 +156,49 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_packed_u1_smebi32_st
             nk_size_t const row_start_b = row_tile_b * tile_dim;
             nk_size_t const rows_b_remaining = (row_start_b + tile_dim <= row_count_b) ? tile_dim
                                                                                        : (row_count_b - row_start_b);
-            svbool_t const column_predicate_u32x = svwhilelt_b32_u64(0u, rows_b_remaining);
+            svbool_t const column_predicate_b32x = svwhilelt_b32_u64(0u, rows_b_remaining);
             svzero_mask_za(nk_sme_zero_za32_tile_1_);
             for (nk_size_t d_tile = 0; d_tile < depth_tile_count; d_tile++) {
                 nk_size_t const d_start_u32 = d_tile * depth_tile_size;
-                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_u32_total)
+                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_words)
                                                      ? depth_tile_size
-                                                     : (depth_u32_total > d_start_u32 ? depth_u32_total - d_start_u32
-                                                                                      : 0);
+                                                     : (depth_words > d_start_u32 ? depth_words - d_start_u32 : 0);
                 if (u32s_this_tile == 0) break;
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
-                svbool_t const batch_predicate_u32x = svwhilelt_b32_u64(0u, u32s_this_tile);
+                svbool_t const batch_predicate_b32x = svwhilelt_b32_u64(0u, u32s_this_tile);
+                svbool_t const depth_predicate_b8x = svwhilelt_b8_u64(d_start_u32 * 4, depth_bytes);
                 for (nk_size_t row_in_tile = 0; row_in_tile < rows_a_remaining; row_in_tile++) {
-                    nk_u32_t const *a_row_u32 = (nk_u32_t const *)((char const *)a +
-                                                                   (row_start_a + row_in_tile) * a_stride_in_bytes) +
-                                                d_start_u32;
-                    svld1_hor_za32(0, row_in_tile, batch_predicate_u32x, a_row_u32);
+                    nk_u8_t const *a_row = (nk_u8_t const *)a + (row_start_a + row_in_tile) * a_stride_in_bytes +
+                                           d_start_u32 * 4;
+                    svuint8_t row_u8x = svld1_u8(depth_predicate_b8x, a_row);
+                    svwrite_hor_za32_u32_m(0, row_in_tile, batch_predicate_b32x, svreinterpret_u32_u8(row_u8x));
                 }
                 nk_u32_t const *b_tile = b_tiles + (row_tile_b * depth_tile_count + d_tile) * tile_elements;
                 for (nk_size_t step = 0; step < u32s_this_tile; step++) {
-                    svuint32_t a_column_u32x = svread_ver_za32_u32_m(svdup_u32(0), row_predicate_u32x, 0, step);
-                    svuint32_t b_u32x = svld1_u32(predicate_all_u32x, b_tile + step * tile_dim);
-                    svbmopa_za32_u32_m(1, row_predicate_u32x, column_predicate_u32x, a_column_u32x, b_u32x);
+                    svuint32_t a_column_u32x = svread_ver_za32_u32_m(svdup_u32(0), row_predicate_b32x, 0, step);
+                    svuint32_t b_u32x = svld1_u32(predicate_all_b32x, b_tile + step * tile_dim);
+                    svbmopa_za32_u32_m(1, row_predicate_b32x, column_predicate_b32x, a_column_u32x, b_u32x);
                 }
             }
             // Extract: dot = (pop_a + pop_b - depth + matching) / 2
-            svuint32_t b_pop_u32x = svld1_u32(predicate_all_u32x, b_norms + row_start_b);
+            svuint32_t b_pop_u32x = svld1_u32(predicate_all_b32x, b_norms + row_start_b);
             for (nk_size_t row = 0; row < rows_a_remaining; row++) {
-                svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_u32x, 1, row);
+                svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 1, row);
                 svuint32_t pop_a_u32x = svdup_u32(a_popcounts[row]);
-                svuint32_t sum_pops_u32x = svadd_u32_x(predicate_all_u32x, pop_a_u32x, b_pop_u32x);
+                svuint32_t sum_pops_u32x = svadd_u32_x(predicate_all_b32x, pop_a_u32x, b_pop_u32x);
                 svuint32_t numerator_u32x = svadd_u32_x(
-                    predicate_all_u32x, svsub_u32_x(predicate_all_u32x, sum_pops_u32x, depth_u32x), za1_u32x);
+                    predicate_all_b32x, svsub_u32_x(predicate_all_b32x, sum_pops_u32x, depth_u32x), za1_u32x);
                 nk_u32_t *c_row = (nk_u32_t *)((char *)c + (row_start_a + row) * c_stride_in_bytes);
-                svst1_u32(column_predicate_u32x, c_row + row_start_b,
-                          svlsr_n_u32_x(predicate_all_u32x, numerator_u32x, 1));
+                svst1_u32(column_predicate_b32x, c_row + row_start_b,
+                          svlsr_n_u32_x(predicate_all_b32x, numerator_u32x, 1));
             }
         }
     }
@@ -212,39 +216,46 @@ NK_PUBLIC void nk_dots_packed_u1_smebi32(nk_u1x8_t const *a, void const *b_packe
  *  Same ZA transpose pattern as hammings_symmetric, but with dot extraction.
  */
 __arm_locally_streaming __arm_new("za") static void nk_dots_symmetric_u1_smebi32_streaming_(
-    nk_u1x8_t const *vectors, nk_size_t n_vectors, nk_size_t depth_bits, nk_size_t stride, nk_u32_t *result,
-    nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_u1x8_t const *vectors, nk_size_t vectors_count, nk_size_t depth_bits, nk_size_t stride_in_bytes,
+    nk_u32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const tile_dim = svcntw();        // 16 for 512-bit SVL
     nk_size_t const depth_tile_size = svcntw(); // 16 u32 per depth tile
-    nk_size_t const depth_u32_total = nk_size_divide_round_up_(depth_bits, 32);
-    nk_size_t const depth_tile_count = nk_size_divide_round_up_(depth_u32_total, depth_tile_size);
-    nk_size_t const depth_in_bytes = nk_size_divide_round_up_(depth_bits, 8);
+    // BMOPA processes binary data in 32-bit words: each svbmopa_za32_u32_m step
+    // handles one u32 (32 bits) across all row×column pairs simultaneously.
+    nk_size_t const depth_words = nk_size_divide_round_up_(depth_bits, 32);
+    nk_size_t const depth_bytes = depth_bits / 8;
+    nk_size_t const depth_tile_count = nk_size_divide_round_up_(depth_words, depth_tile_size);
-    svbool_t const predicate_all_u32x = svptrue_b32();
-    svuint32_t const depth_u32x = svdup_u32((nk_u32_t)depth_bits);
+    svbool_t const predicate_all_b32x = svptrue_b32();
+    // Use padded depth (depth_words * 32) for BMOPA: zero-padded bits always match in XNOR,
+    // so the effective depth for the matching→intersection conversion is the rounded-up bit count.
+    svuint32_t const depth_u32x = svdup_u32((nk_u32_t)(depth_words * 32));
     NK_ALIGN64 nk_u32_t a_buffer[16][16]; // Stack buffer for A column save
     nk_size_t const row_end = row_start + row_count;
-    nk_size_t const column_tile_count = nk_size_divide_round_up_(n_vectors, tile_dim);
+    nk_size_t const column_tile_count = nk_size_divide_round_up_(vectors_count, tile_dim);
-    for (nk_size_t row_tile_start = row_start; row_tile_start < row_end && row_tile_start < n_vectors;
+    for (nk_size_t row_tile_start = row_start; row_tile_start < row_end && row_tile_start < vectors_count;
          row_tile_start += tile_dim) {
         nk_size_t const rows_remaining = (row_tile_start + tile_dim <= row_end) ? tile_dim : (row_end - row_tile_start);
-        nk_size_t const rows_clamped = (row_tile_start + rows_remaining <= n_vectors) ? rows_remaining
-                                                                                      : (n_vectors - row_tile_start);
-        svbool_t const row_predicate_u32x = svwhilelt_b32_u64(0u, rows_clamped);
+        nk_size_t const rows_clamped = (row_tile_start + rows_remaining <= vectors_count)
+                                           ? rows_remaining
+                                           : (vectors_count - row_tile_start);
+        svbool_t const row_predicate_b32x = svwhilelt_b32_u64(0u, rows_clamped);
         // Compute A tile popcounts
         NK_ALIGN64 nk_u32_t a_tile_pops[16];
         for (nk_size_t r = 0; r < rows_clamped; r++) {
-            nk_u1x8_t const *a_row = (nk_u1x8_t const *)((char const *)vectors + (row_tile_start + r) * stride);
-            a_tile_pops[r] = nk_sets_reduce_sumsq_u1_streaming_(a_row, depth_in_bytes);
+            nk_u1x8_t const *a_row = (nk_u1x8_t const *)((char const *)vectors +
+                                                         (row_tile_start + r) * stride_in_bytes);
+            a_tile_pops[r] = nk_sets_reduce_sumsq_u1_streaming_(a_row, depth_bytes);
         }
         for (nk_size_t r = rows_clamped; r < tile_dim; r++) a_tile_pops[r] = 0;
-        nk_size_t column_tile_index = 0;
+        // Upper triangle: start from this row tile's column
+        nk_size_t column_tile_index = row_tile_start / tile_dim;
         // Fast path: 3 column tiles using ZA1-ZA3 (ZA0 = staging)
         for (; column_tile_index + 3 <= column_tile_count; column_tile_index += 3) {
@@ -252,73 +263,73 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_symmetric_u1_smebi32
             for (nk_size_t d_tile = 0; d_tile < depth_tile_count; d_tile++) {
                 nk_size_t const d_start_u32 = d_tile * depth_tile_size;
-                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_u32_total)
+                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_words)
                                                      ? depth_tile_size
-                                                     : (depth_u32_total > d_start_u32 ? depth_u32_total - d_start_u32
-                                                                                      : 0);
+                                                     : (depth_words > d_start_u32 ? depth_words - d_start_u32 : 0);
                 if (u32s_this_tile == 0) break;
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
-                svbool_t const batch_predicate_u32x = svwhilelt_b32_u64(0u, u32s_this_tile);
+                svbool_t const batch_predicate_b32x = svwhilelt_b32_u64(0u, u32s_this_tile);
+                svbool_t const depth_predicate_b8x = svwhilelt_b8_u64(d_start_u32 * 4, depth_bytes);
                 for (nk_size_t row_in_tile = 0; row_in_tile < rows_clamped; row_in_tile++) {
-                    nk_u32_t const *a_row_u32 = (nk_u32_t const *)((char const *)vectors +
-                                                                   (row_tile_start + row_in_tile) * stride) +
-                                                d_start_u32;
-                    svld1_hor_za32(0, row_in_tile, batch_predicate_u32x, a_row_u32);
+                    nk_u8_t const *a_row = (nk_u8_t const *)vectors + (row_tile_start + row_in_tile) * stride_in_bytes +
+                                           d_start_u32 * 4;
+                    svuint8_t row_u8x = svld1_u8(depth_predicate_b8x, a_row);
+                    svwrite_hor_za32_u32_m(0, row_in_tile, batch_predicate_b32x, svreinterpret_u32_u8(row_u8x));
                 }
                 // Save A columns
                 for (nk_size_t s = 0; s < u32s_this_tile; s++)
-                    svst1_u32(predicate_all_u32x, a_buffer[s],
-                              svread_ver_za32_u32_m(svdup_u32(0), row_predicate_u32x, 0, s));
+                    svst1_u32(predicate_all_b32x, a_buffer[s],
+                              svread_ver_za32_u32_m(svdup_u32(0), row_predicate_b32x, 0, s));
                 // B column tile 0
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
                 for (nk_size_t col = 0; col < tile_dim; col++) {
                     nk_size_t const col_abs = (column_tile_index + 0) * tile_dim + col;
-                    if (col_abs < n_vectors) {
-                        nk_u32_t const *b_row = (nk_u32_t const *)((char const *)vectors + col_abs * stride) +
-                                                d_start_u32;
-                        svld1_hor_za32(0, col, batch_predicate_u32x, b_row);
+                    if (col_abs < vectors_count) {
+                        nk_u8_t const *b_row = (nk_u8_t const *)vectors + col_abs * stride_in_bytes + d_start_u32 * 4;
+                        svuint8_t col_u8x = svld1_u8(depth_predicate_b8x, b_row);
+                        svwrite_hor_za32_u32_m(0, col, batch_predicate_b32x, svreinterpret_u32_u8(col_u8x));
                     }
                 }
                 for (nk_size_t step = 0; step < u32s_this_tile; step++) {
-                    svuint32_t a_u32x = svld1_u32(predicate_all_u32x, a_buffer[step]);
-                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), predicate_all_u32x, 0, step);
-                    svbmopa_za32_u32_m(1, row_predicate_u32x, predicate_all_u32x, a_u32x, b_u32x);
+                    svuint32_t a_u32x = svld1_u32(predicate_all_b32x, a_buffer[step]);
+                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), predicate_all_b32x, 0, step);
+                    svbmopa_za32_u32_m(1, row_predicate_b32x, predicate_all_b32x, a_u32x, b_u32x);
                 }
                 // B column tile 1
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
                 for (nk_size_t col = 0; col < tile_dim; col++) {
                     nk_size_t const col_abs = (column_tile_index + 1) * tile_dim + col;
-                    if (col_abs < n_vectors) {
-                        nk_u32_t const *b_row = (nk_u32_t const *)((char const *)vectors + col_abs * stride) +
-                                                d_start_u32;
-                        svld1_hor_za32(0, col, batch_predicate_u32x, b_row);
+                    if (col_abs < vectors_count) {
+                        nk_u8_t const *b_row = (nk_u8_t const *)vectors + col_abs * stride_in_bytes + d_start_u32 * 4;
+                        svuint8_t col_u8x = svld1_u8(depth_predicate_b8x, b_row);
+                        svwrite_hor_za32_u32_m(0, col, batch_predicate_b32x, svreinterpret_u32_u8(col_u8x));
                     }
                 }
                 for (nk_size_t step = 0; step < u32s_this_tile; step++) {
-                    svuint32_t a_u32x = svld1_u32(predicate_all_u32x, a_buffer[step]);
-                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), predicate_all_u32x, 0, step);
-                    svbmopa_za32_u32_m(2, row_predicate_u32x, predicate_all_u32x, a_u32x, b_u32x);
+                    svuint32_t a_u32x = svld1_u32(predicate_all_b32x, a_buffer[step]);
+                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), predicate_all_b32x, 0, step);
+                    svbmopa_za32_u32_m(2, row_predicate_b32x, predicate_all_b32x, a_u32x, b_u32x);
                 }
                 // B column tile 2
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
                 for (nk_size_t col = 0; col < tile_dim; col++) {
                     nk_size_t const col_abs = (column_tile_index + 2) * tile_dim + col;
-                    if (col_abs < n_vectors) {
-                        nk_u32_t const *b_row = (nk_u32_t const *)((char const *)vectors + col_abs * stride) +
-                                                d_start_u32;
-                        svld1_hor_za32(0, col, batch_predicate_u32x, b_row);
+                    if (col_abs < vectors_count) {
+                        nk_u8_t const *b_row = (nk_u8_t const *)vectors + col_abs * stride_in_bytes + d_start_u32 * 4;
+                        svuint8_t col_u8x = svld1_u8(depth_predicate_b8x, b_row);
+                        svwrite_hor_za32_u32_m(0, col, batch_predicate_b32x, svreinterpret_u32_u8(col_u8x));
                     }
                 }
                 for (nk_size_t step = 0; step < u32s_this_tile; step++) {
-                    svuint32_t a_u32x = svld1_u32(predicate_all_u32x, a_buffer[step]);
-                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), predicate_all_u32x, 0, step);
-                    svbmopa_za32_u32_m(3, row_predicate_u32x, predicate_all_u32x, a_u32x, b_u32x);
+                    svuint32_t a_u32x = svld1_u32(predicate_all_b32x, a_buffer[step]);
+                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), predicate_all_b32x, 0, step);
+                    svbmopa_za32_u32_m(3, row_predicate_b32x, predicate_all_b32x, a_u32x, b_u32x);
                 }
             }
@@ -328,88 +339,89 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_symmetric_u1_smebi32
             for (nk_size_t t = 0; t < 3; t++) {
                 for (nk_size_t col = 0; col < tile_dim; col++) {
                     nk_size_t const col_abs = (column_tile_index + t) * tile_dim + col;
-                    if (col_abs < n_vectors) {
-                        nk_u1x8_t const *b_row = (nk_u1x8_t const *)((char const *)vectors + col_abs * stride);
-                        b_pops[t][col] = nk_sets_reduce_sumsq_u1_streaming_(b_row, depth_in_bytes);
+                    if (col_abs < vectors_count) {
+                        nk_u1x8_t const *b_row = (nk_u1x8_t const *)((char const *)vectors + col_abs * stride_in_bytes);
+                        b_pops[t][col] = nk_sets_reduce_sumsq_u1_streaming_(b_row, depth_bytes);
                     }
                     else { b_pops[t][col] = 0; }
                 }
             }
             for (nk_size_t row = 0; row < rows_clamped; row++) {
-                nk_u32_t *result_row = (nk_u32_t *)((char *)result + (row_tile_start + row) * result_stride);
+                nk_u32_t *result_row = (nk_u32_t *)((char *)result + (row_tile_start + row) * result_stride_in_bytes);
                 svuint32_t pop_a_u32x = svdup_u32(a_tile_pops[row]);
-                svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_u32x, 1, row);
-                svuint32_t b_popcount_0_u32x = svld1_u32(predicate_all_u32x, b_pops[0]);
-                svuint32_t sum_pops0_u32x = svadd_u32_x(predicate_all_u32x, pop_a_u32x, b_popcount_0_u32x);
+                svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 1, row);
+                svuint32_t b_popcount_0_u32x = svld1_u32(predicate_all_b32x, b_pops[0]);
+                svuint32_t sum_pops0_u32x = svadd_u32_x(predicate_all_b32x, pop_a_u32x, b_popcount_0_u32x);
                 svuint32_t numerator0_u32x = svadd_u32_x(
-                    predicate_all_u32x, svsub_u32_x(predicate_all_u32x, sum_pops0_u32x, depth_u32x), za1_u32x);
-                svst1_u32(predicate_all_u32x, result_row + (column_tile_index + 0) * tile_dim,
-                          svlsr_n_u32_x(predicate_all_u32x, numerator0_u32x, 1));
+                    predicate_all_b32x, svsub_u32_x(predicate_all_b32x, sum_pops0_u32x, depth_u32x), za1_u32x);
+                svst1_u32(predicate_all_b32x, result_row + (column_tile_index + 0) * tile_dim,
+                          svlsr_n_u32_x(predicate_all_b32x, numerator0_u32x, 1));
-                svuint32_t za2_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_u32x, 2, row);
-                svuint32_t b_popcount_1_u32x = svld1_u32(predicate_all_u32x, b_pops[1]);
-                svuint32_t sum_pops1_u32x = svadd_u32_x(predicate_all_u32x, pop_a_u32x, b_popcount_1_u32x);
+                svuint32_t za2_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 2, row);
+                svuint32_t b_popcount_1_u32x = svld1_u32(predicate_all_b32x, b_pops[1]);
+                svuint32_t sum_pops1_u32x = svadd_u32_x(predicate_all_b32x, pop_a_u32x, b_popcount_1_u32x);
                 svuint32_t numerator1_u32x = svadd_u32_x(
-                    predicate_all_u32x, svsub_u32_x(predicate_all_u32x, sum_pops1_u32x, depth_u32x), za2_u32x);
-                svst1_u32(predicate_all_u32x, result_row + (column_tile_index + 1) * tile_dim,
-                          svlsr_n_u32_x(predicate_all_u32x, numerator1_u32x, 1));
+                    predicate_all_b32x, svsub_u32_x(predicate_all_b32x, sum_pops1_u32x, depth_u32x), za2_u32x);
+                svst1_u32(predicate_all_b32x, result_row + (column_tile_index + 1) * tile_dim,
+                          svlsr_n_u32_x(predicate_all_b32x, numerator1_u32x, 1));
-                svuint32_t za3_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_u32x, 3, row);
-                svuint32_t b_popcount_2_u32x = svld1_u32(predicate_all_u32x, b_pops[2]);
-                svuint32_t sum_pops2_u32x = svadd_u32_x(predicate_all_u32x, pop_a_u32x, b_popcount_2_u32x);
+                svuint32_t za3_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 3, row);
+                svuint32_t b_popcount_2_u32x = svld1_u32(predicate_all_b32x, b_pops[2]);
+                svuint32_t sum_pops2_u32x = svadd_u32_x(predicate_all_b32x, pop_a_u32x, b_popcount_2_u32x);
                 svuint32_t numerator2_u32x = svadd_u32_x(
-                    predicate_all_u32x, svsub_u32_x(predicate_all_u32x, sum_pops2_u32x, depth_u32x), za3_u32x);
-                svst1_u32(predicate_all_u32x, result_row + (column_tile_index + 2) * tile_dim,
-                          svlsr_n_u32_x(predicate_all_u32x, numerator2_u32x, 1));
+                    predicate_all_b32x, svsub_u32_x(predicate_all_b32x, sum_pops2_u32x, depth_u32x), za3_u32x);
+                svst1_u32(predicate_all_b32x, result_row + (column_tile_index + 2) * tile_dim,
+                          svlsr_n_u32_x(predicate_all_b32x, numerator2_u32x, 1));
             }
         }
         // Remainder: 1 column tile at a time using ZA1
         for (; column_tile_index < column_tile_count; column_tile_index++) {
             nk_size_t const col_tile_start = column_tile_index * tile_dim;
-            nk_size_t const cols_remaining = (col_tile_start + tile_dim <= n_vectors) ? tile_dim
-                                                                                      : (n_vectors - col_tile_start);
-            svbool_t const column_predicate_u32x = svwhilelt_b32_u64(0u, cols_remaining);
+            nk_size_t const cols_remaining = (col_tile_start + tile_dim <= vectors_count)
+                                                 ? tile_dim
+                                                 : (vectors_count - col_tile_start);
+            svbool_t const column_predicate_b32x = svwhilelt_b32_u64(0u, cols_remaining);
             svzero_mask_za(nk_sme_zero_za32_tile_1_);
             for (nk_size_t d_tile = 0; d_tile < depth_tile_count; d_tile++) {
                 nk_size_t const d_start_u32 = d_tile * depth_tile_size;
-                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_u32_total)
+                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_words)
                                                      ? depth_tile_size
-                                                     : (depth_u32_total > d_start_u32 ? depth_u32_total - d_start_u32
-                                                                                      : 0);
+                                                     : (depth_words > d_start_u32 ? depth_words - d_start_u32 : 0);
                 if (u32s_this_tile == 0) break;
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
-                svbool_t const batch_predicate_u32x = svwhilelt_b32_u64(0u, u32s_this_tile);
+                svbool_t const batch_predicate_b32x = svwhilelt_b32_u64(0u, u32s_this_tile);
+                svbool_t const depth_predicate_b8x = svwhilelt_b8_u64(d_start_u32 * 4, depth_bytes);
                 for (nk_size_t row_in_tile = 0; row_in_tile < rows_clamped; row_in_tile++) {
-                    nk_u32_t const *a_row_u32 = (nk_u32_t const *)((char const *)vectors +
-                                                                   (row_tile_start + row_in_tile) * stride) +
-                                                d_start_u32;
-                    svld1_hor_za32(0, row_in_tile, batch_predicate_u32x, a_row_u32);
+                    nk_u8_t const *a_row = (nk_u8_t const *)vectors + (row_tile_start + row_in_tile) * stride_in_bytes +
+                                           d_start_u32 * 4;
+                    svuint8_t row_u8x = svld1_u8(depth_predicate_b8x, a_row);
+                    svwrite_hor_za32_u32_m(0, row_in_tile, batch_predicate_b32x, svreinterpret_u32_u8(row_u8x));
                 }
                 for (nk_size_t s = 0; s < u32s_this_tile; s++)
-                    svst1_u32(predicate_all_u32x, a_buffer[s],
-                              svread_ver_za32_u32_m(svdup_u32(0), row_predicate_u32x, 0, s));
+                    svst1_u32(predicate_all_b32x, a_buffer[s],
+                              svread_ver_za32_u32_m(svdup_u32(0), row_predicate_b32x, 0, s));
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
                 for (nk_size_t col = 0; col < tile_dim; col++) {
                     nk_size_t const col_abs = col_tile_start + col;
-                    if (col_abs < n_vectors) {
-                        nk_u32_t const *b_row = (nk_u32_t const *)((char const *)vectors + col_abs * stride) +
-                                                d_start_u32;
-                        svld1_hor_za32(0, col, batch_predicate_u32x, b_row);
+                    if (col_abs < vectors_count) {
+                        nk_u8_t const *b_row = (nk_u8_t const *)vectors + col_abs * stride_in_bytes + d_start_u32 * 4;
+                        svuint8_t col_u8x = svld1_u8(depth_predicate_b8x, b_row);
+                        svwrite_hor_za32_u32_m(0, col, batch_predicate_b32x, svreinterpret_u32_u8(col_u8x));
                     }
                 }
                 for (nk_size_t step = 0; step < u32s_this_tile; step++) {
-                    svuint32_t a_u32x = svld1_u32(predicate_all_u32x, a_buffer[step]);
-                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), column_predicate_u32x, 0, step);
-                    svbmopa_za32_u32_m(1, row_predicate_u32x, column_predicate_u32x, a_u32x, b_u32x);
+                    svuint32_t a_u32x = svld1_u32(predicate_all_b32x, a_buffer[step]);
+                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), column_predicate_b32x, 0, step);
+                    svbmopa_za32_u32_m(1, row_predicate_b32x, column_predicate_b32x, a_u32x, b_u32x);
                 }
             }
@@ -417,33 +429,34 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_symmetric_u1_smebi32
             NK_ALIGN64 nk_u32_t b_pops_r[16];
             for (nk_size_t col = 0; col < tile_dim; col++) {
                 nk_size_t const col_abs = col_tile_start + col;
-                if (col_abs < n_vectors) {
-                    nk_u1x8_t const *b_row = (nk_u1x8_t const *)((char const *)vectors + col_abs * stride);
-                    b_pops_r[col] = nk_sets_reduce_sumsq_u1_streaming_(b_row, depth_in_bytes);
+                if (col_abs < vectors_count) {
+                    nk_u1x8_t const *b_row = (nk_u1x8_t const *)((char const *)vectors + col_abs * stride_in_bytes);
+                    b_pops_r[col] = nk_sets_reduce_sumsq_u1_streaming_(b_row, depth_bytes);
                 }
                 else { b_pops_r[col] = 0; }
             }
             for (nk_size_t row = 0; row < rows_clamped; row++) {
-                svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_u32x, 1, row);
+                svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 1, row);
                 svuint32_t pop_a_u32x = svdup_u32(a_tile_pops[row]);
-                svuint32_t b_popcount_u32x = svld1_u32(predicate_all_u32x, b_pops_r);
-                svuint32_t sum_pops_u32x = svadd_u32_x(predicate_all_u32x, pop_a_u32x, b_popcount_u32x);
+                svuint32_t b_popcount_u32x = svld1_u32(predicate_all_b32x, b_pops_r);
+                svuint32_t sum_pops_u32x = svadd_u32_x(predicate_all_b32x, pop_a_u32x, b_popcount_u32x);
                 svuint32_t numerator_u32x = svadd_u32_x(
-                    predicate_all_u32x, svsub_u32_x(predicate_all_u32x, sum_pops_u32x, depth_u32x), za1_u32x);
-                nk_u32_t *result_row = (nk_u32_t *)((char *)result + (row_tile_start + row) * result_stride);
-                svst1_u32(column_predicate_u32x, result_row + col_tile_start,
-                          svlsr_n_u32_x(predicate_all_u32x, numerator_u32x, 1));
+                    predicate_all_b32x, svsub_u32_x(predicate_all_b32x, sum_pops_u32x, depth_u32x), za1_u32x);
+                nk_u32_t *result_row = (nk_u32_t *)((char *)result + (row_tile_start + row) * result_stride_in_bytes);
+                svst1_u32(column_predicate_b32x, result_row + col_tile_start,
+                          svlsr_n_u32_x(predicate_all_b32x, numerator_u32x, 1));
             }
         }
     }
 }
-NK_PUBLIC void nk_dots_symmetric_u1_smebi32(nk_u1x8_t const *vectors, nk_size_t n_vectors, nk_size_t depth_bits,
-                                            nk_size_t stride, nk_u32_t *result, nk_size_t result_stride,
-                                            nk_size_t row_start, nk_size_t row_count) {
-    nk_dots_symmetric_u1_smebi32_streaming_(vectors, n_vectors, depth_bits, stride, result, result_stride, row_start,
-                                            row_count);
+NK_PUBLIC void nk_dots_symmetric_u1_smebi32(nk_u1x8_t const *vectors, nk_size_t vectors_count, nk_size_t depth_bits,
+                                            nk_size_t stride_in_bytes, nk_u32_t *result,
+                                            nk_size_t result_stride_in_bytes, nk_size_t row_start,
+                                            nk_size_t row_count) {
+    nk_dots_symmetric_u1_smebi32_streaming_(vectors, vectors_count, depth_bits, stride_in_bytes, result,
+                                            result_stride_in_bytes, row_start, row_count);
 }
 #if defined(__clang__)