npm - numkong - Versions diffs - 7.0.0 → 7.4.1 - Mend

numkong 7.0.0 → 7.4.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (315) hide show

package/README.md +239 -122
package/binding.gyp +25 -491
package/c/dispatch_bf16.c +59 -1
package/c/dispatch_e2m3.c +41 -8
package/c/dispatch_e3m2.c +49 -8
package/c/dispatch_e4m3.c +51 -9
package/c/dispatch_e5m2.c +45 -1
package/c/dispatch_f16.c +79 -26
package/c/dispatch_f16c.c +5 -5
package/c/dispatch_f32.c +56 -0
package/c/dispatch_f64.c +52 -0
package/c/dispatch_i4.c +3 -0
package/c/dispatch_i8.c +62 -3
package/c/dispatch_other.c +18 -0
package/c/dispatch_u1.c +54 -9
package/c/dispatch_u4.c +3 -0
package/c/dispatch_u8.c +64 -3
package/c/numkong.c +3 -0
package/include/README.md +79 -9
package/include/numkong/attention/sapphireamx.h +278 -276
package/include/numkong/attention/sme.h +983 -977
package/include/numkong/attention.h +1 -1
package/include/numkong/capabilities.h +289 -94
package/include/numkong/cast/README.md +40 -40
package/include/numkong/cast/diamond.h +64 -0
package/include/numkong/cast/haswell.h +42 -194
package/include/numkong/cast/icelake.h +42 -37
package/include/numkong/cast/loongsonasx.h +252 -0
package/include/numkong/cast/neon.h +216 -249
package/include/numkong/cast/powervsx.h +449 -0
package/include/numkong/cast/rvv.h +223 -274
package/include/numkong/cast/sapphire.h +18 -18
package/include/numkong/cast/serial.h +1018 -944
package/include/numkong/cast/skylake.h +82 -23
package/include/numkong/cast/v128relaxed.h +462 -105
package/include/numkong/cast.h +24 -0
package/include/numkong/cast.hpp +44 -0
package/include/numkong/curved/README.md +17 -17
package/include/numkong/curved/neon.h +131 -7
package/include/numkong/curved/neonbfdot.h +6 -7
package/include/numkong/curved/rvv.h +26 -26
package/include/numkong/curved/smef64.h +186 -182
package/include/numkong/curved.h +14 -18
package/include/numkong/dot/README.md +154 -137
package/include/numkong/dot/alder.h +43 -43
package/include/numkong/dot/diamond.h +158 -0
package/include/numkong/dot/genoa.h +4 -30
package/include/numkong/dot/haswell.h +215 -180
package/include/numkong/dot/icelake.h +190 -76
package/include/numkong/dot/loongsonasx.h +671 -0
package/include/numkong/dot/neon.h +124 -73
package/include/numkong/dot/neonbfdot.h +11 -12
package/include/numkong/dot/neonfhm.h +44 -46
package/include/numkong/dot/neonfp8.h +323 -0
package/include/numkong/dot/neonsdot.h +190 -76
package/include/numkong/dot/powervsx.h +752 -0
package/include/numkong/dot/rvv.h +92 -84
package/include/numkong/dot/rvvbf16.h +12 -12
package/include/numkong/dot/rvvhalf.h +12 -12
package/include/numkong/dot/sapphire.h +4 -4
package/include/numkong/dot/serial.h +66 -30
package/include/numkong/dot/sierra.h +31 -31
package/include/numkong/dot/skylake.h +142 -110
package/include/numkong/dot/sve.h +217 -177
package/include/numkong/dot/svebfdot.h +10 -10
package/include/numkong/dot/svehalf.h +85 -41
package/include/numkong/dot/svesdot.h +89 -0
package/include/numkong/dot/v128relaxed.h +124 -89
package/include/numkong/dot.h +114 -48
package/include/numkong/dots/README.md +203 -203
package/include/numkong/dots/alder.h +12 -9
package/include/numkong/dots/diamond.h +86 -0
package/include/numkong/dots/genoa.h +10 -4
package/include/numkong/dots/haswell.h +63 -48
package/include/numkong/dots/icelake.h +27 -18
package/include/numkong/dots/loongsonasx.h +176 -0
package/include/numkong/dots/neon.h +14 -11
package/include/numkong/dots/neonbfdot.h +4 -3
package/include/numkong/dots/neonfhm.h +11 -9
package/include/numkong/dots/neonfp8.h +99 -0
package/include/numkong/dots/neonsdot.h +48 -12
package/include/numkong/dots/powervsx.h +194 -0
package/include/numkong/dots/rvv.h +451 -344
package/include/numkong/dots/sapphireamx.h +1028 -984
package/include/numkong/dots/serial.h +213 -197
package/include/numkong/dots/sierra.h +10 -7
package/include/numkong/dots/skylake.h +47 -36
package/include/numkong/dots/sme.h +2001 -2364
package/include/numkong/dots/smebi32.h +175 -162
package/include/numkong/dots/smef64.h +328 -323
package/include/numkong/dots/v128relaxed.h +64 -41
package/include/numkong/dots.h +573 -293
package/include/numkong/dots.hpp +45 -43
package/include/numkong/each/README.md +133 -137
package/include/numkong/each/haswell.h +6 -6
package/include/numkong/each/icelake.h +7 -7
package/include/numkong/each/neon.h +76 -42
package/include/numkong/each/neonbfdot.h +11 -12
package/include/numkong/each/neonhalf.h +24 -116
package/include/numkong/each/rvv.h +28 -28
package/include/numkong/each/sapphire.h +27 -161
package/include/numkong/each/serial.h +6 -6
package/include/numkong/each/skylake.h +7 -7
package/include/numkong/each/v128relaxed.h +562 -0
package/include/numkong/each.h +148 -62
package/include/numkong/each.hpp +2 -2
package/include/numkong/geospatial/README.md +18 -18
package/include/numkong/geospatial/haswell.h +365 -325
package/include/numkong/geospatial/neon.h +350 -306
package/include/numkong/geospatial/rvv.h +4 -4
package/include/numkong/geospatial/skylake.h +376 -340
package/include/numkong/geospatial/v128relaxed.h +366 -327
package/include/numkong/geospatial.h +17 -17
package/include/numkong/matrix.hpp +4 -4
package/include/numkong/maxsim/README.md +14 -14
package/include/numkong/maxsim/alder.h +6 -6
package/include/numkong/maxsim/genoa.h +4 -4
package/include/numkong/maxsim/haswell.h +6 -6
package/include/numkong/maxsim/icelake.h +18 -18
package/include/numkong/maxsim/neonsdot.h +21 -21
package/include/numkong/maxsim/sapphireamx.h +14 -14
package/include/numkong/maxsim/serial.h +6 -6
package/include/numkong/maxsim/sme.h +221 -196
package/include/numkong/maxsim/v128relaxed.h +6 -6
package/include/numkong/mesh/README.md +62 -56
package/include/numkong/mesh/haswell.h +339 -464
package/include/numkong/mesh/neon.h +1100 -519
package/include/numkong/mesh/neonbfdot.h +36 -68
package/include/numkong/mesh/rvv.h +530 -435
package/include/numkong/mesh/serial.h +75 -91
package/include/numkong/mesh/skylake.h +1627 -302
package/include/numkong/mesh/v128relaxed.h +443 -330
package/include/numkong/mesh.h +63 -49
package/include/numkong/mesh.hpp +4 -4
package/include/numkong/numkong.h +3 -3
package/include/numkong/numkong.hpp +1 -0
package/include/numkong/probability/README.md +23 -19
package/include/numkong/probability/neon.h +82 -52
package/include/numkong/probability/rvv.h +28 -23
package/include/numkong/probability/serial.h +51 -39
package/include/numkong/probability.h +20 -23
package/include/numkong/random.h +1 -1
package/include/numkong/reduce/README.md +143 -138
package/include/numkong/reduce/alder.h +81 -77
package/include/numkong/reduce/haswell.h +222 -220
package/include/numkong/reduce/neon.h +629 -519
package/include/numkong/reduce/neonbfdot.h +7 -218
package/include/numkong/reduce/neonfhm.h +9 -381
package/include/numkong/reduce/neonsdot.h +9 -9
package/include/numkong/reduce/rvv.h +928 -802
package/include/numkong/reduce/serial.h +23 -27
package/include/numkong/reduce/sierra.h +20 -20
package/include/numkong/reduce/skylake.h +326 -324
package/include/numkong/reduce/v128relaxed.h +52 -52
package/include/numkong/reduce.h +4 -23
package/include/numkong/reduce.hpp +156 -11
package/include/numkong/scalar/README.md +6 -6
package/include/numkong/scalar/haswell.h +26 -17
package/include/numkong/scalar/loongsonasx.h +74 -0
package/include/numkong/scalar/neon.h +9 -9
package/include/numkong/scalar/powervsx.h +96 -0
package/include/numkong/scalar/rvv.h +2 -2
package/include/numkong/scalar/sapphire.h +21 -10
package/include/numkong/scalar/serial.h +21 -21
package/include/numkong/scalar.h +13 -0
package/include/numkong/set/README.md +28 -28
package/include/numkong/set/haswell.h +12 -12
package/include/numkong/set/icelake.h +14 -14
package/include/numkong/set/loongsonasx.h +181 -0
package/include/numkong/set/neon.h +17 -18
package/include/numkong/set/powervsx.h +326 -0
package/include/numkong/set/rvv.h +4 -4
package/include/numkong/set/serial.h +6 -6
package/include/numkong/set/sve.h +60 -59
package/include/numkong/set/v128relaxed.h +6 -6
package/include/numkong/set.h +21 -7
package/include/numkong/sets/README.md +26 -26
package/include/numkong/sets/loongsonasx.h +52 -0
package/include/numkong/sets/powervsx.h +65 -0
package/include/numkong/sets/smebi32.h +395 -364
package/include/numkong/sets.h +83 -40
package/include/numkong/sparse/README.md +4 -4
package/include/numkong/sparse/icelake.h +101 -101
package/include/numkong/sparse/serial.h +1 -1
package/include/numkong/sparse/sve2.h +137 -141
package/include/numkong/sparse/turin.h +12 -12
package/include/numkong/sparse.h +10 -10
package/include/numkong/spatial/README.md +230 -226
package/include/numkong/spatial/alder.h +113 -116
package/include/numkong/spatial/diamond.h +240 -0
package/include/numkong/spatial/genoa.h +0 -68
package/include/numkong/spatial/haswell.h +74 -55
package/include/numkong/spatial/icelake.h +539 -58
package/include/numkong/spatial/loongsonasx.h +483 -0
package/include/numkong/spatial/neon.h +125 -52
package/include/numkong/spatial/neonbfdot.h +8 -9
package/include/numkong/spatial/neonfp8.h +258 -0
package/include/numkong/spatial/neonsdot.h +180 -12
package/include/numkong/spatial/powervsx.h +738 -0
package/include/numkong/spatial/rvv.h +146 -139
package/include/numkong/spatial/rvvbf16.h +17 -12
package/include/numkong/spatial/rvvhalf.h +13 -10
package/include/numkong/spatial/serial.h +13 -12
package/include/numkong/spatial/sierra.h +232 -39
package/include/numkong/spatial/skylake.h +73 -74
package/include/numkong/spatial/sve.h +93 -72
package/include/numkong/spatial/svebfdot.h +29 -29
package/include/numkong/spatial/svehalf.h +52 -26
package/include/numkong/spatial/svesdot.h +142 -0
package/include/numkong/spatial/v128relaxed.h +293 -41
package/include/numkong/spatial.h +338 -82
package/include/numkong/spatials/README.md +194 -194
package/include/numkong/spatials/diamond.h +82 -0
package/include/numkong/spatials/haswell.h +2 -2
package/include/numkong/spatials/loongsonasx.h +153 -0
package/include/numkong/spatials/neonfp8.h +111 -0
package/include/numkong/spatials/neonsdot.h +34 -0
package/include/numkong/spatials/powervsx.h +153 -0
package/include/numkong/spatials/rvv.h +259 -243
package/include/numkong/spatials/sapphireamx.h +173 -173
package/include/numkong/spatials/serial.h +2 -2
package/include/numkong/spatials/skylake.h +2 -2
package/include/numkong/spatials/sme.h +590 -605
package/include/numkong/spatials/smef64.h +139 -130
package/include/numkong/spatials/v128relaxed.h +2 -2
package/include/numkong/spatials.h +820 -500
package/include/numkong/spatials.hpp +49 -48
package/include/numkong/tensor.hpp +406 -17
package/include/numkong/trigonometry/README.md +19 -19
package/include/numkong/trigonometry/haswell.h +402 -401
package/include/numkong/trigonometry/neon.h +386 -387
package/include/numkong/trigonometry/rvv.h +52 -51
package/include/numkong/trigonometry/serial.h +13 -13
package/include/numkong/trigonometry/skylake.h +373 -369
package/include/numkong/trigonometry/v128relaxed.h +375 -374
package/include/numkong/trigonometry.h +13 -13
package/include/numkong/trigonometry.hpp +2 -2
package/include/numkong/types.h +287 -49
package/include/numkong/types.hpp +436 -12
package/include/numkong/vector.hpp +82 -14
package/javascript/dist/cjs/numkong-wasm.js +6 -12
package/javascript/dist/cjs/numkong.d.ts +7 -1
package/javascript/dist/cjs/numkong.js +37 -11
package/javascript/dist/cjs/types.d.ts +9 -0
package/javascript/dist/cjs/types.js +96 -0
package/javascript/dist/esm/numkong-browser.d.ts +14 -0
package/javascript/dist/esm/numkong-browser.js +23 -0
package/javascript/dist/esm/numkong-wasm.js +6 -12
package/javascript/dist/esm/numkong.d.ts +7 -1
package/javascript/dist/esm/numkong.js +37 -11
package/javascript/dist/esm/types.d.ts +9 -0
package/javascript/dist/esm/types.js +96 -0
package/javascript/node-gyp-build.d.ts +4 -1
package/javascript/numkong-browser.ts +40 -0
package/javascript/numkong-wasm.ts +7 -13
package/javascript/numkong.c +5 -26
package/javascript/numkong.ts +36 -11
package/javascript/tsconfig-base.json +1 -0
package/javascript/tsconfig-cjs.json +6 -1
package/javascript/types.ts +110 -0
package/numkong.gypi +101 -0
package/package.json +34 -13
package/probes/arm_neon.c +8 -0
package/probes/arm_neon_bfdot.c +9 -0
package/probes/arm_neon_fhm.c +9 -0
package/probes/arm_neon_half.c +8 -0
package/probes/arm_neon_sdot.c +9 -0
package/probes/arm_neonfp8.c +9 -0
package/probes/arm_sme.c +16 -0
package/probes/arm_sme2.c +16 -0
package/probes/arm_sme2p1.c +16 -0
package/probes/arm_sme_bf16.c +16 -0
package/probes/arm_sme_bi32.c +16 -0
package/probes/arm_sme_f64.c +16 -0
package/probes/arm_sme_fa64.c +14 -0
package/probes/arm_sme_half.c +16 -0
package/probes/arm_sme_lut2.c +15 -0
package/probes/arm_sve.c +18 -0
package/probes/arm_sve2.c +20 -0
package/probes/arm_sve2p1.c +18 -0
package/probes/arm_sve_bfdot.c +20 -0
package/probes/arm_sve_half.c +18 -0
package/probes/arm_sve_sdot.c +21 -0
package/probes/loongarch_lasx.c +12 -0
package/probes/power_vsx.c +12 -0
package/probes/probe.js +127 -0
package/probes/riscv_rvv.c +14 -0
package/probes/riscv_rvv_bb.c +15 -0
package/probes/riscv_rvv_bf16.c +17 -0
package/probes/riscv_rvv_half.c +14 -0
package/probes/wasm_v128relaxed.c +11 -0
package/probes/x86_alder.c +17 -0
package/probes/x86_diamond.c +17 -0
package/probes/x86_genoa.c +17 -0
package/probes/x86_graniteamx.c +19 -0
package/probes/x86_haswell.c +11 -0
package/probes/x86_icelake.c +17 -0
package/probes/x86_sapphire.c +16 -0
package/probes/x86_sapphireamx.c +18 -0
package/probes/x86_sierra.c +17 -0
package/probes/x86_skylake.c +15 -0
package/probes/x86_turin.c +17 -0
package/wasm/numkong-emscripten.js +2 -0
package/wasm/numkong.d.ts +14 -0
package/wasm/numkong.js +1124 -0
package/wasm/numkong.wasm +0 -0
package/include/numkong/curved/neonhalf.h +0 -212
package/include/numkong/dot/neonhalf.h +0 -198
package/include/numkong/dots/neonhalf.h +0 -57
package/include/numkong/mesh/neonhalf.h +0 -616
package/include/numkong/reduce/neonhalf.h +0 -157
package/include/numkong/spatial/neonhalf.h +0 -118
package/include/numkong/spatial/sapphire.h +0 -343
package/include/numkong/spatials/neonhalf.h +0 -58
package/javascript/README.md +0 -246

package/include/numkong/sets/smebi32.h CHANGED Viewed

@@ -65,7 +65,7 @@ extern "C" {
  */
 #if defined(__clang__)
-#pragma clang attribute push(__attribute__((target("sme2,sve2"))), apply_to = function)
+#pragma clang attribute push(__attribute__((target("sme2"))), apply_to = function)
 #elif defined(__GNUC__)
 #pragma GCC push_options
 #pragma GCC target("+sme2")
@@ -93,13 +93,12 @@ typedef struct {
 /** Count total set bits across a byte vector using streaming SVE.
  *  Accumulates per-byte popcounts into u32 lanes via svdot; single horizontal reduction at end. */
-NK_PUBLIC nk_u32_t nk_sets_reduce_sumsq_u1_streaming_(nk_u1x8_t const *data,
-                                                      nk_size_t n_bytes) NK_STREAMING_COMPATIBLE_ {
+NK_PUBLIC nk_u32_t nk_sets_reduce_sumsq_u1_streaming_(nk_u1x8_t const *data, nk_size_t n_bytes) NK_STREAMING_ {
     svuint32_t acc_u32x = svdup_u32(0);
     svuint8_t const ones_u8x = svdup_u8(1);
     for (nk_size_t offset = 0; offset < n_bytes; offset += svcntb()) {
-        svbool_t predicate_u8x = svwhilelt_b8_u64(offset, n_bytes);
-        acc_u32x = svdot_u32(acc_u32x, svcnt_u8_z(predicate_u8x, svld1_u8(predicate_u8x, data + offset)), ones_u8x);
+        svbool_t predicate_b8x = svwhilelt_b8_u64(offset, n_bytes);
+        acc_u32x = svdot_u32(acc_u32x, svcnt_u8_z(predicate_b8x, svld1_u8(predicate_b8x, data + offset)), ones_u8x);
     }
     return (nk_u32_t)svaddv_u32(svptrue_b32(), acc_u32x);
 }
@@ -128,11 +127,13 @@ NK_PUBLIC void nk_dots_pack_u1_smebi32(nk_u1x8_t const *b, nk_size_t row_count,
     nk_size_t const tile_dim = nk_smebi32_tile_dim_();        // 16 rows per tile
     nk_size_t const depth_tile_size = nk_smebi32_tile_dim_(); // 16 u32 per depth tile
     nk_size_t const tile_elements = tile_dim * depth_tile_size;
-    nk_size_t const depth_in_bytes = nk_size_divide_round_up_(depth_bits, NK_BITS_PER_BYTE);
+    nk_size_t const depth_bytes = depth_bits / 8;
-    nk_size_t const depth_u32_total = nk_size_divide_round_up_(depth_bits, 32);
+    // BMOPA processes binary data in 32-bit words: each svbmopa_za32_u32_m step
+    // handles one u32 (32 bits) across all row×column pairs simultaneously.
+    nk_size_t const depth_words = nk_size_divide_round_up_(depth_bits, 32);
     nk_size_t const row_tile_count = nk_size_divide_round_up_(row_count, tile_dim);
-    nk_size_t const depth_tile_count = nk_size_divide_round_up_(depth_u32_total, depth_tile_size);
+    nk_size_t const depth_tile_count = nk_size_divide_round_up_(depth_words, depth_tile_size);
     nk_size_t const total_tiles = row_tile_count * depth_tile_count;
     nk_size_t const data_size = total_tiles * tile_elements * sizeof(nk_u32_t);
@@ -160,18 +161,24 @@ NK_PUBLIC void nk_dots_pack_u1_smebi32(nk_u1x8_t const *b, nk_size_t row_count,
             nk_size_t const src_u32_start = depth_tile * depth_tile_size;
             nk_size_t const rows_to_pack = (src_row_start + tile_dim <= row_count) ? tile_dim
                                                                                    : (row_count - src_row_start);
-            nk_size_t const u32s_to_pack = (src_u32_start + depth_tile_size <= depth_u32_total)
+            nk_size_t const u32s_to_pack = (src_u32_start + depth_tile_size <= depth_words)
                                                ? depth_tile_size
-                                               : (depth_u32_total > src_u32_start ? depth_u32_total - src_u32_start
-                                                                                  : 0);
+                                               : (depth_words > src_u32_start ? depth_words - src_u32_start : 0);
             // Column-major packing: tile_output[col * tile_dim + row]
+            // Copy byte-by-byte for the last u32 to avoid garbage bits when depth_bits % 32 != 0
+            nk_size_t const tail_bytes = depth_bytes % 4;
+            nk_size_t const last_col = u32s_to_pack > 0 ? u32s_to_pack - 1 : 0;
+            nk_size_t const is_last_depth_tile = (src_u32_start + u32s_to_pack >= depth_words);
             for (nk_size_t row = 0; row < rows_to_pack; row++) {
                 nk_u32_t const *src_row = (nk_u32_t const *)((char const *)b +
                                                              (src_row_start + row) * b_stride_in_bytes);
                 for (nk_size_t col = 0; col < u32s_to_pack; col++) {
                     nk_size_t const dst_idx = col * tile_dim + row; // Column-major!
-                    tile_output[dst_idx] = src_row[src_u32_start + col];
+                    if (tail_bytes && is_last_depth_tile && col == last_col) {
+                        nk_copy_bytes_(&tile_output[dst_idx], &src_row[src_u32_start + col], tail_bytes);
+                    }
+                    else { tile_output[dst_idx] = src_row[src_u32_start + col]; }
                 }
             }
         }
@@ -182,7 +189,7 @@ NK_PUBLIC void nk_dots_pack_u1_smebi32(nk_u1x8_t const *b, nk_size_t row_count,
         nk_u1x8_t const *src_row = (nk_u1x8_t const *)((char const *)b + row * b_stride_in_bytes);
         {
             nk_u64_t nk_local_sum_, nk_local_sumsq_;
-            nk_reduce_moments_u1(src_row, depth_in_bytes * 8, sizeof(nk_u1x8_t), &nk_local_sum_, &nk_local_sumsq_);
+            nk_reduce_moments_u1(src_row, depth_bytes * 8, sizeof(nk_u1x8_t), &nk_local_sum_, &nk_local_sumsq_);
             norms_ptr[row] = (nk_u32_t)nk_local_sum_;
         }
     }
@@ -207,19 +214,24 @@ __arm_locally_streaming __arm_new("za") static void nk_hammings_packed_u1_smebi3
     nk_size_t const tile_dim = svcntw();        // 16 for 512-bit SVL
     nk_size_t const depth_tile_size = svcntw(); // 16 u32 per depth tile
     nk_size_t const tile_elements = tile_dim * depth_tile_size;
-    nk_size_t const depth_u32_total = nk_size_divide_round_up_(depth_bits, 32);
+    // BMOPA processes binary data in 32-bit words: each svbmopa_za32_u32_m step
+    // handles one u32 (32 bits) across all row×column pairs simultaneously.
+    nk_size_t const depth_words = nk_size_divide_round_up_(depth_bits, 32);
+    nk_size_t const depth_bytes = depth_bits / 8;
     nk_u32_t const *b_tiles = (nk_u32_t const *)((char const *)b_packed + sizeof(nk_sets_smebi32_packed_header_t));
-    svbool_t const predicate_all_u32x = svptrue_b32();
-    svuint32_t const depth_u32x = svdup_u32((nk_u32_t)depth_bits);
+    svbool_t const predicate_all_b32x = svptrue_b32();
+    // Use padded depth (depth_words * 32) for BMOPA: zero-padded bits always match in XNOR,
+    // so the effective depth for the matching→hamming conversion is the rounded-up bit count.
+    svuint32_t const depth_u32x = svdup_u32((nk_u32_t)(depth_words * 32));
     nk_size_t const row_tile_count_a = nk_size_divide_round_up_(row_count_a, tile_dim);
     for (nk_size_t row_tile_a = 0; row_tile_a < row_tile_count_a; row_tile_a++) {
         nk_size_t const row_start_a = row_tile_a * tile_dim;
         nk_size_t const rows_a_remaining = (row_start_a + tile_dim <= row_count_a) ? tile_dim
                                                                                    : (row_count_a - row_start_a);
-        svbool_t const row_predicate_u32x = svwhilelt_b32_u64(0u, rows_a_remaining);
+        svbool_t const row_predicate_b32x = svwhilelt_b32_u64(0u, rows_a_remaining);
         // Fast path: 3 B column tiles using ZA1-ZA3 (ZA0.S = staging)
         nk_size_t row_tile_b = 0;
@@ -228,22 +240,23 @@ __arm_locally_streaming __arm_new("za") static void nk_hammings_packed_u1_smebi3
             for (nk_size_t d_tile = 0; d_tile < depth_tile_count; d_tile++) {
                 nk_size_t const d_start_u32 = d_tile * depth_tile_size;
-                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_u32_total)
+                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_words)
                                                      ? depth_tile_size
-                                                     : (depth_u32_total > d_start_u32 ? depth_u32_total - d_start_u32
-                                                                                      : 0);
+                                                     : (depth_words > d_start_u32 ? depth_words - d_start_u32 : 0);
                 if (u32s_this_tile == 0) break;
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
-                svbool_t const batch_predicate_u32x = svwhilelt_b32_u64(0u, u32s_this_tile);
+                svbool_t const batch_predicate_b32x = svwhilelt_b32_u64(0u, u32s_this_tile);
+                svbool_t const depth_predicate_b8x = svwhilelt_b8_u64(d_start_u32 * 4, depth_bytes);
-                // Load A rows into ZA0.S horizontally as u32 words
+                // Load A rows into ZA0.S, byte-predicated to zero garbage bits
                 for (nk_size_t row_in_tile = 0; row_in_tile < rows_a_remaining; row_in_tile++) {
-                    nk_u32_t const *a_row_u32 = (nk_u32_t const *)((char const *)a +
-                                                                   (row_start_a + row_in_tile) * a_stride_in_bytes) +
-                                                d_start_u32;
-                    svld1_hor_za32(0, row_in_tile, batch_predicate_u32x, a_row_u32);
+                    nk_u8_t const *a_row = (nk_u8_t const *)a + (row_start_a + row_in_tile) * a_stride_in_bytes +
+                                           d_start_u32 * 4;
+                    svuint8_t row_u8x = svld1_u8(depth_predicate_b8x, a_row);
+                    svwrite_hor_za32_u32_m(0, row_in_tile, batch_predicate_b32x, svreinterpret_u32_u8(row_u8x));
                 }
                 // B tile pointers for 3 column tiles
@@ -253,14 +266,14 @@ __arm_locally_streaming __arm_new("za") static void nk_hammings_packed_u1_smebi3
                 // Vertical read + BMOPA for each depth step
                 for (nk_size_t step = 0; step < u32s_this_tile; step++) {
-                    svuint32_t a_column_u32x = svread_ver_za32_u32_m(svdup_u32(0), row_predicate_u32x, 0, step);
-                    svbmopa_za32_u32_m(1, row_predicate_u32x, predicate_all_u32x, a_column_u32x,
-                                       svld1_u32(predicate_all_u32x, b_tile0 + step * tile_dim));
-                    svbmopa_za32_u32_m(2, row_predicate_u32x, predicate_all_u32x, a_column_u32x,
-                                       svld1_u32(predicate_all_u32x, b_tile1 + step * tile_dim));
-                    svbmopa_za32_u32_m(3, row_predicate_u32x, predicate_all_u32x, a_column_u32x,
-                                       svld1_u32(predicate_all_u32x, b_tile2 + step * tile_dim));
+                    svuint32_t a_column_u32x = svread_ver_za32_u32_m(svdup_u32(0), row_predicate_b32x, 0, step);
+                    svbmopa_za32_u32_m(1, row_predicate_b32x, predicate_all_b32x, a_column_u32x,
+                                       svld1_u32(predicate_all_b32x, b_tile0 + step * tile_dim));
+                    svbmopa_za32_u32_m(2, row_predicate_b32x, predicate_all_b32x, a_column_u32x,
+                                       svld1_u32(predicate_all_b32x, b_tile1 + step * tile_dim));
+                    svbmopa_za32_u32_m(3, row_predicate_b32x, predicate_all_b32x, a_column_u32x,
+                                       svld1_u32(predicate_all_b32x, b_tile2 + step * tile_dim));
                 }
             }
@@ -268,16 +281,16 @@ __arm_locally_streaming __arm_new("za") static void nk_hammings_packed_u1_smebi3
             for (nk_size_t row = 0; row < rows_a_remaining; row++) {
                 nk_u32_t *c_row = (nk_u32_t *)((char *)c + (row_start_a + row) * c_stride_in_bytes);
-                svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_u32x, 1, row);
-                svuint32_t za2_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_u32x, 2, row);
-                svuint32_t za3_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_u32x, 3, row);
+                svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 1, row);
+                svuint32_t za2_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 2, row);
+                svuint32_t za3_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 3, row);
-                svst1_u32(predicate_all_u32x, c_row + (row_tile_b + 0) * tile_dim,
-                          svsub_u32_x(predicate_all_u32x, depth_u32x, za1_u32x));
-                svst1_u32(predicate_all_u32x, c_row + (row_tile_b + 1) * tile_dim,
-                          svsub_u32_x(predicate_all_u32x, depth_u32x, za2_u32x));
-                svst1_u32(predicate_all_u32x, c_row + (row_tile_b + 2) * tile_dim,
-                          svsub_u32_x(predicate_all_u32x, depth_u32x, za3_u32x));
+                svst1_u32(predicate_all_b32x, c_row + (row_tile_b + 0) * tile_dim,
+                          svsub_u32_x(predicate_all_b32x, depth_u32x, za1_u32x));
+                svst1_u32(predicate_all_b32x, c_row + (row_tile_b + 1) * tile_dim,
+                          svsub_u32_x(predicate_all_b32x, depth_u32x, za2_u32x));
+                svst1_u32(predicate_all_b32x, c_row + (row_tile_b + 2) * tile_dim,
+                          svsub_u32_x(predicate_all_b32x, depth_u32x, za3_u32x));
             }
         }
@@ -286,46 +299,46 @@ __arm_locally_streaming __arm_new("za") static void nk_hammings_packed_u1_smebi3
             nk_size_t const row_start_b = row_tile_b * tile_dim;
             nk_size_t const rows_b_remaining = (row_start_b + tile_dim <= row_count_b) ? tile_dim
                                                                                        : (row_count_b - row_start_b);
-            svbool_t const column_predicate_u32x = svwhilelt_b32_u64(0u, rows_b_remaining);
+            svbool_t const column_predicate_b32x = svwhilelt_b32_u64(0u, rows_b_remaining);
             svzero_mask_za(nk_sme_zero_za32_tile_1_);
             for (nk_size_t d_tile = 0; d_tile < depth_tile_count; d_tile++) {
                 nk_size_t const d_start_u32 = d_tile * depth_tile_size;
-                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_u32_total)
+                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_words)
                                                      ? depth_tile_size
-                                                     : (depth_u32_total > d_start_u32 ? depth_u32_total - d_start_u32
-                                                                                      : 0);
+                                                     : (depth_words > d_start_u32 ? depth_words - d_start_u32 : 0);
                 if (u32s_this_tile == 0) break;
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
-                svbool_t const batch_predicate_u32x = svwhilelt_b32_u64(0u, u32s_this_tile);
+                svbool_t const batch_predicate_b32x = svwhilelt_b32_u64(0u, u32s_this_tile);
                 // Load A rows into ZA0.S horizontally
+                svbool_t const depth_predicate_b8x = svwhilelt_b8_u64(d_start_u32 * 4, depth_bytes);
                 for (nk_size_t row_in_tile = 0; row_in_tile < rows_a_remaining; row_in_tile++) {
-                    nk_u32_t const *a_row_u32 = (nk_u32_t const *)((char const *)a +
-                                                                   (row_start_a + row_in_tile) * a_stride_in_bytes) +
-                                                d_start_u32;
-                    svld1_hor_za32(0, row_in_tile, batch_predicate_u32x, a_row_u32);
+                    nk_u8_t const *a_row = (nk_u8_t const *)a + (row_start_a + row_in_tile) * a_stride_in_bytes +
+                                           d_start_u32 * 4;
+                    svuint8_t row_u8x = svld1_u8(depth_predicate_b8x, a_row);
+                    svwrite_hor_za32_u32_m(0, row_in_tile, batch_predicate_b32x, svreinterpret_u32_u8(row_u8x));
                 }
                 nk_u32_t const *b_tile = b_tiles + (row_tile_b * depth_tile_count + d_tile) * tile_elements;
                 // Vertical read + BMOPA
                 for (nk_size_t step = 0; step < u32s_this_tile; step++) {
-                    svuint32_t a_column_u32x = svread_ver_za32_u32_m(svdup_u32(0), row_predicate_u32x, 0, step);
-                    svuint32_t b_u32x = svld1_u32(predicate_all_u32x, b_tile + step * tile_dim);
-                    svbmopa_za32_u32_m(1, row_predicate_u32x, column_predicate_u32x, a_column_u32x, b_u32x);
+                    svuint32_t a_column_u32x = svread_ver_za32_u32_m(svdup_u32(0), row_predicate_b32x, 0, step);
+                    svuint32_t b_u32x = svld1_u32(predicate_all_b32x, b_tile + step * tile_dim);
+                    svbmopa_za32_u32_m(1, row_predicate_b32x, column_predicate_b32x, a_column_u32x, b_u32x);
                 }
             }
             // Extract from ZA1: Hamming = depth_bits - matching_bits
             for (nk_size_t row = 0; row < rows_a_remaining; row++) {
-                svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_u32x, 1, row);
-                svuint32_t hamming_u32x = svsub_u32_x(predicate_all_u32x, depth_u32x, za1_u32x);
+                svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 1, row);
+                svuint32_t hamming_u32x = svsub_u32_x(predicate_all_b32x, depth_u32x, za1_u32x);
                 nk_u32_t *c_row = (nk_u32_t *)((char *)c + (row_start_a + row) * c_stride_in_bytes);
-                svst1_u32(column_predicate_u32x, c_row + row_start_b, hamming_u32x);
+                svst1_u32(column_predicate_b32x, c_row + row_start_b, hamming_u32x);
             }
         }
     }
@@ -345,30 +358,37 @@ NK_PUBLIC void nk_hammings_packed_u1_smebi32(nk_u1x8_t const *a, void const *b_p
  *  Mirrors the unpacked kernel nk_hammings_packed_u1_smebi32_streaming_ pattern.
  */
 __arm_locally_streaming __arm_new("za") static void nk_hammings_symmetric_u1_smebi32_streaming_(
-    nk_u1x8_t const *vectors, nk_size_t n_vectors, nk_size_t depth_bits, nk_size_t stride, nk_u32_t *result,
-    nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_u1x8_t const *vectors, nk_size_t vectors_count, nk_size_t depth_bits, nk_size_t stride_in_bytes,
+    nk_u32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const tile_dim = svcntw();        // 16 for 512-bit SVL
     nk_size_t const depth_tile_size = svcntw(); // 16 u32 per depth tile
-    nk_size_t const depth_u32_total = nk_size_divide_round_up_(depth_bits, 32);
-    nk_size_t const depth_tile_count = nk_size_divide_round_up_(depth_u32_total, depth_tile_size);
+    // BMOPA processes binary data in 32-bit words: each svbmopa_za32_u32_m step
+    // handles one u32 (32 bits) across all row×column pairs simultaneously.
+    nk_size_t const depth_words = nk_size_divide_round_up_(depth_bits, 32);
+    nk_size_t const depth_bytes = depth_bits / 8;
+    nk_size_t const depth_tile_count = nk_size_divide_round_up_(depth_words, depth_tile_size);
-    svbool_t const predicate_all_u32x = svptrue_b32();
-    svuint32_t const depth_u32x = svdup_u32((nk_u32_t)depth_bits);
+    svbool_t const predicate_all_b32x = svptrue_b32();
+    // Use padded depth (depth_words * 32) for BMOPA: zero-padded bits always match in XNOR,
+    // so the effective depth for the matching→hamming conversion is the rounded-up bit count.
+    svuint32_t const depth_u32x = svdup_u32((nk_u32_t)(depth_words * 32));
     NK_ALIGN64 nk_u32_t a_buffer[16][16]; // Stack buffer for A column save
     nk_size_t const row_end = row_start + row_count;
-    nk_size_t const column_tile_count = nk_size_divide_round_up_(n_vectors, tile_dim);
+    nk_size_t const column_tile_count = nk_size_divide_round_up_(vectors_count, tile_dim);
-    for (nk_size_t row_tile_start = row_start; row_tile_start < row_end && row_tile_start < n_vectors;
+    for (nk_size_t row_tile_start = row_start; row_tile_start < row_end && row_tile_start < vectors_count;
          row_tile_start += tile_dim) {
         nk_size_t const rows_remaining = (row_tile_start + tile_dim <= row_end) ? tile_dim : (row_end - row_tile_start);
-        nk_size_t const rows_clamped = (row_tile_start + rows_remaining <= n_vectors) ? rows_remaining
-                                                                                      : (n_vectors - row_tile_start);
-        svbool_t const row_predicate_u32x = svwhilelt_b32_u64(0u, rows_clamped);
+        nk_size_t const rows_clamped = (row_tile_start + rows_remaining <= vectors_count)
+                                           ? rows_remaining
+                                           : (vectors_count - row_tile_start);
+        svbool_t const row_predicate_b32x = svwhilelt_b32_u64(0u, rows_clamped);
-        nk_size_t column_tile_index = 0;
+        // Upper triangle: start from this row tile's column
+        nk_size_t column_tile_index = row_tile_start / tile_dim;
         // Fast path: 3 column tiles using ZA1-ZA3 (ZA0 = staging)
         for (; column_tile_index + 3 <= column_tile_count; column_tile_index += 3) {
@@ -376,162 +396,164 @@ __arm_locally_streaming __arm_new("za") static void nk_hammings_symmetric_u1_sme
             for (nk_size_t d_tile = 0; d_tile < depth_tile_count; d_tile++) {
                 nk_size_t const d_start_u32 = d_tile * depth_tile_size;
-                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_u32_total)
+                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_words)
                                                      ? depth_tile_size
-                                                     : (depth_u32_total > d_start_u32 ? depth_u32_total - d_start_u32
-                                                                                      : 0);
+                                                     : (depth_words > d_start_u32 ? depth_words - d_start_u32 : 0);
                 if (u32s_this_tile == 0) break;
                 // Load A rows into ZA0 horizontally
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
-                svbool_t const batch_predicate_u32x = svwhilelt_b32_u64(0u, u32s_this_tile);
+                svbool_t const batch_predicate_b32x = svwhilelt_b32_u64(0u, u32s_this_tile);
+                svbool_t const depth_predicate_b8x = svwhilelt_b8_u64(d_start_u32 * 4, depth_bytes);
                 for (nk_size_t row_in_tile = 0; row_in_tile < rows_clamped; row_in_tile++) {
-                    nk_u32_t const *a_row_u32 = (nk_u32_t const *)((char const *)vectors +
-                                                                   (row_tile_start + row_in_tile) * stride) +
-                                                d_start_u32;
-                    svld1_hor_za32(0, row_in_tile, batch_predicate_u32x, a_row_u32);
+                    nk_u8_t const *a_row = (nk_u8_t const *)vectors + (row_tile_start + row_in_tile) * stride_in_bytes +
+                                           d_start_u32 * 4;
+                    svuint8_t row_u8x = svld1_u8(depth_predicate_b8x, a_row);
+                    svwrite_hor_za32_u32_m(0, row_in_tile, batch_predicate_b32x, svreinterpret_u32_u8(row_u8x));
                 }
                 // Save A columns from ZA0 to stack buffer
                 for (nk_size_t s = 0; s < u32s_this_tile; s++)
-                    svst1_u32(predicate_all_u32x, a_buffer[s],
-                              svread_ver_za32_u32_m(svdup_u32(0), row_predicate_u32x, 0, s));
+                    svst1_u32(predicate_all_b32x, a_buffer[s],
+                              svread_ver_za32_u32_m(svdup_u32(0), row_predicate_b32x, 0, s));
                 // B column tile 0
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
                 for (nk_size_t col = 0; col < tile_dim; col++) {
                     nk_size_t const col_abs = (column_tile_index + 0) * tile_dim + col;
-                    if (col_abs < n_vectors) {
-                        nk_u32_t const *b_row = (nk_u32_t const *)((char const *)vectors + col_abs * stride) +
-                                                d_start_u32;
-                        svld1_hor_za32(0, col, batch_predicate_u32x, b_row);
+                    if (col_abs < vectors_count) {
+                        nk_u8_t const *b_row = (nk_u8_t const *)vectors + col_abs * stride_in_bytes + d_start_u32 * 4;
+                        svuint8_t col_u8x = svld1_u8(depth_predicate_b8x, b_row);
+                        svwrite_hor_za32_u32_m(0, col, batch_predicate_b32x, svreinterpret_u32_u8(col_u8x));
                     }
                 }
                 for (nk_size_t step = 0; step < u32s_this_tile; step++) {
-                    svuint32_t a_u32x = svld1_u32(predicate_all_u32x, a_buffer[step]);
-                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), predicate_all_u32x, 0, step);
-                    svbmopa_za32_u32_m(1, row_predicate_u32x, predicate_all_u32x, a_u32x, b_u32x);
+                    svuint32_t a_u32x = svld1_u32(predicate_all_b32x, a_buffer[step]);
+                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), predicate_all_b32x, 0, step);
+                    svbmopa_za32_u32_m(1, row_predicate_b32x, predicate_all_b32x, a_u32x, b_u32x);
                 }
                 // B column tile 1
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
                 for (nk_size_t col = 0; col < tile_dim; col++) {
                     nk_size_t const col_abs = (column_tile_index + 1) * tile_dim + col;
-                    if (col_abs < n_vectors) {
-                        nk_u32_t const *b_row = (nk_u32_t const *)((char const *)vectors + col_abs * stride) +
-                                                d_start_u32;
-                        svld1_hor_za32(0, col, batch_predicate_u32x, b_row);
+                    if (col_abs < vectors_count) {
+                        nk_u8_t const *b_row = (nk_u8_t const *)vectors + col_abs * stride_in_bytes + d_start_u32 * 4;
+                        svuint8_t col_u8x = svld1_u8(depth_predicate_b8x, b_row);
+                        svwrite_hor_za32_u32_m(0, col, batch_predicate_b32x, svreinterpret_u32_u8(col_u8x));
                     }
                 }
                 for (nk_size_t step = 0; step < u32s_this_tile; step++) {
-                    svuint32_t a_u32x = svld1_u32(predicate_all_u32x, a_buffer[step]);
-                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), predicate_all_u32x, 0, step);
-                    svbmopa_za32_u32_m(2, row_predicate_u32x, predicate_all_u32x, a_u32x, b_u32x);
+                    svuint32_t a_u32x = svld1_u32(predicate_all_b32x, a_buffer[step]);
+                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), predicate_all_b32x, 0, step);
+                    svbmopa_za32_u32_m(2, row_predicate_b32x, predicate_all_b32x, a_u32x, b_u32x);
                 }
                 // B column tile 2
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
                 for (nk_size_t col = 0; col < tile_dim; col++) {
                     nk_size_t const col_abs = (column_tile_index + 2) * tile_dim + col;
-                    if (col_abs < n_vectors) {
-                        nk_u32_t const *b_row = (nk_u32_t const *)((char const *)vectors + col_abs * stride) +
-                                                d_start_u32;
-                        svld1_hor_za32(0, col, batch_predicate_u32x, b_row);
+                    if (col_abs < vectors_count) {
+                        nk_u8_t const *b_row = (nk_u8_t const *)vectors + col_abs * stride_in_bytes + d_start_u32 * 4;
+                        svuint8_t col_u8x = svld1_u8(depth_predicate_b8x, b_row);
+                        svwrite_hor_za32_u32_m(0, col, batch_predicate_b32x, svreinterpret_u32_u8(col_u8x));
                     }
                 }
                 for (nk_size_t step = 0; step < u32s_this_tile; step++) {
-                    svuint32_t a_u32x = svld1_u32(predicate_all_u32x, a_buffer[step]);
-                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), predicate_all_u32x, 0, step);
-                    svbmopa_za32_u32_m(3, row_predicate_u32x, predicate_all_u32x, a_u32x, b_u32x);
+                    svuint32_t a_u32x = svld1_u32(predicate_all_b32x, a_buffer[step]);
+                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), predicate_all_b32x, 0, step);
+                    svbmopa_za32_u32_m(3, row_predicate_b32x, predicate_all_b32x, a_u32x, b_u32x);
                 }
             }
             // Extract ZA1-3: hamming = depth_bits - ZA[i][j]
             for (nk_size_t row = 0; row < rows_clamped; row++) {
-                nk_u32_t *c_row = (nk_u32_t *)((char *)result + (row_tile_start + row) * result_stride);
-                svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_u32x, 1, row);
-                svuint32_t za2_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_u32x, 2, row);
-                svuint32_t za3_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_u32x, 3, row);
-                svst1_u32(predicate_all_u32x, c_row + (column_tile_index + 0) * tile_dim,
-                          svsub_u32_x(predicate_all_u32x, depth_u32x, za1_u32x));
-                svst1_u32(predicate_all_u32x, c_row + (column_tile_index + 1) * tile_dim,
-                          svsub_u32_x(predicate_all_u32x, depth_u32x, za2_u32x));
-                svst1_u32(predicate_all_u32x, c_row + (column_tile_index + 2) * tile_dim,
-                          svsub_u32_x(predicate_all_u32x, depth_u32x, za3_u32x));
+                nk_u32_t *c_row = (nk_u32_t *)((char *)result + (row_tile_start + row) * result_stride_in_bytes);
+                svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 1, row);
+                svuint32_t za2_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 2, row);
+                svuint32_t za3_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 3, row);
+                svst1_u32(predicate_all_b32x, c_row + (column_tile_index + 0) * tile_dim,
+                          svsub_u32_x(predicate_all_b32x, depth_u32x, za1_u32x));
+                svst1_u32(predicate_all_b32x, c_row + (column_tile_index + 1) * tile_dim,
+                          svsub_u32_x(predicate_all_b32x, depth_u32x, za2_u32x));
+                svst1_u32(predicate_all_b32x, c_row + (column_tile_index + 2) * tile_dim,
+                          svsub_u32_x(predicate_all_b32x, depth_u32x, za3_u32x));
             }
         }
         // Remainder: 1 column tile at a time using ZA1
         for (; column_tile_index < column_tile_count; column_tile_index++) {
             nk_size_t const col_tile_start = column_tile_index * tile_dim;
-            nk_size_t const cols_remaining = (col_tile_start + tile_dim <= n_vectors) ? tile_dim
-                                                                                      : (n_vectors - col_tile_start);
-            svbool_t const column_predicate_u32x = svwhilelt_b32_u64(0u, cols_remaining);
+            nk_size_t const cols_remaining = (col_tile_start + tile_dim <= vectors_count)
+                                                 ? tile_dim
+                                                 : (vectors_count - col_tile_start);
+            svbool_t const column_predicate_b32x = svwhilelt_b32_u64(0u, cols_remaining);
             svzero_mask_za(nk_sme_zero_za32_tile_1_);
             for (nk_size_t d_tile = 0; d_tile < depth_tile_count; d_tile++) {
                 nk_size_t const d_start_u32 = d_tile * depth_tile_size;
-                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_u32_total)
+                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_words)
                                                      ? depth_tile_size
-                                                     : (depth_u32_total > d_start_u32 ? depth_u32_total - d_start_u32
-                                                                                      : 0);
+                                                     : (depth_words > d_start_u32 ? depth_words - d_start_u32 : 0);
                 if (u32s_this_tile == 0) break;
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
-                svbool_t const batch_predicate_u32x = svwhilelt_b32_u64(0u, u32s_this_tile);
+                svbool_t const batch_predicate_b32x = svwhilelt_b32_u64(0u, u32s_this_tile);
                 // Load A rows into ZA0 horizontally
+                svbool_t const depth_predicate_b8x = svwhilelt_b8_u64(d_start_u32 * 4, depth_bytes);
                 for (nk_size_t row_in_tile = 0; row_in_tile < rows_clamped; row_in_tile++) {
-                    nk_u32_t const *a_row_u32 = (nk_u32_t const *)((char const *)vectors +
-                                                                   (row_tile_start + row_in_tile) * stride) +
-                                                d_start_u32;
-                    svld1_hor_za32(0, row_in_tile, batch_predicate_u32x, a_row_u32);
+                    nk_u8_t const *a_row = (nk_u8_t const *)vectors + (row_tile_start + row_in_tile) * stride_in_bytes +
+                                           d_start_u32 * 4;
+                    svuint8_t row_u8x = svld1_u8(depth_predicate_b8x, a_row);
+                    svwrite_hor_za32_u32_m(0, row_in_tile, batch_predicate_b32x, svreinterpret_u32_u8(row_u8x));
                 }
                 // Save A columns from ZA0 to stack buffer
                 for (nk_size_t s = 0; s < u32s_this_tile; s++)
-                    svst1_u32(predicate_all_u32x, a_buffer[s],
-                              svread_ver_za32_u32_m(svdup_u32(0), row_predicate_u32x, 0, s));
+                    svst1_u32(predicate_all_b32x, a_buffer[s],
+                              svread_ver_za32_u32_m(svdup_u32(0), row_predicate_b32x, 0, s));
                 // Load B column tile into ZA0
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
                 for (nk_size_t col = 0; col < tile_dim; col++) {
                     nk_size_t const col_abs = col_tile_start + col;
-                    if (col_abs < n_vectors) {
-                        nk_u32_t const *b_row = (nk_u32_t const *)((char const *)vectors + col_abs * stride) +
-                                                d_start_u32;
-                        svld1_hor_za32(0, col, batch_predicate_u32x, b_row);
+                    if (col_abs < vectors_count) {
+                        nk_u8_t const *b_row = (nk_u8_t const *)vectors + col_abs * stride_in_bytes + d_start_u32 * 4;
+                        svuint8_t col_u8x = svld1_u8(depth_predicate_b8x, b_row);
+                        svwrite_hor_za32_u32_m(0, col, batch_predicate_b32x, svreinterpret_u32_u8(col_u8x));
                     }
                 }
                 for (nk_size_t step = 0; step < u32s_this_tile; step++) {
-                    svuint32_t a_u32x = svld1_u32(predicate_all_u32x, a_buffer[step]);
-                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), column_predicate_u32x, 0, step);
-                    svbmopa_za32_u32_m(1, row_predicate_u32x, column_predicate_u32x, a_u32x, b_u32x);
+                    svuint32_t a_u32x = svld1_u32(predicate_all_b32x, a_buffer[step]);
+                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), column_predicate_b32x, 0, step);
+                    svbmopa_za32_u32_m(1, row_predicate_b32x, column_predicate_b32x, a_u32x, b_u32x);
                 }
             }
             for (nk_size_t row = 0; row < rows_clamped; row++) {
-                svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_u32x, 1, row);
-                svuint32_t hamming_u32x = svsub_u32_x(predicate_all_u32x, depth_u32x, za1_u32x);
-                nk_u32_t *c_row = (nk_u32_t *)((char *)result + (row_tile_start + row) * result_stride);
-                svst1_u32(column_predicate_u32x, c_row + col_tile_start, hamming_u32x);
+                svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 1, row);
+                svuint32_t hamming_u32x = svsub_u32_x(predicate_all_b32x, depth_u32x, za1_u32x);
+                nk_u32_t *c_row = (nk_u32_t *)((char *)result + (row_tile_start + row) * result_stride_in_bytes);
+                svst1_u32(column_predicate_b32x, c_row + col_tile_start, hamming_u32x);
             }
         }
     }
 }
-NK_PUBLIC void nk_hammings_symmetric_u1_smebi32(nk_u1x8_t const *vectors, nk_size_t n_vectors, nk_size_t depth_bits,
-                                                nk_size_t stride, nk_u32_t *result, nk_size_t result_stride,
-                                                nk_size_t row_start, nk_size_t row_count) {
-    nk_hammings_symmetric_u1_smebi32_streaming_(vectors, n_vectors, depth_bits, stride, result, result_stride,
-                                                row_start, row_count);
+NK_PUBLIC void nk_hammings_symmetric_u1_smebi32(nk_u1x8_t const *vectors, nk_size_t vectors_count, nk_size_t depth_bits,
+                                                nk_size_t stride_in_bytes, nk_u32_t *result,
+                                                nk_size_t result_stride_in_bytes, nk_size_t row_start,
+                                                nk_size_t row_count) {
+    nk_hammings_symmetric_u1_smebi32_streaming_(vectors, vectors_count, depth_bits, stride_in_bytes, result,
+                                                result_stride_in_bytes, row_start, row_count);
 }
-#pragma endregion // Hamming Distance
+#pragma endregion Hamming Distance
 /*
  *  Jaccard distance via BMOPA matching counts + algebraic normalization.
@@ -570,31 +592,33 @@ __arm_locally_streaming __arm_new("za") static void nk_jaccards_packed_u1_smebi3
     nk_size_t const tile_dim = svcntw();        // 16 for 512-bit SVL
     nk_size_t const depth_tile_size = svcntw(); // 16 u32 per depth tile
     nk_size_t const tile_elements = tile_dim * depth_tile_size;
-    nk_size_t const depth_u32_total = nk_size_divide_round_up_(depth_bits, 32);
+    // BMOPA processes binary data in 32-bit words: each svbmopa_za32_u32_m step
+    // handles one u32 (32 bits) across all row×column pairs simultaneously.
+    nk_size_t const depth_words = nk_size_divide_round_up_(depth_bits, 32);
+    nk_size_t const depth_bytes = depth_bits / 8;
     nk_u32_t const *b_tiles = (nk_u32_t const *)((char const *)b_packed + sizeof(nk_sets_smebi32_packed_header_t));
     nk_u32_t const *b_norms = header->norms_offset ? (nk_u32_t const *)((char const *)b_packed + header->norms_offset)
                                                    : (nk_u32_t const *)0;
-    svbool_t const predicate_all_f32x = svptrue_b32();
-    svfloat32_t const depth_f32x = svdup_f32((nk_f32_t)depth_bits);
+    svbool_t const predicate_all_b32x = svptrue_b32();
+    svfloat32_t const depth_f32x = svdup_f32((nk_f32_t)(depth_words * 32));
     svfloat32_t const half_f32x = svdup_f32(0.5f);
     svfloat32_t const one_f32x = svdup_f32(1.0f);
     svfloat32_t const zero_f32x = svdup_f32(0.0f);
-    nk_size_t const depth_in_bytes = nk_size_divide_round_up_(depth_bits, 8);
     nk_size_t const row_tile_count_a = nk_size_divide_round_up_(row_count_a, tile_dim);
     for (nk_size_t row_tile_a = 0; row_tile_a < row_tile_count_a; row_tile_a++) {
         nk_size_t const row_start_a = row_tile_a * tile_dim;
         nk_size_t const rows_a_remaining = (row_start_a + tile_dim <= row_count_a) ? tile_dim
                                                                                    : (row_count_a - row_start_a);
-        svbool_t const row_predicate_f32x = svwhilelt_b32_u64(0u, rows_a_remaining);
+        svbool_t const row_predicate_b32x = svwhilelt_b32_u64(0u, rows_a_remaining);
         // Compute A tile norms using streaming SVE popcount
         NK_ALIGN64 nk_f32_t a_tile_norms[16];
         for (nk_size_t r = 0; r < rows_a_remaining; r++) {
             nk_u1x8_t const *a_row = (nk_u1x8_t const *)((char const *)a + (row_start_a + r) * a_stride_in_bytes);
-            a_tile_norms[r] = (nk_f32_t)nk_sets_reduce_sumsq_u1_streaming_(a_row, depth_in_bytes);
+            a_tile_norms[r] = (nk_f32_t)nk_sets_reduce_sumsq_u1_streaming_(a_row, depth_bytes);
         }
         // Fast path: 3 B column tiles using ZA1-ZA3 (ZA0.S = staging)
@@ -604,22 +628,23 @@ __arm_locally_streaming __arm_new("za") static void nk_jaccards_packed_u1_smebi3
             for (nk_size_t d_tile = 0; d_tile < depth_tile_count; d_tile++) {
                 nk_size_t const d_start_u32 = d_tile * depth_tile_size;
-                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_u32_total)
+                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_words)
                                                      ? depth_tile_size
-                                                     : (depth_u32_total > d_start_u32 ? depth_u32_total - d_start_u32
-                                                                                      : 0);
+                                                     : (depth_words > d_start_u32 ? depth_words - d_start_u32 : 0);
                 if (u32s_this_tile == 0) break;
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
-                svbool_t const batch_predicate_f32x = svwhilelt_b32_u64(0u, u32s_this_tile);
+                svbool_t const batch_predicate_b32x = svwhilelt_b32_u64(0u, u32s_this_tile);
+                svbool_t const depth_predicate_b8x = svwhilelt_b8_u64(d_start_u32 * 4, depth_bytes);
-                // Load A rows into ZA0.S horizontally as u32 words
+                // Load A rows into ZA0.S, byte-predicated to zero garbage bits
                 for (nk_size_t row_in_tile = 0; row_in_tile < rows_a_remaining; row_in_tile++) {
-                    nk_u32_t const *a_row_u32 = (nk_u32_t const *)((char const *)a +
-                                                                   (row_start_a + row_in_tile) * a_stride_in_bytes) +
-                                                d_start_u32;
-                    svld1_hor_za32(0, row_in_tile, batch_predicate_f32x, a_row_u32);
+                    nk_u8_t const *a_row = (nk_u8_t const *)a + (row_start_a + row_in_tile) * a_stride_in_bytes +
+                                           d_start_u32 * 4;
+                    svuint8_t row_u8x = svld1_u8(depth_predicate_b8x, a_row);
+                    svwrite_hor_za32_u32_m(0, row_in_tile, batch_predicate_b32x, svreinterpret_u32_u8(row_u8x));
                 }
                 // B tile pointers for 3 column tiles
@@ -629,25 +654,25 @@ __arm_locally_streaming __arm_new("za") static void nk_jaccards_packed_u1_smebi3
                 // Vertical read + BMOPA for each depth step
                 for (nk_size_t step = 0; step < u32s_this_tile; step++) {
-                    svuint32_t a_column_u32x = svread_ver_za32_u32_m(svdup_u32(0), row_predicate_f32x, 0, step);
-                    svbmopa_za32_u32_m(1, row_predicate_f32x, predicate_all_f32x, a_column_u32x,
-                                       svld1_u32(predicate_all_f32x, b_tile0 + step * tile_dim));
-                    svbmopa_za32_u32_m(2, row_predicate_f32x, predicate_all_f32x, a_column_u32x,
-                                       svld1_u32(predicate_all_f32x, b_tile1 + step * tile_dim));
-                    svbmopa_za32_u32_m(3, row_predicate_f32x, predicate_all_f32x, a_column_u32x,
-                                       svld1_u32(predicate_all_f32x, b_tile2 + step * tile_dim));
+                    svuint32_t a_column_u32x = svread_ver_za32_u32_m(svdup_u32(0), row_predicate_b32x, 0, step);
+                    svbmopa_za32_u32_m(1, row_predicate_b32x, predicate_all_b32x, a_column_u32x,
+                                       svld1_u32(predicate_all_b32x, b_tile0 + step * tile_dim));
+                    svbmopa_za32_u32_m(2, row_predicate_b32x, predicate_all_b32x, a_column_u32x,
+                                       svld1_u32(predicate_all_b32x, b_tile1 + step * tile_dim));
+                    svbmopa_za32_u32_m(3, row_predicate_b32x, predicate_all_b32x, a_column_u32x,
+                                       svld1_u32(predicate_all_b32x, b_tile2 + step * tile_dim));
                 }
             }
             // Extract from ZA1-3: Jaccard normalization via streaming SVE
             // Hoist B norms outside row loop (same for all A rows in this tile-pair)
             svfloat32_t b_norms_0_f32x = svcvt_f32_u32_x(
-                predicate_all_f32x, svld1_u32(predicate_all_f32x, b_norms + (row_tile_b + 0) * tile_dim));
+                predicate_all_b32x, svld1_u32(predicate_all_b32x, b_norms + (row_tile_b + 0) * tile_dim));
             svfloat32_t b_norms_1_f32x = svcvt_f32_u32_x(
-                predicate_all_f32x, svld1_u32(predicate_all_f32x, b_norms + (row_tile_b + 1) * tile_dim));
+                predicate_all_b32x, svld1_u32(predicate_all_b32x, b_norms + (row_tile_b + 1) * tile_dim));
             svfloat32_t b_norms_2_f32x = svcvt_f32_u32_x(
-                predicate_all_f32x, svld1_u32(predicate_all_f32x, b_norms + (row_tile_b + 2) * tile_dim));
+                predicate_all_b32x, svld1_u32(predicate_all_b32x, b_norms + (row_tile_b + 2) * tile_dim));
             for (nk_size_t row = 0; row < rows_a_remaining; row++) {
                 nk_f32_t *c_row = (nk_f32_t *)((char *)c + (row_start_a + row) * c_stride_in_bytes);
@@ -655,54 +680,54 @@ __arm_locally_streaming __arm_new("za") static void nk_jaccards_packed_u1_smebi3
                 // ZA1
                 {
-                    svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_f32x, 1, row);
-                    svfloat32_t matching_f32x = svcvt_f32_u32_x(predicate_all_f32x, za1_u32x);
-                    svfloat32_t sum_norms_f32x = svadd_f32_x(predicate_all_f32x, norm_a_f32x, b_norms_0_f32x);
+                    svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 1, row);
+                    svfloat32_t matching_f32x = svcvt_f32_u32_x(predicate_all_b32x, za1_u32x);
+                    svfloat32_t sum_norms_f32x = svadd_f32_x(predicate_all_b32x, norm_a_f32x, b_norms_0_f32x);
                     svfloat32_t intersection_f32x = svmul_f32_x(
-                        predicate_all_f32x,
-                        svadd_f32_x(predicate_all_f32x, svsub_f32_x(predicate_all_f32x, sum_norms_f32x, depth_f32x),
+                        predicate_all_b32x,
+                        svadd_f32_x(predicate_all_b32x, svsub_f32_x(predicate_all_b32x, sum_norms_f32x, depth_f32x),
                                     matching_f32x),
                         half_f32x);
-                    svfloat32_t union_val_f32x = svsub_f32_x(predicate_all_f32x, sum_norms_f32x, intersection_f32x);
-                    svbool_t nonzero_f32x = svcmpne_f32(predicate_all_f32x, union_val_f32x, zero_f32x);
-                    svfloat32_t ratio_f32x = svdiv_f32_x(predicate_all_f32x, intersection_f32x, union_val_f32x);
+                    svfloat32_t union_val_f32x = svsub_f32_x(predicate_all_b32x, sum_norms_f32x, intersection_f32x);
+                    svbool_t nonzero_b32x = svcmpne_f32(predicate_all_b32x, union_val_f32x, zero_f32x);
+                    svfloat32_t ratio_f32x = svdiv_f32_x(predicate_all_b32x, intersection_f32x, union_val_f32x);
                     svfloat32_t jaccard_f32x = svsel_f32(
-                        nonzero_f32x, svsub_f32_x(predicate_all_f32x, one_f32x, ratio_f32x), one_f32x);
-                    svst1_f32(predicate_all_f32x, c_row + (row_tile_b + 0) * tile_dim, jaccard_f32x);
+                        nonzero_b32x, svsub_f32_x(predicate_all_b32x, one_f32x, ratio_f32x), one_f32x);
+                    svst1_f32(predicate_all_b32x, c_row + (row_tile_b + 0) * tile_dim, jaccard_f32x);
                 }
                 // ZA2
                 {
-                    svuint32_t za2_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_f32x, 2, row);
-                    svfloat32_t matching_f32x = svcvt_f32_u32_x(predicate_all_f32x, za2_u32x);
-                    svfloat32_t sum_norms_f32x = svadd_f32_x(predicate_all_f32x, norm_a_f32x, b_norms_1_f32x);
+                    svuint32_t za2_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 2, row);
+                    svfloat32_t matching_f32x = svcvt_f32_u32_x(predicate_all_b32x, za2_u32x);
+                    svfloat32_t sum_norms_f32x = svadd_f32_x(predicate_all_b32x, norm_a_f32x, b_norms_1_f32x);
                     svfloat32_t intersection_f32x = svmul_f32_x(
-                        predicate_all_f32x,
-                        svadd_f32_x(predicate_all_f32x, svsub_f32_x(predicate_all_f32x, sum_norms_f32x, depth_f32x),
+                        predicate_all_b32x,
+                        svadd_f32_x(predicate_all_b32x, svsub_f32_x(predicate_all_b32x, sum_norms_f32x, depth_f32x),
                                     matching_f32x),
                         half_f32x);
-                    svfloat32_t union_val_f32x = svsub_f32_x(predicate_all_f32x, sum_norms_f32x, intersection_f32x);
-                    svbool_t nonzero_f32x = svcmpne_f32(predicate_all_f32x, union_val_f32x, zero_f32x);
-                    svfloat32_t ratio_f32x = svdiv_f32_x(predicate_all_f32x, intersection_f32x, union_val_f32x);
+                    svfloat32_t union_val_f32x = svsub_f32_x(predicate_all_b32x, sum_norms_f32x, intersection_f32x);
+                    svbool_t nonzero_b32x = svcmpne_f32(predicate_all_b32x, union_val_f32x, zero_f32x);
+                    svfloat32_t ratio_f32x = svdiv_f32_x(predicate_all_b32x, intersection_f32x, union_val_f32x);
                     svfloat32_t jaccard_f32x = svsel_f32(
-                        nonzero_f32x, svsub_f32_x(predicate_all_f32x, one_f32x, ratio_f32x), one_f32x);
-                    svst1_f32(predicate_all_f32x, c_row + (row_tile_b + 1) * tile_dim, jaccard_f32x);
+                        nonzero_b32x, svsub_f32_x(predicate_all_b32x, one_f32x, ratio_f32x), one_f32x);
+                    svst1_f32(predicate_all_b32x, c_row + (row_tile_b + 1) * tile_dim, jaccard_f32x);
                 }
                 // ZA3
                 {
-                    svuint32_t za3_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_f32x, 3, row);
-                    svfloat32_t matching_f32x = svcvt_f32_u32_x(predicate_all_f32x, za3_u32x);
-                    svfloat32_t sum_norms_f32x = svadd_f32_x(predicate_all_f32x, norm_a_f32x, b_norms_2_f32x);
+                    svuint32_t za3_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 3, row);
+                    svfloat32_t matching_f32x = svcvt_f32_u32_x(predicate_all_b32x, za3_u32x);
+                    svfloat32_t sum_norms_f32x = svadd_f32_x(predicate_all_b32x, norm_a_f32x, b_norms_2_f32x);
                     svfloat32_t intersection_f32x = svmul_f32_x(
-                        predicate_all_f32x,
-                        svadd_f32_x(predicate_all_f32x, svsub_f32_x(predicate_all_f32x, sum_norms_f32x, depth_f32x),
+                        predicate_all_b32x,
+                        svadd_f32_x(predicate_all_b32x, svsub_f32_x(predicate_all_b32x, sum_norms_f32x, depth_f32x),
                                     matching_f32x),
                         half_f32x);
-                    svfloat32_t union_val_f32x = svsub_f32_x(predicate_all_f32x, sum_norms_f32x, intersection_f32x);
-                    svbool_t nonzero_f32x = svcmpne_f32(predicate_all_f32x, union_val_f32x, zero_f32x);
-                    svfloat32_t ratio_f32x = svdiv_f32_x(predicate_all_f32x, intersection_f32x, union_val_f32x);
+                    svfloat32_t union_val_f32x = svsub_f32_x(predicate_all_b32x, sum_norms_f32x, intersection_f32x);
+                    svbool_t nonzero_b32x = svcmpne_f32(predicate_all_b32x, union_val_f32x, zero_f32x);
+                    svfloat32_t ratio_f32x = svdiv_f32_x(predicate_all_b32x, intersection_f32x, union_val_f32x);
                     svfloat32_t jaccard_f32x = svsel_f32(
-                        nonzero_f32x, svsub_f32_x(predicate_all_f32x, one_f32x, ratio_f32x), one_f32x);
-                    svst1_f32(predicate_all_f32x, c_row + (row_tile_b + 2) * tile_dim, jaccard_f32x);
+                        nonzero_b32x, svsub_f32_x(predicate_all_b32x, one_f32x, ratio_f32x), one_f32x);
+                    svst1_f32(predicate_all_b32x, c_row + (row_tile_b + 2) * tile_dim, jaccard_f32x);
                 }
             }
         }
@@ -712,60 +737,60 @@ __arm_locally_streaming __arm_new("za") static void nk_jaccards_packed_u1_smebi3
             nk_size_t const row_start_b = row_tile_b * tile_dim;
             nk_size_t const rows_b_remaining = (row_start_b + tile_dim <= row_count_b) ? tile_dim
                                                                                        : (row_count_b - row_start_b);
-            svbool_t const column_predicate_f32x = svwhilelt_b32_u64(0u, rows_b_remaining);
+            svbool_t const column_predicate_b32x = svwhilelt_b32_u64(0u, rows_b_remaining);
             svzero_mask_za(nk_sme_zero_za32_tile_1_);
             for (nk_size_t d_tile = 0; d_tile < depth_tile_count; d_tile++) {
                 nk_size_t const d_start_u32 = d_tile * depth_tile_size;
-                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_u32_total)
+                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_words)
                                                      ? depth_tile_size
-                                                     : (depth_u32_total > d_start_u32 ? depth_u32_total - d_start_u32
-                                                                                      : 0);
+                                                     : (depth_words > d_start_u32 ? depth_words - d_start_u32 : 0);
                 if (u32s_this_tile == 0) break;
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
-                svbool_t const batch_predicate_f32x = svwhilelt_b32_u64(0u, u32s_this_tile);
+                svbool_t const batch_predicate_b32x = svwhilelt_b32_u64(0u, u32s_this_tile);
                 // Load A rows into ZA0.S horizontally
+                svbool_t const depth_predicate_b8x = svwhilelt_b8_u64(d_start_u32 * 4, depth_bytes);
                 for (nk_size_t row_in_tile = 0; row_in_tile < rows_a_remaining; row_in_tile++) {
-                    nk_u32_t const *a_row_u32 = (nk_u32_t const *)((char const *)a +
-                                                                   (row_start_a + row_in_tile) * a_stride_in_bytes) +
-                                                d_start_u32;
-                    svld1_hor_za32(0, row_in_tile, batch_predicate_f32x, a_row_u32);
+                    nk_u8_t const *a_row = (nk_u8_t const *)a + (row_start_a + row_in_tile) * a_stride_in_bytes +
+                                           d_start_u32 * 4;
+                    svuint8_t row_u8x = svld1_u8(depth_predicate_b8x, a_row);
+                    svwrite_hor_za32_u32_m(0, row_in_tile, batch_predicate_b32x, svreinterpret_u32_u8(row_u8x));
                 }
                 nk_u32_t const *b_tile = b_tiles + (row_tile_b * depth_tile_count + d_tile) * tile_elements;
                 // Vertical read + BMOPA
                 for (nk_size_t step = 0; step < u32s_this_tile; step++) {
-                    svuint32_t a_column_u32x = svread_ver_za32_u32_m(svdup_u32(0), row_predicate_f32x, 0, step);
-                    svuint32_t b_u32x = svld1_u32(predicate_all_f32x, b_tile + step * tile_dim);
-                    svbmopa_za32_u32_m(1, row_predicate_f32x, column_predicate_f32x, a_column_u32x, b_u32x);
+                    svuint32_t a_column_u32x = svread_ver_za32_u32_m(svdup_u32(0), row_predicate_b32x, 0, step);
+                    svuint32_t b_u32x = svld1_u32(predicate_all_b32x, b_tile + step * tile_dim);
+                    svbmopa_za32_u32_m(1, row_predicate_b32x, column_predicate_b32x, a_column_u32x, b_u32x);
                 }
             }
             // Extract from ZA1: Jaccard normalization
-            svfloat32_t b_norms_f32x = svcvt_f32_u32_x(predicate_all_f32x,
-                                                       svld1_u32(predicate_all_f32x, b_norms + row_start_b));
+            svfloat32_t b_norms_f32x = svcvt_f32_u32_x(predicate_all_b32x,
+                                                       svld1_u32(predicate_all_b32x, b_norms + row_start_b));
             for (nk_size_t row = 0; row < rows_a_remaining; row++) {
-                svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_f32x, 1, row);
-                svfloat32_t matching_f32x = svcvt_f32_u32_x(predicate_all_f32x, za1_u32x);
+                svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 1, row);
+                svfloat32_t matching_f32x = svcvt_f32_u32_x(predicate_all_b32x, za1_u32x);
                 svfloat32_t norm_a_f32x = svdup_f32(a_tile_norms[row]);
-                svfloat32_t sum_norms_f32x = svadd_f32_x(predicate_all_f32x, norm_a_f32x, b_norms_f32x);
+                svfloat32_t sum_norms_f32x = svadd_f32_x(predicate_all_b32x, norm_a_f32x, b_norms_f32x);
                 svfloat32_t intersection_f32x = svmul_f32_x(
-                    predicate_all_f32x,
-                    svadd_f32_x(predicate_all_f32x, svsub_f32_x(predicate_all_f32x, sum_norms_f32x, depth_f32x),
+                    predicate_all_b32x,
+                    svadd_f32_x(predicate_all_b32x, svsub_f32_x(predicate_all_b32x, sum_norms_f32x, depth_f32x),
                                 matching_f32x),
                     half_f32x);
-                svfloat32_t union_val_f32x = svsub_f32_x(predicate_all_f32x, sum_norms_f32x, intersection_f32x);
-                svbool_t nonzero_f32x = svcmpne_f32(predicate_all_f32x, union_val_f32x, zero_f32x);
-                svfloat32_t ratio_f32x = svdiv_f32_x(predicate_all_f32x, intersection_f32x, union_val_f32x);
-                svfloat32_t jaccard_f32x = svsel_f32(nonzero_f32x,
-                                                     svsub_f32_x(predicate_all_f32x, one_f32x, ratio_f32x), one_f32x);
+                svfloat32_t union_val_f32x = svsub_f32_x(predicate_all_b32x, sum_norms_f32x, intersection_f32x);
+                svbool_t nonzero_b32x = svcmpne_f32(predicate_all_b32x, union_val_f32x, zero_f32x);
+                svfloat32_t ratio_f32x = svdiv_f32_x(predicate_all_b32x, intersection_f32x, union_val_f32x);
+                svfloat32_t jaccard_f32x = svsel_f32(nonzero_b32x,
+                                                     svsub_f32_x(predicate_all_b32x, one_f32x, ratio_f32x), one_f32x);
                 nk_f32_t *c_row = (nk_f32_t *)((char *)c + (row_start_a + row) * c_stride_in_bytes);
-                svst1_f32(column_predicate_f32x, c_row + row_start_b, jaccard_f32x);
+                svst1_f32(column_predicate_b32x, c_row + row_start_b, jaccard_f32x);
             }
         }
     }
@@ -784,17 +809,19 @@ NK_PUBLIC void nk_jaccards_packed_u1_smebi32(nk_u1x8_t const *a, void const *b_p
  *  Norms computed on-the-fly using streaming SVE popcount.
  */
 __arm_locally_streaming __arm_new("za") static void nk_jaccards_symmetric_u1_smebi32_streaming_(
-    nk_u1x8_t const *vectors, nk_size_t n_vectors, nk_size_t depth_bits, nk_size_t stride, nk_f32_t *result,
-    nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_u1x8_t const *vectors, nk_size_t vectors_count, nk_size_t depth_bits, nk_size_t stride_in_bytes,
+    nk_f32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const tile_dim = svcntw();        // 16 for 512-bit SVL
     nk_size_t const depth_tile_size = svcntw(); // 16 u32 per depth tile
-    nk_size_t const depth_u32_total = nk_size_divide_round_up_(depth_bits, 32);
-    nk_size_t const depth_tile_count = nk_size_divide_round_up_(depth_u32_total, depth_tile_size);
-    nk_size_t const depth_in_bytes = nk_size_divide_round_up_(depth_bits, NK_BITS_PER_BYTE);
-    svbool_t const predicate_all_f32x = svptrue_b32();
-    svfloat32_t const depth_f32x = svdup_f32((nk_f32_t)depth_bits);
+    // BMOPA processes binary data in 32-bit words: each svbmopa_za32_u32_m step
+    // handles one u32 (32 bits) across all row×column pairs simultaneously.
+    nk_size_t const depth_words = nk_size_divide_round_up_(depth_bits, 32);
+    nk_size_t const depth_tile_count = nk_size_divide_round_up_(depth_words, depth_tile_size);
+    nk_size_t const depth_bytes = depth_bits / 8;
+    svbool_t const predicate_all_b32x = svptrue_b32();
+    svfloat32_t const depth_f32x = svdup_f32((nk_f32_t)(depth_words * 32));
     svfloat32_t const half_f32x = svdup_f32(0.5f);
     svfloat32_t const one_f32x = svdup_f32(1.0f);
     svfloat32_t const zero_f32x = svdup_f32(0.0f);
@@ -802,20 +829,22 @@ __arm_locally_streaming __arm_new("za") static void nk_jaccards_symmetric_u1_sme
     NK_ALIGN64 nk_u32_t a_buffer[16][16]; // Stack buffer for A column save
     nk_size_t const row_end = row_start + row_count;
-    nk_size_t const column_tile_count = nk_size_divide_round_up_(n_vectors, tile_dim);
+    nk_size_t const column_tile_count = nk_size_divide_round_up_(vectors_count, tile_dim);
-    for (nk_size_t row_tile_start = row_start; row_tile_start < row_end && row_tile_start < n_vectors;
+    for (nk_size_t row_tile_start = row_start; row_tile_start < row_end && row_tile_start < vectors_count;
          row_tile_start += tile_dim) {
         nk_size_t const rows_remaining = (row_tile_start + tile_dim <= row_end) ? tile_dim : (row_end - row_tile_start);
-        nk_size_t const rows_clamped = (row_tile_start + rows_remaining <= n_vectors) ? rows_remaining
-                                                                                      : (n_vectors - row_tile_start);
-        svbool_t const row_predicate_f32x = svwhilelt_b32_u64(0u, rows_clamped);
+        nk_size_t const rows_clamped = (row_tile_start + rows_remaining <= vectors_count)
+                                           ? rows_remaining
+                                           : (vectors_count - row_tile_start);
+        svbool_t const row_predicate_b32x = svwhilelt_b32_u64(0u, rows_clamped);
         // Compute A tile norms
         NK_ALIGN64 nk_f32_t a_tile_norms[16];
         for (nk_size_t r = 0; r < rows_clamped; r++) {
-            nk_u1x8_t const *a_row = (nk_u1x8_t const *)((char const *)vectors + (row_tile_start + r) * stride);
-            a_tile_norms[r] = (nk_f32_t)nk_sets_reduce_sumsq_u1_streaming_(a_row, depth_in_bytes);
+            nk_u1x8_t const *a_row = (nk_u1x8_t const *)((char const *)vectors +
+                                                         (row_tile_start + r) * stride_in_bytes);
+            a_tile_norms[r] = (nk_f32_t)nk_sets_reduce_sumsq_u1_streaming_(a_row, depth_bytes);
         }
         for (nk_size_t r = rows_clamped; r < tile_dim; r++) a_tile_norms[r] = 0.0f;
@@ -828,74 +857,74 @@ __arm_locally_streaming __arm_new("za") static void nk_jaccards_symmetric_u1_sme
             for (nk_size_t d_tile = 0; d_tile < depth_tile_count; d_tile++) {
                 nk_size_t const d_start_u32 = d_tile * depth_tile_size;
-                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_u32_total)
+                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_words)
                                                      ? depth_tile_size
-                                                     : (depth_u32_total > d_start_u32 ? depth_u32_total - d_start_u32
-                                                                                      : 0);
+                                                     : (depth_words > d_start_u32 ? depth_words - d_start_u32 : 0);
                 if (u32s_this_tile == 0) break;
                 // Load A rows into ZA0 horizontally
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
-                svbool_t const batch_predicate_f32x = svwhilelt_b32_u64(0u, u32s_this_tile);
+                svbool_t const batch_predicate_b32x = svwhilelt_b32_u64(0u, u32s_this_tile);
+                svbool_t const depth_predicate_b8x = svwhilelt_b8_u64(d_start_u32 * 4, depth_bytes);
                 for (nk_size_t row_in_tile = 0; row_in_tile < rows_clamped; row_in_tile++) {
-                    nk_u32_t const *a_row_u32 = (nk_u32_t const *)((char const *)vectors +
-                                                                   (row_tile_start + row_in_tile) * stride) +
-                                                d_start_u32;
-                    svld1_hor_za32(0, row_in_tile, batch_predicate_f32x, a_row_u32);
+                    nk_u8_t const *a_row = (nk_u8_t const *)vectors + (row_tile_start + row_in_tile) * stride_in_bytes +
+                                           d_start_u32 * 4;
+                    svuint8_t row_u8x = svld1_u8(depth_predicate_b8x, a_row);
+                    svwrite_hor_za32_u32_m(0, row_in_tile, batch_predicate_b32x, svreinterpret_u32_u8(row_u8x));
                 }
                 // Save A columns from ZA0 to stack buffer
                 for (nk_size_t s = 0; s < u32s_this_tile; s++)
-                    svst1_u32(predicate_all_f32x, a_buffer[s],
-                              svread_ver_za32_u32_m(svdup_u32(0), row_predicate_f32x, 0, s));
+                    svst1_u32(predicate_all_b32x, a_buffer[s],
+                              svread_ver_za32_u32_m(svdup_u32(0), row_predicate_b32x, 0, s));
                 // B column tile 0
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
                 for (nk_size_t col = 0; col < tile_dim; col++) {
                     nk_size_t const col_abs = (column_tile_index + 0) * tile_dim + col;
-                    if (col_abs < n_vectors) {
-                        nk_u32_t const *b_row = (nk_u32_t const *)((char const *)vectors + col_abs * stride) +
-                                                d_start_u32;
-                        svld1_hor_za32(0, col, batch_predicate_f32x, b_row);
+                    if (col_abs < vectors_count) {
+                        nk_u8_t const *b_row = (nk_u8_t const *)vectors + col_abs * stride_in_bytes + d_start_u32 * 4;
+                        svuint8_t col_u8x = svld1_u8(depth_predicate_b8x, b_row);
+                        svwrite_hor_za32_u32_m(0, col, batch_predicate_b32x, svreinterpret_u32_u8(col_u8x));
                     }
                 }
                 for (nk_size_t step = 0; step < u32s_this_tile; step++) {
-                    svuint32_t a_u32x = svld1_u32(predicate_all_f32x, a_buffer[step]);
-                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), predicate_all_f32x, 0, step);
-                    svbmopa_za32_u32_m(1, row_predicate_f32x, predicate_all_f32x, a_u32x, b_u32x);
+                    svuint32_t a_u32x = svld1_u32(predicate_all_b32x, a_buffer[step]);
+                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), predicate_all_b32x, 0, step);
+                    svbmopa_za32_u32_m(1, row_predicate_b32x, predicate_all_b32x, a_u32x, b_u32x);
                 }
                 // B column tile 1
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
                 for (nk_size_t col = 0; col < tile_dim; col++) {
                     nk_size_t const col_abs = (column_tile_index + 1) * tile_dim + col;
-                    if (col_abs < n_vectors) {
-                        nk_u32_t const *b_row = (nk_u32_t const *)((char const *)vectors + col_abs * stride) +
-                                                d_start_u32;
-                        svld1_hor_za32(0, col, batch_predicate_f32x, b_row);
+                    if (col_abs < vectors_count) {
+                        nk_u8_t const *b_row = (nk_u8_t const *)vectors + col_abs * stride_in_bytes + d_start_u32 * 4;
+                        svuint8_t col_u8x = svld1_u8(depth_predicate_b8x, b_row);
+                        svwrite_hor_za32_u32_m(0, col, batch_predicate_b32x, svreinterpret_u32_u8(col_u8x));
                     }
                 }
                 for (nk_size_t step = 0; step < u32s_this_tile; step++) {
-                    svuint32_t a_u32x = svld1_u32(predicate_all_f32x, a_buffer[step]);
-                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), predicate_all_f32x, 0, step);
-                    svbmopa_za32_u32_m(2, row_predicate_f32x, predicate_all_f32x, a_u32x, b_u32x);
+                    svuint32_t a_u32x = svld1_u32(predicate_all_b32x, a_buffer[step]);
+                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), predicate_all_b32x, 0, step);
+                    svbmopa_za32_u32_m(2, row_predicate_b32x, predicate_all_b32x, a_u32x, b_u32x);
                 }
                 // B column tile 2
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
                 for (nk_size_t col = 0; col < tile_dim; col++) {
                     nk_size_t const col_abs = (column_tile_index + 2) * tile_dim + col;
-                    if (col_abs < n_vectors) {
-                        nk_u32_t const *b_row = (nk_u32_t const *)((char const *)vectors + col_abs * stride) +
-                                                d_start_u32;
-                        svld1_hor_za32(0, col, batch_predicate_f32x, b_row);
+                    if (col_abs < vectors_count) {
+                        nk_u8_t const *b_row = (nk_u8_t const *)vectors + col_abs * stride_in_bytes + d_start_u32 * 4;
+                        svuint8_t col_u8x = svld1_u8(depth_predicate_b8x, b_row);
+                        svwrite_hor_za32_u32_m(0, col, batch_predicate_b32x, svreinterpret_u32_u8(col_u8x));
                     }
                 }
                 for (nk_size_t step = 0; step < u32s_this_tile; step++) {
-                    svuint32_t a_u32x = svld1_u32(predicate_all_f32x, a_buffer[step]);
-                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), predicate_all_f32x, 0, step);
-                    svbmopa_za32_u32_m(3, row_predicate_f32x, predicate_all_f32x, a_u32x, b_u32x);
+                    svuint32_t a_u32x = svld1_u32(predicate_all_b32x, a_buffer[step]);
+                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), predicate_all_b32x, 0, step);
+                    svbmopa_za32_u32_m(3, row_predicate_b32x, predicate_all_b32x, a_u32x, b_u32x);
                 }
             }
@@ -907,85 +936,85 @@ __arm_locally_streaming __arm_new("za") static void nk_jaccards_symmetric_u1_sme
                 nk_size_t const col_abs_0 = (column_tile_index + 0) * tile_dim + col;
                 nk_size_t const col_abs_1 = (column_tile_index + 1) * tile_dim + col;
                 nk_size_t const col_abs_2 = (column_tile_index + 2) * tile_dim + col;
-                b_tile_norms_0[col] = (col_abs_0 < n_vectors)
-                                          ? nk_sets_reduce_sumsq_u1_streaming_(
-                                                (nk_u1x8_t const *)((char const *)vectors + col_abs_0 * stride),
-                                                depth_in_bytes)
-                                          : 0;
-                b_tile_norms_1[col] = (col_abs_1 < n_vectors)
-                                          ? nk_sets_reduce_sumsq_u1_streaming_(
-                                                (nk_u1x8_t const *)((char const *)vectors + col_abs_1 * stride),
-                                                depth_in_bytes)
-                                          : 0;
-                b_tile_norms_2[col] = (col_abs_2 < n_vectors)
-                                          ? nk_sets_reduce_sumsq_u1_streaming_(
-                                                (nk_u1x8_t const *)((char const *)vectors + col_abs_2 * stride),
-                                                depth_in_bytes)
-                                          : 0;
+                b_tile_norms_0[col] =
+                    (col_abs_0 < vectors_count)
+                        ? nk_sets_reduce_sumsq_u1_streaming_(
+                              (nk_u1x8_t const *)((char const *)vectors + col_abs_0 * stride_in_bytes), depth_bytes)
+                        : 0;
+                b_tile_norms_1[col] =
+                    (col_abs_1 < vectors_count)
+                        ? nk_sets_reduce_sumsq_u1_streaming_(
+                              (nk_u1x8_t const *)((char const *)vectors + col_abs_1 * stride_in_bytes), depth_bytes)
+                        : 0;
+                b_tile_norms_2[col] =
+                    (col_abs_2 < vectors_count)
+                        ? nk_sets_reduce_sumsq_u1_streaming_(
+                              (nk_u1x8_t const *)((char const *)vectors + col_abs_2 * stride_in_bytes), depth_bytes)
+                        : 0;
             }
             // Extract ZA1-3: Jaccard normalization
-            svfloat32_t b_norms_0_f32x = svcvt_f32_u32_x(predicate_all_f32x,
-                                                         svld1_u32(predicate_all_f32x, b_tile_norms_0));
-            svfloat32_t b_norms_1_f32x = svcvt_f32_u32_x(predicate_all_f32x,
-                                                         svld1_u32(predicate_all_f32x, b_tile_norms_1));
-            svfloat32_t b_norms_2_f32x = svcvt_f32_u32_x(predicate_all_f32x,
-                                                         svld1_u32(predicate_all_f32x, b_tile_norms_2));
+            svfloat32_t b_norms_0_f32x = svcvt_f32_u32_x(predicate_all_b32x,
+                                                         svld1_u32(predicate_all_b32x, b_tile_norms_0));
+            svfloat32_t b_norms_1_f32x = svcvt_f32_u32_x(predicate_all_b32x,
+                                                         svld1_u32(predicate_all_b32x, b_tile_norms_1));
+            svfloat32_t b_norms_2_f32x = svcvt_f32_u32_x(predicate_all_b32x,
+                                                         svld1_u32(predicate_all_b32x, b_tile_norms_2));
             for (nk_size_t row = 0; row < rows_clamped; row++) {
-                nk_f32_t *c_row = (nk_f32_t *)((char *)result + (row_tile_start + row) * result_stride);
+                nk_f32_t *c_row = (nk_f32_t *)((char *)result + (row_tile_start + row) * result_stride_in_bytes);
                 svfloat32_t norm_a_f32x = svdup_f32(a_tile_norms[row]);
                 // ZA1
                 {
-                    svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_f32x, 1, row);
-                    svfloat32_t matching_f32x = svcvt_f32_u32_x(predicate_all_f32x, za1_u32x);
-                    svfloat32_t sum_norms_f32x = svadd_f32_x(predicate_all_f32x, norm_a_f32x, b_norms_0_f32x);
+                    svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 1, row);
+                    svfloat32_t matching_f32x = svcvt_f32_u32_x(predicate_all_b32x, za1_u32x);
+                    svfloat32_t sum_norms_f32x = svadd_f32_x(predicate_all_b32x, norm_a_f32x, b_norms_0_f32x);
                     svfloat32_t intersection_f32x = svmul_f32_x(
-                        predicate_all_f32x,
-                        svadd_f32_x(predicate_all_f32x, svsub_f32_x(predicate_all_f32x, sum_norms_f32x, depth_f32x),
+                        predicate_all_b32x,
+                        svadd_f32_x(predicate_all_b32x, svsub_f32_x(predicate_all_b32x, sum_norms_f32x, depth_f32x),
                                     matching_f32x),
                         half_f32x);
-                    svfloat32_t union_val_f32x = svsub_f32_x(predicate_all_f32x, sum_norms_f32x, intersection_f32x);
-                    svbool_t nonzero_f32x = svcmpne_f32(predicate_all_f32x, union_val_f32x, zero_f32x);
-                    svfloat32_t ratio_f32x = svdiv_f32_x(predicate_all_f32x, intersection_f32x, union_val_f32x);
+                    svfloat32_t union_val_f32x = svsub_f32_x(predicate_all_b32x, sum_norms_f32x, intersection_f32x);
+                    svbool_t nonzero_b32x = svcmpne_f32(predicate_all_b32x, union_val_f32x, zero_f32x);
+                    svfloat32_t ratio_f32x = svdiv_f32_x(predicate_all_b32x, intersection_f32x, union_val_f32x);
                     svfloat32_t jaccard_f32x = svsel_f32(
-                        nonzero_f32x, svsub_f32_x(predicate_all_f32x, one_f32x, ratio_f32x), one_f32x);
-                    svst1_f32(predicate_all_f32x, c_row + (column_tile_index + 0) * tile_dim, jaccard_f32x);
+                        nonzero_b32x, svsub_f32_x(predicate_all_b32x, one_f32x, ratio_f32x), one_f32x);
+                    svst1_f32(predicate_all_b32x, c_row + (column_tile_index + 0) * tile_dim, jaccard_f32x);
                 }
                 // ZA2
                 {
-                    svuint32_t za2_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_f32x, 2, row);
-                    svfloat32_t matching_f32x = svcvt_f32_u32_x(predicate_all_f32x, za2_u32x);
-                    svfloat32_t sum_norms_f32x = svadd_f32_x(predicate_all_f32x, norm_a_f32x, b_norms_1_f32x);
+                    svuint32_t za2_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 2, row);
+                    svfloat32_t matching_f32x = svcvt_f32_u32_x(predicate_all_b32x, za2_u32x);
+                    svfloat32_t sum_norms_f32x = svadd_f32_x(predicate_all_b32x, norm_a_f32x, b_norms_1_f32x);
                     svfloat32_t intersection_f32x = svmul_f32_x(
-                        predicate_all_f32x,
-                        svadd_f32_x(predicate_all_f32x, svsub_f32_x(predicate_all_f32x, sum_norms_f32x, depth_f32x),
+                        predicate_all_b32x,
+                        svadd_f32_x(predicate_all_b32x, svsub_f32_x(predicate_all_b32x, sum_norms_f32x, depth_f32x),
                                     matching_f32x),
                         half_f32x);
-                    svfloat32_t union_val_f32x = svsub_f32_x(predicate_all_f32x, sum_norms_f32x, intersection_f32x);
-                    svbool_t nonzero_f32x = svcmpne_f32(predicate_all_f32x, union_val_f32x, zero_f32x);
-                    svfloat32_t ratio_f32x = svdiv_f32_x(predicate_all_f32x, intersection_f32x, union_val_f32x);
+                    svfloat32_t union_val_f32x = svsub_f32_x(predicate_all_b32x, sum_norms_f32x, intersection_f32x);
+                    svbool_t nonzero_b32x = svcmpne_f32(predicate_all_b32x, union_val_f32x, zero_f32x);
+                    svfloat32_t ratio_f32x = svdiv_f32_x(predicate_all_b32x, intersection_f32x, union_val_f32x);
                     svfloat32_t jaccard_f32x = svsel_f32(
-                        nonzero_f32x, svsub_f32_x(predicate_all_f32x, one_f32x, ratio_f32x), one_f32x);
-                    svst1_f32(predicate_all_f32x, c_row + (column_tile_index + 1) * tile_dim, jaccard_f32x);
+                        nonzero_b32x, svsub_f32_x(predicate_all_b32x, one_f32x, ratio_f32x), one_f32x);
+                    svst1_f32(predicate_all_b32x, c_row + (column_tile_index + 1) * tile_dim, jaccard_f32x);
                 }
                 // ZA3
                 {
-                    svuint32_t za3_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_f32x, 3, row);
-                    svfloat32_t matching_f32x = svcvt_f32_u32_x(predicate_all_f32x, za3_u32x);
-                    svfloat32_t sum_norms_f32x = svadd_f32_x(predicate_all_f32x, norm_a_f32x, b_norms_2_f32x);
+                    svuint32_t za3_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 3, row);
+                    svfloat32_t matching_f32x = svcvt_f32_u32_x(predicate_all_b32x, za3_u32x);
+                    svfloat32_t sum_norms_f32x = svadd_f32_x(predicate_all_b32x, norm_a_f32x, b_norms_2_f32x);
                     svfloat32_t intersection_f32x = svmul_f32_x(
-                        predicate_all_f32x,
-                        svadd_f32_x(predicate_all_f32x, svsub_f32_x(predicate_all_f32x, sum_norms_f32x, depth_f32x),
+                        predicate_all_b32x,
+                        svadd_f32_x(predicate_all_b32x, svsub_f32_x(predicate_all_b32x, sum_norms_f32x, depth_f32x),
                                     matching_f32x),
                         half_f32x);
-                    svfloat32_t union_val_f32x = svsub_f32_x(predicate_all_f32x, sum_norms_f32x, intersection_f32x);
-                    svbool_t nonzero_f32x = svcmpne_f32(predicate_all_f32x, union_val_f32x, zero_f32x);
-                    svfloat32_t ratio_f32x = svdiv_f32_x(predicate_all_f32x, intersection_f32x, union_val_f32x);
+                    svfloat32_t union_val_f32x = svsub_f32_x(predicate_all_b32x, sum_norms_f32x, intersection_f32x);
+                    svbool_t nonzero_b32x = svcmpne_f32(predicate_all_b32x, union_val_f32x, zero_f32x);
+                    svfloat32_t ratio_f32x = svdiv_f32_x(predicate_all_b32x, intersection_f32x, union_val_f32x);
                     svfloat32_t jaccard_f32x = svsel_f32(
-                        nonzero_f32x, svsub_f32_x(predicate_all_f32x, one_f32x, ratio_f32x), one_f32x);
-                    svst1_f32(predicate_all_f32x, c_row + (column_tile_index + 2) * tile_dim, jaccard_f32x);
+                        nonzero_b32x, svsub_f32_x(predicate_all_b32x, one_f32x, ratio_f32x), one_f32x);
+                    svst1_f32(predicate_all_b32x, c_row + (column_tile_index + 2) * tile_dim, jaccard_f32x);
                 }
             }
         }
@@ -993,50 +1022,51 @@ __arm_locally_streaming __arm_new("za") static void nk_jaccards_symmetric_u1_sme
         // Remainder: 1 column tile at a time using ZA1
         for (; column_tile_index < column_tile_count; column_tile_index++) {
             nk_size_t const col_tile_start = column_tile_index * tile_dim;
-            nk_size_t const cols_remaining = (col_tile_start + tile_dim <= n_vectors) ? tile_dim
-                                                                                      : (n_vectors - col_tile_start);
-            svbool_t const column_predicate_f32x = svwhilelt_b32_u64(0u, cols_remaining);
+            nk_size_t const cols_remaining = (col_tile_start + tile_dim <= vectors_count)
+                                                 ? tile_dim
+                                                 : (vectors_count - col_tile_start);
+            svbool_t const column_predicate_b32x = svwhilelt_b32_u64(0u, cols_remaining);
             svzero_mask_za(nk_sme_zero_za32_tile_1_);
             for (nk_size_t d_tile = 0; d_tile < depth_tile_count; d_tile++) {
                 nk_size_t const d_start_u32 = d_tile * depth_tile_size;
-                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_u32_total)
+                nk_size_t const u32s_this_tile = (d_start_u32 + depth_tile_size <= depth_words)
                                                      ? depth_tile_size
-                                                     : (depth_u32_total > d_start_u32 ? depth_u32_total - d_start_u32
-                                                                                      : 0);
+                                                     : (depth_words > d_start_u32 ? depth_words - d_start_u32 : 0);
                 if (u32s_this_tile == 0) break;
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
-                svbool_t const batch_predicate_f32x = svwhilelt_b32_u64(0u, u32s_this_tile);
+                svbool_t const batch_predicate_b32x = svwhilelt_b32_u64(0u, u32s_this_tile);
                 // Load A rows into ZA0 horizontally
+                svbool_t const depth_predicate_b8x = svwhilelt_b8_u64(d_start_u32 * 4, depth_bytes);
                 for (nk_size_t row_in_tile = 0; row_in_tile < rows_clamped; row_in_tile++) {
-                    nk_u32_t const *a_row_u32 = (nk_u32_t const *)((char const *)vectors +
-                                                                   (row_tile_start + row_in_tile) * stride) +
-                                                d_start_u32;
-                    svld1_hor_za32(0, row_in_tile, batch_predicate_f32x, a_row_u32);
+                    nk_u8_t const *a_row = (nk_u8_t const *)vectors + (row_tile_start + row_in_tile) * stride_in_bytes +
+                                           d_start_u32 * 4;
+                    svuint8_t row_u8x = svld1_u8(depth_predicate_b8x, a_row);
+                    svwrite_hor_za32_u32_m(0, row_in_tile, batch_predicate_b32x, svreinterpret_u32_u8(row_u8x));
                 }
                 // Save A columns from ZA0 to stack buffer
                 for (nk_size_t s = 0; s < u32s_this_tile; s++)
-                    svst1_u32(predicate_all_f32x, a_buffer[s],
-                              svread_ver_za32_u32_m(svdup_u32(0), row_predicate_f32x, 0, s));
+                    svst1_u32(predicate_all_b32x, a_buffer[s],
+                              svread_ver_za32_u32_m(svdup_u32(0), row_predicate_b32x, 0, s));
                 // Load B column tile into ZA0
                 svzero_mask_za(nk_sme_zero_za32_tile_0_);
                 for (nk_size_t col = 0; col < tile_dim; col++) {
                     nk_size_t const col_abs = col_tile_start + col;
-                    if (col_abs < n_vectors) {
-                        nk_u32_t const *b_row = (nk_u32_t const *)((char const *)vectors + col_abs * stride) +
-                                                d_start_u32;
-                        svld1_hor_za32(0, col, batch_predicate_f32x, b_row);
+                    if (col_abs < vectors_count) {
+                        nk_u8_t const *b_row = (nk_u8_t const *)vectors + col_abs * stride_in_bytes + d_start_u32 * 4;
+                        svuint8_t col_u8x = svld1_u8(depth_predicate_b8x, b_row);
+                        svwrite_hor_za32_u32_m(0, col, batch_predicate_b32x, svreinterpret_u32_u8(col_u8x));
                     }
                 }
                 for (nk_size_t step = 0; step < u32s_this_tile; step++) {
-                    svuint32_t a_u32x = svld1_u32(predicate_all_f32x, a_buffer[step]);
-                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), column_predicate_f32x, 0, step);
-                    svbmopa_za32_u32_m(1, row_predicate_f32x, column_predicate_f32x, a_u32x, b_u32x);
+                    svuint32_t a_u32x = svld1_u32(predicate_all_b32x, a_buffer[step]);
+                    svuint32_t b_u32x = svread_ver_za32_u32_m(svdup_u32(0), column_predicate_b32x, 0, step);
+                    svbmopa_za32_u32_m(1, row_predicate_b32x, column_predicate_b32x, a_u32x, b_u32x);
                 }
             }
@@ -1044,44 +1074,45 @@ __arm_locally_streaming __arm_new("za") static void nk_jaccards_symmetric_u1_sme
             NK_ALIGN64 nk_u32_t b_tile_norms[16];
             for (nk_size_t col = 0; col < tile_dim; col++) {
                 nk_size_t const col_abs = col_tile_start + col;
-                b_tile_norms[col] = (col_abs < n_vectors)
+                b_tile_norms[col] = (col_abs < vectors_count)
                                         ? nk_sets_reduce_sumsq_u1_streaming_(
-                                              (nk_u1x8_t const *)((char const *)vectors + col_abs * stride),
-                                              depth_in_bytes)
+                                              (nk_u1x8_t const *)((char const *)vectors + col_abs * stride_in_bytes),
+                                              depth_bytes)
                                         : 0;
             }
-            svfloat32_t b_norms_f32x = svcvt_f32_u32_x(predicate_all_f32x, svld1_u32(predicate_all_f32x, b_tile_norms));
+            svfloat32_t b_norms_f32x = svcvt_f32_u32_x(predicate_all_b32x, svld1_u32(predicate_all_b32x, b_tile_norms));
             for (nk_size_t row = 0; row < rows_clamped; row++) {
-                svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_f32x, 1, row);
-                svfloat32_t matching_f32x = svcvt_f32_u32_x(predicate_all_f32x, za1_u32x);
+                svuint32_t za1_u32x = svread_hor_za32_u32_m(svdup_u32(0), predicate_all_b32x, 1, row);
+                svfloat32_t matching_f32x = svcvt_f32_u32_x(predicate_all_b32x, za1_u32x);
                 svfloat32_t norm_a_f32x = svdup_f32(a_tile_norms[row]);
-                svfloat32_t sum_norms_f32x = svadd_f32_x(predicate_all_f32x, norm_a_f32x, b_norms_f32x);
+                svfloat32_t sum_norms_f32x = svadd_f32_x(predicate_all_b32x, norm_a_f32x, b_norms_f32x);
                 svfloat32_t intersection_f32x = svmul_f32_x(
-                    predicate_all_f32x,
-                    svadd_f32_x(predicate_all_f32x, svsub_f32_x(predicate_all_f32x, sum_norms_f32x, depth_f32x),
+                    predicate_all_b32x,
+                    svadd_f32_x(predicate_all_b32x, svsub_f32_x(predicate_all_b32x, sum_norms_f32x, depth_f32x),
                                 matching_f32x),
                     half_f32x);
-                svfloat32_t union_val_f32x = svsub_f32_x(predicate_all_f32x, sum_norms_f32x, intersection_f32x);
-                svbool_t nonzero_f32x = svcmpne_f32(predicate_all_f32x, union_val_f32x, zero_f32x);
-                svfloat32_t ratio_f32x = svdiv_f32_x(predicate_all_f32x, intersection_f32x, union_val_f32x);
-                svfloat32_t jaccard_f32x = svsel_f32(nonzero_f32x,
-                                                     svsub_f32_x(predicate_all_f32x, one_f32x, ratio_f32x), one_f32x);
-                nk_f32_t *c_row = (nk_f32_t *)((char *)result + (row_tile_start + row) * result_stride);
-                svst1_f32(column_predicate_f32x, c_row + col_tile_start, jaccard_f32x);
+                svfloat32_t union_val_f32x = svsub_f32_x(predicate_all_b32x, sum_norms_f32x, intersection_f32x);
+                svbool_t nonzero_b32x = svcmpne_f32(predicate_all_b32x, union_val_f32x, zero_f32x);
+                svfloat32_t ratio_f32x = svdiv_f32_x(predicate_all_b32x, intersection_f32x, union_val_f32x);
+                svfloat32_t jaccard_f32x = svsel_f32(nonzero_b32x,
+                                                     svsub_f32_x(predicate_all_b32x, one_f32x, ratio_f32x), one_f32x);
+                nk_f32_t *c_row = (nk_f32_t *)((char *)result + (row_tile_start + row) * result_stride_in_bytes);
+                svst1_f32(column_predicate_b32x, c_row + col_tile_start, jaccard_f32x);
             }
         }
     }
 }
-NK_PUBLIC void nk_jaccards_symmetric_u1_smebi32(nk_u1x8_t const *vectors, nk_size_t n_vectors, nk_size_t depth_bits,
-                                                nk_size_t stride, nk_f32_t *result, nk_size_t result_stride,
-                                                nk_size_t row_start, nk_size_t row_count) {
-    nk_jaccards_symmetric_u1_smebi32_streaming_(vectors, n_vectors, depth_bits, stride, result, result_stride,
-                                                row_start, row_count);
+NK_PUBLIC void nk_jaccards_symmetric_u1_smebi32(nk_u1x8_t const *vectors, nk_size_t vectors_count, nk_size_t depth_bits,
+                                                nk_size_t stride_in_bytes, nk_f32_t *result,
+                                                nk_size_t result_stride_in_bytes, nk_size_t row_start,
+                                                nk_size_t row_count) {
+    nk_jaccards_symmetric_u1_smebi32_streaming_(vectors, vectors_count, depth_bits, stride_in_bytes, result,
+                                                result_stride_in_bytes, row_start, row_count);
 }
-#pragma endregion // Jaccard Distance
+#pragma endregion Jaccard Distance
 #if defined(__clang__)
 #pragma clang attribute pop