npm - numkong - Versions diffs - 7.0.0 → 7.4.2 - Mend

numkong 7.0.0 → 7.4.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (315) hide show

package/README.md +197 -124
package/binding.gyp +34 -484
package/c/dispatch_bf16.c +59 -1
package/c/dispatch_e2m3.c +41 -8
package/c/dispatch_e3m2.c +49 -8
package/c/dispatch_e4m3.c +51 -9
package/c/dispatch_e5m2.c +45 -1
package/c/dispatch_f16.c +79 -26
package/c/dispatch_f16c.c +5 -5
package/c/dispatch_f32.c +56 -0
package/c/dispatch_f64.c +52 -0
package/c/dispatch_i4.c +3 -0
package/c/dispatch_i8.c +62 -3
package/c/dispatch_other.c +18 -0
package/c/dispatch_u1.c +54 -9
package/c/dispatch_u4.c +3 -0
package/c/dispatch_u8.c +64 -3
package/c/numkong.c +3 -0
package/include/README.md +79 -9
package/include/numkong/attention/sapphireamx.h +278 -276
package/include/numkong/attention/sme.h +983 -977
package/include/numkong/attention.h +1 -1
package/include/numkong/capabilities.h +289 -94
package/include/numkong/cast/README.md +40 -40
package/include/numkong/cast/diamond.h +64 -0
package/include/numkong/cast/haswell.h +42 -194
package/include/numkong/cast/icelake.h +42 -37
package/include/numkong/cast/loongsonasx.h +252 -0
package/include/numkong/cast/neon.h +216 -249
package/include/numkong/cast/powervsx.h +449 -0
package/include/numkong/cast/rvv.h +223 -274
package/include/numkong/cast/sapphire.h +18 -18
package/include/numkong/cast/serial.h +1018 -944
package/include/numkong/cast/skylake.h +82 -23
package/include/numkong/cast/v128relaxed.h +462 -105
package/include/numkong/cast.h +24 -0
package/include/numkong/cast.hpp +44 -0
package/include/numkong/curved/README.md +17 -17
package/include/numkong/curved/neon.h +131 -7
package/include/numkong/curved/neonbfdot.h +6 -7
package/include/numkong/curved/rvv.h +26 -26
package/include/numkong/curved/smef64.h +186 -182
package/include/numkong/curved.h +14 -18
package/include/numkong/dot/README.md +154 -137
package/include/numkong/dot/alder.h +43 -43
package/include/numkong/dot/diamond.h +158 -0
package/include/numkong/dot/genoa.h +4 -30
package/include/numkong/dot/haswell.h +215 -180
package/include/numkong/dot/icelake.h +190 -76
package/include/numkong/dot/loongsonasx.h +671 -0
package/include/numkong/dot/neon.h +124 -73
package/include/numkong/dot/neonbfdot.h +11 -12
package/include/numkong/dot/neonfhm.h +44 -46
package/include/numkong/dot/neonfp8.h +323 -0
package/include/numkong/dot/neonsdot.h +190 -76
package/include/numkong/dot/powervsx.h +752 -0
package/include/numkong/dot/rvv.h +92 -84
package/include/numkong/dot/rvvbf16.h +12 -12
package/include/numkong/dot/rvvhalf.h +12 -12
package/include/numkong/dot/sapphire.h +4 -4
package/include/numkong/dot/serial.h +66 -30
package/include/numkong/dot/sierra.h +31 -31
package/include/numkong/dot/skylake.h +142 -110
package/include/numkong/dot/sve.h +217 -177
package/include/numkong/dot/svebfdot.h +10 -10
package/include/numkong/dot/svehalf.h +85 -41
package/include/numkong/dot/svesdot.h +89 -0
package/include/numkong/dot/v128relaxed.h +124 -89
package/include/numkong/dot.h +114 -48
package/include/numkong/dots/README.md +203 -203
package/include/numkong/dots/alder.h +12 -9
package/include/numkong/dots/diamond.h +86 -0
package/include/numkong/dots/genoa.h +10 -4
package/include/numkong/dots/haswell.h +63 -48
package/include/numkong/dots/icelake.h +27 -18
package/include/numkong/dots/loongsonasx.h +176 -0
package/include/numkong/dots/neon.h +14 -11
package/include/numkong/dots/neonbfdot.h +4 -3
package/include/numkong/dots/neonfhm.h +11 -9
package/include/numkong/dots/neonfp8.h +99 -0
package/include/numkong/dots/neonsdot.h +48 -12
package/include/numkong/dots/powervsx.h +194 -0
package/include/numkong/dots/rvv.h +451 -344
package/include/numkong/dots/sapphireamx.h +1028 -984
package/include/numkong/dots/serial.h +213 -197
package/include/numkong/dots/sierra.h +10 -7
package/include/numkong/dots/skylake.h +47 -36
package/include/numkong/dots/sme.h +2001 -2364
package/include/numkong/dots/smebi32.h +175 -162
package/include/numkong/dots/smef64.h +328 -323
package/include/numkong/dots/v128relaxed.h +64 -41
package/include/numkong/dots.h +573 -293
package/include/numkong/dots.hpp +45 -43
package/include/numkong/each/README.md +133 -137
package/include/numkong/each/haswell.h +6 -6
package/include/numkong/each/icelake.h +7 -7
package/include/numkong/each/neon.h +76 -42
package/include/numkong/each/neonbfdot.h +11 -12
package/include/numkong/each/neonhalf.h +24 -116
package/include/numkong/each/rvv.h +28 -28
package/include/numkong/each/sapphire.h +27 -161
package/include/numkong/each/serial.h +6 -6
package/include/numkong/each/skylake.h +7 -7
package/include/numkong/each/v128relaxed.h +562 -0
package/include/numkong/each.h +148 -62
package/include/numkong/each.hpp +2 -2
package/include/numkong/geospatial/README.md +18 -18
package/include/numkong/geospatial/haswell.h +365 -325
package/include/numkong/geospatial/neon.h +350 -306
package/include/numkong/geospatial/rvv.h +4 -4
package/include/numkong/geospatial/skylake.h +376 -340
package/include/numkong/geospatial/v128relaxed.h +366 -327
package/include/numkong/geospatial.h +17 -17
package/include/numkong/matrix.hpp +4 -4
package/include/numkong/maxsim/README.md +14 -14
package/include/numkong/maxsim/alder.h +6 -6
package/include/numkong/maxsim/genoa.h +4 -4
package/include/numkong/maxsim/haswell.h +6 -6
package/include/numkong/maxsim/icelake.h +18 -18
package/include/numkong/maxsim/neonsdot.h +21 -21
package/include/numkong/maxsim/sapphireamx.h +14 -14
package/include/numkong/maxsim/serial.h +6 -6
package/include/numkong/maxsim/sme.h +221 -196
package/include/numkong/maxsim/v128relaxed.h +6 -6
package/include/numkong/mesh/README.md +62 -56
package/include/numkong/mesh/haswell.h +339 -464
package/include/numkong/mesh/neon.h +1100 -519
package/include/numkong/mesh/neonbfdot.h +36 -68
package/include/numkong/mesh/rvv.h +530 -435
package/include/numkong/mesh/serial.h +75 -91
package/include/numkong/mesh/skylake.h +1627 -302
package/include/numkong/mesh/v128relaxed.h +443 -330
package/include/numkong/mesh.h +63 -49
package/include/numkong/mesh.hpp +4 -4
package/include/numkong/numkong.h +3 -3
package/include/numkong/numkong.hpp +1 -0
package/include/numkong/probability/README.md +23 -19
package/include/numkong/probability/neon.h +82 -52
package/include/numkong/probability/rvv.h +28 -23
package/include/numkong/probability/serial.h +51 -39
package/include/numkong/probability.h +20 -23
package/include/numkong/random.h +1 -1
package/include/numkong/reduce/README.md +143 -138
package/include/numkong/reduce/alder.h +81 -77
package/include/numkong/reduce/haswell.h +222 -220
package/include/numkong/reduce/neon.h +629 -519
package/include/numkong/reduce/neonbfdot.h +7 -218
package/include/numkong/reduce/neonfhm.h +9 -381
package/include/numkong/reduce/neonsdot.h +9 -9
package/include/numkong/reduce/rvv.h +928 -802
package/include/numkong/reduce/serial.h +23 -27
package/include/numkong/reduce/sierra.h +20 -20
package/include/numkong/reduce/skylake.h +326 -324
package/include/numkong/reduce/v128relaxed.h +52 -52
package/include/numkong/reduce.h +4 -23
package/include/numkong/reduce.hpp +156 -11
package/include/numkong/scalar/README.md +6 -6
package/include/numkong/scalar/haswell.h +26 -17
package/include/numkong/scalar/loongsonasx.h +74 -0
package/include/numkong/scalar/neon.h +9 -9
package/include/numkong/scalar/powervsx.h +96 -0
package/include/numkong/scalar/rvv.h +2 -2
package/include/numkong/scalar/sapphire.h +21 -10
package/include/numkong/scalar/serial.h +21 -21
package/include/numkong/scalar.h +13 -0
package/include/numkong/set/README.md +28 -28
package/include/numkong/set/haswell.h +12 -12
package/include/numkong/set/icelake.h +14 -14
package/include/numkong/set/loongsonasx.h +181 -0
package/include/numkong/set/neon.h +17 -18
package/include/numkong/set/powervsx.h +326 -0
package/include/numkong/set/rvv.h +4 -4
package/include/numkong/set/serial.h +6 -6
package/include/numkong/set/sve.h +60 -59
package/include/numkong/set/v128relaxed.h +6 -6
package/include/numkong/set.h +21 -7
package/include/numkong/sets/README.md +26 -26
package/include/numkong/sets/loongsonasx.h +52 -0
package/include/numkong/sets/powervsx.h +65 -0
package/include/numkong/sets/smebi32.h +395 -364
package/include/numkong/sets.h +83 -40
package/include/numkong/sparse/README.md +4 -4
package/include/numkong/sparse/icelake.h +101 -101
package/include/numkong/sparse/serial.h +1 -1
package/include/numkong/sparse/sve2.h +137 -141
package/include/numkong/sparse/turin.h +12 -12
package/include/numkong/sparse.h +10 -10
package/include/numkong/spatial/README.md +230 -226
package/include/numkong/spatial/alder.h +113 -116
package/include/numkong/spatial/diamond.h +240 -0
package/include/numkong/spatial/genoa.h +0 -68
package/include/numkong/spatial/haswell.h +74 -55
package/include/numkong/spatial/icelake.h +539 -58
package/include/numkong/spatial/loongsonasx.h +483 -0
package/include/numkong/spatial/neon.h +125 -52
package/include/numkong/spatial/neonbfdot.h +8 -9
package/include/numkong/spatial/neonfp8.h +258 -0
package/include/numkong/spatial/neonsdot.h +180 -12
package/include/numkong/spatial/powervsx.h +738 -0
package/include/numkong/spatial/rvv.h +146 -139
package/include/numkong/spatial/rvvbf16.h +17 -12
package/include/numkong/spatial/rvvhalf.h +13 -10
package/include/numkong/spatial/serial.h +13 -12
package/include/numkong/spatial/sierra.h +232 -39
package/include/numkong/spatial/skylake.h +73 -74
package/include/numkong/spatial/sve.h +93 -72
package/include/numkong/spatial/svebfdot.h +29 -29
package/include/numkong/spatial/svehalf.h +52 -26
package/include/numkong/spatial/svesdot.h +142 -0
package/include/numkong/spatial/v128relaxed.h +293 -41
package/include/numkong/spatial.h +338 -82
package/include/numkong/spatials/README.md +194 -194
package/include/numkong/spatials/diamond.h +82 -0
package/include/numkong/spatials/haswell.h +2 -2
package/include/numkong/spatials/loongsonasx.h +153 -0
package/include/numkong/spatials/neonfp8.h +111 -0
package/include/numkong/spatials/neonsdot.h +34 -0
package/include/numkong/spatials/powervsx.h +153 -0
package/include/numkong/spatials/rvv.h +259 -243
package/include/numkong/spatials/sapphireamx.h +173 -173
package/include/numkong/spatials/serial.h +2 -2
package/include/numkong/spatials/skylake.h +2 -2
package/include/numkong/spatials/sme.h +590 -605
package/include/numkong/spatials/smef64.h +139 -130
package/include/numkong/spatials/v128relaxed.h +2 -2
package/include/numkong/spatials.h +820 -500
package/include/numkong/spatials.hpp +49 -48
package/include/numkong/tensor.hpp +406 -17
package/include/numkong/trigonometry/README.md +19 -19
package/include/numkong/trigonometry/haswell.h +402 -401
package/include/numkong/trigonometry/neon.h +386 -387
package/include/numkong/trigonometry/rvv.h +52 -51
package/include/numkong/trigonometry/serial.h +13 -13
package/include/numkong/trigonometry/skylake.h +373 -369
package/include/numkong/trigonometry/v128relaxed.h +375 -374
package/include/numkong/trigonometry.h +13 -13
package/include/numkong/trigonometry.hpp +2 -2
package/include/numkong/types.h +287 -49
package/include/numkong/types.hpp +436 -12
package/include/numkong/vector.hpp +82 -14
package/javascript/dist/cjs/numkong-wasm.js +6 -12
package/javascript/dist/cjs/numkong.d.ts +7 -1
package/javascript/dist/cjs/numkong.js +37 -11
package/javascript/dist/cjs/types.d.ts +9 -0
package/javascript/dist/cjs/types.js +96 -0
package/javascript/dist/esm/numkong-browser.d.ts +14 -0
package/javascript/dist/esm/numkong-browser.js +23 -0
package/javascript/dist/esm/numkong-wasm.js +6 -12
package/javascript/dist/esm/numkong.d.ts +7 -1
package/javascript/dist/esm/numkong.js +37 -11
package/javascript/dist/esm/types.d.ts +9 -0
package/javascript/dist/esm/types.js +96 -0
package/javascript/node-gyp-build.d.ts +4 -1
package/javascript/numkong-browser.ts +40 -0
package/javascript/numkong-wasm.ts +7 -13
package/javascript/numkong.c +5 -26
package/javascript/numkong.ts +36 -11
package/javascript/tsconfig-base.json +1 -0
package/javascript/tsconfig-cjs.json +6 -1
package/javascript/types.ts +110 -0
package/numkong.gypi +101 -0
package/package.json +34 -13
package/probes/arm_neon.c +8 -0
package/probes/arm_neon_bfdot.c +9 -0
package/probes/arm_neon_fhm.c +9 -0
package/probes/arm_neon_half.c +8 -0
package/probes/arm_neon_sdot.c +9 -0
package/probes/arm_neonfp8.c +9 -0
package/probes/arm_sme.c +16 -0
package/probes/arm_sme2.c +16 -0
package/probes/arm_sme2p1.c +16 -0
package/probes/arm_sme_bf16.c +16 -0
package/probes/arm_sme_bi32.c +16 -0
package/probes/arm_sme_f64.c +16 -0
package/probes/arm_sme_fa64.c +14 -0
package/probes/arm_sme_half.c +16 -0
package/probes/arm_sme_lut2.c +15 -0
package/probes/arm_sve.c +18 -0
package/probes/arm_sve2.c +20 -0
package/probes/arm_sve2p1.c +18 -0
package/probes/arm_sve_bfdot.c +20 -0
package/probes/arm_sve_half.c +18 -0
package/probes/arm_sve_sdot.c +21 -0
package/probes/loongarch_lasx.c +12 -0
package/probes/power_vsx.c +12 -0
package/probes/probe.js +127 -0
package/probes/riscv_rvv.c +14 -0
package/probes/riscv_rvv_bb.c +15 -0
package/probes/riscv_rvv_bf16.c +17 -0
package/probes/riscv_rvv_half.c +14 -0
package/probes/wasm_v128relaxed.c +11 -0
package/probes/x86_alder.c +17 -0
package/probes/x86_diamond.c +17 -0
package/probes/x86_genoa.c +17 -0
package/probes/x86_graniteamx.c +19 -0
package/probes/x86_haswell.c +11 -0
package/probes/x86_icelake.c +17 -0
package/probes/x86_sapphire.c +16 -0
package/probes/x86_sapphireamx.c +18 -0
package/probes/x86_sierra.c +17 -0
package/probes/x86_skylake.c +15 -0
package/probes/x86_turin.c +17 -0
package/wasm/numkong-emscripten.js +2 -0
package/wasm/numkong.d.ts +14 -0
package/wasm/numkong.js +1124 -0
package/wasm/numkong.wasm +0 -0
package/include/numkong/curved/neonhalf.h +0 -212
package/include/numkong/dot/neonhalf.h +0 -198
package/include/numkong/dots/neonhalf.h +0 -57
package/include/numkong/mesh/neonhalf.h +0 -616
package/include/numkong/reduce/neonhalf.h +0 -157
package/include/numkong/spatial/neonhalf.h +0 -118
package/include/numkong/spatial/sapphire.h +0 -343
package/include/numkong/spatials/neonhalf.h +0 -58
package/javascript/README.md +0 -246

package/include/numkong/dots/smef64.h CHANGED Viewed

@@ -45,7 +45,7 @@ extern "C" {
 #endif
 #if defined(__clang__)
-#pragma clang attribute push(__attribute__((target("sme,sve,sme-f64f64"))), apply_to = function)
+#pragma clang attribute push(__attribute__((target("sme,sme-f64f64"))), apply_to = function)
 #elif defined(__GNUC__)
 #pragma GCC push_options
 #pragma GCC target("+sme+sme-f64f64")
@@ -72,11 +72,11 @@ extern "C" {
  *  for higher-than-f32 accumulation precision; replacing it with f32 FMOPA would be
  *  counterproductive. Apple M4 has `hw.optional.arm.SME_F32F32: 1` but we don't use it here.
  */
-#pragma region Single Precision Floats
+#pragma region F32 Floats
 NK_PUBLIC nk_size_t nk_dots_packed_size_f32_smef64(nk_size_t columns, nk_size_t depth) {
-    nk_size_t const tile_dimension = svcntsd();  // rows per `ZA64` tile (8 for SVL=512)
-    nk_size_t const depth_tile_size = svcntsw(); // `f32` depth elements per tile (16 for SVL=512)
+    nk_size_t const tile_dimension = nk_sme_cntd_();  // rows per `ZA64` tile (8 for SVL=512)
+    nk_size_t const depth_tile_size = nk_sme_cntw_(); // `f32` depth elements per tile (16 for SVL=512)
     nk_size_t const column_tile_count = nk_size_divide_round_up_(columns, tile_dimension);
     nk_size_t const depth_tile_count = nk_size_divide_round_up_(depth, depth_tile_size);
@@ -88,13 +88,13 @@ NK_PUBLIC nk_size_t nk_dots_packed_size_f32_smef64(nk_size_t columns, nk_size_t
     return size;
 }
-NK_PUBLIC void nk_dots_pack_f32_smef64(nk_f32_t const *b, nk_size_t columns, nk_size_t depth, nk_size_t b_stride,
-                                       void *b_packed) {
+NK_PUBLIC void nk_dots_pack_f32_smef64(nk_f32_t const *b, nk_size_t columns, nk_size_t depth,
+                                       nk_size_t b_stride_in_bytes, void *b_packed) {
-    nk_size_t const tile_dimension = svcntsd();                       // rows per `ZA64` tile (8 for SVL=512)
-    nk_size_t const depth_tile_size = svcntsw();                      // `f32` depth elements per tile (16 for SVL=512)
+    nk_size_t const tile_dimension = nk_sme_cntd_();                  // rows per `ZA64` tile (8 for SVL=512)
+    nk_size_t const depth_tile_size = nk_sme_cntw_();                 // `f32` depth elements per tile (16 for SVL=512)
     nk_size_t const tile_elements = tile_dimension * depth_tile_size; // 128
-    nk_size_t const b_stride_elements = b_stride / sizeof(nk_f32_t);
+    nk_size_t const b_stride_elements = b_stride_in_bytes / sizeof(nk_f32_t);
     nk_size_t const column_tile_count = nk_size_divide_round_up_(columns, tile_dimension);
     nk_size_t const depth_tile_count = nk_size_divide_round_up_(depth, depth_tile_size);
@@ -106,7 +106,7 @@ NK_PUBLIC void nk_dots_pack_f32_smef64(nk_f32_t const *b, nk_size_t columns, nk_
     header->depth_tile_count = (nk_u32_t)depth_tile_count;
     header->columns = (nk_u32_t)columns;
     header->depth = (nk_u32_t)depth;
-    header->svl_bytes = (nk_u32_t)svcntsb(); // streaming vector length in bytes
+    header->svl_bytes = (nk_u32_t)nk_sme_cntb_(); // streaming vector length in bytes
     nk_f32_t *tiles = (nk_f32_t *)((char *)b_packed + sizeof(nk_dots_sme_packed_header_t));
@@ -148,7 +148,7 @@ NK_PUBLIC void nk_dots_pack_f32_smef64(nk_f32_t const *b, nk_size_t columns, nk_
     header->norms_offset = (nk_u32_t)(sizeof(nk_dots_sme_packed_header_t) + data_size);
     nk_f64_t *norms_ptr = (nk_f64_t *)((char *)b_packed + header->norms_offset);
     for (nk_size_t col = 0; col < columns; col++) {
-        nk_f32_t const *col_data = (nk_f32_t const *)((char const *)b + col * b_stride);
+        nk_f32_t const *col_data = (nk_f32_t const *)((char const *)b + col * b_stride_in_bytes);
         norms_ptr[col] = nk_dots_reduce_sumsq_f32_(col_data, depth);
     }
 }
@@ -168,14 +168,14 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_packed_f32_smef64_st
     nk_f32_t const *b_tiles = (nk_f32_t const *)((char const *)b_packed + sizeof(nk_dots_sme_packed_header_t));
-    svbool_t const predicate_all_f64x = svptrue_b64();
+    svbool_t const predicate_all_b64x = svptrue_b64();
     // ZA0.D = staging, ZA1-7.D = accumulation (7-tile fast path)
     for (nk_size_t row_tile_index = 0; row_tile_index < nk_size_divide_round_up_(rows, tile_dimension);
          row_tile_index++) {
         nk_size_t const row_start = row_tile_index * tile_dimension;
         nk_size_t const rows_remaining = (row_start + tile_dimension <= rows) ? tile_dimension : (rows - row_start);
-        svbool_t const row_predicate_f64x = svwhilelt_b64_u64(0u, rows_remaining);
+        svbool_t const row_predicate_b64x = svwhilelt_b64_u64(0u, rows_remaining);
         nk_size_t column_tile_index = 0;
@@ -200,18 +200,17 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_packed_f32_smef64_st
                     svzero_mask_za(nk_sme_zero_za64_tile_0_);
                     // Load A rows into ZA0.D: extending load f32→u64 + convert to f64
-                    svbool_t const batch_predicate_f64x = svwhilelt_b64_u64(0u, (uint64_t)batch_size);
-                    svbool_t const a_depth_predicate_f64x = svwhilelt_b64_u64(depth_offset + depth_batch_start,
-                                                                              (uint64_t)depth);
+                    svbool_t const batch_predicate_b64x = svwhilelt_b64_u64(0u, batch_size);
+                    svbool_t const a_depth_predicate_b64x = svwhilelt_b64_u64(depth_offset + depth_batch_start, depth);
                     for (nk_size_t row_in_tile = 0; row_in_tile < rows_remaining; row_in_tile++) {
                         nk_size_t const a_row = row_start + row_in_tile;
                         // Extending load: svld1uw_u64 loads f32 bits into lower 32 of each u64 lane
                         svfloat64_t a_row_widened_f64x = svcvt_f64_f32_x(
-                            batch_predicate_f64x,
+                            batch_predicate_b64x,
                             svreinterpret_f32_u64(svld1uw_u64(
-                                a_depth_predicate_f64x,
+                                a_depth_predicate_b64x,
                                 (nk_u32_t const *)&a[a_row * a_stride_elements + depth_offset + depth_batch_start])));
-                        svwrite_hor_za64_f64_m(0, row_in_tile, batch_predicate_f64x, a_row_widened_f64x);
+                        svwrite_hor_za64_f64_m(0, row_in_tile, batch_predicate_b64x, a_row_widened_f64x);
                     }
                     // Vertical read + MOPA for each depth step in batch
@@ -219,110 +218,110 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_packed_f32_smef64_st
                         nk_size_t const k_abs = depth_offset + depth_batch_start + step;
                         if (k_abs >= depth) break;
-                        svfloat64_t a_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), row_predicate_f64x, 0, step);
+                        svfloat64_t a_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), row_predicate_b64x, 0, step);
                         nk_size_t const b_k = depth_batch_start + step;
                         // Extending load f32→u64 + convert to f64: svld1uw_u64 replaces svld1_f32 + svunpklo_u64
                         svfloat64_t b_column_tile_1_f64x = svcvt_f64_f32_x(
-                            predicate_all_f64x,
+                            predicate_all_b64x,
                             svreinterpret_f32_u64(svld1uw_u64(
-                                predicate_all_f64x,
+                                predicate_all_b64x,
                                 (nk_u32_t const *)(b_tiles +
                                                    ((column_tile_index + 0) * depth_tile_count + depth_tile_idx) *
                                                        tile_elements +
                                                    b_k * tile_dimension))));
                         svfloat64_t b_column_tile_2_f64x = svcvt_f64_f32_x(
-                            predicate_all_f64x,
+                            predicate_all_b64x,
                             svreinterpret_f32_u64(svld1uw_u64(
-                                predicate_all_f64x,
+                                predicate_all_b64x,
                                 (nk_u32_t const *)(b_tiles +
                                                    ((column_tile_index + 1) * depth_tile_count + depth_tile_idx) *
                                                        tile_elements +
                                                    b_k * tile_dimension))));
                         svfloat64_t b_column_tile_3_f64x = svcvt_f64_f32_x(
-                            predicate_all_f64x,
+                            predicate_all_b64x,
                             svreinterpret_f32_u64(svld1uw_u64(
-                                predicate_all_f64x,
+                                predicate_all_b64x,
                                 (nk_u32_t const *)(b_tiles +
                                                    ((column_tile_index + 2) * depth_tile_count + depth_tile_idx) *
                                                        tile_elements +
                                                    b_k * tile_dimension))));
                         svfloat64_t b_column_tile_4_f64x = svcvt_f64_f32_x(
-                            predicate_all_f64x,
+                            predicate_all_b64x,
                             svreinterpret_f32_u64(svld1uw_u64(
-                                predicate_all_f64x,
+                                predicate_all_b64x,
                                 (nk_u32_t const *)(b_tiles +
                                                    ((column_tile_index + 3) * depth_tile_count + depth_tile_idx) *
                                                        tile_elements +
                                                    b_k * tile_dimension))));
                         svfloat64_t b_column_tile_5_f64x = svcvt_f64_f32_x(
-                            predicate_all_f64x,
+                            predicate_all_b64x,
                             svreinterpret_f32_u64(svld1uw_u64(
-                                predicate_all_f64x,
+                                predicate_all_b64x,
                                 (nk_u32_t const *)(b_tiles +
                                                    ((column_tile_index + 4) * depth_tile_count + depth_tile_idx) *
                                                        tile_elements +
                                                    b_k * tile_dimension))));
                         svfloat64_t b_column_tile_6_f64x = svcvt_f64_f32_x(
-                            predicate_all_f64x,
+                            predicate_all_b64x,
                             svreinterpret_f32_u64(svld1uw_u64(
-                                predicate_all_f64x,
+                                predicate_all_b64x,
                                 (nk_u32_t const *)(b_tiles +
                                                    ((column_tile_index + 5) * depth_tile_count + depth_tile_idx) *
                                                        tile_elements +
                                                    b_k * tile_dimension))));
                         svfloat64_t b_column_tile_7_f64x = svcvt_f64_f32_x(
-                            predicate_all_f64x,
+                            predicate_all_b64x,
                             svreinterpret_f32_u64(svld1uw_u64(
-                                predicate_all_f64x,
+                                predicate_all_b64x,
                                 (nk_u32_t const *)(b_tiles +
                                                    ((column_tile_index + 6) * depth_tile_count + depth_tile_idx) *
                                                        tile_elements +
                                                    b_k * tile_dimension))));
-                        svmopa_za64_f64_m(1, row_predicate_f64x, predicate_all_f64x, a_f64x, b_column_tile_1_f64x);
-                        svmopa_za64_f64_m(2, row_predicate_f64x, predicate_all_f64x, a_f64x, b_column_tile_2_f64x);
-                        svmopa_za64_f64_m(3, row_predicate_f64x, predicate_all_f64x, a_f64x, b_column_tile_3_f64x);
-                        svmopa_za64_f64_m(4, row_predicate_f64x, predicate_all_f64x, a_f64x, b_column_tile_4_f64x);
-                        svmopa_za64_f64_m(5, row_predicate_f64x, predicate_all_f64x, a_f64x, b_column_tile_5_f64x);
-                        svmopa_za64_f64_m(6, row_predicate_f64x, predicate_all_f64x, a_f64x, b_column_tile_6_f64x);
-                        svmopa_za64_f64_m(7, row_predicate_f64x, predicate_all_f64x, a_f64x, b_column_tile_7_f64x);
+                        svmopa_za64_f64_m(1, row_predicate_b64x, predicate_all_b64x, a_f64x, b_column_tile_1_f64x);
+                        svmopa_za64_f64_m(2, row_predicate_b64x, predicate_all_b64x, a_f64x, b_column_tile_2_f64x);
+                        svmopa_za64_f64_m(3, row_predicate_b64x, predicate_all_b64x, a_f64x, b_column_tile_3_f64x);
+                        svmopa_za64_f64_m(4, row_predicate_b64x, predicate_all_b64x, a_f64x, b_column_tile_4_f64x);
+                        svmopa_za64_f64_m(5, row_predicate_b64x, predicate_all_b64x, a_f64x, b_column_tile_5_f64x);
+                        svmopa_za64_f64_m(6, row_predicate_b64x, predicate_all_b64x, a_f64x, b_column_tile_6_f64x);
+                        svmopa_za64_f64_m(7, row_predicate_b64x, predicate_all_b64x, a_f64x, b_column_tile_7_f64x);
                     }
                 }
             }
             // Extract from ZA1-7 and store native f64 outputs.
-            svbool_t const predicate_tile_f64x = svwhilelt_b64_u64(0u, tile_dimension);
+            svbool_t const predicate_tile_b64x = svwhilelt_b64_u64(0u, tile_dimension);
             // The 7th tile (index 6) may be partial when it's the last column tile
             nk_size_t const last_fast_col_start = (column_tile_index + 6) * tile_dimension;
             nk_size_t const last_fast_cols = (last_fast_col_start + tile_dimension <= columns)
                                                  ? tile_dimension
                                                  : (columns - last_fast_col_start);
-            svbool_t const last_tile_pred_f64x = svwhilelt_b64_u64(0u, last_fast_cols);
+            svbool_t const last_tile_pred_b64x = svwhilelt_b64_u64(0u, last_fast_cols);
             for (nk_size_t row_idx = 0; row_idx < rows_remaining; row_idx++) {
                 nk_f64_t *c_row = c + (row_start + row_idx) * c_stride_elements;
-                svfloat64_t za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_f64x, 1, row_idx);
-                svst1_f64(predicate_tile_f64x, c_row + (column_tile_index + 0) * tile_dimension, za_row_f64x);
+                svfloat64_t za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_b64x, 1, row_idx);
+                svst1_f64(predicate_tile_b64x, c_row + (column_tile_index + 0) * tile_dimension, za_row_f64x);
-                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_f64x, 2, row_idx);
-                svst1_f64(predicate_tile_f64x, c_row + (column_tile_index + 1) * tile_dimension, za_row_f64x);
+                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_b64x, 2, row_idx);
+                svst1_f64(predicate_tile_b64x, c_row + (column_tile_index + 1) * tile_dimension, za_row_f64x);
-                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_f64x, 3, row_idx);
-                svst1_f64(predicate_tile_f64x, c_row + (column_tile_index + 2) * tile_dimension, za_row_f64x);
+                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_b64x, 3, row_idx);
+                svst1_f64(predicate_tile_b64x, c_row + (column_tile_index + 2) * tile_dimension, za_row_f64x);
-                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_f64x, 4, row_idx);
-                svst1_f64(predicate_tile_f64x, c_row + (column_tile_index + 3) * tile_dimension, za_row_f64x);
+                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_b64x, 4, row_idx);
+                svst1_f64(predicate_tile_b64x, c_row + (column_tile_index + 3) * tile_dimension, za_row_f64x);
-                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_f64x, 5, row_idx);
-                svst1_f64(predicate_tile_f64x, c_row + (column_tile_index + 4) * tile_dimension, za_row_f64x);
+                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_b64x, 5, row_idx);
+                svst1_f64(predicate_tile_b64x, c_row + (column_tile_index + 4) * tile_dimension, za_row_f64x);
-                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_f64x, 6, row_idx);
-                svst1_f64(predicate_tile_f64x, c_row + (column_tile_index + 5) * tile_dimension, za_row_f64x);
+                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_b64x, 6, row_idx);
+                svst1_f64(predicate_tile_b64x, c_row + (column_tile_index + 5) * tile_dimension, za_row_f64x);
-                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_f64x, 7, row_idx);
-                svst1_f64(last_tile_pred_f64x, c_row + (column_tile_index + 6) * tile_dimension, za_row_f64x);
+                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_b64x, 7, row_idx);
+                svst1_f64(last_tile_pred_b64x, c_row + (column_tile_index + 6) * tile_dimension, za_row_f64x);
             }
         }
@@ -331,7 +330,7 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_packed_f32_smef64_st
             nk_size_t const column_start = column_tile_index * tile_dimension;
             nk_size_t const columns_remaining = (column_start + tile_dimension <= columns) ? tile_dimension
                                                                                            : (columns - column_start);
-            svbool_t const column_predicate_f64x = svwhilelt_b64_u64(0u, columns_remaining);
+            svbool_t const column_predicate_b64x = svwhilelt_b64_u64(0u, columns_remaining);
             svzero_mask_za(nk_sme_zero_za64_tile_1_);
@@ -349,54 +348,54 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_packed_f32_smef64_st
                     svzero_mask_za(nk_sme_zero_za64_tile_0_);
-                    svbool_t const batch_predicate_f64x = svwhilelt_b64_u64(0u, (uint64_t)batch_size);
-                    svbool_t const a_depth_pred_f64x = svwhilelt_b64_u64(depth_offset + depth_batch_start,
-                                                                         (uint64_t)depth);
+                    svbool_t const batch_predicate_b64x = svwhilelt_b64_u64(0u, batch_size);
+                    svbool_t const a_depth_pred_b64x = svwhilelt_b64_u64(depth_offset + depth_batch_start, depth);
                     for (nk_size_t row_in_tile = 0; row_in_tile < rows_remaining; row_in_tile++) {
                         nk_size_t const a_row = row_start + row_in_tile;
                         svfloat64_t a_row_widened_f64x = svcvt_f64_f32_x(
-                            batch_predicate_f64x,
+                            batch_predicate_b64x,
                             svreinterpret_f32_u64(svld1uw_u64(
-                                a_depth_pred_f64x,
+                                a_depth_pred_b64x,
                                 (nk_u32_t const *)&a[a_row * a_stride_elements + depth_offset + depth_batch_start])));
-                        svwrite_hor_za64_f64_m(0, row_in_tile, batch_predicate_f64x, a_row_widened_f64x);
+                        svwrite_hor_za64_f64_m(0, row_in_tile, batch_predicate_b64x, a_row_widened_f64x);
                     }
                     for (nk_size_t step = 0; step < batch_size; step++) {
                         nk_size_t const k_abs = depth_offset + depth_batch_start + step;
                         if (k_abs >= depth) break;
-                        svfloat64_t a_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), row_predicate_f64x, 0, step);
+                        svfloat64_t a_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), row_predicate_b64x, 0, step);
                         nk_size_t const b_k = depth_batch_start + step;
                         nk_f32_t const *b_tile = b_tiles + (column_tile_index * depth_tile_count + depth_tile_idx) *
                                                                tile_elements;
                         // Extending load f32→u64 + convert to f64
                         svfloat64_t b_f64x = svcvt_f64_f32_x(
-                            predicate_all_f64x,
+                            predicate_all_b64x,
                             svreinterpret_f32_u64(
-                                svld1uw_u64(predicate_all_f64x, (nk_u32_t const *)(b_tile + b_k * tile_dimension))));
+                                svld1uw_u64(predicate_all_b64x, (nk_u32_t const *)(b_tile + b_k * tile_dimension))));
-                        svmopa_za64_f64_m(1, row_predicate_f64x, column_predicate_f64x, a_f64x, b_f64x);
+                        svmopa_za64_f64_m(1, row_predicate_b64x, column_predicate_b64x, a_f64x, b_f64x);
                     }
                 }
             }
             // Store native f64 outputs for the tail column tile.
             for (nk_size_t row_idx = 0; row_idx < rows_remaining; row_idx++) {
-                svfloat64_t za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_f64x, 1, row_idx);
+                svfloat64_t za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_b64x, 1, row_idx);
                 nk_f64_t *c_row = c + (row_start + row_idx) * c_stride_elements + column_start;
-                svst1_f64(column_predicate_f64x, c_row, za_row_f64x);
+                svst1_f64(column_predicate_b64x, c_row, za_row_f64x);
             }
         }
     }
 }
 NK_PUBLIC void nk_dots_packed_f32_smef64(nk_f32_t const *a, void const *b_packed, nk_f64_t *c, nk_size_t rows,
-                                         nk_size_t columns, nk_size_t depth, nk_size_t a_stride, nk_size_t c_stride) {
+                                         nk_size_t columns, nk_size_t depth, nk_size_t a_stride_in_bytes,
+                                         nk_size_t c_stride_in_bytes) {
-    nk_size_t const a_stride_elements = a_stride / sizeof(nk_f32_t);
-    nk_size_t const c_stride_elements = c_stride / sizeof(nk_f64_t);
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_f32_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f64_t);
     nk_dots_packed_f32_smef64_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
 }
@@ -408,30 +407,32 @@ NK_PUBLIC void nk_dots_packed_f32_smef64(nk_f32_t const *a, void const *b_packed
  *  per column tile. Eliminates all scalar B-packing loops.
  */
 __arm_locally_streaming __arm_new("za") static void nk_dots_symmetric_f32_smef64_streaming_(
-    nk_f32_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, nk_f64_t *result,
+    nk_f32_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f64_t *result,
     nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const tile_dimension = svcntd();              // 8 for SVL=512
     nk_size_t const depth_tile_size = svcntw();             // 16 for SVL=512
     nk_size_t const depth_steps_per_batch = tile_dimension; // 8
-    svbool_t const predicate_all_f64x = svptrue_b64();
+    svbool_t const predicate_all_b64x = svptrue_b64();
     NK_ALIGN64 nk_f64_t a_buffer[8][8];
     nk_size_t const row_end = row_start + row_count;
-    nk_size_t const column_tile_count = nk_size_divide_round_up_(n_vectors, tile_dimension);
+    nk_size_t const column_tile_count = nk_size_divide_round_up_(vectors_count, tile_dimension);
     nk_size_t const depth_tile_count = nk_size_divide_round_up_(depth, depth_tile_size);
-    for (nk_size_t row_tile_start = row_start; row_tile_start < row_end && row_tile_start < n_vectors;
+    for (nk_size_t row_tile_start = row_start; row_tile_start < row_end && row_tile_start < vectors_count;
          row_tile_start += tile_dimension) {
         nk_size_t const rows_clamped = (row_tile_start + tile_dimension <= row_end) ? tile_dimension
                                                                                     : (row_end - row_tile_start);
-        nk_size_t const rows_actual = (row_tile_start + rows_clamped <= n_vectors) ? rows_clamped
-                                                                                   : (n_vectors - row_tile_start);
-        svbool_t const row_predicate_f64x = svwhilelt_b64_u64(0u, rows_actual);
+        nk_size_t const rows_actual = (row_tile_start + rows_clamped <= vectors_count)
+                                          ? rows_clamped
+                                          : (vectors_count - row_tile_start);
+        svbool_t const row_predicate_b64x = svwhilelt_b64_u64(0u, rows_actual);
-        nk_size_t column_tile_index = 0;
+        // Upper triangle: start from this row tile's column
+        nk_size_t column_tile_index = row_tile_start / tile_dimension;
         // Fast path: 7 column tiles at a time
         for (; column_tile_index + 7 <= column_tile_count; column_tile_index += 7) {
@@ -451,209 +452,208 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_symmetric_f32_smef64
                     if (depth_offset + depth_batch_start >= depth) break;
                     // ZA transpose for A rows: extending load f32→f64, MOVA directly into ZA0
-                    svbool_t const batch_predicate_f64x = svwhilelt_b64_u64(0u, (uint64_t)batch_size);
-                    svbool_t const a_depth_predicate_f64x = svwhilelt_b64_u64(depth_offset + depth_batch_start,
-                                                                              (uint64_t)depth);
+                    svbool_t const batch_predicate_b64x = svwhilelt_b64_u64(0u, batch_size);
+                    svbool_t const a_depth_predicate_b64x = svwhilelt_b64_u64(depth_offset + depth_batch_start, depth);
                     svzero_mask_za(nk_sme_zero_za64_tile_0_);
                     for (nk_size_t row_in_tile = 0; row_in_tile < rows_actual; row_in_tile++) {
                         nk_size_t const row_abs = row_tile_start + row_in_tile;
                         svfloat64_t a_row_widened_f64x = svcvt_f64_f32_x(
-                            batch_predicate_f64x,
+                            batch_predicate_b64x,
                             svreinterpret_f32_u64(svld1uw_u64(
-                                a_depth_predicate_f64x, (nk_u32_t const *)&vectors[row_abs * stride_elements +
+                                a_depth_predicate_b64x, (nk_u32_t const *)&vectors[row_abs * stride_elements +
                                                                                    depth_offset + depth_batch_start])));
-                        svwrite_hor_za64_f64_m(0, row_in_tile, batch_predicate_f64x, a_row_widened_f64x);
+                        svwrite_hor_za64_f64_m(0, row_in_tile, batch_predicate_b64x, a_row_widened_f64x);
                     }
                     // Save A columns from ZA0 to stack buffer
                     for (nk_size_t s = 0; s < batch_size; s++)
-                        svst1_f64(predicate_all_f64x, a_buffer[s],
-                                  svread_ver_za64_f64_m(svdup_f64(0), row_predicate_f64x, 0, s));
+                        svst1_f64(predicate_all_b64x, a_buffer[s],
+                                  svread_ver_za64_f64_m(svdup_f64(0), row_predicate_b64x, 0, s));
                     // Column tile 0 → ZA1 via MOVA
                     svzero_mask_za(nk_sme_zero_za64_tile_0_);
                     for (nk_size_t column = 0; column < tile_dimension; column++) {
                         nk_size_t const column_abs = (column_tile_index + 0) * tile_dimension + column;
-                        if (column_abs < n_vectors) {
+                        if (column_abs < vectors_count) {
                             svfloat64_t widened_f64x = svcvt_f64_f32_x(
-                                batch_predicate_f64x,
+                                batch_predicate_b64x,
                                 svreinterpret_f32_u64(svld1uw_u64(
-                                    a_depth_predicate_f64x,
+                                    a_depth_predicate_b64x,
                                     (nk_u32_t const
                                          *)&vectors[column_abs * stride_elements + depth_offset + depth_batch_start])));
-                            svwrite_hor_za64_f64_m(0, column, batch_predicate_f64x, widened_f64x);
+                            svwrite_hor_za64_f64_m(0, column, batch_predicate_b64x, widened_f64x);
                         }
                     }
                     for (nk_size_t step = 0; step < batch_size; step++) {
-                        svfloat64_t a_f64x = svld1_f64(predicate_all_f64x, a_buffer[step]);
-                        svfloat64_t b_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), predicate_all_f64x, 0, step);
-                        svmopa_za64_f64_m(1, row_predicate_f64x, predicate_all_f64x, a_f64x, b_f64x);
+                        svfloat64_t a_f64x = svld1_f64(predicate_all_b64x, a_buffer[step]);
+                        svfloat64_t b_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), predicate_all_b64x, 0, step);
+                        svmopa_za64_f64_m(1, row_predicate_b64x, predicate_all_b64x, a_f64x, b_f64x);
                     }
                     // Column tile 1 → ZA2 via MOVA
                     svzero_mask_za(nk_sme_zero_za64_tile_0_);
                     for (nk_size_t column = 0; column < tile_dimension; column++) {
                         nk_size_t const column_abs = (column_tile_index + 1) * tile_dimension + column;
-                        if (column_abs < n_vectors) {
+                        if (column_abs < vectors_count) {
                             svfloat64_t widened_f64x = svcvt_f64_f32_x(
-                                batch_predicate_f64x,
+                                batch_predicate_b64x,
                                 svreinterpret_f32_u64(svld1uw_u64(
-                                    a_depth_predicate_f64x,
+                                    a_depth_predicate_b64x,
                                     (nk_u32_t const
                                          *)&vectors[column_abs * stride_elements + depth_offset + depth_batch_start])));
-                            svwrite_hor_za64_f64_m(0, column, batch_predicate_f64x, widened_f64x);
+                            svwrite_hor_za64_f64_m(0, column, batch_predicate_b64x, widened_f64x);
                         }
                     }
                     for (nk_size_t step = 0; step < batch_size; step++) {
-                        svfloat64_t a_f64x = svld1_f64(predicate_all_f64x, a_buffer[step]);
-                        svfloat64_t b_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), predicate_all_f64x, 0, step);
-                        svmopa_za64_f64_m(2, row_predicate_f64x, predicate_all_f64x, a_f64x, b_f64x);
+                        svfloat64_t a_f64x = svld1_f64(predicate_all_b64x, a_buffer[step]);
+                        svfloat64_t b_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), predicate_all_b64x, 0, step);
+                        svmopa_za64_f64_m(2, row_predicate_b64x, predicate_all_b64x, a_f64x, b_f64x);
                     }
                     // Column tile 2 → ZA3 via MOVA
                     svzero_mask_za(nk_sme_zero_za64_tile_0_);
                     for (nk_size_t column = 0; column < tile_dimension; column++) {
                         nk_size_t const column_abs = (column_tile_index + 2) * tile_dimension + column;
-                        if (column_abs < n_vectors) {
+                        if (column_abs < vectors_count) {
                             svfloat64_t widened_f64x = svcvt_f64_f32_x(
-                                batch_predicate_f64x,
+                                batch_predicate_b64x,
                                 svreinterpret_f32_u64(svld1uw_u64(
-                                    a_depth_predicate_f64x,
+                                    a_depth_predicate_b64x,
                                     (nk_u32_t const
                                          *)&vectors[column_abs * stride_elements + depth_offset + depth_batch_start])));
-                            svwrite_hor_za64_f64_m(0, column, batch_predicate_f64x, widened_f64x);
+                            svwrite_hor_za64_f64_m(0, column, batch_predicate_b64x, widened_f64x);
                         }
                     }
                     for (nk_size_t step = 0; step < batch_size; step++) {
-                        svfloat64_t a_f64x = svld1_f64(predicate_all_f64x, a_buffer[step]);
-                        svfloat64_t b_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), predicate_all_f64x, 0, step);
-                        svmopa_za64_f64_m(3, row_predicate_f64x, predicate_all_f64x, a_f64x, b_f64x);
+                        svfloat64_t a_f64x = svld1_f64(predicate_all_b64x, a_buffer[step]);
+                        svfloat64_t b_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), predicate_all_b64x, 0, step);
+                        svmopa_za64_f64_m(3, row_predicate_b64x, predicate_all_b64x, a_f64x, b_f64x);
                     }
                     // Column tile 3 → ZA4 via MOVA
                     svzero_mask_za(nk_sme_zero_za64_tile_0_);
                     for (nk_size_t column = 0; column < tile_dimension; column++) {
                         nk_size_t const column_abs = (column_tile_index + 3) * tile_dimension + column;
-                        if (column_abs < n_vectors) {
+                        if (column_abs < vectors_count) {
                             svfloat64_t widened_f64x = svcvt_f64_f32_x(
-                                batch_predicate_f64x,
+                                batch_predicate_b64x,
                                 svreinterpret_f32_u64(svld1uw_u64(
-                                    a_depth_predicate_f64x,
+                                    a_depth_predicate_b64x,
                                     (nk_u32_t const
                                          *)&vectors[column_abs * stride_elements + depth_offset + depth_batch_start])));
-                            svwrite_hor_za64_f64_m(0, column, batch_predicate_f64x, widened_f64x);
+                            svwrite_hor_za64_f64_m(0, column, batch_predicate_b64x, widened_f64x);
                         }
                     }
                     for (nk_size_t step = 0; step < batch_size; step++) {
-                        svfloat64_t a_f64x = svld1_f64(predicate_all_f64x, a_buffer[step]);
-                        svfloat64_t b_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), predicate_all_f64x, 0, step);
-                        svmopa_za64_f64_m(4, row_predicate_f64x, predicate_all_f64x, a_f64x, b_f64x);
+                        svfloat64_t a_f64x = svld1_f64(predicate_all_b64x, a_buffer[step]);
+                        svfloat64_t b_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), predicate_all_b64x, 0, step);
+                        svmopa_za64_f64_m(4, row_predicate_b64x, predicate_all_b64x, a_f64x, b_f64x);
                     }
                     // Column tile 4 → ZA5 via MOVA
                     svzero_mask_za(nk_sme_zero_za64_tile_0_);
                     for (nk_size_t column = 0; column < tile_dimension; column++) {
                         nk_size_t const column_abs = (column_tile_index + 4) * tile_dimension + column;
-                        if (column_abs < n_vectors) {
+                        if (column_abs < vectors_count) {
                             svfloat64_t widened_f64x = svcvt_f64_f32_x(
-                                batch_predicate_f64x,
+                                batch_predicate_b64x,
                                 svreinterpret_f32_u64(svld1uw_u64(
-                                    a_depth_predicate_f64x,
+                                    a_depth_predicate_b64x,
                                     (nk_u32_t const
                                          *)&vectors[column_abs * stride_elements + depth_offset + depth_batch_start])));
-                            svwrite_hor_za64_f64_m(0, column, batch_predicate_f64x, widened_f64x);
+                            svwrite_hor_za64_f64_m(0, column, batch_predicate_b64x, widened_f64x);
                         }
                     }
                     for (nk_size_t step = 0; step < batch_size; step++) {
-                        svfloat64_t a_f64x = svld1_f64(predicate_all_f64x, a_buffer[step]);
-                        svfloat64_t b_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), predicate_all_f64x, 0, step);
-                        svmopa_za64_f64_m(5, row_predicate_f64x, predicate_all_f64x, a_f64x, b_f64x);
+                        svfloat64_t a_f64x = svld1_f64(predicate_all_b64x, a_buffer[step]);
+                        svfloat64_t b_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), predicate_all_b64x, 0, step);
+                        svmopa_za64_f64_m(5, row_predicate_b64x, predicate_all_b64x, a_f64x, b_f64x);
                     }
                     // Column tile 5 → ZA6 via MOVA
                     svzero_mask_za(nk_sme_zero_za64_tile_0_);
                     for (nk_size_t column = 0; column < tile_dimension; column++) {
                         nk_size_t const column_abs = (column_tile_index + 5) * tile_dimension + column;
-                        if (column_abs < n_vectors) {
+                        if (column_abs < vectors_count) {
                             svfloat64_t widened_f64x = svcvt_f64_f32_x(
-                                batch_predicate_f64x,
+                                batch_predicate_b64x,
                                 svreinterpret_f32_u64(svld1uw_u64(
-                                    a_depth_predicate_f64x,
+                                    a_depth_predicate_b64x,
                                     (nk_u32_t const
                                          *)&vectors[column_abs * stride_elements + depth_offset + depth_batch_start])));
-                            svwrite_hor_za64_f64_m(0, column, batch_predicate_f64x, widened_f64x);
+                            svwrite_hor_za64_f64_m(0, column, batch_predicate_b64x, widened_f64x);
                         }
                     }
                     for (nk_size_t step = 0; step < batch_size; step++) {
-                        svfloat64_t a_f64x = svld1_f64(predicate_all_f64x, a_buffer[step]);
-                        svfloat64_t b_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), predicate_all_f64x, 0, step);
-                        svmopa_za64_f64_m(6, row_predicate_f64x, predicate_all_f64x, a_f64x, b_f64x);
+                        svfloat64_t a_f64x = svld1_f64(predicate_all_b64x, a_buffer[step]);
+                        svfloat64_t b_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), predicate_all_b64x, 0, step);
+                        svmopa_za64_f64_m(6, row_predicate_b64x, predicate_all_b64x, a_f64x, b_f64x);
                     }
                     // Column tile 6 → ZA7 via MOVA
                     svzero_mask_za(nk_sme_zero_za64_tile_0_);
                     for (nk_size_t column = 0; column < tile_dimension; column++) {
                         nk_size_t const column_abs = (column_tile_index + 6) * tile_dimension + column;
-                        if (column_abs < n_vectors) {
+                        if (column_abs < vectors_count) {
                             svfloat64_t widened_f64x = svcvt_f64_f32_x(
-                                batch_predicate_f64x,
+                                batch_predicate_b64x,
                                 svreinterpret_f32_u64(svld1uw_u64(
-                                    a_depth_predicate_f64x,
+                                    a_depth_predicate_b64x,
                                     (nk_u32_t const
                                          *)&vectors[column_abs * stride_elements + depth_offset + depth_batch_start])));
-                            svwrite_hor_za64_f64_m(0, column, batch_predicate_f64x, widened_f64x);
+                            svwrite_hor_za64_f64_m(0, column, batch_predicate_b64x, widened_f64x);
                         }
                     }
                     for (nk_size_t step = 0; step < batch_size; step++) {
-                        svfloat64_t a_f64x = svld1_f64(predicate_all_f64x, a_buffer[step]);
-                        svfloat64_t b_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), predicate_all_f64x, 0, step);
-                        svmopa_za64_f64_m(7, row_predicate_f64x, predicate_all_f64x, a_f64x, b_f64x);
+                        svfloat64_t a_f64x = svld1_f64(predicate_all_b64x, a_buffer[step]);
+                        svfloat64_t b_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), predicate_all_b64x, 0, step);
+                        svmopa_za64_f64_m(7, row_predicate_b64x, predicate_all_b64x, a_f64x, b_f64x);
                     }
                 }
             }
             // Extract results and store native f64 outputs.
-            svbool_t const predicate_tile_f64x = svwhilelt_b64_u64(0u, tile_dimension);
+            svbool_t const predicate_tile_b64x = svwhilelt_b64_u64(0u, tile_dimension);
             // The 7th tile (index 6) may be partial when it's the last column tile
             nk_size_t const last_fast_col_start = (column_tile_index + 6) * tile_dimension;
-            nk_size_t const last_fast_cols = (last_fast_col_start + tile_dimension <= n_vectors)
+            nk_size_t const last_fast_cols = (last_fast_col_start + tile_dimension <= vectors_count)
                                                  ? tile_dimension
-                                                 : (n_vectors - last_fast_col_start);
-            svbool_t const last_tile_pred_f64x = svwhilelt_b64_u64(0u, last_fast_cols);
+                                                 : (vectors_count - last_fast_col_start);
+            svbool_t const last_tile_pred_b64x = svwhilelt_b64_u64(0u, last_fast_cols);
             for (nk_size_t row = 0; row < rows_actual; row++) {
                 nk_size_t const row_abs = row_tile_start + row;
                 nk_f64_t *result_row = result + row_abs * result_stride_elements;
-                svfloat64_t za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_f64x, 1, row);
-                svst1_f64(predicate_tile_f64x, result_row + (column_tile_index + 0) * tile_dimension, za_row_f64x);
+                svfloat64_t za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_b64x, 1, row);
+                svst1_f64(predicate_tile_b64x, result_row + (column_tile_index + 0) * tile_dimension, za_row_f64x);
-                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_f64x, 2, row);
-                svst1_f64(predicate_tile_f64x, result_row + (column_tile_index + 1) * tile_dimension, za_row_f64x);
+                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_b64x, 2, row);
+                svst1_f64(predicate_tile_b64x, result_row + (column_tile_index + 1) * tile_dimension, za_row_f64x);
-                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_f64x, 3, row);
-                svst1_f64(predicate_tile_f64x, result_row + (column_tile_index + 2) * tile_dimension, za_row_f64x);
+                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_b64x, 3, row);
+                svst1_f64(predicate_tile_b64x, result_row + (column_tile_index + 2) * tile_dimension, za_row_f64x);
-                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_f64x, 4, row);
-                svst1_f64(predicate_tile_f64x, result_row + (column_tile_index + 3) * tile_dimension, za_row_f64x);
+                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_b64x, 4, row);
+                svst1_f64(predicate_tile_b64x, result_row + (column_tile_index + 3) * tile_dimension, za_row_f64x);
-                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_f64x, 5, row);
-                svst1_f64(predicate_tile_f64x, result_row + (column_tile_index + 4) * tile_dimension, za_row_f64x);
+                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_b64x, 5, row);
+                svst1_f64(predicate_tile_b64x, result_row + (column_tile_index + 4) * tile_dimension, za_row_f64x);
-                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_f64x, 6, row);
-                svst1_f64(predicate_tile_f64x, result_row + (column_tile_index + 5) * tile_dimension, za_row_f64x);
+                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_b64x, 6, row);
+                svst1_f64(predicate_tile_b64x, result_row + (column_tile_index + 5) * tile_dimension, za_row_f64x);
-                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_f64x, 7, row);
-                svst1_f64(last_tile_pred_f64x, result_row + (column_tile_index + 6) * tile_dimension, za_row_f64x);
+                za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_b64x, 7, row);
+                svst1_f64(last_tile_pred_b64x, result_row + (column_tile_index + 6) * tile_dimension, za_row_f64x);
             }
         }
         // Remainder: 1 column tile at a time
         for (; column_tile_index < column_tile_count; column_tile_index++) {
             nk_size_t const column_tile_start = column_tile_index * tile_dimension;
-            nk_size_t const columns_remaining = (column_tile_start + tile_dimension <= n_vectors)
+            nk_size_t const columns_remaining = (column_tile_start + tile_dimension <= vectors_count)
                                                     ? tile_dimension
-                                                    : (n_vectors - column_tile_start);
-            svbool_t const column_predicate_f64x = svwhilelt_b64_u64(0u, columns_remaining);
+                                                    : (vectors_count - column_tile_start);
+            svbool_t const column_predicate_b64x = svwhilelt_b64_u64(0u, columns_remaining);
             svzero_mask_za(nk_sme_zero_za64_tile_1_);
@@ -669,44 +669,43 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_symmetric_f32_smef64
                     if (depth_offset + depth_batch_start >= depth) break;
-                    svbool_t const batch_predicate_f64x = svwhilelt_b64_u64(0u, (uint64_t)batch_size);
-                    svbool_t const a_depth_pred_f64x = svwhilelt_b64_u64(depth_offset + depth_batch_start,
-                                                                         (uint64_t)depth);
+                    svbool_t const batch_predicate_b64x = svwhilelt_b64_u64(0u, batch_size);
+                    svbool_t const a_depth_pred_b64x = svwhilelt_b64_u64(depth_offset + depth_batch_start, depth);
                     svzero_mask_za(nk_sme_zero_za64_tile_0_);
                     for (nk_size_t row_in_tile = 0; row_in_tile < rows_actual; row_in_tile++) {
                         nk_size_t const row_abs = row_tile_start + row_in_tile;
                         svfloat64_t a_row_widened_f64x = svcvt_f64_f32_x(
-                            batch_predicate_f64x,
+                            batch_predicate_b64x,
                             svreinterpret_f32_u64(svld1uw_u64(
-                                a_depth_pred_f64x, (nk_u32_t const *)&vectors[row_abs * stride_elements + depth_offset +
+                                a_depth_pred_b64x, (nk_u32_t const *)&vectors[row_abs * stride_elements + depth_offset +
                                                                               depth_batch_start])));
-                        svwrite_hor_za64_f64_m(0, row_in_tile, batch_predicate_f64x, a_row_widened_f64x);
+                        svwrite_hor_za64_f64_m(0, row_in_tile, batch_predicate_b64x, a_row_widened_f64x);
                     }
                     // Save A columns from ZA0 to stack buffer
                     for (nk_size_t s = 0; s < batch_size; s++)
-                        svst1_f64(predicate_all_f64x, a_buffer[s],
-                                  svread_ver_za64_f64_m(svdup_f64(0), row_predicate_f64x, 0, s));
+                        svst1_f64(predicate_all_b64x, a_buffer[s],
+                                  svread_ver_za64_f64_m(svdup_f64(0), row_predicate_b64x, 0, s));
                     // Load B column tile into ZA0 via MOVA, vertical read + FMOPA into ZA1
                     svzero_mask_za(nk_sme_zero_za64_tile_0_);
                     for (nk_size_t column = 0; column < tile_dimension; column++) {
                         nk_size_t const column_abs = column_tile_start + column;
-                        if (column_abs < n_vectors) {
+                        if (column_abs < vectors_count) {
                             svfloat64_t widened_f64x = svcvt_f64_f32_x(
-                                batch_predicate_f64x,
+                                batch_predicate_b64x,
                                 svreinterpret_f32_u64(svld1uw_u64(
-                                    a_depth_pred_f64x, (nk_u32_t const *)&vectors[column_abs * stride_elements +
+                                    a_depth_pred_b64x, (nk_u32_t const *)&vectors[column_abs * stride_elements +
                                                                                   depth_offset + depth_batch_start])));
-                            svwrite_hor_za64_f64_m(0, column, batch_predicate_f64x, widened_f64x);
+                            svwrite_hor_za64_f64_m(0, column, batch_predicate_b64x, widened_f64x);
                         }
                     }
                     for (nk_size_t step = 0; step < batch_size; step++) {
                         nk_size_t const k_abs = depth_offset + depth_batch_start + step;
                         if (k_abs >= depth) break;
-                        svfloat64_t a_f64x = svld1_f64(predicate_all_f64x, a_buffer[step]);
-                        svfloat64_t b_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), column_predicate_f64x, 0, step);
-                        svmopa_za64_f64_m(1, row_predicate_f64x, column_predicate_f64x, a_f64x, b_f64x);
+                        svfloat64_t a_f64x = svld1_f64(predicate_all_b64x, a_buffer[step]);
+                        svfloat64_t b_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), column_predicate_b64x, 0, step);
+                        svmopa_za64_f64_m(1, row_predicate_b64x, column_predicate_b64x, a_f64x, b_f64x);
                     }
                 }
             }
@@ -714,25 +713,26 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_symmetric_f32_smef64
             // Store native f64 outputs for the tail column tile.
             for (nk_size_t row = 0; row < rows_actual; row++) {
                 nk_size_t const row_abs = row_tile_start + row;
-                svfloat64_t za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_f64x, 1, row);
-                svst1_f64(column_predicate_f64x, result + row_abs * result_stride_elements + column_tile_start,
+                svfloat64_t za_row_f64x = svread_hor_za64_f64_m(svdup_f64(0), predicate_all_b64x, 1, row);
+                svst1_f64(column_predicate_b64x, result + row_abs * result_stride_elements + column_tile_start,
                           za_row_f64x);
             }
         }
     }
 }
-NK_PUBLIC void nk_dots_symmetric_f32_smef64(nk_f32_t const *vectors, nk_size_t n_vectors, nk_size_t depth,
-                                            nk_size_t stride, nk_f64_t *result, nk_size_t result_stride,
-                                            nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_dots_symmetric_f32_smef64(nk_f32_t const *vectors, nk_size_t vectors_count, nk_size_t depth,
+                                            nk_size_t stride_in_bytes, nk_f64_t *result,
+                                            nk_size_t result_stride_in_bytes, nk_size_t row_start,
+                                            nk_size_t row_count) {
-    nk_size_t const stride_elements = stride / sizeof(nk_f32_t);
-    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f64_t);
-    nk_dots_symmetric_f32_smef64_streaming_(vectors, n_vectors, depth, stride_elements, result, result_stride_elements,
-                                            row_start, row_count);
+    nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_f32_t);
+    nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f64_t);
+    nk_dots_symmetric_f32_smef64_streaming_(vectors, vectors_count, depth, stride_elements, result,
+                                            result_stride_elements, row_start, row_count);
 }
-#pragma endregion // Single Precision Floats
+#pragma endregion F32 Floats
 /*
  *  f64 GEMM via 3-way Ozaki splitting using FMOPA with ZA64 tiles.
@@ -768,7 +768,7 @@ NK_PUBLIC void nk_dots_symmetric_f32_smef64(nk_f32_t const *vectors, nk_size_t n
  *  - f64 input vectors: 8 elements (SVL/64)
  *  - FMOPA predicates: b64 (native f64 granularity)
  */
-#pragma region Double Precision Floats
+#pragma region F64 Floats
 /*  Mantissa bit masks for 3-way Ozaki splitting of f64 values.
  *
@@ -783,17 +783,17 @@ NK_PUBLIC void nk_dots_symmetric_f32_smef64(nk_f32_t const *vectors, nk_size_t n
  *
  *  All slices fit in f32 (24-bit significand). Products: max 19+19 = 38 ≤ 53, exact in f64.
  */
-NK_PUBLIC nk_u64_t nk_f64_smef64_ozaki_mask_19_bits_(void) NK_STREAMING_COMPATIBLE_ {
+NK_PUBLIC nk_u64_t nk_f64_smef64_ozaki_mask_19_bits_(void) NK_STREAMING_ {
     return 0xFFFFFFFC00000000ULL; // keep top 19 sig bits
 }
-NK_PUBLIC nk_u64_t nk_f64_smef64_ozaki_mask_17_bits_(void) NK_STREAMING_COMPATIBLE_ {
+NK_PUBLIC nk_u64_t nk_f64_smef64_ozaki_mask_17_bits_(void) NK_STREAMING_ {
     return 0xFFFFFFF000000000ULL; // keep top 17 sig bits
 }
 /*  Split a scalar f64 into 3 non-overlapping Ozaki slices (19+17+17 mantissa bits).
  *  Each slice fits in f32. Outputs stored via pointers. */
 NK_PUBLIC void nk_f64_smef64_ozaki_split_f64_(nk_f64_t val, nk_f64_t *slice_0, nk_f64_t *slice_1,
-                                              nk_f64_t *slice_2) NK_STREAMING_COMPATIBLE_ {
+                                              nk_f64_t *slice_2) NK_STREAMING_ {
     nk_fui64_t pun;
     pun.f = val;
     pun.u &= nk_f64_smef64_ozaki_mask_19_bits_();
@@ -806,36 +806,39 @@ NK_PUBLIC void nk_f64_smef64_ozaki_split_f64_(nk_f64_t val, nk_f64_t *slice_0, n
 }
 __arm_locally_streaming __arm_new("za") static void nk_dots_symmetric_f64_smef64_streaming_(
-    nk_f64_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, nk_f64_t *result,
+    nk_f64_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f64_t *result,
     nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const tile_dimension = svcntd();
     nk_size_t const depth_steps_per_batch = tile_dimension;
-    svbool_t const predicate_all_f64x = svptrue_b64();
+    svbool_t const predicate_all_b64x = svptrue_b64();
     svuint64_t const ozaki_mask_19_u64x = svdup_u64(nk_f64_smef64_ozaki_mask_19_bits_());
     svuint64_t const ozaki_mask_17_u64x = svdup_u64(nk_f64_smef64_ozaki_mask_17_bits_());
     NK_ALIGN64 nk_f64_t a_buffer[8][8]; // save A columns before reusing ZA0 for B
     nk_size_t const row_end = row_start + row_count;
-    nk_size_t const column_tile_count = nk_size_divide_round_up_(n_vectors, tile_dimension);
+    nk_size_t const column_tile_count = nk_size_divide_round_up_(vectors_count, tile_dimension);
     // ZA0.D = staging (A then B), ZA1-3.D = merged Ozaki accumulators (i+j=0,1,2)
-    for (nk_size_t row_tile_start = row_start; row_tile_start < row_end && row_tile_start < n_vectors;
+    for (nk_size_t row_tile_start = row_start; row_tile_start < row_end && row_tile_start < vectors_count;
          row_tile_start += tile_dimension) {
         nk_size_t const rows_remaining = (row_tile_start + tile_dimension <= row_end) ? tile_dimension
                                                                                       : (row_end - row_tile_start);
-        nk_size_t const rows_clamped = (row_tile_start + rows_remaining <= n_vectors) ? rows_remaining
-                                                                                      : (n_vectors - row_tile_start);
-        svbool_t const row_predicate_f64x = svwhilelt_b64_u64(0u, rows_clamped);
-        for (nk_size_t column_tile_index = 0; column_tile_index < column_tile_count; column_tile_index++) {
+        nk_size_t const rows_clamped = (row_tile_start + rows_remaining <= vectors_count)
+                                           ? rows_remaining
+                                           : (vectors_count - row_tile_start);
+        svbool_t const row_predicate_b64x = svwhilelt_b64_u64(0u, rows_clamped);
+        // Upper triangle: start from this row tile's column
+        for (nk_size_t column_tile_index = row_tile_start / tile_dimension; column_tile_index < column_tile_count;
+             column_tile_index++) {
             nk_size_t const column_tile_start = column_tile_index * tile_dimension;
-            nk_size_t const columns_remaining = (column_tile_start + tile_dimension <= n_vectors)
+            nk_size_t const columns_remaining = (column_tile_start + tile_dimension <= vectors_count)
                                                     ? tile_dimension
-                                                    : (n_vectors - column_tile_start);
-            svbool_t const column_predicate_f64x = svwhilelt_b64_u64(0u, columns_remaining);
+                                                    : (vectors_count - column_tile_start);
+            svbool_t const column_predicate_b64x = svwhilelt_b64_u64(0u, columns_remaining);
             // Zero ZA1-3 (3 merged Ozaki accumulators)
             svzero_mask_za(nk_sme_zero_za64_tiles_1_3_);
@@ -846,67 +849,67 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_symmetric_f64_smef64
                                                       ? depth_batch_start + depth_steps_per_batch
                                                       : depth;
                 nk_size_t const batch_size = depth_batch_end - depth_batch_start;
-                svbool_t const batch_predicate_f64x = svwhilelt_b64_u64(0u, batch_size);
+                svbool_t const batch_predicate_b64x = svwhilelt_b64_u64(0u, batch_size);
                 // Load A rows into ZA0
                 svzero_mask_za(nk_sme_zero_za64_tile_0_);
                 for (nk_size_t row_in_tile = 0; row_in_tile < rows_clamped; row_in_tile++) {
                     nk_size_t const row_abs = row_tile_start + row_in_tile;
-                    svld1_hor_za64(0, row_in_tile, batch_predicate_f64x,
+                    svld1_hor_za64(0, row_in_tile, batch_predicate_b64x,
                                    vectors + row_abs * stride_elements + depth_batch_start);
                 }
                 // Save A columns to buffer before reusing ZA0 for B
                 for (nk_size_t s = 0; s < batch_size; s++)
-                    svst1_f64(predicate_all_f64x, a_buffer[s],
-                              svread_ver_za64_f64_m(svdup_f64(0.0), row_predicate_f64x, 0, s));
+                    svst1_f64(predicate_all_b64x, a_buffer[s],
+                              svread_ver_za64_f64_m(svdup_f64(0.0), row_predicate_b64x, 0, s));
                 // Load B columns into ZA0 (reuse)
                 svzero_mask_za(nk_sme_zero_za64_tile_0_);
                 for (nk_size_t column = 0; column < tile_dimension; column++) {
                     nk_size_t const column_abs = column_tile_start + column;
-                    if (column_abs < n_vectors)
-                        svld1_hor_za64(0, column, batch_predicate_f64x,
+                    if (column_abs < vectors_count)
+                        svld1_hor_za64(0, column, batch_predicate_b64x,
                                        vectors + column_abs * stride_elements + depth_batch_start);
                 }
                 // Split both A and B into 3 Ozaki slices, 6 FMOPAs per step
                 for (nk_size_t step = 0; step < batch_size; step++) {
-                    svfloat64_t a_f64x = svld1_f64(predicate_all_f64x, a_buffer[step]);
+                    svfloat64_t a_f64x = svld1_f64(predicate_all_b64x, a_buffer[step]);
                     svuint64_t a_bits_u64x = svreinterpret_u64_f64(a_f64x);
                     svfloat64_t a_slice_0_f64x = svreinterpret_f64_u64(
-                        svand_u64_x(predicate_all_f64x, a_bits_u64x, ozaki_mask_19_u64x));
-                    svfloat64_t residual_a_f64x = svsub_f64_x(predicate_all_f64x, a_f64x, a_slice_0_f64x);
+                        svand_u64_x(predicate_all_b64x, a_bits_u64x, ozaki_mask_19_u64x));
+                    svfloat64_t residual_a_f64x = svsub_f64_x(predicate_all_b64x, a_f64x, a_slice_0_f64x);
                     svuint64_t residual_a_bits_u64x = svreinterpret_u64_f64(residual_a_f64x);
                     svfloat64_t a_slice_1_f64x = svreinterpret_f64_u64(
-                        svand_u64_x(predicate_all_f64x, residual_a_bits_u64x, ozaki_mask_17_u64x));
-                    svfloat64_t a_slice_2_f64x = svsub_f64_x(predicate_all_f64x, residual_a_f64x, a_slice_1_f64x);
+                        svand_u64_x(predicate_all_b64x, residual_a_bits_u64x, ozaki_mask_17_u64x));
+                    svfloat64_t a_slice_2_f64x = svsub_f64_x(predicate_all_b64x, residual_a_f64x, a_slice_1_f64x);
-                    svfloat64_t b_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), column_predicate_f64x, 0, step);
+                    svfloat64_t b_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), column_predicate_b64x, 0, step);
                     svuint64_t b_bits_u64x = svreinterpret_u64_f64(b_f64x);
                     svfloat64_t b_slice_0_f64x = svreinterpret_f64_u64(
-                        svand_u64_x(predicate_all_f64x, b_bits_u64x, ozaki_mask_19_u64x));
-                    svfloat64_t residual_b_f64x = svsub_f64_x(predicate_all_f64x, b_f64x, b_slice_0_f64x);
+                        svand_u64_x(predicate_all_b64x, b_bits_u64x, ozaki_mask_19_u64x));
+                    svfloat64_t residual_b_f64x = svsub_f64_x(predicate_all_b64x, b_f64x, b_slice_0_f64x);
                     svuint64_t residual_b_bits_u64x = svreinterpret_u64_f64(residual_b_f64x);
                     svfloat64_t b_slice_1_f64x = svreinterpret_f64_u64(
-                        svand_u64_x(predicate_all_f64x, residual_b_bits_u64x, ozaki_mask_17_u64x));
-                    svfloat64_t b_slice_2_f64x = svsub_f64_x(predicate_all_f64x, residual_b_f64x, b_slice_1_f64x);
+                        svand_u64_x(predicate_all_b64x, residual_b_bits_u64x, ozaki_mask_17_u64x));
+                    svfloat64_t b_slice_2_f64x = svsub_f64_x(predicate_all_b64x, residual_b_f64x, b_slice_1_f64x);
                     // 6 FMOPAs reordered to minimize WAW pipeline stalls on 3 tiles.
                     // Same-tile accumulation order preserved (bit-identical output).
                     // Tile schedule: ZA3(0), ZA2(1), ZA1(2), ZA3(4), ZA2(5), ZA3(8).
                     // 9 cycles vs 15 original (3 unavoidable bubbles with only 3 tiles).
-                    svmopa_za64_f64_m(3, row_predicate_f64x, column_predicate_f64x, a_slice_0_f64x,
+                    svmopa_za64_f64_m(3, row_predicate_b64x, column_predicate_b64x, a_slice_0_f64x,
                                       b_slice_2_f64x); // ZA3: i+j=2 (1/3)
-                    svmopa_za64_f64_m(2, row_predicate_f64x, column_predicate_f64x, a_slice_0_f64x,
+                    svmopa_za64_f64_m(2, row_predicate_b64x, column_predicate_b64x, a_slice_0_f64x,
                                       b_slice_1_f64x); // ZA2: i+j=1 (1/2)
-                    svmopa_za64_f64_m(1, row_predicate_f64x, column_predicate_f64x, a_slice_0_f64x,
+                    svmopa_za64_f64_m(1, row_predicate_b64x, column_predicate_b64x, a_slice_0_f64x,
                                       b_slice_0_f64x); // ZA1: i+j=0
-                    svmopa_za64_f64_m(3, row_predicate_f64x, column_predicate_f64x, a_slice_1_f64x,
+                    svmopa_za64_f64_m(3, row_predicate_b64x, column_predicate_b64x, a_slice_1_f64x,
                                       b_slice_1_f64x); // ZA3: i+j=2 (2/3)
-                    svmopa_za64_f64_m(2, row_predicate_f64x, column_predicate_f64x, a_slice_1_f64x,
+                    svmopa_za64_f64_m(2, row_predicate_b64x, column_predicate_b64x, a_slice_1_f64x,
                                       b_slice_0_f64x); // ZA2: i+j=1 (2/2)
-                    svmopa_za64_f64_m(3, row_predicate_f64x, column_predicate_f64x, a_slice_2_f64x,
+                    svmopa_za64_f64_m(3, row_predicate_b64x, column_predicate_b64x, a_slice_2_f64x,
                                       b_slice_0_f64x); // ZA3: i+j=2 (3/3)
                 }
             }
@@ -914,31 +917,32 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_symmetric_f64_smef64
             // Sum ZA3 + ZA2 + ZA1 (smallest to largest)
             for (nk_size_t row = 0; row < rows_clamped; row++) {
                 nk_size_t const row_abs = row_tile_start + row;
-                svfloat64_t result_f64x = svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_f64x, 3, row);
-                result_f64x = svadd_f64_x(predicate_all_f64x, result_f64x,
-                                          svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_f64x, 2, row));
-                result_f64x = svadd_f64_x(predicate_all_f64x, result_f64x,
-                                          svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_f64x, 1, row));
-                svst1_f64(column_predicate_f64x, result + row_abs * result_stride_elements + column_tile_start,
+                svfloat64_t result_f64x = svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_b64x, 3, row);
+                result_f64x = svadd_f64_x(predicate_all_b64x, result_f64x,
+                                          svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_b64x, 2, row));
+                result_f64x = svadd_f64_x(predicate_all_b64x, result_f64x,
+                                          svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_b64x, 1, row));
+                svst1_f64(column_predicate_b64x, result + row_abs * result_stride_elements + column_tile_start,
                           result_f64x);
             }
         }
     }
 }
-NK_PUBLIC void nk_dots_symmetric_f64_smef64(nk_f64_t const *vectors, nk_size_t n_vectors, nk_size_t depth,
-                                            nk_size_t stride, nk_f64_t *result, nk_size_t result_stride,
-                                            nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_dots_symmetric_f64_smef64(nk_f64_t const *vectors, nk_size_t vectors_count, nk_size_t depth,
+                                            nk_size_t stride_in_bytes, nk_f64_t *result,
+                                            nk_size_t result_stride_in_bytes, nk_size_t row_start,
+                                            nk_size_t row_count) {
-    nk_size_t const stride_elements = stride / sizeof(nk_f64_t);
-    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f64_t);
-    nk_dots_symmetric_f64_smef64_streaming_(vectors, n_vectors, depth, stride_elements, result, result_stride_elements,
-                                            row_start, row_count);
+    nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_f64_t);
+    nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f64_t);
+    nk_dots_symmetric_f64_smef64_streaming_(vectors, vectors_count, depth, stride_elements, result,
+                                            result_stride_elements, row_start, row_count);
 }
 NK_PUBLIC nk_size_t nk_dots_packed_size_f64_smef64(nk_size_t columns, nk_size_t depth) {
-    nk_size_t const tile_dimension = svcntsd();
-    nk_size_t const depth_tile_size = svcntsw();
+    nk_size_t const tile_dimension = nk_sme_cntd_();
+    nk_size_t const depth_tile_size = nk_sme_cntw_();
     nk_size_t const column_tile_count = nk_size_divide_round_up_(columns, tile_dimension);
     nk_size_t const depth_tile_count = nk_size_divide_round_up_(depth, depth_tile_size);
     // Single header + interleaved 3-slice data (3× tile_dimension elements per depth step)
@@ -948,13 +952,13 @@ NK_PUBLIC nk_size_t nk_dots_packed_size_f64_smef64(nk_size_t columns, nk_size_t
     return size;
 }
-NK_PUBLIC void nk_dots_pack_f64_smef64(nk_f64_t const *b, nk_size_t columns, nk_size_t depth, nk_size_t b_stride,
-                                       void *b_packed) {
+NK_PUBLIC void nk_dots_pack_f64_smef64(nk_f64_t const *b, nk_size_t columns, nk_size_t depth,
+                                       nk_size_t b_stride_in_bytes, void *b_packed) {
-    nk_size_t const b_stride_elements = b_stride / sizeof(nk_f64_t);
+    nk_size_t const b_stride_elements = b_stride_in_bytes / sizeof(nk_f64_t);
-    nk_size_t const tile_dimension = svcntsd();
-    nk_size_t const depth_tile_size = svcntsw();
+    nk_size_t const tile_dimension = nk_sme_cntd_();
+    nk_size_t const depth_tile_size = nk_sme_cntw_();
     nk_size_t const interleaved_stride = 3 * tile_dimension;
     nk_size_t const interleaved_tile_elements = depth_tile_size * interleaved_stride;
@@ -968,7 +972,7 @@ NK_PUBLIC void nk_dots_pack_f64_smef64(nk_f64_t const *b, nk_size_t columns, nk_
     header->depth_tile_count = (nk_u32_t)depth_tile_count;
     header->columns = (nk_u32_t)columns;
     header->depth = (nk_u32_t)depth;
-    header->svl_bytes = (nk_u32_t)svcntsb();
+    header->svl_bytes = (nk_u32_t)nk_sme_cntb_();
     nk_f32_t *tiles = (nk_f32_t *)((char *)b_packed + sizeof(nk_dots_sme_packed_header_t));
@@ -1009,7 +1013,7 @@ NK_PUBLIC void nk_dots_pack_f64_smef64(nk_f64_t const *b, nk_size_t columns, nk_
     header->norms_offset = (nk_u32_t)(sizeof(nk_dots_sme_packed_header_t) + data_size);
     nk_f64_t *norms_ptr = (nk_f64_t *)((char *)b_packed + header->norms_offset);
     for (nk_size_t col = 0; col < columns; col++) {
-        nk_f64_t const *col_data = (nk_f64_t const *)((char const *)b + col * b_stride);
+        nk_f64_t const *col_data = (nk_f64_t const *)((char const *)b + col * b_stride_in_bytes);
         norms_ptr[col] = nk_dots_reduce_sumsq_f64_(col_data, depth);
     }
 }
@@ -1032,7 +1036,7 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_packed_f64_smef64_st
     // B tile data pointer (f32, interleaved slices)
     nk_f32_t const *b_tiles = (nk_f32_t const *)((char const *)b_packed + sizeof(nk_dots_sme_packed_header_t));
-    svbool_t const predicate_all_f64x = svptrue_b64();
+    svbool_t const predicate_all_b64x = svptrue_b64();
     // Mantissa masks for in-register Ozaki splitting (19+17+17 bits)
     svuint64_t const ozaki_mask_19_u64x = svdup_u64(nk_f64_smef64_ozaki_mask_19_bits_());
@@ -1045,7 +1049,7 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_packed_f64_smef64_st
          row_tile_index++) {
         nk_size_t const row_start = row_tile_index * tile_dimension;
         nk_size_t const rows_remaining = (row_start + tile_dimension <= rows) ? tile_dimension : (rows - row_start);
-        svbool_t const row_predicate_f64x = svwhilelt_b64_u64(0u, rows_remaining);
+        svbool_t const row_predicate_b64x = svwhilelt_b64_u64(0u, rows_remaining);
         nk_size_t column_tile_index = 0;
@@ -1059,8 +1063,8 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_packed_f64_smef64_st
             nk_size_t const columns_remaining_1 = (column_start_1 + tile_dimension <= columns)
                                                       ? tile_dimension
                                                       : (columns - column_start_1);
-            svbool_t const column_predicate_0_f64x = svwhilelt_b64_u64(0u, columns_remaining_0);
-            svbool_t const column_predicate_1_f64x = svwhilelt_b64_u64(0u, columns_remaining_1);
+            svbool_t const column_predicate_0_b64x = svwhilelt_b64_u64(0u, columns_remaining_0);
+            svbool_t const column_predicate_1_b64x = svwhilelt_b64_u64(0u, columns_remaining_1);
             // Zero ZA1-6 (3 accumulators × 2 column tiles)
             svzero_mask_za(nk_sme_zero_za64_tiles_1_6_);
@@ -1081,9 +1085,9 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_packed_f64_smef64_st
                     svzero_mask_za(nk_sme_zero_za64_tile_0_);
                     for (nk_size_t row_in_tile = 0; row_in_tile < rows_remaining; row_in_tile++) {
                         nk_size_t const a_row = row_start + row_in_tile;
-                        svbool_t const a_depth_predicate_f64x = svwhilelt_b64_u64(depth_offset + depth_batch_start,
-                                                                                  (uint64_t)depth);
-                        svld1_hor_za64(0, row_in_tile, a_depth_predicate_f64x,
+                        svbool_t const a_depth_predicate_b64x = svwhilelt_b64_u64(depth_offset + depth_batch_start,
+                                                                                  depth);
+                        svld1_hor_za64(0, row_in_tile, a_depth_predicate_b64x,
                                        &a[a_row * a_stride_elements + depth_offset + depth_batch_start]);
                     }
@@ -1100,71 +1104,71 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_packed_f64_smef64_st
                         if (k_abs >= depth) break;
                         // Read A column from ZA0 and split into 3 Ozaki slices
-                        svfloat64_t a_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), row_predicate_f64x, 0, step);
+                        svfloat64_t a_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), row_predicate_b64x, 0, step);
                         svuint64_t a_bits_u64x = svreinterpret_u64_f64(a_f64x);
                         svfloat64_t a_slice_0_f64x = svreinterpret_f64_u64(
-                            svand_u64_x(predicate_all_f64x, a_bits_u64x, ozaki_mask_19_u64x));
-                        svfloat64_t residual_a_f64x = svsub_f64_x(predicate_all_f64x, a_f64x, a_slice_0_f64x);
+                            svand_u64_x(predicate_all_b64x, a_bits_u64x, ozaki_mask_19_u64x));
+                        svfloat64_t residual_a_f64x = svsub_f64_x(predicate_all_b64x, a_f64x, a_slice_0_f64x);
                         svuint64_t residual_a_bits_u64x = svreinterpret_u64_f64(residual_a_f64x);
                         svfloat64_t a_slice_1_f64x = svreinterpret_f64_u64(
-                            svand_u64_x(predicate_all_f64x, residual_a_bits_u64x, ozaki_mask_17_u64x));
-                        svfloat64_t a_slice_2_f64x = svsub_f64_x(predicate_all_f64x, residual_a_f64x, a_slice_1_f64x);
+                            svand_u64_x(predicate_all_b64x, residual_a_bits_u64x, ozaki_mask_17_u64x));
+                        svfloat64_t a_slice_2_f64x = svsub_f64_x(predicate_all_b64x, residual_a_f64x, a_slice_1_f64x);
                         // Load all 6 B slices upfront (3 per column tile) for pipeline interleaving
                         nk_size_t const b_tile_offset_0 = b_batch_offset_0 + step * interleaved_stride;
                         nk_size_t const b_tile_offset_1 = b_batch_offset_1 + step * interleaved_stride;
                         svfloat64_t b_column_0_slice_0_f64x = svcvt_f64_f32_x(
-                            predicate_all_f64x,
+                            predicate_all_b64x,
                             svreinterpret_f32_u64(
-                                svld1uw_u64(predicate_all_f64x, (nk_u32_t const *)(b_tiles + b_tile_offset_0))));
+                                svld1uw_u64(predicate_all_b64x, (nk_u32_t const *)(b_tiles + b_tile_offset_0))));
                         svfloat64_t b_column_0_slice_1_f64x = svcvt_f64_f32_x(
-                            predicate_all_f64x,
+                            predicate_all_b64x,
                             svreinterpret_f32_u64(svld1uw_u64(
-                                predicate_all_f64x, (nk_u32_t const *)(b_tiles + b_tile_offset_0 + tile_dimension))));
+                                predicate_all_b64x, (nk_u32_t const *)(b_tiles + b_tile_offset_0 + tile_dimension))));
                         svfloat64_t b_column_0_slice_2_f64x = svcvt_f64_f32_x(
-                            predicate_all_f64x, svreinterpret_f32_u64(svld1uw_u64(
-                                                    predicate_all_f64x, (nk_u32_t const *)(b_tiles + b_tile_offset_0 +
+                            predicate_all_b64x, svreinterpret_f32_u64(svld1uw_u64(
+                                                    predicate_all_b64x, (nk_u32_t const *)(b_tiles + b_tile_offset_0 +
                                                                                            2 * tile_dimension))));
                         svfloat64_t b_column_1_slice_0_f64x = svcvt_f64_f32_x(
-                            predicate_all_f64x,
+                            predicate_all_b64x,
                             svreinterpret_f32_u64(
-                                svld1uw_u64(predicate_all_f64x, (nk_u32_t const *)(b_tiles + b_tile_offset_1))));
+                                svld1uw_u64(predicate_all_b64x, (nk_u32_t const *)(b_tiles + b_tile_offset_1))));
                         svfloat64_t b_column_1_slice_1_f64x = svcvt_f64_f32_x(
-                            predicate_all_f64x,
+                            predicate_all_b64x,
                             svreinterpret_f32_u64(svld1uw_u64(
-                                predicate_all_f64x, (nk_u32_t const *)(b_tiles + b_tile_offset_1 + tile_dimension))));
+                                predicate_all_b64x, (nk_u32_t const *)(b_tiles + b_tile_offset_1 + tile_dimension))));
                         svfloat64_t b_column_1_slice_2_f64x = svcvt_f64_f32_x(
-                            predicate_all_f64x, svreinterpret_f32_u64(svld1uw_u64(
-                                                    predicate_all_f64x, (nk_u32_t const *)(b_tiles + b_tile_offset_1 +
+                            predicate_all_b64x, svreinterpret_f32_u64(svld1uw_u64(
+                                                    predicate_all_b64x, (nk_u32_t const *)(b_tiles + b_tile_offset_1 +
                                                                                            2 * tile_dimension))));
                         // 12 FMOPAs interleaved across 6 tiles to eliminate WAW pipeline stalls.
                         // Same-tile accumulation order preserved (bit-identical output).
                         // Tile gaps: ZA3 at 0,6,10 (6,4); ZA6 at 1,7,11 (6,4); ZA2 at 4,8 (4);
                         //            ZA5 at 5,9 (4); ZA1 at 2; ZA4 at 3. All gaps >= 4-cycle latency.
-                        svmopa_za64_f64_m(3, row_predicate_f64x, column_predicate_0_f64x, a_slice_0_f64x,
+                        svmopa_za64_f64_m(3, row_predicate_b64x, column_predicate_0_b64x, a_slice_0_f64x,
                                           b_column_0_slice_2_f64x); // ZA3: i+j=2 (1/3)
-                        svmopa_za64_f64_m(6, row_predicate_f64x, column_predicate_1_f64x, a_slice_0_f64x,
+                        svmopa_za64_f64_m(6, row_predicate_b64x, column_predicate_1_b64x, a_slice_0_f64x,
                                           b_column_1_slice_2_f64x); // ZA6: i+j=2 (1/3)
-                        svmopa_za64_f64_m(1, row_predicate_f64x, column_predicate_0_f64x, a_slice_0_f64x,
+                        svmopa_za64_f64_m(1, row_predicate_b64x, column_predicate_0_b64x, a_slice_0_f64x,
                                           b_column_0_slice_0_f64x); // ZA1: i+j=0
-                        svmopa_za64_f64_m(4, row_predicate_f64x, column_predicate_1_f64x, a_slice_0_f64x,
+                        svmopa_za64_f64_m(4, row_predicate_b64x, column_predicate_1_b64x, a_slice_0_f64x,
                                           b_column_1_slice_0_f64x); // ZA4: i+j=0
-                        svmopa_za64_f64_m(2, row_predicate_f64x, column_predicate_0_f64x, a_slice_0_f64x,
+                        svmopa_za64_f64_m(2, row_predicate_b64x, column_predicate_0_b64x, a_slice_0_f64x,
                                           b_column_0_slice_1_f64x); // ZA2: i+j=1 (1/2)
-                        svmopa_za64_f64_m(5, row_predicate_f64x, column_predicate_1_f64x, a_slice_0_f64x,
+                        svmopa_za64_f64_m(5, row_predicate_b64x, column_predicate_1_b64x, a_slice_0_f64x,
                                           b_column_1_slice_1_f64x); // ZA5: i+j=1 (1/2)
-                        svmopa_za64_f64_m(3, row_predicate_f64x, column_predicate_0_f64x, a_slice_1_f64x,
+                        svmopa_za64_f64_m(3, row_predicate_b64x, column_predicate_0_b64x, a_slice_1_f64x,
                                           b_column_0_slice_1_f64x); // ZA3: i+j=2 (2/3)
-                        svmopa_za64_f64_m(6, row_predicate_f64x, column_predicate_1_f64x, a_slice_1_f64x,
+                        svmopa_za64_f64_m(6, row_predicate_b64x, column_predicate_1_b64x, a_slice_1_f64x,
                                           b_column_1_slice_1_f64x); // ZA6: i+j=2 (2/3)
-                        svmopa_za64_f64_m(2, row_predicate_f64x, column_predicate_0_f64x, a_slice_1_f64x,
+                        svmopa_za64_f64_m(2, row_predicate_b64x, column_predicate_0_b64x, a_slice_1_f64x,
                                           b_column_0_slice_0_f64x); // ZA2: i+j=1 (2/2)
-                        svmopa_za64_f64_m(5, row_predicate_f64x, column_predicate_1_f64x, a_slice_1_f64x,
+                        svmopa_za64_f64_m(5, row_predicate_b64x, column_predicate_1_b64x, a_slice_1_f64x,
                                           b_column_1_slice_0_f64x); // ZA5: i+j=1 (2/2)
-                        svmopa_za64_f64_m(3, row_predicate_f64x, column_predicate_0_f64x, a_slice_2_f64x,
+                        svmopa_za64_f64_m(3, row_predicate_b64x, column_predicate_0_b64x, a_slice_2_f64x,
                                           b_column_0_slice_0_f64x); // ZA3: i+j=2 (3/3)
-                        svmopa_za64_f64_m(6, row_predicate_f64x, column_predicate_1_f64x, a_slice_2_f64x,
+                        svmopa_za64_f64_m(6, row_predicate_b64x, column_predicate_1_b64x, a_slice_2_f64x,
                                           b_column_1_slice_0_f64x); // ZA6: i+j=2 (3/3)
                     }
                 }
@@ -1173,23 +1177,23 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_packed_f64_smef64_st
             // Simple summation for col tile 0: ZA3 + ZA2 + ZA1 (smallest to largest)
             for (nk_size_t row = 0; row < rows_remaining; row++) {
                 nk_f64_t *c_row = c + (row_start + row) * c_stride_elements + column_start_0;
-                svfloat64_t result_f64x = svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_f64x, 3, row);
-                result_f64x = svadd_f64_x(predicate_all_f64x, result_f64x,
-                                          svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_f64x, 2, row));
-                result_f64x = svadd_f64_x(predicate_all_f64x, result_f64x,
-                                          svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_f64x, 1, row));
-                svst1_f64(column_predicate_0_f64x, c_row, result_f64x);
+                svfloat64_t result_f64x = svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_b64x, 3, row);
+                result_f64x = svadd_f64_x(predicate_all_b64x, result_f64x,
+                                          svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_b64x, 2, row));
+                result_f64x = svadd_f64_x(predicate_all_b64x, result_f64x,
+                                          svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_b64x, 1, row));
+                svst1_f64(column_predicate_0_b64x, c_row, result_f64x);
             }
             // Simple summation for col tile 1: ZA6 + ZA5 + ZA4 (smallest to largest)
             for (nk_size_t row = 0; row < rows_remaining; row++) {
                 nk_f64_t *c_row = c + (row_start + row) * c_stride_elements + column_start_1;
-                svfloat64_t result_f64x = svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_f64x, 6, row);
-                result_f64x = svadd_f64_x(predicate_all_f64x, result_f64x,
-                                          svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_f64x, 5, row));
-                result_f64x = svadd_f64_x(predicate_all_f64x, result_f64x,
-                                          svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_f64x, 4, row));
-                svst1_f64(column_predicate_1_f64x, c_row, result_f64x);
+                svfloat64_t result_f64x = svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_b64x, 6, row);
+                result_f64x = svadd_f64_x(predicate_all_b64x, result_f64x,
+                                          svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_b64x, 5, row));
+                result_f64x = svadd_f64_x(predicate_all_b64x, result_f64x,
+                                          svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_b64x, 4, row));
+                svst1_f64(column_predicate_1_b64x, c_row, result_f64x);
             }
         }
@@ -1198,7 +1202,7 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_packed_f64_smef64_st
             nk_size_t const column_start = column_tile_index * tile_dimension;
             nk_size_t const columns_remaining = (column_start + tile_dimension <= columns) ? tile_dimension
                                                                                            : (columns - column_start);
-            svbool_t const column_predicate_f64x = svwhilelt_b64_u64(0u, columns_remaining);
+            svbool_t const column_predicate_b64x = svwhilelt_b64_u64(0u, columns_remaining);
             // Zero ZA1-3 (3 merged accumulators)
             svzero_mask_za(nk_sme_zero_za64_tiles_1_3_);
@@ -1219,9 +1223,9 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_packed_f64_smef64_st
                     svzero_mask_za(nk_sme_zero_za64_tile_0_);
                     for (nk_size_t row_in_tile = 0; row_in_tile < rows_remaining; row_in_tile++) {
                         nk_size_t const a_row = row_start + row_in_tile;
-                        svbool_t const a_depth_predicate_f64x = svwhilelt_b64_u64(depth_offset + depth_batch_start,
-                                                                                  (uint64_t)depth);
-                        svld1_hor_za64(0, row_in_tile, a_depth_predicate_f64x,
+                        svbool_t const a_depth_predicate_b64x = svwhilelt_b64_u64(depth_offset + depth_batch_start,
+                                                                                  depth);
+                        svld1_hor_za64(0, row_in_tile, a_depth_predicate_b64x,
                                        &a[a_row * a_stride_elements + depth_offset + depth_batch_start]);
                     }
@@ -1234,45 +1238,45 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_packed_f64_smef64_st
                         if (k_abs >= depth) break;
                         // Read A column from ZA0 and split into 3 Ozaki slices
-                        svfloat64_t a_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), row_predicate_f64x, 0, step);
+                        svfloat64_t a_f64x = svread_ver_za64_f64_m(svdup_f64(0.0), row_predicate_b64x, 0, step);
                         svuint64_t a_bits_u64x = svreinterpret_u64_f64(a_f64x);
                         svfloat64_t a_slice_0_f64x = svreinterpret_f64_u64(
-                            svand_u64_x(predicate_all_f64x, a_bits_u64x, ozaki_mask_19_u64x));
-                        svfloat64_t residual_a_f64x = svsub_f64_x(predicate_all_f64x, a_f64x, a_slice_0_f64x);
+                            svand_u64_x(predicate_all_b64x, a_bits_u64x, ozaki_mask_19_u64x));
+                        svfloat64_t residual_a_f64x = svsub_f64_x(predicate_all_b64x, a_f64x, a_slice_0_f64x);
                         svuint64_t residual_a_bits_u64x = svreinterpret_u64_f64(residual_a_f64x);
                         svfloat64_t a_slice_1_f64x = svreinterpret_f64_u64(
-                            svand_u64_x(predicate_all_f64x, residual_a_bits_u64x, ozaki_mask_17_u64x));
-                        svfloat64_t a_slice_2_f64x = svsub_f64_x(predicate_all_f64x, residual_a_f64x, a_slice_1_f64x);
+                            svand_u64_x(predicate_all_b64x, residual_a_bits_u64x, ozaki_mask_17_u64x));
+                        svfloat64_t a_slice_2_f64x = svsub_f64_x(predicate_all_b64x, residual_a_f64x, a_slice_1_f64x);
                         // Load 3 B slices (contiguous in interleaved layout)
                         nk_size_t const b_tile_offset = b_batch_offset + step * interleaved_stride;
                         svfloat64_t b_slice_0_f64x = svcvt_f64_f32_x(
-                            predicate_all_f64x, svreinterpret_f32_u64(svld1uw_u64(
-                                                    predicate_all_f64x, (nk_u32_t const *)(b_tiles + b_tile_offset))));
+                            predicate_all_b64x, svreinterpret_f32_u64(svld1uw_u64(
+                                                    predicate_all_b64x, (nk_u32_t const *)(b_tiles + b_tile_offset))));
                         svfloat64_t b_slice_1_f64x = svcvt_f64_f32_x(
-                            predicate_all_f64x,
+                            predicate_all_b64x,
                             svreinterpret_f32_u64(svld1uw_u64(
-                                predicate_all_f64x, (nk_u32_t const *)(b_tiles + b_tile_offset + tile_dimension))));
+                                predicate_all_b64x, (nk_u32_t const *)(b_tiles + b_tile_offset + tile_dimension))));
                         svfloat64_t b_slice_2_f64x = svcvt_f64_f32_x(
-                            predicate_all_f64x,
+                            predicate_all_b64x,
                             svreinterpret_f32_u64(svld1uw_u64(
-                                predicate_all_f64x, (nk_u32_t const *)(b_tiles + b_tile_offset + 2 * tile_dimension))));
+                                predicate_all_b64x, (nk_u32_t const *)(b_tiles + b_tile_offset + 2 * tile_dimension))));
                         // 6 FMOPAs reordered to minimize WAW pipeline stalls on 3 tiles.
                         // Same-tile accumulation order preserved (bit-identical output).
                         // Tile schedule: ZA3(0), ZA2(1), ZA1(2), ZA3(4), ZA2(5), ZA3(8).
                         // 9 cycles vs 15 original (3 unavoidable bubbles with only 3 tiles).
-                        svmopa_za64_f64_m(3, row_predicate_f64x, column_predicate_f64x, a_slice_0_f64x,
+                        svmopa_za64_f64_m(3, row_predicate_b64x, column_predicate_b64x, a_slice_0_f64x,
                                           b_slice_2_f64x); // ZA3: i+j=2 (1/3)
-                        svmopa_za64_f64_m(2, row_predicate_f64x, column_predicate_f64x, a_slice_0_f64x,
+                        svmopa_za64_f64_m(2, row_predicate_b64x, column_predicate_b64x, a_slice_0_f64x,
                                           b_slice_1_f64x); // ZA2: i+j=1 (1/2)
-                        svmopa_za64_f64_m(1, row_predicate_f64x, column_predicate_f64x, a_slice_0_f64x,
+                        svmopa_za64_f64_m(1, row_predicate_b64x, column_predicate_b64x, a_slice_0_f64x,
                                           b_slice_0_f64x); // ZA1: i+j=0
-                        svmopa_za64_f64_m(3, row_predicate_f64x, column_predicate_f64x, a_slice_1_f64x,
+                        svmopa_za64_f64_m(3, row_predicate_b64x, column_predicate_b64x, a_slice_1_f64x,
                                           b_slice_1_f64x); // ZA3: i+j=2 (2/3)
-                        svmopa_za64_f64_m(2, row_predicate_f64x, column_predicate_f64x, a_slice_1_f64x,
+                        svmopa_za64_f64_m(2, row_predicate_b64x, column_predicate_b64x, a_slice_1_f64x,
                                           b_slice_0_f64x); // ZA2: i+j=1 (2/2)
-                        svmopa_za64_f64_m(3, row_predicate_f64x, column_predicate_f64x, a_slice_2_f64x,
+                        svmopa_za64_f64_m(3, row_predicate_b64x, column_predicate_b64x, a_slice_2_f64x,
                                           b_slice_0_f64x); // ZA3: i+j=2 (3/3)
                     }
                 }
@@ -1281,27 +1285,28 @@ __arm_locally_streaming __arm_new("za") static void nk_dots_packed_f64_smef64_st
             // Simple summation: ZA3 + ZA2 + ZA1 (smallest to largest)
             for (nk_size_t row = 0; row < rows_remaining; row++) {
                 nk_f64_t *c_row = c + (row_start + row) * c_stride_elements + column_start;
-                svfloat64_t result_f64x = svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_f64x, 3, row);
-                result_f64x = svadd_f64_x(predicate_all_f64x, result_f64x,
-                                          svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_f64x, 2, row));
-                result_f64x = svadd_f64_x(predicate_all_f64x, result_f64x,
-                                          svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_f64x, 1, row));
-                svst1_f64(column_predicate_f64x, c_row, result_f64x);
+                svfloat64_t result_f64x = svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_b64x, 3, row);
+                result_f64x = svadd_f64_x(predicate_all_b64x, result_f64x,
+                                          svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_b64x, 2, row));
+                result_f64x = svadd_f64_x(predicate_all_b64x, result_f64x,
+                                          svread_hor_za64_f64_m(svdup_f64(0.0), predicate_all_b64x, 1, row));
+                svst1_f64(column_predicate_b64x, c_row, result_f64x);
             }
         }
     }
 }
 NK_PUBLIC void nk_dots_packed_f64_smef64(nk_f64_t const *a, void const *b_packed, nk_f64_t *c, nk_size_t rows,
-                                         nk_size_t columns, nk_size_t depth, nk_size_t a_stride, nk_size_t c_stride) {
+                                         nk_size_t columns, nk_size_t depth, nk_size_t a_stride_in_bytes,
+                                         nk_size_t c_stride_in_bytes) {
-    nk_size_t const a_stride_elements = a_stride / sizeof(nk_f64_t);
-    nk_size_t const c_stride_elements = c_stride / sizeof(nk_f64_t);
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_f64_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f64_t);
     nk_dots_packed_f64_smef64_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
 }
-#pragma endregion // Double Precision Floats
+#pragma endregion F64 Floats
 #if defined(__clang__)
 #pragma clang attribute pop