npm - numkong - Versions diffs - 7.0.0 - Mend

numkong 7.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (294) hide show

package/LICENSE +201 -0
package/README.md +495 -0
package/binding.gyp +540 -0
package/c/dispatch.h +512 -0
package/c/dispatch_bf16.c +389 -0
package/c/dispatch_bf16c.c +52 -0
package/c/dispatch_e2m3.c +263 -0
package/c/dispatch_e3m2.c +243 -0
package/c/dispatch_e4m3.c +276 -0
package/c/dispatch_e5m2.c +272 -0
package/c/dispatch_f16.c +376 -0
package/c/dispatch_f16c.c +58 -0
package/c/dispatch_f32.c +378 -0
package/c/dispatch_f32c.c +99 -0
package/c/dispatch_f64.c +296 -0
package/c/dispatch_f64c.c +98 -0
package/c/dispatch_i16.c +96 -0
package/c/dispatch_i32.c +89 -0
package/c/dispatch_i4.c +150 -0
package/c/dispatch_i64.c +86 -0
package/c/dispatch_i8.c +289 -0
package/c/dispatch_other.c +330 -0
package/c/dispatch_u1.c +148 -0
package/c/dispatch_u16.c +124 -0
package/c/dispatch_u32.c +118 -0
package/c/dispatch_u4.c +150 -0
package/c/dispatch_u64.c +102 -0
package/c/dispatch_u8.c +303 -0
package/c/numkong.c +950 -0
package/include/README.md +573 -0
package/include/module.modulemap +129 -0
package/include/numkong/attention/sapphireamx.h +1361 -0
package/include/numkong/attention/sme.h +2066 -0
package/include/numkong/attention.h +49 -0
package/include/numkong/capabilities.h +748 -0
package/include/numkong/cast/README.md +262 -0
package/include/numkong/cast/haswell.h +975 -0
package/include/numkong/cast/icelake.h +470 -0
package/include/numkong/cast/neon.h +1192 -0
package/include/numkong/cast/rvv.h +1021 -0
package/include/numkong/cast/sapphire.h +262 -0
package/include/numkong/cast/serial.h +2262 -0
package/include/numkong/cast/skylake.h +856 -0
package/include/numkong/cast/v128relaxed.h +180 -0
package/include/numkong/cast.h +230 -0
package/include/numkong/curved/README.md +223 -0
package/include/numkong/curved/genoa.h +182 -0
package/include/numkong/curved/haswell.h +276 -0
package/include/numkong/curved/neon.h +205 -0
package/include/numkong/curved/neonbfdot.h +212 -0
package/include/numkong/curved/neonhalf.h +212 -0
package/include/numkong/curved/rvv.h +305 -0
package/include/numkong/curved/serial.h +207 -0
package/include/numkong/curved/skylake.h +457 -0
package/include/numkong/curved/smef64.h +506 -0
package/include/numkong/curved.h +517 -0
package/include/numkong/curved.hpp +144 -0
package/include/numkong/dot/README.md +425 -0
package/include/numkong/dot/alder.h +563 -0
package/include/numkong/dot/genoa.h +315 -0
package/include/numkong/dot/haswell.h +1688 -0
package/include/numkong/dot/icelake.h +883 -0
package/include/numkong/dot/neon.h +818 -0
package/include/numkong/dot/neonbfdot.h +244 -0
package/include/numkong/dot/neonfhm.h +360 -0
package/include/numkong/dot/neonhalf.h +198 -0
package/include/numkong/dot/neonsdot.h +508 -0
package/include/numkong/dot/rvv.h +714 -0
package/include/numkong/dot/rvvbb.h +72 -0
package/include/numkong/dot/rvvbf16.h +123 -0
package/include/numkong/dot/rvvhalf.h +129 -0
package/include/numkong/dot/sapphire.h +141 -0
package/include/numkong/dot/serial.h +838 -0
package/include/numkong/dot/sierra.h +405 -0
package/include/numkong/dot/skylake.h +1084 -0
package/include/numkong/dot/sve.h +379 -0
package/include/numkong/dot/svebfdot.h +74 -0
package/include/numkong/dot/svehalf.h +123 -0
package/include/numkong/dot/v128relaxed.h +1258 -0
package/include/numkong/dot.h +1070 -0
package/include/numkong/dot.hpp +94 -0
package/include/numkong/dots/README.md +496 -0
package/include/numkong/dots/alder.h +114 -0
package/include/numkong/dots/genoa.h +94 -0
package/include/numkong/dots/haswell.h +295 -0
package/include/numkong/dots/icelake.h +171 -0
package/include/numkong/dots/neon.h +120 -0
package/include/numkong/dots/neonbfdot.h +58 -0
package/include/numkong/dots/neonfhm.h +94 -0
package/include/numkong/dots/neonhalf.h +57 -0
package/include/numkong/dots/neonsdot.h +108 -0
package/include/numkong/dots/rvv.h +2486 -0
package/include/numkong/dots/sapphireamx.h +3973 -0
package/include/numkong/dots/serial.h +2844 -0
package/include/numkong/dots/sierra.h +97 -0
package/include/numkong/dots/skylake.h +196 -0
package/include/numkong/dots/sme.h +5372 -0
package/include/numkong/dots/smebi32.h +461 -0
package/include/numkong/dots/smef64.h +1318 -0
package/include/numkong/dots/smehalf.h +47 -0
package/include/numkong/dots/v128relaxed.h +294 -0
package/include/numkong/dots.h +2804 -0
package/include/numkong/dots.hpp +639 -0
package/include/numkong/each/README.md +469 -0
package/include/numkong/each/haswell.h +1658 -0
package/include/numkong/each/icelake.h +272 -0
package/include/numkong/each/neon.h +1104 -0
package/include/numkong/each/neonbfdot.h +212 -0
package/include/numkong/each/neonhalf.h +410 -0
package/include/numkong/each/rvv.h +1121 -0
package/include/numkong/each/sapphire.h +477 -0
package/include/numkong/each/serial.h +260 -0
package/include/numkong/each/skylake.h +1562 -0
package/include/numkong/each.h +2146 -0
package/include/numkong/each.hpp +434 -0
package/include/numkong/geospatial/README.md +147 -0
package/include/numkong/geospatial/haswell.h +593 -0
package/include/numkong/geospatial/neon.h +571 -0
package/include/numkong/geospatial/rvv.h +701 -0
package/include/numkong/geospatial/serial.h +309 -0
package/include/numkong/geospatial/skylake.h +577 -0
package/include/numkong/geospatial/v128relaxed.h +613 -0
package/include/numkong/geospatial.h +453 -0
package/include/numkong/geospatial.hpp +235 -0
package/include/numkong/matrix.hpp +336 -0
package/include/numkong/maxsim/README.md +187 -0
package/include/numkong/maxsim/alder.h +511 -0
package/include/numkong/maxsim/genoa.h +115 -0
package/include/numkong/maxsim/haswell.h +553 -0
package/include/numkong/maxsim/icelake.h +480 -0
package/include/numkong/maxsim/neonsdot.h +394 -0
package/include/numkong/maxsim/sapphireamx.h +877 -0
package/include/numkong/maxsim/serial.h +490 -0
package/include/numkong/maxsim/sme.h +929 -0
package/include/numkong/maxsim/v128relaxed.h +280 -0
package/include/numkong/maxsim.h +571 -0
package/include/numkong/maxsim.hpp +133 -0
package/include/numkong/mesh/README.md +227 -0
package/include/numkong/mesh/haswell.h +2235 -0
package/include/numkong/mesh/neon.h +1329 -0
package/include/numkong/mesh/neonbfdot.h +842 -0
package/include/numkong/mesh/neonhalf.h +616 -0
package/include/numkong/mesh/rvv.h +916 -0
package/include/numkong/mesh/serial.h +742 -0
package/include/numkong/mesh/skylake.h +1135 -0
package/include/numkong/mesh/v128relaxed.h +1052 -0
package/include/numkong/mesh.h +652 -0
package/include/numkong/mesh.hpp +762 -0
package/include/numkong/numkong.h +78 -0
package/include/numkong/numkong.hpp +57 -0
package/include/numkong/probability/README.md +173 -0
package/include/numkong/probability/haswell.h +267 -0
package/include/numkong/probability/neon.h +225 -0
package/include/numkong/probability/rvv.h +409 -0
package/include/numkong/probability/serial.h +169 -0
package/include/numkong/probability/skylake.h +324 -0
package/include/numkong/probability.h +383 -0
package/include/numkong/probability.hpp +120 -0
package/include/numkong/random.h +50 -0
package/include/numkong/random.hpp +285 -0
package/include/numkong/reduce/README.md +547 -0
package/include/numkong/reduce/alder.h +632 -0
package/include/numkong/reduce/genoa.h +201 -0
package/include/numkong/reduce/haswell.h +3783 -0
package/include/numkong/reduce/icelake.h +549 -0
package/include/numkong/reduce/neon.h +3841 -0
package/include/numkong/reduce/neonbfdot.h +353 -0
package/include/numkong/reduce/neonfhm.h +665 -0
package/include/numkong/reduce/neonhalf.h +157 -0
package/include/numkong/reduce/neonsdot.h +357 -0
package/include/numkong/reduce/rvv.h +3407 -0
package/include/numkong/reduce/serial.h +757 -0
package/include/numkong/reduce/sierra.h +338 -0
package/include/numkong/reduce/skylake.h +3792 -0
package/include/numkong/reduce/v128relaxed.h +2302 -0
package/include/numkong/reduce.h +1597 -0
package/include/numkong/reduce.hpp +633 -0
package/include/numkong/scalar/README.md +89 -0
package/include/numkong/scalar/haswell.h +113 -0
package/include/numkong/scalar/neon.h +122 -0
package/include/numkong/scalar/neonhalf.h +70 -0
package/include/numkong/scalar/rvv.h +211 -0
package/include/numkong/scalar/sapphire.h +63 -0
package/include/numkong/scalar/serial.h +332 -0
package/include/numkong/scalar/v128relaxed.h +56 -0
package/include/numkong/scalar.h +683 -0
package/include/numkong/set/README.md +179 -0
package/include/numkong/set/haswell.h +334 -0
package/include/numkong/set/icelake.h +485 -0
package/include/numkong/set/neon.h +364 -0
package/include/numkong/set/rvv.h +226 -0
package/include/numkong/set/rvvbb.h +117 -0
package/include/numkong/set/serial.h +174 -0
package/include/numkong/set/sve.h +185 -0
package/include/numkong/set/v128relaxed.h +240 -0
package/include/numkong/set.h +457 -0
package/include/numkong/set.hpp +114 -0
package/include/numkong/sets/README.md +149 -0
package/include/numkong/sets/haswell.h +63 -0
package/include/numkong/sets/icelake.h +66 -0
package/include/numkong/sets/neon.h +61 -0
package/include/numkong/sets/serial.h +43 -0
package/include/numkong/sets/smebi32.h +1099 -0
package/include/numkong/sets/v128relaxed.h +58 -0
package/include/numkong/sets.h +339 -0
package/include/numkong/sparse/README.md +156 -0
package/include/numkong/sparse/icelake.h +463 -0
package/include/numkong/sparse/neon.h +288 -0
package/include/numkong/sparse/serial.h +117 -0
package/include/numkong/sparse/sve2.h +507 -0
package/include/numkong/sparse/turin.h +322 -0
package/include/numkong/sparse.h +363 -0
package/include/numkong/sparse.hpp +113 -0
package/include/numkong/spatial/README.md +435 -0
package/include/numkong/spatial/alder.h +607 -0
package/include/numkong/spatial/genoa.h +290 -0
package/include/numkong/spatial/haswell.h +960 -0
package/include/numkong/spatial/icelake.h +586 -0
package/include/numkong/spatial/neon.h +773 -0
package/include/numkong/spatial/neonbfdot.h +165 -0
package/include/numkong/spatial/neonhalf.h +118 -0
package/include/numkong/spatial/neonsdot.h +261 -0
package/include/numkong/spatial/rvv.h +984 -0
package/include/numkong/spatial/rvvbf16.h +123 -0
package/include/numkong/spatial/rvvhalf.h +117 -0
package/include/numkong/spatial/sapphire.h +343 -0
package/include/numkong/spatial/serial.h +346 -0
package/include/numkong/spatial/sierra.h +323 -0
package/include/numkong/spatial/skylake.h +606 -0
package/include/numkong/spatial/sve.h +224 -0
package/include/numkong/spatial/svebfdot.h +122 -0
package/include/numkong/spatial/svehalf.h +109 -0
package/include/numkong/spatial/v128relaxed.h +717 -0
package/include/numkong/spatial.h +1425 -0
package/include/numkong/spatial.hpp +183 -0
package/include/numkong/spatials/README.md +580 -0
package/include/numkong/spatials/alder.h +94 -0
package/include/numkong/spatials/genoa.h +94 -0
package/include/numkong/spatials/haswell.h +219 -0
package/include/numkong/spatials/icelake.h +113 -0
package/include/numkong/spatials/neon.h +109 -0
package/include/numkong/spatials/neonbfdot.h +60 -0
package/include/numkong/spatials/neonfhm.h +92 -0
package/include/numkong/spatials/neonhalf.h +58 -0
package/include/numkong/spatials/neonsdot.h +109 -0
package/include/numkong/spatials/rvv.h +1960 -0
package/include/numkong/spatials/sapphireamx.h +1149 -0
package/include/numkong/spatials/serial.h +226 -0
package/include/numkong/spatials/sierra.h +96 -0
package/include/numkong/spatials/skylake.h +184 -0
package/include/numkong/spatials/sme.h +1901 -0
package/include/numkong/spatials/smef64.h +465 -0
package/include/numkong/spatials/v128relaxed.h +240 -0
package/include/numkong/spatials.h +3021 -0
package/include/numkong/spatials.hpp +508 -0
package/include/numkong/tensor.hpp +1592 -0
package/include/numkong/trigonometry/README.md +184 -0
package/include/numkong/trigonometry/haswell.h +652 -0
package/include/numkong/trigonometry/neon.h +639 -0
package/include/numkong/trigonometry/rvv.h +699 -0
package/include/numkong/trigonometry/serial.h +703 -0
package/include/numkong/trigonometry/skylake.h +721 -0
package/include/numkong/trigonometry/v128relaxed.h +666 -0
package/include/numkong/trigonometry.h +467 -0
package/include/numkong/trigonometry.hpp +166 -0
package/include/numkong/types.h +1384 -0
package/include/numkong/types.hpp +5603 -0
package/include/numkong/vector.hpp +698 -0
package/javascript/README.md +246 -0
package/javascript/dist/cjs/numkong-wasm.d.ts +166 -0
package/javascript/dist/cjs/numkong-wasm.js +617 -0
package/javascript/dist/cjs/numkong.d.ts +343 -0
package/javascript/dist/cjs/numkong.js +523 -0
package/javascript/dist/cjs/package.json +3 -0
package/javascript/dist/cjs/types.d.ts +284 -0
package/javascript/dist/cjs/types.js +653 -0
package/javascript/dist/esm/numkong-wasm.d.ts +166 -0
package/javascript/dist/esm/numkong-wasm.js +595 -0
package/javascript/dist/esm/numkong.d.ts +343 -0
package/javascript/dist/esm/numkong.js +452 -0
package/javascript/dist/esm/package.json +3 -0
package/javascript/dist/esm/types.d.ts +284 -0
package/javascript/dist/esm/types.js +630 -0
package/javascript/dist-package-cjs.json +3 -0
package/javascript/dist-package-esm.json +3 -0
package/javascript/node-gyp-build.d.ts +1 -0
package/javascript/numkong-wasm.ts +756 -0
package/javascript/numkong.c +689 -0
package/javascript/numkong.ts +575 -0
package/javascript/tsconfig-base.json +39 -0
package/javascript/tsconfig-cjs.json +8 -0
package/javascript/tsconfig-esm.json +8 -0
package/javascript/types.ts +674 -0
package/package.json +87 -0

package/include/numkong/spatials/sme.h ADDED Viewed

@@ -0,0 +1,1901 @@
+/**
+ *  @brief Batched Spatial Distances for ARM SME.
+ *  @file include/numkong/spatials/sme.h
+ *  @author Ash Vardanian
+ *  @date February 23, 2026
+ *
+ *  @sa include/numkong/spatials.h
+ */
+#ifndef NK_SPATIALS_SME_H
+#define NK_SPATIALS_SME_H
+#if NK_TARGET_ARM_
+#if NK_TARGET_SME
+#include "numkong/dots/serial.h"
+#include "numkong/dots/sme.h"
+#if defined(__cplusplus)
+extern "C" {
+#endif
+#if defined(__clang__)
+#pragma clang attribute push(__attribute__((target("sme,sve"))), apply_to = function)
+#elif defined(__GNUC__)
+#pragma GCC push_options
+#pragma GCC target("+sme")
+#endif
+NK_PUBLIC nk_f32_t nk_dots_reduce_sumsq_f16_ssve_(nk_f16_t const *data, nk_size_t count) NK_STREAMING_COMPATIBLE_ {
+    svfloat32_t accumulator_f32x = svdup_f32(0.0f);
+    nk_size_t const vector_length = svcntw();
+    for (nk_size_t i = 0; i < count; i += vector_length) {
+        svbool_t predicate_f32x = svwhilelt_b32_u64(i, count);
+        svfloat32_t values_f32x = svcvt_f32_f16_x(
+            predicate_f32x, svld1_f16(svwhilelt_b16_u64(i, count), (nk_f16_for_arm_simd_t const *)(data + i)));
+        accumulator_f32x = svmla_f32_x(predicate_f32x, accumulator_f32x, values_f32x, values_f32x);
+    }
+    return svaddv_f32(svptrue_b32(), accumulator_f32x);
+}
+NK_PUBLIC nk_f32_t nk_dots_reduce_sumsq_bf16_ssve_(nk_bf16_t const *data, nk_size_t count) NK_STREAMING_COMPATIBLE_ {
+    svfloat32_t accumulator_f32x = svdup_f32(0.0f);
+    nk_size_t const vector_length = svcntw();
+    for (nk_size_t i = 0; i < count; i += vector_length) {
+        svbool_t predicate_f32x = svwhilelt_b32_u64(i, count);
+        svuint16_t raw_u16x = svld1_u16(svwhilelt_b16_u64(i, count), (nk_u16_t const *)data + i);
+        svfloat32_t values_f32x = svreinterpret_f32_u32(svlsl_n_u32_x(predicate_f32x, svunpklo_u32(raw_u16x), 16));
+        accumulator_f32x = svmla_f32_x(predicate_f32x, accumulator_f32x, values_f32x, values_f32x);
+    }
+    return svaddv_f32(svptrue_b32(), accumulator_f32x);
+}
+NK_PUBLIC nk_f32_t nk_dots_reduce_sumsq_e4m3_ssve_(nk_e4m3_t const *data, nk_size_t count) NK_STREAMING_ {
+    svfloat32_t accumulator_lo_f32x = svdup_f32(0.0f);
+    svfloat32_t accumulator_hi_f32x = svdup_f32(0.0f);
+    svuint16_t subnorm_lut_u16x = svld1_u16(svwhilelt_b16(0u, 8u), nk_e4m3_subnorm_f16_lut_);
+    nk_size_t const vector_length = svcnth();
+    nk_size_t const half_vector_length = svcntw();
+    for (nk_size_t i = 0; i < count; i += vector_length) {
+        nk_size_t const batch_size = (i + vector_length < count) ? vector_length : (count - i);
+        svbool_t predicate_i8x = svwhilelt_b8_u64(0u, batch_size);
+        svbool_t predicate_f16x = svwhilelt_b16_u64(0u, batch_size);
+        svuint8_t raw_u8x = svld1_u8(predicate_i8x, (nk_u8_t const *)data + i);
+        svfloat16_t values_f16x = nk_e4m3x_to_f16x_ssve_(predicate_f16x, raw_u8x, subnorm_lut_u16x);
+        svbool_t predicate_lo_f32x = svwhilelt_b32_u64(0u, batch_size);
+        svfloat32_t values_lo_f32x = svcvt_f32_f16_x(predicate_lo_f32x, values_f16x);
+        accumulator_lo_f32x = svmla_f32_m(predicate_lo_f32x, accumulator_lo_f32x, values_lo_f32x, values_lo_f32x);
+        svbool_t predicate_hi_f32x = svwhilelt_b32_u64(half_vector_length, batch_size);
+        svfloat32_t values_hi_f32x = svcvtlt_f32_f16_x(predicate_hi_f32x, values_f16x);
+        accumulator_hi_f32x = svmla_f32_m(predicate_hi_f32x, accumulator_hi_f32x, values_hi_f32x, values_hi_f32x);
+    }
+    return svaddv_f32(svptrue_b32(), accumulator_lo_f32x) + svaddv_f32(svptrue_b32(), accumulator_hi_f32x);
+}
+NK_PUBLIC nk_f32_t nk_dots_reduce_sumsq_e5m2_ssve_(nk_e5m2_t const *data, nk_size_t count) NK_STREAMING_ {
+    svfloat32_t accumulator_lo_f32x = svdup_f32(0.0f);
+    svfloat32_t accumulator_hi_f32x = svdup_f32(0.0f);
+    nk_size_t const vector_length = svcnth();
+    nk_size_t const half_vector_length = svcntw();
+    for (nk_size_t i = 0; i < count; i += vector_length) {
+        nk_size_t const batch_size = (i + vector_length < count) ? vector_length : (count - i);
+        svbool_t predicate_i8x = svwhilelt_b8_u64(0u, batch_size);
+        svbool_t predicate_f16x = svwhilelt_b16_u64(0u, batch_size);
+        svuint8_t raw_u8x = svld1_u8(predicate_i8x, (nk_u8_t const *)data + i);
+        svfloat16_t values_f16x = nk_e5m2x_to_f16x_ssve_(predicate_f16x, raw_u8x);
+        svbool_t predicate_lo_f32x = svwhilelt_b32_u64(0u, batch_size);
+        svfloat32_t values_lo_f32x = svcvt_f32_f16_x(predicate_lo_f32x, values_f16x);
+        accumulator_lo_f32x = svmla_f32_m(predicate_lo_f32x, accumulator_lo_f32x, values_lo_f32x, values_lo_f32x);
+        svbool_t predicate_hi_f32x = svwhilelt_b32_u64(half_vector_length, batch_size);
+        svfloat32_t values_hi_f32x = svcvtlt_f32_f16_x(predicate_hi_f32x, values_f16x);
+        accumulator_hi_f32x = svmla_f32_m(predicate_hi_f32x, accumulator_hi_f32x, values_hi_f32x, values_hi_f32x);
+    }
+    return svaddv_f32(svptrue_b32(), accumulator_lo_f32x) + svaddv_f32(svptrue_b32(), accumulator_hi_f32x);
+}
+NK_PUBLIC nk_f32_t nk_dots_reduce_sumsq_e2m3_ssve_(nk_e2m3_t const *data, nk_size_t count) NK_STREAMING_COMPATIBLE_ {
+    svint64_t accumulator_i64x = svdup_s64(0);
+    nk_size_t const vector_length = svcntd();
+    for (nk_size_t i = 0; i < count; i += vector_length) {
+        svbool_t predicate_i64x = svwhilelt_b64_u64(i, count);
+        svuint8_t raw_u8x = svld1_u8(svwhilelt_b8_u64(i, count), (nk_u8_t const *)data + i);
+        svint8_t values_i8x = nk_e2m3x_to_i8x_ssve_(svwhilelt_b8_u64(i, count), raw_u8x);
+        svint16_t values_i16x = svunpklo_s16(values_i8x);
+        svint16_t squares_i16x = svmul_s16_z(svwhilelt_b16_u64(i, count), values_i16x, values_i16x);
+        svint64_t squares_i64x = svunpklo_s64(svunpklo_s32(squares_i16x));
+        accumulator_i64x = svadd_s64_m(predicate_i64x, accumulator_i64x, squares_i64x);
+    }
+    return (nk_f32_t)svaddv_s64(svptrue_b64(), accumulator_i64x) / 256.0f;
+}
+NK_PUBLIC nk_f32_t nk_dots_reduce_sumsq_e3m2_ssve_(nk_e3m2_t const *data, nk_size_t count) NK_STREAMING_ {
+    svfloat32_t accumulator_lo_f32x = svdup_f32(0.0f);
+    svfloat32_t accumulator_hi_f32x = svdup_f32(0.0f);
+    nk_size_t const vector_length = svcnth();
+    nk_size_t const half_vector_length = svcntw();
+    for (nk_size_t i = 0; i < count; i += vector_length) {
+        nk_size_t const batch_size = (i + vector_length < count) ? vector_length : (count - i);
+        svbool_t predicate_i8x = svwhilelt_b8_u64(0u, batch_size);
+        svbool_t predicate_f16x = svwhilelt_b16_u64(0u, batch_size);
+        svuint8_t raw_u8x = svld1_u8(predicate_i8x, (nk_u8_t const *)data + i);
+        svfloat16_t values_f16x = nk_e3m2x_to_f16x_ssve_(predicate_f16x, raw_u8x);
+        svbool_t predicate_lo_f32x = svwhilelt_b32_u64(0u, batch_size);
+        svfloat32_t values_lo_f32x = svcvt_f32_f16_x(predicate_lo_f32x, values_f16x);
+        accumulator_lo_f32x = svmla_f32_m(predicate_lo_f32x, accumulator_lo_f32x, values_lo_f32x, values_lo_f32x);
+        svbool_t predicate_hi_f32x = svwhilelt_b32_u64(half_vector_length, batch_size);
+        svfloat32_t values_hi_f32x = svcvtlt_f32_f16_x(predicate_hi_f32x, values_f16x);
+        accumulator_hi_f32x = svmla_f32_m(predicate_hi_f32x, accumulator_hi_f32x, values_hi_f32x, values_hi_f32x);
+    }
+    return svaddv_f32(svptrue_b32(), accumulator_lo_f32x) + svaddv_f32(svptrue_b32(), accumulator_hi_f32x);
+}
+NK_PUBLIC nk_u32_t nk_dots_reduce_sumsq_i8_ssve_(nk_i8_t const *data, nk_size_t count) NK_STREAMING_COMPATIBLE_ {
+    svint64_t accumulator_i64x = svdup_s64(0);
+    nk_size_t const vector_length = svcntd();
+    for (nk_size_t i = 0; i < count; i += vector_length) {
+        svbool_t predicate_i64x = svwhilelt_b64_u64(i, count);
+        svint8_t loaded_i8x = svld1_s8(svwhilelt_b8_u64(i, count), data + i);
+        svint16_t values_i16x = svunpklo_s16(loaded_i8x);
+        svint16_t squares_i16x = svmul_s16_z(svwhilelt_b16_u64(i, count), values_i16x, values_i16x);
+        svint64_t squares_i64x = svunpklo_s64(svunpklo_s32(squares_i16x));
+        accumulator_i64x = svadd_s64_m(predicate_i64x, accumulator_i64x, squares_i64x);
+    }
+    return (nk_u32_t)svaddv_s64(svptrue_b64(), accumulator_i64x);
+}
+NK_PUBLIC nk_u32_t nk_dots_reduce_sumsq_u8_ssve_(nk_u8_t const *data, nk_size_t count) NK_STREAMING_COMPATIBLE_ {
+    svuint64_t accumulator_u64x = svdup_u64(0);
+    nk_size_t const vector_length = svcntd();
+    for (nk_size_t i = 0; i < count; i += vector_length) {
+        svbool_t predicate_u64x = svwhilelt_b64_u64(i, count);
+        svuint8_t raw_u8x = svld1_u8(svwhilelt_b8_u64(i, count), data + i);
+        svuint16_t values_u16x = svunpklo_u16(raw_u8x);
+        svuint16_t squares_u16x = svmul_u16_z(svwhilelt_b16_u64(i, count), values_u16x, values_u16x);
+        svuint64_t squares_u64x = svunpklo_u64(svunpklo_u32(squares_u16x));
+        accumulator_u64x = svadd_u64_m(predicate_u64x, accumulator_u64x, squares_u64x);
+    }
+    return (nk_u32_t)svaddv_u64(svptrue_b64(), accumulator_u64x);
+}
+NK_PUBLIC nk_u32_t nk_dots_reduce_sumsq_i4_ssve_(nk_i4x2_t const *data, nk_size_t count) NK_STREAMING_COMPATIBLE_ {
+    svint64_t accumulator_i64x = svdup_s64(0);
+    nk_u8_t const *bytes = (nk_u8_t const *)data;
+    nk_size_t const byte_count = (count + 1) / 2;
+    nk_size_t const vector_length = svcntd();
+    for (nk_size_t i = 0; i < byte_count; i += vector_length) {
+        svbool_t predicate_u8x = svwhilelt_b8_u64(i, byte_count);
+        svuint8_t packed_u8x = svld1_u8(predicate_u8x, bytes + i);
+        svuint8_t low_u8x = svand_n_u8_x(predicate_u8x, packed_u8x, 0x0F);
+        svuint8_t high_u8x = svlsr_n_u8_x(predicate_u8x, packed_u8x, 4);
+        // Sign-extend 4-bit to 8-bit: shift left 4, arithmetic shift right 4
+        svint8_t low_i8x = svasr_n_s8_x(predicate_u8x, svreinterpret_s8_u8(svlsl_n_u8_x(predicate_u8x, low_u8x, 4)), 4);
+        svint8_t high_i8x = svasr_n_s8_x(predicate_u8x, svreinterpret_s8_u8(svlsl_n_u8_x(predicate_u8x, high_u8x, 4)),
+                                         4);
+        // Widen to i16, square, sum per byte
+        svbool_t predicate_i16x = svwhilelt_b16_u64(i, byte_count);
+        svint16_t low_i16x = svunpklo_s16(low_i8x);
+        svint16_t high_i16x = svunpklo_s16(high_i8x);
+        svint16_t squares_low_i16x = svmul_s16_z(predicate_i16x, low_i16x, low_i16x);
+        svint16_t squares_high_i16x = svmul_s16_z(predicate_i16x, high_i16x, high_i16x);
+        svint16_t sum_i16x = svadd_s16_z(predicate_i16x, squares_low_i16x, squares_high_i16x);
+        svbool_t predicate_i64x = svwhilelt_b64_u64(i, byte_count);
+        svint64_t sum_i64x = svunpklo_s64(svunpklo_s32(sum_i16x));
+        accumulator_i64x = svadd_s64_m(predicate_i64x, accumulator_i64x, sum_i64x);
+    }
+    return (nk_u32_t)svaddv_s64(svptrue_b64(), accumulator_i64x);
+}
+NK_PUBLIC nk_u32_t nk_dots_reduce_sumsq_u4_ssve_(nk_u4x2_t const *data, nk_size_t count) NK_STREAMING_COMPATIBLE_ {
+    svuint64_t accumulator_u64x = svdup_u64(0);
+    nk_u8_t const *bytes = (nk_u8_t const *)data;
+    nk_size_t const byte_count = (count + 1) / 2;
+    nk_size_t const vector_length = svcntd();
+    for (nk_size_t i = 0; i < byte_count; i += vector_length) {
+        svbool_t predicate_u8x = svwhilelt_b8_u64(i, byte_count);
+        svuint8_t packed_u8x = svld1_u8(predicate_u8x, bytes + i);
+        svuint8_t low_u8x = svand_n_u8_x(predicate_u8x, packed_u8x, 0x0F);
+        svuint8_t high_u8x = svlsr_n_u8_x(predicate_u8x, packed_u8x, 4);
+        // Widen to u16, square, sum per byte
+        svbool_t predicate_u16x = svwhilelt_b16_u64(i, byte_count);
+        svuint16_t low_u16x = svunpklo_u16(low_u8x);
+        svuint16_t high_u16x = svunpklo_u16(high_u8x);
+        svuint16_t squares_low_u16x = svmul_u16_z(predicate_u16x, low_u16x, low_u16x);
+        svuint16_t squares_high_u16x = svmul_u16_z(predicate_u16x, high_u16x, high_u16x);
+        svuint16_t sum_u16x = svadd_u16_z(predicate_u16x, squares_low_u16x, squares_high_u16x);
+        svbool_t predicate_u64x = svwhilelt_b64_u64(i, byte_count);
+        svuint64_t sum_u64x = svunpklo_u64(svunpklo_u32(sum_u16x));
+        accumulator_u64x = svadd_u64_m(predicate_u64x, accumulator_u64x, sum_u64x);
+    }
+    return (nk_u32_t)svaddv_u64(svptrue_b64(), accumulator_u64x);
+}
+NK_PUBLIC svfloat32_t nk_angulars_from_dot_f32x_ssve_(svbool_t predicate_f32x, svfloat32_t dots_f32x,
+                                                      svfloat32_t query_norm_sq_f32x,
+                                                      svfloat32_t target_norms_sq_f32x) NK_STREAMING_COMPATIBLE_ {
+    svfloat32_t norms_product_f32x = svmul_f32_x(predicate_f32x, query_norm_sq_f32x, target_norms_sq_f32x);
+    svfloat32_t rsqrt_f32x = svrsqrte_f32(norms_product_f32x);
+    rsqrt_f32x = svmul_f32_x(predicate_f32x, rsqrt_f32x,
+                             svrsqrts_f32(svmul_f32_x(predicate_f32x, norms_product_f32x, rsqrt_f32x), rsqrt_f32x));
+    rsqrt_f32x = svmul_f32_x(predicate_f32x, rsqrt_f32x,
+                             svrsqrts_f32(svmul_f32_x(predicate_f32x, norms_product_f32x, rsqrt_f32x), rsqrt_f32x));
+    svfloat32_t angular_f32x = svsub_f32_x(predicate_f32x, svdup_n_f32(1.0f),
+                                           svmul_f32_x(predicate_f32x, dots_f32x, rsqrt_f32x));
+    return svmax_f32_x(predicate_f32x, angular_f32x, svdup_n_f32(0.0f));
+}
+NK_PUBLIC svfloat32_t nk_euclideans_from_dot_f32x_ssve_(svbool_t predicate_f32x, svfloat32_t dots_f32x,
+                                                        svfloat32_t query_norm_sq_f32x,
+                                                        svfloat32_t target_norms_sq_f32x) NK_STREAMING_COMPATIBLE_ {
+    svfloat32_t sum_sq_f32x = svadd_f32_x(predicate_f32x, query_norm_sq_f32x, target_norms_sq_f32x);
+    svfloat32_t dist_sq_f32x = svsub_f32_x(predicate_f32x, sum_sq_f32x,
+                                           svmul_f32_x(predicate_f32x, svdup_n_f32(2.0f), dots_f32x));
+    dist_sq_f32x = svmax_f32_x(predicate_f32x, dist_sq_f32x, svdup_n_f32(0.0f));
+    return svsqrt_f32_x(predicate_f32x, dist_sq_f32x);
+}
+#pragma region Half Precision Floats
+__arm_locally_streaming static void nk_angulars_packed_f16_sme_finalize_streaming_( //
+    nk_f16_t const *a, void const *b_packed, nk_f32_t *c,                           //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,                             //
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+    nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
+    nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
+    for (nk_size_t row_index = 0; row_index < rows; row_index++) {
+        nk_f16_t const *a_row = a + row_index * a_stride_elements;
+        nk_f32_t *result_row = c + row_index * c_stride_elements;
+        nk_f32_t query_norm_sq_f32 = nk_dots_reduce_sumsq_f16_ssve_(a_row, depth);
+        svfloat32_t query_norm_sq_f32x = svdup_n_f32(query_norm_sq_f32);
+        for (nk_size_t col_index = 0; col_index < columns; col_index += svcntw()) {
+            svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, columns);
+            svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+            svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, b_norms + col_index);
+            svst1_f32(
+                predicate_f32x, result_row + col_index,
+                nk_angulars_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x, target_norms_sq_f32x));
+        }
+    }
+}
+NK_PUBLIC void nk_angulars_packed_f16_sme(                //
+    nk_f16_t const *a, void const *b_packed, nk_f32_t *c, //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,   //
+    nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_f16_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_dots_packed_f16_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
+    nk_angulars_packed_f16_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                   c_stride_elements);
+}
+__arm_locally_streaming static void nk_euclideans_packed_f16_sme_finalize_streaming_( //
+    nk_f16_t const *a, void const *b_packed, nk_f32_t *c,                             //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,                               //
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+    nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
+    nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
+    for (nk_size_t row_index = 0; row_index < rows; row_index++) {
+        nk_f16_t const *a_row = a + row_index * a_stride_elements;
+        nk_f32_t *result_row = c + row_index * c_stride_elements;
+        nk_f32_t query_norm_sq_f32 = nk_dots_reduce_sumsq_f16_ssve_(a_row, depth);
+        svfloat32_t query_norm_sq_f32x = svdup_n_f32(query_norm_sq_f32);
+        for (nk_size_t col_index = 0; col_index < columns; col_index += svcntw()) {
+            svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, columns);
+            svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+            svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, b_norms + col_index);
+            svst1_f32(
+                predicate_f32x, result_row + col_index,
+                nk_euclideans_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x, target_norms_sq_f32x));
+        }
+    }
+}
+NK_PUBLIC void nk_euclideans_packed_f16_sme(              //
+    nk_f16_t const *a, void const *b_packed, nk_f32_t *c, //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,   //
+    nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_f16_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_dots_packed_f16_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
+    nk_euclideans_packed_f16_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                     c_stride_elements);
+}
+__arm_locally_streaming static void nk_angulars_symmetric_f16_sme_finalize_streaming_(        //
+    nk_f16_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, //
+    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+    // Phase 1: cache row norms on diagonal
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+        nk_f32_t *result_row = result + row_index * result_stride_elements;
+        result_row[row_index] = nk_dots_reduce_sumsq_f16_ssve_(vectors + row_index * stride_elements, depth);
+    }
+    // Phase 2: column-first post-processing
+    nk_f32_t norms_cache[256];
+    for (nk_size_t chunk_start = 0; chunk_start < n_vectors; chunk_start += 256) {
+        nk_size_t chunk_end = chunk_start + 256 < n_vectors ? chunk_start + 256 : n_vectors;
+        for (nk_size_t col = chunk_start; col < chunk_end; ++col)
+            norms_cache[col - chunk_start] = nk_dots_reduce_sumsq_f16_ssve_(vectors + col * stride_elements, depth);
+        for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+            nk_size_t col_start = row_index + 1 > chunk_start ? row_index + 1 : chunk_start;
+            if (col_start >= chunk_end) continue;
+            nk_f32_t *result_row = result + row_index * result_stride_elements;
+            svfloat32_t query_norm_sq_f32x = svdup_n_f32(result_row[row_index]);
+            for (nk_size_t col_index = col_start; col_index < chunk_end; col_index += svcntw()) {
+                svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, chunk_end);
+                svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+                svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, norms_cache + (col_index - chunk_start));
+                svst1_f32(predicate_f32x, result_row + col_index,
+                          nk_angulars_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x,
+                                                          target_norms_sq_f32x));
+            }
+        }
+    }
+    // Phase 3: zero diagonals
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index)
+        result[row_index * result_stride_elements + row_index] = 0;
+}
+NK_PUBLIC void nk_angulars_symmetric_f16_sme(                                        //
+    nk_f16_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride, //
+    nk_f32_t *result, nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_size_t const stride_elements = stride / sizeof(nk_f16_t);
+    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f32_t);
+    nk_dots_symmetric_f16_sme_streaming_(vectors, n_vectors, depth, stride_elements, result, result_stride_elements,
+                                         row_start, row_count);
+    nk_angulars_symmetric_f16_sme_finalize_streaming_(vectors, n_vectors, depth, stride_elements, result,
+                                                      result_stride_elements, row_start, row_count);
+}
+__arm_locally_streaming static void nk_euclideans_symmetric_f16_sme_finalize_streaming_(      //
+    nk_f16_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, //
+    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+    // Phase 1: cache row norms on diagonal
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+        nk_f32_t *result_row = result + row_index * result_stride_elements;
+        result_row[row_index] = nk_dots_reduce_sumsq_f16_ssve_(vectors + row_index * stride_elements, depth);
+    }
+    // Phase 2: column-first post-processing
+    nk_f32_t norms_cache[256];
+    for (nk_size_t chunk_start = 0; chunk_start < n_vectors; chunk_start += 256) {
+        nk_size_t chunk_end = chunk_start + 256 < n_vectors ? chunk_start + 256 : n_vectors;
+        for (nk_size_t col = chunk_start; col < chunk_end; ++col)
+            norms_cache[col - chunk_start] = nk_dots_reduce_sumsq_f16_ssve_(vectors + col * stride_elements, depth);
+        for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+            nk_size_t col_start = row_index + 1 > chunk_start ? row_index + 1 : chunk_start;
+            if (col_start >= chunk_end) continue;
+            nk_f32_t *result_row = result + row_index * result_stride_elements;
+            svfloat32_t query_norm_sq_f32x = svdup_n_f32(result_row[row_index]);
+            for (nk_size_t col_index = col_start; col_index < chunk_end; col_index += svcntw()) {
+                svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, chunk_end);
+                svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+                svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, norms_cache + (col_index - chunk_start));
+                svst1_f32(predicate_f32x, result_row + col_index,
+                          nk_euclideans_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x,
+                                                            target_norms_sq_f32x));
+            }
+        }
+    }
+    // Phase 3: zero diagonals
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index)
+        result[row_index * result_stride_elements + row_index] = 0;
+}
+NK_PUBLIC void nk_euclideans_symmetric_f16_sme(                                      //
+    nk_f16_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride, //
+    nk_f32_t *result, nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_size_t const stride_elements = stride / sizeof(nk_f16_t);
+    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f32_t);
+    nk_dots_symmetric_f16_sme_streaming_(vectors, n_vectors, depth, stride_elements, result, result_stride_elements,
+                                         row_start, row_count);
+    nk_euclideans_symmetric_f16_sme_finalize_streaming_(vectors, n_vectors, depth, stride_elements, result,
+                                                        result_stride_elements, row_start, row_count);
+}
+#pragma endregion // Half Precision Floats
+#pragma region Brain Float 16
+__arm_locally_streaming static void nk_angulars_packed_bf16_sme_finalize_streaming_( //
+    nk_bf16_t const *a, void const *b_packed, nk_f32_t *c,                           //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,                              //
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+    nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
+    nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
+    for (nk_size_t row_index = 0; row_index < rows; row_index++) {
+        nk_bf16_t const *a_row = a + row_index * a_stride_elements;
+        nk_f32_t *result_row = c + row_index * c_stride_elements;
+        nk_f32_t query_norm_sq_f32 = nk_dots_reduce_sumsq_bf16_ssve_(a_row, depth);
+        svfloat32_t query_norm_sq_f32x = svdup_n_f32(query_norm_sq_f32);
+        for (nk_size_t col_index = 0; col_index < columns; col_index += svcntw()) {
+            svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, columns);
+            svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+            svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, b_norms + col_index);
+            svst1_f32(
+                predicate_f32x, result_row + col_index,
+                nk_angulars_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x, target_norms_sq_f32x));
+        }
+    }
+}
+NK_PUBLIC void nk_angulars_packed_bf16_sme(                //
+    nk_bf16_t const *a, void const *b_packed, nk_f32_t *c, //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+    nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_bf16_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_dots_packed_bf16_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
+    nk_angulars_packed_bf16_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                    c_stride_elements);
+}
+__arm_locally_streaming static void nk_euclideans_packed_bf16_sme_finalize_streaming_( //
+    nk_bf16_t const *a, void const *b_packed, nk_f32_t *c,                             //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,                                //
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+    nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
+    nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
+    for (nk_size_t row_index = 0; row_index < rows; row_index++) {
+        nk_bf16_t const *a_row = a + row_index * a_stride_elements;
+        nk_f32_t *result_row = c + row_index * c_stride_elements;
+        nk_f32_t query_norm_sq_f32 = nk_dots_reduce_sumsq_bf16_ssve_(a_row, depth);
+        svfloat32_t query_norm_sq_f32x = svdup_n_f32(query_norm_sq_f32);
+        for (nk_size_t col_index = 0; col_index < columns; col_index += svcntw()) {
+            svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, columns);
+            svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+            svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, b_norms + col_index);
+            svst1_f32(
+                predicate_f32x, result_row + col_index,
+                nk_euclideans_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x, target_norms_sq_f32x));
+        }
+    }
+}
+NK_PUBLIC void nk_euclideans_packed_bf16_sme(              //
+    nk_bf16_t const *a, void const *b_packed, nk_f32_t *c, //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+    nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_bf16_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_dots_packed_bf16_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
+    nk_euclideans_packed_bf16_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                      c_stride_elements);
+}
+__arm_locally_streaming static void nk_angulars_symmetric_bf16_sme_finalize_streaming_(        //
+    nk_bf16_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, //
+    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+    // Phase 1: cache row norms on diagonal
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+        nk_f32_t *result_row = result + row_index * result_stride_elements;
+        result_row[row_index] = nk_dots_reduce_sumsq_bf16_ssve_(vectors + row_index * stride_elements, depth);
+    }
+    // Phase 2: column-first post-processing
+    nk_f32_t norms_cache[256];
+    for (nk_size_t chunk_start = 0; chunk_start < n_vectors; chunk_start += 256) {
+        nk_size_t chunk_end = chunk_start + 256 < n_vectors ? chunk_start + 256 : n_vectors;
+        for (nk_size_t col = chunk_start; col < chunk_end; ++col)
+            norms_cache[col - chunk_start] = nk_dots_reduce_sumsq_bf16_ssve_(vectors + col * stride_elements, depth);
+        for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+            nk_size_t col_start = row_index + 1 > chunk_start ? row_index + 1 : chunk_start;
+            if (col_start >= chunk_end) continue;
+            nk_f32_t *result_row = result + row_index * result_stride_elements;
+            svfloat32_t query_norm_sq_f32x = svdup_n_f32(result_row[row_index]);
+            for (nk_size_t col_index = col_start; col_index < chunk_end; col_index += svcntw()) {
+                svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, chunk_end);
+                svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+                svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, norms_cache + (col_index - chunk_start));
+                svst1_f32(predicate_f32x, result_row + col_index,
+                          nk_angulars_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x,
+                                                          target_norms_sq_f32x));
+            }
+        }
+    }
+    // Phase 3: zero diagonals
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index)
+        result[row_index * result_stride_elements + row_index] = 0;
+}
+NK_PUBLIC void nk_angulars_symmetric_bf16_sme(                                        //
+    nk_bf16_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride, //
+    nk_f32_t *result, nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_size_t const stride_elements = stride / sizeof(nk_bf16_t);
+    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f32_t);
+    nk_dots_symmetric_bf16_sme_streaming_(vectors, n_vectors, depth, stride_elements, result, result_stride_elements,
+                                          row_start, row_count);
+    nk_angulars_symmetric_bf16_sme_finalize_streaming_(vectors, n_vectors, depth, stride_elements, result,
+                                                       result_stride_elements, row_start, row_count);
+}
+__arm_locally_streaming static void nk_euclideans_symmetric_bf16_sme_finalize_streaming_(      //
+    nk_bf16_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, //
+    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+    // Phase 1: cache row norms on diagonal
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+        nk_f32_t *result_row = result + row_index * result_stride_elements;
+        result_row[row_index] = nk_dots_reduce_sumsq_bf16_ssve_(vectors + row_index * stride_elements, depth);
+    }
+    // Phase 2: column-first post-processing
+    nk_f32_t norms_cache[256];
+    for (nk_size_t chunk_start = 0; chunk_start < n_vectors; chunk_start += 256) {
+        nk_size_t chunk_end = chunk_start + 256 < n_vectors ? chunk_start + 256 : n_vectors;
+        for (nk_size_t col = chunk_start; col < chunk_end; ++col)
+            norms_cache[col - chunk_start] = nk_dots_reduce_sumsq_bf16_ssve_(vectors + col * stride_elements, depth);
+        for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+            nk_size_t col_start = row_index + 1 > chunk_start ? row_index + 1 : chunk_start;
+            if (col_start >= chunk_end) continue;
+            nk_f32_t *result_row = result + row_index * result_stride_elements;
+            svfloat32_t query_norm_sq_f32x = svdup_n_f32(result_row[row_index]);
+            for (nk_size_t col_index = col_start; col_index < chunk_end; col_index += svcntw()) {
+                svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, chunk_end);
+                svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+                svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, norms_cache + (col_index - chunk_start));
+                svst1_f32(predicate_f32x, result_row + col_index,
+                          nk_euclideans_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x,
+                                                            target_norms_sq_f32x));
+            }
+        }
+    }
+    // Phase 3: zero diagonals
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index)
+        result[row_index * result_stride_elements + row_index] = 0;
+}
+NK_PUBLIC void nk_euclideans_symmetric_bf16_sme(                                      //
+    nk_bf16_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride, //
+    nk_f32_t *result, nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_size_t const stride_elements = stride / sizeof(nk_bf16_t);
+    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f32_t);
+    nk_dots_symmetric_bf16_sme_streaming_(vectors, n_vectors, depth, stride_elements, result, result_stride_elements,
+                                          row_start, row_count);
+    nk_euclideans_symmetric_bf16_sme_finalize_streaming_(vectors, n_vectors, depth, stride_elements, result,
+                                                         result_stride_elements, row_start, row_count);
+}
+#pragma endregion // Brain Float 16
+#pragma region Quarter Precision E4M3
+__arm_locally_streaming static void nk_angulars_packed_e4m3_sme_finalize_streaming_( //
+    nk_e4m3_t const *a, void const *b_packed, nk_f32_t *c,                           //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,                              //
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+    nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
+    nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
+    for (nk_size_t row_index = 0; row_index < rows; row_index++) {
+        nk_e4m3_t const *a_row = a + row_index * a_stride_elements;
+        nk_f32_t *result_row = c + row_index * c_stride_elements;
+        nk_f32_t query_norm_sq_f32 = nk_dots_reduce_sumsq_e4m3_ssve_(a_row, depth);
+        svfloat32_t query_norm_sq_f32x = svdup_n_f32(query_norm_sq_f32);
+        for (nk_size_t col_index = 0; col_index < columns; col_index += svcntw()) {
+            svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, columns);
+            svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+            svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, b_norms + col_index);
+            svst1_f32(
+                predicate_f32x, result_row + col_index,
+                nk_angulars_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x, target_norms_sq_f32x));
+        }
+    }
+}
+NK_PUBLIC void nk_angulars_packed_e4m3_sme(                //
+    nk_e4m3_t const *a, void const *b_packed, nk_f32_t *c, //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+    nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_e4m3_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_dots_packed_e4m3_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
+    nk_angulars_packed_e4m3_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                    c_stride_elements);
+}
+__arm_locally_streaming static void nk_euclideans_packed_e4m3_sme_finalize_streaming_( //
+    nk_e4m3_t const *a, void const *b_packed, nk_f32_t *c,                             //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,                                //
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+    nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
+    nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
+    for (nk_size_t row_index = 0; row_index < rows; row_index++) {
+        nk_e4m3_t const *a_row = a + row_index * a_stride_elements;
+        nk_f32_t *result_row = c + row_index * c_stride_elements;
+        nk_f32_t query_norm_sq_f32 = nk_dots_reduce_sumsq_e4m3_ssve_(a_row, depth);
+        svfloat32_t query_norm_sq_f32x = svdup_n_f32(query_norm_sq_f32);
+        for (nk_size_t col_index = 0; col_index < columns; col_index += svcntw()) {
+            svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, columns);
+            svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+            svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, b_norms + col_index);
+            svst1_f32(
+                predicate_f32x, result_row + col_index,
+                nk_euclideans_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x, target_norms_sq_f32x));
+        }
+    }
+}
+NK_PUBLIC void nk_euclideans_packed_e4m3_sme(              //
+    nk_e4m3_t const *a, void const *b_packed, nk_f32_t *c, //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+    nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_e4m3_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_dots_packed_e4m3_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
+    nk_euclideans_packed_e4m3_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                      c_stride_elements);
+}
+__arm_locally_streaming static void nk_angulars_symmetric_e4m3_sme_finalize_streaming_(        //
+    nk_e4m3_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, //
+    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+    // Phase 1: cache row norms on diagonal
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+        nk_f32_t *result_row = result + row_index * result_stride_elements;
+        result_row[row_index] = nk_dots_reduce_sumsq_e4m3_ssve_(vectors + row_index * stride_elements, depth);
+    }
+    // Phase 2: column-first post-processing
+    nk_f32_t norms_cache[256];
+    for (nk_size_t chunk_start = 0; chunk_start < n_vectors; chunk_start += 256) {
+        nk_size_t chunk_end = chunk_start + 256 < n_vectors ? chunk_start + 256 : n_vectors;
+        for (nk_size_t col = chunk_start; col < chunk_end; ++col)
+            norms_cache[col - chunk_start] = nk_dots_reduce_sumsq_e4m3_ssve_(vectors + col * stride_elements, depth);
+        for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+            nk_size_t col_start = row_index + 1 > chunk_start ? row_index + 1 : chunk_start;
+            if (col_start >= chunk_end) continue;
+            nk_f32_t *result_row = result + row_index * result_stride_elements;
+            svfloat32_t query_norm_sq_f32x = svdup_n_f32(result_row[row_index]);
+            for (nk_size_t col_index = col_start; col_index < chunk_end; col_index += svcntw()) {
+                svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, chunk_end);
+                svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+                svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, norms_cache + (col_index - chunk_start));
+                svst1_f32(predicate_f32x, result_row + col_index,
+                          nk_angulars_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x,
+                                                          target_norms_sq_f32x));
+            }
+        }
+    }
+    // Phase 3: zero diagonals
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index)
+        result[row_index * result_stride_elements + row_index] = 0;
+}
+NK_PUBLIC void nk_angulars_symmetric_e4m3_sme(                                        //
+    nk_e4m3_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride, //
+    nk_f32_t *result, nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_size_t const stride_elements = stride / sizeof(nk_e4m3_t);
+    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f32_t);
+    nk_dots_symmetric_e4m3_sme_streaming_(vectors, n_vectors, depth, stride_elements, result, result_stride_elements,
+                                          row_start, row_count);
+    nk_angulars_symmetric_e4m3_sme_finalize_streaming_(vectors, n_vectors, depth, stride_elements, result,
+                                                       result_stride_elements, row_start, row_count);
+}
+__arm_locally_streaming static void nk_euclideans_symmetric_e4m3_sme_finalize_streaming_(      //
+    nk_e4m3_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, //
+    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+    // Phase 1: cache row norms on diagonal
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+        nk_f32_t *result_row = result + row_index * result_stride_elements;
+        result_row[row_index] = nk_dots_reduce_sumsq_e4m3_ssve_(vectors + row_index * stride_elements, depth);
+    }
+    // Phase 2: column-first post-processing
+    nk_f32_t norms_cache[256];
+    for (nk_size_t chunk_start = 0; chunk_start < n_vectors; chunk_start += 256) {
+        nk_size_t chunk_end = chunk_start + 256 < n_vectors ? chunk_start + 256 : n_vectors;
+        for (nk_size_t col = chunk_start; col < chunk_end; ++col)
+            norms_cache[col - chunk_start] = nk_dots_reduce_sumsq_e4m3_ssve_(vectors + col * stride_elements, depth);
+        for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+            nk_size_t col_start = row_index + 1 > chunk_start ? row_index + 1 : chunk_start;
+            if (col_start >= chunk_end) continue;
+            nk_f32_t *result_row = result + row_index * result_stride_elements;
+            svfloat32_t query_norm_sq_f32x = svdup_n_f32(result_row[row_index]);
+            for (nk_size_t col_index = col_start; col_index < chunk_end; col_index += svcntw()) {
+                svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, chunk_end);
+                svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+                svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, norms_cache + (col_index - chunk_start));
+                svst1_f32(predicate_f32x, result_row + col_index,
+                          nk_euclideans_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x,
+                                                            target_norms_sq_f32x));
+            }
+        }
+    }
+    // Phase 3: zero diagonals
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index)
+        result[row_index * result_stride_elements + row_index] = 0;
+}
+NK_PUBLIC void nk_euclideans_symmetric_e4m3_sme(                                      //
+    nk_e4m3_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride, //
+    nk_f32_t *result, nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_size_t const stride_elements = stride / sizeof(nk_e4m3_t);
+    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f32_t);
+    nk_dots_symmetric_e4m3_sme_streaming_(vectors, n_vectors, depth, stride_elements, result, result_stride_elements,
+                                          row_start, row_count);
+    nk_euclideans_symmetric_e4m3_sme_finalize_streaming_(vectors, n_vectors, depth, stride_elements, result,
+                                                         result_stride_elements, row_start, row_count);
+}
+#pragma endregion // Quarter Precision E4M3
+#pragma region Quarter Precision E5M2
+__arm_locally_streaming static void nk_angulars_packed_e5m2_sme_finalize_streaming_( //
+    nk_e5m2_t const *a, void const *b_packed, nk_f32_t *c,                           //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,                              //
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+    nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
+    nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
+    for (nk_size_t row_index = 0; row_index < rows; row_index++) {
+        nk_e5m2_t const *a_row = a + row_index * a_stride_elements;
+        nk_f32_t *result_row = c + row_index * c_stride_elements;
+        nk_f32_t query_norm_sq_f32 = nk_dots_reduce_sumsq_e5m2_ssve_(a_row, depth);
+        svfloat32_t query_norm_sq_f32x = svdup_n_f32(query_norm_sq_f32);
+        for (nk_size_t col_index = 0; col_index < columns; col_index += svcntw()) {
+            svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, columns);
+            svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+            svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, b_norms + col_index);
+            svst1_f32(
+                predicate_f32x, result_row + col_index,
+                nk_angulars_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x, target_norms_sq_f32x));
+        }
+    }
+}
+NK_PUBLIC void nk_angulars_packed_e5m2_sme(                //
+    nk_e5m2_t const *a, void const *b_packed, nk_f32_t *c, //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+    nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_e5m2_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_dots_packed_e5m2_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
+    nk_angulars_packed_e5m2_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                    c_stride_elements);
+}
+__arm_locally_streaming static void nk_euclideans_packed_e5m2_sme_finalize_streaming_( //
+    nk_e5m2_t const *a, void const *b_packed, nk_f32_t *c,                             //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,                                //
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+    nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
+    nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
+    for (nk_size_t row_index = 0; row_index < rows; row_index++) {
+        nk_e5m2_t const *a_row = a + row_index * a_stride_elements;
+        nk_f32_t *result_row = c + row_index * c_stride_elements;
+        nk_f32_t query_norm_sq_f32 = nk_dots_reduce_sumsq_e5m2_ssve_(a_row, depth);
+        svfloat32_t query_norm_sq_f32x = svdup_n_f32(query_norm_sq_f32);
+        for (nk_size_t col_index = 0; col_index < columns; col_index += svcntw()) {
+            svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, columns);
+            svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+            svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, b_norms + col_index);
+            svst1_f32(
+                predicate_f32x, result_row + col_index,
+                nk_euclideans_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x, target_norms_sq_f32x));
+        }
+    }
+}
+NK_PUBLIC void nk_euclideans_packed_e5m2_sme(              //
+    nk_e5m2_t const *a, void const *b_packed, nk_f32_t *c, //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+    nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_e5m2_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_dots_packed_e5m2_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
+    nk_euclideans_packed_e5m2_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                      c_stride_elements);
+}
+__arm_locally_streaming static void nk_angulars_symmetric_e5m2_sme_finalize_streaming_(        //
+    nk_e5m2_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, //
+    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+    // Phase 1: cache row norms on diagonal
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+        nk_f32_t *result_row = result + row_index * result_stride_elements;
+        result_row[row_index] = nk_dots_reduce_sumsq_e5m2_ssve_(vectors + row_index * stride_elements, depth);
+    }
+    // Phase 2: column-first post-processing
+    nk_f32_t norms_cache[256];
+    for (nk_size_t chunk_start = 0; chunk_start < n_vectors; chunk_start += 256) {
+        nk_size_t chunk_end = chunk_start + 256 < n_vectors ? chunk_start + 256 : n_vectors;
+        for (nk_size_t col = chunk_start; col < chunk_end; ++col)
+            norms_cache[col - chunk_start] = nk_dots_reduce_sumsq_e5m2_ssve_(vectors + col * stride_elements, depth);
+        for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+            nk_size_t col_start = row_index + 1 > chunk_start ? row_index + 1 : chunk_start;
+            if (col_start >= chunk_end) continue;
+            nk_f32_t *result_row = result + row_index * result_stride_elements;
+            svfloat32_t query_norm_sq_f32x = svdup_n_f32(result_row[row_index]);
+            for (nk_size_t col_index = col_start; col_index < chunk_end; col_index += svcntw()) {
+                svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, chunk_end);
+                svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+                svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, norms_cache + (col_index - chunk_start));
+                svst1_f32(predicate_f32x, result_row + col_index,
+                          nk_angulars_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x,
+                                                          target_norms_sq_f32x));
+            }
+        }
+    }
+    // Phase 3: zero diagonals
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index)
+        result[row_index * result_stride_elements + row_index] = 0;
+}
+NK_PUBLIC void nk_angulars_symmetric_e5m2_sme(                                        //
+    nk_e5m2_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride, //
+    nk_f32_t *result, nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_size_t const stride_elements = stride / sizeof(nk_e5m2_t);
+    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f32_t);
+    nk_dots_symmetric_e5m2_sme_streaming_(vectors, n_vectors, depth, stride_elements, result, result_stride_elements,
+                                          row_start, row_count);
+    nk_angulars_symmetric_e5m2_sme_finalize_streaming_(vectors, n_vectors, depth, stride_elements, result,
+                                                       result_stride_elements, row_start, row_count);
+}
+__arm_locally_streaming static void nk_euclideans_symmetric_e5m2_sme_finalize_streaming_(      //
+    nk_e5m2_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, //
+    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+    // Phase 1: cache row norms on diagonal
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+        nk_f32_t *result_row = result + row_index * result_stride_elements;
+        result_row[row_index] = nk_dots_reduce_sumsq_e5m2_ssve_(vectors + row_index * stride_elements, depth);
+    }
+    // Phase 2: column-first post-processing
+    nk_f32_t norms_cache[256];
+    for (nk_size_t chunk_start = 0; chunk_start < n_vectors; chunk_start += 256) {
+        nk_size_t chunk_end = chunk_start + 256 < n_vectors ? chunk_start + 256 : n_vectors;
+        for (nk_size_t col = chunk_start; col < chunk_end; ++col)
+            norms_cache[col - chunk_start] = nk_dots_reduce_sumsq_e5m2_ssve_(vectors + col * stride_elements, depth);
+        for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+            nk_size_t col_start = row_index + 1 > chunk_start ? row_index + 1 : chunk_start;
+            if (col_start >= chunk_end) continue;
+            nk_f32_t *result_row = result + row_index * result_stride_elements;
+            svfloat32_t query_norm_sq_f32x = svdup_n_f32(result_row[row_index]);
+            for (nk_size_t col_index = col_start; col_index < chunk_end; col_index += svcntw()) {
+                svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, chunk_end);
+                svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+                svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, norms_cache + (col_index - chunk_start));
+                svst1_f32(predicate_f32x, result_row + col_index,
+                          nk_euclideans_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x,
+                                                            target_norms_sq_f32x));
+            }
+        }
+    }
+    // Phase 3: zero diagonals
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index)
+        result[row_index * result_stride_elements + row_index] = 0;
+}
+NK_PUBLIC void nk_euclideans_symmetric_e5m2_sme(                                      //
+    nk_e5m2_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride, //
+    nk_f32_t *result, nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_size_t const stride_elements = stride / sizeof(nk_e5m2_t);
+    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f32_t);
+    nk_dots_symmetric_e5m2_sme_streaming_(vectors, n_vectors, depth, stride_elements, result, result_stride_elements,
+                                          row_start, row_count);
+    nk_euclideans_symmetric_e5m2_sme_finalize_streaming_(vectors, n_vectors, depth, stride_elements, result,
+                                                         result_stride_elements, row_start, row_count);
+}
+#pragma endregion // Quarter Precision E5M2
+#pragma region Micro Precision E2M3
+__arm_locally_streaming static void nk_angulars_packed_e2m3_sme_finalize_streaming_( //
+    nk_e2m3_t const *a, void const *b_packed, nk_f32_t *c,                           //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,                              //
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+    nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
+    nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
+    for (nk_size_t row_index = 0; row_index < rows; row_index++) {
+        nk_e2m3_t const *a_row = a + row_index * a_stride_elements;
+        nk_f32_t *result_row = c + row_index * c_stride_elements;
+        nk_f32_t query_norm_sq_f32 = nk_dots_reduce_sumsq_e2m3_ssve_(a_row, depth);
+        svfloat32_t query_norm_sq_f32x = svdup_n_f32(query_norm_sq_f32);
+        for (nk_size_t col_index = 0; col_index < columns; col_index += svcntw()) {
+            svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, columns);
+            svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+            svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, b_norms + col_index);
+            svst1_f32(
+                predicate_f32x, result_row + col_index,
+                nk_angulars_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x, target_norms_sq_f32x));
+        }
+    }
+}
+NK_PUBLIC void nk_angulars_packed_e2m3_sme(                //
+    nk_e2m3_t const *a, void const *b_packed, nk_f32_t *c, //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+    nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_e2m3_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_dots_packed_e2m3_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
+    nk_angulars_packed_e2m3_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                    c_stride_elements);
+}
+__arm_locally_streaming static void nk_euclideans_packed_e2m3_sme_finalize_streaming_( //
+    nk_e2m3_t const *a, void const *b_packed, nk_f32_t *c,                             //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,                                //
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+    nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
+    nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
+    for (nk_size_t row_index = 0; row_index < rows; row_index++) {
+        nk_e2m3_t const *a_row = a + row_index * a_stride_elements;
+        nk_f32_t *result_row = c + row_index * c_stride_elements;
+        nk_f32_t query_norm_sq_f32 = nk_dots_reduce_sumsq_e2m3_ssve_(a_row, depth);
+        svfloat32_t query_norm_sq_f32x = svdup_n_f32(query_norm_sq_f32);
+        for (nk_size_t col_index = 0; col_index < columns; col_index += svcntw()) {
+            svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, columns);
+            svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+            svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, b_norms + col_index);
+            svst1_f32(
+                predicate_f32x, result_row + col_index,
+                nk_euclideans_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x, target_norms_sq_f32x));
+        }
+    }
+}
+NK_PUBLIC void nk_euclideans_packed_e2m3_sme(              //
+    nk_e2m3_t const *a, void const *b_packed, nk_f32_t *c, //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+    nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_e2m3_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_dots_packed_e2m3_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
+    nk_euclideans_packed_e2m3_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                      c_stride_elements);
+}
+__arm_locally_streaming static void nk_angulars_symmetric_e2m3_sme_finalize_streaming_(        //
+    nk_e2m3_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, //
+    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+    // Phase 1: cache row norms on diagonal
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+        nk_f32_t *result_row = result + row_index * result_stride_elements;
+        result_row[row_index] = nk_dots_reduce_sumsq_e2m3_ssve_(vectors + row_index * stride_elements, depth);
+    }
+    // Phase 2: column-first post-processing
+    nk_f32_t norms_cache[256];
+    for (nk_size_t chunk_start = 0; chunk_start < n_vectors; chunk_start += 256) {
+        nk_size_t chunk_end = chunk_start + 256 < n_vectors ? chunk_start + 256 : n_vectors;
+        for (nk_size_t col = chunk_start; col < chunk_end; ++col)
+            norms_cache[col - chunk_start] = nk_dots_reduce_sumsq_e2m3_ssve_(vectors + col * stride_elements, depth);
+        for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+            nk_size_t col_start = row_index + 1 > chunk_start ? row_index + 1 : chunk_start;
+            if (col_start >= chunk_end) continue;
+            nk_f32_t *result_row = result + row_index * result_stride_elements;
+            svfloat32_t query_norm_sq_f32x = svdup_n_f32(result_row[row_index]);
+            for (nk_size_t col_index = col_start; col_index < chunk_end; col_index += svcntw()) {
+                svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, chunk_end);
+                svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+                svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, norms_cache + (col_index - chunk_start));
+                svst1_f32(predicate_f32x, result_row + col_index,
+                          nk_angulars_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x,
+                                                          target_norms_sq_f32x));
+            }
+        }
+    }
+    // Phase 3: zero diagonals
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index)
+        result[row_index * result_stride_elements + row_index] = 0;
+}
+NK_PUBLIC void nk_angulars_symmetric_e2m3_sme(                                        //
+    nk_e2m3_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride, //
+    nk_f32_t *result, nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_size_t const stride_elements = stride / sizeof(nk_e2m3_t);
+    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f32_t);
+    nk_dots_symmetric_e2m3_sme_streaming_(vectors, n_vectors, depth, stride_elements, result, result_stride_elements,
+                                          row_start, row_count);
+    nk_angulars_symmetric_e2m3_sme_finalize_streaming_(vectors, n_vectors, depth, stride_elements, result,
+                                                       result_stride_elements, row_start, row_count);
+}
+__arm_locally_streaming static void nk_euclideans_symmetric_e2m3_sme_finalize_streaming_(      //
+    nk_e2m3_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, //
+    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+    // Phase 1: cache row norms on diagonal
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+        nk_f32_t *result_row = result + row_index * result_stride_elements;
+        result_row[row_index] = nk_dots_reduce_sumsq_e2m3_ssve_(vectors + row_index * stride_elements, depth);
+    }
+    // Phase 2: column-first post-processing
+    nk_f32_t norms_cache[256];
+    for (nk_size_t chunk_start = 0; chunk_start < n_vectors; chunk_start += 256) {
+        nk_size_t chunk_end = chunk_start + 256 < n_vectors ? chunk_start + 256 : n_vectors;
+        for (nk_size_t col = chunk_start; col < chunk_end; ++col)
+            norms_cache[col - chunk_start] = nk_dots_reduce_sumsq_e2m3_ssve_(vectors + col * stride_elements, depth);
+        for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+            nk_size_t col_start = row_index + 1 > chunk_start ? row_index + 1 : chunk_start;
+            if (col_start >= chunk_end) continue;
+            nk_f32_t *result_row = result + row_index * result_stride_elements;
+            svfloat32_t query_norm_sq_f32x = svdup_n_f32(result_row[row_index]);
+            for (nk_size_t col_index = col_start; col_index < chunk_end; col_index += svcntw()) {
+                svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, chunk_end);
+                svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+                svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, norms_cache + (col_index - chunk_start));
+                svst1_f32(predicate_f32x, result_row + col_index,
+                          nk_euclideans_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x,
+                                                            target_norms_sq_f32x));
+            }
+        }
+    }
+    // Phase 3: zero diagonals
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index)
+        result[row_index * result_stride_elements + row_index] = 0;
+}
+NK_PUBLIC void nk_euclideans_symmetric_e2m3_sme(                                      //
+    nk_e2m3_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride, //
+    nk_f32_t *result, nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_size_t const stride_elements = stride / sizeof(nk_e2m3_t);
+    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f32_t);
+    nk_dots_symmetric_e2m3_sme_streaming_(vectors, n_vectors, depth, stride_elements, result, result_stride_elements,
+                                          row_start, row_count);
+    nk_euclideans_symmetric_e2m3_sme_finalize_streaming_(vectors, n_vectors, depth, stride_elements, result,
+                                                         result_stride_elements, row_start, row_count);
+}
+#pragma endregion // Micro Precision E2M3
+#pragma region Micro Precision E3M2
+__arm_locally_streaming static void nk_angulars_packed_e3m2_sme_finalize_streaming_( //
+    nk_e3m2_t const *a, void const *b_packed, nk_f32_t *c,                           //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,                              //
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+    nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
+    nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
+    for (nk_size_t row_index = 0; row_index < rows; row_index++) {
+        nk_e3m2_t const *a_row = a + row_index * a_stride_elements;
+        nk_f32_t *result_row = c + row_index * c_stride_elements;
+        nk_f32_t query_norm_sq_f32 = nk_dots_reduce_sumsq_e3m2_ssve_(a_row, depth);
+        svfloat32_t query_norm_sq_f32x = svdup_n_f32(query_norm_sq_f32);
+        for (nk_size_t col_index = 0; col_index < columns; col_index += svcntw()) {
+            svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, columns);
+            svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+            svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, b_norms + col_index);
+            svst1_f32(
+                predicate_f32x, result_row + col_index,
+                nk_angulars_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x, target_norms_sq_f32x));
+        }
+    }
+}
+NK_PUBLIC void nk_angulars_packed_e3m2_sme(                //
+    nk_e3m2_t const *a, void const *b_packed, nk_f32_t *c, //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+    nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_e3m2_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_dots_packed_e3m2_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
+    nk_angulars_packed_e3m2_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                    c_stride_elements);
+}
+__arm_locally_streaming static void nk_euclideans_packed_e3m2_sme_finalize_streaming_( //
+    nk_e3m2_t const *a, void const *b_packed, nk_f32_t *c,                             //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,                                //
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+    nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
+    nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
+    for (nk_size_t row_index = 0; row_index < rows; row_index++) {
+        nk_e3m2_t const *a_row = a + row_index * a_stride_elements;
+        nk_f32_t *result_row = c + row_index * c_stride_elements;
+        nk_f32_t query_norm_sq_f32 = nk_dots_reduce_sumsq_e3m2_ssve_(a_row, depth);
+        svfloat32_t query_norm_sq_f32x = svdup_n_f32(query_norm_sq_f32);
+        for (nk_size_t col_index = 0; col_index < columns; col_index += svcntw()) {
+            svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, columns);
+            svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+            svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, b_norms + col_index);
+            svst1_f32(
+                predicate_f32x, result_row + col_index,
+                nk_euclideans_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x, target_norms_sq_f32x));
+        }
+    }
+}
+NK_PUBLIC void nk_euclideans_packed_e3m2_sme(              //
+    nk_e3m2_t const *a, void const *b_packed, nk_f32_t *c, //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+    nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_e3m2_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_dots_packed_e3m2_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
+    nk_euclideans_packed_e3m2_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                      c_stride_elements);
+}
+__arm_locally_streaming static void nk_angulars_symmetric_e3m2_sme_finalize_streaming_(        //
+    nk_e3m2_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, //
+    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+    // Phase 1: cache row norms on diagonal
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+        nk_f32_t *result_row = result + row_index * result_stride_elements;
+        result_row[row_index] = nk_dots_reduce_sumsq_e3m2_ssve_(vectors + row_index * stride_elements, depth);
+    }
+    // Phase 2: column-first post-processing
+    nk_f32_t norms_cache[256];
+    for (nk_size_t chunk_start = 0; chunk_start < n_vectors; chunk_start += 256) {
+        nk_size_t chunk_end = chunk_start + 256 < n_vectors ? chunk_start + 256 : n_vectors;
+        for (nk_size_t col = chunk_start; col < chunk_end; ++col)
+            norms_cache[col - chunk_start] = nk_dots_reduce_sumsq_e3m2_ssve_(vectors + col * stride_elements, depth);
+        for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+            nk_size_t col_start = row_index + 1 > chunk_start ? row_index + 1 : chunk_start;
+            if (col_start >= chunk_end) continue;
+            nk_f32_t *result_row = result + row_index * result_stride_elements;
+            svfloat32_t query_norm_sq_f32x = svdup_n_f32(result_row[row_index]);
+            for (nk_size_t col_index = col_start; col_index < chunk_end; col_index += svcntw()) {
+                svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, chunk_end);
+                svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+                svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, norms_cache + (col_index - chunk_start));
+                svst1_f32(predicate_f32x, result_row + col_index,
+                          nk_angulars_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x,
+                                                          target_norms_sq_f32x));
+            }
+        }
+    }
+    // Phase 3: zero diagonals
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index)
+        result[row_index * result_stride_elements + row_index] = 0;
+}
+NK_PUBLIC void nk_angulars_symmetric_e3m2_sme(                                        //
+    nk_e3m2_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride, //
+    nk_f32_t *result, nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_size_t const stride_elements = stride / sizeof(nk_e3m2_t);
+    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f32_t);
+    nk_dots_symmetric_e3m2_sme_streaming_(vectors, n_vectors, depth, stride_elements, result, result_stride_elements,
+                                          row_start, row_count);
+    nk_angulars_symmetric_e3m2_sme_finalize_streaming_(vectors, n_vectors, depth, stride_elements, result,
+                                                       result_stride_elements, row_start, row_count);
+}
+__arm_locally_streaming static void nk_euclideans_symmetric_e3m2_sme_finalize_streaming_(      //
+    nk_e3m2_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, //
+    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+    // Phase 1: cache row norms on diagonal
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+        nk_f32_t *result_row = result + row_index * result_stride_elements;
+        result_row[row_index] = nk_dots_reduce_sumsq_e3m2_ssve_(vectors + row_index * stride_elements, depth);
+    }
+    // Phase 2: column-first post-processing
+    nk_f32_t norms_cache[256];
+    for (nk_size_t chunk_start = 0; chunk_start < n_vectors; chunk_start += 256) {
+        nk_size_t chunk_end = chunk_start + 256 < n_vectors ? chunk_start + 256 : n_vectors;
+        for (nk_size_t col = chunk_start; col < chunk_end; ++col)
+            norms_cache[col - chunk_start] = nk_dots_reduce_sumsq_e3m2_ssve_(vectors + col * stride_elements, depth);
+        for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+            nk_size_t col_start = row_index + 1 > chunk_start ? row_index + 1 : chunk_start;
+            if (col_start >= chunk_end) continue;
+            nk_f32_t *result_row = result + row_index * result_stride_elements;
+            svfloat32_t query_norm_sq_f32x = svdup_n_f32(result_row[row_index]);
+            for (nk_size_t col_index = col_start; col_index < chunk_end; col_index += svcntw()) {
+                svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, chunk_end);
+                svfloat32_t dots_f32x = svld1_f32(predicate_f32x, result_row + col_index);
+                svfloat32_t target_norms_sq_f32x = svld1_f32(predicate_f32x, norms_cache + (col_index - chunk_start));
+                svst1_f32(predicate_f32x, result_row + col_index,
+                          nk_euclideans_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x,
+                                                            target_norms_sq_f32x));
+            }
+        }
+    }
+    // Phase 3: zero diagonals
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index)
+        result[row_index * result_stride_elements + row_index] = 0;
+}
+NK_PUBLIC void nk_euclideans_symmetric_e3m2_sme(                                      //
+    nk_e3m2_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride, //
+    nk_f32_t *result, nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_size_t const stride_elements = stride / sizeof(nk_e3m2_t);
+    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f32_t);
+    nk_dots_symmetric_e3m2_sme_streaming_(vectors, n_vectors, depth, stride_elements, result, result_stride_elements,
+                                          row_start, row_count);
+    nk_euclideans_symmetric_e3m2_sme_finalize_streaming_(vectors, n_vectors, depth, stride_elements, result,
+                                                         result_stride_elements, row_start, row_count);
+}
+#pragma endregion // Micro Precision E3M2
+#pragma region Signed 8-bit Integers
+__arm_locally_streaming static void nk_angulars_packed_i8_sme_finalize_streaming_( //
+    nk_i8_t const *a, void const *b_packed, nk_f32_t *c,                           //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,                            //
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+    nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
+    nk_u32_t const *b_norms = (nk_u32_t const *)((char const *)b_packed + header->norms_offset);
+    for (nk_size_t row_index = 0; row_index < rows; row_index++) {
+        nk_i8_t const *a_row = a + row_index * a_stride_elements;
+        nk_f32_t *result_row = c + row_index * c_stride_elements;
+        nk_u32_t query_norm_sq_u32 = nk_dots_reduce_sumsq_i8_ssve_(a_row, depth);
+        svfloat32_t query_norm_sq_f32x = svdup_n_f32((nk_f32_t)query_norm_sq_u32);
+        for (nk_size_t col_index = 0; col_index < columns; col_index += svcntw()) {
+            svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, columns);
+            svfloat32_t dots_f32x = svcvt_f32_s32_x(
+                predicate_f32x, svld1_s32(predicate_f32x, (nk_i32_t const *)(result_row + col_index)));
+            svfloat32_t target_norms_sq_f32x = svcvt_f32_u32_x(predicate_f32x,
+                                                               svld1_u32(predicate_f32x, b_norms + col_index));
+            svst1_f32(
+                predicate_f32x, result_row + col_index,
+                nk_angulars_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x, target_norms_sq_f32x));
+        }
+    }
+}
+NK_PUBLIC void nk_angulars_packed_i8_sme(                //
+    nk_i8_t const *a, void const *b_packed, nk_f32_t *c, //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,  //
+    nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_i8_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_dots_packed_i8_sme_streaming_(a, b_packed, (nk_i32_t *)c, rows, columns, depth, a_stride_elements,
+                                     c_stride_elements);
+    nk_angulars_packed_i8_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                  c_stride_elements);
+}
+__arm_locally_streaming static void nk_euclideans_packed_i8_sme_finalize_streaming_( //
+    nk_i8_t const *a, void const *b_packed, nk_f32_t *c,                             //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,                              //
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+    nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
+    nk_u32_t const *b_norms = (nk_u32_t const *)((char const *)b_packed + header->norms_offset);
+    for (nk_size_t row_index = 0; row_index < rows; row_index++) {
+        nk_i8_t const *a_row = a + row_index * a_stride_elements;
+        nk_f32_t *result_row = c + row_index * c_stride_elements;
+        nk_u32_t query_norm_sq_u32 = nk_dots_reduce_sumsq_i8_ssve_(a_row, depth);
+        svfloat32_t query_norm_sq_f32x = svdup_n_f32((nk_f32_t)query_norm_sq_u32);
+        for (nk_size_t col_index = 0; col_index < columns; col_index += svcntw()) {
+            svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, columns);
+            svfloat32_t dots_f32x = svcvt_f32_s32_x(
+                predicate_f32x, svld1_s32(predicate_f32x, (nk_i32_t const *)(result_row + col_index)));
+            svfloat32_t target_norms_sq_f32x = svcvt_f32_u32_x(predicate_f32x,
+                                                               svld1_u32(predicate_f32x, b_norms + col_index));
+            svst1_f32(
+                predicate_f32x, result_row + col_index,
+                nk_euclideans_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x, target_norms_sq_f32x));
+        }
+    }
+}
+NK_PUBLIC void nk_euclideans_packed_i8_sme(              //
+    nk_i8_t const *a, void const *b_packed, nk_f32_t *c, //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,  //
+    nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_i8_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_dots_packed_i8_sme_streaming_(a, b_packed, (nk_i32_t *)c, rows, columns, depth, a_stride_elements,
+                                     c_stride_elements);
+    nk_euclideans_packed_i8_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                    c_stride_elements);
+}
+__arm_locally_streaming static void nk_angulars_symmetric_i8_sme_finalize_streaming_(        //
+    nk_i8_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, //
+    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+    // Phase 1: cache row norms on diagonal (store as u32 in f32 slot)
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+        nk_u32_t row_sumsq_u32 = nk_dots_reduce_sumsq_i8_ssve_(vectors + row_index * stride_elements, depth);
+        ((nk_u32_t *)(result + row_index * result_stride_elements))[row_index] = row_sumsq_u32;
+    }
+    // Phase 2: column-first post-processing
+    nk_u32_t norms_cache[256];
+    for (nk_size_t chunk_start = 0; chunk_start < n_vectors; chunk_start += 256) {
+        nk_size_t chunk_end = chunk_start + 256 < n_vectors ? chunk_start + 256 : n_vectors;
+        for (nk_size_t col = chunk_start; col < chunk_end; ++col)
+            norms_cache[col - chunk_start] = nk_dots_reduce_sumsq_i8_ssve_(vectors + col * stride_elements, depth);
+        for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+            nk_size_t col_start = row_index + 1 > chunk_start ? row_index + 1 : chunk_start;
+            if (col_start >= chunk_end) continue;
+            nk_f32_t *result_row = result + row_index * result_stride_elements;
+            nk_u32_t query_sumsq_u32 = ((nk_u32_t *)result_row)[row_index];
+            svfloat32_t query_norm_sq_f32x = svdup_n_f32((nk_f32_t)query_sumsq_u32);
+            for (nk_size_t col_index = col_start; col_index < chunk_end; col_index += svcntw()) {
+                svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, chunk_end);
+                svfloat32_t dots_f32x = svcvt_f32_s32_x(
+                    predicate_f32x, svld1_s32(predicate_f32x, (nk_i32_t *)(result_row + col_index)));
+                svfloat32_t target_norms_sq_f32x = svcvt_f32_u32_x(
+                    predicate_f32x, svld1_u32(predicate_f32x, norms_cache + (col_index - chunk_start)));
+                svst1_f32(predicate_f32x, result_row + col_index,
+                          nk_angulars_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x,
+                                                          target_norms_sq_f32x));
+            }
+        }
+    }
+    // Phase 3: zero diagonals
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index)
+        result[row_index * result_stride_elements + row_index] = 0;
+}
+NK_PUBLIC void nk_angulars_symmetric_i8_sme(                                        //
+    nk_i8_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride, //
+    nk_f32_t *result, nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_size_t const stride_elements = stride / sizeof(nk_i8_t);
+    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f32_t);
+    nk_dots_symmetric_i8_sme_streaming_(vectors, n_vectors, depth, stride_elements, (nk_i32_t *)result,
+                                        result_stride_elements, row_start, row_count);
+    nk_angulars_symmetric_i8_sme_finalize_streaming_(vectors, n_vectors, depth, stride_elements, result,
+                                                     result_stride_elements, row_start, row_count);
+}
+__arm_locally_streaming static void nk_euclideans_symmetric_i8_sme_finalize_streaming_(      //
+    nk_i8_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, //
+    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+    // Phase 1: cache row norms on diagonal (store as u32 in f32 slot)
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+        nk_u32_t row_sumsq_u32 = nk_dots_reduce_sumsq_i8_ssve_(vectors + row_index * stride_elements, depth);
+        ((nk_u32_t *)(result + row_index * result_stride_elements))[row_index] = row_sumsq_u32;
+    }
+    // Phase 2: column-first post-processing
+    nk_u32_t norms_cache[256];
+    for (nk_size_t chunk_start = 0; chunk_start < n_vectors; chunk_start += 256) {
+        nk_size_t chunk_end = chunk_start + 256 < n_vectors ? chunk_start + 256 : n_vectors;
+        for (nk_size_t col = chunk_start; col < chunk_end; ++col)
+            norms_cache[col - chunk_start] = nk_dots_reduce_sumsq_i8_ssve_(vectors + col * stride_elements, depth);
+        for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+            nk_size_t col_start = row_index + 1 > chunk_start ? row_index + 1 : chunk_start;
+            if (col_start >= chunk_end) continue;
+            nk_f32_t *result_row = result + row_index * result_stride_elements;
+            nk_u32_t query_sumsq_u32 = ((nk_u32_t *)result_row)[row_index];
+            svfloat32_t query_norm_sq_f32x = svdup_n_f32((nk_f32_t)query_sumsq_u32);
+            for (nk_size_t col_index = col_start; col_index < chunk_end; col_index += svcntw()) {
+                svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, chunk_end);
+                svfloat32_t dots_f32x = svcvt_f32_s32_x(
+                    predicate_f32x, svld1_s32(predicate_f32x, (nk_i32_t *)(result_row + col_index)));
+                svfloat32_t target_norms_sq_f32x = svcvt_f32_u32_x(
+                    predicate_f32x, svld1_u32(predicate_f32x, norms_cache + (col_index - chunk_start)));
+                svst1_f32(predicate_f32x, result_row + col_index,
+                          nk_euclideans_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x,
+                                                            target_norms_sq_f32x));
+            }
+        }
+    }
+    // Phase 3: zero diagonals
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index)
+        result[row_index * result_stride_elements + row_index] = 0;
+}
+NK_PUBLIC void nk_euclideans_symmetric_i8_sme(                                      //
+    nk_i8_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride, //
+    nk_f32_t *result, nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_size_t const stride_elements = stride / sizeof(nk_i8_t);
+    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f32_t);
+    nk_dots_symmetric_i8_sme_streaming_(vectors, n_vectors, depth, stride_elements, (nk_i32_t *)result,
+                                        result_stride_elements, row_start, row_count);
+    nk_euclideans_symmetric_i8_sme_finalize_streaming_(vectors, n_vectors, depth, stride_elements, result,
+                                                       result_stride_elements, row_start, row_count);
+}
+#pragma endregion // Signed 8-bit Integers
+#pragma region Unsigned 8-bit Integers
+__arm_locally_streaming static void nk_angulars_packed_u8_sme_finalize_streaming_( //
+    nk_u8_t const *a, void const *b_packed, nk_f32_t *c,                           //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,                            //
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+    nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
+    nk_u32_t const *b_norms = (nk_u32_t const *)((char const *)b_packed + header->norms_offset);
+    for (nk_size_t row_index = 0; row_index < rows; row_index++) {
+        nk_u8_t const *a_row = a + row_index * a_stride_elements;
+        nk_f32_t *result_row = c + row_index * c_stride_elements;
+        nk_u32_t query_norm_sq_u32 = nk_dots_reduce_sumsq_u8_ssve_(a_row, depth);
+        svfloat32_t query_norm_sq_f32x = svdup_n_f32((nk_f32_t)query_norm_sq_u32);
+        for (nk_size_t col_index = 0; col_index < columns; col_index += svcntw()) {
+            svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, columns);
+            svfloat32_t dots_f32x = svcvt_f32_u32_x(
+                predicate_f32x, svld1_u32(predicate_f32x, (nk_u32_t const *)(result_row + col_index)));
+            svfloat32_t target_norms_sq_f32x = svcvt_f32_u32_x(predicate_f32x,
+                                                               svld1_u32(predicate_f32x, b_norms + col_index));
+            svst1_f32(
+                predicate_f32x, result_row + col_index,
+                nk_angulars_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x, target_norms_sq_f32x));
+        }
+    }
+}
+NK_PUBLIC void nk_angulars_packed_u8_sme(                //
+    nk_u8_t const *a, void const *b_packed, nk_f32_t *c, //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,  //
+    nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_u8_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_dots_packed_u8_sme_streaming_(a, b_packed, (nk_u32_t *)c, rows, columns, depth, a_stride_elements,
+                                     c_stride_elements);
+    nk_angulars_packed_u8_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                  c_stride_elements);
+}
+__arm_locally_streaming static void nk_euclideans_packed_u8_sme_finalize_streaming_( //
+    nk_u8_t const *a, void const *b_packed, nk_f32_t *c,                             //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,                              //
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+    nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
+    nk_u32_t const *b_norms = (nk_u32_t const *)((char const *)b_packed + header->norms_offset);
+    for (nk_size_t row_index = 0; row_index < rows; row_index++) {
+        nk_u8_t const *a_row = a + row_index * a_stride_elements;
+        nk_f32_t *result_row = c + row_index * c_stride_elements;
+        nk_u32_t query_norm_sq_u32 = nk_dots_reduce_sumsq_u8_ssve_(a_row, depth);
+        svfloat32_t query_norm_sq_f32x = svdup_n_f32((nk_f32_t)query_norm_sq_u32);
+        for (nk_size_t col_index = 0; col_index < columns; col_index += svcntw()) {
+            svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, columns);
+            svfloat32_t dots_f32x = svcvt_f32_u32_x(
+                predicate_f32x, svld1_u32(predicate_f32x, (nk_u32_t const *)(result_row + col_index)));
+            svfloat32_t target_norms_sq_f32x = svcvt_f32_u32_x(predicate_f32x,
+                                                               svld1_u32(predicate_f32x, b_norms + col_index));
+            svst1_f32(
+                predicate_f32x, result_row + col_index,
+                nk_euclideans_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x, target_norms_sq_f32x));
+        }
+    }
+}
+NK_PUBLIC void nk_euclideans_packed_u8_sme(              //
+    nk_u8_t const *a, void const *b_packed, nk_f32_t *c, //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,  //
+    nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_u8_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_dots_packed_u8_sme_streaming_(a, b_packed, (nk_u32_t *)c, rows, columns, depth, a_stride_elements,
+                                     c_stride_elements);
+    nk_euclideans_packed_u8_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                    c_stride_elements);
+}
+__arm_locally_streaming static void nk_angulars_symmetric_u8_sme_finalize_streaming_(        //
+    nk_u8_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, //
+    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+    // Phase 1: cache row norms on diagonal (store as u32 in f32 slot)
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+        nk_u32_t row_sumsq_u32 = nk_dots_reduce_sumsq_u8_ssve_(vectors + row_index * stride_elements, depth);
+        ((nk_u32_t *)(result + row_index * result_stride_elements))[row_index] = row_sumsq_u32;
+    }
+    // Phase 2: column-first post-processing
+    nk_u32_t norms_cache[256];
+    for (nk_size_t chunk_start = 0; chunk_start < n_vectors; chunk_start += 256) {
+        nk_size_t chunk_end = chunk_start + 256 < n_vectors ? chunk_start + 256 : n_vectors;
+        for (nk_size_t col = chunk_start; col < chunk_end; ++col)
+            norms_cache[col - chunk_start] = nk_dots_reduce_sumsq_u8_ssve_(vectors + col * stride_elements, depth);
+        for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+            nk_size_t col_start = row_index + 1 > chunk_start ? row_index + 1 : chunk_start;
+            if (col_start >= chunk_end) continue;
+            nk_f32_t *result_row = result + row_index * result_stride_elements;
+            nk_u32_t query_sumsq_u32 = ((nk_u32_t *)result_row)[row_index];
+            svfloat32_t query_norm_sq_f32x = svdup_n_f32((nk_f32_t)query_sumsq_u32);
+            for (nk_size_t col_index = col_start; col_index < chunk_end; col_index += svcntw()) {
+                svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, chunk_end);
+                svfloat32_t dots_f32x = svcvt_f32_u32_x(
+                    predicate_f32x, svld1_u32(predicate_f32x, (nk_u32_t *)(result_row + col_index)));
+                svfloat32_t target_norms_sq_f32x = svcvt_f32_u32_x(
+                    predicate_f32x, svld1_u32(predicate_f32x, norms_cache + (col_index - chunk_start)));
+                svst1_f32(predicate_f32x, result_row + col_index,
+                          nk_angulars_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x,
+                                                          target_norms_sq_f32x));
+            }
+        }
+    }
+    // Phase 3: zero diagonals
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index)
+        result[row_index * result_stride_elements + row_index] = 0;
+}
+NK_PUBLIC void nk_angulars_symmetric_u8_sme(                                        //
+    nk_u8_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride, //
+    nk_f32_t *result, nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_size_t const stride_elements = stride / sizeof(nk_u8_t);
+    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f32_t);
+    nk_dots_symmetric_u8_sme_streaming_(vectors, n_vectors, depth, stride_elements, (nk_u32_t *)result,
+                                        result_stride_elements, row_start, row_count);
+    nk_angulars_symmetric_u8_sme_finalize_streaming_(vectors, n_vectors, depth, stride_elements, result,
+                                                     result_stride_elements, row_start, row_count);
+}
+__arm_locally_streaming static void nk_euclideans_symmetric_u8_sme_finalize_streaming_(      //
+    nk_u8_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, //
+    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+    // Phase 1: cache row norms on diagonal (store as u32 in f32 slot)
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+        nk_u32_t row_sumsq_u32 = nk_dots_reduce_sumsq_u8_ssve_(vectors + row_index * stride_elements, depth);
+        ((nk_u32_t *)(result + row_index * result_stride_elements))[row_index] = row_sumsq_u32;
+    }
+    // Phase 2: column-first post-processing
+    nk_u32_t norms_cache[256];
+    for (nk_size_t chunk_start = 0; chunk_start < n_vectors; chunk_start += 256) {
+        nk_size_t chunk_end = chunk_start + 256 < n_vectors ? chunk_start + 256 : n_vectors;
+        for (nk_size_t col = chunk_start; col < chunk_end; ++col)
+            norms_cache[col - chunk_start] = nk_dots_reduce_sumsq_u8_ssve_(vectors + col * stride_elements, depth);
+        for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+            nk_size_t col_start = row_index + 1 > chunk_start ? row_index + 1 : chunk_start;
+            if (col_start >= chunk_end) continue;
+            nk_f32_t *result_row = result + row_index * result_stride_elements;
+            nk_u32_t query_sumsq_u32 = ((nk_u32_t *)result_row)[row_index];
+            svfloat32_t query_norm_sq_f32x = svdup_n_f32((nk_f32_t)query_sumsq_u32);
+            for (nk_size_t col_index = col_start; col_index < chunk_end; col_index += svcntw()) {
+                svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, chunk_end);
+                svfloat32_t dots_f32x = svcvt_f32_u32_x(
+                    predicate_f32x, svld1_u32(predicate_f32x, (nk_u32_t *)(result_row + col_index)));
+                svfloat32_t target_norms_sq_f32x = svcvt_f32_u32_x(
+                    predicate_f32x, svld1_u32(predicate_f32x, norms_cache + (col_index - chunk_start)));
+                svst1_f32(predicate_f32x, result_row + col_index,
+                          nk_euclideans_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x,
+                                                            target_norms_sq_f32x));
+            }
+        }
+    }
+    // Phase 3: zero diagonals
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index)
+        result[row_index * result_stride_elements + row_index] = 0;
+}
+NK_PUBLIC void nk_euclideans_symmetric_u8_sme(                                      //
+    nk_u8_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride, //
+    nk_f32_t *result, nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_size_t const stride_elements = stride / sizeof(nk_u8_t);
+    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f32_t);
+    nk_dots_symmetric_u8_sme_streaming_(vectors, n_vectors, depth, stride_elements, (nk_u32_t *)result,
+                                        result_stride_elements, row_start, row_count);
+    nk_euclideans_symmetric_u8_sme_finalize_streaming_(vectors, n_vectors, depth, stride_elements, result,
+                                                       result_stride_elements, row_start, row_count);
+}
+#pragma endregion // Unsigned 8-bit Integers
+#pragma region Nibble Signed Integers
+__arm_locally_streaming static void nk_angulars_packed_i4_sme_finalize_streaming_( //
+    nk_i4x2_t const *a, void const *b_packed, nk_f32_t *c,                         //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,                            //
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+    nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
+    nk_u32_t const *b_norms = (nk_u32_t const *)((char const *)b_packed + header->norms_offset);
+    for (nk_size_t row_index = 0; row_index < rows; row_index++) {
+        nk_i4x2_t const *a_row = a + row_index * a_stride_elements;
+        nk_f32_t *result_row = c + row_index * c_stride_elements;
+        nk_u32_t query_norm_sq_u32 = nk_dots_reduce_sumsq_i4_ssve_(a_row, depth);
+        svfloat32_t query_norm_sq_f32x = svdup_n_f32((nk_f32_t)query_norm_sq_u32);
+        for (nk_size_t col_index = 0; col_index < columns; col_index += svcntw()) {
+            svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, columns);
+            svfloat32_t dots_f32x = svcvt_f32_s32_x(
+                predicate_f32x, svld1_s32(predicate_f32x, (nk_i32_t const *)(result_row + col_index)));
+            svfloat32_t target_norms_sq_f32x = svcvt_f32_u32_x(predicate_f32x,
+                                                               svld1_u32(predicate_f32x, b_norms + col_index));
+            svst1_f32(
+                predicate_f32x, result_row + col_index,
+                nk_angulars_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x, target_norms_sq_f32x));
+        }
+    }
+}
+NK_PUBLIC void nk_angulars_packed_i4_sme(                  //
+    nk_i4x2_t const *a, void const *b_packed, nk_f32_t *c, //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+    nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_i4x2_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_dots_packed_i4_sme_streaming_(a, b_packed, (nk_i32_t *)c, rows, columns, depth, a_stride_elements,
+                                     c_stride_elements);
+    nk_angulars_packed_i4_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                  c_stride_elements);
+}
+__arm_locally_streaming static void nk_euclideans_packed_i4_sme_finalize_streaming_( //
+    nk_i4x2_t const *a, void const *b_packed, nk_f32_t *c,                           //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,                              //
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+    nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
+    nk_u32_t const *b_norms = (nk_u32_t const *)((char const *)b_packed + header->norms_offset);
+    for (nk_size_t row_index = 0; row_index < rows; row_index++) {
+        nk_i4x2_t const *a_row = a + row_index * a_stride_elements;
+        nk_f32_t *result_row = c + row_index * c_stride_elements;
+        nk_u32_t query_norm_sq_u32 = nk_dots_reduce_sumsq_i4_ssve_(a_row, depth);
+        svfloat32_t query_norm_sq_f32x = svdup_n_f32((nk_f32_t)query_norm_sq_u32);
+        for (nk_size_t col_index = 0; col_index < columns; col_index += svcntw()) {
+            svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, columns);
+            svfloat32_t dots_f32x = svcvt_f32_s32_x(
+                predicate_f32x, svld1_s32(predicate_f32x, (nk_i32_t const *)(result_row + col_index)));
+            svfloat32_t target_norms_sq_f32x = svcvt_f32_u32_x(predicate_f32x,
+                                                               svld1_u32(predicate_f32x, b_norms + col_index));
+            svst1_f32(
+                predicate_f32x, result_row + col_index,
+                nk_euclideans_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x, target_norms_sq_f32x));
+        }
+    }
+}
+NK_PUBLIC void nk_euclideans_packed_i4_sme(                //
+    nk_i4x2_t const *a, void const *b_packed, nk_f32_t *c, //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+    nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_i4x2_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_dots_packed_i4_sme_streaming_(a, b_packed, (nk_i32_t *)c, rows, columns, depth, a_stride_elements,
+                                     c_stride_elements);
+    nk_euclideans_packed_i4_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                    c_stride_elements);
+}
+__arm_locally_streaming static void nk_angulars_symmetric_i4_sme_finalize_streaming_(          //
+    nk_i4x2_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, //
+    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+    // Phase 1: cache row norms on diagonal (store as u32 in f32 slot)
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+        nk_u32_t row_sumsq_u32 = nk_dots_reduce_sumsq_i4_ssve_(vectors + row_index * stride_elements, depth);
+        ((nk_u32_t *)(result + row_index * result_stride_elements))[row_index] = row_sumsq_u32;
+    }
+    // Phase 2: column-first post-processing
+    nk_u32_t norms_cache[256];
+    for (nk_size_t chunk_start = 0; chunk_start < n_vectors; chunk_start += 256) {
+        nk_size_t chunk_end = chunk_start + 256 < n_vectors ? chunk_start + 256 : n_vectors;
+        for (nk_size_t col = chunk_start; col < chunk_end; ++col)
+            norms_cache[col - chunk_start] = nk_dots_reduce_sumsq_i4_ssve_(vectors + col * stride_elements, depth);
+        for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+            nk_size_t col_start = row_index + 1 > chunk_start ? row_index + 1 : chunk_start;
+            if (col_start >= chunk_end) continue;
+            nk_f32_t *result_row = result + row_index * result_stride_elements;
+            nk_u32_t query_sumsq_u32 = ((nk_u32_t *)result_row)[row_index];
+            svfloat32_t query_norm_sq_f32x = svdup_n_f32((nk_f32_t)query_sumsq_u32);
+            for (nk_size_t col_index = col_start; col_index < chunk_end; col_index += svcntw()) {
+                svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, chunk_end);
+                svfloat32_t dots_f32x = svcvt_f32_s32_x(
+                    predicate_f32x, svld1_s32(predicate_f32x, (nk_i32_t *)(result_row + col_index)));
+                svfloat32_t target_norms_sq_f32x = svcvt_f32_u32_x(
+                    predicate_f32x, svld1_u32(predicate_f32x, norms_cache + (col_index - chunk_start)));
+                svst1_f32(predicate_f32x, result_row + col_index,
+                          nk_angulars_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x,
+                                                          target_norms_sq_f32x));
+            }
+        }
+    }
+    // Phase 3: zero diagonals
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index)
+        result[row_index * result_stride_elements + row_index] = 0;
+}
+NK_PUBLIC void nk_angulars_symmetric_i4_sme(                                          //
+    nk_i4x2_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride, //
+    nk_f32_t *result, nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_size_t const stride_elements = stride / sizeof(nk_i4x2_t);
+    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f32_t);
+    nk_dots_symmetric_i4_sme_streaming_(vectors, n_vectors, depth, stride_elements, (nk_i32_t *)result,
+                                        result_stride_elements, row_start, row_count);
+    nk_angulars_symmetric_i4_sme_finalize_streaming_(vectors, n_vectors, depth, stride_elements, result,
+                                                     result_stride_elements, row_start, row_count);
+}
+__arm_locally_streaming static void nk_euclideans_symmetric_i4_sme_finalize_streaming_(        //
+    nk_i4x2_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, //
+    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+    // Phase 1: cache row norms on diagonal (store as u32 in f32 slot)
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+        nk_u32_t row_sumsq_u32 = nk_dots_reduce_sumsq_i4_ssve_(vectors + row_index * stride_elements, depth);
+        ((nk_u32_t *)(result + row_index * result_stride_elements))[row_index] = row_sumsq_u32;
+    }
+    // Phase 2: column-first post-processing
+    nk_u32_t norms_cache[256];
+    for (nk_size_t chunk_start = 0; chunk_start < n_vectors; chunk_start += 256) {
+        nk_size_t chunk_end = chunk_start + 256 < n_vectors ? chunk_start + 256 : n_vectors;
+        for (nk_size_t col = chunk_start; col < chunk_end; ++col)
+            norms_cache[col - chunk_start] = nk_dots_reduce_sumsq_i4_ssve_(vectors + col * stride_elements, depth);
+        for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+            nk_size_t col_start = row_index + 1 > chunk_start ? row_index + 1 : chunk_start;
+            if (col_start >= chunk_end) continue;
+            nk_f32_t *result_row = result + row_index * result_stride_elements;
+            nk_u32_t query_sumsq_u32 = ((nk_u32_t *)result_row)[row_index];
+            svfloat32_t query_norm_sq_f32x = svdup_n_f32((nk_f32_t)query_sumsq_u32);
+            for (nk_size_t col_index = col_start; col_index < chunk_end; col_index += svcntw()) {
+                svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, chunk_end);
+                svfloat32_t dots_f32x = svcvt_f32_s32_x(
+                    predicate_f32x, svld1_s32(predicate_f32x, (nk_i32_t *)(result_row + col_index)));
+                svfloat32_t target_norms_sq_f32x = svcvt_f32_u32_x(
+                    predicate_f32x, svld1_u32(predicate_f32x, norms_cache + (col_index - chunk_start)));
+                svst1_f32(predicate_f32x, result_row + col_index,
+                          nk_euclideans_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x,
+                                                            target_norms_sq_f32x));
+            }
+        }
+    }
+    // Phase 3: zero diagonals
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index)
+        result[row_index * result_stride_elements + row_index] = 0;
+}
+NK_PUBLIC void nk_euclideans_symmetric_i4_sme(                                        //
+    nk_i4x2_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride, //
+    nk_f32_t *result, nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_size_t const stride_elements = stride / sizeof(nk_i4x2_t);
+    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f32_t);
+    nk_dots_symmetric_i4_sme_streaming_(vectors, n_vectors, depth, stride_elements, (nk_i32_t *)result,
+                                        result_stride_elements, row_start, row_count);
+    nk_euclideans_symmetric_i4_sme_finalize_streaming_(vectors, n_vectors, depth, stride_elements, result,
+                                                       result_stride_elements, row_start, row_count);
+}
+#pragma endregion // Nibble Signed Integers
+#pragma region Nibble Unsigned Integers
+__arm_locally_streaming static void nk_angulars_packed_u4_sme_finalize_streaming_( //
+    nk_u4x2_t const *a, void const *b_packed, nk_f32_t *c,                         //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,                            //
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+    nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
+    nk_u32_t const *b_norms = (nk_u32_t const *)((char const *)b_packed + header->norms_offset);
+    for (nk_size_t row_index = 0; row_index < rows; row_index++) {
+        nk_u4x2_t const *a_row = a + row_index * a_stride_elements;
+        nk_f32_t *result_row = c + row_index * c_stride_elements;
+        nk_u32_t query_norm_sq_u32 = nk_dots_reduce_sumsq_u4_ssve_(a_row, depth);
+        svfloat32_t query_norm_sq_f32x = svdup_n_f32((nk_f32_t)query_norm_sq_u32);
+        for (nk_size_t col_index = 0; col_index < columns; col_index += svcntw()) {
+            svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, columns);
+            svfloat32_t dots_f32x = svcvt_f32_u32_x(
+                predicate_f32x, svld1_u32(predicate_f32x, (nk_u32_t const *)(result_row + col_index)));
+            svfloat32_t target_norms_sq_f32x = svcvt_f32_u32_x(predicate_f32x,
+                                                               svld1_u32(predicate_f32x, b_norms + col_index));
+            svst1_f32(
+                predicate_f32x, result_row + col_index,
+                nk_angulars_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x, target_norms_sq_f32x));
+        }
+    }
+}
+NK_PUBLIC void nk_angulars_packed_u4_sme(                  //
+    nk_u4x2_t const *a, void const *b_packed, nk_f32_t *c, //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+    nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_u4x2_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_dots_packed_u4_sme_streaming_(a, b_packed, (nk_u32_t *)c, rows, columns, depth, a_stride_elements,
+                                     c_stride_elements);
+    nk_angulars_packed_u4_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                  c_stride_elements);
+}
+__arm_locally_streaming static void nk_euclideans_packed_u4_sme_finalize_streaming_( //
+    nk_u4x2_t const *a, void const *b_packed, nk_f32_t *c,                           //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,                              //
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+    nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
+    nk_u32_t const *b_norms = (nk_u32_t const *)((char const *)b_packed + header->norms_offset);
+    for (nk_size_t row_index = 0; row_index < rows; row_index++) {
+        nk_u4x2_t const *a_row = a + row_index * a_stride_elements;
+        nk_f32_t *result_row = c + row_index * c_stride_elements;
+        nk_u32_t query_norm_sq_u32 = nk_dots_reduce_sumsq_u4_ssve_(a_row, depth);
+        svfloat32_t query_norm_sq_f32x = svdup_n_f32((nk_f32_t)query_norm_sq_u32);
+        for (nk_size_t col_index = 0; col_index < columns; col_index += svcntw()) {
+            svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, columns);
+            svfloat32_t dots_f32x = svcvt_f32_u32_x(
+                predicate_f32x, svld1_u32(predicate_f32x, (nk_u32_t const *)(result_row + col_index)));
+            svfloat32_t target_norms_sq_f32x = svcvt_f32_u32_x(predicate_f32x,
+                                                               svld1_u32(predicate_f32x, b_norms + col_index));
+            svst1_f32(
+                predicate_f32x, result_row + col_index,
+                nk_euclideans_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x, target_norms_sq_f32x));
+        }
+    }
+}
+NK_PUBLIC void nk_euclideans_packed_u4_sme(                //
+    nk_u4x2_t const *a, void const *b_packed, nk_f32_t *c, //
+    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+    nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
+    nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_u4x2_t);
+    nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_dots_packed_u4_sme_streaming_(a, b_packed, (nk_u32_t *)c, rows, columns, depth, a_stride_elements,
+                                     c_stride_elements);
+    nk_euclideans_packed_u4_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                    c_stride_elements);
+}
+__arm_locally_streaming static void nk_angulars_symmetric_u4_sme_finalize_streaming_(          //
+    nk_u4x2_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, //
+    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+    // Phase 1: cache row norms on diagonal (store as u32 in f32 slot)
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+        nk_u32_t row_sumsq_u32 = nk_dots_reduce_sumsq_u4_ssve_(vectors + row_index * stride_elements, depth);
+        ((nk_u32_t *)(result + row_index * result_stride_elements))[row_index] = row_sumsq_u32;
+    }
+    // Phase 2: column-first post-processing
+    nk_u32_t norms_cache[256];
+    for (nk_size_t chunk_start = 0; chunk_start < n_vectors; chunk_start += 256) {
+        nk_size_t chunk_end = chunk_start + 256 < n_vectors ? chunk_start + 256 : n_vectors;
+        for (nk_size_t col = chunk_start; col < chunk_end; ++col)
+            norms_cache[col - chunk_start] = nk_dots_reduce_sumsq_u4_ssve_(vectors + col * stride_elements, depth);
+        for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+            nk_size_t col_start = row_index + 1 > chunk_start ? row_index + 1 : chunk_start;
+            if (col_start >= chunk_end) continue;
+            nk_f32_t *result_row = result + row_index * result_stride_elements;
+            nk_u32_t query_sumsq_u32 = ((nk_u32_t *)result_row)[row_index];
+            svfloat32_t query_norm_sq_f32x = svdup_n_f32((nk_f32_t)query_sumsq_u32);
+            for (nk_size_t col_index = col_start; col_index < chunk_end; col_index += svcntw()) {
+                svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, chunk_end);
+                svfloat32_t dots_f32x = svcvt_f32_u32_x(
+                    predicate_f32x, svld1_u32(predicate_f32x, (nk_u32_t *)(result_row + col_index)));
+                svfloat32_t target_norms_sq_f32x = svcvt_f32_u32_x(
+                    predicate_f32x, svld1_u32(predicate_f32x, norms_cache + (col_index - chunk_start)));
+                svst1_f32(predicate_f32x, result_row + col_index,
+                          nk_angulars_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x,
+                                                          target_norms_sq_f32x));
+            }
+        }
+    }
+    // Phase 3: zero diagonals
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index)
+        result[row_index * result_stride_elements + row_index] = 0;
+}
+NK_PUBLIC void nk_angulars_symmetric_u4_sme(                                          //
+    nk_u4x2_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride, //
+    nk_f32_t *result, nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_size_t const stride_elements = stride / sizeof(nk_u4x2_t);
+    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f32_t);
+    nk_dots_symmetric_u4_sme_streaming_(vectors, n_vectors, depth, stride_elements, (nk_u32_t *)result,
+                                        result_stride_elements, row_start, row_count);
+    nk_angulars_symmetric_u4_sme_finalize_streaming_(vectors, n_vectors, depth, stride_elements, result,
+                                                     result_stride_elements, row_start, row_count);
+}
+__arm_locally_streaming static void nk_euclideans_symmetric_u4_sme_finalize_streaming_(        //
+    nk_u4x2_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride_elements, //
+    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+    // Phase 1: cache row norms on diagonal (store as u32 in f32 slot)
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+        nk_u32_t row_sumsq_u32 = nk_dots_reduce_sumsq_u4_ssve_(vectors + row_index * stride_elements, depth);
+        ((nk_u32_t *)(result + row_index * result_stride_elements))[row_index] = row_sumsq_u32;
+    }
+    // Phase 2: column-first post-processing
+    nk_u32_t norms_cache[256];
+    for (nk_size_t chunk_start = 0; chunk_start < n_vectors; chunk_start += 256) {
+        nk_size_t chunk_end = chunk_start + 256 < n_vectors ? chunk_start + 256 : n_vectors;
+        for (nk_size_t col = chunk_start; col < chunk_end; ++col)
+            norms_cache[col - chunk_start] = nk_dots_reduce_sumsq_u4_ssve_(vectors + col * stride_elements, depth);
+        for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
+            nk_size_t col_start = row_index + 1 > chunk_start ? row_index + 1 : chunk_start;
+            if (col_start >= chunk_end) continue;
+            nk_f32_t *result_row = result + row_index * result_stride_elements;
+            nk_u32_t query_sumsq_u32 = ((nk_u32_t *)result_row)[row_index];
+            svfloat32_t query_norm_sq_f32x = svdup_n_f32((nk_f32_t)query_sumsq_u32);
+            for (nk_size_t col_index = col_start; col_index < chunk_end; col_index += svcntw()) {
+                svbool_t predicate_f32x = svwhilelt_b32_u64(col_index, chunk_end);
+                svfloat32_t dots_f32x = svcvt_f32_u32_x(
+                    predicate_f32x, svld1_u32(predicate_f32x, (nk_u32_t *)(result_row + col_index)));
+                svfloat32_t target_norms_sq_f32x = svcvt_f32_u32_x(
+                    predicate_f32x, svld1_u32(predicate_f32x, norms_cache + (col_index - chunk_start)));
+                svst1_f32(predicate_f32x, result_row + col_index,
+                          nk_euclideans_from_dot_f32x_ssve_(predicate_f32x, dots_f32x, query_norm_sq_f32x,
+                                                            target_norms_sq_f32x));
+            }
+        }
+    }
+    // Phase 3: zero diagonals
+    for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index)
+        result[row_index * result_stride_elements + row_index] = 0;
+}
+NK_PUBLIC void nk_euclideans_symmetric_u4_sme(                                        //
+    nk_u4x2_t const *vectors, nk_size_t n_vectors, nk_size_t depth, nk_size_t stride, //
+    nk_f32_t *result, nk_size_t result_stride, nk_size_t row_start, nk_size_t row_count) {
+    nk_size_t const stride_elements = stride / sizeof(nk_u4x2_t);
+    nk_size_t const result_stride_elements = result_stride / sizeof(nk_f32_t);
+    nk_dots_symmetric_u4_sme_streaming_(vectors, n_vectors, depth, stride_elements, (nk_u32_t *)result,
+                                        result_stride_elements, row_start, row_count);
+    nk_euclideans_symmetric_u4_sme_finalize_streaming_(vectors, n_vectors, depth, stride_elements, result,
+                                                       result_stride_elements, row_start, row_count);
+}
+#pragma endregion // Nibble Unsigned Integers
+#if defined(__clang__)
+#pragma clang attribute pop
+#elif defined(__GNUC__)
+#pragma GCC pop_options
+#endif
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#endif // NK_TARGET_SME
+#endif // NK_TARGET_ARM_
+#endif // NK_SPATIALS_SME_H