npm - numkong - Versions diffs - 7.4.4 → 7.5.0 - Mend

numkong 7.4.4 → 7.5.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (61) hide show

package/README.md +1 -0
package/binding.gyp +81 -5
package/c/dispatch_f16.c +23 -0
package/c/numkong.c +0 -13
package/include/numkong/attention/sme.h +34 -31
package/include/numkong/capabilities.h +2 -15
package/include/numkong/cast/neon.h +15 -0
package/include/numkong/curved/smef64.h +82 -62
package/include/numkong/dot/rvvbf16.h +1 -1
package/include/numkong/dot/rvvhalf.h +1 -1
package/include/numkong/dot/sve.h +6 -5
package/include/numkong/dot/svebfdot.h +2 -1
package/include/numkong/dot/svehalf.h +6 -5
package/include/numkong/dot/svesdot.h +3 -2
package/include/numkong/dots/graniteamx.h +733 -0
package/include/numkong/dots/serial.h +11 -4
package/include/numkong/dots/sme.h +172 -140
package/include/numkong/dots/smebi32.h +14 -11
package/include/numkong/dots/smef64.h +31 -26
package/include/numkong/dots.h +29 -3
package/include/numkong/each/serial.h +22 -0
package/include/numkong/geospatial/haswell.h +1 -1
package/include/numkong/geospatial/neon.h +1 -1
package/include/numkong/geospatial/serial.h +1 -1
package/include/numkong/geospatial/skylake.h +1 -1
package/include/numkong/maxsim/sme.h +94 -55
package/include/numkong/mesh/README.md +13 -27
package/include/numkong/mesh/haswell.h +25 -122
package/include/numkong/mesh/neon.h +21 -110
package/include/numkong/mesh/neonbfdot.h +4 -43
package/include/numkong/mesh/rvv.h +7 -82
package/include/numkong/mesh/serial.h +48 -53
package/include/numkong/mesh/skylake.h +7 -123
package/include/numkong/mesh/v128relaxed.h +9 -93
package/include/numkong/mesh.h +2 -2
package/include/numkong/mesh.hpp +35 -96
package/include/numkong/reduce/neon.h +29 -0
package/include/numkong/reduce/neonbfdot.h +2 -2
package/include/numkong/reduce/neonfhm.h +4 -4
package/include/numkong/reduce/sve.h +52 -0
package/include/numkong/reduce.h +4 -0
package/include/numkong/set/sve.h +6 -5
package/include/numkong/sets/smebi32.h +35 -30
package/include/numkong/sparse/sve2.h +3 -2
package/include/numkong/spatial/sve.h +7 -6
package/include/numkong/spatial/svebfdot.h +7 -4
package/include/numkong/spatial/svehalf.h +5 -4
package/include/numkong/spatial/svesdot.h +9 -8
package/include/numkong/spatials/graniteamx.h +173 -0
package/include/numkong/spatials/serial.h +22 -0
package/include/numkong/spatials/sme.h +391 -350
package/include/numkong/spatials/smef64.h +79 -70
package/include/numkong/spatials.h +37 -4
package/include/numkong/types.h +59 -0
package/javascript/dist/cjs/numkong.js +13 -0
package/javascript/dist/esm/numkong.js +13 -0
package/javascript/numkong.c +56 -12
package/javascript/numkong.ts +13 -0
package/package.json +7 -7
package/probes/probe.js +2 -2
package/wasm/numkong.wasm +0 -0

package/include/numkong/spatials/sme.h CHANGED Viewed

@@ -13,6 +13,7 @@
 #if NK_TARGET_SME
 #include "numkong/dots/serial.h"
+#include "numkong/reduce/sve.h" // `nk_svaddv_f64_`
 #include "numkong/dots/sme.h"
 #if defined(__cplusplus)
@@ -44,7 +45,7 @@ NK_PUBLIC nk_f32_t nk_dots_reduce_sumsq_f16_ssve_(nk_f16_t const *data, nk_size_
         svfloat32_t values_odd_f32x = svcvtlt_f32_f16_x(predicate_odd_b32x, values_f16x);
         accumulator_odd_f32x = svmla_f32_m(predicate_odd_b32x, accumulator_odd_f32x, values_odd_f32x, values_odd_f32x);
     }
-    return svaddv_f32(svptrue_b32(), accumulator_even_f32x) + svaddv_f32(svptrue_b32(), accumulator_odd_f32x);
+    return nk_svaddv_f32_(svptrue_b32(), accumulator_even_f32x) + nk_svaddv_f32_(svptrue_b32(), accumulator_odd_f32x);
 }
 NK_PUBLIC nk_f32_t nk_dots_reduce_sumsq_bf16_ssve_(nk_bf16_t const *data, nk_size_t count) NK_STREAMING_ {
@@ -55,7 +56,7 @@ NK_PUBLIC nk_f32_t nk_dots_reduce_sumsq_bf16_ssve_(nk_bf16_t const *data, nk_siz
         svbfloat16_t values_bf16x = svld1_bf16(predicate_b16x, (nk_bf16_for_arm_simd_t const *)(data + i));
         accumulator_f32x = svbfdot_f32(accumulator_f32x, values_bf16x, values_bf16x);
     }
-    return svaddv_f32(svptrue_b32(), accumulator_f32x);
+    return nk_svaddv_f32_(svptrue_b32(), accumulator_f32x);
 }
 NK_PUBLIC nk_f32_t nk_dots_reduce_sumsq_e4m3_ssve_(nk_e4m3_t const *data, nk_size_t count) NK_STREAMING_ {
@@ -79,7 +80,7 @@ NK_PUBLIC nk_f32_t nk_dots_reduce_sumsq_e4m3_ssve_(nk_e4m3_t const *data, nk_siz
         svfloat32_t values_odd_f32x = svcvtlt_f32_f16_x(predicate_odd_b32x, values_f16x);
         accumulator_odd_f32x = svmla_f32_m(predicate_odd_b32x, accumulator_odd_f32x, values_odd_f32x, values_odd_f32x);
     }
-    return svaddv_f32(svptrue_b32(), accumulator_even_f32x) + svaddv_f32(svptrue_b32(), accumulator_odd_f32x);
+    return nk_svaddv_f32_(svptrue_b32(), accumulator_even_f32x) + nk_svaddv_f32_(svptrue_b32(), accumulator_odd_f32x);
 }
 NK_PUBLIC nk_f32_t nk_dots_reduce_sumsq_e5m2_ssve_(nk_e5m2_t const *data, nk_size_t count) NK_STREAMING_ {
@@ -103,7 +104,7 @@ NK_PUBLIC nk_f32_t nk_dots_reduce_sumsq_e5m2_ssve_(nk_e5m2_t const *data, nk_siz
         svfloat32_t values_odd_f32x = svcvtlt_f32_f16_x(predicate_odd_b32x, values_f16x);
         accumulator_odd_f32x = svmla_f32_m(predicate_odd_b32x, accumulator_odd_f32x, values_odd_f32x, values_odd_f32x);
     }
-    return svaddv_f32(svptrue_b32(), accumulator_even_f32x) + svaddv_f32(svptrue_b32(), accumulator_odd_f32x);
+    return nk_svaddv_f32_(svptrue_b32(), accumulator_even_f32x) + nk_svaddv_f32_(svptrue_b32(), accumulator_odd_f32x);
 }
 NK_PUBLIC nk_f32_t nk_dots_reduce_sumsq_e2m3_ssve_(nk_e2m3_t const *data, nk_size_t count) NK_STREAMING_ {
@@ -115,7 +116,7 @@ NK_PUBLIC nk_f32_t nk_dots_reduce_sumsq_e2m3_ssve_(nk_e2m3_t const *data, nk_siz
         svint8_t values_i8x = nk_e2m3x_to_i8x_ssve_(predicate_b8x, raw_u8x);
         accumulator_i32x = svdot_s32(accumulator_i32x, values_i8x, values_i8x);
     }
-    return (nk_f32_t)svaddv_s32(svptrue_b32(), accumulator_i32x) / 256.0f;
+    return (nk_f32_t)nk_svaddv_s32_(svptrue_b32(), accumulator_i32x) / 256.0f;
 }
 NK_PUBLIC nk_f32_t nk_dots_reduce_sumsq_e3m2_ssve_(nk_e3m2_t const *data, nk_size_t count) NK_STREAMING_ {
@@ -139,7 +140,7 @@ NK_PUBLIC nk_f32_t nk_dots_reduce_sumsq_e3m2_ssve_(nk_e3m2_t const *data, nk_siz
         svfloat32_t values_odd_f32x = svcvtlt_f32_f16_x(predicate_odd_b32x, values_f16x);
         accumulator_odd_f32x = svmla_f32_m(predicate_odd_b32x, accumulator_odd_f32x, values_odd_f32x, values_odd_f32x);
     }
-    return svaddv_f32(svptrue_b32(), accumulator_even_f32x) + svaddv_f32(svptrue_b32(), accumulator_odd_f32x);
+    return nk_svaddv_f32_(svptrue_b32(), accumulator_even_f32x) + nk_svaddv_f32_(svptrue_b32(), accumulator_odd_f32x);
 }
 NK_PUBLIC nk_u32_t nk_dots_reduce_sumsq_i8_ssve_(nk_i8_t const *data, nk_size_t count) NK_STREAMING_ {
@@ -150,7 +151,7 @@ NK_PUBLIC nk_u32_t nk_dots_reduce_sumsq_i8_ssve_(nk_i8_t const *data, nk_size_t
         svint8_t loaded_i8x = svld1_s8(predicate_b8x, data + i);
         accumulator_i32x = svdot_s32(accumulator_i32x, loaded_i8x, loaded_i8x);
     }
-    return (nk_u32_t)svaddv_s32(svptrue_b32(), accumulator_i32x);
+    return (nk_u32_t)nk_svaddv_s32_(svptrue_b32(), accumulator_i32x);
 }
 NK_PUBLIC nk_u32_t nk_dots_reduce_sumsq_u8_ssve_(nk_u8_t const *data, nk_size_t count) NK_STREAMING_ {
@@ -161,7 +162,7 @@ NK_PUBLIC nk_u32_t nk_dots_reduce_sumsq_u8_ssve_(nk_u8_t const *data, nk_size_t
         svuint8_t loaded_u8x = svld1_u8(predicate_b8x, data + i);
         accumulator_u32x = svdot_u32(accumulator_u32x, loaded_u8x, loaded_u8x);
     }
-    return (nk_u32_t)svaddv_u32(svptrue_b32(), accumulator_u32x);
+    return (nk_u32_t)nk_svaddv_u32_(svptrue_b32(), accumulator_u32x);
 }
 NK_PUBLIC nk_u32_t nk_dots_reduce_sumsq_i4_ssve_(nk_i4x2_t const *data, nk_size_t count) NK_STREAMING_ {
@@ -181,7 +182,7 @@ NK_PUBLIC nk_u32_t nk_dots_reduce_sumsq_i4_ssve_(nk_i4x2_t const *data, nk_size_
         accumulator_i32x = svdot_s32(accumulator_i32x, low_i8x, low_i8x);
         accumulator_i32x = svdot_s32(accumulator_i32x, high_i8x, high_i8x);
     }
-    return (nk_u32_t)svaddv_s32(svptrue_b32(), accumulator_i32x);
+    return (nk_u32_t)nk_svaddv_s32_(svptrue_b32(), accumulator_i32x);
 }
 NK_PUBLIC nk_u32_t nk_dots_reduce_sumsq_u4_ssve_(nk_u4x2_t const *data, nk_size_t count) NK_STREAMING_ {
@@ -197,7 +198,7 @@ NK_PUBLIC nk_u32_t nk_dots_reduce_sumsq_u4_ssve_(nk_u4x2_t const *data, nk_size_
         accumulator_u32x = svdot_u32(accumulator_u32x, low_u8x, low_u8x);
         accumulator_u32x = svdot_u32(accumulator_u32x, high_u8x, high_u8x);
     }
-    return (nk_u32_t)svaddv_u32(svptrue_b32(), accumulator_u32x);
+    return (nk_u32_t)nk_svaddv_u32_(svptrue_b32(), accumulator_u32x);
 }
 NK_PUBLIC svfloat32_t nk_angulars_from_dot_f32x_ssve_(svbool_t predicate_b32x, svfloat32_t dots_f32x,
@@ -226,10 +227,9 @@ NK_PUBLIC svfloat32_t nk_euclideans_from_dot_f32x_ssve_(svbool_t predicate_b32x,
 #pragma region F16 Floats
-__arm_locally_streaming static void nk_angulars_packed_f16_sme_finalize_streaming_( //
-    nk_f16_t const *a, void const *b_packed, nk_f32_t *c,                           //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,                             //
-    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+static void nk_angulars_packed_f16_sme_finalize_ssve_( //
+    nk_f16_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) NK_STREAMING_ {
     nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
     nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
     for (nk_size_t row_index = 0; row_index < rows; row_index++) {
@@ -248,21 +248,21 @@ __arm_locally_streaming static void nk_angulars_packed_f16_sme_finalize_streamin
     }
 }
-NK_PUBLIC void nk_angulars_packed_f16_sme(                //
-    nk_f16_t const *a, void const *b_packed, nk_f32_t *c, //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,   //
+NK_PUBLIC void nk_angulars_packed_f16_sme( //
+    nk_f16_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
     nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
     nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_f16_t);
     nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_packed_f16_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
-    nk_angulars_packed_f16_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
-                                                   c_stride_elements);
+    nk_angulars_packed_f16_sme_finalize_ssve_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                              c_stride_elements);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_euclideans_packed_f16_sme_finalize_streaming_( //
-    nk_f16_t const *a, void const *b_packed, nk_f32_t *c,                             //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,                               //
-    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+static void nk_euclideans_packed_f16_sme_finalize_ssve_( //
+    nk_f16_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) NK_STREAMING_ {
     nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
     nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
     for (nk_size_t row_index = 0; row_index < rows; row_index++) {
@@ -281,20 +281,21 @@ __arm_locally_streaming static void nk_euclideans_packed_f16_sme_finalize_stream
     }
 }
-NK_PUBLIC void nk_euclideans_packed_f16_sme(              //
-    nk_f16_t const *a, void const *b_packed, nk_f32_t *c, //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,   //
+NK_PUBLIC void nk_euclideans_packed_f16_sme( //
+    nk_f16_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
     nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
     nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_f16_t);
     nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_packed_f16_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
-    nk_euclideans_packed_f16_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
-                                                     c_stride_elements);
+    nk_euclideans_packed_f16_sme_finalize_ssve_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                c_stride_elements);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_angulars_symmetric_f16_sme_finalize_streaming_(            //
-    nk_f16_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, //
-    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+static void nk_angulars_symmetric_f16_sme_finalize_ssve_( //
+    nk_f16_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f32_t *result,
+    nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) NK_STREAMING_ {
     // Phase 1: cache row norms on diagonal
     for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
         nk_f32_t *result_row = result + row_index * result_stride_elements;
@@ -326,20 +327,22 @@ __arm_locally_streaming static void nk_angulars_symmetric_f16_sme_finalize_strea
         result[row_index * result_stride_elements + row_index] = 0;
 }
-NK_PUBLIC void nk_angulars_symmetric_f16_sme(                                                     //
-    nk_f16_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, //
-    nk_f32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_angulars_symmetric_f16_sme( //
+    nk_f16_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, nk_f32_t *result,
+    nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_f16_t);
     nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_symmetric_f16_sme_streaming_(vectors, vectors_count, depth, stride_elements, result, result_stride_elements,
                                          row_start, row_count);
-    nk_angulars_symmetric_f16_sme_finalize_streaming_(vectors, vectors_count, depth, stride_elements, result,
-                                                      result_stride_elements, row_start, row_count);
+    nk_angulars_symmetric_f16_sme_finalize_ssve_(vectors, vectors_count, depth, stride_elements, result,
+                                                 result_stride_elements, row_start, row_count);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_euclideans_symmetric_f16_sme_finalize_streaming_(          //
-    nk_f16_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, //
-    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+static void nk_euclideans_symmetric_f16_sme_finalize_ssve_( //
+    nk_f16_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f32_t *result,
+    nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) NK_STREAMING_ {
     // Phase 1: cache row norms on diagonal
     for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
         nk_f32_t *result_row = result + row_index * result_stride_elements;
@@ -371,25 +374,26 @@ __arm_locally_streaming static void nk_euclideans_symmetric_f16_sme_finalize_str
         result[row_index * result_stride_elements + row_index] = 0;
 }
-NK_PUBLIC void nk_euclideans_symmetric_f16_sme(                                                   //
-    nk_f16_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, //
-    nk_f32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_euclideans_symmetric_f16_sme( //
+    nk_f16_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, nk_f32_t *result,
+    nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_f16_t);
     nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_symmetric_f16_sme_streaming_(vectors, vectors_count, depth, stride_elements, result, result_stride_elements,
                                          row_start, row_count);
-    nk_euclideans_symmetric_f16_sme_finalize_streaming_(vectors, vectors_count, depth, stride_elements, result,
-                                                        result_stride_elements, row_start, row_count);
+    nk_euclideans_symmetric_f16_sme_finalize_ssve_(vectors, vectors_count, depth, stride_elements, result,
+                                                   result_stride_elements, row_start, row_count);
+    nk_sme_stop_streaming_();
 }
 #pragma endregion F16 Floats
 #pragma region BF16 Floats
-__arm_locally_streaming static void nk_angulars_packed_bf16_sme_finalize_streaming_( //
-    nk_bf16_t const *a, void const *b_packed, nk_f32_t *c,                           //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,                              //
-    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+static void nk_angulars_packed_bf16_sme_finalize_ssve_( //
+    nk_bf16_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) NK_STREAMING_ {
     nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
     nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
     for (nk_size_t row_index = 0; row_index < rows; row_index++) {
@@ -408,21 +412,21 @@ __arm_locally_streaming static void nk_angulars_packed_bf16_sme_finalize_streami
     }
 }
-NK_PUBLIC void nk_angulars_packed_bf16_sme(                //
-    nk_bf16_t const *a, void const *b_packed, nk_f32_t *c, //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+NK_PUBLIC void nk_angulars_packed_bf16_sme( //
+    nk_bf16_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
     nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
     nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_bf16_t);
     nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_packed_bf16_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
-    nk_angulars_packed_bf16_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
-                                                    c_stride_elements);
+    nk_angulars_packed_bf16_sme_finalize_ssve_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                               c_stride_elements);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_euclideans_packed_bf16_sme_finalize_streaming_( //
-    nk_bf16_t const *a, void const *b_packed, nk_f32_t *c,                             //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,                                //
-    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+static void nk_euclideans_packed_bf16_sme_finalize_ssve_( //
+    nk_bf16_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) NK_STREAMING_ {
     nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
     nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
     for (nk_size_t row_index = 0; row_index < rows; row_index++) {
@@ -441,20 +445,21 @@ __arm_locally_streaming static void nk_euclideans_packed_bf16_sme_finalize_strea
     }
 }
-NK_PUBLIC void nk_euclideans_packed_bf16_sme(              //
-    nk_bf16_t const *a, void const *b_packed, nk_f32_t *c, //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+NK_PUBLIC void nk_euclideans_packed_bf16_sme( //
+    nk_bf16_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
     nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
     nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_bf16_t);
     nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_packed_bf16_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
-    nk_euclideans_packed_bf16_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
-                                                      c_stride_elements);
+    nk_euclideans_packed_bf16_sme_finalize_ssve_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                 c_stride_elements);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_angulars_symmetric_bf16_sme_finalize_streaming_(            //
-    nk_bf16_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, //
-    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+static void nk_angulars_symmetric_bf16_sme_finalize_ssve_( //
+    nk_bf16_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f32_t *result,
+    nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) NK_STREAMING_ {
     // Phase 1: cache row norms on diagonal
     for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
         nk_f32_t *result_row = result + row_index * result_stride_elements;
@@ -486,20 +491,22 @@ __arm_locally_streaming static void nk_angulars_symmetric_bf16_sme_finalize_stre
         result[row_index * result_stride_elements + row_index] = 0;
 }
-NK_PUBLIC void nk_angulars_symmetric_bf16_sme(                                                     //
-    nk_bf16_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, //
-    nk_f32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_angulars_symmetric_bf16_sme( //
+    nk_bf16_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, nk_f32_t *result,
+    nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_bf16_t);
     nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_symmetric_bf16_sme_streaming_(vectors, vectors_count, depth, stride_elements, result,
                                           result_stride_elements, row_start, row_count);
-    nk_angulars_symmetric_bf16_sme_finalize_streaming_(vectors, vectors_count, depth, stride_elements, result,
-                                                       result_stride_elements, row_start, row_count);
+    nk_angulars_symmetric_bf16_sme_finalize_ssve_(vectors, vectors_count, depth, stride_elements, result,
+                                                  result_stride_elements, row_start, row_count);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_euclideans_symmetric_bf16_sme_finalize_streaming_(          //
-    nk_bf16_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, //
-    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+static void nk_euclideans_symmetric_bf16_sme_finalize_ssve_( //
+    nk_bf16_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f32_t *result,
+    nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) NK_STREAMING_ {
     // Phase 1: cache row norms on diagonal
     for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
         nk_f32_t *result_row = result + row_index * result_stride_elements;
@@ -531,25 +538,26 @@ __arm_locally_streaming static void nk_euclideans_symmetric_bf16_sme_finalize_st
         result[row_index * result_stride_elements + row_index] = 0;
 }
-NK_PUBLIC void nk_euclideans_symmetric_bf16_sme(                                                   //
-    nk_bf16_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, //
-    nk_f32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_euclideans_symmetric_bf16_sme( //
+    nk_bf16_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, nk_f32_t *result,
+    nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_bf16_t);
     nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_symmetric_bf16_sme_streaming_(vectors, vectors_count, depth, stride_elements, result,
                                           result_stride_elements, row_start, row_count);
-    nk_euclideans_symmetric_bf16_sme_finalize_streaming_(vectors, vectors_count, depth, stride_elements, result,
-                                                         result_stride_elements, row_start, row_count);
+    nk_euclideans_symmetric_bf16_sme_finalize_ssve_(vectors, vectors_count, depth, stride_elements, result,
+                                                    result_stride_elements, row_start, row_count);
+    nk_sme_stop_streaming_();
 }
 #pragma endregion BF16 Floats
 #pragma region E4M3 Floats
-__arm_locally_streaming static void nk_angulars_packed_e4m3_sme_finalize_streaming_( //
-    nk_e4m3_t const *a, void const *b_packed, nk_f32_t *c,                           //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,                              //
-    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+static void nk_angulars_packed_e4m3_sme_finalize_ssve_( //
+    nk_e4m3_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) NK_STREAMING_ {
     nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
     nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
     for (nk_size_t row_index = 0; row_index < rows; row_index++) {
@@ -568,21 +576,21 @@ __arm_locally_streaming static void nk_angulars_packed_e4m3_sme_finalize_streami
     }
 }
-NK_PUBLIC void nk_angulars_packed_e4m3_sme(                //
-    nk_e4m3_t const *a, void const *b_packed, nk_f32_t *c, //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+NK_PUBLIC void nk_angulars_packed_e4m3_sme( //
+    nk_e4m3_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
     nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
     nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_e4m3_t);
     nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_packed_e4m3_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
-    nk_angulars_packed_e4m3_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
-                                                    c_stride_elements);
+    nk_angulars_packed_e4m3_sme_finalize_ssve_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                               c_stride_elements);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_euclideans_packed_e4m3_sme_finalize_streaming_( //
-    nk_e4m3_t const *a, void const *b_packed, nk_f32_t *c,                             //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,                                //
-    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+static void nk_euclideans_packed_e4m3_sme_finalize_ssve_( //
+    nk_e4m3_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) NK_STREAMING_ {
     nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
     nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
     for (nk_size_t row_index = 0; row_index < rows; row_index++) {
@@ -601,20 +609,21 @@ __arm_locally_streaming static void nk_euclideans_packed_e4m3_sme_finalize_strea
     }
 }
-NK_PUBLIC void nk_euclideans_packed_e4m3_sme(              //
-    nk_e4m3_t const *a, void const *b_packed, nk_f32_t *c, //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+NK_PUBLIC void nk_euclideans_packed_e4m3_sme( //
+    nk_e4m3_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
     nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
     nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_e4m3_t);
     nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_packed_e4m3_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
-    nk_euclideans_packed_e4m3_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
-                                                      c_stride_elements);
+    nk_euclideans_packed_e4m3_sme_finalize_ssve_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                 c_stride_elements);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_angulars_symmetric_e4m3_sme_finalize_streaming_(            //
-    nk_e4m3_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, //
-    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+static void nk_angulars_symmetric_e4m3_sme_finalize_ssve_( //
+    nk_e4m3_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f32_t *result,
+    nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) NK_STREAMING_ {
     // Phase 1: cache row norms on diagonal
     for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
         nk_f32_t *result_row = result + row_index * result_stride_elements;
@@ -646,20 +655,22 @@ __arm_locally_streaming static void nk_angulars_symmetric_e4m3_sme_finalize_stre
         result[row_index * result_stride_elements + row_index] = 0;
 }
-NK_PUBLIC void nk_angulars_symmetric_e4m3_sme(                                                     //
-    nk_e4m3_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, //
-    nk_f32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_angulars_symmetric_e4m3_sme( //
+    nk_e4m3_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, nk_f32_t *result,
+    nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_e4m3_t);
     nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_symmetric_e4m3_sme_streaming_(vectors, vectors_count, depth, stride_elements, result,
                                           result_stride_elements, row_start, row_count);
-    nk_angulars_symmetric_e4m3_sme_finalize_streaming_(vectors, vectors_count, depth, stride_elements, result,
-                                                       result_stride_elements, row_start, row_count);
+    nk_angulars_symmetric_e4m3_sme_finalize_ssve_(vectors, vectors_count, depth, stride_elements, result,
+                                                  result_stride_elements, row_start, row_count);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_euclideans_symmetric_e4m3_sme_finalize_streaming_(          //
-    nk_e4m3_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, //
-    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+static void nk_euclideans_symmetric_e4m3_sme_finalize_ssve_( //
+    nk_e4m3_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f32_t *result,
+    nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) NK_STREAMING_ {
     // Phase 1: cache row norms on diagonal
     for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
         nk_f32_t *result_row = result + row_index * result_stride_elements;
@@ -691,25 +702,26 @@ __arm_locally_streaming static void nk_euclideans_symmetric_e4m3_sme_finalize_st
         result[row_index * result_stride_elements + row_index] = 0;
 }
-NK_PUBLIC void nk_euclideans_symmetric_e4m3_sme(                                                   //
-    nk_e4m3_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, //
-    nk_f32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_euclideans_symmetric_e4m3_sme( //
+    nk_e4m3_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, nk_f32_t *result,
+    nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_e4m3_t);
     nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_symmetric_e4m3_sme_streaming_(vectors, vectors_count, depth, stride_elements, result,
                                           result_stride_elements, row_start, row_count);
-    nk_euclideans_symmetric_e4m3_sme_finalize_streaming_(vectors, vectors_count, depth, stride_elements, result,
-                                                         result_stride_elements, row_start, row_count);
+    nk_euclideans_symmetric_e4m3_sme_finalize_ssve_(vectors, vectors_count, depth, stride_elements, result,
+                                                    result_stride_elements, row_start, row_count);
+    nk_sme_stop_streaming_();
 }
 #pragma endregion E4M3 Floats
 #pragma region E5M2 Floats
-__arm_locally_streaming static void nk_angulars_packed_e5m2_sme_finalize_streaming_( //
-    nk_e5m2_t const *a, void const *b_packed, nk_f32_t *c,                           //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,                              //
-    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+static void nk_angulars_packed_e5m2_sme_finalize_ssve_( //
+    nk_e5m2_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) NK_STREAMING_ {
     nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
     nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
     for (nk_size_t row_index = 0; row_index < rows; row_index++) {
@@ -728,21 +740,21 @@ __arm_locally_streaming static void nk_angulars_packed_e5m2_sme_finalize_streami
     }
 }
-NK_PUBLIC void nk_angulars_packed_e5m2_sme(                //
-    nk_e5m2_t const *a, void const *b_packed, nk_f32_t *c, //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+NK_PUBLIC void nk_angulars_packed_e5m2_sme( //
+    nk_e5m2_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
     nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
     nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_e5m2_t);
     nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_packed_e5m2_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
-    nk_angulars_packed_e5m2_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
-                                                    c_stride_elements);
+    nk_angulars_packed_e5m2_sme_finalize_ssve_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                               c_stride_elements);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_euclideans_packed_e5m2_sme_finalize_streaming_( //
-    nk_e5m2_t const *a, void const *b_packed, nk_f32_t *c,                             //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,                                //
-    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+static void nk_euclideans_packed_e5m2_sme_finalize_ssve_( //
+    nk_e5m2_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) NK_STREAMING_ {
     nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
     nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
     for (nk_size_t row_index = 0; row_index < rows; row_index++) {
@@ -761,20 +773,21 @@ __arm_locally_streaming static void nk_euclideans_packed_e5m2_sme_finalize_strea
     }
 }
-NK_PUBLIC void nk_euclideans_packed_e5m2_sme(              //
-    nk_e5m2_t const *a, void const *b_packed, nk_f32_t *c, //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+NK_PUBLIC void nk_euclideans_packed_e5m2_sme( //
+    nk_e5m2_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
     nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
     nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_e5m2_t);
     nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_packed_e5m2_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
-    nk_euclideans_packed_e5m2_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
-                                                      c_stride_elements);
+    nk_euclideans_packed_e5m2_sme_finalize_ssve_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                 c_stride_elements);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_angulars_symmetric_e5m2_sme_finalize_streaming_(            //
-    nk_e5m2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, //
-    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+static void nk_angulars_symmetric_e5m2_sme_finalize_ssve_( //
+    nk_e5m2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f32_t *result,
+    nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) NK_STREAMING_ {
     // Phase 1: cache row norms on diagonal
     for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
         nk_f32_t *result_row = result + row_index * result_stride_elements;
@@ -806,20 +819,22 @@ __arm_locally_streaming static void nk_angulars_symmetric_e5m2_sme_finalize_stre
         result[row_index * result_stride_elements + row_index] = 0;
 }
-NK_PUBLIC void nk_angulars_symmetric_e5m2_sme(                                                     //
-    nk_e5m2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, //
-    nk_f32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_angulars_symmetric_e5m2_sme( //
+    nk_e5m2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, nk_f32_t *result,
+    nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_e5m2_t);
     nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_symmetric_e5m2_sme_streaming_(vectors, vectors_count, depth, stride_elements, result,
                                           result_stride_elements, row_start, row_count);
-    nk_angulars_symmetric_e5m2_sme_finalize_streaming_(vectors, vectors_count, depth, stride_elements, result,
-                                                       result_stride_elements, row_start, row_count);
+    nk_angulars_symmetric_e5m2_sme_finalize_ssve_(vectors, vectors_count, depth, stride_elements, result,
+                                                  result_stride_elements, row_start, row_count);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_euclideans_symmetric_e5m2_sme_finalize_streaming_(          //
-    nk_e5m2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, //
-    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+static void nk_euclideans_symmetric_e5m2_sme_finalize_ssve_( //
+    nk_e5m2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f32_t *result,
+    nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) NK_STREAMING_ {
     // Phase 1: cache row norms on diagonal
     for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
         nk_f32_t *result_row = result + row_index * result_stride_elements;
@@ -851,25 +866,26 @@ __arm_locally_streaming static void nk_euclideans_symmetric_e5m2_sme_finalize_st
         result[row_index * result_stride_elements + row_index] = 0;
 }
-NK_PUBLIC void nk_euclideans_symmetric_e5m2_sme(                                                   //
-    nk_e5m2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, //
-    nk_f32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_euclideans_symmetric_e5m2_sme( //
+    nk_e5m2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, nk_f32_t *result,
+    nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_e5m2_t);
     nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_symmetric_e5m2_sme_streaming_(vectors, vectors_count, depth, stride_elements, result,
                                           result_stride_elements, row_start, row_count);
-    nk_euclideans_symmetric_e5m2_sme_finalize_streaming_(vectors, vectors_count, depth, stride_elements, result,
-                                                         result_stride_elements, row_start, row_count);
+    nk_euclideans_symmetric_e5m2_sme_finalize_ssve_(vectors, vectors_count, depth, stride_elements, result,
+                                                    result_stride_elements, row_start, row_count);
+    nk_sme_stop_streaming_();
 }
 #pragma endregion E5M2 Floats
 #pragma region E2M3 Floats
-__arm_locally_streaming static void nk_angulars_packed_e2m3_sme_finalize_streaming_( //
-    nk_e2m3_t const *a, void const *b_packed, nk_f32_t *c,                           //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,                              //
-    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+static void nk_angulars_packed_e2m3_sme_finalize_ssve_( //
+    nk_e2m3_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) NK_STREAMING_ {
     nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
     nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
     for (nk_size_t row_index = 0; row_index < rows; row_index++) {
@@ -888,21 +904,21 @@ __arm_locally_streaming static void nk_angulars_packed_e2m3_sme_finalize_streami
     }
 }
-NK_PUBLIC void nk_angulars_packed_e2m3_sme(                //
-    nk_e2m3_t const *a, void const *b_packed, nk_f32_t *c, //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+NK_PUBLIC void nk_angulars_packed_e2m3_sme( //
+    nk_e2m3_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
     nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
     nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_e2m3_t);
     nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_packed_e2m3_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
-    nk_angulars_packed_e2m3_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
-                                                    c_stride_elements);
+    nk_angulars_packed_e2m3_sme_finalize_ssve_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                               c_stride_elements);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_euclideans_packed_e2m3_sme_finalize_streaming_( //
-    nk_e2m3_t const *a, void const *b_packed, nk_f32_t *c,                             //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,                                //
-    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+static void nk_euclideans_packed_e2m3_sme_finalize_ssve_( //
+    nk_e2m3_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) NK_STREAMING_ {
     nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
     nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
     for (nk_size_t row_index = 0; row_index < rows; row_index++) {
@@ -921,20 +937,21 @@ __arm_locally_streaming static void nk_euclideans_packed_e2m3_sme_finalize_strea
     }
 }
-NK_PUBLIC void nk_euclideans_packed_e2m3_sme(              //
-    nk_e2m3_t const *a, void const *b_packed, nk_f32_t *c, //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+NK_PUBLIC void nk_euclideans_packed_e2m3_sme( //
+    nk_e2m3_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
     nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
     nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_e2m3_t);
     nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_packed_e2m3_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
-    nk_euclideans_packed_e2m3_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
-                                                      c_stride_elements);
+    nk_euclideans_packed_e2m3_sme_finalize_ssve_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                 c_stride_elements);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_angulars_symmetric_e2m3_sme_finalize_streaming_(            //
-    nk_e2m3_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, //
-    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+static void nk_angulars_symmetric_e2m3_sme_finalize_ssve_( //
+    nk_e2m3_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f32_t *result,
+    nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) NK_STREAMING_ {
     // Phase 1: cache row norms on diagonal
     for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
         nk_f32_t *result_row = result + row_index * result_stride_elements;
@@ -966,20 +983,22 @@ __arm_locally_streaming static void nk_angulars_symmetric_e2m3_sme_finalize_stre
         result[row_index * result_stride_elements + row_index] = 0;
 }
-NK_PUBLIC void nk_angulars_symmetric_e2m3_sme(                                                     //
-    nk_e2m3_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, //
-    nk_f32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_angulars_symmetric_e2m3_sme( //
+    nk_e2m3_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, nk_f32_t *result,
+    nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_e2m3_t);
     nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_symmetric_e2m3_sme_streaming_(vectors, vectors_count, depth, stride_elements, result,
                                           result_stride_elements, row_start, row_count);
-    nk_angulars_symmetric_e2m3_sme_finalize_streaming_(vectors, vectors_count, depth, stride_elements, result,
-                                                       result_stride_elements, row_start, row_count);
+    nk_angulars_symmetric_e2m3_sme_finalize_ssve_(vectors, vectors_count, depth, stride_elements, result,
+                                                  result_stride_elements, row_start, row_count);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_euclideans_symmetric_e2m3_sme_finalize_streaming_(          //
-    nk_e2m3_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, //
-    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+static void nk_euclideans_symmetric_e2m3_sme_finalize_ssve_( //
+    nk_e2m3_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f32_t *result,
+    nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) NK_STREAMING_ {
     // Phase 1: cache row norms on diagonal
     for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
         nk_f32_t *result_row = result + row_index * result_stride_elements;
@@ -1011,25 +1030,26 @@ __arm_locally_streaming static void nk_euclideans_symmetric_e2m3_sme_finalize_st
         result[row_index * result_stride_elements + row_index] = 0;
 }
-NK_PUBLIC void nk_euclideans_symmetric_e2m3_sme(                                                   //
-    nk_e2m3_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, //
-    nk_f32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_euclideans_symmetric_e2m3_sme( //
+    nk_e2m3_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, nk_f32_t *result,
+    nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_e2m3_t);
     nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_symmetric_e2m3_sme_streaming_(vectors, vectors_count, depth, stride_elements, result,
                                           result_stride_elements, row_start, row_count);
-    nk_euclideans_symmetric_e2m3_sme_finalize_streaming_(vectors, vectors_count, depth, stride_elements, result,
-                                                         result_stride_elements, row_start, row_count);
+    nk_euclideans_symmetric_e2m3_sme_finalize_ssve_(vectors, vectors_count, depth, stride_elements, result,
+                                                    result_stride_elements, row_start, row_count);
+    nk_sme_stop_streaming_();
 }
 #pragma endregion E2M3 Floats
 #pragma region E3M2 Floats
-__arm_locally_streaming static void nk_angulars_packed_e3m2_sme_finalize_streaming_( //
-    nk_e3m2_t const *a, void const *b_packed, nk_f32_t *c,                           //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,                              //
-    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+static void nk_angulars_packed_e3m2_sme_finalize_ssve_( //
+    nk_e3m2_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) NK_STREAMING_ {
     nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
     nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
     for (nk_size_t row_index = 0; row_index < rows; row_index++) {
@@ -1048,21 +1068,21 @@ __arm_locally_streaming static void nk_angulars_packed_e3m2_sme_finalize_streami
     }
 }
-NK_PUBLIC void nk_angulars_packed_e3m2_sme(                //
-    nk_e3m2_t const *a, void const *b_packed, nk_f32_t *c, //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+NK_PUBLIC void nk_angulars_packed_e3m2_sme( //
+    nk_e3m2_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
     nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
     nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_e3m2_t);
     nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_packed_e3m2_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
-    nk_angulars_packed_e3m2_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
-                                                    c_stride_elements);
+    nk_angulars_packed_e3m2_sme_finalize_ssve_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                               c_stride_elements);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_euclideans_packed_e3m2_sme_finalize_streaming_( //
-    nk_e3m2_t const *a, void const *b_packed, nk_f32_t *c,                             //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,                                //
-    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+static void nk_euclideans_packed_e3m2_sme_finalize_ssve_( //
+    nk_e3m2_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) NK_STREAMING_ {
     nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
     nk_f32_t const *b_norms = (nk_f32_t const *)((char const *)b_packed + header->norms_offset);
     for (nk_size_t row_index = 0; row_index < rows; row_index++) {
@@ -1081,20 +1101,21 @@ __arm_locally_streaming static void nk_euclideans_packed_e3m2_sme_finalize_strea
     }
 }
-NK_PUBLIC void nk_euclideans_packed_e3m2_sme(              //
-    nk_e3m2_t const *a, void const *b_packed, nk_f32_t *c, //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+NK_PUBLIC void nk_euclideans_packed_e3m2_sme( //
+    nk_e3m2_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
     nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
     nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_e3m2_t);
     nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_packed_e3m2_sme_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements, c_stride_elements);
-    nk_euclideans_packed_e3m2_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
-                                                      c_stride_elements);
+    nk_euclideans_packed_e3m2_sme_finalize_ssve_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                                 c_stride_elements);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_angulars_symmetric_e3m2_sme_finalize_streaming_(            //
-    nk_e3m2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, //
-    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+static void nk_angulars_symmetric_e3m2_sme_finalize_ssve_( //
+    nk_e3m2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f32_t *result,
+    nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) NK_STREAMING_ {
     // Phase 1: cache row norms on diagonal
     for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
         nk_f32_t *result_row = result + row_index * result_stride_elements;
@@ -1126,20 +1147,22 @@ __arm_locally_streaming static void nk_angulars_symmetric_e3m2_sme_finalize_stre
         result[row_index * result_stride_elements + row_index] = 0;
 }
-NK_PUBLIC void nk_angulars_symmetric_e3m2_sme(                                                     //
-    nk_e3m2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, //
-    nk_f32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_angulars_symmetric_e3m2_sme( //
+    nk_e3m2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, nk_f32_t *result,
+    nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_e3m2_t);
     nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_symmetric_e3m2_sme_streaming_(vectors, vectors_count, depth, stride_elements, result,
                                           result_stride_elements, row_start, row_count);
-    nk_angulars_symmetric_e3m2_sme_finalize_streaming_(vectors, vectors_count, depth, stride_elements, result,
-                                                       result_stride_elements, row_start, row_count);
+    nk_angulars_symmetric_e3m2_sme_finalize_ssve_(vectors, vectors_count, depth, stride_elements, result,
+                                                  result_stride_elements, row_start, row_count);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_euclideans_symmetric_e3m2_sme_finalize_streaming_(          //
-    nk_e3m2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, //
-    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+static void nk_euclideans_symmetric_e3m2_sme_finalize_ssve_( //
+    nk_e3m2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f32_t *result,
+    nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) NK_STREAMING_ {
     // Phase 1: cache row norms on diagonal
     for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
         nk_f32_t *result_row = result + row_index * result_stride_elements;
@@ -1171,24 +1194,25 @@ __arm_locally_streaming static void nk_euclideans_symmetric_e3m2_sme_finalize_st
         result[row_index * result_stride_elements + row_index] = 0;
 }
-NK_PUBLIC void nk_euclideans_symmetric_e3m2_sme(                                                   //
-    nk_e3m2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, //
-    nk_f32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_euclideans_symmetric_e3m2_sme( //
+    nk_e3m2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, nk_f32_t *result,
+    nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_e3m2_t);
     nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_symmetric_e3m2_sme_streaming_(vectors, vectors_count, depth, stride_elements, result,
                                           result_stride_elements, row_start, row_count);
-    nk_euclideans_symmetric_e3m2_sme_finalize_streaming_(vectors, vectors_count, depth, stride_elements, result,
-                                                         result_stride_elements, row_start, row_count);
+    nk_euclideans_symmetric_e3m2_sme_finalize_ssve_(vectors, vectors_count, depth, stride_elements, result,
+                                                    result_stride_elements, row_start, row_count);
+    nk_sme_stop_streaming_();
 }
 #pragma endregion E3M2 Floats
 #pragma region I8 Integers
-__arm_locally_streaming static void nk_angulars_packed_i8_sme_finalize_streaming_( //
-    nk_i8_t const *a, void const *b_packed, nk_f32_t *c,                           //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,                            //
-    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+static void nk_angulars_packed_i8_sme_finalize_ssve_( //
+    nk_i8_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) NK_STREAMING_ {
     nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
     nk_u32_t const *b_norms = (nk_u32_t const *)((char const *)b_packed + header->norms_offset);
     for (nk_size_t row_index = 0; row_index < rows; row_index++) {
@@ -1209,22 +1233,22 @@ __arm_locally_streaming static void nk_angulars_packed_i8_sme_finalize_streaming
     }
 }
-NK_PUBLIC void nk_angulars_packed_i8_sme(                //
-    nk_i8_t const *a, void const *b_packed, nk_f32_t *c, //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,  //
+NK_PUBLIC void nk_angulars_packed_i8_sme( //
+    nk_i8_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
     nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
     nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_i8_t);
     nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_packed_i8_sme_streaming_(a, b_packed, (nk_i32_t *)c, rows, columns, depth, a_stride_elements,
                                      c_stride_elements);
-    nk_angulars_packed_i8_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
-                                                  c_stride_elements);
+    nk_angulars_packed_i8_sme_finalize_ssve_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                             c_stride_elements);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_euclideans_packed_i8_sme_finalize_streaming_( //
-    nk_i8_t const *a, void const *b_packed, nk_f32_t *c,                             //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,                              //
-    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+static void nk_euclideans_packed_i8_sme_finalize_ssve_( //
+    nk_i8_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) NK_STREAMING_ {
     nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
     nk_u32_t const *b_norms = (nk_u32_t const *)((char const *)b_packed + header->norms_offset);
     for (nk_size_t row_index = 0; row_index < rows; row_index++) {
@@ -1245,21 +1269,22 @@ __arm_locally_streaming static void nk_euclideans_packed_i8_sme_finalize_streami
     }
 }
-NK_PUBLIC void nk_euclideans_packed_i8_sme(              //
-    nk_i8_t const *a, void const *b_packed, nk_f32_t *c, //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,  //
+NK_PUBLIC void nk_euclideans_packed_i8_sme( //
+    nk_i8_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
     nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
     nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_i8_t);
     nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_packed_i8_sme_streaming_(a, b_packed, (nk_i32_t *)c, rows, columns, depth, a_stride_elements,
                                      c_stride_elements);
-    nk_euclideans_packed_i8_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
-                                                    c_stride_elements);
+    nk_euclideans_packed_i8_sme_finalize_ssve_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                               c_stride_elements);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_angulars_symmetric_i8_sme_finalize_streaming_(            //
-    nk_i8_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, //
-    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+static void nk_angulars_symmetric_i8_sme_finalize_ssve_( //
+    nk_i8_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f32_t *result,
+    nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) NK_STREAMING_ {
     // Phase 1: cache row norms on diagonal (store as u32 in f32 slot)
     for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
         nk_u32_t row_sumsq_u32 = nk_dots_reduce_sumsq_i8_ssve_(vectors + row_index * stride_elements, depth);
@@ -1294,20 +1319,22 @@ __arm_locally_streaming static void nk_angulars_symmetric_i8_sme_finalize_stream
         result[row_index * result_stride_elements + row_index] = 0;
 }
-NK_PUBLIC void nk_angulars_symmetric_i8_sme(                                                     //
-    nk_i8_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, //
-    nk_f32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_angulars_symmetric_i8_sme( //
+    nk_i8_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, nk_f32_t *result,
+    nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_i8_t);
     nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_symmetric_i8_sme_streaming_(vectors, vectors_count, depth, stride_elements, (nk_i32_t *)result,
                                         result_stride_elements, row_start, row_count);
-    nk_angulars_symmetric_i8_sme_finalize_streaming_(vectors, vectors_count, depth, stride_elements, result,
-                                                     result_stride_elements, row_start, row_count);
+    nk_angulars_symmetric_i8_sme_finalize_ssve_(vectors, vectors_count, depth, stride_elements, result,
+                                                result_stride_elements, row_start, row_count);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_euclideans_symmetric_i8_sme_finalize_streaming_(          //
-    nk_i8_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, //
-    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+static void nk_euclideans_symmetric_i8_sme_finalize_ssve_( //
+    nk_i8_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f32_t *result,
+    nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) NK_STREAMING_ {
     // Phase 1: cache row norms on diagonal (store as u32 in f32 slot)
     for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
         nk_u32_t row_sumsq_u32 = nk_dots_reduce_sumsq_i8_ssve_(vectors + row_index * stride_elements, depth);
@@ -1342,25 +1369,26 @@ __arm_locally_streaming static void nk_euclideans_symmetric_i8_sme_finalize_stre
         result[row_index * result_stride_elements + row_index] = 0;
 }
-NK_PUBLIC void nk_euclideans_symmetric_i8_sme(                                                   //
-    nk_i8_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, //
-    nk_f32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_euclideans_symmetric_i8_sme( //
+    nk_i8_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, nk_f32_t *result,
+    nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_i8_t);
     nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_symmetric_i8_sme_streaming_(vectors, vectors_count, depth, stride_elements, (nk_i32_t *)result,
                                         result_stride_elements, row_start, row_count);
-    nk_euclideans_symmetric_i8_sme_finalize_streaming_(vectors, vectors_count, depth, stride_elements, result,
-                                                       result_stride_elements, row_start, row_count);
+    nk_euclideans_symmetric_i8_sme_finalize_ssve_(vectors, vectors_count, depth, stride_elements, result,
+                                                  result_stride_elements, row_start, row_count);
+    nk_sme_stop_streaming_();
 }
 #pragma endregion I8 Integers
 #pragma region U8 Integers
-__arm_locally_streaming static void nk_angulars_packed_u8_sme_finalize_streaming_( //
-    nk_u8_t const *a, void const *b_packed, nk_f32_t *c,                           //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,                            //
-    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+static void nk_angulars_packed_u8_sme_finalize_ssve_( //
+    nk_u8_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) NK_STREAMING_ {
     nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
     nk_u32_t const *b_norms = (nk_u32_t const *)((char const *)b_packed + header->norms_offset);
     for (nk_size_t row_index = 0; row_index < rows; row_index++) {
@@ -1381,22 +1409,22 @@ __arm_locally_streaming static void nk_angulars_packed_u8_sme_finalize_streaming
     }
 }
-NK_PUBLIC void nk_angulars_packed_u8_sme(                //
-    nk_u8_t const *a, void const *b_packed, nk_f32_t *c, //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,  //
+NK_PUBLIC void nk_angulars_packed_u8_sme( //
+    nk_u8_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
     nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
     nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_u8_t);
     nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_packed_u8_sme_streaming_(a, b_packed, (nk_u32_t *)c, rows, columns, depth, a_stride_elements,
                                      c_stride_elements);
-    nk_angulars_packed_u8_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
-                                                  c_stride_elements);
+    nk_angulars_packed_u8_sme_finalize_ssve_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                             c_stride_elements);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_euclideans_packed_u8_sme_finalize_streaming_( //
-    nk_u8_t const *a, void const *b_packed, nk_f32_t *c,                             //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,                              //
-    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+static void nk_euclideans_packed_u8_sme_finalize_ssve_( //
+    nk_u8_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) NK_STREAMING_ {
     nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
     nk_u32_t const *b_norms = (nk_u32_t const *)((char const *)b_packed + header->norms_offset);
     for (nk_size_t row_index = 0; row_index < rows; row_index++) {
@@ -1417,21 +1445,22 @@ __arm_locally_streaming static void nk_euclideans_packed_u8_sme_finalize_streami
     }
 }
-NK_PUBLIC void nk_euclideans_packed_u8_sme(              //
-    nk_u8_t const *a, void const *b_packed, nk_f32_t *c, //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,  //
+NK_PUBLIC void nk_euclideans_packed_u8_sme( //
+    nk_u8_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
     nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
     nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_u8_t);
     nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_packed_u8_sme_streaming_(a, b_packed, (nk_u32_t *)c, rows, columns, depth, a_stride_elements,
                                      c_stride_elements);
-    nk_euclideans_packed_u8_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
-                                                    c_stride_elements);
+    nk_euclideans_packed_u8_sme_finalize_ssve_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                               c_stride_elements);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_angulars_symmetric_u8_sme_finalize_streaming_(            //
-    nk_u8_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, //
-    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+static void nk_angulars_symmetric_u8_sme_finalize_ssve_( //
+    nk_u8_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f32_t *result,
+    nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) NK_STREAMING_ {
     // Phase 1: cache row norms on diagonal (store as u32 in f32 slot)
     for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
         nk_u32_t row_sumsq_u32 = nk_dots_reduce_sumsq_u8_ssve_(vectors + row_index * stride_elements, depth);
@@ -1466,20 +1495,22 @@ __arm_locally_streaming static void nk_angulars_symmetric_u8_sme_finalize_stream
         result[row_index * result_stride_elements + row_index] = 0;
 }
-NK_PUBLIC void nk_angulars_symmetric_u8_sme(                                                     //
-    nk_u8_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, //
-    nk_f32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_angulars_symmetric_u8_sme( //
+    nk_u8_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, nk_f32_t *result,
+    nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_u8_t);
     nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_symmetric_u8_sme_streaming_(vectors, vectors_count, depth, stride_elements, (nk_u32_t *)result,
                                         result_stride_elements, row_start, row_count);
-    nk_angulars_symmetric_u8_sme_finalize_streaming_(vectors, vectors_count, depth, stride_elements, result,
-                                                     result_stride_elements, row_start, row_count);
+    nk_angulars_symmetric_u8_sme_finalize_ssve_(vectors, vectors_count, depth, stride_elements, result,
+                                                result_stride_elements, row_start, row_count);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_euclideans_symmetric_u8_sme_finalize_streaming_(          //
-    nk_u8_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, //
-    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+static void nk_euclideans_symmetric_u8_sme_finalize_ssve_( //
+    nk_u8_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f32_t *result,
+    nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) NK_STREAMING_ {
     // Phase 1: cache row norms on diagonal (store as u32 in f32 slot)
     for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
         nk_u32_t row_sumsq_u32 = nk_dots_reduce_sumsq_u8_ssve_(vectors + row_index * stride_elements, depth);
@@ -1514,25 +1545,26 @@ __arm_locally_streaming static void nk_euclideans_symmetric_u8_sme_finalize_stre
         result[row_index * result_stride_elements + row_index] = 0;
 }
-NK_PUBLIC void nk_euclideans_symmetric_u8_sme(                                                   //
-    nk_u8_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, //
-    nk_f32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_euclideans_symmetric_u8_sme( //
+    nk_u8_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, nk_f32_t *result,
+    nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_u8_t);
     nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_symmetric_u8_sme_streaming_(vectors, vectors_count, depth, stride_elements, (nk_u32_t *)result,
                                         result_stride_elements, row_start, row_count);
-    nk_euclideans_symmetric_u8_sme_finalize_streaming_(vectors, vectors_count, depth, stride_elements, result,
-                                                       result_stride_elements, row_start, row_count);
+    nk_euclideans_symmetric_u8_sme_finalize_ssve_(vectors, vectors_count, depth, stride_elements, result,
+                                                  result_stride_elements, row_start, row_count);
+    nk_sme_stop_streaming_();
 }
 #pragma endregion U8 Integers
 #pragma region I4 Integers
-__arm_locally_streaming static void nk_angulars_packed_i4_sme_finalize_streaming_( //
-    nk_i4x2_t const *a, void const *b_packed, nk_f32_t *c,                         //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,                            //
-    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+static void nk_angulars_packed_i4_sme_finalize_ssve_( //
+    nk_i4x2_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) NK_STREAMING_ {
     nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
     nk_u32_t const *b_norms = (nk_u32_t const *)((char const *)b_packed + header->norms_offset);
     for (nk_size_t row_index = 0; row_index < rows; row_index++) {
@@ -1553,22 +1585,22 @@ __arm_locally_streaming static void nk_angulars_packed_i4_sme_finalize_streaming
     }
 }
-NK_PUBLIC void nk_angulars_packed_i4_sme(                  //
-    nk_i4x2_t const *a, void const *b_packed, nk_f32_t *c, //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+NK_PUBLIC void nk_angulars_packed_i4_sme( //
+    nk_i4x2_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
     nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
     nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_i4x2_t);
     nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_packed_i4_sme_streaming_(a, b_packed, (nk_i32_t *)c, rows, columns, depth, a_stride_elements,
                                      c_stride_elements);
-    nk_angulars_packed_i4_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
-                                                  c_stride_elements);
+    nk_angulars_packed_i4_sme_finalize_ssve_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                             c_stride_elements);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_euclideans_packed_i4_sme_finalize_streaming_( //
-    nk_i4x2_t const *a, void const *b_packed, nk_f32_t *c,                           //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,                              //
-    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+static void nk_euclideans_packed_i4_sme_finalize_ssve_( //
+    nk_i4x2_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) NK_STREAMING_ {
     nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
     nk_u32_t const *b_norms = (nk_u32_t const *)((char const *)b_packed + header->norms_offset);
     for (nk_size_t row_index = 0; row_index < rows; row_index++) {
@@ -1589,21 +1621,22 @@ __arm_locally_streaming static void nk_euclideans_packed_i4_sme_finalize_streami
     }
 }
-NK_PUBLIC void nk_euclideans_packed_i4_sme(                //
-    nk_i4x2_t const *a, void const *b_packed, nk_f32_t *c, //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+NK_PUBLIC void nk_euclideans_packed_i4_sme( //
+    nk_i4x2_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
     nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
     nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_i4x2_t);
     nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_packed_i4_sme_streaming_(a, b_packed, (nk_i32_t *)c, rows, columns, depth, a_stride_elements,
                                      c_stride_elements);
-    nk_euclideans_packed_i4_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
-                                                    c_stride_elements);
+    nk_euclideans_packed_i4_sme_finalize_ssve_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                               c_stride_elements);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_angulars_symmetric_i4_sme_finalize_streaming_(              //
-    nk_i4x2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, //
-    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+static void nk_angulars_symmetric_i4_sme_finalize_ssve_( //
+    nk_i4x2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f32_t *result,
+    nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) NK_STREAMING_ {
     // Phase 1: cache row norms on diagonal (store as u32 in f32 slot)
     for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
         nk_u32_t row_sumsq_u32 = nk_dots_reduce_sumsq_i4_ssve_(vectors + row_index * stride_elements, depth);
@@ -1638,20 +1671,22 @@ __arm_locally_streaming static void nk_angulars_symmetric_i4_sme_finalize_stream
         result[row_index * result_stride_elements + row_index] = 0;
 }
-NK_PUBLIC void nk_angulars_symmetric_i4_sme(                                                       //
-    nk_i4x2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, //
-    nk_f32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_angulars_symmetric_i4_sme( //
+    nk_i4x2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, nk_f32_t *result,
+    nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_i4x2_t);
     nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_symmetric_i4_sme_streaming_(vectors, vectors_count, depth, stride_elements, (nk_i32_t *)result,
                                         result_stride_elements, row_start, row_count);
-    nk_angulars_symmetric_i4_sme_finalize_streaming_(vectors, vectors_count, depth, stride_elements, result,
-                                                     result_stride_elements, row_start, row_count);
+    nk_angulars_symmetric_i4_sme_finalize_ssve_(vectors, vectors_count, depth, stride_elements, result,
+                                                result_stride_elements, row_start, row_count);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_euclideans_symmetric_i4_sme_finalize_streaming_(            //
-    nk_i4x2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, //
-    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+static void nk_euclideans_symmetric_i4_sme_finalize_ssve_( //
+    nk_i4x2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f32_t *result,
+    nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) NK_STREAMING_ {
     // Phase 1: cache row norms on diagonal (store as u32 in f32 slot)
     for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
         nk_u32_t row_sumsq_u32 = nk_dots_reduce_sumsq_i4_ssve_(vectors + row_index * stride_elements, depth);
@@ -1686,25 +1721,26 @@ __arm_locally_streaming static void nk_euclideans_symmetric_i4_sme_finalize_stre
         result[row_index * result_stride_elements + row_index] = 0;
 }
-NK_PUBLIC void nk_euclideans_symmetric_i4_sme(                                                     //
-    nk_i4x2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, //
-    nk_f32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_euclideans_symmetric_i4_sme( //
+    nk_i4x2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, nk_f32_t *result,
+    nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_i4x2_t);
     nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_symmetric_i4_sme_streaming_(vectors, vectors_count, depth, stride_elements, (nk_i32_t *)result,
                                         result_stride_elements, row_start, row_count);
-    nk_euclideans_symmetric_i4_sme_finalize_streaming_(vectors, vectors_count, depth, stride_elements, result,
-                                                       result_stride_elements, row_start, row_count);
+    nk_euclideans_symmetric_i4_sme_finalize_ssve_(vectors, vectors_count, depth, stride_elements, result,
+                                                  result_stride_elements, row_start, row_count);
+    nk_sme_stop_streaming_();
 }
 #pragma endregion Signed Integers
 #pragma region U4 Integers
-__arm_locally_streaming static void nk_angulars_packed_u4_sme_finalize_streaming_( //
-    nk_u4x2_t const *a, void const *b_packed, nk_f32_t *c,                         //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,                            //
-    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+static void nk_angulars_packed_u4_sme_finalize_ssve_( //
+    nk_u4x2_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) NK_STREAMING_ {
     nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
     nk_u32_t const *b_norms = (nk_u32_t const *)((char const *)b_packed + header->norms_offset);
     for (nk_size_t row_index = 0; row_index < rows; row_index++) {
@@ -1725,22 +1761,22 @@ __arm_locally_streaming static void nk_angulars_packed_u4_sme_finalize_streaming
     }
 }
-NK_PUBLIC void nk_angulars_packed_u4_sme(                  //
-    nk_u4x2_t const *a, void const *b_packed, nk_f32_t *c, //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+NK_PUBLIC void nk_angulars_packed_u4_sme( //
+    nk_u4x2_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
     nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
     nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_u4x2_t);
     nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_packed_u4_sme_streaming_(a, b_packed, (nk_u32_t *)c, rows, columns, depth, a_stride_elements,
                                      c_stride_elements);
-    nk_angulars_packed_u4_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
-                                                  c_stride_elements);
+    nk_angulars_packed_u4_sme_finalize_ssve_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                             c_stride_elements);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_euclideans_packed_u4_sme_finalize_streaming_( //
-    nk_u4x2_t const *a, void const *b_packed, nk_f32_t *c,                           //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,                              //
-    nk_size_t a_stride_elements, nk_size_t c_stride_elements) {
+static void nk_euclideans_packed_u4_sme_finalize_ssve_( //
+    nk_u4x2_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
+    nk_size_t a_stride_elements, nk_size_t c_stride_elements) NK_STREAMING_ {
     nk_dots_sme_packed_header_t const *header = (nk_dots_sme_packed_header_t const *)b_packed;
     nk_u32_t const *b_norms = (nk_u32_t const *)((char const *)b_packed + header->norms_offset);
     for (nk_size_t row_index = 0; row_index < rows; row_index++) {
@@ -1761,21 +1797,22 @@ __arm_locally_streaming static void nk_euclideans_packed_u4_sme_finalize_streami
     }
 }
-NK_PUBLIC void nk_euclideans_packed_u4_sme(                //
-    nk_u4x2_t const *a, void const *b_packed, nk_f32_t *c, //
-    nk_size_t rows, nk_size_t columns, nk_size_t depth,    //
+NK_PUBLIC void nk_euclideans_packed_u4_sme( //
+    nk_u4x2_t const *a, void const *b_packed, nk_f32_t *c, nk_size_t rows, nk_size_t columns, nk_size_t depth,
     nk_size_t a_stride_in_bytes, nk_size_t c_stride_in_bytes) {
     nk_size_t const a_stride_elements = a_stride_in_bytes / sizeof(nk_u4x2_t);
     nk_size_t const c_stride_elements = c_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_packed_u4_sme_streaming_(a, b_packed, (nk_u32_t *)c, rows, columns, depth, a_stride_elements,
                                      c_stride_elements);
-    nk_euclideans_packed_u4_sme_finalize_streaming_(a, b_packed, c, rows, columns, depth, a_stride_elements,
-                                                    c_stride_elements);
+    nk_euclideans_packed_u4_sme_finalize_ssve_(a, b_packed, c, rows, columns, depth, a_stride_elements,
+                                               c_stride_elements);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_angulars_symmetric_u4_sme_finalize_streaming_(              //
-    nk_u4x2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, //
-    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+static void nk_angulars_symmetric_u4_sme_finalize_ssve_( //
+    nk_u4x2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f32_t *result,
+    nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) NK_STREAMING_ {
     // Phase 1: cache row norms on diagonal (store as u32 in f32 slot)
     for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
         nk_u32_t row_sumsq_u32 = nk_dots_reduce_sumsq_u4_ssve_(vectors + row_index * stride_elements, depth);
@@ -1810,20 +1847,22 @@ __arm_locally_streaming static void nk_angulars_symmetric_u4_sme_finalize_stream
         result[row_index * result_stride_elements + row_index] = 0;
 }
-NK_PUBLIC void nk_angulars_symmetric_u4_sme(                                                       //
-    nk_u4x2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, //
-    nk_f32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_angulars_symmetric_u4_sme( //
+    nk_u4x2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, nk_f32_t *result,
+    nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_u4x2_t);
     nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_symmetric_u4_sme_streaming_(vectors, vectors_count, depth, stride_elements, (nk_u32_t *)result,
                                         result_stride_elements, row_start, row_count);
-    nk_angulars_symmetric_u4_sme_finalize_streaming_(vectors, vectors_count, depth, stride_elements, result,
-                                                     result_stride_elements, row_start, row_count);
+    nk_angulars_symmetric_u4_sme_finalize_ssve_(vectors, vectors_count, depth, stride_elements, result,
+                                                result_stride_elements, row_start, row_count);
+    nk_sme_stop_streaming_();
 }
-__arm_locally_streaming static void nk_euclideans_symmetric_u4_sme_finalize_streaming_(            //
-    nk_u4x2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, //
-    nk_f32_t *result, nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) {
+static void nk_euclideans_symmetric_u4_sme_finalize_ssve_( //
+    nk_u4x2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_elements, nk_f32_t *result,
+    nk_size_t result_stride_elements, nk_size_t row_start, nk_size_t row_count) NK_STREAMING_ {
     // Phase 1: cache row norms on diagonal (store as u32 in f32 slot)
     for (nk_size_t row_index = row_start; row_index < row_start + row_count; ++row_index) {
         nk_u32_t row_sumsq_u32 = nk_dots_reduce_sumsq_u4_ssve_(vectors + row_index * stride_elements, depth);
@@ -1858,15 +1897,17 @@ __arm_locally_streaming static void nk_euclideans_symmetric_u4_sme_finalize_stre
         result[row_index * result_stride_elements + row_index] = 0;
 }
-NK_PUBLIC void nk_euclideans_symmetric_u4_sme(                                                     //
-    nk_u4x2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, //
-    nk_f32_t *result, nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
+NK_PUBLIC void nk_euclideans_symmetric_u4_sme( //
+    nk_u4x2_t const *vectors, nk_size_t vectors_count, nk_size_t depth, nk_size_t stride_in_bytes, nk_f32_t *result,
+    nk_size_t result_stride_in_bytes, nk_size_t row_start, nk_size_t row_count) {
     nk_size_t const stride_elements = stride_in_bytes / sizeof(nk_u4x2_t);
     nk_size_t const result_stride_elements = result_stride_in_bytes / sizeof(nk_f32_t);
+    nk_sme_start_streaming_();
     nk_dots_symmetric_u4_sme_streaming_(vectors, vectors_count, depth, stride_elements, (nk_u32_t *)result,
                                         result_stride_elements, row_start, row_count);
-    nk_euclideans_symmetric_u4_sme_finalize_streaming_(vectors, vectors_count, depth, stride_elements, result,
-                                                       result_stride_elements, row_start, row_count);
+    nk_euclideans_symmetric_u4_sme_finalize_ssve_(vectors, vectors_count, depth, stride_elements, result,
+                                                  result_stride_elements, row_start, row_count);
+    nk_sme_stop_streaming_();
 }
 #pragma endregion Unsigned Integers