npm - numkong - Versions diffs - 7.0.0 - Mend

numkong 7.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (294) hide show

package/LICENSE +201 -0
package/README.md +495 -0
package/binding.gyp +540 -0
package/c/dispatch.h +512 -0
package/c/dispatch_bf16.c +389 -0
package/c/dispatch_bf16c.c +52 -0
package/c/dispatch_e2m3.c +263 -0
package/c/dispatch_e3m2.c +243 -0
package/c/dispatch_e4m3.c +276 -0
package/c/dispatch_e5m2.c +272 -0
package/c/dispatch_f16.c +376 -0
package/c/dispatch_f16c.c +58 -0
package/c/dispatch_f32.c +378 -0
package/c/dispatch_f32c.c +99 -0
package/c/dispatch_f64.c +296 -0
package/c/dispatch_f64c.c +98 -0
package/c/dispatch_i16.c +96 -0
package/c/dispatch_i32.c +89 -0
package/c/dispatch_i4.c +150 -0
package/c/dispatch_i64.c +86 -0
package/c/dispatch_i8.c +289 -0
package/c/dispatch_other.c +330 -0
package/c/dispatch_u1.c +148 -0
package/c/dispatch_u16.c +124 -0
package/c/dispatch_u32.c +118 -0
package/c/dispatch_u4.c +150 -0
package/c/dispatch_u64.c +102 -0
package/c/dispatch_u8.c +303 -0
package/c/numkong.c +950 -0
package/include/README.md +573 -0
package/include/module.modulemap +129 -0
package/include/numkong/attention/sapphireamx.h +1361 -0
package/include/numkong/attention/sme.h +2066 -0
package/include/numkong/attention.h +49 -0
package/include/numkong/capabilities.h +748 -0
package/include/numkong/cast/README.md +262 -0
package/include/numkong/cast/haswell.h +975 -0
package/include/numkong/cast/icelake.h +470 -0
package/include/numkong/cast/neon.h +1192 -0
package/include/numkong/cast/rvv.h +1021 -0
package/include/numkong/cast/sapphire.h +262 -0
package/include/numkong/cast/serial.h +2262 -0
package/include/numkong/cast/skylake.h +856 -0
package/include/numkong/cast/v128relaxed.h +180 -0
package/include/numkong/cast.h +230 -0
package/include/numkong/curved/README.md +223 -0
package/include/numkong/curved/genoa.h +182 -0
package/include/numkong/curved/haswell.h +276 -0
package/include/numkong/curved/neon.h +205 -0
package/include/numkong/curved/neonbfdot.h +212 -0
package/include/numkong/curved/neonhalf.h +212 -0
package/include/numkong/curved/rvv.h +305 -0
package/include/numkong/curved/serial.h +207 -0
package/include/numkong/curved/skylake.h +457 -0
package/include/numkong/curved/smef64.h +506 -0
package/include/numkong/curved.h +517 -0
package/include/numkong/curved.hpp +144 -0
package/include/numkong/dot/README.md +425 -0
package/include/numkong/dot/alder.h +563 -0
package/include/numkong/dot/genoa.h +315 -0
package/include/numkong/dot/haswell.h +1688 -0
package/include/numkong/dot/icelake.h +883 -0
package/include/numkong/dot/neon.h +818 -0
package/include/numkong/dot/neonbfdot.h +244 -0
package/include/numkong/dot/neonfhm.h +360 -0
package/include/numkong/dot/neonhalf.h +198 -0
package/include/numkong/dot/neonsdot.h +508 -0
package/include/numkong/dot/rvv.h +714 -0
package/include/numkong/dot/rvvbb.h +72 -0
package/include/numkong/dot/rvvbf16.h +123 -0
package/include/numkong/dot/rvvhalf.h +129 -0
package/include/numkong/dot/sapphire.h +141 -0
package/include/numkong/dot/serial.h +838 -0
package/include/numkong/dot/sierra.h +405 -0
package/include/numkong/dot/skylake.h +1084 -0
package/include/numkong/dot/sve.h +379 -0
package/include/numkong/dot/svebfdot.h +74 -0
package/include/numkong/dot/svehalf.h +123 -0
package/include/numkong/dot/v128relaxed.h +1258 -0
package/include/numkong/dot.h +1070 -0
package/include/numkong/dot.hpp +94 -0
package/include/numkong/dots/README.md +496 -0
package/include/numkong/dots/alder.h +114 -0
package/include/numkong/dots/genoa.h +94 -0
package/include/numkong/dots/haswell.h +295 -0
package/include/numkong/dots/icelake.h +171 -0
package/include/numkong/dots/neon.h +120 -0
package/include/numkong/dots/neonbfdot.h +58 -0
package/include/numkong/dots/neonfhm.h +94 -0
package/include/numkong/dots/neonhalf.h +57 -0
package/include/numkong/dots/neonsdot.h +108 -0
package/include/numkong/dots/rvv.h +2486 -0
package/include/numkong/dots/sapphireamx.h +3973 -0
package/include/numkong/dots/serial.h +2844 -0
package/include/numkong/dots/sierra.h +97 -0
package/include/numkong/dots/skylake.h +196 -0
package/include/numkong/dots/sme.h +5372 -0
package/include/numkong/dots/smebi32.h +461 -0
package/include/numkong/dots/smef64.h +1318 -0
package/include/numkong/dots/smehalf.h +47 -0
package/include/numkong/dots/v128relaxed.h +294 -0
package/include/numkong/dots.h +2804 -0
package/include/numkong/dots.hpp +639 -0
package/include/numkong/each/README.md +469 -0
package/include/numkong/each/haswell.h +1658 -0
package/include/numkong/each/icelake.h +272 -0
package/include/numkong/each/neon.h +1104 -0
package/include/numkong/each/neonbfdot.h +212 -0
package/include/numkong/each/neonhalf.h +410 -0
package/include/numkong/each/rvv.h +1121 -0
package/include/numkong/each/sapphire.h +477 -0
package/include/numkong/each/serial.h +260 -0
package/include/numkong/each/skylake.h +1562 -0
package/include/numkong/each.h +2146 -0
package/include/numkong/each.hpp +434 -0
package/include/numkong/geospatial/README.md +147 -0
package/include/numkong/geospatial/haswell.h +593 -0
package/include/numkong/geospatial/neon.h +571 -0
package/include/numkong/geospatial/rvv.h +701 -0
package/include/numkong/geospatial/serial.h +309 -0
package/include/numkong/geospatial/skylake.h +577 -0
package/include/numkong/geospatial/v128relaxed.h +613 -0
package/include/numkong/geospatial.h +453 -0
package/include/numkong/geospatial.hpp +235 -0
package/include/numkong/matrix.hpp +336 -0
package/include/numkong/maxsim/README.md +187 -0
package/include/numkong/maxsim/alder.h +511 -0
package/include/numkong/maxsim/genoa.h +115 -0
package/include/numkong/maxsim/haswell.h +553 -0
package/include/numkong/maxsim/icelake.h +480 -0
package/include/numkong/maxsim/neonsdot.h +394 -0
package/include/numkong/maxsim/sapphireamx.h +877 -0
package/include/numkong/maxsim/serial.h +490 -0
package/include/numkong/maxsim/sme.h +929 -0
package/include/numkong/maxsim/v128relaxed.h +280 -0
package/include/numkong/maxsim.h +571 -0
package/include/numkong/maxsim.hpp +133 -0
package/include/numkong/mesh/README.md +227 -0
package/include/numkong/mesh/haswell.h +2235 -0
package/include/numkong/mesh/neon.h +1329 -0
package/include/numkong/mesh/neonbfdot.h +842 -0
package/include/numkong/mesh/neonhalf.h +616 -0
package/include/numkong/mesh/rvv.h +916 -0
package/include/numkong/mesh/serial.h +742 -0
package/include/numkong/mesh/skylake.h +1135 -0
package/include/numkong/mesh/v128relaxed.h +1052 -0
package/include/numkong/mesh.h +652 -0
package/include/numkong/mesh.hpp +762 -0
package/include/numkong/numkong.h +78 -0
package/include/numkong/numkong.hpp +57 -0
package/include/numkong/probability/README.md +173 -0
package/include/numkong/probability/haswell.h +267 -0
package/include/numkong/probability/neon.h +225 -0
package/include/numkong/probability/rvv.h +409 -0
package/include/numkong/probability/serial.h +169 -0
package/include/numkong/probability/skylake.h +324 -0
package/include/numkong/probability.h +383 -0
package/include/numkong/probability.hpp +120 -0
package/include/numkong/random.h +50 -0
package/include/numkong/random.hpp +285 -0
package/include/numkong/reduce/README.md +547 -0
package/include/numkong/reduce/alder.h +632 -0
package/include/numkong/reduce/genoa.h +201 -0
package/include/numkong/reduce/haswell.h +3783 -0
package/include/numkong/reduce/icelake.h +549 -0
package/include/numkong/reduce/neon.h +3841 -0
package/include/numkong/reduce/neonbfdot.h +353 -0
package/include/numkong/reduce/neonfhm.h +665 -0
package/include/numkong/reduce/neonhalf.h +157 -0
package/include/numkong/reduce/neonsdot.h +357 -0
package/include/numkong/reduce/rvv.h +3407 -0
package/include/numkong/reduce/serial.h +757 -0
package/include/numkong/reduce/sierra.h +338 -0
package/include/numkong/reduce/skylake.h +3792 -0
package/include/numkong/reduce/v128relaxed.h +2302 -0
package/include/numkong/reduce.h +1597 -0
package/include/numkong/reduce.hpp +633 -0
package/include/numkong/scalar/README.md +89 -0
package/include/numkong/scalar/haswell.h +113 -0
package/include/numkong/scalar/neon.h +122 -0
package/include/numkong/scalar/neonhalf.h +70 -0
package/include/numkong/scalar/rvv.h +211 -0
package/include/numkong/scalar/sapphire.h +63 -0
package/include/numkong/scalar/serial.h +332 -0
package/include/numkong/scalar/v128relaxed.h +56 -0
package/include/numkong/scalar.h +683 -0
package/include/numkong/set/README.md +179 -0
package/include/numkong/set/haswell.h +334 -0
package/include/numkong/set/icelake.h +485 -0
package/include/numkong/set/neon.h +364 -0
package/include/numkong/set/rvv.h +226 -0
package/include/numkong/set/rvvbb.h +117 -0
package/include/numkong/set/serial.h +174 -0
package/include/numkong/set/sve.h +185 -0
package/include/numkong/set/v128relaxed.h +240 -0
package/include/numkong/set.h +457 -0
package/include/numkong/set.hpp +114 -0
package/include/numkong/sets/README.md +149 -0
package/include/numkong/sets/haswell.h +63 -0
package/include/numkong/sets/icelake.h +66 -0
package/include/numkong/sets/neon.h +61 -0
package/include/numkong/sets/serial.h +43 -0
package/include/numkong/sets/smebi32.h +1099 -0
package/include/numkong/sets/v128relaxed.h +58 -0
package/include/numkong/sets.h +339 -0
package/include/numkong/sparse/README.md +156 -0
package/include/numkong/sparse/icelake.h +463 -0
package/include/numkong/sparse/neon.h +288 -0
package/include/numkong/sparse/serial.h +117 -0
package/include/numkong/sparse/sve2.h +507 -0
package/include/numkong/sparse/turin.h +322 -0
package/include/numkong/sparse.h +363 -0
package/include/numkong/sparse.hpp +113 -0
package/include/numkong/spatial/README.md +435 -0
package/include/numkong/spatial/alder.h +607 -0
package/include/numkong/spatial/genoa.h +290 -0
package/include/numkong/spatial/haswell.h +960 -0
package/include/numkong/spatial/icelake.h +586 -0
package/include/numkong/spatial/neon.h +773 -0
package/include/numkong/spatial/neonbfdot.h +165 -0
package/include/numkong/spatial/neonhalf.h +118 -0
package/include/numkong/spatial/neonsdot.h +261 -0
package/include/numkong/spatial/rvv.h +984 -0
package/include/numkong/spatial/rvvbf16.h +123 -0
package/include/numkong/spatial/rvvhalf.h +117 -0
package/include/numkong/spatial/sapphire.h +343 -0
package/include/numkong/spatial/serial.h +346 -0
package/include/numkong/spatial/sierra.h +323 -0
package/include/numkong/spatial/skylake.h +606 -0
package/include/numkong/spatial/sve.h +224 -0
package/include/numkong/spatial/svebfdot.h +122 -0
package/include/numkong/spatial/svehalf.h +109 -0
package/include/numkong/spatial/v128relaxed.h +717 -0
package/include/numkong/spatial.h +1425 -0
package/include/numkong/spatial.hpp +183 -0
package/include/numkong/spatials/README.md +580 -0
package/include/numkong/spatials/alder.h +94 -0
package/include/numkong/spatials/genoa.h +94 -0
package/include/numkong/spatials/haswell.h +219 -0
package/include/numkong/spatials/icelake.h +113 -0
package/include/numkong/spatials/neon.h +109 -0
package/include/numkong/spatials/neonbfdot.h +60 -0
package/include/numkong/spatials/neonfhm.h +92 -0
package/include/numkong/spatials/neonhalf.h +58 -0
package/include/numkong/spatials/neonsdot.h +109 -0
package/include/numkong/spatials/rvv.h +1960 -0
package/include/numkong/spatials/sapphireamx.h +1149 -0
package/include/numkong/spatials/serial.h +226 -0
package/include/numkong/spatials/sierra.h +96 -0
package/include/numkong/spatials/skylake.h +184 -0
package/include/numkong/spatials/sme.h +1901 -0
package/include/numkong/spatials/smef64.h +465 -0
package/include/numkong/spatials/v128relaxed.h +240 -0
package/include/numkong/spatials.h +3021 -0
package/include/numkong/spatials.hpp +508 -0
package/include/numkong/tensor.hpp +1592 -0
package/include/numkong/trigonometry/README.md +184 -0
package/include/numkong/trigonometry/haswell.h +652 -0
package/include/numkong/trigonometry/neon.h +639 -0
package/include/numkong/trigonometry/rvv.h +699 -0
package/include/numkong/trigonometry/serial.h +703 -0
package/include/numkong/trigonometry/skylake.h +721 -0
package/include/numkong/trigonometry/v128relaxed.h +666 -0
package/include/numkong/trigonometry.h +467 -0
package/include/numkong/trigonometry.hpp +166 -0
package/include/numkong/types.h +1384 -0
package/include/numkong/types.hpp +5603 -0
package/include/numkong/vector.hpp +698 -0
package/javascript/README.md +246 -0
package/javascript/dist/cjs/numkong-wasm.d.ts +166 -0
package/javascript/dist/cjs/numkong-wasm.js +617 -0
package/javascript/dist/cjs/numkong.d.ts +343 -0
package/javascript/dist/cjs/numkong.js +523 -0
package/javascript/dist/cjs/package.json +3 -0
package/javascript/dist/cjs/types.d.ts +284 -0
package/javascript/dist/cjs/types.js +653 -0
package/javascript/dist/esm/numkong-wasm.d.ts +166 -0
package/javascript/dist/esm/numkong-wasm.js +595 -0
package/javascript/dist/esm/numkong.d.ts +343 -0
package/javascript/dist/esm/numkong.js +452 -0
package/javascript/dist/esm/package.json +3 -0
package/javascript/dist/esm/types.d.ts +284 -0
package/javascript/dist/esm/types.js +630 -0
package/javascript/dist-package-cjs.json +3 -0
package/javascript/dist-package-esm.json +3 -0
package/javascript/node-gyp-build.d.ts +1 -0
package/javascript/numkong-wasm.ts +756 -0
package/javascript/numkong.c +689 -0
package/javascript/numkong.ts +575 -0
package/javascript/tsconfig-base.json +39 -0
package/javascript/tsconfig-cjs.json +8 -0
package/javascript/tsconfig-esm.json +8 -0
package/javascript/types.ts +674 -0
package/package.json +87 -0

package/include/numkong/maxsim/sme.h ADDED Viewed

@@ -0,0 +1,929 @@
+/**
+ *  @brief SIMD-accelerated MaxSim (ColBERT late-interaction) for SME.
+ *  @file include/numkong/maxsim/sme.h
+ *  @author Ash Vardanian
+ *  @date February 10, 2026
+ *
+ *  Computes MaxSim(Q, D) = Σᵢ maxⱼ dot(qᵢ, dⱼ) using ARM SME outer products.
+ *
+ *  Both Q and D are pre-packed with `nk_dots_pack_bf16_sme` from `dots/sme.h`.
+ *  This frees all 4 ZA tiles for accumulation (vs 3 with A-side staging).
+ *
+ *  Key optimization: vertical column reads for max reduction.
+ *  Traditional extraction reads tile rows then calls `svmaxv` (horizontal max, ~8cy).
+ *  Our approach reads tile columns with `svread_ver_za32_f32_m`:
+ *
+ *    - Each column read gives dot products of all query tokens vs one doc token.
+ *    - Element-wise `svmax` (~1cy) updates a running max vector across doc tokens.
+ *    - Only `svaddv` at the very end: ⌈n_q/16⌉ = 2 horizontal reductions total.
+ *
+ *  This is ~100x fewer horizontal reductions for typical ColBERT dimensions.
+ *
+ *  ZA tile layout after BFMOPA accumulation (16x16 f32):
+ *
+ *  - Row i, Column j = dot(q_{tile_row_start + i}, d_{tile_col_start + j})
+ *  - Vertical column read of column j → similarities of all 16 q tokens to doc token j
+ *  - Element-wise max across columns → per-query-token max over doc tokens in this tile group
+ *
+ *  Benchmark results (Apple M4, SVL=512):
+ *
+ *      Dimensions              dots_packed GEMM    maxsim fused    GEMM speedup    End-to-end speedup
+ *      32×128×128 (ColBERT)    840 GFLOPS          1516 GFLOPS     1.81×           5.10×
+ *      32×256×128              1037 GFLOPS         1591 GFLOPS     1.53×           5.17×
+ *      64×512×128              1016 GFLOPS         1651 GFLOPS     1.62×           5.42×
+ *      32×128×256              859 GFLOPS          1725 GFLOPS     2.01×           4.06×
+ *      32×1024×768 (BERT)      1124 GFLOPS         1932 GFLOPS     1.72×           2.61×
+ *
+ *  Speedup sources:
+ *
+ *  1. Pre-packing both sides → 4 ZA tiles for accumulation (vs 3 with A-staging): +33% MOPA throughput
+ *  2. No output matrix materialization → eliminates M×N f32 memory round-trip
+ *  3. Vertical column reads → ~128 element-wise svmax (1cy) vs ~256 svmaxv horizontal reductions (8cy)
+ */
+#ifndef NK_MAXSIM_SME_H
+#define NK_MAXSIM_SME_H
+#if NK_TARGET_ARM_
+#if NK_TARGET_SME
+#include "numkong/dots/sme.h" // nk_dots_sme_packed_header_t, nk_dots_pack_{f16,bf16}_sme, nk_dots_packed_size_{f16,bf16}_sme
+#if defined(__cplusplus)
+extern "C" {
+#endif
+#if defined(__clang__)
+#pragma clang attribute push(__attribute__((target("sme,sve"))), apply_to = function)
+#elif defined(__GNUC__)
+#pragma GCC push_options
+#pragma GCC target("+sme")
+#endif
+/**
+ *  Packed header for MaxSim SME kernels. Used by f32 (i8 screening + f32 refinement)
+ *  and bf16/f16 (BFMOPA/FMOPA + angular normalization) kernels.
+ *
+ *  For f32: stores i8 tile-interleaved data, f32 squared norms, AND f32 originals.
+ *  For bf16/f16: stores tile-interleaved data and f32 inverse norms (1/||v||).
+ *    originals_offset and original_stride are 0 (unused).
+ */
+typedef struct {
+    nk_u32_t column_tile_count; // ceil(n / tile_dimension)
+    nk_u32_t depth_tile_count;  // ceil(depth / expansion)
+    nk_u32_t columns;           // actual vector count (for predicates)
+    nk_u32_t depth;             // actual depth
+    nk_u32_t svl_bytes;         // SVL in bytes at pack time (validation)
+    nk_u32_t norms_offset;      // byte offset -> per-vector norms (squared for f32, inverse for bf16/f16)
+    nk_u32_t originals_offset;  // byte offset -> f32 original vectors (0 for bf16/f16)
+    nk_u32_t original_stride;   // row stride in bytes for originals (64B-aligned, 0 for bf16/f16)
+    nk_u32_t reserved[8];       // padding to 64 bytes
+} nk_maxsim_sme_packed_header_t;
+NK_STATIC_ASSERT(sizeof(nk_maxsim_sme_packed_header_t) == 64, nk_maxsim_sme_packed_header_must_be_64_bytes);
+/**
+ *  MaxSim f16 kernel: both Q and D pre-packed, vertical column read extraction.
+ *
+ *  4-tile fast path: processes 4 doc column tiles simultaneously using ZA0-ZA3.
+ *  Inner loop per depth_step: 1 Q load + 4 D loads + 4 FMOPA = 9 ops.
+ *  Extraction per 4-tile group: 4×16 = 64 vertical reads + 64 svmax = ~128 cycles.
+ *
+ *  1-tile remainder: uses ZA0 only, with predicated loads for partial tiles.
+ */
+__arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_f16_streaming_( //
+    void const *query_packed, void const *document_packed,                           //
+    nk_size_t query_count, nk_size_t document_count,                                 //
+    nk_size_t depth, nk_f32_t *result) {
+    nk_maxsim_sme_packed_header_t const *query_header = (nk_maxsim_sme_packed_header_t const *)query_packed;
+    nk_maxsim_sme_packed_header_t const *document_header = (nk_maxsim_sme_packed_header_t const *)document_packed;
+    nk_size_t const depth_step_count = query_header->depth_tile_count;
+    nk_size_t const query_row_tiles = query_header->column_tile_count;
+    nk_size_t const document_col_tiles = document_header->column_tile_count;
+    nk_size_t const tile_dimension = svcntw();  // 16: ZA32 tile dimension
+    nk_size_t const vector_elements = svcnth(); // 32: f16 elements per SVE vector
+    nk_f16_t const *query_vecs = (nk_f16_t const *)((char const *)query_packed + sizeof(nk_maxsim_sme_packed_header_t));
+    nk_f16_t const *document_vecs = (nk_f16_t const *)((char const *)document_packed +
+                                                       sizeof(nk_maxsim_sme_packed_header_t));
+    nk_f32_t const *query_inverse_norms = (nk_f32_t const *)((char const *)query_packed + query_header->norms_offset);
+    nk_f32_t const *document_inverse_norms = (nk_f32_t const *)((char const *)document_packed +
+                                                                document_header->norms_offset);
+    svbool_t const predicate_all_f16x = svptrue_b16();
+    svbool_t const predicate_all_f32x = svptrue_b32();
+    nk_f32_t total_angular_distance = 0.0f;
+    for (nk_size_t row_tile_index = 0; row_tile_index < query_row_tiles; row_tile_index++) {
+        nk_size_t const row_start = row_tile_index * tile_dimension;
+        nk_size_t const rows_remaining = (row_start + tile_dimension <= query_count) ? tile_dimension
+                                                                                     : (query_count - row_start);
+        svbool_t const row_predicate_f16x = (rows_remaining == tile_dimension)
+                                                ? svptrue_b16()
+                                                : svwhilelt_b16_u64(0u, rows_remaining * 2);
+        svbool_t const row_predicate_f32x = (rows_remaining == tile_dimension) ? svptrue_b32()
+                                                                               : svwhilelt_b32_u64(0u, rows_remaining);
+        // Running max + argmax vectors for angular distance finalization
+        svfloat32_t running_maximum_f32x = svdup_f32(NK_F32_MIN);
+        svuint32_t running_argmax_u32x = svdup_u32(0);
+        nk_size_t column_tile_index = 0;
+        // Fast path: 4 doc column tiles at a time using ZA0-ZA3
+        for (; column_tile_index + 4 <= document_col_tiles; column_tile_index += 4) {
+            svzero_za(); // Zero all 4 tiles
+            // Accumulate: for each depth step, load Q vector and 4 D vectors, issue 4 FMOPAs
+            for (nk_size_t depth_step = 0; depth_step < depth_step_count; depth_step++) {
+                svfloat16_t query_packed_f16x = svld1_f16(
+                    row_predicate_f16x,
+                    (float16_t const *)(query_vecs +
+                                        (row_tile_index * depth_step_count + depth_step) * vector_elements));
+                svfloat16_t document_packed_0_f16x = svld1_f16(
+                    predicate_all_f16x,
+                    (float16_t const *)(document_vecs +
+                                        ((column_tile_index + 0) * depth_step_count + depth_step) * vector_elements));
+                svfloat16_t document_packed_1_f16x = svld1_f16(
+                    predicate_all_f16x,
+                    (float16_t const *)(document_vecs +
+                                        ((column_tile_index + 1) * depth_step_count + depth_step) * vector_elements));
+                svfloat16_t document_packed_2_f16x = svld1_f16(
+                    predicate_all_f16x,
+                    (float16_t const *)(document_vecs +
+                                        ((column_tile_index + 2) * depth_step_count + depth_step) * vector_elements));
+                svfloat16_t document_packed_3_f16x = svld1_f16(
+                    predicate_all_f16x,
+                    (float16_t const *)(document_vecs +
+                                        ((column_tile_index + 3) * depth_step_count + depth_step) * vector_elements));
+                svmopa_za32_f16_m(0, row_predicate_f16x, predicate_all_f16x, query_packed_f16x, document_packed_0_f16x);
+                svmopa_za32_f16_m(1, row_predicate_f16x, predicate_all_f16x, query_packed_f16x, document_packed_1_f16x);
+                svmopa_za32_f16_m(2, row_predicate_f16x, predicate_all_f16x, query_packed_f16x, document_packed_2_f16x);
+                svmopa_za32_f16_m(3, row_predicate_f16x, predicate_all_f16x, query_packed_f16x, document_packed_3_f16x);
+            }
+            // Vertical column extraction + argmax update (manually unrolled over 4 tiles)
+            for (nk_size_t column_within_tile = 0; column_within_tile < tile_dimension; column_within_tile++) {
+                // Tile 0
+                {
+                    nk_u32_t document_index = (nk_u32_t)((column_tile_index + 0) * tile_dimension + column_within_tile);
+                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_f32x, 0,
+                                                                         column_within_tile);
+                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_f32x, column_dots_f32x, running_maximum_f32x);
+                    running_maximum_f32x = svsel_f32(is_better_bx, column_dots_f32x, running_maximum_f32x);
+                    running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
+                }
+                // Tile 1
+                {
+                    nk_u32_t document_index = (nk_u32_t)((column_tile_index + 1) * tile_dimension + column_within_tile);
+                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_f32x, 1,
+                                                                         column_within_tile);
+                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_f32x, column_dots_f32x, running_maximum_f32x);
+                    running_maximum_f32x = svsel_f32(is_better_bx, column_dots_f32x, running_maximum_f32x);
+                    running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
+                }
+                // Tile 2
+                {
+                    nk_u32_t document_index = (nk_u32_t)((column_tile_index + 2) * tile_dimension + column_within_tile);
+                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_f32x, 2,
+                                                                         column_within_tile);
+                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_f32x, column_dots_f32x, running_maximum_f32x);
+                    running_maximum_f32x = svsel_f32(is_better_bx, column_dots_f32x, running_maximum_f32x);
+                    running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
+                }
+                // Tile 3
+                {
+                    nk_u32_t document_index = (nk_u32_t)((column_tile_index + 3) * tile_dimension + column_within_tile);
+                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_f32x, 3,
+                                                                         column_within_tile);
+                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_f32x, column_dots_f32x, running_maximum_f32x);
+                    running_maximum_f32x = svsel_f32(is_better_bx, column_dots_f32x, running_maximum_f32x);
+                    running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
+                }
+            }
+        }
+        // Remainder: 1 doc column tile at a time using ZA0 only
+        for (; column_tile_index < document_col_tiles; column_tile_index++) {
+            nk_size_t const col_start = column_tile_index * tile_dimension;
+            nk_size_t const cols_remaining = (col_start + tile_dimension <= document_count)
+                                                 ? tile_dimension
+                                                 : (document_count - col_start);
+            svbool_t const column_predicate_f16x = (cols_remaining == tile_dimension)
+                                                       ? svptrue_b16()
+                                                       : svwhilelt_b16_u64(0u, cols_remaining * 2);
+            svzero_mask_za(nk_sme_zero_za32_tile_0_); // Zero ZA0 only
+            for (nk_size_t depth_step = 0; depth_step < depth_step_count; depth_step++) {
+                svfloat16_t query_packed_f16x = svld1_f16(
+                    row_predicate_f16x,
+                    (float16_t const *)(query_vecs +
+                                        (row_tile_index * depth_step_count + depth_step) * vector_elements));
+                svfloat16_t document_packed_f16x = svld1_f16(
+                    column_predicate_f16x,
+                    (float16_t const *)(document_vecs +
+                                        (column_tile_index * depth_step_count + depth_step) * vector_elements));
+                svmopa_za32_f16_m(0, row_predicate_f16x, column_predicate_f16x, query_packed_f16x,
+                                  document_packed_f16x);
+            }
+            // Vertical column extraction from ZA0 + argmax update
+            for (nk_size_t column_within_tile = 0; column_within_tile < cols_remaining; column_within_tile++) {
+                nk_u32_t document_index = (nk_u32_t)(col_start + column_within_tile);
+                svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_f32x, 0,
+                                                                     column_within_tile);
+                svbool_t is_better_bx = svcmpgt_f32(predicate_all_f32x, column_dots_f32x, running_maximum_f32x);
+                running_maximum_f32x = svsel_f32(is_better_bx, column_dots_f32x, running_maximum_f32x);
+                running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
+            }
+        }
+        // Angular distance finalization — SVE-width vector ops
+        // Gather document inverse norms via argmax indices (no SVE gather in streaming mode)
+        nk_u32_t best_document_indices[64];
+        nk_f32_t document_inverse_norms_gathered[64];
+        svst1_u32(row_predicate_f32x, best_document_indices, running_argmax_u32x);
+        for (nk_size_t row_in_tile = 0; row_in_tile < rows_remaining; row_in_tile++)
+            document_inverse_norms_gathered[row_in_tile] = document_inverse_norms[best_document_indices[row_in_tile]];
+        // SVE-width: cosine = dot * inv_norm_q * inv_norm_d, angular = max(1 - cosine, 0)
+        svfloat32_t query_inverse_norms_f32x = svld1_f32(row_predicate_f32x, query_inverse_norms + row_start);
+        svfloat32_t document_inverse_norms_f32x = svld1_f32(row_predicate_f32x, document_inverse_norms_gathered);
+        svfloat32_t cosine_f32x = svmul_f32_x(
+            row_predicate_f32x, svmul_f32_x(row_predicate_f32x, running_maximum_f32x, query_inverse_norms_f32x),
+            document_inverse_norms_f32x);
+        svfloat32_t angular_distance_f32x = svmax_f32_x(
+            row_predicate_f32x, svsub_f32_x(row_predicate_f32x, svdup_f32(1.0f), cosine_f32x), svdup_f32(0.0f));
+        total_angular_distance += svaddv_f32(row_predicate_f32x, angular_distance_f32x);
+    }
+    *result = total_angular_distance;
+}
+NK_PUBLIC void nk_maxsim_packed_f16_sme(                              //
+    void const *query_packed, void const *document_packed,            //
+    nk_size_t query_count, nk_size_t document_count, nk_size_t depth, //
+    nk_f32_t *result) {                                               //
+    nk_maxsim_packed_f16_streaming_(query_packed, document_packed, query_count, document_count, depth, result);
+}
+/**
+ *  MaxSim bf16 kernel: both Q and D pre-packed, vertical column read extraction.
+ *
+ *  4-tile fast path: processes 4 doc column tiles simultaneously using ZA0-ZA3.
+ *  Inner loop per depth_step: 1 Q load + 4 D loads + 4 BFMOPA = 9 ops.
+ *  Extraction per 4-tile group: 4×16 = 64 vertical reads + 64 svmax = ~128 cycles.
+ *
+ *  1-tile remainder: uses ZA0 only, with predicated loads for partial tiles.
+ */
+__arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_bf16_streaming_( //
+    void const *query_packed, void const *document_packed,                            //
+    nk_size_t query_count, nk_size_t document_count,                                  //
+    nk_size_t depth, nk_f32_t *result) {
+    nk_maxsim_sme_packed_header_t const *query_header = (nk_maxsim_sme_packed_header_t const *)query_packed;
+    nk_maxsim_sme_packed_header_t const *document_header = (nk_maxsim_sme_packed_header_t const *)document_packed;
+    nk_size_t const depth_step_count = query_header->depth_tile_count;
+    nk_size_t const query_row_tiles = query_header->column_tile_count;
+    nk_size_t const document_col_tiles = document_header->column_tile_count;
+    nk_size_t const tile_dimension = svcntw();  // 16: ZA32 tile dimension
+    nk_size_t const vector_elements = svcnth(); // 32: bf16 elements per SVE vector
+    nk_bf16_t const *query_vecs = (nk_bf16_t const *)((char const *)query_packed +
+                                                      sizeof(nk_maxsim_sme_packed_header_t));
+    nk_bf16_t const *document_vecs = (nk_bf16_t const *)((char const *)document_packed +
+                                                         sizeof(nk_maxsim_sme_packed_header_t));
+    nk_f32_t const *query_inverse_norms = (nk_f32_t const *)((char const *)query_packed + query_header->norms_offset);
+    nk_f32_t const *document_inverse_norms = (nk_f32_t const *)((char const *)document_packed +
+                                                                document_header->norms_offset);
+    svbool_t const predicate_all_f16x = svptrue_b16();
+    svbool_t const predicate_all_f32x = svptrue_b32();
+    nk_f32_t total_angular_distance = 0.0f;
+    for (nk_size_t row_tile_index = 0; row_tile_index < query_row_tiles; row_tile_index++) {
+        nk_size_t const row_start = row_tile_index * tile_dimension;
+        nk_size_t const rows_remaining = (row_start + tile_dimension <= query_count) ? tile_dimension
+                                                                                     : (query_count - row_start);
+        svbool_t const row_predicate_f16x = (rows_remaining == tile_dimension)
+                                                ? svptrue_b16()
+                                                : svwhilelt_b16_u64(0u, rows_remaining * 2);
+        svbool_t const row_predicate_f32x = (rows_remaining == tile_dimension) ? svptrue_b32()
+                                                                               : svwhilelt_b32_u64(0u, rows_remaining);
+        // Running max + argmax vectors for angular distance finalization
+        svfloat32_t running_maximum_f32x = svdup_f32(NK_F32_MIN);
+        svuint32_t running_argmax_u32x = svdup_u32(0);
+        nk_size_t column_tile_index = 0;
+        // Fast path: 4 doc column tiles at a time using ZA0-ZA3
+        for (; column_tile_index + 4 <= document_col_tiles; column_tile_index += 4) {
+            svzero_za(); // Zero all 4 tiles
+            // Accumulate: for each depth step, load Q vector and 4 D vectors, issue 4 BFMOPAs
+            for (nk_size_t depth_step = 0; depth_step < depth_step_count; depth_step++) {
+                svbfloat16_t query_packed_bf16x = svld1_bf16(
+                    row_predicate_f16x,
+                    (bfloat16_t const *)(query_vecs +
+                                         (row_tile_index * depth_step_count + depth_step) * vector_elements));
+                svbfloat16_t document_packed_0_bf16x = svld1_bf16(
+                    predicate_all_f16x,
+                    (bfloat16_t const *)(document_vecs +
+                                         ((column_tile_index + 0) * depth_step_count + depth_step) * vector_elements));
+                svbfloat16_t document_packed_1_bf16x = svld1_bf16(
+                    predicate_all_f16x,
+                    (bfloat16_t const *)(document_vecs +
+                                         ((column_tile_index + 1) * depth_step_count + depth_step) * vector_elements));
+                svbfloat16_t document_packed_2_bf16x = svld1_bf16(
+                    predicate_all_f16x,
+                    (bfloat16_t const *)(document_vecs +
+                                         ((column_tile_index + 2) * depth_step_count + depth_step) * vector_elements));
+                svbfloat16_t document_packed_3_bf16x = svld1_bf16(
+                    predicate_all_f16x,
+                    (bfloat16_t const *)(document_vecs +
+                                         ((column_tile_index + 3) * depth_step_count + depth_step) * vector_elements));
+                svmopa_za32_bf16_m(0, row_predicate_f16x, predicate_all_f16x, query_packed_bf16x,
+                                   document_packed_0_bf16x);
+                svmopa_za32_bf16_m(1, row_predicate_f16x, predicate_all_f16x, query_packed_bf16x,
+                                   document_packed_1_bf16x);
+                svmopa_za32_bf16_m(2, row_predicate_f16x, predicate_all_f16x, query_packed_bf16x,
+                                   document_packed_2_bf16x);
+                svmopa_za32_bf16_m(3, row_predicate_f16x, predicate_all_f16x, query_packed_bf16x,
+                                   document_packed_3_bf16x);
+            }
+            // Vertical column extraction + argmax update (manually unrolled over 4 tiles)
+            for (nk_size_t column_within_tile = 0; column_within_tile < tile_dimension; column_within_tile++) {
+                // Tile 0
+                {
+                    nk_u32_t document_index = (nk_u32_t)((column_tile_index + 0) * tile_dimension + column_within_tile);
+                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_f32x, 0,
+                                                                         column_within_tile);
+                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_f32x, column_dots_f32x, running_maximum_f32x);
+                    running_maximum_f32x = svsel_f32(is_better_bx, column_dots_f32x, running_maximum_f32x);
+                    running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
+                }
+                // Tile 1
+                {
+                    nk_u32_t document_index = (nk_u32_t)((column_tile_index + 1) * tile_dimension + column_within_tile);
+                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_f32x, 1,
+                                                                         column_within_tile);
+                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_f32x, column_dots_f32x, running_maximum_f32x);
+                    running_maximum_f32x = svsel_f32(is_better_bx, column_dots_f32x, running_maximum_f32x);
+                    running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
+                }
+                // Tile 2
+                {
+                    nk_u32_t document_index = (nk_u32_t)((column_tile_index + 2) * tile_dimension + column_within_tile);
+                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_f32x, 2,
+                                                                         column_within_tile);
+                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_f32x, column_dots_f32x, running_maximum_f32x);
+                    running_maximum_f32x = svsel_f32(is_better_bx, column_dots_f32x, running_maximum_f32x);
+                    running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
+                }
+                // Tile 3
+                {
+                    nk_u32_t document_index = (nk_u32_t)((column_tile_index + 3) * tile_dimension + column_within_tile);
+                    svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_f32x, 3,
+                                                                         column_within_tile);
+                    svbool_t is_better_bx = svcmpgt_f32(predicate_all_f32x, column_dots_f32x, running_maximum_f32x);
+                    running_maximum_f32x = svsel_f32(is_better_bx, column_dots_f32x, running_maximum_f32x);
+                    running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
+                }
+            }
+        }
+        // Remainder: 1 doc column tile at a time using ZA0 only
+        for (; column_tile_index < document_col_tiles; column_tile_index++) {
+            nk_size_t const col_start = column_tile_index * tile_dimension;
+            nk_size_t const cols_remaining = (col_start + tile_dimension <= document_count)
+                                                 ? tile_dimension
+                                                 : (document_count - col_start);
+            svbool_t const column_predicate_f16x = (cols_remaining == tile_dimension)
+                                                       ? svptrue_b16()
+                                                       : svwhilelt_b16_u64(0u, cols_remaining * 2);
+            svzero_mask_za(nk_sme_zero_za32_tile_0_); // Zero ZA0 only
+            for (nk_size_t depth_step = 0; depth_step < depth_step_count; depth_step++) {
+                svbfloat16_t query_packed_bf16x = svld1_bf16(
+                    row_predicate_f16x,
+                    (bfloat16_t const *)(query_vecs +
+                                         (row_tile_index * depth_step_count + depth_step) * vector_elements));
+                svbfloat16_t document_packed_bf16x = svld1_bf16(
+                    column_predicate_f16x,
+                    (bfloat16_t const *)(document_vecs +
+                                         (column_tile_index * depth_step_count + depth_step) * vector_elements));
+                svmopa_za32_bf16_m(0, row_predicate_f16x, column_predicate_f16x, query_packed_bf16x,
+                                   document_packed_bf16x);
+            }
+            // Vertical column extraction from ZA0 + argmax update
+            for (nk_size_t column_within_tile = 0; column_within_tile < cols_remaining; column_within_tile++) {
+                nk_u32_t document_index = (nk_u32_t)(col_start + column_within_tile);
+                svfloat32_t column_dots_f32x = svread_ver_za32_f32_m(svdup_f32(NK_F32_MIN), predicate_all_f32x, 0,
+                                                                     column_within_tile);
+                svbool_t is_better_bx = svcmpgt_f32(predicate_all_f32x, column_dots_f32x, running_maximum_f32x);
+                running_maximum_f32x = svsel_f32(is_better_bx, column_dots_f32x, running_maximum_f32x);
+                running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
+            }
+        }
+        // Angular distance finalization — SVE-width vector ops
+        // Gather document inverse norms via argmax indices (no SVE gather in streaming mode)
+        nk_u32_t best_document_indices[64];
+        nk_f32_t document_inverse_norms_gathered[64];
+        svst1_u32(row_predicate_f32x, best_document_indices, running_argmax_u32x);
+        for (nk_size_t row_in_tile = 0; row_in_tile < rows_remaining; row_in_tile++)
+            document_inverse_norms_gathered[row_in_tile] = document_inverse_norms[best_document_indices[row_in_tile]];
+        // SVE-width: cosine = dot * inv_norm_q * inv_norm_d, angular = max(1 - cosine, 0)
+        svfloat32_t query_inverse_norms_f32x = svld1_f32(row_predicate_f32x, query_inverse_norms + row_start);
+        svfloat32_t document_inverse_norms_f32x = svld1_f32(row_predicate_f32x, document_inverse_norms_gathered);
+        svfloat32_t cosine_f32x = svmul_f32_x(
+            row_predicate_f32x, svmul_f32_x(row_predicate_f32x, running_maximum_f32x, query_inverse_norms_f32x),
+            document_inverse_norms_f32x);
+        svfloat32_t angular_distance_f32x = svmax_f32_x(
+            row_predicate_f32x, svsub_f32_x(row_predicate_f32x, svdup_f32(1.0f), cosine_f32x), svdup_f32(0.0f));
+        total_angular_distance += svaddv_f32(row_predicate_f32x, angular_distance_f32x);
+    }
+    *result = total_angular_distance;
+}
+NK_PUBLIC void nk_maxsim_packed_bf16_sme(                             //
+    void const *query_packed, void const *document_packed,            //
+    nk_size_t query_count, nk_size_t document_count, nk_size_t depth, //
+    nk_f32_t *result) {                                               //
+    nk_maxsim_packed_bf16_streaming_(query_packed, document_packed, query_count, document_count, depth, result);
+}
+NK_PUBLIC nk_size_t nk_maxsim_packed_size_bf16_sme(nk_size_t n, nk_size_t k) { //
+    return nk_dots_packed_size_bf16_sme(n, k);
+}
+NK_PUBLIC nk_size_t nk_maxsim_packed_size_f16_sme(nk_size_t n, nk_size_t k) { //
+    return nk_dots_packed_size_f16_sme(n, k);
+}
+NK_PUBLIC void nk_maxsim_pack_bf16_sme(                                                   //
+    nk_bf16_t const *vectors, nk_size_t n, nk_size_t k, nk_size_t stride, void *packed) { //
+    // Delegate tile interleaving and squared norms computation to dots pack.
+    // Both headers are 64 bytes with identical layout for the first 6 fields.
+    nk_dots_pack_bf16_sme(vectors, n, k, stride, packed);
+    // Set maxsim-specific header fields (overlaps dots reserved area)
+    nk_maxsim_sme_packed_header_t *header = (nk_maxsim_sme_packed_header_t *)packed;
+    header->originals_offset = 0; // not used for bf16
+    header->original_stride = 0;  // not used for bf16
+    for (nk_size_t i = 0; i < 8; i++) header->reserved[i] = 0;
+    // Convert squared norms → inverse norms in-place
+    nk_f32_t *norms = (nk_f32_t *)((char *)packed + header->norms_offset);
+    for (nk_size_t i = 0; i < n; i++) {
+        nk_f32_t norm_sq = norms[i];
+        norms[i] = (norm_sq > 0.0f) ? (nk_f32_t)nk_f64_rsqrt_neon((nk_f64_t)norm_sq) : 0.0f;
+    }
+}
+NK_PUBLIC void nk_maxsim_pack_f16_sme(                                                   //
+    nk_f16_t const *vectors, nk_size_t n, nk_size_t k, nk_size_t stride, void *packed) { //
+    // Delegate tile interleaving and squared norms computation to dots pack.
+    // Both headers are 64 bytes with identical layout for the first 6 fields.
+    nk_dots_pack_f16_sme(vectors, n, k, stride, packed);
+    // Set maxsim-specific header fields (overlaps dots reserved area)
+    nk_maxsim_sme_packed_header_t *header = (nk_maxsim_sme_packed_header_t *)packed;
+    header->originals_offset = 0; // not used for f16
+    header->original_stride = 0;  // not used for f16
+    for (nk_size_t i = 0; i < 8; i++) header->reserved[i] = 0;
+    // Convert squared norms → inverse norms in-place
+    nk_f32_t *norms = (nk_f32_t *)((char *)packed + header->norms_offset);
+    for (nk_size_t i = 0; i < n; i++) {
+        nk_f32_t norm_sq = norms[i];
+        norms[i] = (norm_sq > 0.0f) ? (nk_f32_t)nk_f64_rsqrt_neon((nk_f64_t)norm_sq) : 0.0f;
+    }
+}
+/**
+ *  MaxSim f32 kernel: i8 SMOPA screening + f32/f64 refinement + angular distance.
+ *
+ *  Screening: i8 SMOPA has expansion=4, processing 4x more depth per instruction than f32 FMOPA.
+ *  With 4 ZA tiles the fast path processes 64 document columns per iteration.
+ *
+ *  Refinement: tile-wide interleaved f64 dot products for the winning (query, document) pairs.
+ *  Angular distance: 1 - dot / sqrt(||q||^2 * ||d||^2), accumulated with f64.
+ */
+NK_PUBLIC nk_size_t nk_maxsim_packed_size_f32_sme(nk_size_t n, nk_size_t k) { //
+    nk_size_t const expansion = 4;                                            // i8->i32 SMOPA
+    nk_size_t const tile_dimension = svcntsw();                               // 16 for SVL=512
+    nk_size_t const vector_elements = svcntsb();                              // 64 for SVL=512
+    nk_size_t const column_tile_count = nk_size_divide_round_up_(n, tile_dimension);
+    nk_size_t const depth_step_count = nk_size_divide_round_up_(k, expansion);
+    nk_size_t const original_stride = nk_size_round_up_to_multiple_(k * sizeof(nk_f32_t), 64);
+    nk_size_t size = sizeof(nk_maxsim_sme_packed_header_t);         // 64 B header
+    size += column_tile_count * depth_step_count * vector_elements; // i8 tiles
+    size += n * sizeof(nk_f32_t);                                   // f32 squared norms
+    size += n * original_stride;                                    // f32 originals
+    return size;
+}
+NK_PUBLIC void nk_maxsim_pack_f32_sme(                                                   //
+    nk_f32_t const *vectors, nk_size_t n, nk_size_t k, nk_size_t stride, void *packed) { //
+    nk_size_t const expansion = 4;               // i8->i32 SMOPA
+    nk_size_t const tile_dimension = svcntsw();  // 16 for SVL=512
+    nk_size_t const vector_elements = svcntsb(); // 64 for SVL=512
+    nk_size_t const stride_elements = stride / sizeof(nk_f32_t);
+    nk_size_t const column_tile_count = nk_size_divide_round_up_(n, tile_dimension);
+    nk_size_t const depth_step_count = nk_size_divide_round_up_(k, expansion);
+    nk_size_t const total_vectors = column_tile_count * depth_step_count;
+    nk_size_t const original_stride = nk_size_round_up_to_multiple_(k * sizeof(nk_f32_t), 64);
+    // Set up header
+    nk_maxsim_sme_packed_header_t *header = (nk_maxsim_sme_packed_header_t *)packed;
+    header->column_tile_count = (nk_u32_t)column_tile_count;
+    header->depth_tile_count = (nk_u32_t)depth_step_count;
+    header->columns = (nk_u32_t)n;
+    header->depth = (nk_u32_t)k;
+    header->svl_bytes = (nk_u32_t)(svcntsw() * sizeof(nk_f32_t));
+    nk_size_t const tiles_size = total_vectors * vector_elements;
+    nk_size_t const norms_offset = sizeof(nk_maxsim_sme_packed_header_t) + tiles_size;
+    nk_size_t const originals_offset = norms_offset + n * sizeof(nk_f32_t);
+    header->norms_offset = (nk_u32_t)norms_offset;
+    header->originals_offset = (nk_u32_t)originals_offset;
+    header->original_stride = (nk_u32_t)original_stride;
+    for (nk_size_t i = 0; i < 8; i++) header->reserved[i] = 0;
+    nk_i8_t *tiles = (nk_i8_t *)((char *)packed + sizeof(nk_maxsim_sme_packed_header_t));
+    nk_f32_t *norms = (nk_f32_t *)((char *)packed + norms_offset);
+    char *originals = (char *)packed + originals_offset;
+    // Zero-initialize tile data (partial vectors stay zero-padded)
+    for (nk_size_t i = 0; i < tiles_size; i++) tiles[i] = 0;
+    // For each vector: quantize metadata, quantize+interleave into tiles, copy originals
+    for (nk_size_t vector_index = 0; vector_index < n; vector_index++) {
+        nk_f32_t const *source = (nk_f32_t const *)((char const *)vectors + vector_index * stride);
+        // Pass 1: Compute absmax and norm_sq simultaneously
+        nk_f32_t absmax = 0.0f;
+        nk_f32_t norm_sq = 0.0f;
+        for (nk_size_t dim = 0; dim < k; dim++) {
+            nk_f32_t val = source[dim];
+            nk_f32_t abs_val = nk_f32_abs_(val);
+            if (abs_val > absmax) absmax = abs_val;
+            norm_sq += val * val;
+        }
+        norms[vector_index] = norm_sq;
+        nk_f32_t scale = absmax / 127.0f;
+        if (scale == 0.0f) scale = 1.0f;
+        // Pass 2: Quantize and scatter into tile-interleaved positions
+        nk_size_t const column_tile = vector_index / tile_dimension;
+        nk_size_t const column_in_tile = vector_index % tile_dimension;
+        for (nk_size_t dim = 0; dim < k; dim++) {
+            nk_size_t const depth_step = dim / expansion;
+            nk_size_t const sub_element = dim % expansion;
+            nk_size_t const vec_index = column_tile * depth_step_count + depth_step;
+            nk_size_t const offset = vec_index * vector_elements + expansion * column_in_tile + sub_element;
+            nk_f32_t scaled = source[dim] / scale;
+            nk_i32_t quantized;
+            if (scaled >= 0.0f) quantized = (nk_i32_t)(scaled + 0.5f);
+            else quantized = (nk_i32_t)(scaled - 0.5f);
+            if (quantized > 127) quantized = 127;
+            if (quantized < -127) quantized = -127;
+            tiles[offset] = (nk_i8_t)quantized;
+        }
+        // Pass 3: Copy originals (64B-aligned stride, zero-pad tail)
+        char *dest_original = originals + vector_index * original_stride;
+        nk_copy_bytes_(dest_original, source, k * sizeof(nk_f32_t));
+        for (nk_size_t byte = k * sizeof(nk_f32_t); byte < original_stride; byte++) dest_original[byte] = 0;
+    }
+}
+/**
+ *  Streaming-compatible f32 dot product with f64 accumulation.
+ *  Follows the svcntd()-stride + svcvt_f64_f32_x pattern from nk_dots_reduce_sumsq_f32_ssve_.
+ */
+NK_PUBLIC nk_f64_t nk_maxsim_reduce_dot_f32_ssve_(                                    //
+    nk_f32_t const *a, nk_f32_t const *b, nk_size_t count) NK_STREAMING_COMPATIBLE_ { //
+    svfloat64_t accumulator_f64x = svdup_f64(0.0);
+    for (nk_size_t i = 0; i < count; i += svcntd()) {
+        svbool_t predicate_f64x = svwhilelt_b64_u64(i, count);
+        svfloat64_t a_f64x = svcvt_f64_f32_x(predicate_f64x, svld1_f32(svwhilelt_b32_u64(i, count), a + i));
+        svfloat64_t b_f64x = svcvt_f64_f32_x(predicate_f64x, svld1_f32(svwhilelt_b32_u64(i, count), b + i));
+        accumulator_f64x = svmla_f64_x(predicate_f64x, accumulator_f64x, a_f64x, b_f64x);
+    }
+    return svaddv_f64(svptrue_b64(), accumulator_f64x);
+}
+/**
+ *  MaxSim f32 kernel: i8 SMOPA screening + f32/f64 refinement + angular distance.
+ *
+ *  Screening: i8 SMOPA has expansion=4, processing 4x more depth per instruction than f32 FMOPA.
+ *  With 4 ZA tiles the fast path processes 64 document columns per iteration.
+ *
+ *  Refinement: tile-wide interleaved f64 dot products for the winning (query, document) pairs.
+ *  Angular distance: 1 - dot / sqrt(||q||^2 * ||d||^2), accumulated with f64.
+ */
+__arm_locally_streaming __arm_new("za") static void nk_maxsim_packed_f32_streaming_( //
+    void const *query_packed, void const *document_packed,                           //
+    nk_size_t query_count, nk_size_t document_count, nk_size_t depth,                //
+    nk_f64_t *result) {
+    nk_maxsim_sme_packed_header_t const *query_header = (nk_maxsim_sme_packed_header_t const *)query_packed;
+    nk_maxsim_sme_packed_header_t const *document_header = (nk_maxsim_sme_packed_header_t const *)document_packed;
+    nk_size_t const depth_step_count = query_header->depth_tile_count;
+    nk_size_t const query_row_tiles = query_header->column_tile_count;
+    nk_size_t const document_col_tiles = document_header->column_tile_count;
+    nk_size_t const tile_dimension = svcntw();  // 16: ZA32 tile dimension
+    nk_size_t const vector_elements = svcntb(); // 64: i8 elements per SVE vector
+    // Tile data pointers (i8)
+    nk_i8_t const *query_tiles = (nk_i8_t const *)((char const *)query_packed + sizeof(nk_maxsim_sme_packed_header_t));
+    nk_i8_t const *document_tiles = (nk_i8_t const *)((char const *)document_packed +
+                                                      sizeof(nk_maxsim_sme_packed_header_t));
+    // Norms and originals pointers
+    nk_f32_t const *query_norms = (nk_f32_t const *)((char const *)query_packed + query_header->norms_offset);
+    nk_f32_t const *document_norms = (nk_f32_t const *)((char const *)document_packed + document_header->norms_offset);
+    nk_f32_t const *query_originals = (nk_f32_t const *)((char const *)query_packed + query_header->originals_offset);
+    nk_f32_t const *document_originals = (nk_f32_t const *)((char const *)document_packed +
+                                                            document_header->originals_offset);
+    nk_size_t const query_original_stride_elements = query_header->original_stride / sizeof(nk_f32_t);
+    nk_size_t const document_original_stride_elements = document_header->original_stride / sizeof(nk_f32_t);
+    nk_size_t const expansion = 4; // i8->i32 SMOPA
+    svbool_t const predicate_all_i8x = svptrue_b8();
+    svbool_t const predicate_all_f32x = svptrue_b32();
+    nk_f64_t total_angular_distance_f64 = 0.0;
+    for (nk_size_t row_tile_index = 0; row_tile_index < query_row_tiles; row_tile_index++) {
+        nk_size_t const row_start = row_tile_index * tile_dimension;
+        nk_size_t const rows_remaining = (row_start + tile_dimension <= query_count) ? tile_dimension
+                                                                                     : (query_count - row_start);
+        svbool_t const row_predicate_i8x = (rows_remaining == tile_dimension)
+                                               ? svptrue_b8()
+                                               : svwhilelt_b8_u64(0u, rows_remaining * expansion);
+        svbool_t const row_predicate_f32x = (rows_remaining == tile_dimension) ? svptrue_b32()
+                                                                               : svwhilelt_b32_u64(0u, rows_remaining);
+        svint32_t running_max_i32x = svdup_s32(NK_I32_MIN);
+        svuint32_t running_argmax_u32x = svdup_u32(0);
+        nk_size_t column_tile_index = 0;
+        // 4-tile fast path: ZA0-ZA3 process 4 document column tiles simultaneously
+        for (; column_tile_index + 4 <= document_col_tiles; column_tile_index += 4) {
+            svzero_za();
+            for (nk_size_t depth_step = 0; depth_step < depth_step_count; depth_step++) {
+                svint8_t query_packed_i8x = svld1_s8(
+                    row_predicate_i8x,
+                    (int8_t const *)(query_tiles + (row_tile_index * depth_step_count + depth_step) * vector_elements));
+                svint8_t document_packed_0_i8x = svld1_s8(
+                    predicate_all_i8x,
+                    (int8_t const *)(document_tiles +
+                                     ((column_tile_index + 0) * depth_step_count + depth_step) * vector_elements));
+                svint8_t document_packed_1_i8x = svld1_s8(
+                    predicate_all_i8x,
+                    (int8_t const *)(document_tiles +
+                                     ((column_tile_index + 1) * depth_step_count + depth_step) * vector_elements));
+                svint8_t document_packed_2_i8x = svld1_s8(
+                    predicate_all_i8x,
+                    (int8_t const *)(document_tiles +
+                                     ((column_tile_index + 2) * depth_step_count + depth_step) * vector_elements));
+                svint8_t document_packed_3_i8x = svld1_s8(
+                    predicate_all_i8x,
+                    (int8_t const *)(document_tiles +
+                                     ((column_tile_index + 3) * depth_step_count + depth_step) * vector_elements));
+                svmopa_za32_s8_m(0, row_predicate_i8x, predicate_all_i8x, query_packed_i8x, document_packed_0_i8x);
+                svmopa_za32_s8_m(1, row_predicate_i8x, predicate_all_i8x, query_packed_i8x, document_packed_1_i8x);
+                svmopa_za32_s8_m(2, row_predicate_i8x, predicate_all_i8x, query_packed_i8x, document_packed_2_i8x);
+                svmopa_za32_s8_m(3, row_predicate_i8x, predicate_all_i8x, query_packed_i8x, document_packed_3_i8x);
+            }
+            // Vertical column extraction + argmax update (manually unrolled over 4 tiles)
+            for (nk_size_t column_within_tile = 0; column_within_tile < tile_dimension; column_within_tile++) {
+                // Tile 0
+                {
+                    nk_u32_t document_index = (nk_u32_t)((column_tile_index + 0) * tile_dimension + column_within_tile);
+                    svint32_t column_dots_i32x = svread_ver_za32_s32_m(svdup_s32(NK_I32_MIN), predicate_all_f32x, 0,
+                                                                       column_within_tile);
+                    svbool_t is_better_bx = svcmpgt_s32(predicate_all_f32x, column_dots_i32x, running_max_i32x);
+                    running_max_i32x = svsel_s32(is_better_bx, column_dots_i32x, running_max_i32x);
+                    running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
+                }
+                // Tile 1
+                {
+                    nk_u32_t document_index = (nk_u32_t)((column_tile_index + 1) * tile_dimension + column_within_tile);
+                    svint32_t column_dots_i32x = svread_ver_za32_s32_m(svdup_s32(NK_I32_MIN), predicate_all_f32x, 1,
+                                                                       column_within_tile);
+                    svbool_t is_better_bx = svcmpgt_s32(predicate_all_f32x, column_dots_i32x, running_max_i32x);
+                    running_max_i32x = svsel_s32(is_better_bx, column_dots_i32x, running_max_i32x);
+                    running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
+                }
+                // Tile 2
+                {
+                    nk_u32_t document_index = (nk_u32_t)((column_tile_index + 2) * tile_dimension + column_within_tile);
+                    svint32_t column_dots_i32x = svread_ver_za32_s32_m(svdup_s32(NK_I32_MIN), predicate_all_f32x, 2,
+                                                                       column_within_tile);
+                    svbool_t is_better_bx = svcmpgt_s32(predicate_all_f32x, column_dots_i32x, running_max_i32x);
+                    running_max_i32x = svsel_s32(is_better_bx, column_dots_i32x, running_max_i32x);
+                    running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
+                }
+                // Tile 3
+                {
+                    nk_u32_t document_index = (nk_u32_t)((column_tile_index + 3) * tile_dimension + column_within_tile);
+                    svint32_t column_dots_i32x = svread_ver_za32_s32_m(svdup_s32(NK_I32_MIN), predicate_all_f32x, 3,
+                                                                       column_within_tile);
+                    svbool_t is_better_bx = svcmpgt_s32(predicate_all_f32x, column_dots_i32x, running_max_i32x);
+                    running_max_i32x = svsel_s32(is_better_bx, column_dots_i32x, running_max_i32x);
+                    running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
+                }
+            }
+        }
+        // 1-tile remainder: ZA0 only
+        for (; column_tile_index < document_col_tiles; column_tile_index++) {
+            nk_size_t const col_start = column_tile_index * tile_dimension;
+            nk_size_t const cols_remaining = (col_start + tile_dimension <= document_count)
+                                                 ? tile_dimension
+                                                 : (document_count - col_start);
+            svbool_t const column_predicate_i8x = (cols_remaining == tile_dimension)
+                                                      ? svptrue_b8()
+                                                      : svwhilelt_b8_u64(0u, cols_remaining * expansion);
+            svzero_mask_za(nk_sme_zero_za32_tile_0_);
+            for (nk_size_t depth_step = 0; depth_step < depth_step_count; depth_step++) {
+                svint8_t query_packed_i8x = svld1_s8(
+                    row_predicate_i8x,
+                    (int8_t const *)(query_tiles + (row_tile_index * depth_step_count + depth_step) * vector_elements));
+                svint8_t document_packed_i8x = svld1_s8(
+                    column_predicate_i8x,
+                    (int8_t const *)(document_tiles +
+                                     (column_tile_index * depth_step_count + depth_step) * vector_elements));
+                svmopa_za32_s8_m(0, row_predicate_i8x, column_predicate_i8x, query_packed_i8x, document_packed_i8x);
+            }
+            for (nk_size_t column_within_tile = 0; column_within_tile < cols_remaining; column_within_tile++) {
+                nk_u32_t document_index = (nk_u32_t)(col_start + column_within_tile);
+                svint32_t column_dots_i32x = svread_ver_za32_s32_m(svdup_s32(NK_I32_MIN), predicate_all_f32x, 0,
+                                                                   column_within_tile);
+                svbool_t is_better_bx = svcmpgt_s32(predicate_all_f32x, column_dots_i32x, running_max_i32x);
+                running_max_i32x = svsel_s32(is_better_bx, column_dots_i32x, running_max_i32x);
+                running_argmax_u32x = svsel_u32(is_better_bx, svdup_u32(document_index), running_argmax_u32x);
+            }
+        }
+        // Refinement: tile-wide interleaved f64 dot products
+        nk_u32_t best_document_indices[64]; // max tile_dimension across all SVL values
+        svst1_u32(row_predicate_f32x, best_document_indices, running_argmax_u32x);
+        // Pointer setup: one (query, document) pair per row in the tile
+        nk_f32_t const *query_original_ptrs[64];
+        nk_f32_t const *document_original_ptrs[64];
+        for (nk_size_t row_in_tile = 0; row_in_tile < rows_remaining; row_in_tile++) {
+            nk_size_t query_index = row_start + row_in_tile;
+            nk_u32_t best_document_index = best_document_indices[row_in_tile];
+            query_original_ptrs[row_in_tile] = query_originals + query_index * query_original_stride_elements;
+            document_original_ptrs[row_in_tile] = document_originals +
+                                                  best_document_index * document_original_stride_elements;
+        }
+        // Interleaved f64 dot products in batches of 4 (hides MLA 4-cycle latency)
+        nk_size_t row_batch_start = 0;
+        // Fast path: 4-wide batches
+        for (; row_batch_start + 4 <= rows_remaining; row_batch_start += 4) {
+            svfloat64_t accumulator_0_f64x = svdup_f64(0.0);
+            svfloat64_t accumulator_1_f64x = svdup_f64(0.0);
+            svfloat64_t accumulator_2_f64x = svdup_f64(0.0);
+            svfloat64_t accumulator_3_f64x = svdup_f64(0.0);
+            for (nk_size_t depth_index = 0; depth_index < depth; depth_index += svcntd()) {
+                svbool_t predicate_depth_f64x = svwhilelt_b64_u64(depth_index, depth);
+                svbool_t predicate_depth_f32x = svwhilelt_b32_u64(depth_index, depth);
+                svfloat64_t query_values_0_f64x = svcvt_f64_f32_x(
+                    predicate_depth_f64x,
+                    svld1_f32(predicate_depth_f32x, query_original_ptrs[row_batch_start + 0] + depth_index));
+                svfloat64_t document_values_0_f64x = svcvt_f64_f32_x(
+                    predicate_depth_f64x,
+                    svld1_f32(predicate_depth_f32x, document_original_ptrs[row_batch_start + 0] + depth_index));
+                accumulator_0_f64x = svmla_f64_x(predicate_depth_f64x, accumulator_0_f64x, query_values_0_f64x,
+                                                 document_values_0_f64x);
+                svfloat64_t query_values_1_f64x = svcvt_f64_f32_x(
+                    predicate_depth_f64x,
+                    svld1_f32(predicate_depth_f32x, query_original_ptrs[row_batch_start + 1] + depth_index));
+                svfloat64_t document_values_1_f64x = svcvt_f64_f32_x(
+                    predicate_depth_f64x,
+                    svld1_f32(predicate_depth_f32x, document_original_ptrs[row_batch_start + 1] + depth_index));
+                accumulator_1_f64x = svmla_f64_x(predicate_depth_f64x, accumulator_1_f64x, query_values_1_f64x,
+                                                 document_values_1_f64x);
+                svfloat64_t query_values_2_f64x = svcvt_f64_f32_x(
+                    predicate_depth_f64x,
+                    svld1_f32(predicate_depth_f32x, query_original_ptrs[row_batch_start + 2] + depth_index));
+                svfloat64_t document_values_2_f64x = svcvt_f64_f32_x(
+                    predicate_depth_f64x,
+                    svld1_f32(predicate_depth_f32x, document_original_ptrs[row_batch_start + 2] + depth_index));
+                accumulator_2_f64x = svmla_f64_x(predicate_depth_f64x, accumulator_2_f64x, query_values_2_f64x,
+                                                 document_values_2_f64x);
+                svfloat64_t query_values_3_f64x = svcvt_f64_f32_x(
+                    predicate_depth_f64x,
+                    svld1_f32(predicate_depth_f32x, query_original_ptrs[row_batch_start + 3] + depth_index));
+                svfloat64_t document_values_3_f64x = svcvt_f64_f32_x(
+                    predicate_depth_f64x,
+                    svld1_f32(predicate_depth_f32x, document_original_ptrs[row_batch_start + 3] + depth_index));
+                accumulator_3_f64x = svmla_f64_x(predicate_depth_f64x, accumulator_3_f64x, query_values_3_f64x,
+                                                 document_values_3_f64x);
+            }
+            // Reduce accumulators and compute angular distance per row
+            svfloat64_t *batch_accumulators[] = {&accumulator_0_f64x, &accumulator_1_f64x, &accumulator_2_f64x,
+                                                 &accumulator_3_f64x};
+            for (nk_size_t batch_index = 0; batch_index < 4; batch_index++) {
+                nk_size_t query_index = row_start + row_batch_start + batch_index;
+                nk_u32_t best_document_index = best_document_indices[row_batch_start + batch_index];
+                nk_f64_t dot_product_f64 = svaddv_f64(svptrue_b64(), *batch_accumulators[batch_index]);
+                nk_f64_t norm_product_f64 = (nk_f64_t)query_norms[query_index] *
+                                            (nk_f64_t)document_norms[best_document_index];
+                nk_f64_t cosine_f64 = (norm_product_f64 > 0.0) ? dot_product_f64 * nk_f64_rsqrt_serial(norm_product_f64)
+                                                               : 0.0;
+                nk_f64_t angular_distance_f64 = 1.0 - cosine_f64;
+                if (angular_distance_f64 < 0.0) angular_distance_f64 = 0.0;
+                total_angular_distance_f64 += angular_distance_f64;
+            }
+        }
+        // Remainder: 1 row at a time
+        for (; row_batch_start < rows_remaining; row_batch_start++) {
+            nk_size_t query_index = row_start + row_batch_start;
+            nk_u32_t best_document_index = best_document_indices[row_batch_start];
+            nk_f64_t dot_product_f64 = nk_maxsim_reduce_dot_f32_ssve_(query_original_ptrs[row_batch_start],
+                                                                      document_original_ptrs[row_batch_start], depth);
+            nk_f64_t norm_product_f64 = (nk_f64_t)query_norms[query_index] *
+                                        (nk_f64_t)document_norms[best_document_index];
+            nk_f64_t cosine_f64 = (norm_product_f64 > 0.0) ? dot_product_f64 * nk_f64_rsqrt_serial(norm_product_f64)
+                                                           : 0.0;
+            nk_f64_t angular_distance_f64 = 1.0 - cosine_f64;
+            if (angular_distance_f64 < 0.0) angular_distance_f64 = 0.0;
+            total_angular_distance_f64 += angular_distance_f64;
+        }
+    }
+    *result = total_angular_distance_f64;
+}
+NK_PUBLIC void nk_maxsim_packed_f32_sme(                              //
+    void const *query_packed, void const *document_packed,            //
+    nk_size_t query_count, nk_size_t document_count, nk_size_t depth, //
+    nk_f64_t *result) {                                               //
+    nk_maxsim_packed_f32_streaming_(query_packed, document_packed, query_count, document_count, depth, result);
+}
+#if defined(__clang__)
+#pragma clang attribute pop
+#elif defined(__GNUC__)
+#pragma GCC pop_options
+#endif
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#endif // NK_TARGET_SME
+#endif // NK_TARGET_ARM_
+#endif // NK_MAXSIM_SME_H