npm - numkong - Versions diffs - 7.0.0 - Mend

numkong 7.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (294) hide show

package/LICENSE +201 -0
package/README.md +495 -0
package/binding.gyp +540 -0
package/c/dispatch.h +512 -0
package/c/dispatch_bf16.c +389 -0
package/c/dispatch_bf16c.c +52 -0
package/c/dispatch_e2m3.c +263 -0
package/c/dispatch_e3m2.c +243 -0
package/c/dispatch_e4m3.c +276 -0
package/c/dispatch_e5m2.c +272 -0
package/c/dispatch_f16.c +376 -0
package/c/dispatch_f16c.c +58 -0
package/c/dispatch_f32.c +378 -0
package/c/dispatch_f32c.c +99 -0
package/c/dispatch_f64.c +296 -0
package/c/dispatch_f64c.c +98 -0
package/c/dispatch_i16.c +96 -0
package/c/dispatch_i32.c +89 -0
package/c/dispatch_i4.c +150 -0
package/c/dispatch_i64.c +86 -0
package/c/dispatch_i8.c +289 -0
package/c/dispatch_other.c +330 -0
package/c/dispatch_u1.c +148 -0
package/c/dispatch_u16.c +124 -0
package/c/dispatch_u32.c +118 -0
package/c/dispatch_u4.c +150 -0
package/c/dispatch_u64.c +102 -0
package/c/dispatch_u8.c +303 -0
package/c/numkong.c +950 -0
package/include/README.md +573 -0
package/include/module.modulemap +129 -0
package/include/numkong/attention/sapphireamx.h +1361 -0
package/include/numkong/attention/sme.h +2066 -0
package/include/numkong/attention.h +49 -0
package/include/numkong/capabilities.h +748 -0
package/include/numkong/cast/README.md +262 -0
package/include/numkong/cast/haswell.h +975 -0
package/include/numkong/cast/icelake.h +470 -0
package/include/numkong/cast/neon.h +1192 -0
package/include/numkong/cast/rvv.h +1021 -0
package/include/numkong/cast/sapphire.h +262 -0
package/include/numkong/cast/serial.h +2262 -0
package/include/numkong/cast/skylake.h +856 -0
package/include/numkong/cast/v128relaxed.h +180 -0
package/include/numkong/cast.h +230 -0
package/include/numkong/curved/README.md +223 -0
package/include/numkong/curved/genoa.h +182 -0
package/include/numkong/curved/haswell.h +276 -0
package/include/numkong/curved/neon.h +205 -0
package/include/numkong/curved/neonbfdot.h +212 -0
package/include/numkong/curved/neonhalf.h +212 -0
package/include/numkong/curved/rvv.h +305 -0
package/include/numkong/curved/serial.h +207 -0
package/include/numkong/curved/skylake.h +457 -0
package/include/numkong/curved/smef64.h +506 -0
package/include/numkong/curved.h +517 -0
package/include/numkong/curved.hpp +144 -0
package/include/numkong/dot/README.md +425 -0
package/include/numkong/dot/alder.h +563 -0
package/include/numkong/dot/genoa.h +315 -0
package/include/numkong/dot/haswell.h +1688 -0
package/include/numkong/dot/icelake.h +883 -0
package/include/numkong/dot/neon.h +818 -0
package/include/numkong/dot/neonbfdot.h +244 -0
package/include/numkong/dot/neonfhm.h +360 -0
package/include/numkong/dot/neonhalf.h +198 -0
package/include/numkong/dot/neonsdot.h +508 -0
package/include/numkong/dot/rvv.h +714 -0
package/include/numkong/dot/rvvbb.h +72 -0
package/include/numkong/dot/rvvbf16.h +123 -0
package/include/numkong/dot/rvvhalf.h +129 -0
package/include/numkong/dot/sapphire.h +141 -0
package/include/numkong/dot/serial.h +838 -0
package/include/numkong/dot/sierra.h +405 -0
package/include/numkong/dot/skylake.h +1084 -0
package/include/numkong/dot/sve.h +379 -0
package/include/numkong/dot/svebfdot.h +74 -0
package/include/numkong/dot/svehalf.h +123 -0
package/include/numkong/dot/v128relaxed.h +1258 -0
package/include/numkong/dot.h +1070 -0
package/include/numkong/dot.hpp +94 -0
package/include/numkong/dots/README.md +496 -0
package/include/numkong/dots/alder.h +114 -0
package/include/numkong/dots/genoa.h +94 -0
package/include/numkong/dots/haswell.h +295 -0
package/include/numkong/dots/icelake.h +171 -0
package/include/numkong/dots/neon.h +120 -0
package/include/numkong/dots/neonbfdot.h +58 -0
package/include/numkong/dots/neonfhm.h +94 -0
package/include/numkong/dots/neonhalf.h +57 -0
package/include/numkong/dots/neonsdot.h +108 -0
package/include/numkong/dots/rvv.h +2486 -0
package/include/numkong/dots/sapphireamx.h +3973 -0
package/include/numkong/dots/serial.h +2844 -0
package/include/numkong/dots/sierra.h +97 -0
package/include/numkong/dots/skylake.h +196 -0
package/include/numkong/dots/sme.h +5372 -0
package/include/numkong/dots/smebi32.h +461 -0
package/include/numkong/dots/smef64.h +1318 -0
package/include/numkong/dots/smehalf.h +47 -0
package/include/numkong/dots/v128relaxed.h +294 -0
package/include/numkong/dots.h +2804 -0
package/include/numkong/dots.hpp +639 -0
package/include/numkong/each/README.md +469 -0
package/include/numkong/each/haswell.h +1658 -0
package/include/numkong/each/icelake.h +272 -0
package/include/numkong/each/neon.h +1104 -0
package/include/numkong/each/neonbfdot.h +212 -0
package/include/numkong/each/neonhalf.h +410 -0
package/include/numkong/each/rvv.h +1121 -0
package/include/numkong/each/sapphire.h +477 -0
package/include/numkong/each/serial.h +260 -0
package/include/numkong/each/skylake.h +1562 -0
package/include/numkong/each.h +2146 -0
package/include/numkong/each.hpp +434 -0
package/include/numkong/geospatial/README.md +147 -0
package/include/numkong/geospatial/haswell.h +593 -0
package/include/numkong/geospatial/neon.h +571 -0
package/include/numkong/geospatial/rvv.h +701 -0
package/include/numkong/geospatial/serial.h +309 -0
package/include/numkong/geospatial/skylake.h +577 -0
package/include/numkong/geospatial/v128relaxed.h +613 -0
package/include/numkong/geospatial.h +453 -0
package/include/numkong/geospatial.hpp +235 -0
package/include/numkong/matrix.hpp +336 -0
package/include/numkong/maxsim/README.md +187 -0
package/include/numkong/maxsim/alder.h +511 -0
package/include/numkong/maxsim/genoa.h +115 -0
package/include/numkong/maxsim/haswell.h +553 -0
package/include/numkong/maxsim/icelake.h +480 -0
package/include/numkong/maxsim/neonsdot.h +394 -0
package/include/numkong/maxsim/sapphireamx.h +877 -0
package/include/numkong/maxsim/serial.h +490 -0
package/include/numkong/maxsim/sme.h +929 -0
package/include/numkong/maxsim/v128relaxed.h +280 -0
package/include/numkong/maxsim.h +571 -0
package/include/numkong/maxsim.hpp +133 -0
package/include/numkong/mesh/README.md +227 -0
package/include/numkong/mesh/haswell.h +2235 -0
package/include/numkong/mesh/neon.h +1329 -0
package/include/numkong/mesh/neonbfdot.h +842 -0
package/include/numkong/mesh/neonhalf.h +616 -0
package/include/numkong/mesh/rvv.h +916 -0
package/include/numkong/mesh/serial.h +742 -0
package/include/numkong/mesh/skylake.h +1135 -0
package/include/numkong/mesh/v128relaxed.h +1052 -0
package/include/numkong/mesh.h +652 -0
package/include/numkong/mesh.hpp +762 -0
package/include/numkong/numkong.h +78 -0
package/include/numkong/numkong.hpp +57 -0
package/include/numkong/probability/README.md +173 -0
package/include/numkong/probability/haswell.h +267 -0
package/include/numkong/probability/neon.h +225 -0
package/include/numkong/probability/rvv.h +409 -0
package/include/numkong/probability/serial.h +169 -0
package/include/numkong/probability/skylake.h +324 -0
package/include/numkong/probability.h +383 -0
package/include/numkong/probability.hpp +120 -0
package/include/numkong/random.h +50 -0
package/include/numkong/random.hpp +285 -0
package/include/numkong/reduce/README.md +547 -0
package/include/numkong/reduce/alder.h +632 -0
package/include/numkong/reduce/genoa.h +201 -0
package/include/numkong/reduce/haswell.h +3783 -0
package/include/numkong/reduce/icelake.h +549 -0
package/include/numkong/reduce/neon.h +3841 -0
package/include/numkong/reduce/neonbfdot.h +353 -0
package/include/numkong/reduce/neonfhm.h +665 -0
package/include/numkong/reduce/neonhalf.h +157 -0
package/include/numkong/reduce/neonsdot.h +357 -0
package/include/numkong/reduce/rvv.h +3407 -0
package/include/numkong/reduce/serial.h +757 -0
package/include/numkong/reduce/sierra.h +338 -0
package/include/numkong/reduce/skylake.h +3792 -0
package/include/numkong/reduce/v128relaxed.h +2302 -0
package/include/numkong/reduce.h +1597 -0
package/include/numkong/reduce.hpp +633 -0
package/include/numkong/scalar/README.md +89 -0
package/include/numkong/scalar/haswell.h +113 -0
package/include/numkong/scalar/neon.h +122 -0
package/include/numkong/scalar/neonhalf.h +70 -0
package/include/numkong/scalar/rvv.h +211 -0
package/include/numkong/scalar/sapphire.h +63 -0
package/include/numkong/scalar/serial.h +332 -0
package/include/numkong/scalar/v128relaxed.h +56 -0
package/include/numkong/scalar.h +683 -0
package/include/numkong/set/README.md +179 -0
package/include/numkong/set/haswell.h +334 -0
package/include/numkong/set/icelake.h +485 -0
package/include/numkong/set/neon.h +364 -0
package/include/numkong/set/rvv.h +226 -0
package/include/numkong/set/rvvbb.h +117 -0
package/include/numkong/set/serial.h +174 -0
package/include/numkong/set/sve.h +185 -0
package/include/numkong/set/v128relaxed.h +240 -0
package/include/numkong/set.h +457 -0
package/include/numkong/set.hpp +114 -0
package/include/numkong/sets/README.md +149 -0
package/include/numkong/sets/haswell.h +63 -0
package/include/numkong/sets/icelake.h +66 -0
package/include/numkong/sets/neon.h +61 -0
package/include/numkong/sets/serial.h +43 -0
package/include/numkong/sets/smebi32.h +1099 -0
package/include/numkong/sets/v128relaxed.h +58 -0
package/include/numkong/sets.h +339 -0
package/include/numkong/sparse/README.md +156 -0
package/include/numkong/sparse/icelake.h +463 -0
package/include/numkong/sparse/neon.h +288 -0
package/include/numkong/sparse/serial.h +117 -0
package/include/numkong/sparse/sve2.h +507 -0
package/include/numkong/sparse/turin.h +322 -0
package/include/numkong/sparse.h +363 -0
package/include/numkong/sparse.hpp +113 -0
package/include/numkong/spatial/README.md +435 -0
package/include/numkong/spatial/alder.h +607 -0
package/include/numkong/spatial/genoa.h +290 -0
package/include/numkong/spatial/haswell.h +960 -0
package/include/numkong/spatial/icelake.h +586 -0
package/include/numkong/spatial/neon.h +773 -0
package/include/numkong/spatial/neonbfdot.h +165 -0
package/include/numkong/spatial/neonhalf.h +118 -0
package/include/numkong/spatial/neonsdot.h +261 -0
package/include/numkong/spatial/rvv.h +984 -0
package/include/numkong/spatial/rvvbf16.h +123 -0
package/include/numkong/spatial/rvvhalf.h +117 -0
package/include/numkong/spatial/sapphire.h +343 -0
package/include/numkong/spatial/serial.h +346 -0
package/include/numkong/spatial/sierra.h +323 -0
package/include/numkong/spatial/skylake.h +606 -0
package/include/numkong/spatial/sve.h +224 -0
package/include/numkong/spatial/svebfdot.h +122 -0
package/include/numkong/spatial/svehalf.h +109 -0
package/include/numkong/spatial/v128relaxed.h +717 -0
package/include/numkong/spatial.h +1425 -0
package/include/numkong/spatial.hpp +183 -0
package/include/numkong/spatials/README.md +580 -0
package/include/numkong/spatials/alder.h +94 -0
package/include/numkong/spatials/genoa.h +94 -0
package/include/numkong/spatials/haswell.h +219 -0
package/include/numkong/spatials/icelake.h +113 -0
package/include/numkong/spatials/neon.h +109 -0
package/include/numkong/spatials/neonbfdot.h +60 -0
package/include/numkong/spatials/neonfhm.h +92 -0
package/include/numkong/spatials/neonhalf.h +58 -0
package/include/numkong/spatials/neonsdot.h +109 -0
package/include/numkong/spatials/rvv.h +1960 -0
package/include/numkong/spatials/sapphireamx.h +1149 -0
package/include/numkong/spatials/serial.h +226 -0
package/include/numkong/spatials/sierra.h +96 -0
package/include/numkong/spatials/skylake.h +184 -0
package/include/numkong/spatials/sme.h +1901 -0
package/include/numkong/spatials/smef64.h +465 -0
package/include/numkong/spatials/v128relaxed.h +240 -0
package/include/numkong/spatials.h +3021 -0
package/include/numkong/spatials.hpp +508 -0
package/include/numkong/tensor.hpp +1592 -0
package/include/numkong/trigonometry/README.md +184 -0
package/include/numkong/trigonometry/haswell.h +652 -0
package/include/numkong/trigonometry/neon.h +639 -0
package/include/numkong/trigonometry/rvv.h +699 -0
package/include/numkong/trigonometry/serial.h +703 -0
package/include/numkong/trigonometry/skylake.h +721 -0
package/include/numkong/trigonometry/v128relaxed.h +666 -0
package/include/numkong/trigonometry.h +467 -0
package/include/numkong/trigonometry.hpp +166 -0
package/include/numkong/types.h +1384 -0
package/include/numkong/types.hpp +5603 -0
package/include/numkong/vector.hpp +698 -0
package/javascript/README.md +246 -0
package/javascript/dist/cjs/numkong-wasm.d.ts +166 -0
package/javascript/dist/cjs/numkong-wasm.js +617 -0
package/javascript/dist/cjs/numkong.d.ts +343 -0
package/javascript/dist/cjs/numkong.js +523 -0
package/javascript/dist/cjs/package.json +3 -0
package/javascript/dist/cjs/types.d.ts +284 -0
package/javascript/dist/cjs/types.js +653 -0
package/javascript/dist/esm/numkong-wasm.d.ts +166 -0
package/javascript/dist/esm/numkong-wasm.js +595 -0
package/javascript/dist/esm/numkong.d.ts +343 -0
package/javascript/dist/esm/numkong.js +452 -0
package/javascript/dist/esm/package.json +3 -0
package/javascript/dist/esm/types.d.ts +284 -0
package/javascript/dist/esm/types.js +630 -0
package/javascript/dist-package-cjs.json +3 -0
package/javascript/dist-package-esm.json +3 -0
package/javascript/node-gyp-build.d.ts +1 -0
package/javascript/numkong-wasm.ts +756 -0
package/javascript/numkong.c +689 -0
package/javascript/numkong.ts +575 -0
package/javascript/tsconfig-base.json +39 -0
package/javascript/tsconfig-cjs.json +8 -0
package/javascript/tsconfig-esm.json +8 -0
package/javascript/types.ts +674 -0
package/package.json +87 -0

package/include/numkong/spatial/v128relaxed.h ADDED Viewed

@@ -0,0 +1,717 @@
+/**
+ *  @brief SIMD-accelerated Spatial Similarity Measures for WASM.
+ *  @file include/numkong/spatial/v128relaxed.h
+ *  @author Ash Vardanian
+ *  @date February 2, 2026
+ *
+ *  Contains:
+ *  - Euclidean (L2) distance
+ *  - Squared Euclidean (L2SQ) distance
+ *  - Angular distance (1 - cosine similarity)
+ *
+ *  For dtypes:
+ *  - 64-bit IEEE floating point (f64)
+ *  - 32-bit IEEE floating point (f32)
+ *  - 16-bit IEEE floating point (f16)
+ *  - 16-bit brain floating point (bf16)
+ *
+ *  Key improvements:
+ *  - F32→F64 upcast for angular_f32 (matches Haswell/NEON precision strategy)
+ *  - Parallel SIMD sqrt for normalization (computes both sqrts simultaneously)
+ *  - Edge case handling (zero vectors, numerical stability)
+ *  - Uses relaxed FMA for optimal throughput
+ *
+ *  @see For pattern references:
+ *  - Haswell: include/numkong/spatial/haswell.h
+ *  - NEON: include/numkong/spatial/neon.h
+ */
+#ifndef NK_SPATIAL_V128RELAXED_H
+#define NK_SPATIAL_V128RELAXED_H
+#if NK_TARGET_V128RELAXED
+#include "numkong/types.h"
+#include "numkong/scalar/v128relaxed.h" // `nk_f32_sqrt_v128relaxed`
+#include "numkong/reduce/v128relaxed.h"
+#include "numkong/cast/serial.h"
+#include "numkong/cast/v128relaxed.h"
+#if defined(__cplusplus)
+extern "C" {
+#endif
+#if defined(__clang__)
+#pragma clang attribute push(__attribute__((target("relaxed-simd"))), apply_to = function)
+#endif
+NK_INTERNAL nk_f64_t nk_angular_normalize_f64_v128relaxed_(nk_f64_t ab, nk_f64_t a2, nk_f64_t b2) {
+    // Edge case: both vectors have zero magnitude
+    if (a2 == 0.0 && b2 == 0.0) return 0.0;
+    // Edge case: dot product is zero (perpendicular or one vector is zero)
+    if (ab == 0.0) return 1.0;
+    // Compute both square roots in parallel using SIMD (more efficient than 2 scalar sqrts)
+    v128_t squares_f64x2 = wasm_f64x2_make(a2, b2);
+    v128_t sqrts_f64x2 = wasm_f64x2_sqrt(squares_f64x2);
+    nk_f64_t a_sqrt = wasm_f64x2_extract_lane(sqrts_f64x2, 0);
+    nk_f64_t b_sqrt = wasm_f64x2_extract_lane(sqrts_f64x2, 1);
+    // Compute angular distance: 1 - cosine_similarity
+    nk_f64_t result = 1.0 - ab / (a_sqrt * b_sqrt);
+    // Clamp negative results to 0 (can occur due to floating-point rounding)
+    return result > 0.0 ? result : 0.0;
+}
+#pragma region - Traditional Floats
+NK_PUBLIC void nk_sqeuclidean_f32_v128relaxed(nk_f32_t const *a, nk_f32_t const *b, nk_size_t n, nk_f64_t *result) {
+    v128_t sum_f64x2 = wasm_f64x2_splat(0.0);
+    nk_f32_t const *a_scalars = a, *b_scalars = b;
+    nk_size_t count_scalars = n;
+    nk_b64_vec_t a_f32_vec, b_f32_vec;
+nk_sqeuclidean_f32_v128relaxed_cycle:
+    if (count_scalars < 2) {
+        nk_partial_load_b32x2_serial_(a_scalars, &a_f32_vec, count_scalars);
+        nk_partial_load_b32x2_serial_(b_scalars, &b_f32_vec, count_scalars);
+        count_scalars = 0;
+    }
+    else {
+        nk_load_b64_serial_(a_scalars, &a_f32_vec);
+        nk_load_b64_serial_(b_scalars, &b_f32_vec);
+        a_scalars += 2, b_scalars += 2, count_scalars -= 2;
+    }
+    v128_t a_f32x2 = wasm_v128_load64_zero(&a_f32_vec.u64);
+    v128_t b_f32x2 = wasm_v128_load64_zero(&b_f32_vec.u64);
+    v128_t a_f64x2 = wasm_f64x2_promote_low_f32x4(a_f32x2);
+    v128_t b_f64x2 = wasm_f64x2_promote_low_f32x4(b_f32x2);
+    v128_t diff_f64x2 = wasm_f64x2_sub(a_f64x2, b_f64x2);
+    sum_f64x2 = wasm_f64x2_relaxed_madd(diff_f64x2, diff_f64x2, sum_f64x2);
+    if (count_scalars) goto nk_sqeuclidean_f32_v128relaxed_cycle;
+    *result = nk_reduce_add_f64x2_v128relaxed_(sum_f64x2);
+}
+NK_PUBLIC void nk_sqeuclidean_f64_v128relaxed(nk_f64_t const *a, nk_f64_t const *b, nk_size_t n, nk_f64_t *result) {
+    v128_t sum_f64x2 = wasm_f64x2_splat(0.0);
+    nk_f64_t const *a_scalars = a, *b_scalars = b;
+    nk_size_t count_scalars = n;
+    nk_b128_vec_t a_vec, b_vec;
+nk_sqeuclidean_f64_v128relaxed_cycle:
+    if (count_scalars < 2) {
+        nk_partial_load_b64x2_serial_(a_scalars, &a_vec, count_scalars);
+        nk_partial_load_b64x2_serial_(b_scalars, &b_vec, count_scalars);
+        count_scalars = 0;
+    }
+    else {
+        nk_load_b128_v128relaxed_(a_scalars, &a_vec);
+        nk_load_b128_v128relaxed_(b_scalars, &b_vec);
+        a_scalars += 2, b_scalars += 2, count_scalars -= 2;
+    }
+    v128_t diff_f64x2 = wasm_f64x2_sub(a_vec.v128, b_vec.v128);
+    sum_f64x2 = wasm_f64x2_relaxed_madd(diff_f64x2, diff_f64x2, sum_f64x2);
+    if (count_scalars) goto nk_sqeuclidean_f64_v128relaxed_cycle;
+    *result = nk_reduce_add_f64x2_v128relaxed_(sum_f64x2);
+}
+NK_PUBLIC void nk_euclidean_f32_v128relaxed(nk_f32_t const *a, nk_f32_t const *b, nk_size_t n, nk_f64_t *result) {
+    nk_f64_t l2sq;
+    nk_sqeuclidean_f32_v128relaxed(a, b, n, &l2sq);
+    *result = nk_f64_sqrt_v128relaxed(l2sq);
+}
+NK_PUBLIC void nk_euclidean_f64_v128relaxed(nk_f64_t const *a, nk_f64_t const *b, nk_size_t n, nk_f64_t *result) {
+    nk_f64_t l2sq;
+    nk_sqeuclidean_f64_v128relaxed(a, b, n, &l2sq);
+    *result = nk_f64_sqrt_v128relaxed(l2sq);
+}
+NK_PUBLIC void nk_angular_f32_v128relaxed(nk_f32_t const *a, nk_f32_t const *b, nk_size_t n, nk_f64_t *result) {
+    // F32 → F64 upcast for numerical stability
+    v128_t ab_f64x2 = wasm_f64x2_splat(0.0);
+    v128_t a2_f64x2 = wasm_f64x2_splat(0.0);
+    v128_t b2_f64x2 = wasm_f64x2_splat(0.0);
+    nk_f32_t const *a_scalars = a, *b_scalars = b;
+    nk_size_t count_scalars = n;
+    nk_b64_vec_t a_f32_vec, b_f32_vec;
+nk_angular_f32_v128relaxed_cycle:
+    if (count_scalars < 2) {
+        nk_partial_load_b32x2_serial_(a_scalars, &a_f32_vec, count_scalars);
+        nk_partial_load_b32x2_serial_(b_scalars, &b_f32_vec, count_scalars);
+        count_scalars = 0;
+    }
+    else {
+        nk_load_b64_serial_(a_scalars, &a_f32_vec);
+        nk_load_b64_serial_(b_scalars, &b_f32_vec);
+        a_scalars += 2, b_scalars += 2, count_scalars -= 2;
+    }
+    // Upcast F32x2 → F64x2 for high-precision accumulation
+    v128_t a_f32x2 = wasm_v128_load64_zero(&a_f32_vec.u64);
+    v128_t b_f32x2 = wasm_v128_load64_zero(&b_f32_vec.u64);
+    v128_t a_f64x2 = wasm_f64x2_promote_low_f32x4(a_f32x2);
+    v128_t b_f64x2 = wasm_f64x2_promote_low_f32x4(b_f32x2);
+    // Accumulate: ab += a·b, a2 += a·a, b2 += b·b
+    ab_f64x2 = wasm_f64x2_relaxed_madd(a_f64x2, b_f64x2, ab_f64x2);
+    a2_f64x2 = wasm_f64x2_relaxed_madd(a_f64x2, a_f64x2, a2_f64x2);
+    b2_f64x2 = wasm_f64x2_relaxed_madd(b_f64x2, b_f64x2, b2_f64x2);
+    if (count_scalars) goto nk_angular_f32_v128relaxed_cycle;
+    // Reduce and normalize using F64 arithmetic
+    nk_f64_t ab_f64 = nk_reduce_add_f64x2_v128relaxed_(ab_f64x2);
+    nk_f64_t a2_f64 = nk_reduce_add_f64x2_v128relaxed_(a2_f64x2);
+    nk_f64_t b2_f64 = nk_reduce_add_f64x2_v128relaxed_(b2_f64x2);
+    *result = nk_angular_normalize_f64_v128relaxed_(ab_f64, a2_f64, b2_f64);
+}
+NK_PUBLIC void nk_angular_f64_v128relaxed(nk_f64_t const *a, nk_f64_t const *b, nk_size_t n, nk_f64_t *result) {
+    v128_t ab_f64x2 = wasm_f64x2_splat(0.0);
+    v128_t a2_f64x2 = wasm_f64x2_splat(0.0);
+    v128_t b2_f64x2 = wasm_f64x2_splat(0.0);
+    nk_f64_t const *a_scalars = a, *b_scalars = b;
+    nk_size_t count_scalars = n;
+    nk_b128_vec_t a_vec, b_vec;
+nk_angular_f64_v128relaxed_cycle:
+    if (count_scalars < 2) {
+        nk_partial_load_b64x2_serial_(a_scalars, &a_vec, count_scalars);
+        nk_partial_load_b64x2_serial_(b_scalars, &b_vec, count_scalars);
+        count_scalars = 0;
+    }
+    else {
+        nk_load_b128_v128relaxed_(a_scalars, &a_vec);
+        nk_load_b128_v128relaxed_(b_scalars, &b_vec);
+        a_scalars += 2, b_scalars += 2, count_scalars -= 2;
+    }
+    // Accumulate: ab += a·b, a2 += a·a, b2 += b·b
+    ab_f64x2 = wasm_f64x2_relaxed_madd(a_vec.v128, b_vec.v128, ab_f64x2);
+    a2_f64x2 = wasm_f64x2_relaxed_madd(a_vec.v128, a_vec.v128, a2_f64x2);
+    b2_f64x2 = wasm_f64x2_relaxed_madd(b_vec.v128, b_vec.v128, b2_f64x2);
+    if (count_scalars) goto nk_angular_f64_v128relaxed_cycle;
+    // Reduce and normalize
+    nk_f64_t ab = nk_reduce_add_f64x2_v128relaxed_(ab_f64x2);
+    nk_f64_t a2 = nk_reduce_add_f64x2_v128relaxed_(a2_f64x2);
+    nk_f64_t b2 = nk_reduce_add_f64x2_v128relaxed_(b2_f64x2);
+    *result = nk_angular_normalize_f64_v128relaxed_(ab, a2, b2);
+}
+#pragma endregion - Traditional Floats
+#pragma region - Smaller Floats
+NK_PUBLIC void nk_sqeuclidean_f16_v128relaxed(nk_f16_t const *a, nk_f16_t const *b, nk_size_t n, nk_f32_t *result) {
+    v128_t sum_f32x4 = wasm_f32x4_splat(0.0f);
+    nk_f16_t const *a_scalars = a, *b_scalars = b;
+    nk_size_t count_scalars = n;
+    nk_b64_vec_t a_f16_vec, b_f16_vec;
+nk_sqeuclidean_f16_v128relaxed_cycle:
+    // Tail or full load
+    if (count_scalars < 4) {
+        nk_partial_load_b16x4_serial_(a_scalars, &a_f16_vec, count_scalars);
+        nk_partial_load_b16x4_serial_(b_scalars, &b_f16_vec, count_scalars);
+        count_scalars = 0;
+    }
+    else {
+        nk_load_b64_serial_(a_scalars, &a_f16_vec);
+        nk_load_b64_serial_(b_scalars, &b_f16_vec);
+        a_scalars += 4, b_scalars += 4, count_scalars -= 4;
+    }
+    // Convert f16 → f32 (4 elements)
+    nk_b128_vec_t a_f32_vec = nk_f16x4_to_f32x4_v128relaxed_(a_f16_vec);
+    nk_b128_vec_t b_f32_vec = nk_f16x4_to_f32x4_v128relaxed_(b_f16_vec);
+    // Accumulate (a - b)²
+    v128_t diff_f32x4 = wasm_f32x4_sub(a_f32_vec.v128, b_f32_vec.v128);
+    sum_f32x4 = wasm_f32x4_relaxed_madd(diff_f32x4, diff_f32x4, sum_f32x4);
+    if (count_scalars) goto nk_sqeuclidean_f16_v128relaxed_cycle;
+    *result = nk_reduce_add_f32x4_v128relaxed_(sum_f32x4);
+}
+NK_PUBLIC void nk_euclidean_f16_v128relaxed(nk_f16_t const *a, nk_f16_t const *b, nk_size_t n, nk_f32_t *result) {
+    nk_f32_t l2sq;
+    nk_sqeuclidean_f16_v128relaxed(a, b, n, &l2sq);
+    *result = nk_f32_sqrt_v128relaxed(l2sq);
+}
+NK_PUBLIC void nk_angular_f16_v128relaxed(nk_f16_t const *a, nk_f16_t const *b, nk_size_t n, nk_f32_t *result) {
+    v128_t ab_f32x4 = wasm_f32x4_splat(0.0f);
+    v128_t a2_f32x4 = wasm_f32x4_splat(0.0f);
+    v128_t b2_f32x4 = wasm_f32x4_splat(0.0f);
+    nk_f16_t const *a_scalars = a, *b_scalars = b;
+    nk_size_t count_scalars = n;
+    nk_b64_vec_t a_f16_vec, b_f16_vec;
+nk_angular_f16_v128relaxed_cycle:
+    if (count_scalars < 4) {
+        nk_partial_load_b16x4_serial_(a_scalars, &a_f16_vec, count_scalars);
+        nk_partial_load_b16x4_serial_(b_scalars, &b_f16_vec, count_scalars);
+        count_scalars = 0;
+    }
+    else {
+        nk_load_b64_serial_(a_scalars, &a_f16_vec);
+        nk_load_b64_serial_(b_scalars, &b_f16_vec);
+        a_scalars += 4, b_scalars += 4, count_scalars -= 4;
+    }
+    // Convert f16 → f32
+    nk_b128_vec_t a_f32_vec = nk_f16x4_to_f32x4_v128relaxed_(a_f16_vec);
+    nk_b128_vec_t b_f32_vec = nk_f16x4_to_f32x4_v128relaxed_(b_f16_vec);
+    // Triple accumulation: ab, a², b²
+    ab_f32x4 = wasm_f32x4_relaxed_madd(a_f32_vec.v128, b_f32_vec.v128, ab_f32x4);
+    a2_f32x4 = wasm_f32x4_relaxed_madd(a_f32_vec.v128, a_f32_vec.v128, a2_f32x4);
+    b2_f32x4 = wasm_f32x4_relaxed_madd(b_f32_vec.v128, b_f32_vec.v128, b2_f32x4);
+    if (count_scalars) goto nk_angular_f16_v128relaxed_cycle;
+    // Reduce accumulators
+    nk_f32_t ab = nk_reduce_add_f32x4_v128relaxed_(ab_f32x4);
+    nk_f32_t a2 = nk_reduce_add_f32x4_v128relaxed_(a2_f32x4);
+    nk_f32_t b2 = nk_reduce_add_f32x4_v128relaxed_(b2_f32x4);
+    // Normalize using f64 helper (handles edge cases: zero vectors, perpendicular, clamping)
+    *result = (nk_f32_t)nk_angular_normalize_f64_v128relaxed_((nk_f64_t)ab, (nk_f64_t)a2, (nk_f64_t)b2);
+}
+NK_PUBLIC void nk_sqeuclidean_bf16_v128relaxed(nk_bf16_t const *a, nk_bf16_t const *b, nk_size_t n, nk_f32_t *result) {
+    v128_t sum_f32x4 = wasm_f32x4_splat(0.0f);
+    nk_bf16_t const *a_scalars = a, *b_scalars = b;
+    nk_size_t count_scalars = n;
+    nk_b64_vec_t a_bf16_vec, b_bf16_vec;
+nk_sqeuclidean_bf16_v128relaxed_cycle:
+    // Tail or full load
+    if (count_scalars < 4) {
+        nk_partial_load_b16x4_serial_(a_scalars, &a_bf16_vec, count_scalars);
+        nk_partial_load_b16x4_serial_(b_scalars, &b_bf16_vec, count_scalars);
+        count_scalars = 0;
+    }
+    else {
+        nk_load_b64_serial_(a_scalars, &a_bf16_vec);
+        nk_load_b64_serial_(b_scalars, &b_bf16_vec);
+        a_scalars += 4, b_scalars += 4, count_scalars -= 4;
+    }
+    // Convert bf16 → f32 (4 elements)
+    nk_b128_vec_t a_f32_vec = nk_bf16x4_to_f32x4_v128relaxed_(a_bf16_vec);
+    nk_b128_vec_t b_f32_vec = nk_bf16x4_to_f32x4_v128relaxed_(b_bf16_vec);
+    // Accumulate (a - b)²
+    v128_t diff_f32x4 = wasm_f32x4_sub(a_f32_vec.v128, b_f32_vec.v128);
+    sum_f32x4 = wasm_f32x4_relaxed_madd(diff_f32x4, diff_f32x4, sum_f32x4);
+    if (count_scalars) goto nk_sqeuclidean_bf16_v128relaxed_cycle;
+    *result = nk_reduce_add_f32x4_v128relaxed_(sum_f32x4);
+}
+NK_PUBLIC void nk_euclidean_bf16_v128relaxed(nk_bf16_t const *a, nk_bf16_t const *b, nk_size_t n, nk_f32_t *result) {
+    nk_f32_t l2sq;
+    nk_sqeuclidean_bf16_v128relaxed(a, b, n, &l2sq);
+    *result = nk_f32_sqrt_v128relaxed(l2sq);
+}
+NK_PUBLIC void nk_angular_bf16_v128relaxed(nk_bf16_t const *a, nk_bf16_t const *b, nk_size_t n, nk_f32_t *result) {
+    v128_t ab_f32x4 = wasm_f32x4_splat(0.0f);
+    v128_t a2_f32x4 = wasm_f32x4_splat(0.0f);
+    v128_t b2_f32x4 = wasm_f32x4_splat(0.0f);
+    nk_bf16_t const *a_scalars = a, *b_scalars = b;
+    nk_size_t count_scalars = n;
+    nk_b64_vec_t a_bf16_vec, b_bf16_vec;
+nk_angular_bf16_v128relaxed_cycle:
+    if (count_scalars < 4) {
+        nk_partial_load_b16x4_serial_(a_scalars, &a_bf16_vec, count_scalars);
+        nk_partial_load_b16x4_serial_(b_scalars, &b_bf16_vec, count_scalars);
+        count_scalars = 0;
+    }
+    else {
+        nk_load_b64_serial_(a_scalars, &a_bf16_vec);
+        nk_load_b64_serial_(b_scalars, &b_bf16_vec);
+        a_scalars += 4, b_scalars += 4, count_scalars -= 4;
+    }
+    // Convert bf16 → f32
+    nk_b128_vec_t a_f32_vec = nk_bf16x4_to_f32x4_v128relaxed_(a_bf16_vec);
+    nk_b128_vec_t b_f32_vec = nk_bf16x4_to_f32x4_v128relaxed_(b_bf16_vec);
+    // Triple accumulation: ab, a², b²
+    ab_f32x4 = wasm_f32x4_relaxed_madd(a_f32_vec.v128, b_f32_vec.v128, ab_f32x4);
+    a2_f32x4 = wasm_f32x4_relaxed_madd(a_f32_vec.v128, a_f32_vec.v128, a2_f32x4);
+    b2_f32x4 = wasm_f32x4_relaxed_madd(b_f32_vec.v128, b_f32_vec.v128, b2_f32x4);
+    if (count_scalars) goto nk_angular_bf16_v128relaxed_cycle;
+    // Reduce accumulators
+    nk_f32_t ab = nk_reduce_add_f32x4_v128relaxed_(ab_f32x4);
+    nk_f32_t a2 = nk_reduce_add_f32x4_v128relaxed_(a2_f32x4);
+    nk_f32_t b2 = nk_reduce_add_f32x4_v128relaxed_(b2_f32x4);
+    // Normalize using f64 helper (handles edge cases: zero vectors, perpendicular, clamping)
+    *result = (nk_f32_t)nk_angular_normalize_f64_v128relaxed_((nk_f64_t)ab, (nk_f64_t)a2, (nk_f64_t)b2);
+}
+#pragma endregion - Smaller Floats
+#pragma region - Spatial From-Dot Helpers
+/** @brief Angular from_dot: computes 1 − dot / √(query_sumsq × target_sumsq) for 4 pairs in f32. */
+NK_INTERNAL void nk_angular_through_f32_from_dot_v128relaxed_(nk_b128_vec_t dots, nk_f32_t query_sumsq,
+                                                              nk_b128_vec_t target_sumsqs, nk_b128_vec_t *results) {
+    v128_t dots_f32x4 = dots.v128;
+    v128_t query_sumsq_f32x4 = wasm_f32x4_splat(query_sumsq);
+    v128_t products_f32x4 = wasm_f32x4_mul(query_sumsq_f32x4, target_sumsqs.v128);
+    v128_t sqrt_products_f32x4 = wasm_f32x4_sqrt(products_f32x4);
+    v128_t normalized_f32x4 = wasm_f32x4_div(dots_f32x4, sqrt_products_f32x4);
+    v128_t angular_f32x4 = wasm_f32x4_sub(wasm_f32x4_splat(1.0f), normalized_f32x4);
+    results->v128 = wasm_f32x4_max(angular_f32x4, wasm_f32x4_splat(0.0f));
+}
+/** @brief Euclidean from_dot: computes √(query_sumsq + target_sumsq − 2 × dot) for 4 pairs in f32. */
+NK_INTERNAL void nk_euclidean_through_f32_from_dot_v128relaxed_(nk_b128_vec_t dots, nk_f32_t query_sumsq,
+                                                                nk_b128_vec_t target_sumsqs, nk_b128_vec_t *results) {
+    v128_t dots_f32x4 = dots.v128;
+    v128_t query_sumsq_f32x4 = wasm_f32x4_splat(query_sumsq);
+    v128_t two_f32x4 = wasm_f32x4_splat(2.0f);
+    v128_t sum_sq_f32x4 = wasm_f32x4_add(query_sumsq_f32x4, target_sumsqs.v128);
+    v128_t dist_sq_f32x4 = wasm_f32x4_relaxed_nmadd(two_f32x4, dots_f32x4, sum_sq_f32x4);
+    dist_sq_f32x4 = wasm_f32x4_max(dist_sq_f32x4, wasm_f32x4_splat(0.0f));
+    results->v128 = wasm_f32x4_sqrt(dist_sq_f32x4);
+}
+/** @brief Angular from_dot for i32 accumulators: cast to f32, then angular normalization. 4 pairs. */
+NK_INTERNAL void nk_angular_through_i32_from_dot_v128relaxed_(nk_b128_vec_t dots, nk_i32_t query_sumsq,
+                                                              nk_b128_vec_t target_sumsqs, nk_b128_vec_t *results) {
+    v128_t dots_f32x4 = wasm_f32x4_convert_i32x4(dots.v128);
+    v128_t query_sumsq_f32x4 = wasm_f32x4_splat((nk_f32_t)query_sumsq);
+    v128_t products_f32x4 = wasm_f32x4_mul(query_sumsq_f32x4, wasm_f32x4_convert_i32x4(target_sumsqs.v128));
+    v128_t sqrt_products_f32x4 = wasm_f32x4_sqrt(products_f32x4);
+    v128_t normalized_f32x4 = wasm_f32x4_div(dots_f32x4, sqrt_products_f32x4);
+    v128_t angular_f32x4 = wasm_f32x4_sub(wasm_f32x4_splat(1.0f), normalized_f32x4);
+    results->v128 = wasm_f32x4_max(angular_f32x4, wasm_f32x4_splat(0.0f));
+}
+/** @brief Euclidean from_dot for i32 accumulators: cast to f32, then √(a² + b² − 2ab). 4 pairs. */
+NK_INTERNAL void nk_euclidean_through_i32_from_dot_v128relaxed_(nk_b128_vec_t dots, nk_i32_t query_sumsq,
+                                                                nk_b128_vec_t target_sumsqs, nk_b128_vec_t *results) {
+    v128_t dots_f32x4 = wasm_f32x4_convert_i32x4(dots.v128);
+    v128_t query_sumsq_f32x4 = wasm_f32x4_splat((nk_f32_t)query_sumsq);
+    v128_t two_f32x4 = wasm_f32x4_splat(2.0f);
+    v128_t sum_sq_f32x4 = wasm_f32x4_add(query_sumsq_f32x4, wasm_f32x4_convert_i32x4(target_sumsqs.v128));
+    v128_t dist_sq_f32x4 = wasm_f32x4_relaxed_nmadd(two_f32x4, dots_f32x4, sum_sq_f32x4);
+    dist_sq_f32x4 = wasm_f32x4_max(dist_sq_f32x4, wasm_f32x4_splat(0.0f));
+    results->v128 = wasm_f32x4_sqrt(dist_sq_f32x4);
+}
+/** @brief Angular from_dot for u32 accumulators: cast to f32, then angular normalization. 4 pairs. */
+NK_INTERNAL void nk_angular_through_u32_from_dot_v128relaxed_(nk_b128_vec_t dots, nk_u32_t query_sumsq,
+                                                              nk_b128_vec_t target_sumsqs, nk_b128_vec_t *results) {
+    v128_t dots_f32x4 = wasm_f32x4_convert_u32x4(dots.v128);
+    v128_t query_sumsq_f32x4 = wasm_f32x4_splat((nk_f32_t)query_sumsq);
+    v128_t products_f32x4 = wasm_f32x4_mul(query_sumsq_f32x4, wasm_f32x4_convert_u32x4(target_sumsqs.v128));
+    v128_t sqrt_products_f32x4 = wasm_f32x4_sqrt(products_f32x4);
+    v128_t normalized_f32x4 = wasm_f32x4_div(dots_f32x4, sqrt_products_f32x4);
+    v128_t angular_f32x4 = wasm_f32x4_sub(wasm_f32x4_splat(1.0f), normalized_f32x4);
+    results->v128 = wasm_f32x4_max(angular_f32x4, wasm_f32x4_splat(0.0f));
+}
+/** @brief Euclidean from_dot for u32 accumulators: cast to f32, then √(a² + b² − 2ab). 4 pairs. */
+NK_INTERNAL void nk_euclidean_through_u32_from_dot_v128relaxed_(nk_b128_vec_t dots, nk_u32_t query_sumsq,
+                                                                nk_b128_vec_t target_sumsqs, nk_b128_vec_t *results) {
+    v128_t dots_f32x4 = wasm_f32x4_convert_u32x4(dots.v128);
+    v128_t query_sumsq_f32x4 = wasm_f32x4_splat((nk_f32_t)query_sumsq);
+    v128_t two_f32x4 = wasm_f32x4_splat(2.0f);
+    v128_t sum_sq_f32x4 = wasm_f32x4_add(query_sumsq_f32x4, wasm_f32x4_convert_u32x4(target_sumsqs.v128));
+    v128_t dist_sq_f32x4 = wasm_f32x4_relaxed_nmadd(two_f32x4, dots_f32x4, sum_sq_f32x4);
+    dist_sq_f32x4 = wasm_f32x4_max(dist_sq_f32x4, wasm_f32x4_splat(0.0f));
+    results->v128 = wasm_f32x4_sqrt(dist_sq_f32x4);
+}
+#pragma endregion - Spatial From - Dot Helpers
+#pragma region - Integer Spatial
+NK_PUBLIC void nk_sqeuclidean_u8_v128relaxed(nk_u8_t const *a, nk_u8_t const *b, nk_size_t n, nk_u32_t *result) {
+    v128_t sum_u32x4 = wasm_u32x4_splat(0);
+    nk_u8_t const *a_scalars = a, *b_scalars = b;
+    nk_size_t count_scalars = n;
+    v128_t a_u8x16, b_u8x16;
+nk_sqeuclidean_u8_v128relaxed_cycle:
+    if (count_scalars < 16) {
+        nk_b128_vec_t a_vec = {0}, b_vec = {0};
+        nk_partial_load_b8x16_serial_(a_scalars, &a_vec, count_scalars);
+        nk_partial_load_b8x16_serial_(b_scalars, &b_vec, count_scalars);
+        a_u8x16 = a_vec.v128;
+        b_u8x16 = b_vec.v128;
+        count_scalars = 0;
+    }
+    else {
+        a_u8x16 = wasm_v128_load(a_scalars);
+        b_u8x16 = wasm_v128_load(b_scalars);
+        a_scalars += 16, b_scalars += 16, count_scalars -= 16;
+    }
+    // |a-b| via saturating subtraction: diff = (a ⊖ b) | (b ⊖ a)
+    v128_t difference_u8x16 = wasm_v128_or(wasm_u8x16_sub_sat(a_u8x16, b_u8x16), wasm_u8x16_sub_sat(b_u8x16, a_u8x16));
+    // Widen to u16 and square via extmul
+    v128_t difference_low_u16x8 = wasm_u16x8_extend_low_u8x16(difference_u8x16);
+    v128_t difference_high_u16x8 = wasm_u16x8_extend_high_u8x16(difference_u8x16);
+    sum_u32x4 = wasm_i32x4_add(sum_u32x4, wasm_i32x4_extmul_low_i16x8(difference_low_u16x8, difference_low_u16x8));
+    sum_u32x4 = wasm_i32x4_add(sum_u32x4, wasm_i32x4_extmul_high_i16x8(difference_low_u16x8, difference_low_u16x8));
+    sum_u32x4 = wasm_i32x4_add(sum_u32x4, wasm_i32x4_extmul_low_i16x8(difference_high_u16x8, difference_high_u16x8));
+    sum_u32x4 = wasm_i32x4_add(sum_u32x4, wasm_i32x4_extmul_high_i16x8(difference_high_u16x8, difference_high_u16x8));
+    if (count_scalars) goto nk_sqeuclidean_u8_v128relaxed_cycle;
+    *result = nk_reduce_add_u32x4_v128relaxed_(sum_u32x4);
+}
+NK_PUBLIC void nk_euclidean_u8_v128relaxed(nk_u8_t const *a, nk_u8_t const *b, nk_size_t n, nk_f32_t *result) {
+    nk_u32_t distance_squared;
+    nk_sqeuclidean_u8_v128relaxed(a, b, n, &distance_squared);
+    *result = nk_f32_sqrt_v128relaxed((nk_f32_t)distance_squared);
+}
+NK_PUBLIC void nk_angular_u8_v128relaxed(nk_u8_t const *a, nk_u8_t const *b, nk_size_t n, nk_f32_t *result) {
+    // Bias u8 [0,255] → i8 [-128,127] via XOR 0x80, then use the i8 magnitude+sign
+    // decomposition for saturation-safe relaxed_dot.
+    //
+    // The XOR-only approach (passing raw u8 as first operand) causes vpmaddubsw saturation:
+    // u8*i8 pairwise sums can reach 64770, exceeding i16 max (32767).
+    // Biasing first ensures i8*u7 products stay in [-16256, 16129], pairs in [-32512, 32258].
+    //
+    // Let a' = a - 128, b' = b - 128 (via XOR 0x80).
+    // Compute biased dots via relaxed_dot with i7 magnitude trick:
+    //   a'·b' = relaxed_dot(a', b'&0x7F) - 128·Σ(a'[i] where b'[i]<0)
+    // Then recover true unsigned dots:
+    //   a·b = a'·b' + 128·(Σa + Σb) - n·16384
+    //   a·a = a'·a' + 256·Σa - n·16384
+    //   b·b = b'·b' + 256·Σb - n·16384
+    nk_i64_t biased_ab = 0, biased_aa = 0, biased_bb = 0;
+    nk_i64_t sum_a_total = 0, sum_b_total = 0;
+    nk_size_t i = 0;
+    // Windowed accumulation loop
+    while (i + 16 <= n) {
+        v128_t dot_ab_i32x4 = wasm_i32x4_splat(0);
+        v128_t dot_aa_i32x4 = wasm_i32x4_splat(0);
+        v128_t dot_bb_i32x4 = wasm_i32x4_splat(0);
+        v128_t corr_ab_i16x8 = wasm_i16x8_splat(0);
+        v128_t corr_aa_i16x8 = wasm_i16x8_splat(0);
+        v128_t corr_bb_i16x8 = wasm_i16x8_splat(0);
+        v128_t sum_a_u16x8 = wasm_u16x8_splat(0);
+        v128_t sum_b_u16x8 = wasm_u16x8_splat(0);
+        // Inner loop: accumulate 127 iterations before widening corrections
+        // Overflow safety: max i16 lane = 127 × 254 = 32258 < 32767
+        nk_size_t cycle = 0;
+        for (; cycle < 127 && i + 16 <= n; ++cycle, i += 16) {
+            v128_t a_u8x16 = wasm_v128_load(a + i);
+            v128_t b_u8x16 = wasm_v128_load(b + i);
+            // Bias to signed: a' = a ^ 0x80, b' = b ^ 0x80
+            v128_t a_i8x16 = wasm_v128_xor(a_u8x16, wasm_i8x16_splat((char)0x80));
+            v128_t b_i8x16 = wasm_v128_xor(b_u8x16, wasm_i8x16_splat((char)0x80));
+            // Clear sign bit to get 7-bit unsigned magnitudes
+            v128_t a_7bit_u8x16 = wasm_v128_and(a_i8x16, wasm_i8x16_splat(0x7F));
+            v128_t b_7bit_u8x16 = wasm_v128_and(b_i8x16, wasm_i8x16_splat(0x7F));
+            // Negative masks for correction
+            v128_t a_neg_mask_i8x16 = wasm_i8x16_lt(a_i8x16, wasm_i8x16_splat(0));
+            v128_t b_neg_mask_i8x16 = wasm_i8x16_lt(b_i8x16, wasm_i8x16_splat(0));
+            // Three relaxed_dot calls on biased values
+            dot_ab_i32x4 = wasm_i32x4_relaxed_dot_i8x16_i7x16_add(a_i8x16, b_7bit_u8x16, dot_ab_i32x4);
+            dot_aa_i32x4 = wasm_i32x4_relaxed_dot_i8x16_i7x16_add(a_i8x16, a_7bit_u8x16, dot_aa_i32x4);
+            dot_bb_i32x4 = wasm_i32x4_relaxed_dot_i8x16_i7x16_add(b_i8x16, b_7bit_u8x16, dot_bb_i32x4);
+            // Accumulate corrections in i16 (1 widening/iter instead of 2)
+            v128_t a_where_b_neg = wasm_v128_and(a_i8x16, b_neg_mask_i8x16);
+            v128_t a_where_a_neg = wasm_v128_and(a_i8x16, a_neg_mask_i8x16);
+            v128_t b_where_b_neg = wasm_v128_and(b_i8x16, b_neg_mask_i8x16);
+            corr_ab_i16x8 = wasm_i16x8_add(corr_ab_i16x8, wasm_i16x8_extadd_pairwise_i8x16(a_where_b_neg));
+            corr_aa_i16x8 = wasm_i16x8_add(corr_aa_i16x8, wasm_i16x8_extadd_pairwise_i8x16(a_where_a_neg));
+            corr_bb_i16x8 = wasm_i16x8_add(corr_bb_i16x8, wasm_i16x8_extadd_pairwise_i8x16(b_where_b_neg));
+            // Unsigned sums for final unbias correction
+            sum_a_u16x8 = wasm_i16x8_add(sum_a_u16x8, wasm_u16x8_extadd_pairwise_u8x16(a_u8x16));
+            sum_b_u16x8 = wasm_i16x8_add(sum_b_u16x8, wasm_u16x8_extadd_pairwise_u8x16(b_u8x16));
+        }
+        // Deferred widening: i16/u16 → i32/u32 once per window
+        v128_t corr_ab_i32x4 = wasm_i32x4_extadd_pairwise_i16x8(corr_ab_i16x8);
+        v128_t corr_aa_i32x4 = wasm_i32x4_extadd_pairwise_i16x8(corr_aa_i16x8);
+        v128_t corr_bb_i32x4 = wasm_i32x4_extadd_pairwise_i16x8(corr_bb_i16x8);
+        v128_t sum_a_u32x4 = wasm_u32x4_extadd_pairwise_u16x8(sum_a_u16x8);
+        v128_t sum_b_u32x4 = wasm_u32x4_extadd_pairwise_u16x8(sum_b_u16x8);
+        biased_ab += nk_reduce_add_i32x4_v128relaxed_(dot_ab_i32x4) -
+                     128LL * nk_reduce_add_i32x4_v128relaxed_(corr_ab_i32x4);
+        biased_aa += nk_reduce_add_i32x4_v128relaxed_(dot_aa_i32x4) -
+                     128LL * nk_reduce_add_i32x4_v128relaxed_(corr_aa_i32x4);
+        biased_bb += nk_reduce_add_i32x4_v128relaxed_(dot_bb_i32x4) -
+                     128LL * nk_reduce_add_i32x4_v128relaxed_(corr_bb_i32x4);
+        sum_a_total += nk_reduce_add_u32x4_v128relaxed_(sum_a_u32x4);
+        sum_b_total += nk_reduce_add_u32x4_v128relaxed_(sum_b_u32x4);
+    }
+    // Scalar tail: compute biased products directly
+    for (; i < n; i++) {
+        nk_i32_t a_biased = (nk_i32_t)a[i] - 128;
+        nk_i32_t b_biased = (nk_i32_t)b[i] - 128;
+        biased_ab += (nk_i64_t)a_biased * b_biased;
+        biased_aa += (nk_i64_t)a_biased * a_biased;
+        biased_bb += (nk_i64_t)b_biased * b_biased;
+        sum_a_total += a[i];
+        sum_b_total += b[i];
+    }
+    // Recover true unsigned dots from biased:
+    //   a·b = (a-128)·(b-128) + 128·Σa + 128·Σb - n·16384
+    //   a·a = (a-128)·(a-128) + 256·Σa - n·16384
+    //   b·b = (b-128)·(b-128) + 256·Σb - n·16384
+    nk_i64_t n_correction = (nk_i64_t)n * 16384LL;
+    nk_f64_t dot_ab = (nk_f64_t)(biased_ab + 128LL * (sum_a_total + sum_b_total) - n_correction);
+    nk_f64_t norm_aa = (nk_f64_t)(biased_aa + 256LL * sum_a_total - n_correction);
+    nk_f64_t norm_bb = (nk_f64_t)(biased_bb + 256LL * sum_b_total - n_correction);
+    *result = (nk_f32_t)nk_angular_normalize_f64_v128relaxed_(dot_ab, norm_aa, norm_bb);
+}
+NK_PUBLIC void nk_sqeuclidean_i8_v128relaxed(nk_i8_t const *a, nk_i8_t const *b, nk_size_t n, nk_u32_t *result) {
+    // XOR with 0x80 to reinterpret signed as unsigned, then use unsigned algorithm.
+    // |a-b|² is invariant under this uniform offset.
+    v128_t sum_u32x4 = wasm_u32x4_splat(0);
+    v128_t bias_u8x16 = wasm_u8x16_splat(0x80);
+    nk_i8_t const *a_scalars = a, *b_scalars = b;
+    nk_size_t count_scalars = n;
+    v128_t a_u8x16, b_u8x16;
+nk_sqeuclidean_i8_v128relaxed_cycle:
+    if (count_scalars < 16) {
+        nk_b128_vec_t a_vec = {0}, b_vec = {0};
+        nk_partial_load_b8x16_serial_(a_scalars, &a_vec, count_scalars);
+        nk_partial_load_b8x16_serial_(b_scalars, &b_vec, count_scalars);
+        a_u8x16 = wasm_v128_xor(a_vec.v128, bias_u8x16);
+        b_u8x16 = wasm_v128_xor(b_vec.v128, bias_u8x16);
+        count_scalars = 0;
+    }
+    else {
+        a_u8x16 = wasm_v128_xor(wasm_v128_load(a_scalars), bias_u8x16);
+        b_u8x16 = wasm_v128_xor(wasm_v128_load(b_scalars), bias_u8x16);
+        a_scalars += 16, b_scalars += 16, count_scalars -= 16;
+    }
+    v128_t difference_u8x16 = wasm_v128_or(wasm_u8x16_sub_sat(a_u8x16, b_u8x16), wasm_u8x16_sub_sat(b_u8x16, a_u8x16));
+    v128_t difference_low_u16x8 = wasm_u16x8_extend_low_u8x16(difference_u8x16);
+    v128_t difference_high_u16x8 = wasm_u16x8_extend_high_u8x16(difference_u8x16);
+    sum_u32x4 = wasm_i32x4_add(sum_u32x4, wasm_i32x4_extmul_low_i16x8(difference_low_u16x8, difference_low_u16x8));
+    sum_u32x4 = wasm_i32x4_add(sum_u32x4, wasm_i32x4_extmul_high_i16x8(difference_low_u16x8, difference_low_u16x8));
+    sum_u32x4 = wasm_i32x4_add(sum_u32x4, wasm_i32x4_extmul_low_i16x8(difference_high_u16x8, difference_high_u16x8));
+    sum_u32x4 = wasm_i32x4_add(sum_u32x4, wasm_i32x4_extmul_high_i16x8(difference_high_u16x8, difference_high_u16x8));
+    if (count_scalars) goto nk_sqeuclidean_i8_v128relaxed_cycle;
+    *result = nk_reduce_add_u32x4_v128relaxed_(sum_u32x4);
+}
+NK_PUBLIC void nk_euclidean_i8_v128relaxed(nk_i8_t const *a, nk_i8_t const *b, nk_size_t n, nk_f32_t *result) {
+    nk_u32_t distance_squared;
+    nk_sqeuclidean_i8_v128relaxed(a, b, n, &distance_squared);
+    *result = nk_f32_sqrt_v128relaxed((nk_f32_t)distance_squared);
+}
+NK_PUBLIC void nk_angular_i8_v128relaxed(nk_i8_t const *a, nk_i8_t const *b, nk_size_t n, nk_f32_t *result) {
+    // Uses the same relaxed_dot decomposition as nk_dot_i8_v128relaxed:
+    //   a·b = relaxed_dot(a, b&0x7F) - 128·Σ(a[i] where b[i]<0)
+    //   a·a = relaxed_dot(a, a&0x7F) - 128·Σ(a[i] where a[i]<0)
+    //   b·b = relaxed_dot(b, b&0x7F) - 128·Σ(b[i] where b[i]<0)
+    nk_i64_t dot_ab_total = 0, dot_aa_total = 0, dot_bb_total = 0;
+    nk_i64_t corr_ab_total = 0, corr_aa_total = 0, corr_bb_total = 0;
+    nk_size_t i = 0;
+    // Windowed accumulation loop
+    while (i + 16 <= n) {
+        v128_t dot_ab_i32x4 = wasm_i32x4_splat(0);
+        v128_t dot_aa_i32x4 = wasm_i32x4_splat(0);
+        v128_t dot_bb_i32x4 = wasm_i32x4_splat(0);
+        v128_t corr_ab_i16x8 = wasm_i16x8_splat(0); // accumulate corrections in i16
+        v128_t corr_aa_i16x8 = wasm_i16x8_splat(0);
+        v128_t corr_bb_i16x8 = wasm_i16x8_splat(0);
+        // Inner loop: accumulate 127 iterations before widening corrections
+        // Overflow safety: max i16 lane magnitude = 127 × 254 = 32258 < 32767
+        nk_size_t cycle = 0;
+        for (; cycle < 127 && i + 16 <= n; ++cycle, i += 16) {
+            v128_t a_i8x16 = wasm_v128_load(a + i);
+            v128_t b_i8x16 = wasm_v128_load(b + i);
+            // Clear sign bit to get 7-bit unsigned magnitudes
+            v128_t a_7bit_u8x16 = wasm_v128_and(a_i8x16, wasm_i8x16_splat(0x7F));
+            v128_t b_7bit_u8x16 = wasm_v128_and(b_i8x16, wasm_i8x16_splat(0x7F));
+            // Negative masks for correction
+            v128_t a_neg_mask_i8x16 = wasm_i8x16_lt(a_i8x16, wasm_i8x16_splat(0));
+            v128_t b_neg_mask_i8x16 = wasm_i8x16_lt(b_i8x16, wasm_i8x16_splat(0));
+            // Three relaxed_dot calls
+            dot_ab_i32x4 = wasm_i32x4_relaxed_dot_i8x16_i7x16_add(a_i8x16, b_7bit_u8x16, dot_ab_i32x4);
+            dot_aa_i32x4 = wasm_i32x4_relaxed_dot_i8x16_i7x16_add(a_i8x16, a_7bit_u8x16, dot_aa_i32x4);
+            dot_bb_i32x4 = wasm_i32x4_relaxed_dot_i8x16_i7x16_add(b_i8x16, b_7bit_u8x16, dot_bb_i32x4);
+            // Accumulate corrections in i16 (1 widening/iter instead of 2)
+            v128_t a_where_b_neg = wasm_v128_and(a_i8x16, b_neg_mask_i8x16);
+            v128_t a_where_a_neg = wasm_v128_and(a_i8x16, a_neg_mask_i8x16);
+            v128_t b_where_b_neg = wasm_v128_and(b_i8x16, b_neg_mask_i8x16);
+            corr_ab_i16x8 = wasm_i16x8_add(corr_ab_i16x8, wasm_i16x8_extadd_pairwise_i8x16(a_where_b_neg));
+            corr_aa_i16x8 = wasm_i16x8_add(corr_aa_i16x8, wasm_i16x8_extadd_pairwise_i8x16(a_where_a_neg));
+            corr_bb_i16x8 = wasm_i16x8_add(corr_bb_i16x8, wasm_i16x8_extadd_pairwise_i8x16(b_where_b_neg));
+        }
+        // Deferred widening: i16 → i32 once per window
+        v128_t corr_ab_i32x4 = wasm_i32x4_extadd_pairwise_i16x8(corr_ab_i16x8);
+        v128_t corr_aa_i32x4 = wasm_i32x4_extadd_pairwise_i16x8(corr_aa_i16x8);
+        v128_t corr_bb_i32x4 = wasm_i32x4_extadd_pairwise_i16x8(corr_bb_i16x8);
+        dot_ab_total += nk_reduce_add_i32x4_v128relaxed_(dot_ab_i32x4);
+        dot_aa_total += nk_reduce_add_i32x4_v128relaxed_(dot_aa_i32x4);
+        dot_bb_total += nk_reduce_add_i32x4_v128relaxed_(dot_bb_i32x4);
+        corr_ab_total += nk_reduce_add_i32x4_v128relaxed_(corr_ab_i32x4);
+        corr_aa_total += nk_reduce_add_i32x4_v128relaxed_(corr_aa_i32x4);
+        corr_bb_total += nk_reduce_add_i32x4_v128relaxed_(corr_bb_i32x4);
+    }
+    // Scalar tail
+    for (; i < n; i++) {
+        dot_ab_total += (nk_i32_t)a[i] * (nk_i32_t)b[i];
+        dot_aa_total += (nk_i32_t)a[i] * (nk_i32_t)a[i];
+        dot_bb_total += (nk_i32_t)b[i] * (nk_i32_t)b[i];
+    }
+    // Apply correction: true_dot = relaxed_dot - 128 × correction
+    // Scalar tail computes true products directly, so correction only applies to SIMD portion.
+    nk_f64_t dot_ab = (nk_f64_t)(dot_ab_total - 128LL * corr_ab_total);
+    nk_f64_t norm_aa = (nk_f64_t)(dot_aa_total - 128LL * corr_aa_total);
+    nk_f64_t norm_bb = (nk_f64_t)(dot_bb_total - 128LL * corr_bb_total);
+    *result = (nk_f32_t)nk_angular_normalize_f64_v128relaxed_(dot_ab, norm_aa, norm_bb);
+}
+#pragma endregion - Integer Spatial
+#if defined(__clang__)
+#pragma clang attribute pop
+#endif
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#endif // NK_TARGET_V128RELAXED
+#endif // NK_SPATIAL_V128RELAXED_H