npm - numkong - Versions diffs - 7.0.0 - Mend

numkong 7.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (294) hide show

package/LICENSE +201 -0
package/README.md +495 -0
package/binding.gyp +540 -0
package/c/dispatch.h +512 -0
package/c/dispatch_bf16.c +389 -0
package/c/dispatch_bf16c.c +52 -0
package/c/dispatch_e2m3.c +263 -0
package/c/dispatch_e3m2.c +243 -0
package/c/dispatch_e4m3.c +276 -0
package/c/dispatch_e5m2.c +272 -0
package/c/dispatch_f16.c +376 -0
package/c/dispatch_f16c.c +58 -0
package/c/dispatch_f32.c +378 -0
package/c/dispatch_f32c.c +99 -0
package/c/dispatch_f64.c +296 -0
package/c/dispatch_f64c.c +98 -0
package/c/dispatch_i16.c +96 -0
package/c/dispatch_i32.c +89 -0
package/c/dispatch_i4.c +150 -0
package/c/dispatch_i64.c +86 -0
package/c/dispatch_i8.c +289 -0
package/c/dispatch_other.c +330 -0
package/c/dispatch_u1.c +148 -0
package/c/dispatch_u16.c +124 -0
package/c/dispatch_u32.c +118 -0
package/c/dispatch_u4.c +150 -0
package/c/dispatch_u64.c +102 -0
package/c/dispatch_u8.c +303 -0
package/c/numkong.c +950 -0
package/include/README.md +573 -0
package/include/module.modulemap +129 -0
package/include/numkong/attention/sapphireamx.h +1361 -0
package/include/numkong/attention/sme.h +2066 -0
package/include/numkong/attention.h +49 -0
package/include/numkong/capabilities.h +748 -0
package/include/numkong/cast/README.md +262 -0
package/include/numkong/cast/haswell.h +975 -0
package/include/numkong/cast/icelake.h +470 -0
package/include/numkong/cast/neon.h +1192 -0
package/include/numkong/cast/rvv.h +1021 -0
package/include/numkong/cast/sapphire.h +262 -0
package/include/numkong/cast/serial.h +2262 -0
package/include/numkong/cast/skylake.h +856 -0
package/include/numkong/cast/v128relaxed.h +180 -0
package/include/numkong/cast.h +230 -0
package/include/numkong/curved/README.md +223 -0
package/include/numkong/curved/genoa.h +182 -0
package/include/numkong/curved/haswell.h +276 -0
package/include/numkong/curved/neon.h +205 -0
package/include/numkong/curved/neonbfdot.h +212 -0
package/include/numkong/curved/neonhalf.h +212 -0
package/include/numkong/curved/rvv.h +305 -0
package/include/numkong/curved/serial.h +207 -0
package/include/numkong/curved/skylake.h +457 -0
package/include/numkong/curved/smef64.h +506 -0
package/include/numkong/curved.h +517 -0
package/include/numkong/curved.hpp +144 -0
package/include/numkong/dot/README.md +425 -0
package/include/numkong/dot/alder.h +563 -0
package/include/numkong/dot/genoa.h +315 -0
package/include/numkong/dot/haswell.h +1688 -0
package/include/numkong/dot/icelake.h +883 -0
package/include/numkong/dot/neon.h +818 -0
package/include/numkong/dot/neonbfdot.h +244 -0
package/include/numkong/dot/neonfhm.h +360 -0
package/include/numkong/dot/neonhalf.h +198 -0
package/include/numkong/dot/neonsdot.h +508 -0
package/include/numkong/dot/rvv.h +714 -0
package/include/numkong/dot/rvvbb.h +72 -0
package/include/numkong/dot/rvvbf16.h +123 -0
package/include/numkong/dot/rvvhalf.h +129 -0
package/include/numkong/dot/sapphire.h +141 -0
package/include/numkong/dot/serial.h +838 -0
package/include/numkong/dot/sierra.h +405 -0
package/include/numkong/dot/skylake.h +1084 -0
package/include/numkong/dot/sve.h +379 -0
package/include/numkong/dot/svebfdot.h +74 -0
package/include/numkong/dot/svehalf.h +123 -0
package/include/numkong/dot/v128relaxed.h +1258 -0
package/include/numkong/dot.h +1070 -0
package/include/numkong/dot.hpp +94 -0
package/include/numkong/dots/README.md +496 -0
package/include/numkong/dots/alder.h +114 -0
package/include/numkong/dots/genoa.h +94 -0
package/include/numkong/dots/haswell.h +295 -0
package/include/numkong/dots/icelake.h +171 -0
package/include/numkong/dots/neon.h +120 -0
package/include/numkong/dots/neonbfdot.h +58 -0
package/include/numkong/dots/neonfhm.h +94 -0
package/include/numkong/dots/neonhalf.h +57 -0
package/include/numkong/dots/neonsdot.h +108 -0
package/include/numkong/dots/rvv.h +2486 -0
package/include/numkong/dots/sapphireamx.h +3973 -0
package/include/numkong/dots/serial.h +2844 -0
package/include/numkong/dots/sierra.h +97 -0
package/include/numkong/dots/skylake.h +196 -0
package/include/numkong/dots/sme.h +5372 -0
package/include/numkong/dots/smebi32.h +461 -0
package/include/numkong/dots/smef64.h +1318 -0
package/include/numkong/dots/smehalf.h +47 -0
package/include/numkong/dots/v128relaxed.h +294 -0
package/include/numkong/dots.h +2804 -0
package/include/numkong/dots.hpp +639 -0
package/include/numkong/each/README.md +469 -0
package/include/numkong/each/haswell.h +1658 -0
package/include/numkong/each/icelake.h +272 -0
package/include/numkong/each/neon.h +1104 -0
package/include/numkong/each/neonbfdot.h +212 -0
package/include/numkong/each/neonhalf.h +410 -0
package/include/numkong/each/rvv.h +1121 -0
package/include/numkong/each/sapphire.h +477 -0
package/include/numkong/each/serial.h +260 -0
package/include/numkong/each/skylake.h +1562 -0
package/include/numkong/each.h +2146 -0
package/include/numkong/each.hpp +434 -0
package/include/numkong/geospatial/README.md +147 -0
package/include/numkong/geospatial/haswell.h +593 -0
package/include/numkong/geospatial/neon.h +571 -0
package/include/numkong/geospatial/rvv.h +701 -0
package/include/numkong/geospatial/serial.h +309 -0
package/include/numkong/geospatial/skylake.h +577 -0
package/include/numkong/geospatial/v128relaxed.h +613 -0
package/include/numkong/geospatial.h +453 -0
package/include/numkong/geospatial.hpp +235 -0
package/include/numkong/matrix.hpp +336 -0
package/include/numkong/maxsim/README.md +187 -0
package/include/numkong/maxsim/alder.h +511 -0
package/include/numkong/maxsim/genoa.h +115 -0
package/include/numkong/maxsim/haswell.h +553 -0
package/include/numkong/maxsim/icelake.h +480 -0
package/include/numkong/maxsim/neonsdot.h +394 -0
package/include/numkong/maxsim/sapphireamx.h +877 -0
package/include/numkong/maxsim/serial.h +490 -0
package/include/numkong/maxsim/sme.h +929 -0
package/include/numkong/maxsim/v128relaxed.h +280 -0
package/include/numkong/maxsim.h +571 -0
package/include/numkong/maxsim.hpp +133 -0
package/include/numkong/mesh/README.md +227 -0
package/include/numkong/mesh/haswell.h +2235 -0
package/include/numkong/mesh/neon.h +1329 -0
package/include/numkong/mesh/neonbfdot.h +842 -0
package/include/numkong/mesh/neonhalf.h +616 -0
package/include/numkong/mesh/rvv.h +916 -0
package/include/numkong/mesh/serial.h +742 -0
package/include/numkong/mesh/skylake.h +1135 -0
package/include/numkong/mesh/v128relaxed.h +1052 -0
package/include/numkong/mesh.h +652 -0
package/include/numkong/mesh.hpp +762 -0
package/include/numkong/numkong.h +78 -0
package/include/numkong/numkong.hpp +57 -0
package/include/numkong/probability/README.md +173 -0
package/include/numkong/probability/haswell.h +267 -0
package/include/numkong/probability/neon.h +225 -0
package/include/numkong/probability/rvv.h +409 -0
package/include/numkong/probability/serial.h +169 -0
package/include/numkong/probability/skylake.h +324 -0
package/include/numkong/probability.h +383 -0
package/include/numkong/probability.hpp +120 -0
package/include/numkong/random.h +50 -0
package/include/numkong/random.hpp +285 -0
package/include/numkong/reduce/README.md +547 -0
package/include/numkong/reduce/alder.h +632 -0
package/include/numkong/reduce/genoa.h +201 -0
package/include/numkong/reduce/haswell.h +3783 -0
package/include/numkong/reduce/icelake.h +549 -0
package/include/numkong/reduce/neon.h +3841 -0
package/include/numkong/reduce/neonbfdot.h +353 -0
package/include/numkong/reduce/neonfhm.h +665 -0
package/include/numkong/reduce/neonhalf.h +157 -0
package/include/numkong/reduce/neonsdot.h +357 -0
package/include/numkong/reduce/rvv.h +3407 -0
package/include/numkong/reduce/serial.h +757 -0
package/include/numkong/reduce/sierra.h +338 -0
package/include/numkong/reduce/skylake.h +3792 -0
package/include/numkong/reduce/v128relaxed.h +2302 -0
package/include/numkong/reduce.h +1597 -0
package/include/numkong/reduce.hpp +633 -0
package/include/numkong/scalar/README.md +89 -0
package/include/numkong/scalar/haswell.h +113 -0
package/include/numkong/scalar/neon.h +122 -0
package/include/numkong/scalar/neonhalf.h +70 -0
package/include/numkong/scalar/rvv.h +211 -0
package/include/numkong/scalar/sapphire.h +63 -0
package/include/numkong/scalar/serial.h +332 -0
package/include/numkong/scalar/v128relaxed.h +56 -0
package/include/numkong/scalar.h +683 -0
package/include/numkong/set/README.md +179 -0
package/include/numkong/set/haswell.h +334 -0
package/include/numkong/set/icelake.h +485 -0
package/include/numkong/set/neon.h +364 -0
package/include/numkong/set/rvv.h +226 -0
package/include/numkong/set/rvvbb.h +117 -0
package/include/numkong/set/serial.h +174 -0
package/include/numkong/set/sve.h +185 -0
package/include/numkong/set/v128relaxed.h +240 -0
package/include/numkong/set.h +457 -0
package/include/numkong/set.hpp +114 -0
package/include/numkong/sets/README.md +149 -0
package/include/numkong/sets/haswell.h +63 -0
package/include/numkong/sets/icelake.h +66 -0
package/include/numkong/sets/neon.h +61 -0
package/include/numkong/sets/serial.h +43 -0
package/include/numkong/sets/smebi32.h +1099 -0
package/include/numkong/sets/v128relaxed.h +58 -0
package/include/numkong/sets.h +339 -0
package/include/numkong/sparse/README.md +156 -0
package/include/numkong/sparse/icelake.h +463 -0
package/include/numkong/sparse/neon.h +288 -0
package/include/numkong/sparse/serial.h +117 -0
package/include/numkong/sparse/sve2.h +507 -0
package/include/numkong/sparse/turin.h +322 -0
package/include/numkong/sparse.h +363 -0
package/include/numkong/sparse.hpp +113 -0
package/include/numkong/spatial/README.md +435 -0
package/include/numkong/spatial/alder.h +607 -0
package/include/numkong/spatial/genoa.h +290 -0
package/include/numkong/spatial/haswell.h +960 -0
package/include/numkong/spatial/icelake.h +586 -0
package/include/numkong/spatial/neon.h +773 -0
package/include/numkong/spatial/neonbfdot.h +165 -0
package/include/numkong/spatial/neonhalf.h +118 -0
package/include/numkong/spatial/neonsdot.h +261 -0
package/include/numkong/spatial/rvv.h +984 -0
package/include/numkong/spatial/rvvbf16.h +123 -0
package/include/numkong/spatial/rvvhalf.h +117 -0
package/include/numkong/spatial/sapphire.h +343 -0
package/include/numkong/spatial/serial.h +346 -0
package/include/numkong/spatial/sierra.h +323 -0
package/include/numkong/spatial/skylake.h +606 -0
package/include/numkong/spatial/sve.h +224 -0
package/include/numkong/spatial/svebfdot.h +122 -0
package/include/numkong/spatial/svehalf.h +109 -0
package/include/numkong/spatial/v128relaxed.h +717 -0
package/include/numkong/spatial.h +1425 -0
package/include/numkong/spatial.hpp +183 -0
package/include/numkong/spatials/README.md +580 -0
package/include/numkong/spatials/alder.h +94 -0
package/include/numkong/spatials/genoa.h +94 -0
package/include/numkong/spatials/haswell.h +219 -0
package/include/numkong/spatials/icelake.h +113 -0
package/include/numkong/spatials/neon.h +109 -0
package/include/numkong/spatials/neonbfdot.h +60 -0
package/include/numkong/spatials/neonfhm.h +92 -0
package/include/numkong/spatials/neonhalf.h +58 -0
package/include/numkong/spatials/neonsdot.h +109 -0
package/include/numkong/spatials/rvv.h +1960 -0
package/include/numkong/spatials/sapphireamx.h +1149 -0
package/include/numkong/spatials/serial.h +226 -0
package/include/numkong/spatials/sierra.h +96 -0
package/include/numkong/spatials/skylake.h +184 -0
package/include/numkong/spatials/sme.h +1901 -0
package/include/numkong/spatials/smef64.h +465 -0
package/include/numkong/spatials/v128relaxed.h +240 -0
package/include/numkong/spatials.h +3021 -0
package/include/numkong/spatials.hpp +508 -0
package/include/numkong/tensor.hpp +1592 -0
package/include/numkong/trigonometry/README.md +184 -0
package/include/numkong/trigonometry/haswell.h +652 -0
package/include/numkong/trigonometry/neon.h +639 -0
package/include/numkong/trigonometry/rvv.h +699 -0
package/include/numkong/trigonometry/serial.h +703 -0
package/include/numkong/trigonometry/skylake.h +721 -0
package/include/numkong/trigonometry/v128relaxed.h +666 -0
package/include/numkong/trigonometry.h +467 -0
package/include/numkong/trigonometry.hpp +166 -0
package/include/numkong/types.h +1384 -0
package/include/numkong/types.hpp +5603 -0
package/include/numkong/vector.hpp +698 -0
package/javascript/README.md +246 -0
package/javascript/dist/cjs/numkong-wasm.d.ts +166 -0
package/javascript/dist/cjs/numkong-wasm.js +617 -0
package/javascript/dist/cjs/numkong.d.ts +343 -0
package/javascript/dist/cjs/numkong.js +523 -0
package/javascript/dist/cjs/package.json +3 -0
package/javascript/dist/cjs/types.d.ts +284 -0
package/javascript/dist/cjs/types.js +653 -0
package/javascript/dist/esm/numkong-wasm.d.ts +166 -0
package/javascript/dist/esm/numkong-wasm.js +595 -0
package/javascript/dist/esm/numkong.d.ts +343 -0
package/javascript/dist/esm/numkong.js +452 -0
package/javascript/dist/esm/package.json +3 -0
package/javascript/dist/esm/types.d.ts +284 -0
package/javascript/dist/esm/types.js +630 -0
package/javascript/dist-package-cjs.json +3 -0
package/javascript/dist-package-esm.json +3 -0
package/javascript/node-gyp-build.d.ts +1 -0
package/javascript/numkong-wasm.ts +756 -0
package/javascript/numkong.c +689 -0
package/javascript/numkong.ts +575 -0
package/javascript/tsconfig-base.json +39 -0
package/javascript/tsconfig-cjs.json +8 -0
package/javascript/tsconfig-esm.json +8 -0
package/javascript/types.ts +674 -0
package/package.json +87 -0

package/include/numkong/curved/rvv.h ADDED Viewed

@@ -0,0 +1,305 @@
+/**
+ *  @brief SIMD-accelerated Curved Space Distances for RISC-V.
+ *  @file include/numkong/curved/rvv.h
+ *  @author Ash Vardanian
+ *  @date February 6, 2026
+ *
+ *  @sa include/numkong/curved.h
+ *
+ *  Implements bilinear forms and Mahalanobis distance using RVV 1.0:
+ *  - f32 inputs use f32 SIMD accumulation with vfredusum ordered reduction
+ *  - f64 inputs use f64 SIMD accumulation with vfredusum ordered reduction
+ *  - f16/bf16 inputs are converted to f32 via cast helpers, then accumulated in f32
+ *  - Complex bilinear forms delegate to serial implementations
+ */
+#ifndef NK_CURVED_RVV_H
+#define NK_CURVED_RVV_H
+#if NK_TARGET_RISCV_
+#if NK_TARGET_RVV
+#include "numkong/types.h"
+#include "numkong/curved/serial.h"
+#include "numkong/cast/rvv.h"
+#include "numkong/spatial/rvv.h" // `nk_f64_sqrt_rvv`
+#if defined(__clang__)
+#pragma clang attribute push(__attribute__((target("arch=+v"))), apply_to = function)
+#elif defined(__GNUC__)
+#pragma GCC push_options
+#pragma GCC target("arch=+v")
+#endif
+#if defined(__cplusplus)
+extern "C" {
+#endif
+NK_PUBLIC void nk_bilinear_f32_rvv(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                   nk_f64_t *result) {
+    nk_size_t vlmax = __riscv_vsetvlmax_e32m2();
+    nk_f64_t outer_sum = 0;
+    for (nk_size_t i = 0; i < n; ++i) {
+        vfloat64m4_t inner_f64m4 = __riscv_vfmv_v_f_f64m4(0.0, vlmax);
+        nk_f32_t const *c_row = c + i * n;
+        nk_size_t remaining = n;
+        for (nk_size_t vector_length; remaining > 0; remaining -= vector_length, c_row += vector_length) {
+            vector_length = __riscv_vsetvl_e32m2(remaining);
+            vfloat32m2_t c_f32m2 = __riscv_vle32_v_f32m2(c_row, vector_length);
+            vfloat32m2_t b_f32m2 = __riscv_vle32_v_f32m2(b + (n - remaining), vector_length);
+            inner_f64m4 = __riscv_vfwmacc_vv_f64m4_tu(inner_f64m4, c_f32m2, b_f32m2, vector_length);
+        }
+        vfloat64m1_t zero_f64m1 = __riscv_vfmv_v_f_f64m1(0.0, 1);
+        nk_f64_t inner_val = __riscv_vfmv_f_s_f64m1_f64(
+            __riscv_vfredusum_vs_f64m4_f64m1(inner_f64m4, zero_f64m1, vlmax));
+        outer_sum += (nk_f64_t)a[i] * inner_val;
+    }
+    *result = outer_sum;
+}
+NK_PUBLIC void nk_bilinear_f64_rvv(nk_f64_t const *a, nk_f64_t const *b, nk_f64_t const *c, nk_size_t n,
+                                   nk_f64_t *result) {
+    nk_size_t vlmax = __riscv_vsetvlmax_e64m4();
+    vfloat64m1_t sum_f64m1 = __riscv_vfmv_v_f_f64m1(0.0, 1);
+    nk_f64_t outer_compensation = 0;
+    for (nk_size_t i = 0; i < n; ++i) {
+        vfloat64m4_t inner_f64m4 = __riscv_vfmv_v_f_f64m4(0.0, vlmax);
+        vfloat64m4_t compensation_f64m4 = __riscv_vfmv_v_f_f64m4(0.0, vlmax);
+        nk_f64_t const *c_row = c + i * n;
+        nk_size_t remaining = n;
+        for (nk_size_t vector_length; remaining > 0; remaining -= vector_length, c_row += vector_length) {
+            vector_length = __riscv_vsetvl_e64m4(remaining);
+            vfloat64m4_t vc_f64m4 = __riscv_vle64_v_f64m4(c_row, vector_length);
+            vfloat64m4_t vb_f64m4 = __riscv_vle64_v_f64m4(b + (n - remaining), vector_length);
+            vfloat64m4_t product_f64m4 = __riscv_vfmul_vv_f64m4(vc_f64m4, vb_f64m4, vector_length);
+            vfloat64m4_t corrected_term_f64m4 = __riscv_vfsub_vv_f64m4(product_f64m4, compensation_f64m4,
+                                                                       vector_length);
+            vfloat64m4_t running_sum_f64m4 = __riscv_vfadd_vv_f64m4_tu(inner_f64m4, inner_f64m4, corrected_term_f64m4,
+                                                                       vector_length);
+            compensation_f64m4 = __riscv_vfsub_vv_f64m4_tu(
+                compensation_f64m4, __riscv_vfsub_vv_f64m4(running_sum_f64m4, inner_f64m4, vector_length),
+                corrected_term_f64m4, vector_length);
+            inner_f64m4 = running_sum_f64m4;
+        }
+        vfloat64m1_t zero_f64m1 = __riscv_vfmv_v_f_f64m1(0.0, 1);
+        nk_f64_t inner_val = __riscv_vfmv_f_s_f64m1_f64(
+            __riscv_vfredusum_vs_f64m4_f64m1(inner_f64m4, zero_f64m1, vlmax));
+        nk_f64_t product_outer = a[i] * inner_val;
+        nk_f64_t old_sum = __riscv_vfmv_f_s_f64m1_f64(sum_f64m1);
+        nk_f64_t new_sum = old_sum + product_outer;
+        if (nk_f64_abs_(old_sum) >= nk_f64_abs_(product_outer))
+            outer_compensation += (old_sum - new_sum) + product_outer;
+        else outer_compensation += (product_outer - new_sum) + old_sum;
+        sum_f64m1 = __riscv_vfmv_v_f_f64m1(new_sum, 1);
+    }
+    *result = __riscv_vfmv_f_s_f64m1_f64(sum_f64m1) + outer_compensation;
+}
+NK_PUBLIC void nk_bilinear_f16_rvv(nk_f16_t const *a, nk_f16_t const *b, nk_f16_t const *c, nk_size_t n,
+                                   nk_f32_t *result) {
+    nk_size_t vlmax = __riscv_vsetvlmax_e32m2();
+    vfloat32m1_t sum_f32m1 = __riscv_vfmv_v_f_f32m1(0.0f, 1);
+    for (nk_size_t i = 0; i < n; ++i) {
+        // Convert a[i] from f16 to f32
+        nk_f32_t a_i;
+        nk_f16_to_f32_serial(a + i, &a_i);
+        vfloat32m2_t inner_f32m2 = __riscv_vfmv_v_f_f32m2(0.0f, vlmax);
+        nk_f16_t const *c_row = c + i * n;
+        nk_size_t remaining = n;
+        for (nk_size_t vector_length; remaining > 0; remaining -= vector_length, c_row += vector_length) {
+            vector_length = __riscv_vsetvl_e16m1(remaining);
+            // Load f16 as u16 bits and convert to f32
+            vuint16m1_t vc_u16m1 = __riscv_vle16_v_u16m1((nk_u16_t const *)c_row, vector_length);
+            vuint16m1_t vb_u16m1 = __riscv_vle16_v_u16m1((nk_u16_t const *)(b + (n - remaining)), vector_length);
+            vfloat32m2_t vc_f32m2 = nk_f16m1_to_f32m2_rvv_(vc_u16m1, vector_length);
+            vfloat32m2_t vb_f32m2 = nk_f16m1_to_f32m2_rvv_(vb_u16m1, vector_length);
+            inner_f32m2 = __riscv_vfmacc_vv_f32m2_tu(inner_f32m2, vc_f32m2, vb_f32m2, vector_length);
+        }
+        vfloat32m1_t zero_f32m1 = __riscv_vfmv_v_f_f32m1(0.0f, 1);
+        nk_f32_t inner_val = __riscv_vfmv_f_s_f32m1_f32(
+            __riscv_vfredusum_vs_f32m2_f32m1(inner_f32m2, zero_f32m1, vlmax));
+        sum_f32m1 = __riscv_vfmv_v_f_f32m1(__riscv_vfmv_f_s_f32m1_f32(sum_f32m1) + a_i * inner_val, 1);
+    }
+    *result = __riscv_vfmv_f_s_f32m1_f32(sum_f32m1);
+}
+NK_PUBLIC void nk_bilinear_bf16_rvv(nk_bf16_t const *a, nk_bf16_t const *b, nk_bf16_t const *c, nk_size_t n,
+                                    nk_f32_t *result) {
+    nk_size_t vlmax = __riscv_vsetvlmax_e32m2();
+    vfloat32m1_t sum_f32m1 = __riscv_vfmv_v_f_f32m1(0.0f, 1);
+    for (nk_size_t i = 0; i < n; ++i) {
+        // Convert a[i] from bf16 to f32
+        nk_f32_t a_i;
+        nk_bf16_to_f32_serial(a + i, &a_i);
+        vfloat32m2_t inner_f32m2 = __riscv_vfmv_v_f_f32m2(0.0f, vlmax);
+        nk_bf16_t const *c_row = c + i * n;
+        nk_size_t remaining = n;
+        for (nk_size_t vector_length; remaining > 0; remaining -= vector_length, c_row += vector_length) {
+            vector_length = __riscv_vsetvl_e16m1(remaining);
+            // Load bf16 as u16 bits and convert to f32
+            vuint16m1_t vc_u16m1 = __riscv_vle16_v_u16m1((nk_u16_t const *)c_row, vector_length);
+            vuint16m1_t vb_u16m1 = __riscv_vle16_v_u16m1((nk_u16_t const *)(b + (n - remaining)), vector_length);
+            vfloat32m2_t vc_f32m2 = nk_bf16m1_to_f32m2_rvv_(vc_u16m1, vector_length);
+            vfloat32m2_t vb_f32m2 = nk_bf16m1_to_f32m2_rvv_(vb_u16m1, vector_length);
+            inner_f32m2 = __riscv_vfmacc_vv_f32m2_tu(inner_f32m2, vc_f32m2, vb_f32m2, vector_length);
+        }
+        vfloat32m1_t zero_f32m1 = __riscv_vfmv_v_f_f32m1(0.0f, 1);
+        nk_f32_t inner_val = __riscv_vfmv_f_s_f32m1_f32(
+            __riscv_vfredusum_vs_f32m2_f32m1(inner_f32m2, zero_f32m1, vlmax));
+        sum_f32m1 = __riscv_vfmv_v_f_f32m1(__riscv_vfmv_f_s_f32m1_f32(sum_f32m1) + a_i * inner_val, 1);
+    }
+    *result = __riscv_vfmv_f_s_f32m1_f32(sum_f32m1);
+}
+NK_PUBLIC void nk_mahalanobis_f32_rvv(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                      nk_f64_t *result) {
+    nk_size_t vlmax = __riscv_vsetvlmax_e32m2();
+    nk_f64_t outer_sum = 0;
+    for (nk_size_t i = 0; i < n; ++i) {
+        nk_f64_t diff_i = (nk_f64_t)a[i] - (nk_f64_t)b[i];
+        vfloat64m4_t inner_f64m4 = __riscv_vfmv_v_f_f64m4(0.0, vlmax);
+        nk_f32_t const *c_row = c + i * n;
+        nk_size_t remaining = n;
+        for (nk_size_t vector_length; remaining > 0; remaining -= vector_length, c_row += vector_length) {
+            vector_length = __riscv_vsetvl_e32m2(remaining);
+            nk_size_t j = n - remaining;
+            vfloat32m2_t c_f32m2 = __riscv_vle32_v_f32m2(c_row, vector_length);
+            vfloat32m2_t a_f32m2 = __riscv_vle32_v_f32m2(a + j, vector_length);
+            vfloat32m2_t b_f32m2 = __riscv_vle32_v_f32m2(b + j, vector_length);
+            vfloat64m4_t diff_f64m4 = __riscv_vfwsub_vv_f64m4(a_f32m2, b_f32m2, vector_length);
+            vfloat64m4_t c_f64m4 = __riscv_vfwcvt_f_f_v_f64m4(c_f32m2, vector_length);
+            inner_f64m4 = __riscv_vfmacc_vv_f64m4_tu(inner_f64m4, c_f64m4, diff_f64m4, vector_length);
+        }
+        vfloat64m1_t zero_f64m1 = __riscv_vfmv_v_f_f64m1(0.0, 1);
+        nk_f64_t inner_val = __riscv_vfmv_f_s_f64m1_f64(
+            __riscv_vfredusum_vs_f64m4_f64m1(inner_f64m4, zero_f64m1, vlmax));
+        outer_sum += diff_i * inner_val;
+    }
+    *result = nk_f64_sqrt_rvv(outer_sum > 0 ? outer_sum : 0);
+}
+NK_PUBLIC void nk_mahalanobis_f64_rvv(nk_f64_t const *a, nk_f64_t const *b, nk_f64_t const *c, nk_size_t n,
+                                      nk_f64_t *result) {
+    nk_size_t vlmax = __riscv_vsetvlmax_e64m4();
+    vfloat64m1_t sum_f64m1 = __riscv_vfmv_v_f_f64m1(0.0, 1);
+    nk_f64_t outer_compensation = 0;
+    for (nk_size_t i = 0; i < n; ++i) {
+        nk_f64_t diff_i = a[i] - b[i];
+        vfloat64m4_t inner_f64m4 = __riscv_vfmv_v_f_f64m4(0.0, vlmax);
+        vfloat64m4_t compensation_f64m4 = __riscv_vfmv_v_f_f64m4(0.0, vlmax);
+        nk_f64_t const *c_row = c + i * n;
+        nk_size_t remaining = n;
+        for (nk_size_t vector_length; remaining > 0; remaining -= vector_length, c_row += vector_length) {
+            vector_length = __riscv_vsetvl_e64m4(remaining);
+            nk_size_t j = n - remaining;
+            vfloat64m4_t vc_f64m4 = __riscv_vle64_v_f64m4(c_row, vector_length);
+            vfloat64m4_t va_f64m4 = __riscv_vle64_v_f64m4(a + j, vector_length);
+            vfloat64m4_t vb_f64m4 = __riscv_vle64_v_f64m4(b + j, vector_length);
+            vfloat64m4_t diff_j_f64m4 = __riscv_vfsub_vv_f64m4(va_f64m4, vb_f64m4, vector_length);
+            vfloat64m4_t product_f64m4 = __riscv_vfmul_vv_f64m4(vc_f64m4, diff_j_f64m4, vector_length);
+            vfloat64m4_t corrected_term_f64m4 = __riscv_vfsub_vv_f64m4(product_f64m4, compensation_f64m4,
+                                                                       vector_length);
+            vfloat64m4_t running_sum_f64m4 = __riscv_vfadd_vv_f64m4_tu(inner_f64m4, inner_f64m4, corrected_term_f64m4,
+                                                                       vector_length);
+            compensation_f64m4 = __riscv_vfsub_vv_f64m4_tu(
+                compensation_f64m4, __riscv_vfsub_vv_f64m4(running_sum_f64m4, inner_f64m4, vector_length),
+                corrected_term_f64m4, vector_length);
+            inner_f64m4 = running_sum_f64m4;
+        }
+        vfloat64m1_t zero_f64m1 = __riscv_vfmv_v_f_f64m1(0.0, 1);
+        nk_f64_t inner_val = __riscv_vfmv_f_s_f64m1_f64(
+            __riscv_vfredusum_vs_f64m4_f64m1(inner_f64m4, zero_f64m1, vlmax));
+        nk_f64_t product_outer = diff_i * inner_val;
+        nk_f64_t old_sum = __riscv_vfmv_f_s_f64m1_f64(sum_f64m1);
+        nk_f64_t new_sum = old_sum + product_outer;
+        if (nk_f64_abs_(old_sum) >= nk_f64_abs_(product_outer))
+            outer_compensation += (old_sum - new_sum) + product_outer;
+        else outer_compensation += (product_outer - new_sum) + old_sum;
+        sum_f64m1 = __riscv_vfmv_v_f_f64m1(new_sum, 1);
+    }
+    nk_f64_t quadratic = __riscv_vfmv_f_s_f64m1_f64(sum_f64m1) + outer_compensation;
+    *result = nk_f64_sqrt_rvv(quadratic > 0 ? quadratic : 0);
+}
+NK_PUBLIC void nk_mahalanobis_f16_rvv(nk_f16_t const *a, nk_f16_t const *b, nk_f16_t const *c, nk_size_t n,
+                                      nk_f32_t *result) {
+    nk_size_t vlmax = __riscv_vsetvlmax_e32m2();
+    vfloat32m1_t sum_f32m1 = __riscv_vfmv_v_f_f32m1(0.0f, 1);
+    for (nk_size_t i = 0; i < n; ++i) {
+        nk_f32_t a_i, b_i;
+        nk_f16_to_f32_serial(a + i, &a_i);
+        nk_f16_to_f32_serial(b + i, &b_i);
+        nk_f32_t diff_i = a_i - b_i;
+        vfloat32m2_t inner_f32m2 = __riscv_vfmv_v_f_f32m2(0.0f, vlmax);
+        nk_f16_t const *c_row = c + i * n;
+        nk_size_t remaining = n;
+        for (nk_size_t vector_length; remaining > 0; remaining -= vector_length, c_row += vector_length) {
+            vector_length = __riscv_vsetvl_e16m1(remaining);
+            nk_size_t j = n - remaining;
+            vuint16m1_t vc_u16m1 = __riscv_vle16_v_u16m1((nk_u16_t const *)c_row, vector_length);
+            vuint16m1_t va_u16m1 = __riscv_vle16_v_u16m1((nk_u16_t const *)(a + j), vector_length);
+            vuint16m1_t vb_u16m1 = __riscv_vle16_v_u16m1((nk_u16_t const *)(b + j), vector_length);
+            vfloat32m2_t vc_f32m2 = nk_f16m1_to_f32m2_rvv_(vc_u16m1, vector_length);
+            vfloat32m2_t va_f32m2 = nk_f16m1_to_f32m2_rvv_(va_u16m1, vector_length);
+            vfloat32m2_t vb_f32m2 = nk_f16m1_to_f32m2_rvv_(vb_u16m1, vector_length);
+            vfloat32m2_t diff_j_f32m2 = __riscv_vfsub_vv_f32m2(va_f32m2, vb_f32m2, vector_length);
+            inner_f32m2 = __riscv_vfmacc_vv_f32m2_tu(inner_f32m2, vc_f32m2, diff_j_f32m2, vector_length);
+        }
+        vfloat32m1_t zero_f32m1 = __riscv_vfmv_v_f_f32m1(0.0f, 1);
+        nk_f32_t inner_val = __riscv_vfmv_f_s_f32m1_f32(
+            __riscv_vfredusum_vs_f32m2_f32m1(inner_f32m2, zero_f32m1, vlmax));
+        sum_f32m1 = __riscv_vfmv_v_f_f32m1(__riscv_vfmv_f_s_f32m1_f32(sum_f32m1) + diff_i * inner_val, 1);
+    }
+    nk_f32_t quadratic_f16 = __riscv_vfmv_f_s_f32m1_f32(sum_f32m1);
+    *result = nk_f32_sqrt_rvv(quadratic_f16 > 0 ? quadratic_f16 : 0);
+}
+NK_PUBLIC void nk_mahalanobis_bf16_rvv(nk_bf16_t const *a, nk_bf16_t const *b, nk_bf16_t const *c, nk_size_t n,
+                                       nk_f32_t *result) {
+    nk_size_t vlmax = __riscv_vsetvlmax_e32m2();
+    vfloat32m1_t sum_f32m1 = __riscv_vfmv_v_f_f32m1(0.0f, 1);
+    for (nk_size_t i = 0; i < n; ++i) {
+        nk_f32_t a_i, b_i;
+        nk_bf16_to_f32_serial(a + i, &a_i);
+        nk_bf16_to_f32_serial(b + i, &b_i);
+        nk_f32_t diff_i = a_i - b_i;
+        vfloat32m2_t inner_f32m2 = __riscv_vfmv_v_f_f32m2(0.0f, vlmax);
+        nk_bf16_t const *c_row = c + i * n;
+        nk_size_t remaining = n;
+        for (nk_size_t vector_length; remaining > 0; remaining -= vector_length, c_row += vector_length) {
+            vector_length = __riscv_vsetvl_e16m1(remaining);
+            nk_size_t j = n - remaining;
+            vuint16m1_t vc_u16m1 = __riscv_vle16_v_u16m1((nk_u16_t const *)c_row, vector_length);
+            vuint16m1_t va_u16m1 = __riscv_vle16_v_u16m1((nk_u16_t const *)(a + j), vector_length);
+            vuint16m1_t vb_u16m1 = __riscv_vle16_v_u16m1((nk_u16_t const *)(b + j), vector_length);
+            vfloat32m2_t vc_f32m2 = nk_bf16m1_to_f32m2_rvv_(vc_u16m1, vector_length);
+            vfloat32m2_t va_f32m2 = nk_bf16m1_to_f32m2_rvv_(va_u16m1, vector_length);
+            vfloat32m2_t vb_f32m2 = nk_bf16m1_to_f32m2_rvv_(vb_u16m1, vector_length);
+            vfloat32m2_t diff_j_f32m2 = __riscv_vfsub_vv_f32m2(va_f32m2, vb_f32m2, vector_length);
+            inner_f32m2 = __riscv_vfmacc_vv_f32m2_tu(inner_f32m2, vc_f32m2, diff_j_f32m2, vector_length);
+        }
+        vfloat32m1_t zero_f32m1 = __riscv_vfmv_v_f_f32m1(0.0f, 1);
+        nk_f32_t inner_val = __riscv_vfmv_f_s_f32m1_f32(
+            __riscv_vfredusum_vs_f32m2_f32m1(inner_f32m2, zero_f32m1, vlmax));
+        sum_f32m1 = __riscv_vfmv_v_f_f32m1(__riscv_vfmv_f_s_f32m1_f32(sum_f32m1) + diff_i * inner_val, 1);
+    }
+    nk_f32_t quadratic_bf16 = __riscv_vfmv_f_s_f32m1_f32(sum_f32m1);
+    *result = nk_f32_sqrt_rvv(quadratic_bf16 > 0 ? quadratic_bf16 : 0);
+}
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#if defined(__clang__)
+#pragma clang attribute pop
+#elif defined(__GNUC__)
+#pragma GCC pop_options
+#endif
+#endif // NK_TARGET_RVV
+#endif // NK_TARGET_RISCV_
+#endif // NK_CURVED_RVV_H

package/include/numkong/curved/serial.h ADDED Viewed

@@ -0,0 +1,207 @@
+/**
+ *  @brief SWAR-accelerated Curved Space Similarity for SIMD-free CPUs.
+ *  @file include/numkong/curved/serial.h
+ *  @author Ash Vardanian
+ *  @date January 14, 2026
+ *
+ *  @sa include/numkong/curved.h
+ *
+ *  Implements bilinear forms and Mahalanobis distance with precision-appropriate strategies:
+ *  - f64 inputs use Dot2 (Ogita-Rump-Oishi 2005) for error-free transformations
+ *  - f32/f16/bf16 inputs upcast to wider accumulators (f64/f32), providing sufficient
+ *    precision headroom without compensation overhead
+ *
+ *  Bilinear form: aᵀ × C × b = Σᵢ aᵢ × (Σⱼ cᵢⱼ × bⱼ)
+ *
+ *  The nested loop structure has two accumulation levels:
+ *  - Inner: Σⱼ cᵢⱼ × bⱼ (O(n) terms per row)
+ *  - Outer: Σᵢ aᵢ × inner_result (O(n) terms total)
+ *
+ *  For f64→f64 (no upcast headroom): Dot2 uses TwoProd and TwoSum error-free
+ *  transformations at both levels, capturing rounding errors in compensation terms.
+ *
+ *  For upcasted types (f32→f64, f16→f32, bf16→f32): the wider accumulator provides
+ *  enough extra mantissa bits that simple accumulation suffices.
+ *
+ *  @see Ogita, T., Rump, S.M., Oishi, S. (2005). "Accurate Sum and Dot Product"
+ */
+#ifndef NK_CURVED_SERIAL_H
+#define NK_CURVED_SERIAL_H
+#include "numkong/types.h"
+#include "numkong/spatial/serial.h" // `nk_f64_sqrt_serial`
+#if defined(__cplusplus)
+extern "C" {
+#endif
+/**
+ *  @brief Macro for bilinear form aᵀ × C × b with simple accumulation.
+ *
+ *  Suitable for upcasted types where the wider accumulator provides sufficient
+ *  precision headroom (f32→f64, f16→f32, bf16→f32).
+ */
+#define nk_define_bilinear_(input_type, accumulator_type, output_type, load_and_convert)                         \
+    NK_PUBLIC void nk_bilinear_##input_type##_serial(nk_##input_type##_t const *a, nk_##input_type##_t const *b, \
+                                                     nk_##input_type##_t const *c, nk_size_t n,                  \
+                                                     nk_##output_type##_t *result) {                             \
+        nk_##accumulator_type##_t outer_sum = 0;                                                                 \
+        nk_##accumulator_type##_t vector_a_value, vector_b_value, tensor_value;                                  \
+        for (nk_size_t row = 0; row != n; ++row) {                                                               \
+            nk_##accumulator_type##_t inner_sum = 0;                                                             \
+            load_and_convert(a + row, &vector_a_value);                                                          \
+            for (nk_size_t column = 0; column != n; ++column) {                                                  \
+                load_and_convert(b + column, &vector_b_value);                                                   \
+                load_and_convert(c + row * n + column, &tensor_value);                                           \
+                inner_sum += tensor_value * vector_b_value;                                                      \
+            }                                                                                                    \
+            outer_sum += vector_a_value * inner_sum;                                                             \
+        }                                                                                                        \
+        *result = (nk_##output_type##_t)(outer_sum);                                                             \
+    }
+/**
+ *  @brief Macro for complex bilinear form aᵀ × C × b with simple accumulation.
+ *
+ *  Suitable for upcasted complex types where the wider accumulator provides
+ *  sufficient precision headroom.
+ */
+#define nk_define_bilinear_complex_(input_type, accumulator_type, output_type, load_and_convert)                    \
+    NK_PUBLIC void nk_bilinear_##input_type##_serial(                                                               \
+        nk_##input_type##_t const *a_pairs, nk_##input_type##_t const *b_pairs, nk_##input_type##_t const *c_pairs, \
+        nk_size_t n, nk_##output_type##c_t *results) {                                                              \
+        nk_##accumulator_type##_t outer_sum_real = 0, outer_sum_imag = 0;                                           \
+        nk_##accumulator_type##_t a_real, a_imag, b_real, b_imag, c_real, c_imag;                                   \
+        for (nk_size_t row = 0; row != n; ++row) {                                                                  \
+            nk_##accumulator_type##_t inner_sum_real = 0, inner_sum_imag = 0;                                       \
+            load_and_convert(&(a_pairs + row)->real, &a_real);                                                      \
+            load_and_convert(&(a_pairs + row)->imag, &a_imag);                                                      \
+            for (nk_size_t column = 0; column != n; ++column) {                                                     \
+                load_and_convert(&(b_pairs + column)->real, &b_real);                                               \
+                load_and_convert(&(b_pairs + column)->imag, &b_imag);                                               \
+                load_and_convert(&(c_pairs + row * n + column)->real, &c_real);                                     \
+                load_and_convert(&(c_pairs + row * n + column)->imag, &c_imag);                                     \
+                inner_sum_real += c_real * b_real - c_imag * b_imag;                                                \
+                inner_sum_imag += c_real * b_imag + c_imag * b_real;                                                \
+            }                                                                                                       \
+            /* Complex multiply: a_i * inner_result */                                                              \
+            outer_sum_real += a_real * inner_sum_real - a_imag * inner_sum_imag;                                    \
+            outer_sum_imag += a_real * inner_sum_imag + a_imag * inner_sum_real;                                    \
+        }                                                                                                           \
+        results->real = outer_sum_real;                                                                             \
+        results->imag = outer_sum_imag;                                                                             \
+    }
+/**
+ *  @brief Macro for Mahalanobis distance √((a−b)ᵀ × C × (a−b)) with simple accumulation.
+ *
+ *  Suitable for upcasted types where the wider accumulator provides sufficient
+ *  precision headroom. Differences are computed in the accumulator precision.
+ */
+#define nk_define_mahalanobis_(input_type, accumulator_type, output_type, load_and_convert)                         \
+    NK_PUBLIC void nk_mahalanobis_##input_type##_serial(nk_##input_type##_t const *a, nk_##input_type##_t const *b, \
+                                                        nk_##input_type##_t const *c, nk_size_t n,                  \
+                                                        nk_##output_type##_t *result) {                             \
+        nk_##accumulator_type##_t outer_sum = 0;                                                                    \
+        nk_##accumulator_type##_t a_row_value, b_row_value, a_column_value, b_column_value, tensor_value;           \
+        for (nk_size_t row = 0; row != n; ++row) {                                                                  \
+            nk_##accumulator_type##_t inner_sum = 0;                                                                \
+            load_and_convert(a + row, &a_row_value);                                                                \
+            load_and_convert(b + row, &b_row_value);                                                                \
+            nk_##accumulator_type##_t difference_row = a_row_value - b_row_value;                                   \
+            for (nk_size_t column = 0; column != n; ++column) {                                                     \
+                load_and_convert(a + column, &a_column_value);                                                      \
+                load_and_convert(b + column, &b_column_value);                                                      \
+                load_and_convert(c + row * n + column, &tensor_value);                                              \
+                nk_##accumulator_type##_t difference_column = a_column_value - b_column_value;                      \
+                inner_sum += tensor_value * difference_column;                                                      \
+            }                                                                                                       \
+            outer_sum += difference_row * inner_sum;                                                                \
+        }                                                                                                           \
+        nk_##accumulator_type##_t quadratic = outer_sum;                                                            \
+        *result = nk_##accumulator_type##_sqrt_serial(quadratic > 0 ? quadratic : 0);                               \
+    }
+// f32 → f64 accumulator → f64 output
+nk_define_bilinear_(f32, f64, f64, nk_assign_from_to_)          // nk_bilinear_f32_serial
+nk_define_bilinear_complex_(f32c, f64, f64, nk_assign_from_to_) // nk_bilinear_f32c_serial
+nk_define_mahalanobis_(f32, f64, f64, nk_assign_from_to_)       // nk_mahalanobis_f32_serial
+// f16 → f32 accumulator → f32 output: f32 provides ample headroom for f16 (~3 vs ~7 decimal digits)
+nk_define_bilinear_(f16, f32, f32, nk_f16_to_f32_serial)          // nk_bilinear_f16_serial
+nk_define_bilinear_complex_(f16c, f32, f32, nk_f16_to_f32_serial) // nk_bilinear_f16c_serial
+nk_define_mahalanobis_(f16, f32, f32, nk_f16_to_f32_serial)       // nk_mahalanobis_f16_serial
+// bf16 → f32 accumulator → f32 output: f32 provides ample headroom for bf16 (~2 vs ~7 decimal digits)
+nk_define_bilinear_(bf16, f32, f32, nk_bf16_to_f32_serial)          // nk_bilinear_bf16_serial
+nk_define_bilinear_complex_(bf16c, f32, f32, nk_bf16_to_f32_serial) // nk_bilinear_bf16c_serial
+nk_define_mahalanobis_(bf16, f32, f32, nk_bf16_to_f32_serial)       // nk_mahalanobis_bf16_serial
+#undef nk_define_bilinear_
+#undef nk_define_bilinear_complex_
+#undef nk_define_mahalanobis_
+NK_PUBLIC void nk_bilinear_f64_serial(nk_f64_t const *a, nk_f64_t const *b, nk_f64_t const *c, nk_size_t n,
+                                      nk_f64_t *result) {
+    nk_f64_t outer_sum = 0, outer_comp = 0;
+    for (nk_size_t row = 0; row != n; ++row) {
+        nk_f64_t inner_sum = 0, inner_comp = 0;
+        for (nk_size_t col = 0; col != n; ++col) nk_f64_dot2_(&inner_sum, &inner_comp, c[row * n + col], b[col]);
+        nk_f64_t cb_j = inner_sum + inner_comp;
+        nk_f64_dot2_(&outer_sum, &outer_comp, a[row], cb_j);
+    }
+    *result = outer_sum + outer_comp;
+}
+NK_PUBLIC void nk_bilinear_f64c_serial(nk_f64c_t const *a_pairs, nk_f64c_t const *b_pairs, nk_f64c_t const *c_pairs,
+                                       nk_size_t n, nk_f64c_t *results) {
+    nk_f64_t outer_sum_real = 0, outer_comp_real = 0;
+    nk_f64_t outer_sum_imag = 0, outer_comp_imag = 0;
+    for (nk_size_t row = 0; row != n; ++row) {
+        nk_f64_t a_real = a_pairs[row].real;
+        nk_f64_t a_imag = a_pairs[row].imag;
+        // 4 Dot2 accumulators for inner cross-terms
+        nk_f64_t sum_rr = 0, comp_rr = 0;
+        nk_f64_t sum_ii = 0, comp_ii = 0;
+        nk_f64_t sum_ri = 0, comp_ri = 0;
+        nk_f64_t sum_ir = 0, comp_ir = 0;
+        for (nk_size_t col = 0; col != n; ++col) {
+            nk_f64_t b_real = b_pairs[col].real, b_imag = b_pairs[col].imag;
+            nk_f64_t c_real = c_pairs[row * n + col].real, c_imag = c_pairs[row * n + col].imag;
+            nk_f64_dot2_(&sum_rr, &comp_rr, c_real, b_real);
+            nk_f64_dot2_(&sum_ii, &comp_ii, c_imag, b_imag);
+            nk_f64_dot2_(&sum_ri, &comp_ri, c_real, b_imag);
+            nk_f64_dot2_(&sum_ir, &comp_ir, c_imag, b_real);
+        }
+        nk_f64_t inner_real = (sum_rr + comp_rr) - (sum_ii + comp_ii);
+        nk_f64_t inner_imag = (sum_ri + comp_ri) + (sum_ir + comp_ir);
+        // Outer Dot2 complex multiply: a × inner
+        nk_f64_dot2_(&outer_sum_real, &outer_comp_real, a_real, inner_real);
+        nk_f64_dot2_(&outer_sum_real, &outer_comp_real, -a_imag, inner_imag);
+        nk_f64_dot2_(&outer_sum_imag, &outer_comp_imag, a_real, inner_imag);
+        nk_f64_dot2_(&outer_sum_imag, &outer_comp_imag, a_imag, inner_real);
+    }
+    results->real = outer_sum_real + outer_comp_real;
+    results->imag = outer_sum_imag + outer_comp_imag;
+}
+NK_PUBLIC void nk_mahalanobis_f64_serial(nk_f64_t const *a, nk_f64_t const *b, nk_f64_t const *c, nk_size_t n,
+                                         nk_f64_t *result) {
+    nk_f64_t outer_sum = 0, outer_comp = 0;
+    for (nk_size_t row = 0; row != n; ++row) {
+        nk_f64_t diff_row = a[row] - b[row];
+        nk_f64_t inner_sum = 0, inner_comp = 0;
+        for (nk_size_t col = 0; col != n; ++col)
+            nk_f64_dot2_(&inner_sum, &inner_comp, c[row * n + col], a[col] - b[col]);
+        nk_f64_t cb_j = inner_sum + inner_comp;
+        nk_f64_dot2_(&outer_sum, &outer_comp, diff_row, cb_j);
+    }
+    nk_f64_t quadratic = outer_sum + outer_comp;
+    *result = nk_f64_sqrt_serial(quadratic > 0 ? quadratic : 0);
+}
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#endif // NK_CURVED_SERIAL_H