npm - numkong - Versions diffs - 7.0.0 - Mend

numkong 7.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (294) hide show

package/LICENSE +201 -0
package/README.md +495 -0
package/binding.gyp +540 -0
package/c/dispatch.h +512 -0
package/c/dispatch_bf16.c +389 -0
package/c/dispatch_bf16c.c +52 -0
package/c/dispatch_e2m3.c +263 -0
package/c/dispatch_e3m2.c +243 -0
package/c/dispatch_e4m3.c +276 -0
package/c/dispatch_e5m2.c +272 -0
package/c/dispatch_f16.c +376 -0
package/c/dispatch_f16c.c +58 -0
package/c/dispatch_f32.c +378 -0
package/c/dispatch_f32c.c +99 -0
package/c/dispatch_f64.c +296 -0
package/c/dispatch_f64c.c +98 -0
package/c/dispatch_i16.c +96 -0
package/c/dispatch_i32.c +89 -0
package/c/dispatch_i4.c +150 -0
package/c/dispatch_i64.c +86 -0
package/c/dispatch_i8.c +289 -0
package/c/dispatch_other.c +330 -0
package/c/dispatch_u1.c +148 -0
package/c/dispatch_u16.c +124 -0
package/c/dispatch_u32.c +118 -0
package/c/dispatch_u4.c +150 -0
package/c/dispatch_u64.c +102 -0
package/c/dispatch_u8.c +303 -0
package/c/numkong.c +950 -0
package/include/README.md +573 -0
package/include/module.modulemap +129 -0
package/include/numkong/attention/sapphireamx.h +1361 -0
package/include/numkong/attention/sme.h +2066 -0
package/include/numkong/attention.h +49 -0
package/include/numkong/capabilities.h +748 -0
package/include/numkong/cast/README.md +262 -0
package/include/numkong/cast/haswell.h +975 -0
package/include/numkong/cast/icelake.h +470 -0
package/include/numkong/cast/neon.h +1192 -0
package/include/numkong/cast/rvv.h +1021 -0
package/include/numkong/cast/sapphire.h +262 -0
package/include/numkong/cast/serial.h +2262 -0
package/include/numkong/cast/skylake.h +856 -0
package/include/numkong/cast/v128relaxed.h +180 -0
package/include/numkong/cast.h +230 -0
package/include/numkong/curved/README.md +223 -0
package/include/numkong/curved/genoa.h +182 -0
package/include/numkong/curved/haswell.h +276 -0
package/include/numkong/curved/neon.h +205 -0
package/include/numkong/curved/neonbfdot.h +212 -0
package/include/numkong/curved/neonhalf.h +212 -0
package/include/numkong/curved/rvv.h +305 -0
package/include/numkong/curved/serial.h +207 -0
package/include/numkong/curved/skylake.h +457 -0
package/include/numkong/curved/smef64.h +506 -0
package/include/numkong/curved.h +517 -0
package/include/numkong/curved.hpp +144 -0
package/include/numkong/dot/README.md +425 -0
package/include/numkong/dot/alder.h +563 -0
package/include/numkong/dot/genoa.h +315 -0
package/include/numkong/dot/haswell.h +1688 -0
package/include/numkong/dot/icelake.h +883 -0
package/include/numkong/dot/neon.h +818 -0
package/include/numkong/dot/neonbfdot.h +244 -0
package/include/numkong/dot/neonfhm.h +360 -0
package/include/numkong/dot/neonhalf.h +198 -0
package/include/numkong/dot/neonsdot.h +508 -0
package/include/numkong/dot/rvv.h +714 -0
package/include/numkong/dot/rvvbb.h +72 -0
package/include/numkong/dot/rvvbf16.h +123 -0
package/include/numkong/dot/rvvhalf.h +129 -0
package/include/numkong/dot/sapphire.h +141 -0
package/include/numkong/dot/serial.h +838 -0
package/include/numkong/dot/sierra.h +405 -0
package/include/numkong/dot/skylake.h +1084 -0
package/include/numkong/dot/sve.h +379 -0
package/include/numkong/dot/svebfdot.h +74 -0
package/include/numkong/dot/svehalf.h +123 -0
package/include/numkong/dot/v128relaxed.h +1258 -0
package/include/numkong/dot.h +1070 -0
package/include/numkong/dot.hpp +94 -0
package/include/numkong/dots/README.md +496 -0
package/include/numkong/dots/alder.h +114 -0
package/include/numkong/dots/genoa.h +94 -0
package/include/numkong/dots/haswell.h +295 -0
package/include/numkong/dots/icelake.h +171 -0
package/include/numkong/dots/neon.h +120 -0
package/include/numkong/dots/neonbfdot.h +58 -0
package/include/numkong/dots/neonfhm.h +94 -0
package/include/numkong/dots/neonhalf.h +57 -0
package/include/numkong/dots/neonsdot.h +108 -0
package/include/numkong/dots/rvv.h +2486 -0
package/include/numkong/dots/sapphireamx.h +3973 -0
package/include/numkong/dots/serial.h +2844 -0
package/include/numkong/dots/sierra.h +97 -0
package/include/numkong/dots/skylake.h +196 -0
package/include/numkong/dots/sme.h +5372 -0
package/include/numkong/dots/smebi32.h +461 -0
package/include/numkong/dots/smef64.h +1318 -0
package/include/numkong/dots/smehalf.h +47 -0
package/include/numkong/dots/v128relaxed.h +294 -0
package/include/numkong/dots.h +2804 -0
package/include/numkong/dots.hpp +639 -0
package/include/numkong/each/README.md +469 -0
package/include/numkong/each/haswell.h +1658 -0
package/include/numkong/each/icelake.h +272 -0
package/include/numkong/each/neon.h +1104 -0
package/include/numkong/each/neonbfdot.h +212 -0
package/include/numkong/each/neonhalf.h +410 -0
package/include/numkong/each/rvv.h +1121 -0
package/include/numkong/each/sapphire.h +477 -0
package/include/numkong/each/serial.h +260 -0
package/include/numkong/each/skylake.h +1562 -0
package/include/numkong/each.h +2146 -0
package/include/numkong/each.hpp +434 -0
package/include/numkong/geospatial/README.md +147 -0
package/include/numkong/geospatial/haswell.h +593 -0
package/include/numkong/geospatial/neon.h +571 -0
package/include/numkong/geospatial/rvv.h +701 -0
package/include/numkong/geospatial/serial.h +309 -0
package/include/numkong/geospatial/skylake.h +577 -0
package/include/numkong/geospatial/v128relaxed.h +613 -0
package/include/numkong/geospatial.h +453 -0
package/include/numkong/geospatial.hpp +235 -0
package/include/numkong/matrix.hpp +336 -0
package/include/numkong/maxsim/README.md +187 -0
package/include/numkong/maxsim/alder.h +511 -0
package/include/numkong/maxsim/genoa.h +115 -0
package/include/numkong/maxsim/haswell.h +553 -0
package/include/numkong/maxsim/icelake.h +480 -0
package/include/numkong/maxsim/neonsdot.h +394 -0
package/include/numkong/maxsim/sapphireamx.h +877 -0
package/include/numkong/maxsim/serial.h +490 -0
package/include/numkong/maxsim/sme.h +929 -0
package/include/numkong/maxsim/v128relaxed.h +280 -0
package/include/numkong/maxsim.h +571 -0
package/include/numkong/maxsim.hpp +133 -0
package/include/numkong/mesh/README.md +227 -0
package/include/numkong/mesh/haswell.h +2235 -0
package/include/numkong/mesh/neon.h +1329 -0
package/include/numkong/mesh/neonbfdot.h +842 -0
package/include/numkong/mesh/neonhalf.h +616 -0
package/include/numkong/mesh/rvv.h +916 -0
package/include/numkong/mesh/serial.h +742 -0
package/include/numkong/mesh/skylake.h +1135 -0
package/include/numkong/mesh/v128relaxed.h +1052 -0
package/include/numkong/mesh.h +652 -0
package/include/numkong/mesh.hpp +762 -0
package/include/numkong/numkong.h +78 -0
package/include/numkong/numkong.hpp +57 -0
package/include/numkong/probability/README.md +173 -0
package/include/numkong/probability/haswell.h +267 -0
package/include/numkong/probability/neon.h +225 -0
package/include/numkong/probability/rvv.h +409 -0
package/include/numkong/probability/serial.h +169 -0
package/include/numkong/probability/skylake.h +324 -0
package/include/numkong/probability.h +383 -0
package/include/numkong/probability.hpp +120 -0
package/include/numkong/random.h +50 -0
package/include/numkong/random.hpp +285 -0
package/include/numkong/reduce/README.md +547 -0
package/include/numkong/reduce/alder.h +632 -0
package/include/numkong/reduce/genoa.h +201 -0
package/include/numkong/reduce/haswell.h +3783 -0
package/include/numkong/reduce/icelake.h +549 -0
package/include/numkong/reduce/neon.h +3841 -0
package/include/numkong/reduce/neonbfdot.h +353 -0
package/include/numkong/reduce/neonfhm.h +665 -0
package/include/numkong/reduce/neonhalf.h +157 -0
package/include/numkong/reduce/neonsdot.h +357 -0
package/include/numkong/reduce/rvv.h +3407 -0
package/include/numkong/reduce/serial.h +757 -0
package/include/numkong/reduce/sierra.h +338 -0
package/include/numkong/reduce/skylake.h +3792 -0
package/include/numkong/reduce/v128relaxed.h +2302 -0
package/include/numkong/reduce.h +1597 -0
package/include/numkong/reduce.hpp +633 -0
package/include/numkong/scalar/README.md +89 -0
package/include/numkong/scalar/haswell.h +113 -0
package/include/numkong/scalar/neon.h +122 -0
package/include/numkong/scalar/neonhalf.h +70 -0
package/include/numkong/scalar/rvv.h +211 -0
package/include/numkong/scalar/sapphire.h +63 -0
package/include/numkong/scalar/serial.h +332 -0
package/include/numkong/scalar/v128relaxed.h +56 -0
package/include/numkong/scalar.h +683 -0
package/include/numkong/set/README.md +179 -0
package/include/numkong/set/haswell.h +334 -0
package/include/numkong/set/icelake.h +485 -0
package/include/numkong/set/neon.h +364 -0
package/include/numkong/set/rvv.h +226 -0
package/include/numkong/set/rvvbb.h +117 -0
package/include/numkong/set/serial.h +174 -0
package/include/numkong/set/sve.h +185 -0
package/include/numkong/set/v128relaxed.h +240 -0
package/include/numkong/set.h +457 -0
package/include/numkong/set.hpp +114 -0
package/include/numkong/sets/README.md +149 -0
package/include/numkong/sets/haswell.h +63 -0
package/include/numkong/sets/icelake.h +66 -0
package/include/numkong/sets/neon.h +61 -0
package/include/numkong/sets/serial.h +43 -0
package/include/numkong/sets/smebi32.h +1099 -0
package/include/numkong/sets/v128relaxed.h +58 -0
package/include/numkong/sets.h +339 -0
package/include/numkong/sparse/README.md +156 -0
package/include/numkong/sparse/icelake.h +463 -0
package/include/numkong/sparse/neon.h +288 -0
package/include/numkong/sparse/serial.h +117 -0
package/include/numkong/sparse/sve2.h +507 -0
package/include/numkong/sparse/turin.h +322 -0
package/include/numkong/sparse.h +363 -0
package/include/numkong/sparse.hpp +113 -0
package/include/numkong/spatial/README.md +435 -0
package/include/numkong/spatial/alder.h +607 -0
package/include/numkong/spatial/genoa.h +290 -0
package/include/numkong/spatial/haswell.h +960 -0
package/include/numkong/spatial/icelake.h +586 -0
package/include/numkong/spatial/neon.h +773 -0
package/include/numkong/spatial/neonbfdot.h +165 -0
package/include/numkong/spatial/neonhalf.h +118 -0
package/include/numkong/spatial/neonsdot.h +261 -0
package/include/numkong/spatial/rvv.h +984 -0
package/include/numkong/spatial/rvvbf16.h +123 -0
package/include/numkong/spatial/rvvhalf.h +117 -0
package/include/numkong/spatial/sapphire.h +343 -0
package/include/numkong/spatial/serial.h +346 -0
package/include/numkong/spatial/sierra.h +323 -0
package/include/numkong/spatial/skylake.h +606 -0
package/include/numkong/spatial/sve.h +224 -0
package/include/numkong/spatial/svebfdot.h +122 -0
package/include/numkong/spatial/svehalf.h +109 -0
package/include/numkong/spatial/v128relaxed.h +717 -0
package/include/numkong/spatial.h +1425 -0
package/include/numkong/spatial.hpp +183 -0
package/include/numkong/spatials/README.md +580 -0
package/include/numkong/spatials/alder.h +94 -0
package/include/numkong/spatials/genoa.h +94 -0
package/include/numkong/spatials/haswell.h +219 -0
package/include/numkong/spatials/icelake.h +113 -0
package/include/numkong/spatials/neon.h +109 -0
package/include/numkong/spatials/neonbfdot.h +60 -0
package/include/numkong/spatials/neonfhm.h +92 -0
package/include/numkong/spatials/neonhalf.h +58 -0
package/include/numkong/spatials/neonsdot.h +109 -0
package/include/numkong/spatials/rvv.h +1960 -0
package/include/numkong/spatials/sapphireamx.h +1149 -0
package/include/numkong/spatials/serial.h +226 -0
package/include/numkong/spatials/sierra.h +96 -0
package/include/numkong/spatials/skylake.h +184 -0
package/include/numkong/spatials/sme.h +1901 -0
package/include/numkong/spatials/smef64.h +465 -0
package/include/numkong/spatials/v128relaxed.h +240 -0
package/include/numkong/spatials.h +3021 -0
package/include/numkong/spatials.hpp +508 -0
package/include/numkong/tensor.hpp +1592 -0
package/include/numkong/trigonometry/README.md +184 -0
package/include/numkong/trigonometry/haswell.h +652 -0
package/include/numkong/trigonometry/neon.h +639 -0
package/include/numkong/trigonometry/rvv.h +699 -0
package/include/numkong/trigonometry/serial.h +703 -0
package/include/numkong/trigonometry/skylake.h +721 -0
package/include/numkong/trigonometry/v128relaxed.h +666 -0
package/include/numkong/trigonometry.h +467 -0
package/include/numkong/trigonometry.hpp +166 -0
package/include/numkong/types.h +1384 -0
package/include/numkong/types.hpp +5603 -0
package/include/numkong/vector.hpp +698 -0
package/javascript/README.md +246 -0
package/javascript/dist/cjs/numkong-wasm.d.ts +166 -0
package/javascript/dist/cjs/numkong-wasm.js +617 -0
package/javascript/dist/cjs/numkong.d.ts +343 -0
package/javascript/dist/cjs/numkong.js +523 -0
package/javascript/dist/cjs/package.json +3 -0
package/javascript/dist/cjs/types.d.ts +284 -0
package/javascript/dist/cjs/types.js +653 -0
package/javascript/dist/esm/numkong-wasm.d.ts +166 -0
package/javascript/dist/esm/numkong-wasm.js +595 -0
package/javascript/dist/esm/numkong.d.ts +343 -0
package/javascript/dist/esm/numkong.js +452 -0
package/javascript/dist/esm/package.json +3 -0
package/javascript/dist/esm/types.d.ts +284 -0
package/javascript/dist/esm/types.js +630 -0
package/javascript/dist-package-cjs.json +3 -0
package/javascript/dist-package-esm.json +3 -0
package/javascript/node-gyp-build.d.ts +1 -0
package/javascript/numkong-wasm.ts +756 -0
package/javascript/numkong.c +689 -0
package/javascript/numkong.ts +575 -0
package/javascript/tsconfig-base.json +39 -0
package/javascript/tsconfig-cjs.json +8 -0
package/javascript/tsconfig-esm.json +8 -0
package/javascript/types.ts +674 -0
package/package.json +87 -0

package/include/numkong/curved/genoa.h ADDED Viewed

@@ -0,0 +1,182 @@
+/**
+ *  @brief SIMD-accelerated Curved Space Similarity for Genoa.
+ *  @file include/numkong/curved/genoa.h
+ *  @author Ash Vardanian
+ *  @date January 14, 2026
+ *
+ *  @sa include/numkong/curved.h
+ *
+ *  Implements bf16 bilinear forms using AVX-512 with BF16 extensions.
+ */
+#ifndef NK_CURVED_GENOA_H
+#define NK_CURVED_GENOA_H
+#if NK_TARGET_X86_
+#if NK_TARGET_GENOA
+#include "numkong/types.h"
+#include "numkong/spatial/genoa.h"  // `nk_substract_bf16x32_genoa_`
+#include "numkong/reduce/skylake.h" // `nk_reduce_add_f32x16_skylake_`
+#if defined(__cplusplus)
+extern "C" {
+#endif
+#if defined(__clang__)
+#pragma clang attribute push(                                                                        \
+    __attribute__((target("avx2,avx512f,avx512vl,avx512bw,avx512dq,avx512bf16,f16c,fma,bmi,bmi2"))), \
+    apply_to = function)
+#elif defined(__GNUC__)
+#pragma GCC push_options
+#pragma GCC target("avx2", "avx512f", "avx512vl", "avx512bw", "avx512dq", "avx512bf16", "f16c", "fma", "bmi", "bmi2")
+#endif
+NK_PUBLIC void nk_bilinear_bf16_genoa(nk_bf16_t const *a, nk_bf16_t const *b, nk_bf16_t const *c, nk_size_t n,
+                                      nk_f32_t *result) {
+    nk_size_t const tail_length = n % 32;
+    nk_size_t const tail_start = n - tail_length;
+    __mmask32 const tail_mask = (__mmask32)_bzhi_u32(0xFFFFFFFF, tail_length);
+    __m512 sum_f32x16 = _mm512_setzero_ps();
+    for (nk_size_t i = 0; i != n; ++i) {
+        nk_f32_t a_f32;
+        nk_bf16_to_f32_serial(a + i, &a_f32);
+        __m512 a_f32x16 = _mm512_set1_ps(a_f32);
+        __m512 cb_j_f32x16 = _mm512_setzero_ps();
+        __m512i b_bf16x32, c_bf16x32;
+        nk_size_t j = 0;
+    nk_bilinear_bf16_genoa_cycle:
+        if (j + 32 <= n) {
+            b_bf16x32 = _mm512_loadu_epi16(b + j);
+            c_bf16x32 = _mm512_loadu_epi16(c + i * n + j);
+        }
+        else {
+            b_bf16x32 = _mm512_maskz_loadu_epi16(tail_mask, b + tail_start);
+            c_bf16x32 = _mm512_maskz_loadu_epi16(tail_mask, c + i * n + tail_start);
+        }
+        cb_j_f32x16 = _mm512_dpbf16_ps(cb_j_f32x16, nk_m512bh_from_m512i_(b_bf16x32), nk_m512bh_from_m512i_(c_bf16x32));
+        j += 32;
+        if (j < n) goto nk_bilinear_bf16_genoa_cycle;
+        sum_f32x16 = _mm512_fmadd_ps(a_f32x16, cb_j_f32x16, sum_f32x16);
+    }
+    *result = _mm512_reduce_add_ps(sum_f32x16);
+}
+NK_PUBLIC void nk_mahalanobis_bf16_genoa(nk_bf16_t const *a, nk_bf16_t const *b, nk_bf16_t const *c, nk_size_t n,
+                                         nk_f32_t *result) {
+    nk_size_t const tail_length = n % 32;
+    nk_size_t const tail_start = n - tail_length;
+    __mmask32 const tail_mask = (__mmask32)_bzhi_u32(0xFFFFFFFF, tail_length);
+    __m512 sum_f32x16 = _mm512_setzero_ps();
+    for (nk_size_t i = 0; i != n; ++i) {
+        nk_f32_t a_i, b_i;
+        nk_bf16_to_f32_serial(a + i, &a_i);
+        nk_bf16_to_f32_serial(b + i, &b_i);
+        __m512 diff_i_f32x16 = _mm512_set1_ps(a_i - b_i);
+        __m512 cdiff_j_f32x16 = _mm512_setzero_ps();
+        __m512i a_j_bf16x32, b_j_bf16x32, diff_j_bf16x32, c_bf16x32;
+        nk_size_t j = 0;
+        // The nested loop is cleaner to implement with a `goto` in this case:
+    nk_mahalanobis_bf16_genoa_cycle:
+        if (j + 32 <= n) {
+            a_j_bf16x32 = _mm512_loadu_epi16(a + j);
+            b_j_bf16x32 = _mm512_loadu_epi16(b + j);
+            c_bf16x32 = _mm512_loadu_epi16(c + i * n + j);
+        }
+        else {
+            a_j_bf16x32 = _mm512_maskz_loadu_epi16(tail_mask, a + tail_start);
+            b_j_bf16x32 = _mm512_maskz_loadu_epi16(tail_mask, b + tail_start);
+            c_bf16x32 = _mm512_maskz_loadu_epi16(tail_mask, c + i * n + tail_start);
+        }
+        diff_j_bf16x32 = nk_substract_bf16x32_genoa_(a_j_bf16x32, b_j_bf16x32);
+        cdiff_j_f32x16 = _mm512_dpbf16_ps(cdiff_j_f32x16, nk_m512bh_from_m512i_(diff_j_bf16x32),
+                                          nk_m512bh_from_m512i_(c_bf16x32));
+        j += 32;
+        if (j < n) goto nk_mahalanobis_bf16_genoa_cycle;
+        sum_f32x16 = _mm512_fmadd_ps(diff_i_f32x16, cdiff_j_f32x16, sum_f32x16);
+    }
+    nk_f32_t quadratic = _mm512_reduce_add_ps(sum_f32x16);
+    *result = nk_f32_sqrt_haswell(quadratic > 0 ? quadratic : 0);
+}
+NK_PUBLIC void nk_bilinear_bf16c_genoa(nk_bf16c_t const *a, nk_bf16c_t const *b, nk_bf16c_t const *c, nk_size_t n,
+                                       nk_f32c_t *results) {
+    // We take into account, that FMS is the same as FMA with a negative multiplier.
+    // To multiply a floating-point value by -1, we can use the `XOR` instruction to flip the sign bit.
+    // This way we can avoid the shuffling and the need for separate real and imaginary parts.
+    // For the imaginary part of the product, we would need to swap the real and imaginary parts of
+    // one of the vectors.
+    __m512i const sign_flip_i32x16 = _mm512_set1_epi32(0x80000000);
+    __m512i const swap_adjacent_i8x64 = _mm512_set_epi8(                //
+        61, 60, 63, 62, 57, 56, 59, 58, 53, 52, 55, 54, 49, 48, 51, 50, // 4th 128-bit lane
+        45, 44, 47, 46, 41, 40, 43, 42, 37, 36, 39, 38, 33, 32, 35, 34, // 3rd 128-bit lane
+        29, 28, 31, 30, 25, 24, 27, 26, 21, 20, 23, 22, 17, 16, 19, 18, // 2nd 128-bit lane
+        13, 12, 15, 14, 9, 8, 11, 10, 5, 4, 7, 6, 1, 0, 3, 2            // 1st 128-bit lane
+    );
+    // Default case for arbitrary size `n`
+    nk_size_t const tail_length = n % 16;
+    nk_size_t const tail_start = n - tail_length;
+    __mmask32 const tail_mask = (__mmask32)_bzhi_u32(0xFFFFFFFF, tail_length * 2);
+    nk_f32_t sum_real = 0;
+    nk_f32_t sum_imag = 0;
+    for (nk_size_t i = 0; i != n; ++i) {
+        nk_f32_t a_i_real, a_i_imag;
+        nk_bf16_to_f32_serial(&a[i].real, &a_i_real);
+        nk_bf16_to_f32_serial(&a[i].imag, &a_i_imag);
+        __m512 cb_j_real_f32x16 = _mm512_setzero_ps();
+        __m512 cb_j_imag_f32x16 = _mm512_setzero_ps();
+        __m512i b_bf16x32, c_bf16x32;
+        nk_size_t j = 0;
+    nk_bilinear_bf16c_skylake_cycle:
+        if (j + 16 <= n) {
+            b_bf16x32 = _mm512_loadu_epi16((nk_i16_t const *)(b + j));
+            c_bf16x32 = _mm512_loadu_epi16((nk_i16_t const *)(c + i * n + j));
+        }
+        else {
+            b_bf16x32 = _mm512_maskz_loadu_epi16(tail_mask, (nk_i16_t const *)(b + tail_start));
+            c_bf16x32 = _mm512_maskz_loadu_epi16(tail_mask, (nk_i16_t const *)(c + i * n + tail_start));
+        }
+        cb_j_real_f32x16 = _mm512_dpbf16_ps(                                      //
+            cb_j_real_f32x16,                                                     //
+            nk_m512bh_from_m512i_(_mm512_xor_si512(c_bf16x32, sign_flip_i32x16)), //
+            nk_m512bh_from_m512i_(b_bf16x32));
+        cb_j_imag_f32x16 = _mm512_dpbf16_ps(                                            //
+            cb_j_imag_f32x16,                                                           //
+            nk_m512bh_from_m512i_(_mm512_shuffle_epi8(c_bf16x32, swap_adjacent_i8x64)), //
+            nk_m512bh_from_m512i_(b_bf16x32));
+        j += 16;
+        if (j < n) goto nk_bilinear_bf16c_skylake_cycle;
+        // Horizontal sums are the expensive part of the computation:
+        nk_f32_t const cb_j_real = nk_reduce_add_f32x16_skylake_(cb_j_real_f32x16);
+        nk_f32_t const cb_j_imag = nk_reduce_add_f32x16_skylake_(cb_j_imag_f32x16);
+        sum_real += a_i_real * cb_j_real - a_i_imag * cb_j_imag;
+        sum_imag += a_i_real * cb_j_imag + a_i_imag * cb_j_real;
+    }
+    // Reduce horizontal sums:
+    results->real = sum_real;
+    results->imag = sum_imag;
+}
+#if defined(__clang__)
+#pragma clang attribute pop
+#elif defined(__GNUC__)
+#pragma GCC pop_options
+#endif
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#endif // NK_TARGET_GENOA
+#endif // NK_TARGET_X86_
+#endif // NK_CURVED_GENOA_H

package/include/numkong/curved/haswell.h ADDED Viewed

@@ -0,0 +1,276 @@
+/**
+ *  @brief SIMD-accelerated Curved Space Similarity for Haswell.
+ *  @file include/numkong/curved/haswell.h
+ *  @author Ash Vardanian
+ *  @date January 14, 2026
+ *
+ *  @sa include/numkong/curved.h
+ *
+ *  Implements f16 and bf16 bilinear forms using AVX2 with F16C conversion.
+ */
+#ifndef NK_CURVED_HASWELL_H
+#define NK_CURVED_HASWELL_H
+#if NK_TARGET_X86_
+#if NK_TARGET_HASWELL
+#include "numkong/types.h"
+#include "numkong/reduce/haswell.h"  // `nk_reduce_add_f32x8_haswell_`
+#include "numkong/spatial/haswell.h" // `nk_f32_sqrt_haswell`
+#if defined(__cplusplus)
+extern "C" {
+#endif
+#if defined(__clang__)
+#pragma clang attribute push(__attribute__((target("avx2,f16c,fma,bmi,bmi2"))), apply_to = function)
+#elif defined(__GNUC__)
+#pragma GCC push_options
+#pragma GCC target("avx2", "f16c", "fma", "bmi", "bmi2")
+#endif
+NK_PUBLIC void nk_bilinear_f32_haswell(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                       nk_f64_t *result) {
+    nk_size_t const tail_length = n % 4;
+    nk_size_t const tail_start = n - tail_length;
+    __m256d sum_f64x4 = _mm256_setzero_pd();
+    for (nk_size_t i = 0; i != n; ++i) {
+        __m256d a_f64x4 = _mm256_set1_pd((nk_f64_t)a[i]);
+        __m256d cb_j_f64x4 = _mm256_setzero_pd();
+        for (nk_size_t j = 0; j + 4 <= n; j += 4) {
+            __m256d b_f64x4 = _mm256_cvtps_pd(_mm_loadu_ps(b + j));
+            __m256d c_f64x4 = _mm256_cvtps_pd(_mm_loadu_ps(c + i * n + j));
+            cb_j_f64x4 = _mm256_fmadd_pd(b_f64x4, c_f64x4, cb_j_f64x4);
+        }
+        sum_f64x4 = _mm256_fmadd_pd(a_f64x4, cb_j_f64x4, sum_f64x4);
+    }
+    nk_f64_t sum = nk_reduce_add_f64x4_haswell_(sum_f64x4);
+    if (tail_length) {
+        nk_b128_vec_t b_tail_vec;
+        nk_partial_load_b32x4_haswell_(b + tail_start, &b_tail_vec, tail_length);
+        __m256d b_tail_f64x4 = _mm256_cvtps_pd(b_tail_vec.xmm_ps);
+        for (nk_size_t i = 0; i != n; ++i) {
+            nk_f64_t a_i = (nk_f64_t)a[i];
+            nk_b128_vec_t c_tail_vec;
+            nk_partial_load_b32x4_haswell_(c + i * n + tail_start, &c_tail_vec, tail_length);
+            __m256d c_tail_f64x4 = _mm256_cvtps_pd(c_tail_vec.xmm_ps);
+            sum += a_i * nk_reduce_add_f64x4_haswell_(_mm256_mul_pd(b_tail_f64x4, c_tail_f64x4));
+        }
+    }
+    *result = sum;
+}
+NK_PUBLIC void nk_mahalanobis_f32_haswell(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                          nk_f64_t *result) {
+    nk_size_t const tail_length = n % 4;
+    nk_size_t const tail_start = n - tail_length;
+    __m256d sum_f64x4 = _mm256_setzero_pd();
+    for (nk_size_t i = 0; i != n; ++i) {
+        __m256d diff_i_f64x4 = _mm256_set1_pd((nk_f64_t)a[i] - (nk_f64_t)b[i]);
+        __m256d cdiff_j_f64x4 = _mm256_setzero_pd();
+        for (nk_size_t j = 0; j + 4 <= n; j += 4) {
+            __m256d diff_j_f64x4 = _mm256_sub_pd( //
+                _mm256_cvtps_pd(_mm_loadu_ps(a + j)), _mm256_cvtps_pd(_mm_loadu_ps(b + j)));
+            __m256d c_f64x4 = _mm256_cvtps_pd(_mm_loadu_ps(c + i * n + j));
+            cdiff_j_f64x4 = _mm256_fmadd_pd(diff_j_f64x4, c_f64x4, cdiff_j_f64x4);
+        }
+        sum_f64x4 = _mm256_fmadd_pd(diff_i_f64x4, cdiff_j_f64x4, sum_f64x4);
+    }
+    nk_f64_t sum = nk_reduce_add_f64x4_haswell_(sum_f64x4);
+    if (tail_length) {
+        nk_b128_vec_t a_tail_vec, b_tail_vec;
+        nk_partial_load_b32x4_haswell_(a + tail_start, &a_tail_vec, tail_length);
+        nk_partial_load_b32x4_haswell_(b + tail_start, &b_tail_vec, tail_length);
+        __m256d diff_tail_f64x4 = _mm256_sub_pd(_mm256_cvtps_pd(a_tail_vec.xmm_ps), _mm256_cvtps_pd(b_tail_vec.xmm_ps));
+        for (nk_size_t i = 0; i != n; ++i) {
+            nk_f64_t diff_i = (nk_f64_t)a[i] - (nk_f64_t)b[i];
+            nk_b128_vec_t c_tail_vec;
+            nk_partial_load_b32x4_haswell_(c + i * n + tail_start, &c_tail_vec, tail_length);
+            __m256d c_tail_f64x4 = _mm256_cvtps_pd(c_tail_vec.xmm_ps);
+            sum += diff_i * nk_reduce_add_f64x4_haswell_(_mm256_mul_pd(diff_tail_f64x4, c_tail_f64x4));
+        }
+    }
+    *result = nk_f64_sqrt_haswell(sum > 0 ? sum : 0);
+}
+NK_PUBLIC void nk_bilinear_f16_haswell(nk_f16_t const *a, nk_f16_t const *b, nk_f16_t const *c, nk_size_t n,
+                                       nk_f32_t *result) {
+    __m256 sum_f32x8 = _mm256_setzero_ps();
+    for (nk_size_t i = 0; i != n; ++i) {
+        __m256 a_f32x8 = _mm256_cvtph_ps(_mm_set1_epi16(*(short const *)(a + i)));
+        __m256 cb_j_f32x8 = _mm256_setzero_ps();
+        for (nk_size_t j = 0; j + 8 <= n; j += 8) {
+            __m256 b_f32x8 = _mm256_cvtph_ps(_mm_loadu_si128((__m128i const *)(b + j)));
+            __m256 c_f32x8 = _mm256_cvtph_ps(_mm_loadu_si128((__m128i const *)(c + i * n + j)));
+            cb_j_f32x8 = _mm256_fmadd_ps(b_f32x8, c_f32x8, cb_j_f32x8);
+        }
+        sum_f32x8 = _mm256_fmadd_ps(a_f32x8, cb_j_f32x8, sum_f32x8);
+    }
+    // Handle the tail of every row
+    nk_f32_t sum = nk_reduce_add_f32x8_haswell_(sum_f32x8);
+    nk_size_t const tail_length = n % 8;
+    nk_size_t const tail_start = n - tail_length;
+    if (tail_length) {
+        for (nk_size_t i = 0; i != n; ++i) {
+            nk_f32_t a_i = _mm256_cvtss_f32(_mm256_cvtph_ps(_mm_set1_epi16(*(short const *)(a + i))));
+            nk_b256_vec_t b_vec;
+            nk_partial_load_f16x8_to_f32x8_haswell_(b + tail_start, &b_vec, tail_length);
+            __m256 b_f32x8 = b_vec.ymm_ps;
+            nk_b256_vec_t c_vec;
+            nk_partial_load_f16x8_to_f32x8_haswell_(c + i * n + tail_start, &c_vec, tail_length);
+            __m256 c_f32x8 = c_vec.ymm_ps;
+            nk_f32_t cb_j = nk_reduce_add_f32x8_haswell_(_mm256_mul_ps(b_f32x8, c_f32x8));
+            sum += a_i * cb_j;
+        }
+    }
+    *result = sum;
+}
+NK_PUBLIC void nk_mahalanobis_f16_haswell(nk_f16_t const *a, nk_f16_t const *b, nk_f16_t const *c, nk_size_t n,
+                                          nk_f32_t *result) {
+    __m256 sum_f32x8 = _mm256_setzero_ps();
+    for (nk_size_t i = 0; i != n; ++i) {
+        __m256 diff_i_f32x8 = _mm256_sub_ps(                          //
+            _mm256_cvtph_ps(_mm_set1_epi16(*(short const *)(a + i))), //
+            _mm256_cvtph_ps(_mm_set1_epi16(*(short const *)(b + i))));
+        __m256 cdiff_j_f32x8 = _mm256_setzero_ps();
+        for (nk_size_t j = 0; j + 8 <= n; j += 8) {
+            __m256 diff_j_f32x8 = _mm256_sub_ps( //
+                _mm256_cvtph_ps(_mm_loadu_si128((__m128i const *)(a + j))),
+                _mm256_cvtph_ps(_mm_loadu_si128((__m128i const *)(b + j))));
+            __m256 c_f32x8 = _mm256_cvtph_ps(_mm_loadu_si128((__m128i const *)(c + i * n + j)));
+            cdiff_j_f32x8 = _mm256_fmadd_ps(diff_j_f32x8, c_f32x8, cdiff_j_f32x8);
+        }
+        sum_f32x8 = _mm256_fmadd_ps(diff_i_f32x8, cdiff_j_f32x8, sum_f32x8);
+    }
+    // Handle the tail of every row
+    nk_f32_t sum = nk_reduce_add_f32x8_haswell_(sum_f32x8);
+    nk_size_t const tail_length = n % 8;
+    nk_size_t const tail_start = n - tail_length;
+    if (tail_length) {
+        for (nk_size_t i = 0; i != n; ++i) {
+            nk_f32_t diff_i = _mm256_cvtss_f32(_mm256_sub_ps(             //
+                _mm256_cvtph_ps(_mm_set1_epi16(*(short const *)(a + i))), //
+                _mm256_cvtph_ps(_mm_set1_epi16(*(short const *)(b + i)))));
+            nk_b256_vec_t a_tail_vec, b_tail_vec;
+            nk_partial_load_f16x8_to_f32x8_haswell_(a + tail_start, &a_tail_vec, tail_length);
+            nk_partial_load_f16x8_to_f32x8_haswell_(b + tail_start, &b_tail_vec, tail_length);
+            __m256 diff_j_f32x8 = _mm256_sub_ps(a_tail_vec.ymm_ps, b_tail_vec.ymm_ps);
+            nk_b256_vec_t c_vec;
+            nk_partial_load_f16x8_to_f32x8_haswell_(c + i * n + tail_start, &c_vec, tail_length);
+            __m256 c_f32x8 = c_vec.ymm_ps;
+            nk_f32_t cdiff_j = nk_reduce_add_f32x8_haswell_(_mm256_mul_ps(diff_j_f32x8, c_f32x8));
+            sum += diff_i * cdiff_j;
+        }
+    }
+    *result = nk_f32_sqrt_haswell(sum > 0 ? sum : 0);
+}
+NK_PUBLIC void nk_bilinear_bf16_haswell(nk_bf16_t const *a, nk_bf16_t const *b, nk_bf16_t const *c, nk_size_t n,
+                                        nk_f32_t *result) {
+    __m256 sum_f32x8 = _mm256_setzero_ps();
+    for (nk_size_t i = 0; i != n; ++i) {
+        // The `nk_bf16_to_f32_serial` is cheaper than `nk_bf16x8_to_f32x8_haswell_`
+        nk_f32_t a_f32;
+        nk_bf16_to_f32_serial(a + i, &a_f32);
+        __m256 a_f32x8 = _mm256_set1_ps(a_f32);
+        __m256 cb_j_f32x8 = _mm256_setzero_ps();
+        for (nk_size_t j = 0; j + 8 <= n; j += 8) {
+            __m256 b_f32x8 = nk_bf16x8_to_f32x8_haswell_(_mm_loadu_si128((__m128i const *)(b + j)));
+            __m256 c_f32x8 = nk_bf16x8_to_f32x8_haswell_(_mm_loadu_si128((__m128i const *)(c + i * n + j)));
+            cb_j_f32x8 = _mm256_fmadd_ps(b_f32x8, c_f32x8, cb_j_f32x8);
+        }
+        sum_f32x8 = _mm256_fmadd_ps(a_f32x8, cb_j_f32x8, sum_f32x8);
+    }
+    // Handle the tail of every row
+    nk_f32_t sum = nk_reduce_add_f32x8_haswell_(sum_f32x8);
+    nk_size_t const tail_length = n % 8;
+    nk_size_t const tail_start = n - tail_length;
+    if (tail_length) {
+        for (nk_size_t i = 0; i != n; ++i) {
+            nk_f32_t a_i;
+            nk_bf16_to_f32_serial(a + i, &a_i);
+            nk_b256_vec_t b_vec;
+            nk_partial_load_bf16x8_to_f32x8_haswell_(b + tail_start, &b_vec, tail_length);
+            __m256 b_f32x8 = b_vec.ymm_ps;
+            nk_b256_vec_t c_vec;
+            nk_partial_load_bf16x8_to_f32x8_haswell_(c + i * n + tail_start, &c_vec, tail_length);
+            __m256 c_f32x8 = c_vec.ymm_ps;
+            nk_f32_t cb_j = nk_reduce_add_f32x8_haswell_(_mm256_mul_ps(b_f32x8, c_f32x8));
+            sum += a_i * cb_j;
+        }
+    }
+    *result = sum;
+}
+NK_PUBLIC void nk_mahalanobis_bf16_haswell(nk_bf16_t const *a, nk_bf16_t const *b, nk_bf16_t const *c, nk_size_t n,
+                                           nk_f32_t *result) {
+    __m256 sum_f32x8 = _mm256_setzero_ps();
+    for (nk_size_t i = 0; i != n; ++i) {
+        nk_f32_t a_i, b_i;
+        nk_bf16_to_f32_serial(a + i, &a_i);
+        nk_bf16_to_f32_serial(b + i, &b_i);
+        __m256 diff_i_f32x8 = _mm256_sub_ps( //
+            _mm256_set1_ps(a_i),             //
+            _mm256_set1_ps(b_i));
+        __m256 cdiff_j_f32x8 = _mm256_setzero_ps();
+        for (nk_size_t j = 0; j + 8 <= n; j += 8) {
+            __m256 diff_j_f32x8 = _mm256_sub_ps(                                        //
+                nk_bf16x8_to_f32x8_haswell_(_mm_loadu_si128((__m128i const *)(a + j))), //
+                nk_bf16x8_to_f32x8_haswell_(_mm_loadu_si128((__m128i const *)(b + j))));
+            __m256 c_f32x8 = nk_bf16x8_to_f32x8_haswell_(_mm_loadu_si128((__m128i const *)(c + i * n + j)));
+            cdiff_j_f32x8 = _mm256_fmadd_ps(diff_j_f32x8, c_f32x8, cdiff_j_f32x8);
+        }
+        sum_f32x8 = _mm256_fmadd_ps(diff_i_f32x8, cdiff_j_f32x8, sum_f32x8);
+    }
+    // Handle the tail of every row
+    nk_f32_t sum = nk_reduce_add_f32x8_haswell_(sum_f32x8);
+    nk_size_t const tail_length = n % 8;
+    nk_size_t const tail_start = n - tail_length;
+    if (tail_length) {
+        for (nk_size_t i = 0; i != n; ++i) {
+            nk_f32_t a_i, b_i;
+            nk_bf16_to_f32_serial(a + i, &a_i);
+            nk_bf16_to_f32_serial(b + i, &b_i);
+            nk_f32_t diff_i = a_i - b_i;
+            nk_b256_vec_t a_tail_vec, b_tail_vec;
+            nk_partial_load_bf16x8_to_f32x8_haswell_(a + tail_start, &a_tail_vec, tail_length);
+            nk_partial_load_bf16x8_to_f32x8_haswell_(b + tail_start, &b_tail_vec, tail_length);
+            __m256 diff_j_f32x8 = _mm256_sub_ps(a_tail_vec.ymm_ps, b_tail_vec.ymm_ps);
+            nk_b256_vec_t c_vec;
+            nk_partial_load_bf16x8_to_f32x8_haswell_(c + i * n + tail_start, &c_vec, tail_length);
+            __m256 c_f32x8 = c_vec.ymm_ps;
+            nk_f32_t cdiff_j = nk_reduce_add_f32x8_haswell_(_mm256_mul_ps(diff_j_f32x8, c_f32x8));
+            sum += diff_i * cdiff_j;
+        }
+    }
+    *result = nk_f32_sqrt_haswell(sum > 0 ? sum : 0);
+}
+#if defined(__clang__)
+#pragma clang attribute pop
+#elif defined(__GNUC__)
+#pragma GCC pop_options
+#endif
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#endif // NK_TARGET_HASWELL
+#endif // NK_TARGET_X86_
+#endif // NK_CURVED_HASWELL_H

package/include/numkong/curved/neon.h ADDED Viewed

@@ -0,0 +1,205 @@
+/**
+ *  @brief SIMD-accelerated Curved Space Similarity for NEON.
+ *  @file include/numkong/curved/neon.h
+ *  @author Ash Vardanian
+ *  @date January 14, 2026
+ *
+ *  @sa include/numkong/curved.h
+ *
+ *  Implements f32 bilinear forms and Mahalanobis distance using ARM NEON SIMD.
+ *  Accumulates f32 inputs in f64 precision to avoid catastrophic cancellation.
+ *
+ *  @section neon_curved_instructions Key NEON Instructions
+ *
+ *      Intrinsic         Instruction                   Latency     Throughput
+ *                                                                  A76     M4+/V1+/Oryon
+ *      vfmaq_f64         FMLA (V.2D, V.2D, V.2D)       4cy         2/cy    4/cy
+ *      vcvt_f64_f32      FCVTL (V.2D, V.2S)            3cy         2/cy    2/cy
+ *      vaddvq_f64        FADDP (V.2D to scalar)        3cy         1/cy    1/cy
+ *      vld1_f32          LD1 ({Vt.2S}, [Xn])           4cy         2/cy    2/cy
+ *      vld2_f32          LD2 ({Vt.2S, Vt2.2S}, [Xn])   4cy         1/cy    1/cy
+ *
+ *  For f32 bilinear and Mahalanobis, we upcast to f64 for accumulation to preserve
+ *  precision and avoid catastrophic cancellation in large-magnitude sums.
+ */
+#ifndef NK_CURVED_NEON_H
+#define NK_CURVED_NEON_H
+#if NK_TARGET_ARM_
+#if NK_TARGET_NEON
+#include "numkong/types.h"
+#include "numkong/spatial/neon.h" // nk_f64_sqrt_neon
+#if defined(__cplusplus)
+extern "C" {
+#endif
+#if defined(__clang__)
+#pragma clang attribute push(__attribute__((target("arch=armv8-a+simd"))), apply_to = function)
+#elif defined(__GNUC__)
+#pragma GCC push_options
+#pragma GCC target("arch=armv8-a+simd")
+#endif
+NK_PUBLIC void nk_bilinear_f32_neon(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                    nk_f64_t *result) {
+    nk_f64_t outer_sum_f64 = 0;
+    for (nk_size_t i = 0; i != n; ++i) {
+        // Convert a[i] to f64 for precision
+        nk_f64_t a_i_f64 = (nk_f64_t)a[i];
+        // Inner loop: accumulate Σⱼ cᵢⱼ × bⱼ in f64
+        float64x2_t inner_sum_f64x2 = vdupq_n_f64(0);
+        nk_size_t j = 0;
+        // Vectorized inner loop: process 2 elements at a time
+        for (; j + 2 <= n; j += 2) {
+            // Load b[j:j+2] as f32, upcast to f64
+            float32x2_t b_f32x2 = vld1_f32(b + j);
+            float64x2_t b_f64x2 = vcvt_f64_f32(b_f32x2);
+            // Load c[i*n+j : i*n+j+2] as f32, upcast to f64
+            float32x2_t c_f32x2 = vld1_f32(c + i * n + j);
+            float64x2_t c_f64x2 = vcvt_f64_f32(c_f32x2);
+            // FMA: inner_sum += c × b
+            inner_sum_f64x2 = vfmaq_f64(inner_sum_f64x2, c_f64x2, b_f64x2);
+        }
+        // Reduce the f64x2 accumulator to scalar
+        nk_f64_t inner_sum_f64 = vaddvq_f64(inner_sum_f64x2);
+        // Handle tail elements
+        for (; j < n; ++j) { inner_sum_f64 += (nk_f64_t)c[i * n + j] * (nk_f64_t)b[j]; }
+        // Outer accumulation: outer_sum += aᵢ × inner_sum
+        outer_sum_f64 += a_i_f64 * inner_sum_f64;
+    }
+    *result = outer_sum_f64;
+}
+NK_PUBLIC void nk_mahalanobis_f32_neon(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                       nk_f64_t *result) {
+    nk_f64_t outer_sum_f64 = 0;
+    for (nk_size_t i = 0; i != n; ++i) {
+        // Compute difference (aᵢ - bᵢ) in f64 for precision
+        nk_f64_t diff_i_f64 = (nk_f64_t)a[i] - (nk_f64_t)b[i];
+        // Inner loop: accumulate Σⱼ cᵢⱼ × (aⱼ - bⱼ) in f64
+        float64x2_t inner_sum_f64x2 = vdupq_n_f64(0);
+        nk_size_t j = 0;
+        // Vectorized inner loop: process 2 elements at a time
+        for (; j + 2 <= n; j += 2) {
+            // Load a[j:j+2] and b[j:j+2] as f32
+            float32x2_t a_f32x2 = vld1_f32(a + j);
+            float32x2_t b_f32x2 = vld1_f32(b + j);
+            // Compute difference in f32, then upcast to f64
+            float32x2_t diff_f32x2 = vsub_f32(a_f32x2, b_f32x2);
+            float64x2_t diff_f64x2 = vcvt_f64_f32(diff_f32x2);
+            // Load c[i*n+j : i*n+j+2] as f32, upcast to f64
+            float32x2_t c_f32x2 = vld1_f32(c + i * n + j);
+            float64x2_t c_f64x2 = vcvt_f64_f32(c_f32x2);
+            // FMA: inner_sum += c × diff
+            inner_sum_f64x2 = vfmaq_f64(inner_sum_f64x2, c_f64x2, diff_f64x2);
+        }
+        // Reduce the f64x2 accumulator to scalar
+        nk_f64_t inner_sum_f64 = vaddvq_f64(inner_sum_f64x2);
+        // Handle tail elements
+        for (; j < n; ++j) {
+            nk_f64_t diff_j_f64 = (nk_f64_t)a[j] - (nk_f64_t)b[j];
+            inner_sum_f64 += (nk_f64_t)c[i * n + j] * diff_j_f64;
+        }
+        // Outer accumulation: outer_sum += diff_i × inner_sum
+        outer_sum_f64 += diff_i_f64 * inner_sum_f64;
+    }
+    // Take square root of the result (clamp to 0 for numerical stability)
+    *result = nk_f64_sqrt_neon(outer_sum_f64 > 0 ? outer_sum_f64 : 0);
+}
+NK_PUBLIC void nk_bilinear_f32c_neon(nk_f32c_t const *a_pairs, nk_f32c_t const *b_pairs, nk_f32c_t const *c_pairs,
+                                     nk_size_t n, nk_f64c_t *results) {
+    // ARMv8.3-A FCMLA (`vcmlaq_f32`) was benchmarked for this complex inner loop.
+    // The deinterleave+4FMA pattern is 2.3x faster on Apple M4 — see `dot/neon.h` comment.
+    nk_f64_t outer_sum_real_f64 = 0;
+    nk_f64_t outer_sum_imag_f64 = 0;
+    for (nk_size_t i = 0; i != n; ++i) {
+        // Convert a[i] to f64 for precision
+        nk_f64_t a_real_f64 = (nk_f64_t)a_pairs[i].real;
+        nk_f64_t a_imag_f64 = (nk_f64_t)a_pairs[i].imag;
+        // Inner loop: accumulate Σⱼ cᵢⱼ × bⱼ in f64
+        float64x2_t inner_sum_real_f64x2 = vdupq_n_f64(0);
+        float64x2_t inner_sum_imag_f64x2 = vdupq_n_f64(0);
+        nk_size_t j = 0;
+        // Vectorized inner loop: process 2 complex elements at a time
+        for (; j + 2 <= n; j += 2) {
+            // Load b[j:j+2] as interleaved complex pairs (real, imag, real, imag)
+            float32x2x2_t b_f32x2x2 = vld2_f32((nk_f32_t const *)(b_pairs + j));
+            float64x2_t b_real_f64x2 = vcvt_f64_f32(b_f32x2x2.val[0]);
+            float64x2_t b_imag_f64x2 = vcvt_f64_f32(b_f32x2x2.val[1]);
+            // Load c[i*n+j : i*n+j+2] as interleaved complex pairs
+            float32x2x2_t c_f32x2x2 = vld2_f32((nk_f32_t const *)(c_pairs + i * n + j));
+            float64x2_t c_real_f64x2 = vcvt_f64_f32(c_f32x2x2.val[0]);
+            float64x2_t c_imag_f64x2 = vcvt_f64_f32(c_f32x2x2.val[1]);
+            // Complex multiply
+            inner_sum_real_f64x2 = vfmaq_f64(inner_sum_real_f64x2, c_real_f64x2, b_real_f64x2);
+            inner_sum_real_f64x2 = vfmsq_f64(inner_sum_real_f64x2, c_imag_f64x2, b_imag_f64x2);
+            // Imaginary part: c_real×b_imag + c_imag×b_real
+            inner_sum_imag_f64x2 = vfmaq_f64(inner_sum_imag_f64x2, c_real_f64x2, b_imag_f64x2);
+            inner_sum_imag_f64x2 = vfmaq_f64(inner_sum_imag_f64x2, c_imag_f64x2, b_real_f64x2);
+        }
+        // Reduce the f64x2 accumulators to scalars
+        nk_f64_t inner_sum_real_f64 = vaddvq_f64(inner_sum_real_f64x2);
+        nk_f64_t inner_sum_imag_f64 = vaddvq_f64(inner_sum_imag_f64x2);
+        // Handle tail elements
+        for (; j < n; ++j) {
+            nk_f64_t b_real = (nk_f64_t)b_pairs[j].real;
+            nk_f64_t b_imag = (nk_f64_t)b_pairs[j].imag;
+            nk_f64_t c_real = (nk_f64_t)c_pairs[i * n + j].real;
+            nk_f64_t c_imag = (nk_f64_t)c_pairs[i * n + j].imag;
+            // Complex multiply: c × b
+            inner_sum_real_f64 += c_real * b_real - c_imag * b_imag;
+            inner_sum_imag_f64 += c_real * b_imag + c_imag * b_real;
+        }
+        // Outer accumulation
+        outer_sum_real_f64 += a_real_f64 * inner_sum_real_f64 - a_imag_f64 * inner_sum_imag_f64;
+        outer_sum_imag_f64 += a_real_f64 * inner_sum_imag_f64 + a_imag_f64 * inner_sum_real_f64;
+    }
+    results->real = outer_sum_real_f64;
+    results->imag = outer_sum_imag_f64;
+}
+#if defined(__clang__)
+#pragma clang attribute pop
+#elif defined(__GNUC__)
+#pragma GCC pop_options
+#endif
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#endif // NK_TARGET_NEON
+#endif // NK_TARGET_ARM_
+#endif // NK_CURVED_NEON_H