npm - numkong - Versions diffs - 7.0.0 - Mend

numkong 7.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (294) hide show

package/LICENSE +201 -0
package/README.md +495 -0
package/binding.gyp +540 -0
package/c/dispatch.h +512 -0
package/c/dispatch_bf16.c +389 -0
package/c/dispatch_bf16c.c +52 -0
package/c/dispatch_e2m3.c +263 -0
package/c/dispatch_e3m2.c +243 -0
package/c/dispatch_e4m3.c +276 -0
package/c/dispatch_e5m2.c +272 -0
package/c/dispatch_f16.c +376 -0
package/c/dispatch_f16c.c +58 -0
package/c/dispatch_f32.c +378 -0
package/c/dispatch_f32c.c +99 -0
package/c/dispatch_f64.c +296 -0
package/c/dispatch_f64c.c +98 -0
package/c/dispatch_i16.c +96 -0
package/c/dispatch_i32.c +89 -0
package/c/dispatch_i4.c +150 -0
package/c/dispatch_i64.c +86 -0
package/c/dispatch_i8.c +289 -0
package/c/dispatch_other.c +330 -0
package/c/dispatch_u1.c +148 -0
package/c/dispatch_u16.c +124 -0
package/c/dispatch_u32.c +118 -0
package/c/dispatch_u4.c +150 -0
package/c/dispatch_u64.c +102 -0
package/c/dispatch_u8.c +303 -0
package/c/numkong.c +950 -0
package/include/README.md +573 -0
package/include/module.modulemap +129 -0
package/include/numkong/attention/sapphireamx.h +1361 -0
package/include/numkong/attention/sme.h +2066 -0
package/include/numkong/attention.h +49 -0
package/include/numkong/capabilities.h +748 -0
package/include/numkong/cast/README.md +262 -0
package/include/numkong/cast/haswell.h +975 -0
package/include/numkong/cast/icelake.h +470 -0
package/include/numkong/cast/neon.h +1192 -0
package/include/numkong/cast/rvv.h +1021 -0
package/include/numkong/cast/sapphire.h +262 -0
package/include/numkong/cast/serial.h +2262 -0
package/include/numkong/cast/skylake.h +856 -0
package/include/numkong/cast/v128relaxed.h +180 -0
package/include/numkong/cast.h +230 -0
package/include/numkong/curved/README.md +223 -0
package/include/numkong/curved/genoa.h +182 -0
package/include/numkong/curved/haswell.h +276 -0
package/include/numkong/curved/neon.h +205 -0
package/include/numkong/curved/neonbfdot.h +212 -0
package/include/numkong/curved/neonhalf.h +212 -0
package/include/numkong/curved/rvv.h +305 -0
package/include/numkong/curved/serial.h +207 -0
package/include/numkong/curved/skylake.h +457 -0
package/include/numkong/curved/smef64.h +506 -0
package/include/numkong/curved.h +517 -0
package/include/numkong/curved.hpp +144 -0
package/include/numkong/dot/README.md +425 -0
package/include/numkong/dot/alder.h +563 -0
package/include/numkong/dot/genoa.h +315 -0
package/include/numkong/dot/haswell.h +1688 -0
package/include/numkong/dot/icelake.h +883 -0
package/include/numkong/dot/neon.h +818 -0
package/include/numkong/dot/neonbfdot.h +244 -0
package/include/numkong/dot/neonfhm.h +360 -0
package/include/numkong/dot/neonhalf.h +198 -0
package/include/numkong/dot/neonsdot.h +508 -0
package/include/numkong/dot/rvv.h +714 -0
package/include/numkong/dot/rvvbb.h +72 -0
package/include/numkong/dot/rvvbf16.h +123 -0
package/include/numkong/dot/rvvhalf.h +129 -0
package/include/numkong/dot/sapphire.h +141 -0
package/include/numkong/dot/serial.h +838 -0
package/include/numkong/dot/sierra.h +405 -0
package/include/numkong/dot/skylake.h +1084 -0
package/include/numkong/dot/sve.h +379 -0
package/include/numkong/dot/svebfdot.h +74 -0
package/include/numkong/dot/svehalf.h +123 -0
package/include/numkong/dot/v128relaxed.h +1258 -0
package/include/numkong/dot.h +1070 -0
package/include/numkong/dot.hpp +94 -0
package/include/numkong/dots/README.md +496 -0
package/include/numkong/dots/alder.h +114 -0
package/include/numkong/dots/genoa.h +94 -0
package/include/numkong/dots/haswell.h +295 -0
package/include/numkong/dots/icelake.h +171 -0
package/include/numkong/dots/neon.h +120 -0
package/include/numkong/dots/neonbfdot.h +58 -0
package/include/numkong/dots/neonfhm.h +94 -0
package/include/numkong/dots/neonhalf.h +57 -0
package/include/numkong/dots/neonsdot.h +108 -0
package/include/numkong/dots/rvv.h +2486 -0
package/include/numkong/dots/sapphireamx.h +3973 -0
package/include/numkong/dots/serial.h +2844 -0
package/include/numkong/dots/sierra.h +97 -0
package/include/numkong/dots/skylake.h +196 -0
package/include/numkong/dots/sme.h +5372 -0
package/include/numkong/dots/smebi32.h +461 -0
package/include/numkong/dots/smef64.h +1318 -0
package/include/numkong/dots/smehalf.h +47 -0
package/include/numkong/dots/v128relaxed.h +294 -0
package/include/numkong/dots.h +2804 -0
package/include/numkong/dots.hpp +639 -0
package/include/numkong/each/README.md +469 -0
package/include/numkong/each/haswell.h +1658 -0
package/include/numkong/each/icelake.h +272 -0
package/include/numkong/each/neon.h +1104 -0
package/include/numkong/each/neonbfdot.h +212 -0
package/include/numkong/each/neonhalf.h +410 -0
package/include/numkong/each/rvv.h +1121 -0
package/include/numkong/each/sapphire.h +477 -0
package/include/numkong/each/serial.h +260 -0
package/include/numkong/each/skylake.h +1562 -0
package/include/numkong/each.h +2146 -0
package/include/numkong/each.hpp +434 -0
package/include/numkong/geospatial/README.md +147 -0
package/include/numkong/geospatial/haswell.h +593 -0
package/include/numkong/geospatial/neon.h +571 -0
package/include/numkong/geospatial/rvv.h +701 -0
package/include/numkong/geospatial/serial.h +309 -0
package/include/numkong/geospatial/skylake.h +577 -0
package/include/numkong/geospatial/v128relaxed.h +613 -0
package/include/numkong/geospatial.h +453 -0
package/include/numkong/geospatial.hpp +235 -0
package/include/numkong/matrix.hpp +336 -0
package/include/numkong/maxsim/README.md +187 -0
package/include/numkong/maxsim/alder.h +511 -0
package/include/numkong/maxsim/genoa.h +115 -0
package/include/numkong/maxsim/haswell.h +553 -0
package/include/numkong/maxsim/icelake.h +480 -0
package/include/numkong/maxsim/neonsdot.h +394 -0
package/include/numkong/maxsim/sapphireamx.h +877 -0
package/include/numkong/maxsim/serial.h +490 -0
package/include/numkong/maxsim/sme.h +929 -0
package/include/numkong/maxsim/v128relaxed.h +280 -0
package/include/numkong/maxsim.h +571 -0
package/include/numkong/maxsim.hpp +133 -0
package/include/numkong/mesh/README.md +227 -0
package/include/numkong/mesh/haswell.h +2235 -0
package/include/numkong/mesh/neon.h +1329 -0
package/include/numkong/mesh/neonbfdot.h +842 -0
package/include/numkong/mesh/neonhalf.h +616 -0
package/include/numkong/mesh/rvv.h +916 -0
package/include/numkong/mesh/serial.h +742 -0
package/include/numkong/mesh/skylake.h +1135 -0
package/include/numkong/mesh/v128relaxed.h +1052 -0
package/include/numkong/mesh.h +652 -0
package/include/numkong/mesh.hpp +762 -0
package/include/numkong/numkong.h +78 -0
package/include/numkong/numkong.hpp +57 -0
package/include/numkong/probability/README.md +173 -0
package/include/numkong/probability/haswell.h +267 -0
package/include/numkong/probability/neon.h +225 -0
package/include/numkong/probability/rvv.h +409 -0
package/include/numkong/probability/serial.h +169 -0
package/include/numkong/probability/skylake.h +324 -0
package/include/numkong/probability.h +383 -0
package/include/numkong/probability.hpp +120 -0
package/include/numkong/random.h +50 -0
package/include/numkong/random.hpp +285 -0
package/include/numkong/reduce/README.md +547 -0
package/include/numkong/reduce/alder.h +632 -0
package/include/numkong/reduce/genoa.h +201 -0
package/include/numkong/reduce/haswell.h +3783 -0
package/include/numkong/reduce/icelake.h +549 -0
package/include/numkong/reduce/neon.h +3841 -0
package/include/numkong/reduce/neonbfdot.h +353 -0
package/include/numkong/reduce/neonfhm.h +665 -0
package/include/numkong/reduce/neonhalf.h +157 -0
package/include/numkong/reduce/neonsdot.h +357 -0
package/include/numkong/reduce/rvv.h +3407 -0
package/include/numkong/reduce/serial.h +757 -0
package/include/numkong/reduce/sierra.h +338 -0
package/include/numkong/reduce/skylake.h +3792 -0
package/include/numkong/reduce/v128relaxed.h +2302 -0
package/include/numkong/reduce.h +1597 -0
package/include/numkong/reduce.hpp +633 -0
package/include/numkong/scalar/README.md +89 -0
package/include/numkong/scalar/haswell.h +113 -0
package/include/numkong/scalar/neon.h +122 -0
package/include/numkong/scalar/neonhalf.h +70 -0
package/include/numkong/scalar/rvv.h +211 -0
package/include/numkong/scalar/sapphire.h +63 -0
package/include/numkong/scalar/serial.h +332 -0
package/include/numkong/scalar/v128relaxed.h +56 -0
package/include/numkong/scalar.h +683 -0
package/include/numkong/set/README.md +179 -0
package/include/numkong/set/haswell.h +334 -0
package/include/numkong/set/icelake.h +485 -0
package/include/numkong/set/neon.h +364 -0
package/include/numkong/set/rvv.h +226 -0
package/include/numkong/set/rvvbb.h +117 -0
package/include/numkong/set/serial.h +174 -0
package/include/numkong/set/sve.h +185 -0
package/include/numkong/set/v128relaxed.h +240 -0
package/include/numkong/set.h +457 -0
package/include/numkong/set.hpp +114 -0
package/include/numkong/sets/README.md +149 -0
package/include/numkong/sets/haswell.h +63 -0
package/include/numkong/sets/icelake.h +66 -0
package/include/numkong/sets/neon.h +61 -0
package/include/numkong/sets/serial.h +43 -0
package/include/numkong/sets/smebi32.h +1099 -0
package/include/numkong/sets/v128relaxed.h +58 -0
package/include/numkong/sets.h +339 -0
package/include/numkong/sparse/README.md +156 -0
package/include/numkong/sparse/icelake.h +463 -0
package/include/numkong/sparse/neon.h +288 -0
package/include/numkong/sparse/serial.h +117 -0
package/include/numkong/sparse/sve2.h +507 -0
package/include/numkong/sparse/turin.h +322 -0
package/include/numkong/sparse.h +363 -0
package/include/numkong/sparse.hpp +113 -0
package/include/numkong/spatial/README.md +435 -0
package/include/numkong/spatial/alder.h +607 -0
package/include/numkong/spatial/genoa.h +290 -0
package/include/numkong/spatial/haswell.h +960 -0
package/include/numkong/spatial/icelake.h +586 -0
package/include/numkong/spatial/neon.h +773 -0
package/include/numkong/spatial/neonbfdot.h +165 -0
package/include/numkong/spatial/neonhalf.h +118 -0
package/include/numkong/spatial/neonsdot.h +261 -0
package/include/numkong/spatial/rvv.h +984 -0
package/include/numkong/spatial/rvvbf16.h +123 -0
package/include/numkong/spatial/rvvhalf.h +117 -0
package/include/numkong/spatial/sapphire.h +343 -0
package/include/numkong/spatial/serial.h +346 -0
package/include/numkong/spatial/sierra.h +323 -0
package/include/numkong/spatial/skylake.h +606 -0
package/include/numkong/spatial/sve.h +224 -0
package/include/numkong/spatial/svebfdot.h +122 -0
package/include/numkong/spatial/svehalf.h +109 -0
package/include/numkong/spatial/v128relaxed.h +717 -0
package/include/numkong/spatial.h +1425 -0
package/include/numkong/spatial.hpp +183 -0
package/include/numkong/spatials/README.md +580 -0
package/include/numkong/spatials/alder.h +94 -0
package/include/numkong/spatials/genoa.h +94 -0
package/include/numkong/spatials/haswell.h +219 -0
package/include/numkong/spatials/icelake.h +113 -0
package/include/numkong/spatials/neon.h +109 -0
package/include/numkong/spatials/neonbfdot.h +60 -0
package/include/numkong/spatials/neonfhm.h +92 -0
package/include/numkong/spatials/neonhalf.h +58 -0
package/include/numkong/spatials/neonsdot.h +109 -0
package/include/numkong/spatials/rvv.h +1960 -0
package/include/numkong/spatials/sapphireamx.h +1149 -0
package/include/numkong/spatials/serial.h +226 -0
package/include/numkong/spatials/sierra.h +96 -0
package/include/numkong/spatials/skylake.h +184 -0
package/include/numkong/spatials/sme.h +1901 -0
package/include/numkong/spatials/smef64.h +465 -0
package/include/numkong/spatials/v128relaxed.h +240 -0
package/include/numkong/spatials.h +3021 -0
package/include/numkong/spatials.hpp +508 -0
package/include/numkong/tensor.hpp +1592 -0
package/include/numkong/trigonometry/README.md +184 -0
package/include/numkong/trigonometry/haswell.h +652 -0
package/include/numkong/trigonometry/neon.h +639 -0
package/include/numkong/trigonometry/rvv.h +699 -0
package/include/numkong/trigonometry/serial.h +703 -0
package/include/numkong/trigonometry/skylake.h +721 -0
package/include/numkong/trigonometry/v128relaxed.h +666 -0
package/include/numkong/trigonometry.h +467 -0
package/include/numkong/trigonometry.hpp +166 -0
package/include/numkong/types.h +1384 -0
package/include/numkong/types.hpp +5603 -0
package/include/numkong/vector.hpp +698 -0
package/javascript/README.md +246 -0
package/javascript/dist/cjs/numkong-wasm.d.ts +166 -0
package/javascript/dist/cjs/numkong-wasm.js +617 -0
package/javascript/dist/cjs/numkong.d.ts +343 -0
package/javascript/dist/cjs/numkong.js +523 -0
package/javascript/dist/cjs/package.json +3 -0
package/javascript/dist/cjs/types.d.ts +284 -0
package/javascript/dist/cjs/types.js +653 -0
package/javascript/dist/esm/numkong-wasm.d.ts +166 -0
package/javascript/dist/esm/numkong-wasm.js +595 -0
package/javascript/dist/esm/numkong.d.ts +343 -0
package/javascript/dist/esm/numkong.js +452 -0
package/javascript/dist/esm/package.json +3 -0
package/javascript/dist/esm/types.d.ts +284 -0
package/javascript/dist/esm/types.js +630 -0
package/javascript/dist-package-cjs.json +3 -0
package/javascript/dist-package-esm.json +3 -0
package/javascript/node-gyp-build.d.ts +1 -0
package/javascript/numkong-wasm.ts +756 -0
package/javascript/numkong.c +689 -0
package/javascript/numkong.ts +575 -0
package/javascript/tsconfig-base.json +39 -0
package/javascript/tsconfig-cjs.json +8 -0
package/javascript/tsconfig-esm.json +8 -0
package/javascript/types.ts +674 -0
package/package.json +87 -0

package/include/numkong/curved/skylake.h ADDED Viewed

@@ -0,0 +1,457 @@
+/**
+ *  @brief SIMD-accelerated Curved Space Similarity for Skylake.
+ *  @file include/numkong/curved/skylake.h
+ *  @author Ash Vardanian
+ *  @date January 14, 2026
+ *
+ *  @sa include/numkong/curved.h
+ *
+ *  Implements f32 and f64 bilinear forms and Mahalanobis distance using AVX-512:
+ *  - f32 inputs accumulate in f64 to avoid catastrophic cancellation
+ *  - f64 inputs use Dot2 algorithm (Ogita-Rump-Oishi 2005) for error compensation
+ */
+#ifndef NK_CURVED_SKYLAKE_H
+#define NK_CURVED_SKYLAKE_H
+#if NK_TARGET_X86_
+#if NK_TARGET_SKYLAKE
+#include "numkong/types.h"
+#include "numkong/spatial/haswell.h" // `nk_f64_sqrt_haswell`
+#if defined(__cplusplus)
+extern "C" {
+#endif
+#if defined(__clang__)
+#pragma clang attribute push(__attribute__((target("avx2,avx512f,avx512vl,avx512bw,avx512dq,f16c,fma,bmi,bmi2"))), \
+                             apply_to = function)
+#elif defined(__GNUC__)
+#pragma GCC push_options
+#pragma GCC target("avx2", "avx512f", "avx512vl", "avx512bw", "avx512dq", "f16c", "fma", "bmi", "bmi2")
+#endif
+NK_PUBLIC void nk_bilinear_f32_skylake(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                       nk_f64_t *result) {
+    // Default case for arbitrary size `n`
+    nk_size_t const tail_length = n % 8;
+    nk_size_t const tail_start = n - tail_length;
+    __m512d sum_f64x8 = _mm512_setzero_pd();
+    __mmask8 const tail_mask = (__mmask8)_bzhi_u32(0xFFFFFFFF, tail_length);
+    for (nk_size_t i = 0; i != n; ++i) {
+        __m512d a_f64x8 = _mm512_set1_pd((nk_f64_t)a[i]);
+        __m512d cb_j_f64x8 = _mm512_setzero_pd();
+        __m256 b_f32x8, c_f32x8;
+        nk_size_t j = 0;
+    nk_bilinear_f32_skylake_cycle:
+        if (j + 8 <= n) {
+            b_f32x8 = _mm256_loadu_ps(b + j);
+            c_f32x8 = _mm256_loadu_ps(c + i * n + j);
+        }
+        else {
+            b_f32x8 = _mm256_maskz_loadu_ps(tail_mask, b + tail_start);
+            c_f32x8 = _mm256_maskz_loadu_ps(tail_mask, c + i * n + tail_start);
+        }
+        cb_j_f64x8 = _mm512_fmadd_pd(_mm512_cvtps_pd(b_f32x8), _mm512_cvtps_pd(c_f32x8), cb_j_f64x8);
+        j += 8;
+        if (j < n) goto nk_bilinear_f32_skylake_cycle;
+        sum_f64x8 = _mm512_fmadd_pd(a_f64x8, cb_j_f64x8, sum_f64x8);
+    }
+    *result = _mm512_reduce_add_pd(sum_f64x8);
+}
+NK_PUBLIC void nk_mahalanobis_f32_skylake(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                          nk_f64_t *result) {
+    // We use f64 accumulators to prevent catastrophic cancellation.
+    nk_size_t const tail_length = n % 8;
+    nk_size_t const tail_start = n - tail_length;
+    __m512d sum_f64x8 = _mm512_setzero_pd();
+    __mmask8 const tail_mask = (__mmask8)_bzhi_u32(0xFFFFFFFF, tail_length);
+    for (nk_size_t i = 0; i != n; ++i) {
+        __m512d diff_i_f64x8 = _mm512_set1_pd((nk_f64_t)a[i] - (nk_f64_t)b[i]);
+        __m512d cdiff_j_f64x8 = _mm512_setzero_pd();
+        __m256 a_j_f32x8, b_j_f32x8, c_f32x8;
+        nk_size_t j = 0;
+        // The nested loop is cleaner to implement with a `goto` in this case:
+    nk_mahalanobis_f32_skylake_cycle:
+        if (j + 8 <= n) {
+            a_j_f32x8 = _mm256_loadu_ps(a + j);
+            b_j_f32x8 = _mm256_loadu_ps(b + j);
+            c_f32x8 = _mm256_loadu_ps(c + i * n + j);
+        }
+        else {
+            a_j_f32x8 = _mm256_maskz_loadu_ps(tail_mask, a + tail_start);
+            b_j_f32x8 = _mm256_maskz_loadu_ps(tail_mask, b + tail_start);
+            c_f32x8 = _mm256_maskz_loadu_ps(tail_mask, c + i * n + tail_start);
+        }
+        __m512d diff_j_f64x8 = _mm512_sub_pd(_mm512_cvtps_pd(a_j_f32x8), _mm512_cvtps_pd(b_j_f32x8));
+        cdiff_j_f64x8 = _mm512_fmadd_pd(diff_j_f64x8, _mm512_cvtps_pd(c_f32x8), cdiff_j_f64x8);
+        j += 8;
+        if (j < n) goto nk_mahalanobis_f32_skylake_cycle;
+        sum_f64x8 = _mm512_fmadd_pd(diff_i_f64x8, cdiff_j_f64x8, sum_f64x8);
+    }
+    nk_f64_t quadratic = _mm512_reduce_add_pd(sum_f64x8);
+    *result = nk_f64_sqrt_haswell(quadratic > 0 ? quadratic : 0);
+}
+NK_PUBLIC void nk_bilinear_f32c_skylake(nk_f32c_t const *a, nk_f32c_t const *b, nk_f32c_t const *c, nk_size_t n,
+                                        nk_f64c_t *results) {
+    // We take into account, that FMS is the same as FMA with a negative multiplier.
+    // To multiply a floating-point value by -1, we can use the `XOR` instruction to flip the sign bit.
+    // This way we can avoid the shuffling and the need for separate real and imaginary parts.
+    // For the imaginary part of the product, we would need to swap the real and imaginary parts of
+    // one of the vectors. We use f64 accumulators to prevent catastrophic cancellation.
+    __m512i const sign_flip_i64x8 = _mm512_set_epi64(                                   //
+        0x8000000000000000, 0x0000000000000000, 0x8000000000000000, 0x0000000000000000, //
+        0x8000000000000000, 0x0000000000000000, 0x8000000000000000, 0x0000000000000000  //
+    );
+    // Default case for arbitrary size `n`
+    nk_size_t const tail_length = n % 4;
+    nk_size_t const tail_start = n - tail_length;
+    __mmask8 const tail_mask = (__mmask8)_bzhi_u32(0xFFFFFFFF, tail_length * 2);
+    nk_f64_t sum_real = 0;
+    nk_f64_t sum_imag = 0;
+    for (nk_size_t i = 0; i != n; ++i) {
+        nk_f64_t const a_i_real = (nk_f64_t)a[i].real;
+        nk_f64_t const a_i_imag = (nk_f64_t)a[i].imag;
+        __m512d cb_j_real_f64x8 = _mm512_setzero_pd();
+        __m512d cb_j_imag_f64x8 = _mm512_setzero_pd();
+        __m256 b_f32x8, c_f32x8;
+        nk_size_t j = 0;
+    nk_bilinear_f32c_skylake_cycle:
+        if (j + 4 <= n) {
+            b_f32x8 = _mm256_loadu_ps((nk_f32_t const *)(b + j));
+            c_f32x8 = _mm256_loadu_ps((nk_f32_t const *)(c + i * n + j));
+        }
+        else {
+            b_f32x8 = _mm256_maskz_loadu_ps(tail_mask, (nk_f32_t const *)(b + tail_start));
+            c_f32x8 = _mm256_maskz_loadu_ps(tail_mask, (nk_f32_t const *)(c + i * n + tail_start));
+        }
+        __m512d b_f64x8 = _mm512_cvtps_pd(b_f32x8);
+        __m512d c_f64x8 = _mm512_cvtps_pd(c_f32x8);
+        // The real part of the product: b.real * c.real - b.imag * c.imag.
+        // The subtraction will be performed later with a sign flip.
+        cb_j_real_f64x8 = _mm512_fmadd_pd(c_f64x8, b_f64x8, cb_j_real_f64x8);
+        // The imaginary part of the product: b.real * c.imag + b.imag * c.real.
+        // Swap the imaginary and real parts of `c` before multiplication:
+        c_f64x8 = _mm512_permute_pd(c_f64x8, 0x55); //? Same as 0b01010101. Swap adjacent entries within each pair
+        cb_j_imag_f64x8 = _mm512_fmadd_pd(c_f64x8, b_f64x8, cb_j_imag_f64x8);
+        j += 4;
+        if (j < n) goto nk_bilinear_f32c_skylake_cycle;
+        // Flip the sign bit in every second scalar before accumulation:
+        cb_j_real_f64x8 = _mm512_castsi512_pd(_mm512_xor_si512(_mm512_castpd_si512(cb_j_real_f64x8), sign_flip_i64x8));
+        // Horizontal sums are the expensive part of the computation:
+        nk_f64_t const cb_j_real = _mm512_reduce_add_pd(cb_j_real_f64x8);
+        nk_f64_t const cb_j_imag = _mm512_reduce_add_pd(cb_j_imag_f64x8);
+        sum_real += a_i_real * cb_j_real - a_i_imag * cb_j_imag;
+        sum_imag += a_i_real * cb_j_imag + a_i_imag * cb_j_real;
+    }
+    // Reduce horizontal sums:
+    results->real = sum_real;
+    results->imag = sum_imag;
+}
+NK_PUBLIC void nk_bilinear_f64_skylake(nk_f64_t const *a, nk_f64_t const *b, nk_f64_t const *c, nk_size_t n,
+                                       nk_f64_t *result) {
+    // Default case for arbitrary size `n`
+    // Using Dot2 algorithm (Ogita-Rump-Oishi 2005) for compensated summation.
+    nk_size_t const tail_length = n % 8;
+    nk_size_t const tail_start = n - tail_length;
+    __m512d sum_f64x8 = _mm512_setzero_pd();
+    __m512d compensation_f64x8 = _mm512_setzero_pd();
+    __mmask8 const tail_mask = (__mmask8)_bzhi_u32(0xFFFFFFFF, tail_length);
+    for (nk_size_t i = 0; i != n; ++i) {
+        __m512d a_f64x8 = _mm512_set1_pd(a[i]);
+        __m512d cb_j_f64x8 = _mm512_setzero_pd();
+        __m512d inner_compensation_f64x8 = _mm512_setzero_pd();
+        __m512d b_f64x8, c_f64x8;
+        nk_size_t j = 0;
+    nk_bilinear_f64_skylake_cycle:
+        if (j + 8 <= n) {
+            b_f64x8 = _mm512_loadu_pd(b + j);
+            c_f64x8 = _mm512_loadu_pd(c + i * n + j);
+        }
+        else {
+            b_f64x8 = _mm512_maskz_loadu_pd(tail_mask, b + tail_start);
+            c_f64x8 = _mm512_maskz_loadu_pd(tail_mask, c + i * n + tail_start);
+        }
+        // Inner loop Dot2: accumulate cb_j = sum(b[j] * c[i,j])
+        // TwoProd: product = b * c, product_error = fma(b, c, -product)
+        {
+            __m512d product_f64x8 = _mm512_mul_pd(b_f64x8, c_f64x8);
+            __m512d product_error_f64x8 = _mm512_fmsub_pd(b_f64x8, c_f64x8, product_f64x8);
+            // TwoSum: t = cb_j + product
+            __m512d tentative_sum_f64x8 = _mm512_add_pd(cb_j_f64x8, product_f64x8);
+            __m512d virtual_addend_f64x8 = _mm512_sub_pd(tentative_sum_f64x8, cb_j_f64x8);
+            __m512d sum_error_f64x8 = _mm512_add_pd(
+                _mm512_sub_pd(cb_j_f64x8, _mm512_sub_pd(tentative_sum_f64x8, virtual_addend_f64x8)),
+                _mm512_sub_pd(product_f64x8, virtual_addend_f64x8));
+            cb_j_f64x8 = tentative_sum_f64x8;
+            inner_compensation_f64x8 = _mm512_add_pd(inner_compensation_f64x8,
+                                                     _mm512_add_pd(sum_error_f64x8, product_error_f64x8));
+        }
+        j += 8;
+        if (j < n) goto nk_bilinear_f64_skylake_cycle;
+        // Combine inner sum with compensation before outer accumulation
+        cb_j_f64x8 = _mm512_add_pd(cb_j_f64x8, inner_compensation_f64x8);
+        // Outer loop Dot2: accumulate sum += a[i] * cb_j
+        // TwoProd: product = a * cb_j, product_error = fma(a, cb_j, -product)
+        {
+            __m512d product_f64x8 = _mm512_mul_pd(a_f64x8, cb_j_f64x8);
+            __m512d product_error_f64x8 = _mm512_fmsub_pd(a_f64x8, cb_j_f64x8, product_f64x8);
+            // TwoSum: t = sum + product
+            __m512d tentative_sum_f64x8 = _mm512_add_pd(sum_f64x8, product_f64x8);
+            __m512d virtual_addend_f64x8 = _mm512_sub_pd(tentative_sum_f64x8, sum_f64x8);
+            __m512d sum_error_f64x8 = _mm512_add_pd(
+                _mm512_sub_pd(sum_f64x8, _mm512_sub_pd(tentative_sum_f64x8, virtual_addend_f64x8)),
+                _mm512_sub_pd(product_f64x8, virtual_addend_f64x8));
+            sum_f64x8 = tentative_sum_f64x8;
+            compensation_f64x8 = _mm512_add_pd(compensation_f64x8, _mm512_add_pd(sum_error_f64x8, product_error_f64x8));
+        }
+    }
+    // Final: combine sum + compensation before reduce
+    *result = _mm512_reduce_add_pd(_mm512_add_pd(sum_f64x8, compensation_f64x8));
+}
+NK_PUBLIC void nk_mahalanobis_f64_skylake(nk_f64_t const *a, nk_f64_t const *b, nk_f64_t const *c, nk_size_t n,
+                                          nk_f64_t *result) {
+    // Using Dot2 algorithm (Ogita-Rump-Oishi 2005) for compensated summation.
+    nk_size_t const tail_length = n % 8;
+    nk_size_t const tail_start = n - tail_length;
+    __mmask8 const tail_mask = (__mmask8)_bzhi_u32(0xFFFFFFFF, tail_length);
+    __m512d sum_f64x8 = _mm512_setzero_pd();
+    __m512d compensation_f64x8 = _mm512_setzero_pd();
+    for (nk_size_t i = 0; i != n; ++i) {
+        __m512d diff_i_f64x8 = _mm512_set1_pd(a[i] - b[i]);
+        __m512d cdiff_j_f64x8 = _mm512_setzero_pd();
+        __m512d inner_compensation_f64x8 = _mm512_setzero_pd();
+        __m512d a_j_f64x8, b_j_f64x8, diff_j_f64x8, c_f64x8;
+        nk_size_t j = 0;
+        // The nested loop is cleaner to implement with a `goto` in this case:
+    nk_mahalanobis_f64_skylake_cycle:
+        if (j + 8 <= n) {
+            a_j_f64x8 = _mm512_loadu_pd(a + j);
+            b_j_f64x8 = _mm512_loadu_pd(b + j);
+            c_f64x8 = _mm512_loadu_pd(c + i * n + j);
+        }
+        else {
+            a_j_f64x8 = _mm512_maskz_loadu_pd(tail_mask, a + tail_start);
+            b_j_f64x8 = _mm512_maskz_loadu_pd(tail_mask, b + tail_start);
+            c_f64x8 = _mm512_maskz_loadu_pd(tail_mask, c + i * n + tail_start);
+        }
+        diff_j_f64x8 = _mm512_sub_pd(a_j_f64x8, b_j_f64x8);
+        // Inner loop Dot2: accumulate cdiff_j = sum(diff_j * c[i,j])
+        // TwoProd: product = diff_j * c, product_error = fma(diff_j, c, -product)
+        {
+            __m512d product_f64x8 = _mm512_mul_pd(diff_j_f64x8, c_f64x8);
+            __m512d product_error_f64x8 = _mm512_fmsub_pd(diff_j_f64x8, c_f64x8, product_f64x8);
+            // TwoSum: t = cdiff_j + product
+            __m512d tentative_sum_f64x8 = _mm512_add_pd(cdiff_j_f64x8, product_f64x8);
+            __m512d virtual_addend_f64x8 = _mm512_sub_pd(tentative_sum_f64x8, cdiff_j_f64x8);
+            __m512d sum_error_f64x8 = _mm512_add_pd(
+                _mm512_sub_pd(cdiff_j_f64x8, _mm512_sub_pd(tentative_sum_f64x8, virtual_addend_f64x8)),
+                _mm512_sub_pd(product_f64x8, virtual_addend_f64x8));
+            cdiff_j_f64x8 = tentative_sum_f64x8;
+            inner_compensation_f64x8 = _mm512_add_pd(inner_compensation_f64x8,
+                                                     _mm512_add_pd(sum_error_f64x8, product_error_f64x8));
+        }
+        j += 8;
+        if (j < n) goto nk_mahalanobis_f64_skylake_cycle;
+        // Combine inner sum with compensation before outer accumulation
+        cdiff_j_f64x8 = _mm512_add_pd(cdiff_j_f64x8, inner_compensation_f64x8);
+        // Outer loop Dot2: accumulate sum += diff_i * cdiff_j
+        // TwoProd: product = diff_i * cdiff_j, product_error = fma(diff_i, cdiff_j, -product)
+        {
+            __m512d product_f64x8 = _mm512_mul_pd(diff_i_f64x8, cdiff_j_f64x8);
+            __m512d product_error_f64x8 = _mm512_fmsub_pd(diff_i_f64x8, cdiff_j_f64x8, product_f64x8);
+            // TwoSum: t = sum + product
+            __m512d tentative_sum_f64x8 = _mm512_add_pd(sum_f64x8, product_f64x8);
+            __m512d virtual_addend_f64x8 = _mm512_sub_pd(tentative_sum_f64x8, sum_f64x8);
+            __m512d sum_error_f64x8 = _mm512_add_pd(
+                _mm512_sub_pd(sum_f64x8, _mm512_sub_pd(tentative_sum_f64x8, virtual_addend_f64x8)),
+                _mm512_sub_pd(product_f64x8, virtual_addend_f64x8));
+            sum_f64x8 = tentative_sum_f64x8;
+            compensation_f64x8 = _mm512_add_pd(compensation_f64x8, _mm512_add_pd(sum_error_f64x8, product_error_f64x8));
+        }
+    }
+    // Final: combine sum + compensation before reduce
+    nk_f64_t quadratic = _mm512_reduce_add_pd(_mm512_add_pd(sum_f64x8, compensation_f64x8));
+    *result = nk_f64_sqrt_haswell(quadratic > 0 ? quadratic : 0);
+}
+NK_PUBLIC void nk_bilinear_f64c_skylake(nk_f64c_t const *a, nk_f64c_t const *b, nk_f64c_t const *c, nk_size_t n,
+                                        nk_f64c_t *results) {
+    // We take into account, that FMS is the same as FMA with a negative multiplier.
+    // To multiply a floating-point value by -1, we can use the `XOR` instruction to flip the sign bit.
+    // This way we can avoid the shuffling and the need for separate real and imaginary parts.
+    // For the imaginary part of the product, we would need to swap the real and imaginary parts of
+    // one of the vectors.
+    // Using Dot2 algorithm (Ogita-Rump-Oishi 2005) for compensated summation.
+    __m512i const sign_flip_i64x8 = _mm512_set_epi64(                                   //
+        0x8000000000000000, 0x0000000000000000, 0x8000000000000000, 0x0000000000000000, //
+        0x8000000000000000, 0x0000000000000000, 0x8000000000000000, 0x0000000000000000  //
+    );
+    // Default case for arbitrary size `n`
+    nk_size_t const tail_length = n % 4;
+    nk_size_t const tail_start = n - tail_length;
+    __mmask8 const tail_mask = (__mmask8)_bzhi_u32(0xFFFFFFFF, tail_length * 2);
+    nk_f64_t sum_real = 0;
+    nk_f64_t sum_imag = 0;
+    nk_f64_t compensation_real = 0;
+    nk_f64_t compensation_imag = 0;
+    for (nk_size_t i = 0; i != n; ++i) {
+        nk_f64_t const a_i_real = a[i].real;
+        nk_f64_t const a_i_imag = a[i].imag;
+        __m512d cb_j_real_f64x8 = _mm512_setzero_pd();
+        __m512d cb_j_imag_f64x8 = _mm512_setzero_pd();
+        __m512d compensation_real_f64x8 = _mm512_setzero_pd();
+        __m512d compensation_imag_f64x8 = _mm512_setzero_pd();
+        __m512d b_f64x8, c_f64x8;
+        nk_size_t j = 0;
+    nk_bilinear_f64c_skylake_cycle:
+        if (j + 4 <= n) {
+            b_f64x8 = _mm512_loadu_pd((nk_f64_t const *)(b + j));
+            c_f64x8 = _mm512_loadu_pd((nk_f64_t const *)(c + i * n + j));
+        }
+        else {
+            b_f64x8 = _mm512_maskz_loadu_pd(tail_mask, (nk_f64_t const *)(b + tail_start));
+            c_f64x8 = _mm512_maskz_loadu_pd(tail_mask, (nk_f64_t const *)(c + i * n + tail_start));
+        }
+        // The real part of the product: b.real * c.real - b.imag * c.imag.
+        // The subtraction will be performed later with a sign flip.
+        // Inner loop Dot2 for real accumulator
+        {
+            __m512d product_f64x8 = _mm512_mul_pd(c_f64x8, b_f64x8);
+            __m512d product_error_f64x8 = _mm512_fmsub_pd(c_f64x8, b_f64x8, product_f64x8);
+            __m512d tentative_sum_f64x8 = _mm512_add_pd(cb_j_real_f64x8, product_f64x8);
+            __m512d virtual_addend_f64x8 = _mm512_sub_pd(tentative_sum_f64x8, cb_j_real_f64x8);
+            __m512d sum_error_f64x8 = _mm512_add_pd(
+                _mm512_sub_pd(cb_j_real_f64x8, _mm512_sub_pd(tentative_sum_f64x8, virtual_addend_f64x8)),
+                _mm512_sub_pd(product_f64x8, virtual_addend_f64x8));
+            cb_j_real_f64x8 = tentative_sum_f64x8;
+            compensation_real_f64x8 = _mm512_add_pd(compensation_real_f64x8,
+                                                    _mm512_add_pd(sum_error_f64x8, product_error_f64x8));
+        }
+        // The imaginary part of the product: b.real * c.imag + b.imag * c.real.
+        // Swap the imaginary and real parts of `c` before multiplication:
+        c_f64x8 = _mm512_permute_pd(c_f64x8, 0x55); //? Same as 0b01010101.
+        // Inner loop Dot2 for imaginary accumulator
+        {
+            __m512d product_f64x8 = _mm512_mul_pd(c_f64x8, b_f64x8);
+            __m512d product_error_f64x8 = _mm512_fmsub_pd(c_f64x8, b_f64x8, product_f64x8);
+            __m512d tentative_sum_f64x8 = _mm512_add_pd(cb_j_imag_f64x8, product_f64x8);
+            __m512d virtual_addend_f64x8 = _mm512_sub_pd(tentative_sum_f64x8, cb_j_imag_f64x8);
+            __m512d sum_error_f64x8 = _mm512_add_pd(
+                _mm512_sub_pd(cb_j_imag_f64x8, _mm512_sub_pd(tentative_sum_f64x8, virtual_addend_f64x8)),
+                _mm512_sub_pd(product_f64x8, virtual_addend_f64x8));
+            cb_j_imag_f64x8 = tentative_sum_f64x8;
+            compensation_imag_f64x8 = _mm512_add_pd(compensation_imag_f64x8,
+                                                    _mm512_add_pd(sum_error_f64x8, product_error_f64x8));
+        }
+        j += 4;
+        if (j < n) goto nk_bilinear_f64c_skylake_cycle;
+        // Flip the sign bit in every second scalar before accumulation:
+        cb_j_real_f64x8 = _mm512_castsi512_pd(_mm512_xor_si512(_mm512_castpd_si512(cb_j_real_f64x8), sign_flip_i64x8));
+        compensation_real_f64x8 = _mm512_castsi512_pd(
+            _mm512_xor_si512(_mm512_castpd_si512(compensation_real_f64x8), sign_flip_i64x8));
+        // Combine inner sums with compensation before horizontal reduce
+        cb_j_real_f64x8 = _mm512_add_pd(cb_j_real_f64x8, compensation_real_f64x8);
+        cb_j_imag_f64x8 = _mm512_add_pd(cb_j_imag_f64x8, compensation_imag_f64x8);
+        // Horizontal sums are the expensive part of the computation:
+        nk_f64_t const cb_j_real = _mm512_reduce_add_pd(cb_j_real_f64x8);
+        nk_f64_t const cb_j_imag = _mm512_reduce_add_pd(cb_j_imag_f64x8);
+        // Outer loop Dot2 for real part: sum_real += a_i_real * cb_j_real - a_i_imag * cb_j_imag
+        {
+            // First term: a_i_real * cb_j_real
+            nk_f64_t product1 = a_i_real * cb_j_real;
+            nk_f64_t product_error1 = (a_i_real * cb_j_real) - product1;
+            // Second term: -a_i_imag * cb_j_imag
+            nk_f64_t product2 = a_i_imag * cb_j_imag;
+            nk_f64_t product_error2 = (a_i_imag * cb_j_imag) - product2;
+            // TwoSum for first addition: t = sum_real + product1
+            nk_f64_t t1 = sum_real + product1;
+            nk_f64_t z1 = t1 - sum_real;
+            nk_f64_t sum_error1 = (sum_real - (t1 - z1)) + (product1 - z1);
+            sum_real = t1;
+            compensation_real += sum_error1 + product_error1;
+            // TwoSum for subtraction: t = sum_real - product2
+            nk_f64_t t2 = sum_real - product2;
+            nk_f64_t z2 = t2 - sum_real;
+            nk_f64_t sum_error2 = (sum_real - (t2 - z2)) + (-product2 - z2);
+            sum_real = t2;
+            compensation_real += sum_error2 - product_error2;
+        }
+        // Outer loop Dot2 for imaginary part: sum_imag += a_i_real * cb_j_imag + a_i_imag * cb_j_real
+        {
+            // First term: a_i_real * cb_j_imag
+            nk_f64_t product1 = a_i_real * cb_j_imag;
+            nk_f64_t product_error1 = (a_i_real * cb_j_imag) - product1;
+            // Second term: a_i_imag * cb_j_real
+            nk_f64_t product2 = a_i_imag * cb_j_real;
+            nk_f64_t product_error2 = (a_i_imag * cb_j_real) - product2;
+            // TwoSum for first addition: t = sum_imag + product1
+            nk_f64_t t1 = sum_imag + product1;
+            nk_f64_t z1 = t1 - sum_imag;
+            nk_f64_t sum_error1 = (sum_imag - (t1 - z1)) + (product1 - z1);
+            sum_imag = t1;
+            compensation_imag += sum_error1 + product_error1;
+            // TwoSum for second addition: t = sum_imag + product2
+            nk_f64_t t2 = sum_imag + product2;
+            nk_f64_t z2 = t2 - sum_imag;
+            nk_f64_t sum_error2 = (sum_imag - (t2 - z2)) + (product2 - z2);
+            sum_imag = t2;
+            compensation_imag += sum_error2 + product_error2;
+        }
+    }
+    // Final: combine sum + compensation
+    results->real = sum_real + compensation_real;
+    results->imag = sum_imag + compensation_imag;
+}
+#if defined(__clang__)
+#pragma clang attribute pop
+#elif defined(__GNUC__)
+#pragma GCC pop_options
+#endif
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#endif // NK_TARGET_SKYLAKE
+#endif // NK_TARGET_X86_
+#endif // NK_CURVED_SKYLAKE_H