npm - numkong - Versions diffs - 7.0.0 - Mend

numkong 7.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (294) hide show

package/LICENSE +201 -0
package/README.md +495 -0
package/binding.gyp +540 -0
package/c/dispatch.h +512 -0
package/c/dispatch_bf16.c +389 -0
package/c/dispatch_bf16c.c +52 -0
package/c/dispatch_e2m3.c +263 -0
package/c/dispatch_e3m2.c +243 -0
package/c/dispatch_e4m3.c +276 -0
package/c/dispatch_e5m2.c +272 -0
package/c/dispatch_f16.c +376 -0
package/c/dispatch_f16c.c +58 -0
package/c/dispatch_f32.c +378 -0
package/c/dispatch_f32c.c +99 -0
package/c/dispatch_f64.c +296 -0
package/c/dispatch_f64c.c +98 -0
package/c/dispatch_i16.c +96 -0
package/c/dispatch_i32.c +89 -0
package/c/dispatch_i4.c +150 -0
package/c/dispatch_i64.c +86 -0
package/c/dispatch_i8.c +289 -0
package/c/dispatch_other.c +330 -0
package/c/dispatch_u1.c +148 -0
package/c/dispatch_u16.c +124 -0
package/c/dispatch_u32.c +118 -0
package/c/dispatch_u4.c +150 -0
package/c/dispatch_u64.c +102 -0
package/c/dispatch_u8.c +303 -0
package/c/numkong.c +950 -0
package/include/README.md +573 -0
package/include/module.modulemap +129 -0
package/include/numkong/attention/sapphireamx.h +1361 -0
package/include/numkong/attention/sme.h +2066 -0
package/include/numkong/attention.h +49 -0
package/include/numkong/capabilities.h +748 -0
package/include/numkong/cast/README.md +262 -0
package/include/numkong/cast/haswell.h +975 -0
package/include/numkong/cast/icelake.h +470 -0
package/include/numkong/cast/neon.h +1192 -0
package/include/numkong/cast/rvv.h +1021 -0
package/include/numkong/cast/sapphire.h +262 -0
package/include/numkong/cast/serial.h +2262 -0
package/include/numkong/cast/skylake.h +856 -0
package/include/numkong/cast/v128relaxed.h +180 -0
package/include/numkong/cast.h +230 -0
package/include/numkong/curved/README.md +223 -0
package/include/numkong/curved/genoa.h +182 -0
package/include/numkong/curved/haswell.h +276 -0
package/include/numkong/curved/neon.h +205 -0
package/include/numkong/curved/neonbfdot.h +212 -0
package/include/numkong/curved/neonhalf.h +212 -0
package/include/numkong/curved/rvv.h +305 -0
package/include/numkong/curved/serial.h +207 -0
package/include/numkong/curved/skylake.h +457 -0
package/include/numkong/curved/smef64.h +506 -0
package/include/numkong/curved.h +517 -0
package/include/numkong/curved.hpp +144 -0
package/include/numkong/dot/README.md +425 -0
package/include/numkong/dot/alder.h +563 -0
package/include/numkong/dot/genoa.h +315 -0
package/include/numkong/dot/haswell.h +1688 -0
package/include/numkong/dot/icelake.h +883 -0
package/include/numkong/dot/neon.h +818 -0
package/include/numkong/dot/neonbfdot.h +244 -0
package/include/numkong/dot/neonfhm.h +360 -0
package/include/numkong/dot/neonhalf.h +198 -0
package/include/numkong/dot/neonsdot.h +508 -0
package/include/numkong/dot/rvv.h +714 -0
package/include/numkong/dot/rvvbb.h +72 -0
package/include/numkong/dot/rvvbf16.h +123 -0
package/include/numkong/dot/rvvhalf.h +129 -0
package/include/numkong/dot/sapphire.h +141 -0
package/include/numkong/dot/serial.h +838 -0
package/include/numkong/dot/sierra.h +405 -0
package/include/numkong/dot/skylake.h +1084 -0
package/include/numkong/dot/sve.h +379 -0
package/include/numkong/dot/svebfdot.h +74 -0
package/include/numkong/dot/svehalf.h +123 -0
package/include/numkong/dot/v128relaxed.h +1258 -0
package/include/numkong/dot.h +1070 -0
package/include/numkong/dot.hpp +94 -0
package/include/numkong/dots/README.md +496 -0
package/include/numkong/dots/alder.h +114 -0
package/include/numkong/dots/genoa.h +94 -0
package/include/numkong/dots/haswell.h +295 -0
package/include/numkong/dots/icelake.h +171 -0
package/include/numkong/dots/neon.h +120 -0
package/include/numkong/dots/neonbfdot.h +58 -0
package/include/numkong/dots/neonfhm.h +94 -0
package/include/numkong/dots/neonhalf.h +57 -0
package/include/numkong/dots/neonsdot.h +108 -0
package/include/numkong/dots/rvv.h +2486 -0
package/include/numkong/dots/sapphireamx.h +3973 -0
package/include/numkong/dots/serial.h +2844 -0
package/include/numkong/dots/sierra.h +97 -0
package/include/numkong/dots/skylake.h +196 -0
package/include/numkong/dots/sme.h +5372 -0
package/include/numkong/dots/smebi32.h +461 -0
package/include/numkong/dots/smef64.h +1318 -0
package/include/numkong/dots/smehalf.h +47 -0
package/include/numkong/dots/v128relaxed.h +294 -0
package/include/numkong/dots.h +2804 -0
package/include/numkong/dots.hpp +639 -0
package/include/numkong/each/README.md +469 -0
package/include/numkong/each/haswell.h +1658 -0
package/include/numkong/each/icelake.h +272 -0
package/include/numkong/each/neon.h +1104 -0
package/include/numkong/each/neonbfdot.h +212 -0
package/include/numkong/each/neonhalf.h +410 -0
package/include/numkong/each/rvv.h +1121 -0
package/include/numkong/each/sapphire.h +477 -0
package/include/numkong/each/serial.h +260 -0
package/include/numkong/each/skylake.h +1562 -0
package/include/numkong/each.h +2146 -0
package/include/numkong/each.hpp +434 -0
package/include/numkong/geospatial/README.md +147 -0
package/include/numkong/geospatial/haswell.h +593 -0
package/include/numkong/geospatial/neon.h +571 -0
package/include/numkong/geospatial/rvv.h +701 -0
package/include/numkong/geospatial/serial.h +309 -0
package/include/numkong/geospatial/skylake.h +577 -0
package/include/numkong/geospatial/v128relaxed.h +613 -0
package/include/numkong/geospatial.h +453 -0
package/include/numkong/geospatial.hpp +235 -0
package/include/numkong/matrix.hpp +336 -0
package/include/numkong/maxsim/README.md +187 -0
package/include/numkong/maxsim/alder.h +511 -0
package/include/numkong/maxsim/genoa.h +115 -0
package/include/numkong/maxsim/haswell.h +553 -0
package/include/numkong/maxsim/icelake.h +480 -0
package/include/numkong/maxsim/neonsdot.h +394 -0
package/include/numkong/maxsim/sapphireamx.h +877 -0
package/include/numkong/maxsim/serial.h +490 -0
package/include/numkong/maxsim/sme.h +929 -0
package/include/numkong/maxsim/v128relaxed.h +280 -0
package/include/numkong/maxsim.h +571 -0
package/include/numkong/maxsim.hpp +133 -0
package/include/numkong/mesh/README.md +227 -0
package/include/numkong/mesh/haswell.h +2235 -0
package/include/numkong/mesh/neon.h +1329 -0
package/include/numkong/mesh/neonbfdot.h +842 -0
package/include/numkong/mesh/neonhalf.h +616 -0
package/include/numkong/mesh/rvv.h +916 -0
package/include/numkong/mesh/serial.h +742 -0
package/include/numkong/mesh/skylake.h +1135 -0
package/include/numkong/mesh/v128relaxed.h +1052 -0
package/include/numkong/mesh.h +652 -0
package/include/numkong/mesh.hpp +762 -0
package/include/numkong/numkong.h +78 -0
package/include/numkong/numkong.hpp +57 -0
package/include/numkong/probability/README.md +173 -0
package/include/numkong/probability/haswell.h +267 -0
package/include/numkong/probability/neon.h +225 -0
package/include/numkong/probability/rvv.h +409 -0
package/include/numkong/probability/serial.h +169 -0
package/include/numkong/probability/skylake.h +324 -0
package/include/numkong/probability.h +383 -0
package/include/numkong/probability.hpp +120 -0
package/include/numkong/random.h +50 -0
package/include/numkong/random.hpp +285 -0
package/include/numkong/reduce/README.md +547 -0
package/include/numkong/reduce/alder.h +632 -0
package/include/numkong/reduce/genoa.h +201 -0
package/include/numkong/reduce/haswell.h +3783 -0
package/include/numkong/reduce/icelake.h +549 -0
package/include/numkong/reduce/neon.h +3841 -0
package/include/numkong/reduce/neonbfdot.h +353 -0
package/include/numkong/reduce/neonfhm.h +665 -0
package/include/numkong/reduce/neonhalf.h +157 -0
package/include/numkong/reduce/neonsdot.h +357 -0
package/include/numkong/reduce/rvv.h +3407 -0
package/include/numkong/reduce/serial.h +757 -0
package/include/numkong/reduce/sierra.h +338 -0
package/include/numkong/reduce/skylake.h +3792 -0
package/include/numkong/reduce/v128relaxed.h +2302 -0
package/include/numkong/reduce.h +1597 -0
package/include/numkong/reduce.hpp +633 -0
package/include/numkong/scalar/README.md +89 -0
package/include/numkong/scalar/haswell.h +113 -0
package/include/numkong/scalar/neon.h +122 -0
package/include/numkong/scalar/neonhalf.h +70 -0
package/include/numkong/scalar/rvv.h +211 -0
package/include/numkong/scalar/sapphire.h +63 -0
package/include/numkong/scalar/serial.h +332 -0
package/include/numkong/scalar/v128relaxed.h +56 -0
package/include/numkong/scalar.h +683 -0
package/include/numkong/set/README.md +179 -0
package/include/numkong/set/haswell.h +334 -0
package/include/numkong/set/icelake.h +485 -0
package/include/numkong/set/neon.h +364 -0
package/include/numkong/set/rvv.h +226 -0
package/include/numkong/set/rvvbb.h +117 -0
package/include/numkong/set/serial.h +174 -0
package/include/numkong/set/sve.h +185 -0
package/include/numkong/set/v128relaxed.h +240 -0
package/include/numkong/set.h +457 -0
package/include/numkong/set.hpp +114 -0
package/include/numkong/sets/README.md +149 -0
package/include/numkong/sets/haswell.h +63 -0
package/include/numkong/sets/icelake.h +66 -0
package/include/numkong/sets/neon.h +61 -0
package/include/numkong/sets/serial.h +43 -0
package/include/numkong/sets/smebi32.h +1099 -0
package/include/numkong/sets/v128relaxed.h +58 -0
package/include/numkong/sets.h +339 -0
package/include/numkong/sparse/README.md +156 -0
package/include/numkong/sparse/icelake.h +463 -0
package/include/numkong/sparse/neon.h +288 -0
package/include/numkong/sparse/serial.h +117 -0
package/include/numkong/sparse/sve2.h +507 -0
package/include/numkong/sparse/turin.h +322 -0
package/include/numkong/sparse.h +363 -0
package/include/numkong/sparse.hpp +113 -0
package/include/numkong/spatial/README.md +435 -0
package/include/numkong/spatial/alder.h +607 -0
package/include/numkong/spatial/genoa.h +290 -0
package/include/numkong/spatial/haswell.h +960 -0
package/include/numkong/spatial/icelake.h +586 -0
package/include/numkong/spatial/neon.h +773 -0
package/include/numkong/spatial/neonbfdot.h +165 -0
package/include/numkong/spatial/neonhalf.h +118 -0
package/include/numkong/spatial/neonsdot.h +261 -0
package/include/numkong/spatial/rvv.h +984 -0
package/include/numkong/spatial/rvvbf16.h +123 -0
package/include/numkong/spatial/rvvhalf.h +117 -0
package/include/numkong/spatial/sapphire.h +343 -0
package/include/numkong/spatial/serial.h +346 -0
package/include/numkong/spatial/sierra.h +323 -0
package/include/numkong/spatial/skylake.h +606 -0
package/include/numkong/spatial/sve.h +224 -0
package/include/numkong/spatial/svebfdot.h +122 -0
package/include/numkong/spatial/svehalf.h +109 -0
package/include/numkong/spatial/v128relaxed.h +717 -0
package/include/numkong/spatial.h +1425 -0
package/include/numkong/spatial.hpp +183 -0
package/include/numkong/spatials/README.md +580 -0
package/include/numkong/spatials/alder.h +94 -0
package/include/numkong/spatials/genoa.h +94 -0
package/include/numkong/spatials/haswell.h +219 -0
package/include/numkong/spatials/icelake.h +113 -0
package/include/numkong/spatials/neon.h +109 -0
package/include/numkong/spatials/neonbfdot.h +60 -0
package/include/numkong/spatials/neonfhm.h +92 -0
package/include/numkong/spatials/neonhalf.h +58 -0
package/include/numkong/spatials/neonsdot.h +109 -0
package/include/numkong/spatials/rvv.h +1960 -0
package/include/numkong/spatials/sapphireamx.h +1149 -0
package/include/numkong/spatials/serial.h +226 -0
package/include/numkong/spatials/sierra.h +96 -0
package/include/numkong/spatials/skylake.h +184 -0
package/include/numkong/spatials/sme.h +1901 -0
package/include/numkong/spatials/smef64.h +465 -0
package/include/numkong/spatials/v128relaxed.h +240 -0
package/include/numkong/spatials.h +3021 -0
package/include/numkong/spatials.hpp +508 -0
package/include/numkong/tensor.hpp +1592 -0
package/include/numkong/trigonometry/README.md +184 -0
package/include/numkong/trigonometry/haswell.h +652 -0
package/include/numkong/trigonometry/neon.h +639 -0
package/include/numkong/trigonometry/rvv.h +699 -0
package/include/numkong/trigonometry/serial.h +703 -0
package/include/numkong/trigonometry/skylake.h +721 -0
package/include/numkong/trigonometry/v128relaxed.h +666 -0
package/include/numkong/trigonometry.h +467 -0
package/include/numkong/trigonometry.hpp +166 -0
package/include/numkong/types.h +1384 -0
package/include/numkong/types.hpp +5603 -0
package/include/numkong/vector.hpp +698 -0
package/javascript/README.md +246 -0
package/javascript/dist/cjs/numkong-wasm.d.ts +166 -0
package/javascript/dist/cjs/numkong-wasm.js +617 -0
package/javascript/dist/cjs/numkong.d.ts +343 -0
package/javascript/dist/cjs/numkong.js +523 -0
package/javascript/dist/cjs/package.json +3 -0
package/javascript/dist/cjs/types.d.ts +284 -0
package/javascript/dist/cjs/types.js +653 -0
package/javascript/dist/esm/numkong-wasm.d.ts +166 -0
package/javascript/dist/esm/numkong-wasm.js +595 -0
package/javascript/dist/esm/numkong.d.ts +343 -0
package/javascript/dist/esm/numkong.js +452 -0
package/javascript/dist/esm/package.json +3 -0
package/javascript/dist/esm/types.d.ts +284 -0
package/javascript/dist/esm/types.js +630 -0
package/javascript/dist-package-cjs.json +3 -0
package/javascript/dist-package-esm.json +3 -0
package/javascript/node-gyp-build.d.ts +1 -0
package/javascript/numkong-wasm.ts +756 -0
package/javascript/numkong.c +689 -0
package/javascript/numkong.ts +575 -0
package/javascript/tsconfig-base.json +39 -0
package/javascript/tsconfig-cjs.json +8 -0
package/javascript/tsconfig-esm.json +8 -0
package/javascript/types.ts +674 -0
package/package.json +87 -0

package/include/numkong/curved.h ADDED Viewed

@@ -0,0 +1,517 @@
+/**
+ *  @brief SIMD-accelerated Similarity Measures for Curved Spaces.
+ *  @file include/numkong/curved.h
+ *  @author Ash Vardanian
+ *  @date August 27, 2024
+ *
+ *  Contains following similarity measures:
+ *
+ *  - Mahalanobis distance: √((a-b)ᵀ × C × (a-b))
+ *  - Bilinear form: aᵀ × C × b
+ *  - Bilinear form over complex numbers
+ *
+ *  For dtypes:
+ *
+ *  - 64-bit floating point numbers → 64-bit floats
+ *  - 32-bit floating point numbers → 64-bit floats
+ *  - 16-bit floating point numbers → 32-bit floats
+ *  - 16-bit brain-floating point numbers → 32-bit floats
+ *
+ *  For hardware architectures:
+ *
+ *  - Arm: NEON, NEON+F16, NEON+BF16, SME+F64
+ *  - x86: Haswell, Skylake, Genoa
+ *  - RISC-V: RVV
+ *
+ *  @section numerical_stability Numerical Stability
+ *
+ *  To minimize catastrophic cancellation in large-magnitude sums:
+ *  - f32 kernels widen public outputs to f64/f64c and accumulate in f64 precision where possible
+ *  - f64 kernels use Dot2 algorithm (Ogita-Rump-Oishi 2005) in SIMD paths
+ *  - Serial kernels use Neumaier compensated summation for all types
+ *
+ *  @section usage Usage and Benefits
+ *
+ *  These kernels target BLAS level 2 patterns where vectors are combined with a metric
+ *  tensor or covariance matrix. Using raw bilinear and Mahalanobis forms avoids constructing
+ *  intermediates and keeps memory traffic low, which is often faster than a full GEMM path
+ *  for small and medium sizes. Complex bilinear forms return a complex scalar as two reals,
+ *  serving complex-valued signals without extra packing or unpacking.
+ *
+ *  @section references References
+ *
+ *  - x86 intrinsics: https://www.intel.com/content/www/us/en/docs/intrinsics-guide/
+ *  - Arm intrinsics: https://developer.arm.com/architectures/instruction-sets/intrinsics/
+ *  - Neumaier, A. (1974). "Rundungsfehleranalyse einiger Verfahren zur Summation endlicher Summen"
+ *  - Ogita, T., Rump, S.M., Oishi, S. (2005). "Accurate Sum and Dot Product"
+ *
+ */
+#ifndef NK_CURVED_H
+#define NK_CURVED_H
+#include "numkong/types.h"
+#if defined(__cplusplus)
+extern "C" {
+#endif
+/**
+ *  @brief Bilinear form between vectors a and b under metric tensor C.
+ *
+ *  Computes aᵀ × C × b = Σᵢ Σⱼ aᵢ × cᵢⱼ × bⱼ
+ *
+ *  @param[in] a The first vector.
+ *  @param[in] b The second vector.
+ *  @param[in] c The metric tensor or covariance matrix, stored row-major as an n×n matrix.
+ *  @param[in] n The number of dimensions in the vectors.
+ *  @param[out] result The output bilinear form value.
+ *
+ *  @note The output value can be negative.
+ */
+NK_DYNAMIC void nk_bilinear_f64(nk_f64_t const *a, nk_f64_t const *b, nk_f64_t const *c, nk_size_t n, nk_f64_t *result);
+/** @copydoc nk_bilinear_f64 */
+NK_DYNAMIC void nk_bilinear_f32(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n, nk_f64_t *result);
+/** @copydoc nk_bilinear_f64 */
+NK_DYNAMIC void nk_bilinear_f16(nk_f16_t const *a, nk_f16_t const *b, nk_f16_t const *c, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_bilinear_f64 */
+NK_DYNAMIC void nk_bilinear_bf16(nk_bf16_t const *a, nk_bf16_t const *b, nk_bf16_t const *c, nk_size_t n,
+                                 nk_f32_t *result);
+/**
+ *  @brief Mahalanobis distance between vectors a and b under metric tensor C.
+ *
+ *  Computes √((a-b)ᵀ × C × (a-b)) = √(Σᵢ Σⱼ (aᵢ-bᵢ) × cᵢⱼ × (aⱼ-bⱼ))
+ *
+ *  @param[in] a The first vector.
+ *  @param[in] b The second vector.
+ *  @param[in] c The Positive Semi-Definite (PSD) matrix, stored row-major as an n×n matrix.
+ *  @param[in] n The number of dimensions in the vectors.
+ *  @param[out] result The output distance value.
+ *
+ *  @note The output value is non-negative when C is PSD.
+ *  @note The output value is zero if and only if the two vectors are identical.
+ *  @note The matrix C must be positive semi-definite. If C is not PSD, the quadratic form
+ *        (a-b)ᵀ C (a-b) may be negative, and the square root will produce NaN.
+ */
+NK_DYNAMIC void nk_mahalanobis_f64(nk_f64_t const *a, nk_f64_t const *b, nk_f64_t const *c, nk_size_t n,
+                                   nk_f64_t *result);
+/** @copydoc nk_mahalanobis_f64 */
+NK_DYNAMIC void nk_mahalanobis_f32(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                   nk_f64_t *result);
+/** @copydoc nk_mahalanobis_f64 */
+NK_DYNAMIC void nk_mahalanobis_f16(nk_f16_t const *a, nk_f16_t const *b, nk_f16_t const *c, nk_size_t n,
+                                   nk_f32_t *result);
+/** @copydoc nk_mahalanobis_f64 */
+NK_DYNAMIC void nk_mahalanobis_bf16(nk_bf16_t const *a, nk_bf16_t const *b, nk_bf16_t const *c, nk_size_t n,
+                                    nk_f32_t *result);
+/**
+ *  @brief Complex bilinear form between vectors a and b under metric tensor C.
+ *
+ *  @param[in] a The first complex vector.
+ *  @param[in] b The second complex vector.
+ *  @param[in] c The complex metric tensor, stored row-major as an n×n matrix.
+ *  @param[in] n The number of dimensions in the vectors.
+ *  @param[out] results The output complex value with real and imaginary parts.
+ */
+NK_DYNAMIC void nk_bilinear_f64c(nk_f64c_t const *a, nk_f64c_t const *b, nk_f64c_t const *c, nk_size_t n,
+                                 nk_f64c_t *results);
+/** @copydoc nk_bilinear_f64c */
+NK_DYNAMIC void nk_bilinear_f32c(nk_f32c_t const *a, nk_f32c_t const *b, nk_f32c_t const *c, nk_size_t n,
+                                 nk_f64c_t *results);
+/** @copydoc nk_bilinear_f64c */
+NK_DYNAMIC void nk_bilinear_f16c(nk_f16c_t const *a, nk_f16c_t const *b, nk_f16c_t const *c, nk_size_t n,
+                                 nk_f32c_t *results);
+/** @copydoc nk_bilinear_f64c */
+NK_DYNAMIC void nk_bilinear_bf16c(nk_bf16c_t const *a, nk_bf16c_t const *b, nk_bf16c_t const *c, nk_size_t n,
+                                  nk_f32c_t *results);
+/** @copydoc nk_bilinear_f64 */
+NK_PUBLIC void nk_bilinear_f64_serial(nk_f64_t const *a, nk_f64_t const *b, nk_f64_t const *c, nk_size_t n,
+                                      nk_f64_t *result);
+/** @copydoc nk_bilinear_f64c */
+NK_PUBLIC void nk_bilinear_f64c_serial(nk_f64c_t const *a, nk_f64c_t const *b, nk_f64c_t const *c, nk_size_t n,
+                                       nk_f64c_t *results);
+/** @copydoc nk_mahalanobis_f64 */
+NK_PUBLIC void nk_mahalanobis_f64_serial(nk_f64_t const *a, nk_f64_t const *b, nk_f64_t const *c, nk_size_t n,
+                                         nk_f64_t *result);
+/** @copydoc nk_bilinear_f32 */
+NK_PUBLIC void nk_bilinear_f32_serial(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                      nk_f64_t *result);
+/** @copydoc nk_bilinear_f32c */
+NK_PUBLIC void nk_bilinear_f32c_serial(nk_f32c_t const *a, nk_f32c_t const *b, nk_f32c_t const *c, nk_size_t n,
+                                       nk_f64c_t *results);
+/** @copydoc nk_mahalanobis_f32 */
+NK_PUBLIC void nk_mahalanobis_f32_serial(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                         nk_f64_t *result);
+/** @copydoc nk_bilinear_f16 */
+NK_PUBLIC void nk_bilinear_f16_serial(nk_f16_t const *a, nk_f16_t const *b, nk_f16_t const *c, nk_size_t n,
+                                      nk_f32_t *result);
+/** @copydoc nk_bilinear_f16c */
+NK_PUBLIC void nk_bilinear_f16c_serial(nk_f16c_t const *a, nk_f16c_t const *b, nk_f16c_t const *c, nk_size_t n,
+                                       nk_f32c_t *results);
+/** @copydoc nk_mahalanobis_f16 */
+NK_PUBLIC void nk_mahalanobis_f16_serial(nk_f16_t const *a, nk_f16_t const *b, nk_f16_t const *c, nk_size_t n,
+                                         nk_f32_t *result);
+/** @copydoc nk_bilinear_bf16 */
+NK_PUBLIC void nk_bilinear_bf16_serial(nk_bf16_t const *a, nk_bf16_t const *b, nk_bf16_t const *c, nk_size_t n,
+                                       nk_f32_t *result);
+/** @copydoc nk_bilinear_bf16c */
+NK_PUBLIC void nk_bilinear_bf16c_serial(nk_bf16c_t const *a, nk_bf16c_t const *b, nk_bf16c_t const *c, nk_size_t n,
+                                        nk_f32c_t *results);
+/** @copydoc nk_mahalanobis_bf16 */
+NK_PUBLIC void nk_mahalanobis_bf16_serial(nk_bf16_t const *a, nk_bf16_t const *b, nk_bf16_t const *c, nk_size_t n,
+                                          nk_f32_t *result);
+#if NK_TARGET_NEON
+/** @copydoc nk_bilinear_f32 */
+NK_PUBLIC void nk_bilinear_f32_neon(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                    nk_f64_t *result);
+/** @copydoc nk_bilinear_f32c */
+NK_PUBLIC void nk_bilinear_f32c_neon(nk_f32c_t const *a, nk_f32c_t const *b, nk_f32c_t const *c, nk_size_t n,
+                                     nk_f64c_t *results);
+/** @copydoc nk_mahalanobis_f32 */
+NK_PUBLIC void nk_mahalanobis_f32_neon(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                       nk_f64_t *result);
+#endif // NK_TARGET_NEON
+#if NK_TARGET_NEONHALF
+/** @copydoc nk_bilinear_f16 */
+NK_PUBLIC void nk_bilinear_f16_neonhalf(nk_f16_t const *a, nk_f16_t const *b, nk_f16_t const *c, nk_size_t n,
+                                        nk_f32_t *result);
+/** @copydoc nk_bilinear_f16c */
+NK_PUBLIC void nk_bilinear_f16c_neonhalf(nk_f16c_t const *a, nk_f16c_t const *b, nk_f16c_t const *c, nk_size_t n,
+                                         nk_f32c_t *results);
+/** @copydoc nk_mahalanobis_f16 */
+NK_PUBLIC void nk_mahalanobis_f16_neonhalf(nk_f16_t const *a, nk_f16_t const *b, nk_f16_t const *c, nk_size_t n,
+                                           nk_f32_t *result);
+#endif // NK_TARGET_NEONHALF
+#if NK_TARGET_NEONBFDOT
+/** @copydoc nk_bilinear_bf16 */
+NK_PUBLIC void nk_bilinear_bf16_neonbfdot(nk_bf16_t const *a, nk_bf16_t const *b, nk_bf16_t const *c, nk_size_t n,
+                                          nk_f32_t *result);
+/** @copydoc nk_bilinear_bf16c */
+NK_PUBLIC void nk_bilinear_bf16c_neonbfdot(nk_bf16c_t const *a, nk_bf16c_t const *b, nk_bf16c_t const *c, nk_size_t n,
+                                           nk_f32c_t *results);
+/** @copydoc nk_mahalanobis_bf16 */
+NK_PUBLIC void nk_mahalanobis_bf16_neonbfdot(nk_bf16_t const *a, nk_bf16_t const *b, nk_bf16_t const *c, nk_size_t n,
+                                             nk_f32_t *result);
+#endif // NK_TARGET_NEONBFDOT
+#if NK_TARGET_SMEF64
+/** @copydoc nk_bilinear_f32 */
+NK_PUBLIC void nk_bilinear_f32_smef64(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                      nk_f64_t *result);
+/** @copydoc nk_bilinear_f32c */
+NK_PUBLIC void nk_bilinear_f32c_smef64(nk_f32c_t const *a, nk_f32c_t const *b, nk_f32c_t const *c, nk_size_t n,
+                                       nk_f64c_t *result);
+/** @copydoc nk_mahalanobis_f32 */
+NK_PUBLIC void nk_mahalanobis_f32_smef64(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                         nk_f64_t *result);
+/** @copydoc nk_bilinear_f64 */
+NK_PUBLIC void nk_bilinear_f64_smef64(nk_f64_t const *a, nk_f64_t const *b, nk_f64_t const *c, nk_size_t n,
+                                      nk_f64_t *result);
+/** @copydoc nk_bilinear_f64c */
+NK_PUBLIC void nk_bilinear_f64c_smef64(nk_f64c_t const *a, nk_f64c_t const *b, nk_f64c_t const *c, nk_size_t n,
+                                       nk_f64c_t *result);
+/** @copydoc nk_mahalanobis_f64 */
+NK_PUBLIC void nk_mahalanobis_f64_smef64(nk_f64_t const *a, nk_f64_t const *b, nk_f64_t const *c, nk_size_t n,
+                                         nk_f64_t *result);
+#endif // NK_TARGET_SMEF64
+#if NK_TARGET_HASWELL
+/** @copydoc nk_bilinear_f32 */
+NK_PUBLIC void nk_bilinear_f32_haswell(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                       nk_f64_t *result);
+/** @copydoc nk_mahalanobis_f32 */
+NK_PUBLIC void nk_mahalanobis_f32_haswell(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                          nk_f64_t *result);
+/** @copydoc nk_bilinear_f16 */
+NK_PUBLIC void nk_bilinear_f16_haswell(nk_f16_t const *a, nk_f16_t const *b, nk_f16_t const *c, nk_size_t n,
+                                       nk_f32_t *result);
+/** @copydoc nk_mahalanobis_f16 */
+NK_PUBLIC void nk_mahalanobis_f16_haswell(nk_f16_t const *a, nk_f16_t const *b, nk_f16_t const *c, nk_size_t n,
+                                          nk_f32_t *result);
+/** @copydoc nk_bilinear_bf16 */
+NK_PUBLIC void nk_bilinear_bf16_haswell(nk_bf16_t const *a, nk_bf16_t const *b, nk_bf16_t const *c, nk_size_t n,
+                                        nk_f32_t *result);
+/** @copydoc nk_mahalanobis_bf16 */
+NK_PUBLIC void nk_mahalanobis_bf16_haswell(nk_bf16_t const *a, nk_bf16_t const *b, nk_bf16_t const *c, nk_size_t n,
+                                           nk_f32_t *result);
+#endif // NK_TARGET_HASWELL
+#if NK_TARGET_SKYLAKE
+/** @copydoc nk_bilinear_f64 */
+NK_PUBLIC void nk_bilinear_f64_skylake(nk_f64_t const *a, nk_f64_t const *b, nk_f64_t const *c, nk_size_t n,
+                                       nk_f64_t *result);
+/** @copydoc nk_bilinear_f64c */
+NK_PUBLIC void nk_bilinear_f64c_skylake(nk_f64c_t const *a, nk_f64c_t const *b, nk_f64c_t const *c, nk_size_t n,
+                                        nk_f64c_t *results);
+/** @copydoc nk_mahalanobis_f64 */
+NK_PUBLIC void nk_mahalanobis_f64_skylake(nk_f64_t const *a, nk_f64_t const *b, nk_f64_t const *c, nk_size_t n,
+                                          nk_f64_t *result);
+/** @copydoc nk_bilinear_f32 */
+NK_PUBLIC void nk_bilinear_f32_skylake(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                       nk_f64_t *result);
+/** @copydoc nk_bilinear_f32c */
+NK_PUBLIC void nk_bilinear_f32c_skylake(nk_f32c_t const *a, nk_f32c_t const *b, nk_f32c_t const *c, nk_size_t n,
+                                        nk_f64c_t *results);
+/** @copydoc nk_mahalanobis_f32 */
+NK_PUBLIC void nk_mahalanobis_f32_skylake(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                          nk_f64_t *result);
+#endif // NK_TARGET_SKYLAKE
+#if NK_TARGET_GENOA
+/** @copydoc nk_bilinear_bf16 */
+NK_PUBLIC void nk_bilinear_bf16_genoa(nk_bf16_t const *a, nk_bf16_t const *b, nk_bf16_t const *c, nk_size_t n,
+                                      nk_f32_t *result);
+/** @copydoc nk_bilinear_bf16c */
+NK_PUBLIC void nk_bilinear_bf16c_genoa(nk_bf16c_t const *a, nk_bf16c_t const *b, nk_bf16c_t const *c, nk_size_t n,
+                                       nk_f32c_t *results);
+/** @copydoc nk_mahalanobis_bf16 */
+NK_PUBLIC void nk_mahalanobis_bf16_genoa(nk_bf16_t const *a, nk_bf16_t const *b, nk_bf16_t const *c, nk_size_t n,
+                                         nk_f32_t *result);
+#endif // NK_TARGET_GENOA
+#if NK_TARGET_RVV
+/** @copydoc nk_bilinear_f64 */
+NK_PUBLIC void nk_bilinear_f64_rvv(nk_f64_t const *a, nk_f64_t const *b, nk_f64_t const *c, nk_size_t n,
+                                   nk_f64_t *result);
+/** @copydoc nk_mahalanobis_f64 */
+NK_PUBLIC void nk_mahalanobis_f64_rvv(nk_f64_t const *a, nk_f64_t const *b, nk_f64_t const *c, nk_size_t n,
+                                      nk_f64_t *result);
+/** @copydoc nk_bilinear_f32 */
+NK_PUBLIC void nk_bilinear_f32_rvv(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                   nk_f64_t *result);
+/** @copydoc nk_mahalanobis_f32 */
+NK_PUBLIC void nk_mahalanobis_f32_rvv(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                      nk_f64_t *result);
+/** @copydoc nk_bilinear_f16 */
+NK_PUBLIC void nk_bilinear_f16_rvv(nk_f16_t const *a, nk_f16_t const *b, nk_f16_t const *c, nk_size_t n,
+                                   nk_f32_t *result);
+/** @copydoc nk_mahalanobis_f16 */
+NK_PUBLIC void nk_mahalanobis_f16_rvv(nk_f16_t const *a, nk_f16_t const *b, nk_f16_t const *c, nk_size_t n,
+                                      nk_f32_t *result);
+/** @copydoc nk_bilinear_bf16 */
+NK_PUBLIC void nk_bilinear_bf16_rvv(nk_bf16_t const *a, nk_bf16_t const *b, nk_bf16_t const *c, nk_size_t n,
+                                    nk_f32_t *result);
+/** @copydoc nk_mahalanobis_bf16 */
+NK_PUBLIC void nk_mahalanobis_bf16_rvv(nk_bf16_t const *a, nk_bf16_t const *b, nk_bf16_t const *c, nk_size_t n,
+                                       nk_f32_t *result);
+#endif // NK_TARGET_RVV
+/**
+ *  @brief  Returns the output dtype for bilinear forms.
+ */
+NK_INTERNAL nk_dtype_t nk_bilinear_output_dtype(nk_dtype_t dtype) {
+    switch (dtype) {
+    case nk_f64_k: return nk_f64_k;
+    case nk_f32_k: return nk_f64_k;
+    case nk_f16_k: return nk_f32_k;
+    case nk_bf16_k: return nk_f32_k;
+    case nk_f64c_k: return nk_f64c_k;
+    case nk_f32c_k: return nk_f64c_k;
+    case nk_f16c_k: return nk_f32c_k;
+    case nk_bf16c_k: return nk_f32c_k;
+    default: return nk_dtype_unknown_k;
+    }
+}
+/**
+ *  @brief  Returns the output dtype for Mahalanobis metrics.
+ */
+NK_INTERNAL nk_dtype_t nk_mahalanobis_output_dtype(nk_dtype_t dtype) {
+    switch (dtype) {
+    case nk_f64_k: return nk_f64_k;
+    case nk_f32_k: return nk_f64_k;
+    case nk_f16_k: return nk_f32_k;
+    case nk_bf16_k: return nk_f32_k;
+    default: return nk_dtype_unknown_k;
+    }
+}
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#include "numkong/curved/serial.h"
+#include "numkong/curved/neon.h"
+#include "numkong/curved/neonhalf.h"
+#include "numkong/curved/neonbfdot.h"
+#include "numkong/curved/smef64.h"
+#include "numkong/curved/haswell.h"
+#include "numkong/curved/skylake.h"
+#include "numkong/curved/genoa.h"
+#include "numkong/curved/rvv.h"
+#if defined(__cplusplus)
+extern "C" {
+#endif
+#if !NK_DYNAMIC_DISPATCH
+NK_PUBLIC void nk_bilinear_f64(nk_f64_t const *a, nk_f64_t const *b, nk_f64_t const *c, nk_size_t n, nk_f64_t *result) {
+#if NK_TARGET_SKYLAKE
+    nk_bilinear_f64_skylake(a, b, c, n, result);
+#elif NK_TARGET_SMEF64
+    nk_bilinear_f64_smef64(a, b, c, n, result);
+#elif NK_TARGET_RVV
+    nk_bilinear_f64_rvv(a, b, c, n, result);
+#else
+    nk_bilinear_f64_serial(a, b, c, n, result);
+#endif
+}
+NK_PUBLIC void nk_bilinear_f32(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n, nk_f64_t *result) {
+#if NK_TARGET_SKYLAKE
+    nk_bilinear_f32_skylake(a, b, c, n, result);
+#elif NK_TARGET_SMEF64
+    nk_bilinear_f32_smef64(a, b, c, n, result);
+#elif NK_TARGET_HASWELL
+    nk_bilinear_f32_haswell(a, b, c, n, result);
+#elif NK_TARGET_NEON
+    nk_bilinear_f32_neon(a, b, c, n, result);
+#elif NK_TARGET_RVV
+    nk_bilinear_f32_rvv(a, b, c, n, result);
+#else
+    nk_bilinear_f32_serial(a, b, c, n, result);
+#endif
+}
+NK_PUBLIC void nk_bilinear_f16(nk_f16_t const *a, nk_f16_t const *b, nk_f16_t const *c, nk_size_t n, nk_f32_t *result) {
+#if NK_TARGET_HASWELL
+    nk_bilinear_f16_haswell(a, b, c, n, result);
+#elif NK_TARGET_NEONHALF
+    nk_bilinear_f16_neonhalf(a, b, c, n, result);
+#elif NK_TARGET_RVV
+    nk_bilinear_f16_rvv(a, b, c, n, result);
+#else
+    nk_bilinear_f16_serial(a, b, c, n, result);
+#endif
+}
+NK_PUBLIC void nk_bilinear_bf16(nk_bf16_t const *a, nk_bf16_t const *b, nk_bf16_t const *c, nk_size_t n,
+                                nk_f32_t *result) {
+#if NK_TARGET_GENOA
+    nk_bilinear_bf16_genoa(a, b, c, n, result);
+#elif NK_TARGET_HASWELL
+    nk_bilinear_bf16_haswell(a, b, c, n, result);
+#elif NK_TARGET_NEONBFDOT
+    nk_bilinear_bf16_neonbfdot(a, b, c, n, result);
+#elif NK_TARGET_RVV
+    nk_bilinear_bf16_rvv(a, b, c, n, result);
+#else
+    nk_bilinear_bf16_serial(a, b, c, n, result);
+#endif
+}
+NK_PUBLIC void nk_bilinear_f64c(nk_f64c_t const *a, nk_f64c_t const *b, nk_f64c_t const *c, nk_size_t n,
+                                nk_f64c_t *results) {
+#if NK_TARGET_SKYLAKE
+    nk_bilinear_f64c_skylake(a, b, c, n, results);
+#elif NK_TARGET_SMEF64
+    nk_bilinear_f64c_smef64(a, b, c, n, results);
+#else
+    nk_bilinear_f64c_serial(a, b, c, n, results);
+#endif
+}
+NK_PUBLIC void nk_bilinear_f32c(nk_f32c_t const *a, nk_f32c_t const *b, nk_f32c_t const *c, nk_size_t n,
+                                nk_f64c_t *results) {
+#if NK_TARGET_SKYLAKE
+    nk_bilinear_f32c_skylake(a, b, c, n, results);
+#elif NK_TARGET_SMEF64
+    nk_bilinear_f32c_smef64(a, b, c, n, results);
+#elif NK_TARGET_NEON
+    nk_bilinear_f32c_neon(a, b, c, n, results);
+#else
+    nk_bilinear_f32c_serial(a, b, c, n, results);
+#endif
+}
+NK_PUBLIC void nk_bilinear_f16c(nk_f16c_t const *a, nk_f16c_t const *b, nk_f16c_t const *c, nk_size_t n,
+                                nk_f32c_t *results) {
+#if NK_TARGET_NEONHALF
+    nk_bilinear_f16c_neonhalf(a, b, c, n, results);
+#else
+    nk_bilinear_f16c_serial(a, b, c, n, results);
+#endif
+}
+NK_PUBLIC void nk_bilinear_bf16c(nk_bf16c_t const *a, nk_bf16c_t const *b, nk_bf16c_t const *c, nk_size_t n,
+                                 nk_f32c_t *results) {
+#if NK_TARGET_GENOA
+    nk_bilinear_bf16c_genoa(a, b, c, n, results);
+#elif NK_TARGET_NEONBFDOT
+    nk_bilinear_bf16c_neonbfdot(a, b, c, n, results);
+#else
+    nk_bilinear_bf16c_serial(a, b, c, n, results);
+#endif
+}
+NK_PUBLIC void nk_mahalanobis_f64(nk_f64_t const *a, nk_f64_t const *b, nk_f64_t const *c, nk_size_t n,
+                                  nk_f64_t *result) {
+#if NK_TARGET_SKYLAKE
+    nk_mahalanobis_f64_skylake(a, b, c, n, result);
+#elif NK_TARGET_SMEF64
+    nk_mahalanobis_f64_smef64(a, b, c, n, result);
+#elif NK_TARGET_RVV
+    nk_mahalanobis_f64_rvv(a, b, c, n, result);
+#else
+    nk_mahalanobis_f64_serial(a, b, c, n, result);
+#endif
+}
+NK_PUBLIC void nk_mahalanobis_f32(nk_f32_t const *a, nk_f32_t const *b, nk_f32_t const *c, nk_size_t n,
+                                  nk_f64_t *result) {
+#if NK_TARGET_SKYLAKE
+    nk_mahalanobis_f32_skylake(a, b, c, n, result);
+#elif NK_TARGET_SMEF64
+    nk_mahalanobis_f32_smef64(a, b, c, n, result);
+#elif NK_TARGET_HASWELL
+    nk_mahalanobis_f32_haswell(a, b, c, n, result);
+#elif NK_TARGET_NEON
+    nk_mahalanobis_f32_neon(a, b, c, n, result);
+#elif NK_TARGET_RVV
+    nk_mahalanobis_f32_rvv(a, b, c, n, result);
+#else
+    nk_mahalanobis_f32_serial(a, b, c, n, result);
+#endif
+}
+NK_PUBLIC void nk_mahalanobis_f16(nk_f16_t const *a, nk_f16_t const *b, nk_f16_t const *c, nk_size_t n,
+                                  nk_f32_t *result) {
+#if NK_TARGET_HASWELL
+    nk_mahalanobis_f16_haswell(a, b, c, n, result);
+#elif NK_TARGET_NEONHALF
+    nk_mahalanobis_f16_neonhalf(a, b, c, n, result);
+#elif NK_TARGET_RVV
+    nk_mahalanobis_f16_rvv(a, b, c, n, result);
+#else
+    nk_mahalanobis_f16_serial(a, b, c, n, result);
+#endif
+}
+NK_PUBLIC void nk_mahalanobis_bf16(nk_bf16_t const *a, nk_bf16_t const *b, nk_bf16_t const *c, nk_size_t n,
+                                   nk_f32_t *result) {
+#if NK_TARGET_GENOA
+    nk_mahalanobis_bf16_genoa(a, b, c, n, result);
+#elif NK_TARGET_HASWELL
+    nk_mahalanobis_bf16_haswell(a, b, c, n, result);
+#elif NK_TARGET_NEONBFDOT
+    nk_mahalanobis_bf16_neonbfdot(a, b, c, n, result);
+#elif NK_TARGET_RVV
+    nk_mahalanobis_bf16_rvv(a, b, c, n, result);
+#else
+    nk_mahalanobis_bf16_serial(a, b, c, n, result);
+#endif
+}
+#endif // !NK_DYNAMIC_DISPATCH
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#endif // NK_CURVED_H

package/include/numkong/curved.hpp ADDED Viewed

@@ -0,0 +1,144 @@
+/**
+ *  @brief Curved-space kernels: bilinear, mahalanobis.
+ *  @file include/numkong/curved.hpp
+ *  @author Ash Vardanian
+ *  @date February 5, 2026
+ */
+#ifndef NK_CURVED_HPP
+#define NK_CURVED_HPP
+#include <cstdint>     // `std::uint32_t`
+#include <type_traits> // `std::is_same_v`
+#include "numkong/curved.h"
+#include "numkong/types.hpp"
+namespace ashvardanian::numkong {
+/**
+ *  @brief Bilinear form: aᵀ × C × b where C is a d×d matrix (row-major)
+ *  @param[in] a,b Input vectors of length d
+ *  @param[in] c Matrix of size dxd (row-major)
+ *  @param[in] d Number of dimensions
+ *  @param[out] r Pointer to output value
+ *
+ *  @tparam in_type_ Input vector element type (real or complex)
+ *  @tparam result_type_ Accumulator type, defaults to `in_type_::curved_result_t`
+ *  @tparam allow_simd_ Enable SIMD kernel dispatch when `prefer_simd_k`
+ *
+ *  @note For weighted inner products, Mahalanobis distance, etc.
+ */
+template <numeric_dtype in_type_, numeric_dtype result_type_ = typename in_type_::curved_result_t,
+          allow_simd_t allow_simd_ = prefer_simd_k>
+void bilinear(in_type_ const *a, in_type_ const *b, in_type_ const *c, std::size_t d, result_type_ *r) noexcept {
+    constexpr bool simd = allow_simd_ == prefer_simd_k &&
+                          std::is_same_v<result_type_, typename in_type_::curved_result_t>;
+    // Real types
+    if constexpr (std::is_same_v<in_type_, f64_t> && simd) nk_bilinear_f64(&a->raw_, &b->raw_, &c->raw_, d, &r->raw_);
+    else if constexpr (std::is_same_v<in_type_, f32_t> && simd)
+        nk_bilinear_f32(&a->raw_, &b->raw_, &c->raw_, d, &r->raw_);
+    else if constexpr (std::is_same_v<in_type_, f16_t> && simd)
+        nk_bilinear_f16(&a->raw_, &b->raw_, &c->raw_, d, &r->raw_);
+    else if constexpr (std::is_same_v<in_type_, bf16_t> && simd)
+        nk_bilinear_bf16(&a->raw_, &b->raw_, &c->raw_, d, &r->raw_);
+    // Complex types
+    else if constexpr (std::is_same_v<in_type_, f64c_t> && simd)
+        nk_bilinear_f64c(&a->raw_, &b->raw_, &c->raw_, d, &r->raw_);
+    else if constexpr (std::is_same_v<in_type_, f32c_t> && simd)
+        nk_bilinear_f32c(&a->raw_, &b->raw_, &c->raw_, d, &r->raw_);
+    else if constexpr (std::is_same_v<in_type_, f16c_t> && simd)
+        nk_bilinear_f16c(&a->raw_, &b->raw_, &c->raw_, d, &r->raw_);
+    else if constexpr (std::is_same_v<in_type_, bf16c_t> && simd)
+        nk_bilinear_bf16c(&a->raw_, &b->raw_, &c->raw_, d, &r->raw_);
+    // Scalar fallback
+    else {
+        result_type_ sum {};
+        for (std::size_t i = 0; i < d; i++) {
+            for (std::size_t j = 0; j < d; j++) {
+                sum = sum + result_type_(a[i]) * result_type_(c[i * d + j]) * result_type_(b[j]);
+            }
+        }
+        *r = sum;
+    }
+}
+/**
+ *  @brief Mahalanobis distance: √((a−b)ᵀ × C × (a−b)) where C is a d×d matrix (row-major)
+ *  @param[in] a,b Input vectors of length d
+ *  @param[in] c Covariance matrix of size dxd (row-major)
+ *  @param[in] d Number of dimensions
+ *  @param[out] r Pointer to output distance value
+ *
+ *  @tparam in_type_ Input vector element type
+ *  @tparam result_type_ Accumulator type, defaults to `in_type_::curved_result_t`
+ *  @tparam allow_simd_ Enable SIMD kernel dispatch when `prefer_simd_k`
+ */
+template <numeric_dtype in_type_, numeric_dtype result_type_ = typename in_type_::curved_result_t,
+          allow_simd_t allow_simd_ = prefer_simd_k>
+void mahalanobis(in_type_ const *a, in_type_ const *b, in_type_ const *c, std::size_t d, result_type_ *r) noexcept {
+    constexpr bool simd = allow_simd_ == prefer_simd_k &&
+                          std::is_same_v<result_type_, typename in_type_::curved_result_t>;
+    if constexpr (std::is_same_v<in_type_, f64_t> && simd)
+        nk_mahalanobis_f64(&a->raw_, &b->raw_, &c->raw_, d, &r->raw_);
+    else if constexpr (std::is_same_v<in_type_, f32_t> && simd)
+        nk_mahalanobis_f32(&a->raw_, &b->raw_, &c->raw_, d, &r->raw_);
+    else if constexpr (std::is_same_v<in_type_, f16_t> && simd)
+        nk_mahalanobis_f16(&a->raw_, &b->raw_, &c->raw_, d, &r->raw_);
+    else if constexpr (std::is_same_v<in_type_, bf16_t> && simd)
+        nk_mahalanobis_bf16(&a->raw_, &b->raw_, &c->raw_, d, &r->raw_);
+    // Scalar fallback
+    else {
+        result_type_ sum {};
+        for (std::size_t i = 0; i < d; i++) {
+            result_type_ di = result_type_(a[i]) - result_type_(b[i]);
+            for (std::size_t j = 0; j < d; j++) {
+                result_type_ dj = result_type_(a[j]) - result_type_(b[j]);
+                sum = sum + di * result_type_(c[i * d + j]) * dj;
+            }
+        }
+        *r = sum.sqrt();
+    }
+}
+} // namespace ashvardanian::numkong
+#include "numkong/tensor.hpp"
+namespace ashvardanian::numkong {
+template <numeric_dtype in_type_, numeric_dtype result_type_ = typename in_type_::curved_result_t,
+          allow_simd_t allow_simd_ = prefer_simd_k, std::size_t max_rank_a_, std::size_t max_rank_b_,
+          std::size_t max_rank_c_>
+void bilinear(tensor_view<in_type_, max_rank_a_> a, tensor_view<in_type_, max_rank_b_> b,
+              tensor_view<in_type_, max_rank_c_> c, std::size_t d, result_type_ *r) noexcept {
+    bilinear<in_type_, result_type_, allow_simd_>(a.data(), b.data(), c.data(), d, r);
+}
+template <numeric_dtype in_type_, numeric_dtype result_type_ = typename in_type_::curved_result_t,
+          allow_simd_t allow_simd_ = prefer_simd_k>
+void bilinear(vector_view<in_type_> a, vector_view<in_type_> b, vector_view<in_type_> c, std::size_t d,
+              result_type_ *r) noexcept {
+    bilinear<in_type_, result_type_, allow_simd_>(a.data(), b.data(), c.data(), d, r);
+}
+template <numeric_dtype in_type_, numeric_dtype result_type_ = typename in_type_::curved_result_t,
+          allow_simd_t allow_simd_ = prefer_simd_k, std::size_t max_rank_a_, std::size_t max_rank_b_,
+          std::size_t max_rank_c_>
+void mahalanobis(tensor_view<in_type_, max_rank_a_> a, tensor_view<in_type_, max_rank_b_> b,
+                 tensor_view<in_type_, max_rank_c_> c, std::size_t d, result_type_ *r) noexcept {
+    mahalanobis<in_type_, result_type_, allow_simd_>(a.data(), b.data(), c.data(), d, r);
+}
+template <numeric_dtype in_type_, numeric_dtype result_type_ = typename in_type_::curved_result_t,
+          allow_simd_t allow_simd_ = prefer_simd_k>
+void mahalanobis(vector_view<in_type_> a, vector_view<in_type_> b, vector_view<in_type_> c, std::size_t d,
+                 result_type_ *r) noexcept {
+    mahalanobis<in_type_, result_type_, allow_simd_>(a.data(), b.data(), c.data(), d, r);
+}
+} // namespace ashvardanian::numkong
+#endif // NK_CURVED_HPP