npm - numkong - Versions diffs - 7.0.0 - Mend

numkong 7.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (294) hide show

package/LICENSE +201 -0
package/README.md +495 -0
package/binding.gyp +540 -0
package/c/dispatch.h +512 -0
package/c/dispatch_bf16.c +389 -0
package/c/dispatch_bf16c.c +52 -0
package/c/dispatch_e2m3.c +263 -0
package/c/dispatch_e3m2.c +243 -0
package/c/dispatch_e4m3.c +276 -0
package/c/dispatch_e5m2.c +272 -0
package/c/dispatch_f16.c +376 -0
package/c/dispatch_f16c.c +58 -0
package/c/dispatch_f32.c +378 -0
package/c/dispatch_f32c.c +99 -0
package/c/dispatch_f64.c +296 -0
package/c/dispatch_f64c.c +98 -0
package/c/dispatch_i16.c +96 -0
package/c/dispatch_i32.c +89 -0
package/c/dispatch_i4.c +150 -0
package/c/dispatch_i64.c +86 -0
package/c/dispatch_i8.c +289 -0
package/c/dispatch_other.c +330 -0
package/c/dispatch_u1.c +148 -0
package/c/dispatch_u16.c +124 -0
package/c/dispatch_u32.c +118 -0
package/c/dispatch_u4.c +150 -0
package/c/dispatch_u64.c +102 -0
package/c/dispatch_u8.c +303 -0
package/c/numkong.c +950 -0
package/include/README.md +573 -0
package/include/module.modulemap +129 -0
package/include/numkong/attention/sapphireamx.h +1361 -0
package/include/numkong/attention/sme.h +2066 -0
package/include/numkong/attention.h +49 -0
package/include/numkong/capabilities.h +748 -0
package/include/numkong/cast/README.md +262 -0
package/include/numkong/cast/haswell.h +975 -0
package/include/numkong/cast/icelake.h +470 -0
package/include/numkong/cast/neon.h +1192 -0
package/include/numkong/cast/rvv.h +1021 -0
package/include/numkong/cast/sapphire.h +262 -0
package/include/numkong/cast/serial.h +2262 -0
package/include/numkong/cast/skylake.h +856 -0
package/include/numkong/cast/v128relaxed.h +180 -0
package/include/numkong/cast.h +230 -0
package/include/numkong/curved/README.md +223 -0
package/include/numkong/curved/genoa.h +182 -0
package/include/numkong/curved/haswell.h +276 -0
package/include/numkong/curved/neon.h +205 -0
package/include/numkong/curved/neonbfdot.h +212 -0
package/include/numkong/curved/neonhalf.h +212 -0
package/include/numkong/curved/rvv.h +305 -0
package/include/numkong/curved/serial.h +207 -0
package/include/numkong/curved/skylake.h +457 -0
package/include/numkong/curved/smef64.h +506 -0
package/include/numkong/curved.h +517 -0
package/include/numkong/curved.hpp +144 -0
package/include/numkong/dot/README.md +425 -0
package/include/numkong/dot/alder.h +563 -0
package/include/numkong/dot/genoa.h +315 -0
package/include/numkong/dot/haswell.h +1688 -0
package/include/numkong/dot/icelake.h +883 -0
package/include/numkong/dot/neon.h +818 -0
package/include/numkong/dot/neonbfdot.h +244 -0
package/include/numkong/dot/neonfhm.h +360 -0
package/include/numkong/dot/neonhalf.h +198 -0
package/include/numkong/dot/neonsdot.h +508 -0
package/include/numkong/dot/rvv.h +714 -0
package/include/numkong/dot/rvvbb.h +72 -0
package/include/numkong/dot/rvvbf16.h +123 -0
package/include/numkong/dot/rvvhalf.h +129 -0
package/include/numkong/dot/sapphire.h +141 -0
package/include/numkong/dot/serial.h +838 -0
package/include/numkong/dot/sierra.h +405 -0
package/include/numkong/dot/skylake.h +1084 -0
package/include/numkong/dot/sve.h +379 -0
package/include/numkong/dot/svebfdot.h +74 -0
package/include/numkong/dot/svehalf.h +123 -0
package/include/numkong/dot/v128relaxed.h +1258 -0
package/include/numkong/dot.h +1070 -0
package/include/numkong/dot.hpp +94 -0
package/include/numkong/dots/README.md +496 -0
package/include/numkong/dots/alder.h +114 -0
package/include/numkong/dots/genoa.h +94 -0
package/include/numkong/dots/haswell.h +295 -0
package/include/numkong/dots/icelake.h +171 -0
package/include/numkong/dots/neon.h +120 -0
package/include/numkong/dots/neonbfdot.h +58 -0
package/include/numkong/dots/neonfhm.h +94 -0
package/include/numkong/dots/neonhalf.h +57 -0
package/include/numkong/dots/neonsdot.h +108 -0
package/include/numkong/dots/rvv.h +2486 -0
package/include/numkong/dots/sapphireamx.h +3973 -0
package/include/numkong/dots/serial.h +2844 -0
package/include/numkong/dots/sierra.h +97 -0
package/include/numkong/dots/skylake.h +196 -0
package/include/numkong/dots/sme.h +5372 -0
package/include/numkong/dots/smebi32.h +461 -0
package/include/numkong/dots/smef64.h +1318 -0
package/include/numkong/dots/smehalf.h +47 -0
package/include/numkong/dots/v128relaxed.h +294 -0
package/include/numkong/dots.h +2804 -0
package/include/numkong/dots.hpp +639 -0
package/include/numkong/each/README.md +469 -0
package/include/numkong/each/haswell.h +1658 -0
package/include/numkong/each/icelake.h +272 -0
package/include/numkong/each/neon.h +1104 -0
package/include/numkong/each/neonbfdot.h +212 -0
package/include/numkong/each/neonhalf.h +410 -0
package/include/numkong/each/rvv.h +1121 -0
package/include/numkong/each/sapphire.h +477 -0
package/include/numkong/each/serial.h +260 -0
package/include/numkong/each/skylake.h +1562 -0
package/include/numkong/each.h +2146 -0
package/include/numkong/each.hpp +434 -0
package/include/numkong/geospatial/README.md +147 -0
package/include/numkong/geospatial/haswell.h +593 -0
package/include/numkong/geospatial/neon.h +571 -0
package/include/numkong/geospatial/rvv.h +701 -0
package/include/numkong/geospatial/serial.h +309 -0
package/include/numkong/geospatial/skylake.h +577 -0
package/include/numkong/geospatial/v128relaxed.h +613 -0
package/include/numkong/geospatial.h +453 -0
package/include/numkong/geospatial.hpp +235 -0
package/include/numkong/matrix.hpp +336 -0
package/include/numkong/maxsim/README.md +187 -0
package/include/numkong/maxsim/alder.h +511 -0
package/include/numkong/maxsim/genoa.h +115 -0
package/include/numkong/maxsim/haswell.h +553 -0
package/include/numkong/maxsim/icelake.h +480 -0
package/include/numkong/maxsim/neonsdot.h +394 -0
package/include/numkong/maxsim/sapphireamx.h +877 -0
package/include/numkong/maxsim/serial.h +490 -0
package/include/numkong/maxsim/sme.h +929 -0
package/include/numkong/maxsim/v128relaxed.h +280 -0
package/include/numkong/maxsim.h +571 -0
package/include/numkong/maxsim.hpp +133 -0
package/include/numkong/mesh/README.md +227 -0
package/include/numkong/mesh/haswell.h +2235 -0
package/include/numkong/mesh/neon.h +1329 -0
package/include/numkong/mesh/neonbfdot.h +842 -0
package/include/numkong/mesh/neonhalf.h +616 -0
package/include/numkong/mesh/rvv.h +916 -0
package/include/numkong/mesh/serial.h +742 -0
package/include/numkong/mesh/skylake.h +1135 -0
package/include/numkong/mesh/v128relaxed.h +1052 -0
package/include/numkong/mesh.h +652 -0
package/include/numkong/mesh.hpp +762 -0
package/include/numkong/numkong.h +78 -0
package/include/numkong/numkong.hpp +57 -0
package/include/numkong/probability/README.md +173 -0
package/include/numkong/probability/haswell.h +267 -0
package/include/numkong/probability/neon.h +225 -0
package/include/numkong/probability/rvv.h +409 -0
package/include/numkong/probability/serial.h +169 -0
package/include/numkong/probability/skylake.h +324 -0
package/include/numkong/probability.h +383 -0
package/include/numkong/probability.hpp +120 -0
package/include/numkong/random.h +50 -0
package/include/numkong/random.hpp +285 -0
package/include/numkong/reduce/README.md +547 -0
package/include/numkong/reduce/alder.h +632 -0
package/include/numkong/reduce/genoa.h +201 -0
package/include/numkong/reduce/haswell.h +3783 -0
package/include/numkong/reduce/icelake.h +549 -0
package/include/numkong/reduce/neon.h +3841 -0
package/include/numkong/reduce/neonbfdot.h +353 -0
package/include/numkong/reduce/neonfhm.h +665 -0
package/include/numkong/reduce/neonhalf.h +157 -0
package/include/numkong/reduce/neonsdot.h +357 -0
package/include/numkong/reduce/rvv.h +3407 -0
package/include/numkong/reduce/serial.h +757 -0
package/include/numkong/reduce/sierra.h +338 -0
package/include/numkong/reduce/skylake.h +3792 -0
package/include/numkong/reduce/v128relaxed.h +2302 -0
package/include/numkong/reduce.h +1597 -0
package/include/numkong/reduce.hpp +633 -0
package/include/numkong/scalar/README.md +89 -0
package/include/numkong/scalar/haswell.h +113 -0
package/include/numkong/scalar/neon.h +122 -0
package/include/numkong/scalar/neonhalf.h +70 -0
package/include/numkong/scalar/rvv.h +211 -0
package/include/numkong/scalar/sapphire.h +63 -0
package/include/numkong/scalar/serial.h +332 -0
package/include/numkong/scalar/v128relaxed.h +56 -0
package/include/numkong/scalar.h +683 -0
package/include/numkong/set/README.md +179 -0
package/include/numkong/set/haswell.h +334 -0
package/include/numkong/set/icelake.h +485 -0
package/include/numkong/set/neon.h +364 -0
package/include/numkong/set/rvv.h +226 -0
package/include/numkong/set/rvvbb.h +117 -0
package/include/numkong/set/serial.h +174 -0
package/include/numkong/set/sve.h +185 -0
package/include/numkong/set/v128relaxed.h +240 -0
package/include/numkong/set.h +457 -0
package/include/numkong/set.hpp +114 -0
package/include/numkong/sets/README.md +149 -0
package/include/numkong/sets/haswell.h +63 -0
package/include/numkong/sets/icelake.h +66 -0
package/include/numkong/sets/neon.h +61 -0
package/include/numkong/sets/serial.h +43 -0
package/include/numkong/sets/smebi32.h +1099 -0
package/include/numkong/sets/v128relaxed.h +58 -0
package/include/numkong/sets.h +339 -0
package/include/numkong/sparse/README.md +156 -0
package/include/numkong/sparse/icelake.h +463 -0
package/include/numkong/sparse/neon.h +288 -0
package/include/numkong/sparse/serial.h +117 -0
package/include/numkong/sparse/sve2.h +507 -0
package/include/numkong/sparse/turin.h +322 -0
package/include/numkong/sparse.h +363 -0
package/include/numkong/sparse.hpp +113 -0
package/include/numkong/spatial/README.md +435 -0
package/include/numkong/spatial/alder.h +607 -0
package/include/numkong/spatial/genoa.h +290 -0
package/include/numkong/spatial/haswell.h +960 -0
package/include/numkong/spatial/icelake.h +586 -0
package/include/numkong/spatial/neon.h +773 -0
package/include/numkong/spatial/neonbfdot.h +165 -0
package/include/numkong/spatial/neonhalf.h +118 -0
package/include/numkong/spatial/neonsdot.h +261 -0
package/include/numkong/spatial/rvv.h +984 -0
package/include/numkong/spatial/rvvbf16.h +123 -0
package/include/numkong/spatial/rvvhalf.h +117 -0
package/include/numkong/spatial/sapphire.h +343 -0
package/include/numkong/spatial/serial.h +346 -0
package/include/numkong/spatial/sierra.h +323 -0
package/include/numkong/spatial/skylake.h +606 -0
package/include/numkong/spatial/sve.h +224 -0
package/include/numkong/spatial/svebfdot.h +122 -0
package/include/numkong/spatial/svehalf.h +109 -0
package/include/numkong/spatial/v128relaxed.h +717 -0
package/include/numkong/spatial.h +1425 -0
package/include/numkong/spatial.hpp +183 -0
package/include/numkong/spatials/README.md +580 -0
package/include/numkong/spatials/alder.h +94 -0
package/include/numkong/spatials/genoa.h +94 -0
package/include/numkong/spatials/haswell.h +219 -0
package/include/numkong/spatials/icelake.h +113 -0
package/include/numkong/spatials/neon.h +109 -0
package/include/numkong/spatials/neonbfdot.h +60 -0
package/include/numkong/spatials/neonfhm.h +92 -0
package/include/numkong/spatials/neonhalf.h +58 -0
package/include/numkong/spatials/neonsdot.h +109 -0
package/include/numkong/spatials/rvv.h +1960 -0
package/include/numkong/spatials/sapphireamx.h +1149 -0
package/include/numkong/spatials/serial.h +226 -0
package/include/numkong/spatials/sierra.h +96 -0
package/include/numkong/spatials/skylake.h +184 -0
package/include/numkong/spatials/sme.h +1901 -0
package/include/numkong/spatials/smef64.h +465 -0
package/include/numkong/spatials/v128relaxed.h +240 -0
package/include/numkong/spatials.h +3021 -0
package/include/numkong/spatials.hpp +508 -0
package/include/numkong/tensor.hpp +1592 -0
package/include/numkong/trigonometry/README.md +184 -0
package/include/numkong/trigonometry/haswell.h +652 -0
package/include/numkong/trigonometry/neon.h +639 -0
package/include/numkong/trigonometry/rvv.h +699 -0
package/include/numkong/trigonometry/serial.h +703 -0
package/include/numkong/trigonometry/skylake.h +721 -0
package/include/numkong/trigonometry/v128relaxed.h +666 -0
package/include/numkong/trigonometry.h +467 -0
package/include/numkong/trigonometry.hpp +166 -0
package/include/numkong/types.h +1384 -0
package/include/numkong/types.hpp +5603 -0
package/include/numkong/vector.hpp +698 -0
package/javascript/README.md +246 -0
package/javascript/dist/cjs/numkong-wasm.d.ts +166 -0
package/javascript/dist/cjs/numkong-wasm.js +617 -0
package/javascript/dist/cjs/numkong.d.ts +343 -0
package/javascript/dist/cjs/numkong.js +523 -0
package/javascript/dist/cjs/package.json +3 -0
package/javascript/dist/cjs/types.d.ts +284 -0
package/javascript/dist/cjs/types.js +653 -0
package/javascript/dist/esm/numkong-wasm.d.ts +166 -0
package/javascript/dist/esm/numkong-wasm.js +595 -0
package/javascript/dist/esm/numkong.d.ts +343 -0
package/javascript/dist/esm/numkong.js +452 -0
package/javascript/dist/esm/package.json +3 -0
package/javascript/dist/esm/types.d.ts +284 -0
package/javascript/dist/esm/types.js +630 -0
package/javascript/dist-package-cjs.json +3 -0
package/javascript/dist-package-esm.json +3 -0
package/javascript/node-gyp-build.d.ts +1 -0
package/javascript/numkong-wasm.ts +756 -0
package/javascript/numkong.c +689 -0
package/javascript/numkong.ts +575 -0
package/javascript/tsconfig-base.json +39 -0
package/javascript/tsconfig-cjs.json +8 -0
package/javascript/tsconfig-esm.json +8 -0
package/javascript/types.ts +674 -0
package/package.json +87 -0

package/include/numkong/probability.h ADDED Viewed

@@ -0,0 +1,383 @@
+/**
+ *  @brief SIMD-accelerated Similarity Measures for Probability Distributions.
+ *  @file include/numkong/probability.h
+ *  @author Ash Vardanian
+ *  @date October 20, 2023
+ *
+ *  Contains following similarity measures:
+ *
+ *  - Kullback-Leibler Divergence (KLD)
+ *  - Jensen-Shannon Distance (JSD)
+ *
+ *  For dtypes:
+ *
+ *  - 64-bit floating point numbers → 64-bit
+ *  - 32-bit floating point numbers → 64-bit
+ *  - 16-bit floating point numbers → 32-bit
+ *  - 16-bit brain-floating point numbers → 32-bit
+ *
+ *  Precision policy:
+ *
+ *  - For `f32` inputs, the per-element vertical path stays in `f32` to preserve the fast ratio/log
+ *    approximations and SIMD throughput.
+ *  - The horizontal reduction over those per-element contributions widens to `f64`, and public
+ *    `f32` results are exposed as `f64`.
+ *  - For `f64` inputs, both the vertical path and the horizontal reduction stay in `f64`, with
+ *    stable summation in the serial kernels.
+ *  - For `f16` and `bf16` inputs, the kernels still widen to `f32`.
+ *
+ *  For hardware architectures:
+ *
+ *  - Arm: NEON
+ *  - x86: Haswell, Skylake, Sapphire
+ *
+ *  @section x86_instructions Relevant x86 Instructions
+ *
+ *  KL/JS divergence requires log2(x) which decomposes into exponent extraction (VGETEXP) plus
+ *  mantissa polynomial (using VGETMANT + FMA chain). This approach is faster than scalar log()
+ *  calls. Division (for p/q ratio) uses either VDIVPS directly or VRCP14PS with Newton-Raphson
+ *  refinement when ~14-bit precision suffices. Genoa's VGETEXP/VGETMANT are 25% faster than Ice.
+ *
+ *      Intrinsic               Instruction                     Ice         Genoa
+ *      _mm512_getexp_ps        VGETEXPPS (ZMM, ZMM)            4c @ p0     3c @ p23
+ *      _mm512_getexp_pd        VGETEXPPD (ZMM, ZMM)            4c @ p0     3c @ p23
+ *      _mm512_getmant_ps       VGETMANTPS (ZMM, ZMM, I8)       4c @ p0     3c @ p23
+ *      _mm512_getmant_pd       VGETMANTPD (ZMM, ZMM, I8)       4c @ p0     3c @ p23
+ *      _mm512_rcp14_ps         VRCP14PS (ZMM, ZMM)             7c @ p05    5c @ p01
+ *      _mm512_div_ps           VDIVPS (ZMM, ZMM, ZMM)          17c @ p05   11c @ p01
+ *      _mm512_fmadd_ps         VFMADD231PS (ZMM, ZMM, ZMM)     4c @ p0     4c @ p01
+ *
+ *  @section arm_instructions Relevant ARM NEON/SVE Instructions
+ *
+ *  ARM lacks direct exponent/mantissa extraction, so log2 uses integer reinterpretation of the
+ *  float bits followed by polynomial refinement. FRECPE provides ~8-bit reciprocal approximation
+ *  for division, refined with FRECPS Newton-Raphson steps to ~22-bit precision.
+ *
+ *      Intrinsic               Instruction     M1 Firestorm    Graviton 3      Graviton 4
+ *      vfmaq_f32               FMLA.S (vec)    4c @ V0123      4c @ V0123      4c @ V0123
+ *      vrecpeq_f32             FRECPE.S        3c @ V02        3c @ V02        3c @ V02
+ *      vrecpsq_f32             FRECPS.S        4c @ V0123      4c @ V0123      4c @ V0123
+ *
+ *  @section references References
+ *
+ *  - x86 intrinsics: https://www.intel.com/content/www/us/en/docs/intrinsics-guide/
+ *  - Arm intrinsics: https://developer.arm.com/architectures/instruction-sets/intrinsics/
+ *
+ */
+#ifndef NK_PROBABILITY_H
+#define NK_PROBABILITY_H
+#include "numkong/types.h"
+#include "numkong/reduce.h" // For horizontal reduction helpers
+#if defined(__cplusplus)
+extern "C" {
+#endif
+/**
+ *  @brief Kullback-Leibler divergence between two discrete probability distributions.
+ *
+ *  @param[in] a The first discrete probability distribution.
+ *  @param[in] b The second discrete probability distribution.
+ *  @param[in] n The number of elements in the distributions.
+ *  @param[out] result The output divergence value.
+ *
+ *  @note The distributions are assumed to be normalized.
+ *  @note The output divergence value is non-negative.
+ *  @note The output divergence value is zero if and only if the two distributions are identical.
+ */
+NK_DYNAMIC void nk_kld_f16(nk_f16_t const *a, nk_f16_t const *b, nk_size_t n, nk_f32_t *result);
+/**
+ *  @brief Kullback-Leibler divergence between two discrete probability distributions.
+ *
+ *  @param[in] a The first discrete probability distribution.
+ *  @param[in] b The second discrete probability distribution.
+ *  @param[in] n The number of elements in the distributions.
+ *  @param[out] result The output divergence value.
+ *
+ *  @note The distributions are assumed to be normalized.
+ *  @note The output divergence value is non-negative.
+ *  @note The output divergence value is zero if and only if the two distributions are identical.
+ */
+NK_DYNAMIC void nk_kld_bf16(nk_bf16_t const *a, nk_bf16_t const *b, nk_size_t n, nk_f32_t *result);
+/**
+ *  @brief Kullback-Leibler divergence between two discrete probability distributions.
+ *
+ *  @param[in] a The first discrete probability distribution.
+ *  @param[in] b The second discrete probability distribution.
+ *  @param[in] n The number of elements in the distributions.
+ *  @param[out] result The output divergence value.
+ *
+ *  @note The distributions are assumed to be normalized.
+ *  @note The output divergence value is non-negative.
+ *  @note The output divergence value is zero if and only if the two distributions are identical.
+ */
+NK_DYNAMIC void nk_kld_f32(nk_f32_t const *a, nk_f32_t const *b, nk_size_t n, nk_f64_t *result);
+/**
+ *  @brief Kullback-Leibler divergence between two discrete probability distributions.
+ *
+ *  @param[in] a The first discrete probability distribution.
+ *  @param[in] b The second discrete probability distribution.
+ *  @param[in] n The number of elements in the distributions.
+ *  @param[out] result The output divergence value.
+ *
+ *  @note The distributions are assumed to be normalized.
+ *  @note The output divergence value is non-negative.
+ *  @note The output divergence value is zero if and only if the two distributions are identical.
+ */
+NK_DYNAMIC void nk_kld_f64(nk_f64_t const *a, nk_f64_t const *b, nk_size_t n, nk_f64_t *result);
+/**
+ *  @brief Jensen-Shannon distance between two discrete probability distributions.
+ *
+ *  @param[in] a The first discrete probability distribution.
+ *  @param[in] b The second discrete probability distribution.
+ *  @param[in] n The number of elements in the distributions.
+ *  @param[out] result The output distance value.
+ *
+ *  @note The distributions are assumed to be normalized.
+ *  @note The output distance value is non-negative.
+ *  @note The output distance value is zero if and only if the two distributions are identical.
+ */
+NK_DYNAMIC void nk_jsd_f16(nk_f16_t const *a, nk_f16_t const *b, nk_size_t n, nk_f32_t *result);
+/**
+ *  @brief Jensen-Shannon distance between two discrete probability distributions.
+ *
+ *  @param[in] a The first discrete probability distribution.
+ *  @param[in] b The second discrete probability distribution.
+ *  @param[in] n The number of elements in the distributions.
+ *  @param[out] result The output distance value.
+ *
+ *  @note The distributions are assumed to be normalized.
+ *  @note The output distance value is non-negative.
+ *  @note The output distance value is zero if and only if the two distributions are identical.
+ */
+NK_DYNAMIC void nk_jsd_bf16(nk_bf16_t const *a, nk_bf16_t const *b, nk_size_t n, nk_f32_t *result);
+/**
+ *  @brief Jensen-Shannon distance between two discrete probability distributions.
+ *
+ *  @param[in] a The first discrete probability distribution.
+ *  @param[in] b The second discrete probability distribution.
+ *  @param[in] n The number of elements in the distributions.
+ *  @param[out] result The output distance value.
+ *
+ *  @note The distributions are assumed to be normalized.
+ *  @note The output distance value is non-negative.
+ *  @note The output distance value is zero if and only if the two distributions are identical.
+ */
+NK_DYNAMIC void nk_jsd_f32(nk_f32_t const *a, nk_f32_t const *b, nk_size_t n, nk_f64_t *result);
+/**
+ *  @brief Jensen-Shannon distance between two discrete probability distributions.
+ *
+ *  @param[in] a The first discrete probability distribution.
+ *  @param[in] b The second discrete probability distribution.
+ *  @param[in] n The number of elements in the distributions.
+ *  @param[out] result The output distance value.
+ *
+ *  @note The distributions are assumed to be normalized.
+ *  @note The output distance value is non-negative.
+ *  @note The output distance value is zero if and only if the two distributions are identical.
+ */
+NK_DYNAMIC void nk_jsd_f64(nk_f64_t const *a, nk_f64_t const *b, nk_size_t n, nk_f64_t *result);
+/** @copydoc nk_kld_f64 */
+NK_PUBLIC void nk_kld_f64_serial(nk_f64_t const *a, nk_f64_t const *b, nk_size_t n, nk_f64_t *result);
+/** @copydoc nk_jsd_f64 */
+NK_PUBLIC void nk_jsd_f64_serial(nk_f64_t const *a, nk_f64_t const *b, nk_size_t n, nk_f64_t *result);
+/** @copydoc nk_kld_f32 */
+NK_PUBLIC void nk_kld_f32_serial(nk_f32_t const *a, nk_f32_t const *b, nk_size_t n, nk_f64_t *result);
+/** @copydoc nk_jsd_f32 */
+NK_PUBLIC void nk_jsd_f32_serial(nk_f32_t const *a, nk_f32_t const *b, nk_size_t n, nk_f64_t *result);
+/** @copydoc nk_kld_f16 */
+NK_PUBLIC void nk_kld_f16_serial(nk_f16_t const *a, nk_f16_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_jsd_f16 */
+NK_PUBLIC void nk_jsd_f16_serial(nk_f16_t const *a, nk_f16_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_kld_bf16 */
+NK_PUBLIC void nk_kld_bf16_serial(nk_bf16_t const *a, nk_bf16_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_jsd_bf16 */
+NK_PUBLIC void nk_jsd_bf16_serial(nk_bf16_t const *a, nk_bf16_t const *b, nk_size_t n, nk_f32_t *result);
+#if NK_TARGET_NEON
+/** @copydoc nk_kld_f32 */
+NK_PUBLIC void nk_kld_f32_neon(nk_f32_t const *a, nk_f32_t const *b, nk_size_t n, nk_f64_t *result);
+/** @copydoc nk_jsd_f32 */
+NK_PUBLIC void nk_jsd_f32_neon(nk_f32_t const *a, nk_f32_t const *b, nk_size_t n, nk_f64_t *result);
+#endif // NK_TARGET_NEON
+#if NK_TARGET_NEONHALF
+/** @copydoc nk_kld_f16 */
+NK_PUBLIC void nk_kld_f16_neonhalf(nk_f16_t const *a, nk_f16_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_jsd_f16 */
+NK_PUBLIC void nk_jsd_f16_neonhalf(nk_f16_t const *a, nk_f16_t const *b, nk_size_t n, nk_f32_t *result);
+#endif // NK_TARGET_NEONHALF
+#if NK_TARGET_HASWELL
+/** @copydoc nk_kld_f64 */
+NK_PUBLIC void nk_kld_f64_haswell(nk_f64_t const *a, nk_f64_t const *b, nk_size_t n, nk_f64_t *result);
+/** @copydoc nk_jsd_f64 */
+NK_PUBLIC void nk_jsd_f64_haswell(nk_f64_t const *a, nk_f64_t const *b, nk_size_t n, nk_f64_t *result);
+/** @copydoc nk_kld_f16 */
+NK_PUBLIC void nk_kld_f16_haswell(nk_f16_t const *a, nk_f16_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_jsd_f16 */
+NK_PUBLIC void nk_jsd_f16_haswell(nk_f16_t const *a, nk_f16_t const *b, nk_size_t n, nk_f32_t *result);
+#endif // NK_TARGET_HASWELL
+#if NK_TARGET_SKYLAKE
+/** @copydoc nk_kld_f64 */
+NK_PUBLIC void nk_kld_f64_skylake(nk_f64_t const *a, nk_f64_t const *b, nk_size_t n, nk_f64_t *result);
+/** @copydoc nk_jsd_f64 */
+NK_PUBLIC void nk_jsd_f64_skylake(nk_f64_t const *a, nk_f64_t const *b, nk_size_t n, nk_f64_t *result);
+/** @copydoc nk_kld_f32 */
+NK_PUBLIC void nk_kld_f32_skylake(nk_f32_t const *a, nk_f32_t const *b, nk_size_t n, nk_f64_t *result);
+/** @copydoc nk_jsd_f32 */
+NK_PUBLIC void nk_jsd_f32_skylake(nk_f32_t const *a, nk_f32_t const *b, nk_size_t n, nk_f64_t *result);
+/** @copydoc nk_kld_f16 */
+NK_PUBLIC void nk_kld_f16_skylake(nk_f16_t const *a, nk_f16_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_jsd_f16 */
+NK_PUBLIC void nk_jsd_f16_skylake(nk_f16_t const *a, nk_f16_t const *b, nk_size_t n, nk_f32_t *result);
+#endif // NK_TARGET_SKYLAKE
+#if NK_TARGET_RVV
+/** @copydoc nk_kld_f32 */
+NK_PUBLIC void nk_kld_f32_rvv(nk_f32_t const *a, nk_f32_t const *b, nk_size_t n, nk_f64_t *result);
+/** @copydoc nk_jsd_f32 */
+NK_PUBLIC void nk_jsd_f32_rvv(nk_f32_t const *a, nk_f32_t const *b, nk_size_t n, nk_f64_t *result);
+/** @copydoc nk_kld_f64 */
+NK_PUBLIC void nk_kld_f64_rvv(nk_f64_t const *a, nk_f64_t const *b, nk_size_t n, nk_f64_t *result);
+/** @copydoc nk_jsd_f64 */
+NK_PUBLIC void nk_jsd_f64_rvv(nk_f64_t const *a, nk_f64_t const *b, nk_size_t n, nk_f64_t *result);
+/** @copydoc nk_kld_f16 */
+NK_PUBLIC void nk_kld_f16_rvv(nk_f16_t const *a, nk_f16_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_jsd_f16 */
+NK_PUBLIC void nk_jsd_f16_rvv(nk_f16_t const *a, nk_f16_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_kld_bf16 */
+NK_PUBLIC void nk_kld_bf16_rvv(nk_bf16_t const *a, nk_bf16_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_jsd_bf16 */
+NK_PUBLIC void nk_jsd_bf16_rvv(nk_bf16_t const *a, nk_bf16_t const *b, nk_size_t n, nk_f32_t *result);
+#endif // NK_TARGET_RVV
+/** @brief Returns the output dtype for probability measures (KLD, JSD). */
+NK_INTERNAL nk_dtype_t nk_probability_output_dtype(nk_dtype_t dtype) {
+    switch (dtype) {
+    case nk_f64_k: return nk_f64_k;
+    case nk_f32_k: return nk_f64_k;
+    case nk_f16_k: return nk_f32_k;
+    case nk_bf16_k: return nk_f32_k;
+    default: return nk_dtype_unknown_k;
+    }
+}
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#include "numkong/probability/serial.h"
+#include "numkong/probability/neon.h"
+#include "numkong/probability/haswell.h"
+#include "numkong/probability/skylake.h"
+#include "numkong/probability/rvv.h"
+#if defined(__cplusplus)
+extern "C" {
+#endif
+#if !NK_DYNAMIC_DISPATCH
+NK_PUBLIC void nk_kld_f16(nk_f16_t const *a, nk_f16_t const *b, nk_size_t n, nk_f32_t *result) {
+#if NK_TARGET_NEONHALF
+    nk_kld_f16_neonhalf(a, b, n, result);
+#elif NK_TARGET_SKYLAKE
+    nk_kld_f16_skylake(a, b, n, result);
+#elif NK_TARGET_HASWELL
+    nk_kld_f16_haswell(a, b, n, result);
+#elif NK_TARGET_RVV
+    nk_kld_f16_rvv(a, b, n, result);
+#else
+    nk_kld_f16_serial(a, b, n, result);
+#endif
+}
+NK_PUBLIC void nk_kld_bf16(nk_bf16_t const *a, nk_bf16_t const *b, nk_size_t n, nk_f32_t *result) {
+#if NK_TARGET_RVV
+    nk_kld_bf16_rvv(a, b, n, result);
+#else
+    nk_kld_bf16_serial(a, b, n, result);
+#endif
+}
+NK_PUBLIC void nk_kld_f32(nk_f32_t const *a, nk_f32_t const *b, nk_size_t n, nk_f64_t *result) {
+#if NK_TARGET_NEON
+    nk_kld_f32_neon(a, b, n, result);
+#elif NK_TARGET_SKYLAKE
+    nk_kld_f32_skylake(a, b, n, result);
+#elif NK_TARGET_RVV
+    nk_kld_f32_rvv(a, b, n, result);
+#else
+    nk_kld_f32_serial(a, b, n, result);
+#endif
+}
+NK_PUBLIC void nk_kld_f64(nk_f64_t const *a, nk_f64_t const *b, nk_size_t n, nk_f64_t *result) {
+#if NK_TARGET_SKYLAKE
+    nk_kld_f64_skylake(a, b, n, result);
+#elif NK_TARGET_HASWELL
+    nk_kld_f64_haswell(a, b, n, result);
+#elif NK_TARGET_RVV
+    nk_kld_f64_rvv(a, b, n, result);
+#else
+    nk_kld_f64_serial(a, b, n, result);
+#endif
+}
+NK_PUBLIC void nk_jsd_f16(nk_f16_t const *a, nk_f16_t const *b, nk_size_t n, nk_f32_t *result) {
+#if NK_TARGET_NEONHALF
+    nk_jsd_f16_neonhalf(a, b, n, result);
+#elif NK_TARGET_SKYLAKE
+    nk_jsd_f16_skylake(a, b, n, result);
+#elif NK_TARGET_HASWELL
+    nk_jsd_f16_haswell(a, b, n, result);
+#elif NK_TARGET_RVV
+    nk_jsd_f16_rvv(a, b, n, result);
+#else
+    nk_jsd_f16_serial(a, b, n, result);
+#endif
+}
+NK_PUBLIC void nk_jsd_bf16(nk_bf16_t const *a, nk_bf16_t const *b, nk_size_t n, nk_f32_t *result) {
+#if NK_TARGET_RVV
+    nk_jsd_bf16_rvv(a, b, n, result);
+#else
+    nk_jsd_bf16_serial(a, b, n, result);
+#endif
+}
+NK_PUBLIC void nk_jsd_f32(nk_f32_t const *a, nk_f32_t const *b, nk_size_t n, nk_f64_t *result) {
+#if NK_TARGET_NEON
+    nk_jsd_f32_neon(a, b, n, result);
+#elif NK_TARGET_SKYLAKE
+    nk_jsd_f32_skylake(a, b, n, result);
+#elif NK_TARGET_RVV
+    nk_jsd_f32_rvv(a, b, n, result);
+#else
+    nk_jsd_f32_serial(a, b, n, result);
+#endif
+}
+NK_PUBLIC void nk_jsd_f64(nk_f64_t const *a, nk_f64_t const *b, nk_size_t n, nk_f64_t *result) {
+#if NK_TARGET_SKYLAKE
+    nk_jsd_f64_skylake(a, b, n, result);
+#elif NK_TARGET_HASWELL
+    nk_jsd_f64_haswell(a, b, n, result);
+#elif NK_TARGET_RVV
+    nk_jsd_f64_rvv(a, b, n, result);
+#else
+    nk_jsd_f64_serial(a, b, n, result);
+#endif
+}
+#endif // !NK_DYNAMIC_DISPATCH
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#endif

package/include/numkong/probability.hpp ADDED Viewed

@@ -0,0 +1,120 @@
+/**
+ *  @brief C++ wrappers for SIMD-accelerated Similarity Measures for Probability Distributions.
+ *  @file include/numkong/probability.hpp
+ *  @author Ash Vardanian
+ *  @date February 5, 2026
+ */
+#ifndef NK_PROBABILITY_HPP
+#define NK_PROBABILITY_HPP
+#include <cstdint>
+#include <type_traits>
+#include "numkong/probability.h"
+#include "numkong/types.hpp"
+namespace ashvardanian::numkong {
+/**
+ *  @brief Kullback-Leibler divergence: Σ pᵢ × log(pᵢ / qᵢ)
+ *  @param[in] p,q First and second probability distributions
+ *  @param[in] d Number of dimensions in input vectors
+ *  @param[out] r Pointer to output divergence value
+ *
+ *  @tparam in_type_ Input distribution type (probability vectors)
+ *  @tparam result_type_ Result type, defaults to `in_type_::probability_result_t`
+ *  @tparam allow_simd_ Enable SIMD kernel dispatch when `prefer_simd_k`
+ */
+template <numeric_dtype in_type_, numeric_dtype result_type_ = typename in_type_::probability_result_t,
+          allow_simd_t allow_simd_ = prefer_simd_k>
+void kld(in_type_ const *p, in_type_ const *q, std::size_t d, result_type_ *r) noexcept {
+    constexpr bool simd = allow_simd_ == prefer_simd_k &&
+                          std::is_same_v<result_type_, typename in_type_::probability_result_t>;
+    if constexpr (std::is_same_v<in_type_, f64_t> && simd) nk_kld_f64(&p->raw_, &q->raw_, d, &r->raw_);
+    else if constexpr (std::is_same_v<in_type_, f32_t> && simd) nk_kld_f32(&p->raw_, &q->raw_, d, &r->raw_);
+    else if constexpr (std::is_same_v<in_type_, f16_t> && simd) nk_kld_f16(&p->raw_, &q->raw_, d, &r->raw_);
+    else if constexpr (std::is_same_v<in_type_, bf16_t> && simd) nk_kld_bf16(&p->raw_, &q->raw_, d, &r->raw_);
+    // Scalar fallback
+    else {
+        result_type_ sum {};
+        for (std::size_t i = 0; i < d; i++) {
+            result_type_ pi(p[i]), qi(q[i]);
+            if (pi > result_type_(0)) sum = sum + pi * (pi / qi).log();
+        }
+        *r = sum;
+    }
+}
+/**
+ *  @brief Jensen-Shannon distance: √(½ × (KL(p‖m) + KL(q‖m))), where m = (p + q) / 2
+ *  @param[in] p,q First and second probability distributions
+ *  @param[in] d Number of dimensions in input vectors
+ *  @param[out] r Pointer to output distance value
+ *
+ *  @tparam in_type_ Input distribution type (probability vectors)
+ *  @tparam result_type_ Result type, defaults to `in_type_::probability_result_t`
+ *  @tparam allow_simd_ Enable SIMD kernel dispatch when `prefer_simd_k`
+ */
+template <numeric_dtype in_type_, numeric_dtype result_type_ = typename in_type_::probability_result_t,
+          allow_simd_t allow_simd_ = prefer_simd_k>
+void jsd(in_type_ const *p, in_type_ const *q, std::size_t d, result_type_ *r) noexcept {
+    constexpr bool simd = allow_simd_ == prefer_simd_k &&
+                          std::is_same_v<result_type_, typename in_type_::probability_result_t>;
+    if constexpr (std::is_same_v<in_type_, f64_t> && simd) nk_jsd_f64(&p->raw_, &q->raw_, d, &r->raw_);
+    else if constexpr (std::is_same_v<in_type_, f32_t> && simd) nk_jsd_f32(&p->raw_, &q->raw_, d, &r->raw_);
+    else if constexpr (std::is_same_v<in_type_, f16_t> && simd) nk_jsd_f16(&p->raw_, &q->raw_, d, &r->raw_);
+    else if constexpr (std::is_same_v<in_type_, bf16_t> && simd) nk_jsd_bf16(&p->raw_, &q->raw_, d, &r->raw_);
+    // Scalar fallback
+    else {
+        result_type_ sum {};
+        result_type_ half(0.5);
+        for (std::size_t i = 0; i < d; i++) {
+            result_type_ pi(p[i]), qi(q[i]);
+            result_type_ mi = half * (pi + qi);
+            if (pi > result_type_(0)) sum = sum + pi * (pi / mi).log();
+            if (qi > result_type_(0)) sum = sum + qi * (qi / mi).log();
+        }
+        // JSD distance = sqrt(divergence / 2), clamped to non-negative
+        result_type_ divergence = half * sum;
+        *r = divergence > result_type_(0) ? divergence.sqrt() : result_type_(0);
+    }
+}
+} // namespace ashvardanian::numkong
+#include "numkong/tensor.hpp"
+namespace ashvardanian::numkong {
+template <numeric_dtype in_type_, numeric_dtype result_type_ = typename in_type_::probability_result_t,
+          allow_simd_t allow_simd_ = prefer_simd_k, std::size_t max_rank_a_, std::size_t max_rank_b_>
+void kld(tensor_view<in_type_, max_rank_a_> p, tensor_view<in_type_, max_rank_b_> q, std::size_t d,
+         result_type_ *r) noexcept {
+    kld<in_type_, result_type_, allow_simd_>(p.data(), q.data(), d, r);
+}
+template <numeric_dtype in_type_, numeric_dtype result_type_ = typename in_type_::probability_result_t,
+          allow_simd_t allow_simd_ = prefer_simd_k>
+void kld(vector_view<in_type_> p, vector_view<in_type_> q, std::size_t d, result_type_ *r) noexcept {
+    kld<in_type_, result_type_, allow_simd_>(p.data(), q.data(), d, r);
+}
+template <numeric_dtype in_type_, numeric_dtype result_type_ = typename in_type_::probability_result_t,
+          allow_simd_t allow_simd_ = prefer_simd_k, std::size_t max_rank_a_, std::size_t max_rank_b_>
+void jsd(tensor_view<in_type_, max_rank_a_> p, tensor_view<in_type_, max_rank_b_> q, std::size_t d,
+         result_type_ *r) noexcept {
+    jsd<in_type_, result_type_, allow_simd_>(p.data(), q.data(), d, r);
+}
+template <numeric_dtype in_type_, numeric_dtype result_type_ = typename in_type_::probability_result_t,
+          allow_simd_t allow_simd_ = prefer_simd_k>
+void jsd(vector_view<in_type_> p, vector_view<in_type_> q, std::size_t d, result_type_ *r) noexcept {
+    jsd<in_type_, result_type_, allow_simd_>(p.data(), q.data(), d, r);
+}
+} // namespace ashvardanian::numkong
+#endif // NK_PROBABILITY_HPP

package/include/numkong/random.h ADDED Viewed

@@ -0,0 +1,50 @@
+/**
+ *  @brief SIMD-accelerated Pseudo-Random Number Generators.
+ *  @file include/numkong/random.h
+ *  @author Ash Vardanian
+ *  @date January 11, 2026
+ *
+ *  Implements following statistical distributions
+ *
+ *  - Uniform Distribution
+ *  - Gaussian (Normal) Distribution
+ *
+ *  For dtypes:
+ *
+ *  - 64-bit floating point numbers
+ *  - 32-bit floating point numbers
+ *  - 16-bit floating point numbers
+ *  - 16-bit brain-floating point numbers
+ *  - 8-bit floating point numbers
+ *  - 8-bit integers
+ *
+ *  For hardware architectures:
+ *
+ *  - Arm: NEON, SSVE
+ *  - x86: Haswell, Ice Lake, Skylake, Genoa
+ *
+ *  @section usage Usage and Benefits
+ *
+ *
+ *
+ *  @section references References
+ *
+ *  - x86 intrinsics: https://www.intel.com/content/www/us/en/docs/intrinsics-guide/
+ *  - Arm intrinsics: https://developer.arm.com/architectures/instruction-sets/intrinsics/
+ *
+ */
+#ifndef NK_RANDOM_H
+#define NK_RANDOM_H
+#include "numkong/types.h"
+#include "numkong/cast.h"
+#if defined(__cplusplus)
+extern "C" {
+#endif // defined(__cplusplus)
+#if defined(__cplusplus)
+} // extern "C"
+#endif // defined(__cplusplus)
+#endif // NK_RANDOM_H