npm - numkong - Versions diffs - 7.0.0 → 7.4.1 - Mend

numkong 7.0.0 → 7.4.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (315) hide show

package/README.md +239 -122
package/binding.gyp +25 -491
package/c/dispatch_bf16.c +59 -1
package/c/dispatch_e2m3.c +41 -8
package/c/dispatch_e3m2.c +49 -8
package/c/dispatch_e4m3.c +51 -9
package/c/dispatch_e5m2.c +45 -1
package/c/dispatch_f16.c +79 -26
package/c/dispatch_f16c.c +5 -5
package/c/dispatch_f32.c +56 -0
package/c/dispatch_f64.c +52 -0
package/c/dispatch_i4.c +3 -0
package/c/dispatch_i8.c +62 -3
package/c/dispatch_other.c +18 -0
package/c/dispatch_u1.c +54 -9
package/c/dispatch_u4.c +3 -0
package/c/dispatch_u8.c +64 -3
package/c/numkong.c +3 -0
package/include/README.md +79 -9
package/include/numkong/attention/sapphireamx.h +278 -276
package/include/numkong/attention/sme.h +983 -977
package/include/numkong/attention.h +1 -1
package/include/numkong/capabilities.h +289 -94
package/include/numkong/cast/README.md +40 -40
package/include/numkong/cast/diamond.h +64 -0
package/include/numkong/cast/haswell.h +42 -194
package/include/numkong/cast/icelake.h +42 -37
package/include/numkong/cast/loongsonasx.h +252 -0
package/include/numkong/cast/neon.h +216 -249
package/include/numkong/cast/powervsx.h +449 -0
package/include/numkong/cast/rvv.h +223 -274
package/include/numkong/cast/sapphire.h +18 -18
package/include/numkong/cast/serial.h +1018 -944
package/include/numkong/cast/skylake.h +82 -23
package/include/numkong/cast/v128relaxed.h +462 -105
package/include/numkong/cast.h +24 -0
package/include/numkong/cast.hpp +44 -0
package/include/numkong/curved/README.md +17 -17
package/include/numkong/curved/neon.h +131 -7
package/include/numkong/curved/neonbfdot.h +6 -7
package/include/numkong/curved/rvv.h +26 -26
package/include/numkong/curved/smef64.h +186 -182
package/include/numkong/curved.h +14 -18
package/include/numkong/dot/README.md +154 -137
package/include/numkong/dot/alder.h +43 -43
package/include/numkong/dot/diamond.h +158 -0
package/include/numkong/dot/genoa.h +4 -30
package/include/numkong/dot/haswell.h +215 -180
package/include/numkong/dot/icelake.h +190 -76
package/include/numkong/dot/loongsonasx.h +671 -0
package/include/numkong/dot/neon.h +124 -73
package/include/numkong/dot/neonbfdot.h +11 -12
package/include/numkong/dot/neonfhm.h +44 -46
package/include/numkong/dot/neonfp8.h +323 -0
package/include/numkong/dot/neonsdot.h +190 -76
package/include/numkong/dot/powervsx.h +752 -0
package/include/numkong/dot/rvv.h +92 -84
package/include/numkong/dot/rvvbf16.h +12 -12
package/include/numkong/dot/rvvhalf.h +12 -12
package/include/numkong/dot/sapphire.h +4 -4
package/include/numkong/dot/serial.h +66 -30
package/include/numkong/dot/sierra.h +31 -31
package/include/numkong/dot/skylake.h +142 -110
package/include/numkong/dot/sve.h +217 -177
package/include/numkong/dot/svebfdot.h +10 -10
package/include/numkong/dot/svehalf.h +85 -41
package/include/numkong/dot/svesdot.h +89 -0
package/include/numkong/dot/v128relaxed.h +124 -89
package/include/numkong/dot.h +114 -48
package/include/numkong/dots/README.md +203 -203
package/include/numkong/dots/alder.h +12 -9
package/include/numkong/dots/diamond.h +86 -0
package/include/numkong/dots/genoa.h +10 -4
package/include/numkong/dots/haswell.h +63 -48
package/include/numkong/dots/icelake.h +27 -18
package/include/numkong/dots/loongsonasx.h +176 -0
package/include/numkong/dots/neon.h +14 -11
package/include/numkong/dots/neonbfdot.h +4 -3
package/include/numkong/dots/neonfhm.h +11 -9
package/include/numkong/dots/neonfp8.h +99 -0
package/include/numkong/dots/neonsdot.h +48 -12
package/include/numkong/dots/powervsx.h +194 -0
package/include/numkong/dots/rvv.h +451 -344
package/include/numkong/dots/sapphireamx.h +1028 -984
package/include/numkong/dots/serial.h +213 -197
package/include/numkong/dots/sierra.h +10 -7
package/include/numkong/dots/skylake.h +47 -36
package/include/numkong/dots/sme.h +2001 -2364
package/include/numkong/dots/smebi32.h +175 -162
package/include/numkong/dots/smef64.h +328 -323
package/include/numkong/dots/v128relaxed.h +64 -41
package/include/numkong/dots.h +573 -293
package/include/numkong/dots.hpp +45 -43
package/include/numkong/each/README.md +133 -137
package/include/numkong/each/haswell.h +6 -6
package/include/numkong/each/icelake.h +7 -7
package/include/numkong/each/neon.h +76 -42
package/include/numkong/each/neonbfdot.h +11 -12
package/include/numkong/each/neonhalf.h +24 -116
package/include/numkong/each/rvv.h +28 -28
package/include/numkong/each/sapphire.h +27 -161
package/include/numkong/each/serial.h +6 -6
package/include/numkong/each/skylake.h +7 -7
package/include/numkong/each/v128relaxed.h +562 -0
package/include/numkong/each.h +148 -62
package/include/numkong/each.hpp +2 -2
package/include/numkong/geospatial/README.md +18 -18
package/include/numkong/geospatial/haswell.h +365 -325
package/include/numkong/geospatial/neon.h +350 -306
package/include/numkong/geospatial/rvv.h +4 -4
package/include/numkong/geospatial/skylake.h +376 -340
package/include/numkong/geospatial/v128relaxed.h +366 -327
package/include/numkong/geospatial.h +17 -17
package/include/numkong/matrix.hpp +4 -4
package/include/numkong/maxsim/README.md +14 -14
package/include/numkong/maxsim/alder.h +6 -6
package/include/numkong/maxsim/genoa.h +4 -4
package/include/numkong/maxsim/haswell.h +6 -6
package/include/numkong/maxsim/icelake.h +18 -18
package/include/numkong/maxsim/neonsdot.h +21 -21
package/include/numkong/maxsim/sapphireamx.h +14 -14
package/include/numkong/maxsim/serial.h +6 -6
package/include/numkong/maxsim/sme.h +221 -196
package/include/numkong/maxsim/v128relaxed.h +6 -6
package/include/numkong/mesh/README.md +62 -56
package/include/numkong/mesh/haswell.h +339 -464
package/include/numkong/mesh/neon.h +1100 -519
package/include/numkong/mesh/neonbfdot.h +36 -68
package/include/numkong/mesh/rvv.h +530 -435
package/include/numkong/mesh/serial.h +75 -91
package/include/numkong/mesh/skylake.h +1627 -302
package/include/numkong/mesh/v128relaxed.h +443 -330
package/include/numkong/mesh.h +63 -49
package/include/numkong/mesh.hpp +4 -4
package/include/numkong/numkong.h +3 -3
package/include/numkong/numkong.hpp +1 -0
package/include/numkong/probability/README.md +23 -19
package/include/numkong/probability/neon.h +82 -52
package/include/numkong/probability/rvv.h +28 -23
package/include/numkong/probability/serial.h +51 -39
package/include/numkong/probability.h +20 -23
package/include/numkong/random.h +1 -1
package/include/numkong/reduce/README.md +143 -138
package/include/numkong/reduce/alder.h +81 -77
package/include/numkong/reduce/haswell.h +222 -220
package/include/numkong/reduce/neon.h +629 -519
package/include/numkong/reduce/neonbfdot.h +7 -218
package/include/numkong/reduce/neonfhm.h +9 -381
package/include/numkong/reduce/neonsdot.h +9 -9
package/include/numkong/reduce/rvv.h +928 -802
package/include/numkong/reduce/serial.h +23 -27
package/include/numkong/reduce/sierra.h +20 -20
package/include/numkong/reduce/skylake.h +326 -324
package/include/numkong/reduce/v128relaxed.h +52 -52
package/include/numkong/reduce.h +4 -23
package/include/numkong/reduce.hpp +156 -11
package/include/numkong/scalar/README.md +6 -6
package/include/numkong/scalar/haswell.h +26 -17
package/include/numkong/scalar/loongsonasx.h +74 -0
package/include/numkong/scalar/neon.h +9 -9
package/include/numkong/scalar/powervsx.h +96 -0
package/include/numkong/scalar/rvv.h +2 -2
package/include/numkong/scalar/sapphire.h +21 -10
package/include/numkong/scalar/serial.h +21 -21
package/include/numkong/scalar.h +13 -0
package/include/numkong/set/README.md +28 -28
package/include/numkong/set/haswell.h +12 -12
package/include/numkong/set/icelake.h +14 -14
package/include/numkong/set/loongsonasx.h +181 -0
package/include/numkong/set/neon.h +17 -18
package/include/numkong/set/powervsx.h +326 -0
package/include/numkong/set/rvv.h +4 -4
package/include/numkong/set/serial.h +6 -6
package/include/numkong/set/sve.h +60 -59
package/include/numkong/set/v128relaxed.h +6 -6
package/include/numkong/set.h +21 -7
package/include/numkong/sets/README.md +26 -26
package/include/numkong/sets/loongsonasx.h +52 -0
package/include/numkong/sets/powervsx.h +65 -0
package/include/numkong/sets/smebi32.h +395 -364
package/include/numkong/sets.h +83 -40
package/include/numkong/sparse/README.md +4 -4
package/include/numkong/sparse/icelake.h +101 -101
package/include/numkong/sparse/serial.h +1 -1
package/include/numkong/sparse/sve2.h +137 -141
package/include/numkong/sparse/turin.h +12 -12
package/include/numkong/sparse.h +10 -10
package/include/numkong/spatial/README.md +230 -226
package/include/numkong/spatial/alder.h +113 -116
package/include/numkong/spatial/diamond.h +240 -0
package/include/numkong/spatial/genoa.h +0 -68
package/include/numkong/spatial/haswell.h +74 -55
package/include/numkong/spatial/icelake.h +539 -58
package/include/numkong/spatial/loongsonasx.h +483 -0
package/include/numkong/spatial/neon.h +125 -52
package/include/numkong/spatial/neonbfdot.h +8 -9
package/include/numkong/spatial/neonfp8.h +258 -0
package/include/numkong/spatial/neonsdot.h +180 -12
package/include/numkong/spatial/powervsx.h +738 -0
package/include/numkong/spatial/rvv.h +146 -139
package/include/numkong/spatial/rvvbf16.h +17 -12
package/include/numkong/spatial/rvvhalf.h +13 -10
package/include/numkong/spatial/serial.h +13 -12
package/include/numkong/spatial/sierra.h +232 -39
package/include/numkong/spatial/skylake.h +73 -74
package/include/numkong/spatial/sve.h +93 -72
package/include/numkong/spatial/svebfdot.h +29 -29
package/include/numkong/spatial/svehalf.h +52 -26
package/include/numkong/spatial/svesdot.h +142 -0
package/include/numkong/spatial/v128relaxed.h +293 -41
package/include/numkong/spatial.h +338 -82
package/include/numkong/spatials/README.md +194 -194
package/include/numkong/spatials/diamond.h +82 -0
package/include/numkong/spatials/haswell.h +2 -2
package/include/numkong/spatials/loongsonasx.h +153 -0
package/include/numkong/spatials/neonfp8.h +111 -0
package/include/numkong/spatials/neonsdot.h +34 -0
package/include/numkong/spatials/powervsx.h +153 -0
package/include/numkong/spatials/rvv.h +259 -243
package/include/numkong/spatials/sapphireamx.h +173 -173
package/include/numkong/spatials/serial.h +2 -2
package/include/numkong/spatials/skylake.h +2 -2
package/include/numkong/spatials/sme.h +590 -605
package/include/numkong/spatials/smef64.h +139 -130
package/include/numkong/spatials/v128relaxed.h +2 -2
package/include/numkong/spatials.h +820 -500
package/include/numkong/spatials.hpp +49 -48
package/include/numkong/tensor.hpp +406 -17
package/include/numkong/trigonometry/README.md +19 -19
package/include/numkong/trigonometry/haswell.h +402 -401
package/include/numkong/trigonometry/neon.h +386 -387
package/include/numkong/trigonometry/rvv.h +52 -51
package/include/numkong/trigonometry/serial.h +13 -13
package/include/numkong/trigonometry/skylake.h +373 -369
package/include/numkong/trigonometry/v128relaxed.h +375 -374
package/include/numkong/trigonometry.h +13 -13
package/include/numkong/trigonometry.hpp +2 -2
package/include/numkong/types.h +287 -49
package/include/numkong/types.hpp +436 -12
package/include/numkong/vector.hpp +82 -14
package/javascript/dist/cjs/numkong-wasm.js +6 -12
package/javascript/dist/cjs/numkong.d.ts +7 -1
package/javascript/dist/cjs/numkong.js +37 -11
package/javascript/dist/cjs/types.d.ts +9 -0
package/javascript/dist/cjs/types.js +96 -0
package/javascript/dist/esm/numkong-browser.d.ts +14 -0
package/javascript/dist/esm/numkong-browser.js +23 -0
package/javascript/dist/esm/numkong-wasm.js +6 -12
package/javascript/dist/esm/numkong.d.ts +7 -1
package/javascript/dist/esm/numkong.js +37 -11
package/javascript/dist/esm/types.d.ts +9 -0
package/javascript/dist/esm/types.js +96 -0
package/javascript/node-gyp-build.d.ts +4 -1
package/javascript/numkong-browser.ts +40 -0
package/javascript/numkong-wasm.ts +7 -13
package/javascript/numkong.c +5 -26
package/javascript/numkong.ts +36 -11
package/javascript/tsconfig-base.json +1 -0
package/javascript/tsconfig-cjs.json +6 -1
package/javascript/types.ts +110 -0
package/numkong.gypi +101 -0
package/package.json +34 -13
package/probes/arm_neon.c +8 -0
package/probes/arm_neon_bfdot.c +9 -0
package/probes/arm_neon_fhm.c +9 -0
package/probes/arm_neon_half.c +8 -0
package/probes/arm_neon_sdot.c +9 -0
package/probes/arm_neonfp8.c +9 -0
package/probes/arm_sme.c +16 -0
package/probes/arm_sme2.c +16 -0
package/probes/arm_sme2p1.c +16 -0
package/probes/arm_sme_bf16.c +16 -0
package/probes/arm_sme_bi32.c +16 -0
package/probes/arm_sme_f64.c +16 -0
package/probes/arm_sme_fa64.c +14 -0
package/probes/arm_sme_half.c +16 -0
package/probes/arm_sme_lut2.c +15 -0
package/probes/arm_sve.c +18 -0
package/probes/arm_sve2.c +20 -0
package/probes/arm_sve2p1.c +18 -0
package/probes/arm_sve_bfdot.c +20 -0
package/probes/arm_sve_half.c +18 -0
package/probes/arm_sve_sdot.c +21 -0
package/probes/loongarch_lasx.c +12 -0
package/probes/power_vsx.c +12 -0
package/probes/probe.js +127 -0
package/probes/riscv_rvv.c +14 -0
package/probes/riscv_rvv_bb.c +15 -0
package/probes/riscv_rvv_bf16.c +17 -0
package/probes/riscv_rvv_half.c +14 -0
package/probes/wasm_v128relaxed.c +11 -0
package/probes/x86_alder.c +17 -0
package/probes/x86_diamond.c +17 -0
package/probes/x86_genoa.c +17 -0
package/probes/x86_graniteamx.c +19 -0
package/probes/x86_haswell.c +11 -0
package/probes/x86_icelake.c +17 -0
package/probes/x86_sapphire.c +16 -0
package/probes/x86_sapphireamx.c +18 -0
package/probes/x86_sierra.c +17 -0
package/probes/x86_skylake.c +15 -0
package/probes/x86_turin.c +17 -0
package/wasm/numkong-emscripten.js +2 -0
package/wasm/numkong.d.ts +14 -0
package/wasm/numkong.js +1124 -0
package/wasm/numkong.wasm +0 -0
package/include/numkong/curved/neonhalf.h +0 -212
package/include/numkong/dot/neonhalf.h +0 -198
package/include/numkong/dots/neonhalf.h +0 -57
package/include/numkong/mesh/neonhalf.h +0 -616
package/include/numkong/reduce/neonhalf.h +0 -157
package/include/numkong/spatial/neonhalf.h +0 -118
package/include/numkong/spatial/sapphire.h +0 -343
package/include/numkong/spatials/neonhalf.h +0 -58
package/javascript/README.md +0 -246

package/wasm/numkong.wasm ADDED Viewed

Binary file

package/include/numkong/curved/neonhalf.h DELETED Viewed

@@ -1,212 +0,0 @@
-/**
- *  @brief SIMD-accelerated Curved Space Similarity for NEON FP16.
- *  @file include/numkong/curved/neonhalf.h
- *  @author Ash Vardanian
- *  @date January 14, 2026
- *
- *  @sa include/numkong/curved.h
- *
- *  Implements f16 bilinear forms and Mahalanobis distance using ARM NEON with FP16 extensions.
- *
- *  @section curved_neonhalf_instructions ARM NEON FP16 Instructions (ARMv8.2-FP16)
- *
- *      Intrinsic                   Instruction                     Latency     Throughput
- *                                                                              A76         M4+/V1+/Oryon
- *      vfmaq_f32                   FMLA (V.4S, V.4S, V.4S)         4cy         2/cy        4/cy
- *      vcvt_f32_f16                FCVTL (V.4S, V.4H)              3cy         2/cy        4/cy
- *      vld1_f16                    LD1 (V.4H)                      4cy         2/cy        3/cy
- *      vsubq_f32                   FSUB (V.4S, V.4S, V.4S)         2cy         2/cy        4/cy
- *      vaddvq_f32                  FADDP+FADDP (V.4S)              4cy         1/cy        2/cy
- *
- *  Bilinear forms involve nested summation O(n^2) operations. For numerical stability,
- *  f16 inputs are widened to f32 for accumulation. The matrix C is accessed row-by-row
- *  to maintain cache locality.
- *
- *  Mathematical definitions:
- *  - Bilinear: result = ∑ᵢ ∑ⱼ aᵢ × cᵢⱼ × bⱼ
- *  - Mahalanobis: result = √((a - b)ᵀ × C × (a - b))
- */
-#ifndef NK_CURVED_NEONHALF_H
-#define NK_CURVED_NEONHALF_H
-#if NK_TARGET_ARM_
-#if NK_TARGET_NEONHALF
-#include "numkong/types.h"
-#include "numkong/spatial/neon.h" // `nk_f32_sqrt_neon`
-#include "numkong/cast/serial.h"  // `nk_f16_to_f32_serial`
-#if defined(__cplusplus)
-extern "C" {
-#endif
-#if defined(__clang__)
-#pragma clang attribute push(__attribute__((target("arch=armv8.2-a+simd+fp16"))), apply_to = function)
-#elif defined(__GNUC__)
-#pragma GCC push_options
-#pragma GCC target("arch=armv8.2-a+simd+fp16")
-#endif
-NK_PUBLIC void nk_bilinear_f16_neonhalf(nk_f16_t const *a, nk_f16_t const *b, nk_f16_t const *c, nk_size_t n,
-                                        nk_f32_t *result) {
-    nk_f32_t outer_sum = 0;
-    // Process rows of the matrix
-    for (nk_size_t row = 0; row != n; ++row) {
-        nk_f16_t const *c_row = c + row * n;
-        // Load a[row] as f32
-        nk_f32_t a_row;
-        nk_f16_to_f32_serial(a + row, &a_row);
-        // Compute inner sum
-        float32x4_t inner_sum_f32x4 = vdupq_n_f32(0);
-        nk_size_t column = 0;
-        // Process 4 elements at a time
-        for (; column + 4 <= n; column += 4) {
-            float32x4_t b_f32x4 = vcvt_f32_f16(vld1_f16((nk_f16_for_arm_simd_t const *)(b + column)));
-            float32x4_t c_f32x4 = vcvt_f32_f16(vld1_f16((nk_f16_for_arm_simd_t const *)(c_row + column)));
-            inner_sum_f32x4 = vfmaq_f32(inner_sum_f32x4, c_f32x4, b_f32x4);
-        }
-        // Reduce SIMD accumulator
-        nk_f32_t inner_sum = vaddvq_f32(inner_sum_f32x4);
-        // Handle tail elements with scalar code
-        for (; column < n; ++column) {
-            nk_f32_t b_val, c_val;
-            nk_f16_to_f32_serial(b + column, &b_val);
-            nk_f16_to_f32_serial(c_row + column, &c_val);
-            inner_sum += c_val * b_val;
-        }
-        // Multiply by a[row] and accumulate
-        outer_sum += a_row * inner_sum;
-    }
-    *result = outer_sum;
-}
-NK_PUBLIC void nk_mahalanobis_f16_neonhalf(nk_f16_t const *a, nk_f16_t const *b, nk_f16_t const *c, nk_size_t n,
-                                           nk_f32_t *result) {
-    nk_f32_t outer_sum = 0;
-    // Process rows of the matrix
-    for (nk_size_t row = 0; row != n; ++row) {
-        nk_f16_t const *c_row = c + row * n;
-        // Compute diff_row = a[row] - b[row] in f32
-        nk_f32_t a_row, b_row;
-        nk_f16_to_f32_serial(a + row, &a_row);
-        nk_f16_to_f32_serial(b + row, &b_row);
-        nk_f32_t diff_row = a_row - b_row;
-        // Compute inner sum
-        float32x4_t inner_sum_f32x4 = vdupq_n_f32(0);
-        nk_size_t column = 0;
-        // Process 4 elements at a time
-        for (; column + 4 <= n; column += 4) {
-            float32x4_t a_f32x4 = vcvt_f32_f16(vld1_f16((nk_f16_for_arm_simd_t const *)(a + column)));
-            float32x4_t b_f32x4 = vcvt_f32_f16(vld1_f16((nk_f16_for_arm_simd_t const *)(b + column)));
-            float32x4_t c_f32x4 = vcvt_f32_f16(vld1_f16((nk_f16_for_arm_simd_t const *)(c_row + column)));
-            float32x4_t diff_column_f32x4 = vsubq_f32(a_f32x4, b_f32x4);
-            inner_sum_f32x4 = vfmaq_f32(inner_sum_f32x4, c_f32x4, diff_column_f32x4);
-        }
-        // Reduce SIMD accumulator
-        nk_f32_t inner_sum = vaddvq_f32(inner_sum_f32x4);
-        // Handle tail elements with scalar code
-        for (; column < n; ++column) {
-            nk_f32_t a_val, b_val, c_val;
-            nk_f16_to_f32_serial(a + column, &a_val);
-            nk_f16_to_f32_serial(b + column, &b_val);
-            nk_f16_to_f32_serial(c_row + column, &c_val);
-            inner_sum += c_val * (a_val - b_val);
-        }
-        // Multiply by diff_row and accumulate
-        outer_sum += diff_row * inner_sum;
-    }
-    nk_f32_t quadratic = outer_sum;
-    *result = nk_f32_sqrt_neon(quadratic > 0 ? quadratic : 0);
-}
-NK_PUBLIC void nk_bilinear_f16c_neonhalf(nk_f16c_t const *a_pairs, nk_f16c_t const *b_pairs, nk_f16c_t const *c_pairs,
-                                         nk_size_t n, nk_f32c_t *results) {
-    nk_f32_t outer_sum_real = 0;
-    nk_f32_t outer_sum_imag = 0;
-    // Process rows of the matrix
-    for (nk_size_t row = 0; row != n; ++row) {
-        nk_f16c_t const *c_row = c_pairs + row * n;
-        // Load a[row] complex value
-        nk_f32_t a_real, a_imag;
-        nk_f16_to_f32_serial(&(a_pairs + row)->real, &a_real);
-        nk_f16_to_f32_serial(&(a_pairs + row)->imag, &a_imag);
-        // Compute inner sum
-        float32x4_t inner_sum_real_f32x4 = vdupq_n_f32(0);
-        float32x4_t inner_sum_imag_f32x4 = vdupq_n_f32(0);
-        nk_size_t column = 0;
-        // Process 4 complex pairs at a time using deinterleaved loads
-        for (; column + 4 <= n; column += 4) {
-            // Deinterleave real/imaginary using vld2_s16 pattern from dot/neonhalf.h
-            int16x4x2_t b_i16x4x2 = vld2_s16((short const *)(b_pairs + column));
-            int16x4x2_t c_i16x4x2 = vld2_s16((short const *)(c_row + column));
-            float32x4_t b_real_f32x4 = vcvt_f32_f16(vreinterpret_f16_s16(b_i16x4x2.val[0]));
-            float32x4_t b_imag_f32x4 = vcvt_f32_f16(vreinterpret_f16_s16(b_i16x4x2.val[1]));
-            float32x4_t c_real_f32x4 = vcvt_f32_f16(vreinterpret_f16_s16(c_i16x4x2.val[0]));
-            float32x4_t c_imag_f32x4 = vcvt_f32_f16(vreinterpret_f16_s16(c_i16x4x2.val[1]));
-            // Complex multiply
-            inner_sum_real_f32x4 = vfmaq_f32(inner_sum_real_f32x4, c_real_f32x4, b_real_f32x4);
-            inner_sum_real_f32x4 = vfmsq_f32(inner_sum_real_f32x4, c_imag_f32x4, b_imag_f32x4);
-            inner_sum_imag_f32x4 = vfmaq_f32(inner_sum_imag_f32x4, c_real_f32x4, b_imag_f32x4);
-            inner_sum_imag_f32x4 = vfmaq_f32(inner_sum_imag_f32x4, c_imag_f32x4, b_real_f32x4);
-        }
-        // Reduce SIMD accumulators
-        nk_f32_t inner_sum_real = vaddvq_f32(inner_sum_real_f32x4);
-        nk_f32_t inner_sum_imag = vaddvq_f32(inner_sum_imag_f32x4);
-        // Handle tail elements with scalar code
-        for (; column < n; ++column) {
-            nk_f32_t b_real, b_imag, c_real, c_imag;
-            nk_f16_to_f32_serial(&(b_pairs + column)->real, &b_real);
-            nk_f16_to_f32_serial(&(b_pairs + column)->imag, &b_imag);
-            nk_f16_to_f32_serial(&(c_row + column)->real, &c_real);
-            nk_f16_to_f32_serial(&(c_row + column)->imag, &c_imag);
-            // Complex multiply
-            inner_sum_real += c_real * b_real - c_imag * b_imag;
-            inner_sum_imag += c_real * b_imag + c_imag * b_real;
-        }
-        // Complex multiply
-        outer_sum_real += a_real * inner_sum_real - a_imag * inner_sum_imag;
-        outer_sum_imag += a_real * inner_sum_imag + a_imag * inner_sum_real;
-    }
-    results->real = outer_sum_real;
-    results->imag = outer_sum_imag;
-}
-#if defined(__clang__)
-#pragma clang attribute pop
-#elif defined(__GNUC__)
-#pragma GCC pop_options
-#endif
-#if defined(__cplusplus)
-} // extern "C"
-#endif
-#endif // NK_TARGET_NEONHALF
-#endif // NK_TARGET_ARM_
-#endif // NK_CURVED_NEONHALF_H

package/include/numkong/dot/neonhalf.h DELETED Viewed

@@ -1,198 +0,0 @@
-/**
- *  @brief SIMD-accelerated Dot Products for NEON FP16.
- *  @file include/numkong/dot/neonhalf.h
- *  @author Ash Vardanian
- *  @date December 27, 2025
- *
- *  @sa include/numkong/dot.h
- *
- *  @section dot_neonhalf_instructions ARM NEON FP16 Instructions (ARMv8.2-FP16)
- *
- *      Intrinsic                   Instruction                     Latency     Throughput
- *                                                                              A76         M4+/V1+/Oryon
- *      vfmaq_f16                   FMLA (V.8H, V.8H, V.8H)         4cy         2/cy        4/cy
- *      vcvt_f32_f16                FCVTL (V.4S, V.4H)              3cy         2/cy        4/cy
- *      vld1q_f16                   LD1 (V.8H)                      4cy         2/cy        3/cy
- *      vaddvq_f32                  FADDP+FADDP (V.4S)              4cy         1/cy        2/cy
- *      vfmsq_f16                   FMLS (V.8H, V.8H, V.8H)         4cy         2/cy        4/cy
- *
- *  The ARMv8.2-FP16 extension enables native half-precision arithmetic, doubling the element count
- *  per vector register (8x F16 vs 4x F32). This doubles theoretical throughput for bandwidth-bound
- *  workloads while halving memory footprint.
- *
- *  For dot products, inputs are widened from F16 to F32 for accumulation to preserve numerical
- *  precision. The FCVTL instruction handles this widening, allowing the FMA operations
- *  to maintain full F32 precision in the accumulator.
- *
- *  @section dot_neonhalf_stateful Stateful Streaming Logic
- *
- *  To build memory-optimal tiled algorithms, this file defines following structures and force-inlined
- *  `NK_INTERNAL` functions:
- *
- *  - nk_dot_f16x4 state with f16 inputs widened to f32 for accumulation.
- *
- *  @code{c}
- *  nk_dot_f16x4_state_neonhalf_t state_first, state_second, state_third, state_fourth;
- *  float16x4_t query_f16x4, target_first_f16x4, target_second_f16x4, target_third_f16x4, target_fourth_f16x4;
- *  nk_dot_f16x4_init_neonhalf(&state_first);
- *  nk_dot_f16x4_init_neonhalf(&state_second);
- *  nk_dot_f16x4_init_neonhalf(&state_third);
- *  nk_dot_f16x4_init_neonhalf(&state_fourth);
- *  for (nk_size_t idx = 0; idx + 4 <= depth; idx += 4) {
- *      query_f16x4 = vld1_f16(query_ptr + idx);
- *      target_first_f16x4 = vld1_f16(target_first_ptr + idx);
- *      target_second_f16x4 = vld1_f16(target_second_ptr + idx);
- *      target_third_f16x4 = vld1_f16(target_third_ptr + idx);
- *      target_fourth_f16x4 = vld1_f16(target_fourth_ptr + idx);
- *      nk_dot_f16x4_update_neonhalf(&state_first, query_f16x4, target_first_f16x4, idx, 4);
- *      nk_dot_f16x4_update_neonhalf(&state_second, query_f16x4, target_second_f16x4, idx, 4);
- *      nk_dot_f16x4_update_neonhalf(&state_third, query_f16x4, target_third_f16x4, idx, 4);
- *      nk_dot_f16x4_update_neonhalf(&state_fourth, query_f16x4, target_fourth_f16x4, idx, 4);
- *  }
- *  float32x4_t results_f32x4;
- *  nk_dot_f16x4_finalize_neonhalf(&state_first, &state_second, &state_third, &state_fourth, depth, &results_f32x4);
- *  @endcode
- */
-#ifndef NK_DOT_NEONHALF_H
-#define NK_DOT_NEONHALF_H
-#if NK_TARGET_ARM_
-#if NK_TARGET_NEONHALF
-#include "numkong/types.h"
-#include "numkong/cast/serial.h" // `nk_partial_load_b16x4_serial_`
-#if defined(__cplusplus)
-extern "C" {
-#endif
-#if defined(__clang__)
-#pragma clang attribute push(__attribute__((target("arch=armv8.2-a+simd+fp16"))), apply_to = function)
-#elif defined(__GNUC__)
-#pragma GCC push_options
-#pragma GCC target("arch=armv8.2-a+simd+fp16")
-#endif
-NK_PUBLIC void nk_dot_f16_neonhalf(nk_f16_t const *a_scalars, nk_f16_t const *b_scalars, nk_size_t count_scalars,
-                                   nk_f32_t *result) {
-    float32x4_t a_f32x4, b_f32x4;
-    float32x4_t sum_f32x4 = vdupq_n_f32(0);
-nk_dot_f16_neonhalf_cycle:
-    if (count_scalars < 4) {
-        nk_b64_vec_t a_vec, b_vec;
-        nk_partial_load_b16x4_serial_(a_scalars, &a_vec, count_scalars);
-        nk_partial_load_b16x4_serial_(b_scalars, &b_vec, count_scalars);
-        a_f32x4 = vcvt_f32_f16(vreinterpret_f16_u16(a_vec.u16x4));
-        b_f32x4 = vcvt_f32_f16(vreinterpret_f16_u16(b_vec.u16x4));
-        count_scalars = 0;
-    }
-    else {
-        a_f32x4 = vcvt_f32_f16(vld1_f16((nk_f16_for_arm_simd_t const *)a_scalars));
-        b_f32x4 = vcvt_f32_f16(vld1_f16((nk_f16_for_arm_simd_t const *)b_scalars));
-        a_scalars += 4, b_scalars += 4, count_scalars -= 4;
-    }
-    sum_f32x4 = vfmaq_f32(sum_f32x4, a_f32x4, b_f32x4);
-    if (count_scalars) goto nk_dot_f16_neonhalf_cycle;
-    *result = vaddvq_f32(sum_f32x4);
-}
-NK_PUBLIC void nk_dot_f16c_neonhalf(nk_f16c_t const *a_pairs, nk_f16c_t const *b_pairs, nk_size_t count_pairs,
-                                    nk_f32c_t *result) {
-    float32x4_t sum_real_f32x4 = vdupq_n_f32(0);
-    float32x4_t sum_imag_f32x4 = vdupq_n_f32(0);
-    while (count_pairs >= 4) {
-        // Unpack the input arrays into real and imaginary parts.
-        // MSVC sadly doesn't recognize the `vld2_f16`, so we load the data as signed
-        // integers of the same size and reinterpret with `vreinterpret_f16_s16` afterwards.
-        int16x4x2_t a_i16x4x2 = vld2_s16((short *)a_pairs);
-        int16x4x2_t b_i16x4x2 = vld2_s16((short *)b_pairs);
-        float32x4_t a_real_f32x4 = vcvt_f32_f16(vreinterpret_f16_s16(a_i16x4x2.val[0]));
-        float32x4_t a_imag_f32x4 = vcvt_f32_f16(vreinterpret_f16_s16(a_i16x4x2.val[1]));
-        float32x4_t b_real_f32x4 = vcvt_f32_f16(vreinterpret_f16_s16(b_i16x4x2.val[0]));
-        float32x4_t b_imag_f32x4 = vcvt_f32_f16(vreinterpret_f16_s16(b_i16x4x2.val[1]));
-        sum_real_f32x4 = vfmaq_f32(sum_real_f32x4, a_real_f32x4, b_real_f32x4);
-        sum_real_f32x4 = vfmsq_f32(sum_real_f32x4, a_imag_f32x4, b_imag_f32x4);
-        sum_imag_f32x4 = vfmaq_f32(sum_imag_f32x4, a_real_f32x4, b_imag_f32x4);
-        sum_imag_f32x4 = vfmaq_f32(sum_imag_f32x4, a_imag_f32x4, b_real_f32x4);
-        count_pairs -= 4, a_pairs += 4, b_pairs += 4;
-    }
-    // Reduce horizontal sums and aggregate with the tail:
-    nk_f32c_t tail_result;
-    nk_dot_f16c_serial(a_pairs, b_pairs, count_pairs, &tail_result);
-    result->real = tail_result.real + vaddvq_f32(sum_real_f32x4);
-    result->imag = tail_result.imag + vaddvq_f32(sum_imag_f32x4);
-}
-NK_PUBLIC void nk_vdot_f16c_neonhalf(nk_f16c_t const *a_pairs, nk_f16c_t const *b_pairs, nk_size_t count_pairs,
-                                     nk_f32c_t *result) {
-    float32x4_t sum_real_f32x4 = vdupq_n_f32(0);
-    float32x4_t sum_imag_f32x4 = vdupq_n_f32(0);
-    while (count_pairs >= 4) {
-        // Unpack the input arrays into real and imaginary parts.
-        // MSVC sadly doesn't recognize the `vld2_f16`, so we load the data as signed
-        // integers of the same size and reinterpret with `vreinterpret_f16_s16` afterwards.
-        int16x4x2_t a_i16x4x2 = vld2_s16((short *)a_pairs);
-        int16x4x2_t b_i16x4x2 = vld2_s16((short *)b_pairs);
-        float32x4_t a_real_f32x4 = vcvt_f32_f16(vreinterpret_f16_s16(a_i16x4x2.val[0]));
-        float32x4_t a_imag_f32x4 = vcvt_f32_f16(vreinterpret_f16_s16(a_i16x4x2.val[1]));
-        float32x4_t b_real_f32x4 = vcvt_f32_f16(vreinterpret_f16_s16(b_i16x4x2.val[0]));
-        float32x4_t b_imag_f32x4 = vcvt_f32_f16(vreinterpret_f16_s16(b_i16x4x2.val[1]));
-        sum_real_f32x4 = vfmaq_f32(sum_real_f32x4, a_real_f32x4, b_real_f32x4);
-        sum_real_f32x4 = vfmaq_f32(sum_real_f32x4, a_imag_f32x4, b_imag_f32x4);
-        sum_imag_f32x4 = vfmaq_f32(sum_imag_f32x4, a_real_f32x4, b_imag_f32x4);
-        sum_imag_f32x4 = vfmsq_f32(sum_imag_f32x4, a_imag_f32x4, b_real_f32x4);
-        count_pairs -= 4, a_pairs += 4, b_pairs += 4;
-    }
-    // Reduce horizontal sums and aggregate with the tail:
-    nk_f32c_t tail_result;
-    nk_vdot_f16c_serial(a_pairs, b_pairs, count_pairs, &tail_result);
-    result->real = tail_result.real + vaddvq_f32(sum_real_f32x4);
-    result->imag = tail_result.imag + vaddvq_f32(sum_imag_f32x4);
-}
-/**
- *  @brief Running state for 64-bit dot accumulation over f16 scalars on NEON with FP16 extension.
- *
- *  Processes 4 f16 values at a time (64 bits), converting directly to f32 without
- *  the overhead of vget_low/vget_high operations on 128-bit vectors.
- */
-typedef struct nk_dot_f16x4_state_neonhalf_t {
-    float32x4_t sum_f32x4;
-} nk_dot_f16x4_state_neonhalf_t;
-NK_INTERNAL void nk_dot_f16x4_init_neonhalf(nk_dot_f16x4_state_neonhalf_t *state) { state->sum_f32x4 = vdupq_n_f32(0); }
-NK_INTERNAL void nk_dot_f16x4_update_neonhalf(nk_dot_f16x4_state_neonhalf_t *state, nk_b64_vec_t a, nk_b64_vec_t b,
-                                              nk_size_t depth_offset, nk_size_t active_dimensions) {
-    nk_unused_(depth_offset);
-    nk_unused_(active_dimensions);
-    // 4 f16s = 64 bits, direct conversion without low/high split
-    float16x4_t a_f16x4 = vreinterpret_f16_u16(a.u16x4);
-    float16x4_t b_f16x4 = vreinterpret_f16_u16(b.u16x4);
-    state->sum_f32x4 = vfmaq_f32(state->sum_f32x4, vcvt_f32_f16(a_f16x4), vcvt_f32_f16(b_f16x4));
-}
-NK_INTERNAL void nk_dot_f16x4_finalize_neonhalf(                                                //
-    nk_dot_f16x4_state_neonhalf_t const *state_a, nk_dot_f16x4_state_neonhalf_t const *state_b, //
-    nk_dot_f16x4_state_neonhalf_t const *state_c, nk_dot_f16x4_state_neonhalf_t const *state_d, //
-    nk_size_t total_dimensions, nk_b128_vec_t *result) {
-    nk_unused_(total_dimensions);
-    result->f32s[0] = vaddvq_f32(state_a->sum_f32x4);
-    result->f32s[1] = vaddvq_f32(state_b->sum_f32x4);
-    result->f32s[2] = vaddvq_f32(state_c->sum_f32x4);
-    result->f32s[3] = vaddvq_f32(state_d->sum_f32x4);
-}
-#if defined(__clang__)
-#pragma clang attribute pop
-#elif defined(__GNUC__)
-#pragma GCC pop_options
-#endif
-#if defined(__cplusplus)
-} // extern "C"
-#endif
-#endif // NK_TARGET_NEONHALF
-#endif // NK_TARGET_ARM_
-#endif // NK_DOT_NEONHALF_H

package/include/numkong/dots/neonhalf.h DELETED Viewed

@@ -1,57 +0,0 @@
-/**
- *  @brief SIMD-accelerated Batched Dot Products for NEON FP16.
- *  @file include/numkong/dots/neonhalf.h
- *  @author Ash Vardanian
- *  @date December 27, 2025
- *
- *  @sa include/numkong/dots.h
- */
-#ifndef NK_DOTS_NEONHALF_H
-#define NK_DOTS_NEONHALF_H
-#if NK_TARGET_ARM_
-#if NK_TARGET_NEONHALF
-#include "numkong/dot/neonhalf.h"
-#if defined(__cplusplus)
-extern "C" {
-#endif
-#if defined(__clang__)
-#pragma clang attribute push(__attribute__((target("arch=armv8.2-a+simd+fp16"))), apply_to = function)
-#elif defined(__GNUC__)
-#pragma GCC push_options
-#pragma GCC target("arch=armv8.2-a+simd+fp16")
-#endif
-/* F16 GEMM: depth_simd_dimensions=4 (4 f16s = 8 bytes = 64-bit input for direct f32 conversion) */
-nk_define_cross_pack_size_(dots, f16, neonhalf, f16, f16, /*norm_value_type=*/f32, /*depth_simd_dimensions=*/4,
-                           /*dimensions_per_value=*/1)
-nk_define_cross_pack_(dots, f16, neonhalf, f16, f16, nk_assign_from_to_, /*norm_value_type=*/f32,
-                      nk_dots_reduce_sumsq_f16_, /*depth_simd_dimensions=*/4,
-                      /*dimensions_per_value=*/1)
-nk_define_cross_symmetric_(dots, f16, neonhalf, f16, f32, nk_b64_vec_t, nk_dot_f16x4_state_neonhalf_t, nk_b128_vec_t,
-                           nk_dot_f16x4_init_neonhalf, nk_load_b64_neon_, nk_partial_load_b16x4_serial_,
-                           nk_dot_f16x4_update_neonhalf, nk_dot_f16x4_finalize_neonhalf, nk_store_b128_neon_,
-                           nk_partial_store_b32x4_serial_,
-                           /*depth_simd_dimensions=*/4, /*dimensions_per_value=*/1)
-nk_define_cross_packed_(dots, f16, neonhalf, f16, f16, f32, nk_b64_vec_t, nk_dot_f16x4_state_neonhalf_t, nk_b128_vec_t,
-                        nk_dot_f16x4_init_neonhalf, nk_load_b64_neon_, nk_partial_load_b16x4_serial_, nk_load_b64_neon_,
-                        nk_partial_load_b16x4_serial_, nk_dot_f16x4_update_neonhalf, nk_dot_f16x4_finalize_neonhalf,
-                        nk_store_b128_neon_, nk_partial_store_b32x4_serial_,
-                        /*depth_simd_dimensions=*/4, /*dimensions_per_value=*/1)
-#if defined(__clang__)
-#pragma clang attribute pop
-#elif defined(__GNUC__)
-#pragma GCC pop_options
-#endif
-#if defined(__cplusplus)
-} // extern "C"
-#endif
-#endif // NK_TARGET_NEONHALF
-#endif // NK_TARGET_ARM_
-#endif // NK_DOTS_NEONHALF_H