npm - numkong - Versions diffs - 7.0.0 - Mend

numkong 7.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (294) hide show

package/LICENSE +201 -0
package/README.md +495 -0
package/binding.gyp +540 -0
package/c/dispatch.h +512 -0
package/c/dispatch_bf16.c +389 -0
package/c/dispatch_bf16c.c +52 -0
package/c/dispatch_e2m3.c +263 -0
package/c/dispatch_e3m2.c +243 -0
package/c/dispatch_e4m3.c +276 -0
package/c/dispatch_e5m2.c +272 -0
package/c/dispatch_f16.c +376 -0
package/c/dispatch_f16c.c +58 -0
package/c/dispatch_f32.c +378 -0
package/c/dispatch_f32c.c +99 -0
package/c/dispatch_f64.c +296 -0
package/c/dispatch_f64c.c +98 -0
package/c/dispatch_i16.c +96 -0
package/c/dispatch_i32.c +89 -0
package/c/dispatch_i4.c +150 -0
package/c/dispatch_i64.c +86 -0
package/c/dispatch_i8.c +289 -0
package/c/dispatch_other.c +330 -0
package/c/dispatch_u1.c +148 -0
package/c/dispatch_u16.c +124 -0
package/c/dispatch_u32.c +118 -0
package/c/dispatch_u4.c +150 -0
package/c/dispatch_u64.c +102 -0
package/c/dispatch_u8.c +303 -0
package/c/numkong.c +950 -0
package/include/README.md +573 -0
package/include/module.modulemap +129 -0
package/include/numkong/attention/sapphireamx.h +1361 -0
package/include/numkong/attention/sme.h +2066 -0
package/include/numkong/attention.h +49 -0
package/include/numkong/capabilities.h +748 -0
package/include/numkong/cast/README.md +262 -0
package/include/numkong/cast/haswell.h +975 -0
package/include/numkong/cast/icelake.h +470 -0
package/include/numkong/cast/neon.h +1192 -0
package/include/numkong/cast/rvv.h +1021 -0
package/include/numkong/cast/sapphire.h +262 -0
package/include/numkong/cast/serial.h +2262 -0
package/include/numkong/cast/skylake.h +856 -0
package/include/numkong/cast/v128relaxed.h +180 -0
package/include/numkong/cast.h +230 -0
package/include/numkong/curved/README.md +223 -0
package/include/numkong/curved/genoa.h +182 -0
package/include/numkong/curved/haswell.h +276 -0
package/include/numkong/curved/neon.h +205 -0
package/include/numkong/curved/neonbfdot.h +212 -0
package/include/numkong/curved/neonhalf.h +212 -0
package/include/numkong/curved/rvv.h +305 -0
package/include/numkong/curved/serial.h +207 -0
package/include/numkong/curved/skylake.h +457 -0
package/include/numkong/curved/smef64.h +506 -0
package/include/numkong/curved.h +517 -0
package/include/numkong/curved.hpp +144 -0
package/include/numkong/dot/README.md +425 -0
package/include/numkong/dot/alder.h +563 -0
package/include/numkong/dot/genoa.h +315 -0
package/include/numkong/dot/haswell.h +1688 -0
package/include/numkong/dot/icelake.h +883 -0
package/include/numkong/dot/neon.h +818 -0
package/include/numkong/dot/neonbfdot.h +244 -0
package/include/numkong/dot/neonfhm.h +360 -0
package/include/numkong/dot/neonhalf.h +198 -0
package/include/numkong/dot/neonsdot.h +508 -0
package/include/numkong/dot/rvv.h +714 -0
package/include/numkong/dot/rvvbb.h +72 -0
package/include/numkong/dot/rvvbf16.h +123 -0
package/include/numkong/dot/rvvhalf.h +129 -0
package/include/numkong/dot/sapphire.h +141 -0
package/include/numkong/dot/serial.h +838 -0
package/include/numkong/dot/sierra.h +405 -0
package/include/numkong/dot/skylake.h +1084 -0
package/include/numkong/dot/sve.h +379 -0
package/include/numkong/dot/svebfdot.h +74 -0
package/include/numkong/dot/svehalf.h +123 -0
package/include/numkong/dot/v128relaxed.h +1258 -0
package/include/numkong/dot.h +1070 -0
package/include/numkong/dot.hpp +94 -0
package/include/numkong/dots/README.md +496 -0
package/include/numkong/dots/alder.h +114 -0
package/include/numkong/dots/genoa.h +94 -0
package/include/numkong/dots/haswell.h +295 -0
package/include/numkong/dots/icelake.h +171 -0
package/include/numkong/dots/neon.h +120 -0
package/include/numkong/dots/neonbfdot.h +58 -0
package/include/numkong/dots/neonfhm.h +94 -0
package/include/numkong/dots/neonhalf.h +57 -0
package/include/numkong/dots/neonsdot.h +108 -0
package/include/numkong/dots/rvv.h +2486 -0
package/include/numkong/dots/sapphireamx.h +3973 -0
package/include/numkong/dots/serial.h +2844 -0
package/include/numkong/dots/sierra.h +97 -0
package/include/numkong/dots/skylake.h +196 -0
package/include/numkong/dots/sme.h +5372 -0
package/include/numkong/dots/smebi32.h +461 -0
package/include/numkong/dots/smef64.h +1318 -0
package/include/numkong/dots/smehalf.h +47 -0
package/include/numkong/dots/v128relaxed.h +294 -0
package/include/numkong/dots.h +2804 -0
package/include/numkong/dots.hpp +639 -0
package/include/numkong/each/README.md +469 -0
package/include/numkong/each/haswell.h +1658 -0
package/include/numkong/each/icelake.h +272 -0
package/include/numkong/each/neon.h +1104 -0
package/include/numkong/each/neonbfdot.h +212 -0
package/include/numkong/each/neonhalf.h +410 -0
package/include/numkong/each/rvv.h +1121 -0
package/include/numkong/each/sapphire.h +477 -0
package/include/numkong/each/serial.h +260 -0
package/include/numkong/each/skylake.h +1562 -0
package/include/numkong/each.h +2146 -0
package/include/numkong/each.hpp +434 -0
package/include/numkong/geospatial/README.md +147 -0
package/include/numkong/geospatial/haswell.h +593 -0
package/include/numkong/geospatial/neon.h +571 -0
package/include/numkong/geospatial/rvv.h +701 -0
package/include/numkong/geospatial/serial.h +309 -0
package/include/numkong/geospatial/skylake.h +577 -0
package/include/numkong/geospatial/v128relaxed.h +613 -0
package/include/numkong/geospatial.h +453 -0
package/include/numkong/geospatial.hpp +235 -0
package/include/numkong/matrix.hpp +336 -0
package/include/numkong/maxsim/README.md +187 -0
package/include/numkong/maxsim/alder.h +511 -0
package/include/numkong/maxsim/genoa.h +115 -0
package/include/numkong/maxsim/haswell.h +553 -0
package/include/numkong/maxsim/icelake.h +480 -0
package/include/numkong/maxsim/neonsdot.h +394 -0
package/include/numkong/maxsim/sapphireamx.h +877 -0
package/include/numkong/maxsim/serial.h +490 -0
package/include/numkong/maxsim/sme.h +929 -0
package/include/numkong/maxsim/v128relaxed.h +280 -0
package/include/numkong/maxsim.h +571 -0
package/include/numkong/maxsim.hpp +133 -0
package/include/numkong/mesh/README.md +227 -0
package/include/numkong/mesh/haswell.h +2235 -0
package/include/numkong/mesh/neon.h +1329 -0
package/include/numkong/mesh/neonbfdot.h +842 -0
package/include/numkong/mesh/neonhalf.h +616 -0
package/include/numkong/mesh/rvv.h +916 -0
package/include/numkong/mesh/serial.h +742 -0
package/include/numkong/mesh/skylake.h +1135 -0
package/include/numkong/mesh/v128relaxed.h +1052 -0
package/include/numkong/mesh.h +652 -0
package/include/numkong/mesh.hpp +762 -0
package/include/numkong/numkong.h +78 -0
package/include/numkong/numkong.hpp +57 -0
package/include/numkong/probability/README.md +173 -0
package/include/numkong/probability/haswell.h +267 -0
package/include/numkong/probability/neon.h +225 -0
package/include/numkong/probability/rvv.h +409 -0
package/include/numkong/probability/serial.h +169 -0
package/include/numkong/probability/skylake.h +324 -0
package/include/numkong/probability.h +383 -0
package/include/numkong/probability.hpp +120 -0
package/include/numkong/random.h +50 -0
package/include/numkong/random.hpp +285 -0
package/include/numkong/reduce/README.md +547 -0
package/include/numkong/reduce/alder.h +632 -0
package/include/numkong/reduce/genoa.h +201 -0
package/include/numkong/reduce/haswell.h +3783 -0
package/include/numkong/reduce/icelake.h +549 -0
package/include/numkong/reduce/neon.h +3841 -0
package/include/numkong/reduce/neonbfdot.h +353 -0
package/include/numkong/reduce/neonfhm.h +665 -0
package/include/numkong/reduce/neonhalf.h +157 -0
package/include/numkong/reduce/neonsdot.h +357 -0
package/include/numkong/reduce/rvv.h +3407 -0
package/include/numkong/reduce/serial.h +757 -0
package/include/numkong/reduce/sierra.h +338 -0
package/include/numkong/reduce/skylake.h +3792 -0
package/include/numkong/reduce/v128relaxed.h +2302 -0
package/include/numkong/reduce.h +1597 -0
package/include/numkong/reduce.hpp +633 -0
package/include/numkong/scalar/README.md +89 -0
package/include/numkong/scalar/haswell.h +113 -0
package/include/numkong/scalar/neon.h +122 -0
package/include/numkong/scalar/neonhalf.h +70 -0
package/include/numkong/scalar/rvv.h +211 -0
package/include/numkong/scalar/sapphire.h +63 -0
package/include/numkong/scalar/serial.h +332 -0
package/include/numkong/scalar/v128relaxed.h +56 -0
package/include/numkong/scalar.h +683 -0
package/include/numkong/set/README.md +179 -0
package/include/numkong/set/haswell.h +334 -0
package/include/numkong/set/icelake.h +485 -0
package/include/numkong/set/neon.h +364 -0
package/include/numkong/set/rvv.h +226 -0
package/include/numkong/set/rvvbb.h +117 -0
package/include/numkong/set/serial.h +174 -0
package/include/numkong/set/sve.h +185 -0
package/include/numkong/set/v128relaxed.h +240 -0
package/include/numkong/set.h +457 -0
package/include/numkong/set.hpp +114 -0
package/include/numkong/sets/README.md +149 -0
package/include/numkong/sets/haswell.h +63 -0
package/include/numkong/sets/icelake.h +66 -0
package/include/numkong/sets/neon.h +61 -0
package/include/numkong/sets/serial.h +43 -0
package/include/numkong/sets/smebi32.h +1099 -0
package/include/numkong/sets/v128relaxed.h +58 -0
package/include/numkong/sets.h +339 -0
package/include/numkong/sparse/README.md +156 -0
package/include/numkong/sparse/icelake.h +463 -0
package/include/numkong/sparse/neon.h +288 -0
package/include/numkong/sparse/serial.h +117 -0
package/include/numkong/sparse/sve2.h +507 -0
package/include/numkong/sparse/turin.h +322 -0
package/include/numkong/sparse.h +363 -0
package/include/numkong/sparse.hpp +113 -0
package/include/numkong/spatial/README.md +435 -0
package/include/numkong/spatial/alder.h +607 -0
package/include/numkong/spatial/genoa.h +290 -0
package/include/numkong/spatial/haswell.h +960 -0
package/include/numkong/spatial/icelake.h +586 -0
package/include/numkong/spatial/neon.h +773 -0
package/include/numkong/spatial/neonbfdot.h +165 -0
package/include/numkong/spatial/neonhalf.h +118 -0
package/include/numkong/spatial/neonsdot.h +261 -0
package/include/numkong/spatial/rvv.h +984 -0
package/include/numkong/spatial/rvvbf16.h +123 -0
package/include/numkong/spatial/rvvhalf.h +117 -0
package/include/numkong/spatial/sapphire.h +343 -0
package/include/numkong/spatial/serial.h +346 -0
package/include/numkong/spatial/sierra.h +323 -0
package/include/numkong/spatial/skylake.h +606 -0
package/include/numkong/spatial/sve.h +224 -0
package/include/numkong/spatial/svebfdot.h +122 -0
package/include/numkong/spatial/svehalf.h +109 -0
package/include/numkong/spatial/v128relaxed.h +717 -0
package/include/numkong/spatial.h +1425 -0
package/include/numkong/spatial.hpp +183 -0
package/include/numkong/spatials/README.md +580 -0
package/include/numkong/spatials/alder.h +94 -0
package/include/numkong/spatials/genoa.h +94 -0
package/include/numkong/spatials/haswell.h +219 -0
package/include/numkong/spatials/icelake.h +113 -0
package/include/numkong/spatials/neon.h +109 -0
package/include/numkong/spatials/neonbfdot.h +60 -0
package/include/numkong/spatials/neonfhm.h +92 -0
package/include/numkong/spatials/neonhalf.h +58 -0
package/include/numkong/spatials/neonsdot.h +109 -0
package/include/numkong/spatials/rvv.h +1960 -0
package/include/numkong/spatials/sapphireamx.h +1149 -0
package/include/numkong/spatials/serial.h +226 -0
package/include/numkong/spatials/sierra.h +96 -0
package/include/numkong/spatials/skylake.h +184 -0
package/include/numkong/spatials/sme.h +1901 -0
package/include/numkong/spatials/smef64.h +465 -0
package/include/numkong/spatials/v128relaxed.h +240 -0
package/include/numkong/spatials.h +3021 -0
package/include/numkong/spatials.hpp +508 -0
package/include/numkong/tensor.hpp +1592 -0
package/include/numkong/trigonometry/README.md +184 -0
package/include/numkong/trigonometry/haswell.h +652 -0
package/include/numkong/trigonometry/neon.h +639 -0
package/include/numkong/trigonometry/rvv.h +699 -0
package/include/numkong/trigonometry/serial.h +703 -0
package/include/numkong/trigonometry/skylake.h +721 -0
package/include/numkong/trigonometry/v128relaxed.h +666 -0
package/include/numkong/trigonometry.h +467 -0
package/include/numkong/trigonometry.hpp +166 -0
package/include/numkong/types.h +1384 -0
package/include/numkong/types.hpp +5603 -0
package/include/numkong/vector.hpp +698 -0
package/javascript/README.md +246 -0
package/javascript/dist/cjs/numkong-wasm.d.ts +166 -0
package/javascript/dist/cjs/numkong-wasm.js +617 -0
package/javascript/dist/cjs/numkong.d.ts +343 -0
package/javascript/dist/cjs/numkong.js +523 -0
package/javascript/dist/cjs/package.json +3 -0
package/javascript/dist/cjs/types.d.ts +284 -0
package/javascript/dist/cjs/types.js +653 -0
package/javascript/dist/esm/numkong-wasm.d.ts +166 -0
package/javascript/dist/esm/numkong-wasm.js +595 -0
package/javascript/dist/esm/numkong.d.ts +343 -0
package/javascript/dist/esm/numkong.js +452 -0
package/javascript/dist/esm/package.json +3 -0
package/javascript/dist/esm/types.d.ts +284 -0
package/javascript/dist/esm/types.js +630 -0
package/javascript/dist-package-cjs.json +3 -0
package/javascript/dist-package-esm.json +3 -0
package/javascript/node-gyp-build.d.ts +1 -0
package/javascript/numkong-wasm.ts +756 -0
package/javascript/numkong.c +689 -0
package/javascript/numkong.ts +575 -0
package/javascript/tsconfig-base.json +39 -0
package/javascript/tsconfig-cjs.json +8 -0
package/javascript/tsconfig-esm.json +8 -0
package/javascript/types.ts +674 -0
package/package.json +87 -0

package/include/numkong/each/neonbfdot.h ADDED Viewed

@@ -0,0 +1,212 @@
+/**
+ *  @brief SIMD-accelerated Elementwise Arithmetic for NEON BF16.
+ *  @file include/numkong/each/neonbfdot.h
+ *  @author Ash Vardanian
+ *  @date December 27, 2025
+ *
+ *  @sa include/numkong/each.h
+ *
+ *  @section elementwise_neonbfdot_instructions ARM NEON BF16 Instructions (ARMv8.6-BF16)
+ *
+ *      Intrinsic                   Instruction                     Latency     Throughput
+ *                                                                              A76         M4+/V1+/Oryon
+ *      vld1_bf16                   LD1 (V.4H)                      4cy         2/cy        3/cy
+ *      vst1_bf16                   ST1 (V.4H)                      2cy         2/cy        3/cy
+ *      vcvt_f32_bf16               BFCVTN (V.4H, V.4S)             3cy         2/cy        4/cy
+ *      vcvt_bf16_f32               BFCVT (V.4H, V.4S)              3cy         2/cy        4/cy
+ *      vaddq_f32                   FADD (V.4S, V.4S, V.4S)         2cy         2/cy        4/cy
+ *      vmulq_f32                   FMUL (V.4S, V.4S, V.4S)         3cy         2/cy        4/cy
+ *      vmulq_n_f32                 FMUL (V.4S, V.4S, scalar)       3cy         2/cy        4/cy
+ *      vfmaq_f32                   FMLA (V.4S, V.4S, V.4S)         4cy         2/cy        4/cy
+ *      vfmaq_n_f32                 FMLA (V.4S, V.4S, scalar)       4cy         2/cy        4/cy
+ *      vdupq_n_f32                 DUP (V.4S, scalar)              2cy         2/cy        4/cy
+ *
+ *  The ARMv8.6-BF16 extension provides element-wise operations on BF16 data by converting to F32
+ *  for arithmetic, then back to BF16 for storage. This preserves the dynamic range benefits of BF16
+ *  (matching F32 exponent) while using F32 precision for intermediate calculations.
+ *
+ *  Operations process 4 BF16 elements at a time, widening to F32 for computation. While this gives
+ *  lower throughput than native F16 operations, it prevents overflow issues common with FP16's
+ *  limited exponent range in ML training workloads.
+ */
+#ifndef NK_EACH_NEONBFDOT_H
+#define NK_EACH_NEONBFDOT_H
+#if NK_TARGET_ARM_
+#if NK_TARGET_NEONBFDOT
+#include "numkong/types.h"
+#include "numkong/cast/serial.h"
+#if defined(__cplusplus)
+extern "C" {
+#endif
+#if defined(__clang__)
+#pragma clang attribute push(__attribute__((target("arch=armv8.6-a+simd+bf16"))), apply_to = function)
+#elif defined(__GNUC__)
+#pragma GCC push_options
+#pragma GCC target("arch=armv8.6-a+simd+bf16")
+#endif
+NK_PUBLIC void nk_each_sum_bf16_neonbfdot(nk_bf16_t const *a, nk_bf16_t const *b, nk_size_t n, nk_bf16_t *result) {
+    nk_size_t i = 0;
+    for (; i + 4 <= n; i += 4) {
+        bfloat16x4_t a_bf16x4 = vld1_bf16((bfloat16_t const *)a + i);
+        bfloat16x4_t b_bf16x4 = vld1_bf16((bfloat16_t const *)b + i);
+        float32x4_t a_f32x4 = vcvt_f32_bf16(a_bf16x4);
+        float32x4_t b_f32x4 = vcvt_f32_bf16(b_bf16x4);
+        float32x4_t result_f32x4 = vaddq_f32(a_f32x4, b_f32x4);
+        bfloat16x4_t result_bf16x4 = vcvt_bf16_f32(result_f32x4);
+        vst1_bf16((bfloat16_t *)result + i, result_bf16x4);
+    }
+    if (i < n) {
+        nk_b64_vec_t a_tail, b_tail;
+        nk_partial_load_b16x4_serial_(a + i, &a_tail, n - i);
+        nk_partial_load_b16x4_serial_(b + i, &b_tail, n - i);
+        bfloat16x4_t a_bf16x4 = vreinterpret_bf16_u16(a_tail.u16x4);
+        bfloat16x4_t b_bf16x4 = vreinterpret_bf16_u16(b_tail.u16x4);
+        float32x4_t a_f32x4 = vcvt_f32_bf16(a_bf16x4);
+        float32x4_t b_f32x4 = vcvt_f32_bf16(b_bf16x4);
+        float32x4_t result_f32x4 = vaddq_f32(a_f32x4, b_f32x4);
+        bfloat16x4_t result_bf16x4 = vcvt_bf16_f32(result_f32x4);
+        nk_b64_vec_t result_vec;
+        result_vec.u16x4 = vreinterpret_u16_bf16(result_bf16x4);
+        nk_partial_store_b16x4_serial_(result + i, &result_vec, n - i);
+    }
+}
+NK_PUBLIC void nk_each_scale_bf16_neonbfdot(nk_bf16_t const *a, nk_size_t n, nk_f32_t const *alpha,
+                                            nk_f32_t const *beta, nk_bf16_t *result) {
+    nk_f32_t alpha_val = *alpha;
+    nk_f32_t beta_val = *beta;
+    float32x4_t alpha_f32x4 = vdupq_n_f32(alpha_val);
+    float32x4_t beta_f32x4 = vdupq_n_f32(beta_val);
+    nk_size_t i = 0;
+    for (; i + 4 <= n; i += 4) {
+        bfloat16x4_t a_bf16x4 = vld1_bf16((bfloat16_t const *)a + i);
+        float32x4_t a_f32x4 = vcvt_f32_bf16(a_bf16x4);
+        float32x4_t result_f32x4 = vfmaq_f32(beta_f32x4, a_f32x4, alpha_f32x4);
+        bfloat16x4_t result_bf16x4 = vcvt_bf16_f32(result_f32x4);
+        vst1_bf16((bfloat16_t *)result + i, result_bf16x4);
+    }
+    if (i < n) {
+        nk_b64_vec_t a_tail;
+        nk_partial_load_b16x4_serial_(a + i, &a_tail, n - i);
+        bfloat16x4_t a_bf16x4 = vreinterpret_bf16_u16(a_tail.u16x4);
+        float32x4_t a_f32x4 = vcvt_f32_bf16(a_bf16x4);
+        float32x4_t result_f32x4 = vfmaq_f32(beta_f32x4, a_f32x4, alpha_f32x4);
+        bfloat16x4_t result_bf16x4 = vcvt_bf16_f32(result_f32x4);
+        nk_b64_vec_t result_vec;
+        result_vec.u16x4 = vreinterpret_u16_bf16(result_bf16x4);
+        nk_partial_store_b16x4_serial_(result + i, &result_vec, n - i);
+    }
+}
+NK_PUBLIC void nk_each_blend_bf16_neonbfdot(             //
+    nk_bf16_t const *a, nk_bf16_t const *b, nk_size_t n, //
+    nk_f32_t const *alpha, nk_f32_t const *beta, nk_bf16_t *result) {
+    nk_f32_t alpha_val = *alpha;
+    nk_f32_t beta_val = *beta;
+    // There are several special cases we may want to implement:
+    // 1. Simple addition, when both weights are equal to 1.0.
+    if (alpha_val == 1 && beta_val == 1) {
+        // In this case we can avoid expensive multiplications.
+        nk_each_sum_bf16_neonbfdot(a, b, n, result);
+        return;
+    }
+    // 2. Just scaling, when one of the weights is equal to zero.
+    else if (alpha_val == 0 || beta_val == 0) {
+        // In this case we can avoid half of the load instructions.
+        nk_f32_t zero = 0;
+        if (beta_val == 0) { nk_each_scale_bf16_neonbfdot(a, n, alpha, &zero, result); }
+        else { nk_each_scale_bf16_neonbfdot(b, n, beta, &zero, result); }
+        return;
+    }
+    // The general case.
+    nk_size_t i = 0;
+    for (; i + 4 <= n; i += 4) {
+        bfloat16x4_t a_bf16x4 = vld1_bf16((bfloat16_t const *)a + i);
+        bfloat16x4_t b_bf16x4 = vld1_bf16((bfloat16_t const *)b + i);
+        float32x4_t a_f32x4 = vcvt_f32_bf16(a_bf16x4);
+        float32x4_t b_f32x4 = vcvt_f32_bf16(b_bf16x4);
+        float32x4_t a_scaled_f32x4 = vmulq_n_f32(a_f32x4, alpha_val);
+        float32x4_t b_scaled_f32x4 = vmulq_n_f32(b_f32x4, beta_val);
+        float32x4_t result_f32x4 = vaddq_f32(a_scaled_f32x4, b_scaled_f32x4);
+        bfloat16x4_t result_bf16x4 = vcvt_bf16_f32(result_f32x4);
+        vst1_bf16((bfloat16_t *)result + i, result_bf16x4);
+    }
+    if (i < n) {
+        nk_b64_vec_t a_tail, b_tail;
+        nk_partial_load_b16x4_serial_(a + i, &a_tail, n - i);
+        nk_partial_load_b16x4_serial_(b + i, &b_tail, n - i);
+        bfloat16x4_t a_bf16x4 = vreinterpret_bf16_u16(a_tail.u16x4);
+        bfloat16x4_t b_bf16x4 = vreinterpret_bf16_u16(b_tail.u16x4);
+        float32x4_t a_f32x4 = vcvt_f32_bf16(a_bf16x4);
+        float32x4_t b_f32x4 = vcvt_f32_bf16(b_bf16x4);
+        float32x4_t a_scaled_f32x4 = vmulq_n_f32(a_f32x4, alpha_val);
+        float32x4_t b_scaled_f32x4 = vmulq_n_f32(b_f32x4, beta_val);
+        float32x4_t result_f32x4 = vaddq_f32(a_scaled_f32x4, b_scaled_f32x4);
+        bfloat16x4_t result_bf16x4 = vcvt_bf16_f32(result_f32x4);
+        nk_b64_vec_t result_vec;
+        result_vec.u16x4 = vreinterpret_u16_bf16(result_bf16x4);
+        nk_partial_store_b16x4_serial_(result + i, &result_vec, n - i);
+    }
+}
+NK_PUBLIC void nk_each_fma_bf16_neonbfdot(                      //
+    nk_bf16_t const *a, nk_bf16_t const *b, nk_bf16_t const *c, //
+    nk_size_t n, nk_f32_t const *alpha, nk_f32_t const *beta, nk_bf16_t *result) {
+    nk_f32_t alpha_val = *alpha;
+    nk_f32_t beta_val = *beta;
+    nk_size_t i = 0;
+    for (; i + 4 <= n; i += 4) {
+        bfloat16x4_t a_bf16x4 = vld1_bf16((bfloat16_t const *)a + i);
+        bfloat16x4_t b_bf16x4 = vld1_bf16((bfloat16_t const *)b + i);
+        bfloat16x4_t c_bf16x4 = vld1_bf16((bfloat16_t const *)c + i);
+        float32x4_t a_f32x4 = vcvt_f32_bf16(a_bf16x4);
+        float32x4_t b_f32x4 = vcvt_f32_bf16(b_bf16x4);
+        float32x4_t c_f32x4 = vcvt_f32_bf16(c_bf16x4);
+        float32x4_t ab_f32x4 = vmulq_f32(a_f32x4, b_f32x4);
+        float32x4_t ab_scaled_f32x4 = vmulq_n_f32(ab_f32x4, alpha_val);
+        float32x4_t result_f32x4 = vfmaq_n_f32(ab_scaled_f32x4, c_f32x4, beta_val);
+        bfloat16x4_t result_bf16x4 = vcvt_bf16_f32(result_f32x4);
+        vst1_bf16((bfloat16_t *)result + i, result_bf16x4);
+    }
+    if (i < n) {
+        nk_b64_vec_t a_tail, b_tail, c_tail;
+        nk_partial_load_b16x4_serial_(a + i, &a_tail, n - i);
+        nk_partial_load_b16x4_serial_(b + i, &b_tail, n - i);
+        nk_partial_load_b16x4_serial_(c + i, &c_tail, n - i);
+        bfloat16x4_t a_bf16x4 = vreinterpret_bf16_u16(a_tail.u16x4);
+        bfloat16x4_t b_bf16x4 = vreinterpret_bf16_u16(b_tail.u16x4);
+        bfloat16x4_t c_bf16x4 = vreinterpret_bf16_u16(c_tail.u16x4);
+        float32x4_t a_f32x4 = vcvt_f32_bf16(a_bf16x4);
+        float32x4_t b_f32x4 = vcvt_f32_bf16(b_bf16x4);
+        float32x4_t c_f32x4 = vcvt_f32_bf16(c_bf16x4);
+        float32x4_t ab_f32x4 = vmulq_f32(a_f32x4, b_f32x4);
+        float32x4_t ab_scaled_f32x4 = vmulq_n_f32(ab_f32x4, alpha_val);
+        float32x4_t result_f32x4 = vfmaq_n_f32(ab_scaled_f32x4, c_f32x4, beta_val);
+        bfloat16x4_t result_bf16x4 = vcvt_bf16_f32(result_f32x4);
+        nk_b64_vec_t result_vec;
+        result_vec.u16x4 = vreinterpret_u16_bf16(result_bf16x4);
+        nk_partial_store_b16x4_serial_(result + i, &result_vec, n - i);
+    }
+}
+#if defined(__clang__)
+#pragma clang attribute pop
+#elif defined(__GNUC__)
+#pragma GCC pop_options
+#endif
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#endif // NK_TARGET_NEONBFDOT
+#endif // NK_TARGET_ARM_
+#endif // NK_EACH_NEONBFDOT_H

package/include/numkong/each/neonhalf.h ADDED Viewed

@@ -0,0 +1,410 @@
+/**
+ *  @brief SIMD-accelerated Elementwise Arithmetic for NEON FP16.
+ *  @file include/numkong/each/neonhalf.h
+ *  @author Ash Vardanian
+ *  @date December 27, 2025
+ *
+ *  @sa include/numkong/each.h
+ *
+ *  @section elementwise_neonhalf_instructions ARM NEON FP16 Instructions (ARMv8.2-FP16)
+ *
+ *      Intrinsic                   Instruction                     Latency     Throughput
+ *                                                                              A76         M4+/V1+/Oryon
+ *      vld1q_f16                   LD1 (V.8H)                      4cy         2/cy        3/cy
+ *      vst1q_f16                   ST1 (V.8H)                      2cy         2/cy        3/cy
+ *      vaddq_f16                   FADD (V.8H, V.8H, V.8H)         2cy         2/cy        4/cy
+ *      vmulq_f16                   FMUL (V.8H, V.8H, V.8H)         3cy         2/cy        4/cy
+ *      vmulq_n_f16                 FMUL (V.8H, V.8H, scalar)       3cy         2/cy        4/cy
+ *      vfmaq_f16                   FMLA (V.8H, V.8H, V.8H)         4cy         2/cy        4/cy
+ *      vfmaq_n_f16                 FMLA (V.8H, V.8H, scalar)       4cy         2/cy        4/cy
+ *      vdupq_n_f16                 DUP (V.8H, scalar)              2cy         2/cy        4/cy
+ *      vld1_u8                     LD1 (V.8B)                      4cy         2/cy        3/cy
+ *      vld1_s8                     LD1 (V.8B)                      4cy         2/cy        3/cy
+ *      vmovl_u8                    UXTL (V.8H, V.8B)               2cy         2/cy        4/cy
+ *      vmovl_s8                    SXTL (V.8H, V.8B)               2cy         2/cy        4/cy
+ *      vcvtq_f16_u16               UCVTF (V.8H, V.8H)              3cy         2/cy        4/cy
+ *      vcvtq_f16_s16               SCVTF (V.8H, V.8H)              3cy         2/cy        4/cy
+ *      vcvtnq_u16_f16              FCVTNU (V.8H, V.8H)             3cy         2/cy        4/cy
+ *      vcvtnq_s16_f16              FCVTNS (V.8H, V.8H)             3cy         2/cy        4/cy
+ *      vqmovn_u16                  UQXTN (V.8B, V.8H)              3cy         2/cy        4/cy
+ *      vqmovn_s16                  SQXTN (V.8B, V.8H)              3cy         2/cy        4/cy
+ *      vqaddq_u8                   UQADD (V.16B, V.16B, V.16B)     2cy         2/cy        4/cy
+ *      vqaddq_s8                   SQADD (V.16B, V.16B, V.16B)     2cy         2/cy        4/cy
+ *
+ *  The ARMv8.2-FP16 extension enables native half-precision element-wise operations, processing 8
+ *  F16 elements per instruction. Operations like sum, scale, blend, and fma work directly in F16,
+ *  avoiding conversion overhead while halving memory bandwidth vs F32.
+ *
+ *  For int8 element-wise operations, values are widened to F16 for arithmetic via UCVTF/SCVTF,
+ *  then narrowed back with saturating conversion (FCVTA + UQXTN/SQXTN) to handle overflow gracefully.
+ */
+#ifndef NK_EACH_NEONHALF_H
+#define NK_EACH_NEONHALF_H
+#if NK_TARGET_ARM_
+#if NK_TARGET_NEONHALF
+#include "numkong/types.h"
+#include "numkong/cast/serial.h" // `nk_f32_to_i8_serial`
+#if defined(__cplusplus)
+extern "C" {
+#endif
+#if defined(__clang__)
+#pragma clang attribute push(__attribute__((target("arch=armv8.2-a+simd+fp16"))), apply_to = function)
+#elif defined(__GNUC__)
+#pragma GCC push_options
+#pragma GCC target("arch=armv8.2-a+simd+fp16")
+#endif
+NK_PUBLIC void nk_each_sum_f16_neonhalf(nk_f16_t const *a, nk_f16_t const *b, nk_size_t n, nk_f16_t *result) {
+    // The main loop:
+    nk_size_t i = 0;
+    for (; i + 8 <= n; i += 8) {
+        float16x8_t a_vec = vld1q_f16((float16_t const *)a + i);
+        float16x8_t b_vec = vld1q_f16((float16_t const *)b + i);
+        float16x8_t sum_vec = vaddq_f16(a_vec, b_vec);
+        vst1q_f16((float16_t *)result + i, sum_vec);
+    }
+    // The tail:
+    for (; i < n; ++i) ((float16_t *)result)[i] = ((float16_t const *)a)[i] + ((float16_t const *)b)[i];
+}
+NK_PUBLIC void nk_each_scale_f16_neonhalf(nk_f16_t const *a, nk_size_t n, nk_f32_t const *alpha, nk_f32_t const *beta,
+                                          nk_f16_t *result) {
+    nk_f32_t alpha_val = *alpha;
+    nk_f32_t beta_val = *beta;
+    float16_t alpha_f16 = (float16_t)alpha_val;
+    float16_t beta_f16 = (float16_t)beta_val;
+    float16x8_t alpha_f16x8 = vdupq_n_f16(alpha_f16);
+    float16x8_t beta_f16x8 = vdupq_n_f16(beta_f16);
+    // The main loop:
+    nk_size_t i = 0;
+    for (; i + 8 <= n; i += 8) {
+        float16x8_t a_f16x8 = vld1q_f16((float16_t const *)a + i);
+        float16x8_t result_f16x8 = vfmaq_f16(beta_f16x8, a_f16x8, alpha_f16x8);
+        vst1q_f16((float16_t *)result + i, result_f16x8);
+    }
+    // The tail:
+    for (; i < n; ++i) ((float16_t *)result)[i] = alpha_f16 * ((float16_t const *)a)[i] + beta_f16;
+}
+NK_PUBLIC void nk_each_blend_f16_neonhalf(             //
+    nk_f16_t const *a, nk_f16_t const *b, nk_size_t n, //
+    nk_f32_t const *alpha, nk_f32_t const *beta, nk_f16_t *result) {
+    nk_f32_t alpha_val = *alpha;
+    nk_f32_t beta_val = *beta;
+    // There are several special cases we may want to implement:
+    // 1. Simple addition, when both weights are equal to 1.0.
+    if (alpha_val == 1 && beta_val == 1) {
+        // In this case we can avoid expensive multiplications.
+        nk_each_sum_f16_neonhalf(a, b, n, result);
+        return;
+    }
+    // 2. Just scaling, when one of the weights is equal to zero.
+    else if (alpha_val == 0 || beta_val == 0) {
+        // In this case we can avoid half of the load instructions.
+        nk_f32_t zero = 0;
+        if (beta_val == 0) { nk_each_scale_f16_neonhalf(a, n, alpha, &zero, result); }
+        else { nk_each_scale_f16_neonhalf(b, n, beta, &zero, result); }
+        return;
+    }
+    // The general case.
+    float16_t alpha_f16 = (float16_t)alpha_val;
+    float16_t beta_f16 = (float16_t)beta_val;
+    // The main loop:
+    nk_size_t i = 0;
+    for (; i + 8 <= n; i += 8) {
+        float16x8_t a_f16x8 = vld1q_f16((float16_t const *)a + i);
+        float16x8_t b_f16x8 = vld1q_f16((float16_t const *)b + i);
+        float16x8_t a_scaled_f16x8 = vmulq_n_f16(a_f16x8, alpha_f16);
+        float16x8_t result_f16x8 = vfmaq_n_f16(a_scaled_f16x8, b_f16x8, beta_f16);
+        vst1q_f16((float16_t *)result + i, result_f16x8);
+    }
+    // The tail:
+    for (; i < n; ++i)
+        ((float16_t *)result)[i] = alpha_f16 * ((float16_t const *)a)[i] + beta_f16 * ((float16_t const *)b)[i];
+}
+NK_PUBLIC void nk_each_fma_f16_neonhalf(                     //
+    nk_f16_t const *a, nk_f16_t const *b, nk_f16_t const *c, //
+    nk_size_t n, nk_f32_t const *alpha, nk_f32_t const *beta, nk_f16_t *result) {
+    nk_f32_t alpha_val = *alpha;
+    nk_f32_t beta_val = *beta;
+    float16_t alpha_f16 = (float16_t)alpha_val;
+    float16_t beta_f16 = (float16_t)beta_val;
+    // The main loop:
+    nk_size_t i = 0;
+    for (; i + 8 <= n; i += 8) {
+        float16x8_t a_f16x8 = vld1q_f16((float16_t const *)a + i);
+        float16x8_t b_f16x8 = vld1q_f16((float16_t const *)b + i);
+        float16x8_t c_f16x8 = vld1q_f16((float16_t const *)c + i);
+        float16x8_t ab_f16x8 = vmulq_f16(a_f16x8, b_f16x8);
+        float16x8_t ab_scaled_f16x8 = vmulq_n_f16(ab_f16x8, alpha_f16);
+        float16x8_t result_f16x8 = vfmaq_n_f16(ab_scaled_f16x8, c_f16x8, beta_f16);
+        vst1q_f16((float16_t *)result + i, result_f16x8);
+    }
+    // The tail:
+    for (; i < n; ++i)
+        ((float16_t *)result)[i] = alpha_f16 * ((float16_t const *)a)[i] * ((float16_t const *)b)[i] +
+                                   beta_f16 * ((float16_t const *)c)[i];
+}
+NK_PUBLIC void nk_each_sum_u8_neonhalf(nk_u8_t const *a, nk_u8_t const *b, nk_size_t n, nk_u8_t *result) {
+    // The main loop:
+    nk_size_t i = 0;
+    for (; i + 16 <= n; i += 16) {
+        uint8x16_t a_vec = vld1q_u8(a + i);
+        uint8x16_t b_vec = vld1q_u8(b + i);
+        uint8x16_t sum_vec = vqaddq_u8(a_vec, b_vec);
+        vst1q_u8(result + i, sum_vec);
+    }
+    // The tail:
+    for (; i < n; ++i) {
+        nk_f32_t sum = (nk_f32_t)a[i] + b[i];
+        nk_f32_to_u8_serial(&sum, result + i);
+    }
+}
+NK_PUBLIC void nk_each_scale_u8_neonhalf(nk_u8_t const *a, nk_size_t n, nk_f32_t const *alpha, nk_f32_t const *beta,
+                                         nk_u8_t *result) {
+    float16_t alpha_f16 = (float16_t)*alpha;
+    float16_t beta_f16 = (float16_t)*beta;
+    float16x8_t alpha_f16x8 = vdupq_n_f16(alpha_f16);
+    float16x8_t beta_f16x8 = vdupq_n_f16(beta_f16);
+    // The main loop:
+    nk_size_t i = 0;
+    for (; i + 8 <= n; i += 8) {
+        uint8x8_t a_u8x8 = vld1_u8(a + i);
+        float16x8_t a_f16x8 = vcvtq_f16_u16(vmovl_u8(a_u8x8));
+        float16x8_t result_f16x8 = vfmaq_f16(beta_f16x8, a_f16x8, alpha_f16x8);
+        uint8x8_t result_u8x8 = vqmovn_u16(vcvtnq_u16_f16(result_f16x8));
+        vst1_u8(result + i, result_u8x8);
+    }
+    // The tail:
+    for (; i < n; ++i) {
+        nk_f32_t sum = alpha_f16 * a[i] + beta_f16;
+        nk_f32_to_u8_serial(&sum, result + i);
+    }
+}
+NK_PUBLIC void nk_each_blend_u8_neonhalf(            //
+    nk_u8_t const *a, nk_u8_t const *b, nk_size_t n, //
+    nk_f32_t const *alpha, nk_f32_t const *beta, nk_u8_t *result) {
+    nk_f32_t alpha_val = *alpha;
+    nk_f32_t beta_val = *beta;
+    // There are several special cases we may want to implement:
+    // 1. Simple addition, when both weights are equal to 1.0.
+    if (alpha_val == 1 && beta_val == 1) {
+        // In this case we can avoid expensive multiplications.
+        nk_each_sum_u8_neonhalf(a, b, n, result);
+        return;
+    }
+    // 2. Just scaling, when one of the weights is equal to zero.
+    else if (alpha_val == 0 || beta_val == 0) {
+        // In this case we can avoid half of the load instructions.
+        nk_f32_t zero = 0;
+        if (beta_val == 0) { nk_each_scale_u8_neonhalf(a, n, alpha, &zero, result); }
+        else { nk_each_scale_u8_neonhalf(b, n, beta, &zero, result); }
+        return;
+    }
+    // The general case.
+    float16_t alpha_f16 = (float16_t)alpha_val;
+    float16_t beta_f16 = (float16_t)beta_val;
+    // The main loop:
+    nk_size_t i = 0;
+    for (; i + 8 <= n; i += 8) {
+        uint8x8_t a_u8x8 = vld1_u8(a + i);
+        uint8x8_t b_u8x8 = vld1_u8(b + i);
+        float16x8_t a_f16x8 = vcvtq_f16_u16(vmovl_u8(a_u8x8));
+        float16x8_t b_f16x8 = vcvtq_f16_u16(vmovl_u8(b_u8x8));
+        float16x8_t a_scaled_f16x8 = vmulq_n_f16(a_f16x8, alpha_f16);
+        float16x8_t result_f16x8 = vfmaq_n_f16(a_scaled_f16x8, b_f16x8, beta_f16);
+        uint8x8_t result_u8x8 = vqmovn_u16(vcvtnq_u16_f16(result_f16x8));
+        vst1_u8(result + i, result_u8x8);
+    }
+    // The tail:
+    for (; i < n; ++i) {
+        nk_f32_t sum = alpha_f16 * a[i] + beta_f16 * b[i];
+        nk_f32_to_u8_serial(&sum, result + i);
+    }
+}
+NK_PUBLIC void nk_each_fma_u8_neonhalf(                   //
+    nk_u8_t const *a, nk_u8_t const *b, nk_u8_t const *c, //
+    nk_size_t n, nk_f32_t const *alpha, nk_f32_t const *beta, nk_u8_t *result) {
+    float16_t alpha_f16 = (float16_t)*alpha;
+    float16_t beta_f16 = (float16_t)*beta;
+    // The main loop:
+    nk_size_t i = 0;
+    for (; i + 8 <= n; i += 8) {
+        uint8x8_t a_u8x8 = vld1_u8(a + i);
+        uint8x8_t b_u8x8 = vld1_u8(b + i);
+        uint8x8_t c_u8x8 = vld1_u8(c + i);
+        float16x8_t a_f16x8 = vcvtq_f16_u16(vmovl_u8(a_u8x8));
+        float16x8_t b_f16x8 = vcvtq_f16_u16(vmovl_u8(b_u8x8));
+        float16x8_t c_f16x8 = vcvtq_f16_u16(vmovl_u8(c_u8x8));
+        float16x8_t ab_f16x8 = vmulq_f16(a_f16x8, b_f16x8);
+        float16x8_t ab_scaled_f16x8 = vmulq_n_f16(ab_f16x8, alpha_f16);
+        float16x8_t result_f16x8 = vfmaq_n_f16(ab_scaled_f16x8, c_f16x8, beta_f16);
+        uint8x8_t result_u8x8 = vqmovn_u16(vcvtnq_u16_f16(result_f16x8));
+        vst1_u8(result + i, result_u8x8);
+    }
+    // The tail:
+    for (; i < n; ++i) {
+        nk_f32_t sum = alpha_f16 * a[i] * b[i] + beta_f16 * c[i];
+        nk_f32_to_u8_serial(&sum, result + i);
+    }
+}
+NK_PUBLIC void nk_each_sum_i8_neonhalf(nk_i8_t const *a, nk_i8_t const *b, nk_size_t n, nk_i8_t *result) {
+    // The main loop:
+    nk_size_t i = 0;
+    for (; i + 16 <= n; i += 16) {
+        int8x16_t a_vec = vld1q_s8(a + i);
+        int8x16_t b_vec = vld1q_s8(b + i);
+        int8x16_t sum_vec = vqaddq_s8(a_vec, b_vec);
+        vst1q_s8(result + i, sum_vec);
+    }
+    // The tail:
+    for (; i < n; ++i) {
+        nk_f32_t sum = (nk_f32_t)a[i] + b[i];
+        nk_f32_to_i8_serial(&sum, result + i);
+    }
+}
+NK_PUBLIC void nk_each_scale_i8_neonhalf(nk_i8_t const *a, nk_size_t n, nk_f32_t const *alpha, nk_f32_t const *beta,
+                                         nk_i8_t *result) {
+    float16_t alpha_f16 = (float16_t)*alpha;
+    float16_t beta_f16 = (float16_t)*beta;
+    float16x8_t alpha_f16x8 = vdupq_n_f16(alpha_f16);
+    float16x8_t beta_f16x8 = vdupq_n_f16(beta_f16);
+    // The main loop:
+    nk_size_t i = 0;
+    for (; i + 8 <= n; i += 8) {
+        int8x8_t a_i8x8 = vld1_s8(a + i);
+        float16x8_t a_f16x8 = vcvtq_f16_s16(vmovl_s8(a_i8x8));
+        float16x8_t result_f16x8 = vfmaq_f16(beta_f16x8, a_f16x8, alpha_f16x8);
+        int8x8_t result_i8x8 = vqmovn_s16(vcvtnq_s16_f16(result_f16x8));
+        vst1_s8(result + i, result_i8x8);
+    }
+    // The tail:
+    for (; i < n; ++i) {
+        nk_f32_t sum = alpha_f16 * a[i] + beta_f16;
+        nk_f32_to_i8_serial(&sum, result + i);
+    }
+}
+NK_PUBLIC void nk_each_blend_i8_neonhalf(            //
+    nk_i8_t const *a, nk_i8_t const *b, nk_size_t n, //
+    nk_f32_t const *alpha, nk_f32_t const *beta, nk_i8_t *result) {
+    nk_f32_t alpha_val = *alpha;
+    nk_f32_t beta_val = *beta;
+    // There are several special cases we may want to implement:
+    // 1. Simple addition, when both weights are equal to 1.0.
+    if (alpha_val == 1 && beta_val == 1) {
+        // In this case we can avoid expensive multiplications.
+        nk_each_sum_i8_neonhalf(a, b, n, result);
+        return;
+    }
+    // 2. Just scaling, when one of the weights is equal to zero.
+    else if (alpha_val == 0 || beta_val == 0) {
+        // In this case we can avoid half of the load instructions.
+        nk_f32_t zero = 0;
+        if (beta_val == 0) { nk_each_scale_i8_neonhalf(a, n, alpha, &zero, result); }
+        else { nk_each_scale_i8_neonhalf(b, n, beta, &zero, result); }
+        return;
+    }
+    // The general case.
+    float16_t alpha_f16 = (float16_t)alpha_val;
+    float16_t beta_f16 = (float16_t)beta_val;
+    // The main loop:
+    nk_size_t i = 0;
+    for (; i + 8 <= n; i += 8) {
+        int8x8_t a_i8x8 = vld1_s8(a + i);
+        int8x8_t b_i8x8 = vld1_s8(b + i);
+        float16x8_t a_f16x8 = vcvtq_f16_s16(vmovl_s8(a_i8x8));
+        float16x8_t b_f16x8 = vcvtq_f16_s16(vmovl_s8(b_i8x8));
+        float16x8_t a_scaled_f16x8 = vmulq_n_f16(a_f16x8, alpha_f16);
+        float16x8_t result_f16x8 = vfmaq_n_f16(a_scaled_f16x8, b_f16x8, beta_f16);
+        int8x8_t result_i8x8 = vqmovn_s16(vcvtnq_s16_f16(result_f16x8));
+        vst1_s8(result + i, result_i8x8);
+    }
+    // The tail:
+    for (; i < n; ++i) {
+        nk_f32_t sum = alpha_f16 * a[i] + beta_f16 * b[i];
+        nk_f32_to_i8_serial(&sum, result + i);
+    }
+}
+NK_PUBLIC void nk_each_fma_i8_neonhalf(                   //
+    nk_i8_t const *a, nk_i8_t const *b, nk_i8_t const *c, //
+    nk_size_t n, nk_f32_t const *alpha, nk_f32_t const *beta, nk_i8_t *result) {
+    float16_t alpha_f16 = (float16_t)*alpha;
+    float16_t beta_f16 = (float16_t)*beta;
+    // The main loop:
+    nk_size_t i = 0;
+    for (; i + 8 <= n; i += 8) {
+        int8x8_t a_i8x8 = vld1_s8(a + i);
+        int8x8_t b_i8x8 = vld1_s8(b + i);
+        int8x8_t c_i8x8 = vld1_s8(c + i);
+        float16x8_t a_f16x8 = vcvtq_f16_s16(vmovl_s8(a_i8x8));
+        float16x8_t b_f16x8 = vcvtq_f16_s16(vmovl_s8(b_i8x8));
+        float16x8_t c_f16x8 = vcvtq_f16_s16(vmovl_s8(c_i8x8));
+        float16x8_t ab_f16x8 = vmulq_f16(a_f16x8, b_f16x8);
+        float16x8_t ab_scaled_f16x8 = vmulq_n_f16(ab_f16x8, alpha_f16);
+        float16x8_t result_f16x8 = vfmaq_n_f16(ab_scaled_f16x8, c_f16x8, beta_f16);
+        int8x8_t result_i8x8 = vqmovn_s16(vcvtnq_s16_f16(result_f16x8));
+        vst1_s8(result + i, result_i8x8);
+    }
+    // The tail:
+    for (; i < n; ++i) {
+        nk_f32_t sum = alpha_f16 * a[i] * b[i] + beta_f16 * c[i];
+        nk_f32_to_i8_serial(&sum, result + i);
+    }
+}
+#if defined(__clang__)
+#pragma clang attribute pop
+#elif defined(__GNUC__)
+#pragma GCC pop_options
+#endif
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#endif // NK_TARGET_NEONHALF
+#endif // NK_TARGET_ARM_
+#endif // NK_EACH_NEONHALF_H