npm - numkong - Versions diffs - 7.0.0 - Mend

numkong 7.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (294) hide show

package/LICENSE +201 -0
package/README.md +495 -0
package/binding.gyp +540 -0
package/c/dispatch.h +512 -0
package/c/dispatch_bf16.c +389 -0
package/c/dispatch_bf16c.c +52 -0
package/c/dispatch_e2m3.c +263 -0
package/c/dispatch_e3m2.c +243 -0
package/c/dispatch_e4m3.c +276 -0
package/c/dispatch_e5m2.c +272 -0
package/c/dispatch_f16.c +376 -0
package/c/dispatch_f16c.c +58 -0
package/c/dispatch_f32.c +378 -0
package/c/dispatch_f32c.c +99 -0
package/c/dispatch_f64.c +296 -0
package/c/dispatch_f64c.c +98 -0
package/c/dispatch_i16.c +96 -0
package/c/dispatch_i32.c +89 -0
package/c/dispatch_i4.c +150 -0
package/c/dispatch_i64.c +86 -0
package/c/dispatch_i8.c +289 -0
package/c/dispatch_other.c +330 -0
package/c/dispatch_u1.c +148 -0
package/c/dispatch_u16.c +124 -0
package/c/dispatch_u32.c +118 -0
package/c/dispatch_u4.c +150 -0
package/c/dispatch_u64.c +102 -0
package/c/dispatch_u8.c +303 -0
package/c/numkong.c +950 -0
package/include/README.md +573 -0
package/include/module.modulemap +129 -0
package/include/numkong/attention/sapphireamx.h +1361 -0
package/include/numkong/attention/sme.h +2066 -0
package/include/numkong/attention.h +49 -0
package/include/numkong/capabilities.h +748 -0
package/include/numkong/cast/README.md +262 -0
package/include/numkong/cast/haswell.h +975 -0
package/include/numkong/cast/icelake.h +470 -0
package/include/numkong/cast/neon.h +1192 -0
package/include/numkong/cast/rvv.h +1021 -0
package/include/numkong/cast/sapphire.h +262 -0
package/include/numkong/cast/serial.h +2262 -0
package/include/numkong/cast/skylake.h +856 -0
package/include/numkong/cast/v128relaxed.h +180 -0
package/include/numkong/cast.h +230 -0
package/include/numkong/curved/README.md +223 -0
package/include/numkong/curved/genoa.h +182 -0
package/include/numkong/curved/haswell.h +276 -0
package/include/numkong/curved/neon.h +205 -0
package/include/numkong/curved/neonbfdot.h +212 -0
package/include/numkong/curved/neonhalf.h +212 -0
package/include/numkong/curved/rvv.h +305 -0
package/include/numkong/curved/serial.h +207 -0
package/include/numkong/curved/skylake.h +457 -0
package/include/numkong/curved/smef64.h +506 -0
package/include/numkong/curved.h +517 -0
package/include/numkong/curved.hpp +144 -0
package/include/numkong/dot/README.md +425 -0
package/include/numkong/dot/alder.h +563 -0
package/include/numkong/dot/genoa.h +315 -0
package/include/numkong/dot/haswell.h +1688 -0
package/include/numkong/dot/icelake.h +883 -0
package/include/numkong/dot/neon.h +818 -0
package/include/numkong/dot/neonbfdot.h +244 -0
package/include/numkong/dot/neonfhm.h +360 -0
package/include/numkong/dot/neonhalf.h +198 -0
package/include/numkong/dot/neonsdot.h +508 -0
package/include/numkong/dot/rvv.h +714 -0
package/include/numkong/dot/rvvbb.h +72 -0
package/include/numkong/dot/rvvbf16.h +123 -0
package/include/numkong/dot/rvvhalf.h +129 -0
package/include/numkong/dot/sapphire.h +141 -0
package/include/numkong/dot/serial.h +838 -0
package/include/numkong/dot/sierra.h +405 -0
package/include/numkong/dot/skylake.h +1084 -0
package/include/numkong/dot/sve.h +379 -0
package/include/numkong/dot/svebfdot.h +74 -0
package/include/numkong/dot/svehalf.h +123 -0
package/include/numkong/dot/v128relaxed.h +1258 -0
package/include/numkong/dot.h +1070 -0
package/include/numkong/dot.hpp +94 -0
package/include/numkong/dots/README.md +496 -0
package/include/numkong/dots/alder.h +114 -0
package/include/numkong/dots/genoa.h +94 -0
package/include/numkong/dots/haswell.h +295 -0
package/include/numkong/dots/icelake.h +171 -0
package/include/numkong/dots/neon.h +120 -0
package/include/numkong/dots/neonbfdot.h +58 -0
package/include/numkong/dots/neonfhm.h +94 -0
package/include/numkong/dots/neonhalf.h +57 -0
package/include/numkong/dots/neonsdot.h +108 -0
package/include/numkong/dots/rvv.h +2486 -0
package/include/numkong/dots/sapphireamx.h +3973 -0
package/include/numkong/dots/serial.h +2844 -0
package/include/numkong/dots/sierra.h +97 -0
package/include/numkong/dots/skylake.h +196 -0
package/include/numkong/dots/sme.h +5372 -0
package/include/numkong/dots/smebi32.h +461 -0
package/include/numkong/dots/smef64.h +1318 -0
package/include/numkong/dots/smehalf.h +47 -0
package/include/numkong/dots/v128relaxed.h +294 -0
package/include/numkong/dots.h +2804 -0
package/include/numkong/dots.hpp +639 -0
package/include/numkong/each/README.md +469 -0
package/include/numkong/each/haswell.h +1658 -0
package/include/numkong/each/icelake.h +272 -0
package/include/numkong/each/neon.h +1104 -0
package/include/numkong/each/neonbfdot.h +212 -0
package/include/numkong/each/neonhalf.h +410 -0
package/include/numkong/each/rvv.h +1121 -0
package/include/numkong/each/sapphire.h +477 -0
package/include/numkong/each/serial.h +260 -0
package/include/numkong/each/skylake.h +1562 -0
package/include/numkong/each.h +2146 -0
package/include/numkong/each.hpp +434 -0
package/include/numkong/geospatial/README.md +147 -0
package/include/numkong/geospatial/haswell.h +593 -0
package/include/numkong/geospatial/neon.h +571 -0
package/include/numkong/geospatial/rvv.h +701 -0
package/include/numkong/geospatial/serial.h +309 -0
package/include/numkong/geospatial/skylake.h +577 -0
package/include/numkong/geospatial/v128relaxed.h +613 -0
package/include/numkong/geospatial.h +453 -0
package/include/numkong/geospatial.hpp +235 -0
package/include/numkong/matrix.hpp +336 -0
package/include/numkong/maxsim/README.md +187 -0
package/include/numkong/maxsim/alder.h +511 -0
package/include/numkong/maxsim/genoa.h +115 -0
package/include/numkong/maxsim/haswell.h +553 -0
package/include/numkong/maxsim/icelake.h +480 -0
package/include/numkong/maxsim/neonsdot.h +394 -0
package/include/numkong/maxsim/sapphireamx.h +877 -0
package/include/numkong/maxsim/serial.h +490 -0
package/include/numkong/maxsim/sme.h +929 -0
package/include/numkong/maxsim/v128relaxed.h +280 -0
package/include/numkong/maxsim.h +571 -0
package/include/numkong/maxsim.hpp +133 -0
package/include/numkong/mesh/README.md +227 -0
package/include/numkong/mesh/haswell.h +2235 -0
package/include/numkong/mesh/neon.h +1329 -0
package/include/numkong/mesh/neonbfdot.h +842 -0
package/include/numkong/mesh/neonhalf.h +616 -0
package/include/numkong/mesh/rvv.h +916 -0
package/include/numkong/mesh/serial.h +742 -0
package/include/numkong/mesh/skylake.h +1135 -0
package/include/numkong/mesh/v128relaxed.h +1052 -0
package/include/numkong/mesh.h +652 -0
package/include/numkong/mesh.hpp +762 -0
package/include/numkong/numkong.h +78 -0
package/include/numkong/numkong.hpp +57 -0
package/include/numkong/probability/README.md +173 -0
package/include/numkong/probability/haswell.h +267 -0
package/include/numkong/probability/neon.h +225 -0
package/include/numkong/probability/rvv.h +409 -0
package/include/numkong/probability/serial.h +169 -0
package/include/numkong/probability/skylake.h +324 -0
package/include/numkong/probability.h +383 -0
package/include/numkong/probability.hpp +120 -0
package/include/numkong/random.h +50 -0
package/include/numkong/random.hpp +285 -0
package/include/numkong/reduce/README.md +547 -0
package/include/numkong/reduce/alder.h +632 -0
package/include/numkong/reduce/genoa.h +201 -0
package/include/numkong/reduce/haswell.h +3783 -0
package/include/numkong/reduce/icelake.h +549 -0
package/include/numkong/reduce/neon.h +3841 -0
package/include/numkong/reduce/neonbfdot.h +353 -0
package/include/numkong/reduce/neonfhm.h +665 -0
package/include/numkong/reduce/neonhalf.h +157 -0
package/include/numkong/reduce/neonsdot.h +357 -0
package/include/numkong/reduce/rvv.h +3407 -0
package/include/numkong/reduce/serial.h +757 -0
package/include/numkong/reduce/sierra.h +338 -0
package/include/numkong/reduce/skylake.h +3792 -0
package/include/numkong/reduce/v128relaxed.h +2302 -0
package/include/numkong/reduce.h +1597 -0
package/include/numkong/reduce.hpp +633 -0
package/include/numkong/scalar/README.md +89 -0
package/include/numkong/scalar/haswell.h +113 -0
package/include/numkong/scalar/neon.h +122 -0
package/include/numkong/scalar/neonhalf.h +70 -0
package/include/numkong/scalar/rvv.h +211 -0
package/include/numkong/scalar/sapphire.h +63 -0
package/include/numkong/scalar/serial.h +332 -0
package/include/numkong/scalar/v128relaxed.h +56 -0
package/include/numkong/scalar.h +683 -0
package/include/numkong/set/README.md +179 -0
package/include/numkong/set/haswell.h +334 -0
package/include/numkong/set/icelake.h +485 -0
package/include/numkong/set/neon.h +364 -0
package/include/numkong/set/rvv.h +226 -0
package/include/numkong/set/rvvbb.h +117 -0
package/include/numkong/set/serial.h +174 -0
package/include/numkong/set/sve.h +185 -0
package/include/numkong/set/v128relaxed.h +240 -0
package/include/numkong/set.h +457 -0
package/include/numkong/set.hpp +114 -0
package/include/numkong/sets/README.md +149 -0
package/include/numkong/sets/haswell.h +63 -0
package/include/numkong/sets/icelake.h +66 -0
package/include/numkong/sets/neon.h +61 -0
package/include/numkong/sets/serial.h +43 -0
package/include/numkong/sets/smebi32.h +1099 -0
package/include/numkong/sets/v128relaxed.h +58 -0
package/include/numkong/sets.h +339 -0
package/include/numkong/sparse/README.md +156 -0
package/include/numkong/sparse/icelake.h +463 -0
package/include/numkong/sparse/neon.h +288 -0
package/include/numkong/sparse/serial.h +117 -0
package/include/numkong/sparse/sve2.h +507 -0
package/include/numkong/sparse/turin.h +322 -0
package/include/numkong/sparse.h +363 -0
package/include/numkong/sparse.hpp +113 -0
package/include/numkong/spatial/README.md +435 -0
package/include/numkong/spatial/alder.h +607 -0
package/include/numkong/spatial/genoa.h +290 -0
package/include/numkong/spatial/haswell.h +960 -0
package/include/numkong/spatial/icelake.h +586 -0
package/include/numkong/spatial/neon.h +773 -0
package/include/numkong/spatial/neonbfdot.h +165 -0
package/include/numkong/spatial/neonhalf.h +118 -0
package/include/numkong/spatial/neonsdot.h +261 -0
package/include/numkong/spatial/rvv.h +984 -0
package/include/numkong/spatial/rvvbf16.h +123 -0
package/include/numkong/spatial/rvvhalf.h +117 -0
package/include/numkong/spatial/sapphire.h +343 -0
package/include/numkong/spatial/serial.h +346 -0
package/include/numkong/spatial/sierra.h +323 -0
package/include/numkong/spatial/skylake.h +606 -0
package/include/numkong/spatial/sve.h +224 -0
package/include/numkong/spatial/svebfdot.h +122 -0
package/include/numkong/spatial/svehalf.h +109 -0
package/include/numkong/spatial/v128relaxed.h +717 -0
package/include/numkong/spatial.h +1425 -0
package/include/numkong/spatial.hpp +183 -0
package/include/numkong/spatials/README.md +580 -0
package/include/numkong/spatials/alder.h +94 -0
package/include/numkong/spatials/genoa.h +94 -0
package/include/numkong/spatials/haswell.h +219 -0
package/include/numkong/spatials/icelake.h +113 -0
package/include/numkong/spatials/neon.h +109 -0
package/include/numkong/spatials/neonbfdot.h +60 -0
package/include/numkong/spatials/neonfhm.h +92 -0
package/include/numkong/spatials/neonhalf.h +58 -0
package/include/numkong/spatials/neonsdot.h +109 -0
package/include/numkong/spatials/rvv.h +1960 -0
package/include/numkong/spatials/sapphireamx.h +1149 -0
package/include/numkong/spatials/serial.h +226 -0
package/include/numkong/spatials/sierra.h +96 -0
package/include/numkong/spatials/skylake.h +184 -0
package/include/numkong/spatials/sme.h +1901 -0
package/include/numkong/spatials/smef64.h +465 -0
package/include/numkong/spatials/v128relaxed.h +240 -0
package/include/numkong/spatials.h +3021 -0
package/include/numkong/spatials.hpp +508 -0
package/include/numkong/tensor.hpp +1592 -0
package/include/numkong/trigonometry/README.md +184 -0
package/include/numkong/trigonometry/haswell.h +652 -0
package/include/numkong/trigonometry/neon.h +639 -0
package/include/numkong/trigonometry/rvv.h +699 -0
package/include/numkong/trigonometry/serial.h +703 -0
package/include/numkong/trigonometry/skylake.h +721 -0
package/include/numkong/trigonometry/v128relaxed.h +666 -0
package/include/numkong/trigonometry.h +467 -0
package/include/numkong/trigonometry.hpp +166 -0
package/include/numkong/types.h +1384 -0
package/include/numkong/types.hpp +5603 -0
package/include/numkong/vector.hpp +698 -0
package/javascript/README.md +246 -0
package/javascript/dist/cjs/numkong-wasm.d.ts +166 -0
package/javascript/dist/cjs/numkong-wasm.js +617 -0
package/javascript/dist/cjs/numkong.d.ts +343 -0
package/javascript/dist/cjs/numkong.js +523 -0
package/javascript/dist/cjs/package.json +3 -0
package/javascript/dist/cjs/types.d.ts +284 -0
package/javascript/dist/cjs/types.js +653 -0
package/javascript/dist/esm/numkong-wasm.d.ts +166 -0
package/javascript/dist/esm/numkong-wasm.js +595 -0
package/javascript/dist/esm/numkong.d.ts +343 -0
package/javascript/dist/esm/numkong.js +452 -0
package/javascript/dist/esm/package.json +3 -0
package/javascript/dist/esm/types.d.ts +284 -0
package/javascript/dist/esm/types.js +630 -0
package/javascript/dist-package-cjs.json +3 -0
package/javascript/dist-package-esm.json +3 -0
package/javascript/node-gyp-build.d.ts +1 -0
package/javascript/numkong-wasm.ts +756 -0
package/javascript/numkong.c +689 -0
package/javascript/numkong.ts +575 -0
package/javascript/tsconfig-base.json +39 -0
package/javascript/tsconfig-cjs.json +8 -0
package/javascript/tsconfig-esm.json +8 -0
package/javascript/types.ts +674 -0
package/package.json +87 -0

package/include/numkong/sparse/sve2.h ADDED Viewed

@@ -0,0 +1,507 @@
+/**
+ *  @brief SVE2-accelerated Sparse Vector Operations.
+ *  @file include/numkong/sparse/sve2.h
+ *  @author Ash Vardanian
+ *  @date February 6, 2026
+ *
+ *  @sa include/numkong/sparse.h
+ */
+#ifndef NK_SPARSE_SVE2_H
+#define NK_SPARSE_SVE2_H
+#if NK_TARGET_ARM_
+#include "numkong/types.h"
+#if defined(__cplusplus)
+extern "C" {
+#endif
+/*  SVE2 introduces many new integer-oriented instructions, extending some of the NEON functionality
+ *  to variable-length SVE registers. Those include "compare multiple" intrinsics:
+ *
+ *  - `svmatch[_u16]` that matches each scalar in first vector against all members of a 128-bit lane in the second.
+ *  - `svhistcnt[_s32]_z` does something similar, performing an inclusive prefix scan.
+ *  - `svtbx[_u16]` does extended table lookup
+ *
+ *  Other notable instructions:
+ *
+ *  - `DUP`: Broadcast indexed predicate element
+ *    https://developer.arm.com/documentation/ddi0602/2021-06/SVE-Instructions/DUP--predicate---Broadcast-indexed-predicate-element-?lang=en
+ *  - `SCLAMP` and `UCLAMP`: clamp values, i.e. combined min+max
+ *    https://developer.arm.com/documentation/ddi0602/2021-06/SVE-Instructions/SCLAMP--Signed-clamp-to-minimum-maximum-vector-?lang=en
+ *    https://developer.arm.com/documentation/ddi0602/2021-06/SVE-Instructions/UCLAMP--Unsigned-clamp-to-minimum-maximum-vector-?lang=en
+ *  - `TBLQ`: Table lookup quadword
+ *    https://developer.arm.com/documentation/ddi0602/2022-12/SVE-Instructions/TBLQ--Programmable-table-lookup-within-each-quadword-vector-segment--zeroing--?lang=en
+ *
+ *  Great resources for SVE2 intrinsics:
+ *
+ *  > ARM's Scalable Vector Extensions: A Critical Look at SVE2 For Integer Workloads
+ *    https://gist.github.com/zingaburga/805669eb891c820bd220418ee3f0d6bd
+ */
+#if NK_TARGET_SVE2
+#if defined(__clang__)
+#pragma clang attribute push(__attribute__((target("arch=armv8.2-a+sve+sve2"))), apply_to = function)
+#elif defined(__GNUC__)
+#pragma GCC push_options
+#pragma GCC target("arch=armv8.2-a+sve+sve2")
+#endif
+NK_PUBLIC void nk_sparse_intersect_u16_sve2( //
+    nk_u16_t const *a, nk_u16_t const *b,    //
+    nk_size_t a_length, nk_size_t b_length,  //
+    nk_u16_t *result, nk_size_t *count) {
+    // A single SVE lane is 128 bits wide, so one lane fits 8 values.
+    nk_size_t const register_size = svcnth();
+    nk_size_t const lanes_count = register_size / 8;
+    nk_size_t a_idx = 0, b_idx = 0;
+    nk_size_t c = 0;
+    while (a_idx < a_length && b_idx < b_length) {
+        // Load `a_member` and broadcast it, load `b_members_vec` from memory
+        svbool_t a_progress_u16x = svwhilelt_b16_u64(a_idx, a_length);
+        svbool_t b_progress_u16x = svwhilelt_b16_u64(b_idx, b_length);
+        svuint16_t a_u16x = svld1_u16(a_progress_u16x, a + a_idx);
+        svuint16_t b_u16x = svld1_u16(b_progress_u16x, b + b_idx);
+        // Intersecting registers with `svmatch_u16` involves a lot of shuffling
+        // and comparisons, so we want to avoid it if the slices don't overlap at all..
+        nk_u16_t a_min;
+        nk_u16_t a_max = svlastb(a_progress_u16x, a_u16x);
+        nk_u16_t b_min = svlasta(svpfalse_b(), b_u16x);
+        nk_u16_t b_max = svlastb(b_progress_u16x, b_u16x);
+        // If the slices don't overlap, advance the appropriate pointer
+        while (a_max < b_min && (a_idx + register_size) <= a_length) {
+            a_idx += register_size;
+            a_progress_u16x = svwhilelt_b16_u64(a_idx, a_length);
+            a_u16x = svld1_u16(a_progress_u16x, a + a_idx);
+            a_max = svlastb(a_progress_u16x, a_u16x);
+        }
+        a_min = svlasta(svpfalse_b(), a_u16x);
+        while (b_max < a_min && (b_idx + register_size) <= b_length) {
+            b_idx += register_size;
+            b_progress_u16x = svwhilelt_b16_u64(b_idx, b_length);
+            b_u16x = svld1_u16(b_progress_u16x, b + b_idx);
+            b_max = svlastb(b_progress_u16x, b_u16x);
+        }
+        b_min = svlasta(svpfalse_b(), b_u16x);
+        // Before we evaluate the intersection size, obfurscating the order in `b_u16x`,
+        // let's estimate how much we will need to advance the pointers afterwards.
+        // For that, we don't even need to broadcast the values in SVE, as the whole
+        // register can be compared against a scalar:
+        //
+        //      svuint16_t a_last_broadcasted =  svdup_n_u16(a_max);
+        //      svuint16_t b_last_broadcasted =  svdup_n_u16(b_max);
+        svbool_t a_mask_u16x = svcmple_n_u16(a_progress_u16x, a_u16x, b_max);
+        svbool_t b_mask_u16x = svcmple_n_u16(b_progress_u16x, b_u16x, a_max);
+        nk_u64_t a_step = svcntp_b16(a_progress_u16x, a_mask_u16x);
+        nk_u64_t b_step = svcntp_b16(b_progress_u16x, b_mask_u16x);
+        // Compare `a_u16x` with each lane of `b_u16x`
+        svbool_t equal_mask = svmatch_u16(a_progress_u16x, a_u16x, b_u16x);
+        for (nk_size_t i = 1; i < lanes_count; i++) {
+            b_u16x = svext_u16(b_u16x, b_u16x, 8);
+            equal_mask = svorr_z(svptrue_b16(), equal_mask, svmatch_u16(a_progress_u16x, a_u16x, b_u16x));
+        }
+        nk_size_t equal_count = svcntp_b16(svptrue_b16(), equal_mask);
+        // Manually compact and store matching elements (svcompact_u16 is not defined)
+        if (result) {
+            nk_u16_t a_data[16];
+            nk_u16_t mask_data[16];
+            svst1_u16(svptrue_b16(), a_data, a_u16x);
+            svst1_u16(svptrue_b16(), mask_data, svdup_n_u16_z(equal_mask, 1));
+            for (nk_size_t i = 0; i < svcnth(); i++)
+                if (mask_data[i]) result[c++] = a_data[i];
+            c -= equal_count;
+        }
+        // Advance
+        a_idx += a_step;
+        b_idx += b_step;
+        c += equal_count;
+    }
+    *count = c;
+}
+NK_PUBLIC void nk_sparse_intersect_u32_sve2( //
+    nk_u32_t const *a, nk_u32_t const *b,    //
+    nk_size_t a_length, nk_size_t b_length,  //
+    nk_u32_t *result, nk_size_t *count) {
+    // A single SVE lane is 128 bits wide, so one lane fits 4 values.
+    nk_size_t const register_size = svcntw();
+    nk_size_t const lanes_count = register_size / 4;
+    nk_size_t a_idx = 0, b_idx = 0;
+    nk_size_t c = 0;
+    while (a_idx < a_length && b_idx < b_length) {
+        // Load `a_member` and broadcast it, load `b_members_vec` from memory
+        svbool_t a_progress_u32x = svwhilelt_b32_u64(a_idx, a_length);
+        svbool_t b_progress_u32x = svwhilelt_b32_u64(b_idx, b_length);
+        svuint32_t a_u32x = svld1_u32(a_progress_u32x, a + a_idx);
+        svuint32_t b_u32x = svld1_u32(b_progress_u32x, b + b_idx);
+        // Intersecting registers with `svmatch_u16` involves a lot of shuffling
+        // and comparisons, so we want to avoid it if the slices don't overlap at all..
+        nk_u32_t a_min;
+        nk_u32_t a_max = svlastb(a_progress_u32x, a_u32x);
+        nk_u32_t b_min = svlasta(svpfalse_b(), b_u32x);
+        nk_u32_t b_max = svlastb(b_progress_u32x, b_u32x);
+        // If the slices don't overlap, advance the appropriate pointer
+        while (a_max < b_min && (a_idx + register_size) <= a_length) {
+            a_idx += register_size;
+            a_progress_u32x = svwhilelt_b32_u64(a_idx, a_length);
+            a_u32x = svld1_u32(a_progress_u32x, a + a_idx);
+            a_max = svlastb(a_progress_u32x, a_u32x);
+        }
+        a_min = svlasta(svpfalse_b(), a_u32x);
+        while (b_max < a_min && (b_idx + register_size) <= b_length) {
+            b_idx += register_size;
+            b_progress_u32x = svwhilelt_b32_u64(b_idx, b_length);
+            b_u32x = svld1_u32(b_progress_u32x, b + b_idx);
+            b_max = svlastb(b_progress_u32x, b_u32x);
+        }
+        b_min = svlasta(svpfalse_b(), b_u32x);
+        // Before we evaluate the intersection size, obfurscating the order in `b_u32x`,
+        // let's estimate how much we will need to advance the pointers afterwards.
+        // For that, we don't even need to broadcast the values in SVE, as the whole
+        // register can be compared against a scalar:
+        //
+        //      svuint32_t a_last_broadcasted =  svdup_n_u32(a_max);
+        //      svuint32_t b_last_broadcasted =  svdup_n_u32(b_max);
+        svbool_t a_mask_u32x = svcmple_n_u32(a_progress_u32x, a_u32x, b_max);
+        svbool_t b_mask_u32x = svcmple_n_u32(b_progress_u32x, b_u32x, a_max);
+        nk_u64_t a_step = svcntp_b32(a_progress_u32x, a_mask_u32x);
+        nk_u64_t b_step = svcntp_b32(b_progress_u32x, b_mask_u32x);
+        // Comparing `a_u32x` with each lane of `b_u32x` can't be done with `svmatch`,
+        // the same way as in `nk_sparse_intersect_u16_sve2`, as that instruction is only
+        // available for 8-bit and 16-bit integers.
+        //
+        //      svbool_t equal_mask = svpfalse_b();
+        //      for (nk_size_t i = 0; i < register_size; i++) {
+        //          equal_mask = svorr_z(svptrue_b32(), equal_mask, svcmpeq_u32(a_progress, a_u32x, b_u32x));
+        //          b_u32x = svext_u32(b_u32x, b_u32x, 1);
+        //      }
+        //      nk_size_t equal_count = svcntp_b32(a_progress, equal_mask);
+        //
+        // Alternatively, one can use histogram instructions, like `svhistcnt_u32_z`.
+        // They practically compute the prefix-matching count, which is equivalent to
+        // the lower triangle of the row-major intersection matrix.
+        // To compute the upper triangle, we can reverse (with `svrev_b32`) the order of
+        // elements and repeat the operation, accumulating the results for top and bottom.
+        // Let's look at 4x element registers as an example:
+        //
+        //      ⊐ α = {A, B, C, D}, β = {X, Y, Z, W}:
+        //
+        //      hist(α, β):           hist(α_rev, β_rev):
+        //
+        //        X Y Z W               W Z Y X
+        //      A 1 0 0 0             D 1 0 0 0
+        //      B 1 1 0 0             C 1 1 0 0
+        //      C 1 1 1 0             B 1 1 1 0
+        //      D 1 1 1 1             A 1 1 1 1
+        //
+        svuint32_t hist_lower = svhistcnt_u32_z(a_progress_u32x, a_u32x, b_u32x);
+        svuint32_t a_rev_u32x = svrev_u32(a_u32x);
+        svuint32_t b_rev_u32x = svrev_u32(b_u32x);
+        svuint32_t hist_upper = svrev_u32(svhistcnt_u32_z(svptrue_b32(), a_rev_u32x, b_rev_u32x));
+        svuint32_t hist = svorr_u32_x(a_progress_u32x, hist_lower, hist_upper);
+        svbool_t equal_mask = svcmpne_n_u32(a_progress_u32x, hist, 0);
+        nk_size_t equal_count = svcntp_b32(a_progress_u32x, equal_mask);
+        // Use SVE2 svcompact to compress matching elements and store to result buffer
+        if (result) {
+            svuint32_t compacted = svcompact_u32(equal_mask, a_u32x);
+            svbool_t store_predicate = svwhilelt_b32_u64(0, equal_count);
+            svst1_u32(store_predicate, result + c, compacted);
+        }
+        // Advance
+        a_idx += a_step;
+        b_idx += b_step;
+        c += equal_count;
+    }
+    *count = c;
+}
+NK_PUBLIC void nk_sparse_intersect_u64_sve2( //
+    nk_u64_t const *a, nk_u64_t const *b,    //
+    nk_size_t a_length, nk_size_t b_length,  //
+    nk_u64_t *result, nk_size_t *count) {
+    // A single SVE lane is 128 bits wide, so one lane fits 2 values.
+    nk_size_t const register_size = svcntd();
+    nk_size_t const lanes_count = register_size / 2;
+    nk_size_t a_idx = 0, b_idx = 0;
+    nk_size_t c = 0;
+    while (a_idx < a_length && b_idx < b_length) {
+        // Load `a_member` and broadcast it, load `b_members_vec` from memory
+        svbool_t a_progress_u64x = svwhilelt_b64_u64(a_idx, a_length);
+        svbool_t b_progress_u64x = svwhilelt_b64_u64(b_idx, b_length);
+        svuint64_t a_u64x = svld1_u64(a_progress_u64x, a + a_idx);
+        svuint64_t b_u64x = svld1_u64(b_progress_u64x, b + b_idx);
+        // Intersecting registers involves comparisons,
+        // so we want to avoid it if the slices don't overlap at all.
+        nk_u64_t a_min;
+        nk_u64_t a_max = svlastb(a_progress_u64x, a_u64x);
+        nk_u64_t b_min = svlasta(svpfalse_b(), b_u64x);
+        nk_u64_t b_max = svlastb(b_progress_u64x, b_u64x);
+        // If the slices don't overlap, advance the appropriate pointer
+        while (a_max < b_min && (a_idx + register_size) <= a_length) {
+            a_idx += register_size;
+            a_progress_u64x = svwhilelt_b64_u64(a_idx, a_length);
+            a_u64x = svld1_u64(a_progress_u64x, a + a_idx);
+            a_max = svlastb(a_progress_u64x, a_u64x);
+        }
+        a_min = svlasta(svpfalse_b(), a_u64x);
+        while (b_max < a_min && (b_idx + register_size) <= b_length) {
+            b_idx += register_size;
+            b_progress_u64x = svwhilelt_b64_u64(b_idx, b_length);
+            b_u64x = svld1_u64(b_progress_u64x, b + b_idx);
+            b_max = svlastb(b_progress_u64x, b_u64x);
+        }
+        b_min = svlasta(svpfalse_b(), b_u64x);
+        // Estimate how much we will need to advance the pointers afterwards.
+        svbool_t a_mask_u64x = svcmple_n_u64(a_progress_u64x, a_u64x, b_max);
+        svbool_t b_mask_u64x = svcmple_n_u64(b_progress_u64x, b_u64x, a_max);
+        nk_u64_t a_step = svcntp_b64(a_progress_u64x, a_mask_u64x);
+        nk_u64_t b_step = svcntp_b64(b_progress_u64x, b_mask_u64x);
+        // Use histogram instructions like `svhistcnt_u64_z` to compute intersection.
+        // They compute the prefix-matching count, equivalent to the lower triangle
+        // of the row-major intersection matrix.
+        svuint64_t hist_lower = svhistcnt_u64_z(a_progress_u64x, a_u64x, b_u64x);
+        svuint64_t a_rev_u64x = svrev_u64(a_u64x);
+        svuint64_t b_rev_u64x = svrev_u64(b_u64x);
+        svuint64_t hist_upper = svrev_u64(svhistcnt_u64_z(svptrue_b64(), a_rev_u64x, b_rev_u64x));
+        svuint64_t hist = svorr_u64_x(a_progress_u64x, hist_lower, hist_upper);
+        svbool_t equal_mask = svcmpne_n_u64(a_progress_u64x, hist, 0);
+        nk_size_t equal_count = svcntp_b64(a_progress_u64x, equal_mask);
+        // Use SVE2 svcompact to compress matching elements and store to result buffer
+        if (result) {
+            svuint64_t compacted = svcompact_u64(equal_mask, a_u64x);
+            svbool_t store_predicate = svwhilelt_b64_u64(0, equal_count);
+            svst1_u64(store_predicate, result + c, compacted);
+        }
+        // Advance
+        a_idx += a_step;
+        b_idx += b_step;
+        c += equal_count;
+    }
+    *count = c;
+}
+NK_PUBLIC void nk_sparse_dot_u32f32_sve2(                 //
+    nk_u32_t const *a, nk_u32_t const *b,                 //
+    nk_f32_t const *a_weights, nk_f32_t const *b_weights, //
+    nk_size_t a_length, nk_size_t b_length,               //
+    nk_f64_t *product) {
+    // A single SVE lane is 128 bits wide, so one lane fits 4 values.
+    nk_size_t const register_size = svcntw();
+    nk_size_t const vector_length_f64 = svcntd();
+    nk_size_t const lanes_count = register_size / 4;
+    nk_size_t a_idx = 0, b_idx = 0;
+    svbool_t const predicate_all_f32x = svptrue_b32();
+    svbool_t const predicate_all_f64x = svptrue_b64();
+    svfloat64_t product_f64x = svdup_f64(0.0);
+    while (a_idx < a_length && b_idx < b_length) {
+        // Load indices with progress predicates
+        svbool_t a_progress_u32x = svwhilelt_b32_u64(a_idx, a_length);
+        svbool_t b_progress_u32x = svwhilelt_b32_u64(b_idx, b_length);
+        svuint32_t a_u32x = svld1_u32(a_progress_u32x, a + a_idx);
+        svuint32_t b_u32x = svld1_u32(b_progress_u32x, b + b_idx);
+        // Avoid expensive intersection if slices don't overlap at all
+        nk_u32_t a_min;
+        nk_u32_t a_max = svlastb(a_progress_u32x, a_u32x);
+        nk_u32_t b_min = svlasta(svpfalse_b(), b_u32x);
+        nk_u32_t b_max = svlastb(b_progress_u32x, b_u32x);
+        // If the slices don't overlap, advance the appropriate pointer
+        while (a_max < b_min && (a_idx + register_size) <= a_length) {
+            a_idx += register_size;
+            a_progress_u32x = svwhilelt_b32_u64(a_idx, a_length);
+            a_u32x = svld1_u32(a_progress_u32x, a + a_idx);
+            a_max = svlastb(a_progress_u32x, a_u32x);
+        }
+        a_min = svlasta(svpfalse_b(), a_u32x);
+        while (b_max < a_min && (b_idx + register_size) <= b_length) {
+            b_idx += register_size;
+            b_progress_u32x = svwhilelt_b32_u64(b_idx, b_length);
+            b_u32x = svld1_u32(b_progress_u32x, b + b_idx);
+            b_max = svlastb(b_progress_u32x, b_u32x);
+        }
+        b_min = svlasta(svpfalse_b(), b_u32x);
+        // Calculate step sizes before modifying vectors
+        svbool_t a_mask_u32x = svcmple_n_u32(a_progress_u32x, a_u32x, b_max);
+        svbool_t b_mask_u32x = svcmple_n_u32(b_progress_u32x, b_u32x, a_max);
+        nk_u64_t a_step = svcntp_b32(a_progress_u32x, a_mask_u32x);
+        nk_u64_t b_step = svcntp_b32(b_progress_u32x, b_mask_u32x);
+        // Use histogram-based intersection (svmatch_u32 doesn't exist)
+        svuint32_t hist_lower_u32x = svhistcnt_u32_z(a_progress_u32x, a_u32x, b_u32x);
+        svuint32_t a_rev_u32x = svrev_u32(a_u32x);
+        svuint32_t b_rev_u32x = svrev_u32(b_u32x);
+        svuint32_t hist_upper_u32x = svrev_u32(svhistcnt_u32_z(predicate_all_f32x, a_rev_u32x, b_rev_u32x));
+        svuint32_t hist_u32x = svorr_u32_x(a_progress_u32x, hist_lower_u32x, hist_upper_u32x);
+        svbool_t a_equal_mask_u32x = svcmpne_n_u32(a_progress_u32x, hist_u32x, 0);
+        svbool_t a_overlap_mask_u32x = svand_b_z(predicate_all_f32x, a_progress_u32x, a_equal_mask_u32x);
+        if (!svptest_any(a_progress_u32x, a_overlap_mask_u32x)) {
+            a_idx += a_step;
+            b_idx += b_step;
+            continue;
+        }
+        // Load weights and mask by intersection
+        svfloat32_t a_weights_f32x = svsel_f32(a_overlap_mask_u32x, svld1_f32(a_progress_u32x, a_weights + a_idx),
+                                               svdup_f32(0.f));
+        svfloat32_t b_weights_f32x = svld1_f32(b_progress_u32x, b_weights + b_idx);
+        svbool_t predicate_low_f64x = svwhilelt_b64_u64(a_idx, a_length);
+        svbool_t predicate_high_f64x = svwhilelt_b64_u64(a_idx + vector_length_f64, a_length);
+        svfloat64_t a_low_f64x = svcvt_f64_f32_x(predicate_low_f64x, a_weights_f32x);
+        svfloat64_t a_high_f64x = svcvtlt_f64_f32_x(predicate_high_f64x, a_weights_f32x);
+        // For each position in a that matches something in b, we need the corresponding b weight.
+        // Use lane-by-lane matching for dot product.
+        for (nk_size_t i = 0; i < lanes_count; i++) {
+            // Check which elements of a match the current rotation of b
+            svbool_t equal_lane_u32x = svcmpeq_u32(a_progress_u32x, a_u32x, b_u32x);
+            svfloat32_t b_equal_weights_f32x = svsel_f32(equal_lane_u32x, b_weights_f32x, svdup_f32(0.f));
+            svfloat64_t b_low_f64x = svcvt_f64_f32_x(predicate_low_f64x, b_equal_weights_f32x);
+            svfloat64_t b_high_f64x = svcvtlt_f64_f32_x(predicate_high_f64x, b_equal_weights_f32x);
+            product_f64x = svmla_f64_x(predicate_low_f64x, product_f64x, a_low_f64x, b_low_f64x);
+            product_f64x = svmla_f64_x(predicate_high_f64x, product_f64x, a_high_f64x, b_high_f64x);
+            // Rotate b vectors
+            b_u32x = svext_u32(b_u32x, b_u32x, 4);
+            b_weights_f32x = svext_f32(b_weights_f32x, b_weights_f32x, 4);
+        }
+        // Advance
+        a_idx += a_step;
+        b_idx += b_step;
+    }
+    *product = svaddv_f64(predicate_all_f64x, product_f64x);
+}
+#if defined(__clang__)
+#pragma clang attribute pop
+#elif defined(__GNUC__)
+#pragma GCC pop_options
+#endif
+#endif // NK_TARGET_SVE2
+#if NK_TARGET_SVE2 && NK_TARGET_SVEBFDOT
+#if defined(__clang__)
+#pragma clang attribute push(__attribute__((target("arch=armv8.6-a+sve+sve2+bf16"))), apply_to = function)
+#elif defined(__GNUC__)
+#pragma GCC push_options
+#pragma GCC target("arch=armv8.6-a+sve+sve2+bf16")
+#endif
+NK_PUBLIC void nk_sparse_dot_u16bf16_sve2(                  //
+    nk_u16_t const *a, nk_u16_t const *b,                   //
+    nk_bf16_t const *a_weights, nk_bf16_t const *b_weights, //
+    nk_size_t a_length, nk_size_t b_length,                 //
+    nk_f32_t *product) {
+    // A single SVE lane is 128 bits wide, so one lane fits 8 values.
+    nk_size_t const register_size = svcnth();
+    nk_size_t const lanes_count = register_size / 8;
+    nk_size_t a_idx = 0, b_idx = 0;
+    svfloat32_t product_f32x = svdupq_n_f32(0.f, 0.f, 0.f, 0.f);
+    while (a_idx < a_length && b_idx < b_length) {
+        // Load `a_member` and broadcast it, load `b_members_vec` from memory
+        svbool_t a_progress_u16x = svwhilelt_b16_u64(a_idx, a_length);
+        svbool_t b_progress_u16x = svwhilelt_b16_u64(b_idx, b_length);
+        svuint16_t a_u16x = svld1_u16(a_progress_u16x, a + a_idx);
+        svuint16_t b_u16x = svld1_u16(b_progress_u16x, b + b_idx);
+        // Intersecting registers with `svmatch_u16` involves a lot of shuffling
+        // and comparisons, so we want to avoid it if the slices don't overlap at all..
+        nk_u16_t a_min;
+        nk_u16_t a_max = svlastb(a_progress_u16x, a_u16x);
+        nk_u16_t b_min = svlasta(svpfalse_b(), b_u16x);
+        nk_u16_t b_max = svlastb(b_progress_u16x, b_u16x);
+        // If the slices don't overlap, advance the appropriate pointer
+        while (a_max < b_min && (a_idx + register_size) <= a_length) {
+            a_idx += register_size;
+            a_progress_u16x = svwhilelt_b16_u64(a_idx, a_length);
+            a_u16x = svld1_u16(a_progress_u16x, a + a_idx);
+            a_max = svlastb(a_progress_u16x, a_u16x);
+        }
+        a_min = svlasta(svpfalse_b(), a_u16x);
+        while (b_max < a_min && (b_idx + register_size) <= b_length) {
+            b_idx += register_size;
+            b_progress_u16x = svwhilelt_b16_u64(b_idx, b_length);
+            b_u16x = svld1_u16(b_progress_u16x, b + b_idx);
+            b_max = svlastb(b_progress_u16x, b_u16x);
+        }
+        b_min = svlasta(svpfalse_b(), b_u16x);
+        // Before we evaluate the intersection size, obfurscating the order in `b_u16x`,
+        // let's estimate how much we will need to advance the pointers afterwards.
+        // For that, we don't even need to broadcast the values in SVE, as the whole
+        // register can be compared against a scalar:
+        //
+        //      svuint16_t a_last_broadcasted =  svdup_n_u16(a_max);
+        //      svuint16_t b_last_broadcasted =  svdup_n_u16(b_max);
+        svbool_t a_mask_u16x = svcmple_n_u16(a_progress_u16x, a_u16x, b_max);
+        svbool_t b_mask_u16x = svcmple_n_u16(b_progress_u16x, b_u16x, a_max);
+        nk_u64_t a_step = svcntp_b16(a_progress_u16x, a_mask_u16x);
+        nk_u64_t b_step = svcntp_b16(b_progress_u16x, b_mask_u16x);
+        // Compare `a_u16x` with each lane of `b_u16x`
+        svbfloat16_t a_weights_bf16x = svld1_bf16(a_progress_u16x, (__bf16 const *)a_weights + a_idx);
+        svbfloat16_t b_weights_bf16x = svld1_bf16(b_progress_u16x, (__bf16 const *)b_weights + b_idx);
+        for (nk_size_t i = 0; i < lanes_count; i++) {
+            svbool_t equal_mask_u16x = svmatch_u16(a_progress_u16x, a_u16x, b_u16x);
+            //! The `svsel_bf16` intrinsic is broken in many compilers, not returning the correct type.
+            //! So we reinterprete floats as integers and apply `svsel_s16`, but the `svreinterpret_s16_bs16`
+            //! and `svreinterpret_bf16_s16` are not always properly defined!
+            svint16_t b_equal_weights_s16x = svsel_s16(equal_mask_u16x, svreinterpret_s16_bf16(b_weights_bf16x),
+                                                       svdup_n_s16(0));
+            product_f32x = svbfdot_f32(product_f32x, a_weights_bf16x, svreinterpret_bf16_s16(b_equal_weights_s16x));
+            b_u16x = svext_u16(b_u16x, b_u16x, 8);
+        }
+        // Advance
+        a_idx += a_step;
+        b_idx += b_step;
+    }
+    *product = svaddv_f32(svptrue_b32(), product_f32x);
+}
+#if defined(__clang__)
+#pragma clang attribute pop
+#elif defined(__GNUC__)
+#pragma GCC pop_options
+#endif
+#endif // NK_TARGET_SVE2 && NK_TARGET_SVEBFDOT
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#endif // NK_TARGET_ARM_
+#endif // NK_SPARSE_SVE2_H