npm - numkong - Versions diffs - 7.0.0 - Mend

numkong 7.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (294) hide show

package/LICENSE +201 -0
package/README.md +495 -0
package/binding.gyp +540 -0
package/c/dispatch.h +512 -0
package/c/dispatch_bf16.c +389 -0
package/c/dispatch_bf16c.c +52 -0
package/c/dispatch_e2m3.c +263 -0
package/c/dispatch_e3m2.c +243 -0
package/c/dispatch_e4m3.c +276 -0
package/c/dispatch_e5m2.c +272 -0
package/c/dispatch_f16.c +376 -0
package/c/dispatch_f16c.c +58 -0
package/c/dispatch_f32.c +378 -0
package/c/dispatch_f32c.c +99 -0
package/c/dispatch_f64.c +296 -0
package/c/dispatch_f64c.c +98 -0
package/c/dispatch_i16.c +96 -0
package/c/dispatch_i32.c +89 -0
package/c/dispatch_i4.c +150 -0
package/c/dispatch_i64.c +86 -0
package/c/dispatch_i8.c +289 -0
package/c/dispatch_other.c +330 -0
package/c/dispatch_u1.c +148 -0
package/c/dispatch_u16.c +124 -0
package/c/dispatch_u32.c +118 -0
package/c/dispatch_u4.c +150 -0
package/c/dispatch_u64.c +102 -0
package/c/dispatch_u8.c +303 -0
package/c/numkong.c +950 -0
package/include/README.md +573 -0
package/include/module.modulemap +129 -0
package/include/numkong/attention/sapphireamx.h +1361 -0
package/include/numkong/attention/sme.h +2066 -0
package/include/numkong/attention.h +49 -0
package/include/numkong/capabilities.h +748 -0
package/include/numkong/cast/README.md +262 -0
package/include/numkong/cast/haswell.h +975 -0
package/include/numkong/cast/icelake.h +470 -0
package/include/numkong/cast/neon.h +1192 -0
package/include/numkong/cast/rvv.h +1021 -0
package/include/numkong/cast/sapphire.h +262 -0
package/include/numkong/cast/serial.h +2262 -0
package/include/numkong/cast/skylake.h +856 -0
package/include/numkong/cast/v128relaxed.h +180 -0
package/include/numkong/cast.h +230 -0
package/include/numkong/curved/README.md +223 -0
package/include/numkong/curved/genoa.h +182 -0
package/include/numkong/curved/haswell.h +276 -0
package/include/numkong/curved/neon.h +205 -0
package/include/numkong/curved/neonbfdot.h +212 -0
package/include/numkong/curved/neonhalf.h +212 -0
package/include/numkong/curved/rvv.h +305 -0
package/include/numkong/curved/serial.h +207 -0
package/include/numkong/curved/skylake.h +457 -0
package/include/numkong/curved/smef64.h +506 -0
package/include/numkong/curved.h +517 -0
package/include/numkong/curved.hpp +144 -0
package/include/numkong/dot/README.md +425 -0
package/include/numkong/dot/alder.h +563 -0
package/include/numkong/dot/genoa.h +315 -0
package/include/numkong/dot/haswell.h +1688 -0
package/include/numkong/dot/icelake.h +883 -0
package/include/numkong/dot/neon.h +818 -0
package/include/numkong/dot/neonbfdot.h +244 -0
package/include/numkong/dot/neonfhm.h +360 -0
package/include/numkong/dot/neonhalf.h +198 -0
package/include/numkong/dot/neonsdot.h +508 -0
package/include/numkong/dot/rvv.h +714 -0
package/include/numkong/dot/rvvbb.h +72 -0
package/include/numkong/dot/rvvbf16.h +123 -0
package/include/numkong/dot/rvvhalf.h +129 -0
package/include/numkong/dot/sapphire.h +141 -0
package/include/numkong/dot/serial.h +838 -0
package/include/numkong/dot/sierra.h +405 -0
package/include/numkong/dot/skylake.h +1084 -0
package/include/numkong/dot/sve.h +379 -0
package/include/numkong/dot/svebfdot.h +74 -0
package/include/numkong/dot/svehalf.h +123 -0
package/include/numkong/dot/v128relaxed.h +1258 -0
package/include/numkong/dot.h +1070 -0
package/include/numkong/dot.hpp +94 -0
package/include/numkong/dots/README.md +496 -0
package/include/numkong/dots/alder.h +114 -0
package/include/numkong/dots/genoa.h +94 -0
package/include/numkong/dots/haswell.h +295 -0
package/include/numkong/dots/icelake.h +171 -0
package/include/numkong/dots/neon.h +120 -0
package/include/numkong/dots/neonbfdot.h +58 -0
package/include/numkong/dots/neonfhm.h +94 -0
package/include/numkong/dots/neonhalf.h +57 -0
package/include/numkong/dots/neonsdot.h +108 -0
package/include/numkong/dots/rvv.h +2486 -0
package/include/numkong/dots/sapphireamx.h +3973 -0
package/include/numkong/dots/serial.h +2844 -0
package/include/numkong/dots/sierra.h +97 -0
package/include/numkong/dots/skylake.h +196 -0
package/include/numkong/dots/sme.h +5372 -0
package/include/numkong/dots/smebi32.h +461 -0
package/include/numkong/dots/smef64.h +1318 -0
package/include/numkong/dots/smehalf.h +47 -0
package/include/numkong/dots/v128relaxed.h +294 -0
package/include/numkong/dots.h +2804 -0
package/include/numkong/dots.hpp +639 -0
package/include/numkong/each/README.md +469 -0
package/include/numkong/each/haswell.h +1658 -0
package/include/numkong/each/icelake.h +272 -0
package/include/numkong/each/neon.h +1104 -0
package/include/numkong/each/neonbfdot.h +212 -0
package/include/numkong/each/neonhalf.h +410 -0
package/include/numkong/each/rvv.h +1121 -0
package/include/numkong/each/sapphire.h +477 -0
package/include/numkong/each/serial.h +260 -0
package/include/numkong/each/skylake.h +1562 -0
package/include/numkong/each.h +2146 -0
package/include/numkong/each.hpp +434 -0
package/include/numkong/geospatial/README.md +147 -0
package/include/numkong/geospatial/haswell.h +593 -0
package/include/numkong/geospatial/neon.h +571 -0
package/include/numkong/geospatial/rvv.h +701 -0
package/include/numkong/geospatial/serial.h +309 -0
package/include/numkong/geospatial/skylake.h +577 -0
package/include/numkong/geospatial/v128relaxed.h +613 -0
package/include/numkong/geospatial.h +453 -0
package/include/numkong/geospatial.hpp +235 -0
package/include/numkong/matrix.hpp +336 -0
package/include/numkong/maxsim/README.md +187 -0
package/include/numkong/maxsim/alder.h +511 -0
package/include/numkong/maxsim/genoa.h +115 -0
package/include/numkong/maxsim/haswell.h +553 -0
package/include/numkong/maxsim/icelake.h +480 -0
package/include/numkong/maxsim/neonsdot.h +394 -0
package/include/numkong/maxsim/sapphireamx.h +877 -0
package/include/numkong/maxsim/serial.h +490 -0
package/include/numkong/maxsim/sme.h +929 -0
package/include/numkong/maxsim/v128relaxed.h +280 -0
package/include/numkong/maxsim.h +571 -0
package/include/numkong/maxsim.hpp +133 -0
package/include/numkong/mesh/README.md +227 -0
package/include/numkong/mesh/haswell.h +2235 -0
package/include/numkong/mesh/neon.h +1329 -0
package/include/numkong/mesh/neonbfdot.h +842 -0
package/include/numkong/mesh/neonhalf.h +616 -0
package/include/numkong/mesh/rvv.h +916 -0
package/include/numkong/mesh/serial.h +742 -0
package/include/numkong/mesh/skylake.h +1135 -0
package/include/numkong/mesh/v128relaxed.h +1052 -0
package/include/numkong/mesh.h +652 -0
package/include/numkong/mesh.hpp +762 -0
package/include/numkong/numkong.h +78 -0
package/include/numkong/numkong.hpp +57 -0
package/include/numkong/probability/README.md +173 -0
package/include/numkong/probability/haswell.h +267 -0
package/include/numkong/probability/neon.h +225 -0
package/include/numkong/probability/rvv.h +409 -0
package/include/numkong/probability/serial.h +169 -0
package/include/numkong/probability/skylake.h +324 -0
package/include/numkong/probability.h +383 -0
package/include/numkong/probability.hpp +120 -0
package/include/numkong/random.h +50 -0
package/include/numkong/random.hpp +285 -0
package/include/numkong/reduce/README.md +547 -0
package/include/numkong/reduce/alder.h +632 -0
package/include/numkong/reduce/genoa.h +201 -0
package/include/numkong/reduce/haswell.h +3783 -0
package/include/numkong/reduce/icelake.h +549 -0
package/include/numkong/reduce/neon.h +3841 -0
package/include/numkong/reduce/neonbfdot.h +353 -0
package/include/numkong/reduce/neonfhm.h +665 -0
package/include/numkong/reduce/neonhalf.h +157 -0
package/include/numkong/reduce/neonsdot.h +357 -0
package/include/numkong/reduce/rvv.h +3407 -0
package/include/numkong/reduce/serial.h +757 -0
package/include/numkong/reduce/sierra.h +338 -0
package/include/numkong/reduce/skylake.h +3792 -0
package/include/numkong/reduce/v128relaxed.h +2302 -0
package/include/numkong/reduce.h +1597 -0
package/include/numkong/reduce.hpp +633 -0
package/include/numkong/scalar/README.md +89 -0
package/include/numkong/scalar/haswell.h +113 -0
package/include/numkong/scalar/neon.h +122 -0
package/include/numkong/scalar/neonhalf.h +70 -0
package/include/numkong/scalar/rvv.h +211 -0
package/include/numkong/scalar/sapphire.h +63 -0
package/include/numkong/scalar/serial.h +332 -0
package/include/numkong/scalar/v128relaxed.h +56 -0
package/include/numkong/scalar.h +683 -0
package/include/numkong/set/README.md +179 -0
package/include/numkong/set/haswell.h +334 -0
package/include/numkong/set/icelake.h +485 -0
package/include/numkong/set/neon.h +364 -0
package/include/numkong/set/rvv.h +226 -0
package/include/numkong/set/rvvbb.h +117 -0
package/include/numkong/set/serial.h +174 -0
package/include/numkong/set/sve.h +185 -0
package/include/numkong/set/v128relaxed.h +240 -0
package/include/numkong/set.h +457 -0
package/include/numkong/set.hpp +114 -0
package/include/numkong/sets/README.md +149 -0
package/include/numkong/sets/haswell.h +63 -0
package/include/numkong/sets/icelake.h +66 -0
package/include/numkong/sets/neon.h +61 -0
package/include/numkong/sets/serial.h +43 -0
package/include/numkong/sets/smebi32.h +1099 -0
package/include/numkong/sets/v128relaxed.h +58 -0
package/include/numkong/sets.h +339 -0
package/include/numkong/sparse/README.md +156 -0
package/include/numkong/sparse/icelake.h +463 -0
package/include/numkong/sparse/neon.h +288 -0
package/include/numkong/sparse/serial.h +117 -0
package/include/numkong/sparse/sve2.h +507 -0
package/include/numkong/sparse/turin.h +322 -0
package/include/numkong/sparse.h +363 -0
package/include/numkong/sparse.hpp +113 -0
package/include/numkong/spatial/README.md +435 -0
package/include/numkong/spatial/alder.h +607 -0
package/include/numkong/spatial/genoa.h +290 -0
package/include/numkong/spatial/haswell.h +960 -0
package/include/numkong/spatial/icelake.h +586 -0
package/include/numkong/spatial/neon.h +773 -0
package/include/numkong/spatial/neonbfdot.h +165 -0
package/include/numkong/spatial/neonhalf.h +118 -0
package/include/numkong/spatial/neonsdot.h +261 -0
package/include/numkong/spatial/rvv.h +984 -0
package/include/numkong/spatial/rvvbf16.h +123 -0
package/include/numkong/spatial/rvvhalf.h +117 -0
package/include/numkong/spatial/sapphire.h +343 -0
package/include/numkong/spatial/serial.h +346 -0
package/include/numkong/spatial/sierra.h +323 -0
package/include/numkong/spatial/skylake.h +606 -0
package/include/numkong/spatial/sve.h +224 -0
package/include/numkong/spatial/svebfdot.h +122 -0
package/include/numkong/spatial/svehalf.h +109 -0
package/include/numkong/spatial/v128relaxed.h +717 -0
package/include/numkong/spatial.h +1425 -0
package/include/numkong/spatial.hpp +183 -0
package/include/numkong/spatials/README.md +580 -0
package/include/numkong/spatials/alder.h +94 -0
package/include/numkong/spatials/genoa.h +94 -0
package/include/numkong/spatials/haswell.h +219 -0
package/include/numkong/spatials/icelake.h +113 -0
package/include/numkong/spatials/neon.h +109 -0
package/include/numkong/spatials/neonbfdot.h +60 -0
package/include/numkong/spatials/neonfhm.h +92 -0
package/include/numkong/spatials/neonhalf.h +58 -0
package/include/numkong/spatials/neonsdot.h +109 -0
package/include/numkong/spatials/rvv.h +1960 -0
package/include/numkong/spatials/sapphireamx.h +1149 -0
package/include/numkong/spatials/serial.h +226 -0
package/include/numkong/spatials/sierra.h +96 -0
package/include/numkong/spatials/skylake.h +184 -0
package/include/numkong/spatials/sme.h +1901 -0
package/include/numkong/spatials/smef64.h +465 -0
package/include/numkong/spatials/v128relaxed.h +240 -0
package/include/numkong/spatials.h +3021 -0
package/include/numkong/spatials.hpp +508 -0
package/include/numkong/tensor.hpp +1592 -0
package/include/numkong/trigonometry/README.md +184 -0
package/include/numkong/trigonometry/haswell.h +652 -0
package/include/numkong/trigonometry/neon.h +639 -0
package/include/numkong/trigonometry/rvv.h +699 -0
package/include/numkong/trigonometry/serial.h +703 -0
package/include/numkong/trigonometry/skylake.h +721 -0
package/include/numkong/trigonometry/v128relaxed.h +666 -0
package/include/numkong/trigonometry.h +467 -0
package/include/numkong/trigonometry.hpp +166 -0
package/include/numkong/types.h +1384 -0
package/include/numkong/types.hpp +5603 -0
package/include/numkong/vector.hpp +698 -0
package/javascript/README.md +246 -0
package/javascript/dist/cjs/numkong-wasm.d.ts +166 -0
package/javascript/dist/cjs/numkong-wasm.js +617 -0
package/javascript/dist/cjs/numkong.d.ts +343 -0
package/javascript/dist/cjs/numkong.js +523 -0
package/javascript/dist/cjs/package.json +3 -0
package/javascript/dist/cjs/types.d.ts +284 -0
package/javascript/dist/cjs/types.js +653 -0
package/javascript/dist/esm/numkong-wasm.d.ts +166 -0
package/javascript/dist/esm/numkong-wasm.js +595 -0
package/javascript/dist/esm/numkong.d.ts +343 -0
package/javascript/dist/esm/numkong.js +452 -0
package/javascript/dist/esm/package.json +3 -0
package/javascript/dist/esm/types.d.ts +284 -0
package/javascript/dist/esm/types.js +630 -0
package/javascript/dist-package-cjs.json +3 -0
package/javascript/dist-package-esm.json +3 -0
package/javascript/node-gyp-build.d.ts +1 -0
package/javascript/numkong-wasm.ts +756 -0
package/javascript/numkong.c +689 -0
package/javascript/numkong.ts +575 -0
package/javascript/tsconfig-base.json +39 -0
package/javascript/tsconfig-cjs.json +8 -0
package/javascript/tsconfig-esm.json +8 -0
package/javascript/types.ts +674 -0
package/package.json +87 -0

package/include/numkong/set/v128relaxed.h ADDED Viewed

@@ -0,0 +1,240 @@
+/**
+ *  @brief SIMD-accelerated Set Similarity Measures for WASM.
+ *  @file include/numkong/set/v128relaxed.h
+ *  @author Ash Vardanian
+ *  @date February 1, 2026
+ *
+ *  This file contains windowed implementations of Hamming and Jaccard distance
+ *  for bit-level operations (u1 packed bits). The windowing optimization reduces
+ *  widening overhead by 96.7%, providing 5-10× speedup over naive implementations.
+ *
+ *  Algorithm: Accumulate popcount results in u8 for 31 iterations, then widen
+ *  to u16 → u32 once. Since max(popcount(u8)) = 8, we can safely accumulate
+ *  31 × 8 = 248 < 255 (u8 max) without overflow.
+ */
+#ifndef NK_SET_V128RELAXED_H
+#define NK_SET_V128RELAXED_H
+#if NK_TARGET_V128RELAXED
+#include "numkong/types.h"
+#include "numkong/reduce/v128relaxed.h"
+#include "numkong/set/serial.h"
+#if defined(__cplusplus)
+extern "C" {
+#endif
+#if defined(__clang__)
+#pragma clang attribute push(__attribute__((target("relaxed-simd"))), apply_to = function)
+#endif
+#pragma region - Binary Sets
+NK_PUBLIC void nk_hamming_u1_v128relaxed(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_u32_t *result) {
+    nk_u8_t const *a_bytes = (nk_u8_t const *)a;
+    nk_u8_t const *b_bytes = (nk_u8_t const *)b;
+    nk_size_t n_bytes = nk_size_divide_round_up_(n, NK_BITS_PER_BYTE);
+    nk_u32_t differences = 0;
+    nk_size_t i = 0;
+    // Windowed accumulation loop
+    while (i + 16 <= n_bytes) {
+        v128_t popcount_u8x16 = wasm_i8x16_splat(0);
+        // Inner loop: accumulate 31 iterations in u8 before widening
+        nk_size_t cycle = 0;
+        for (; cycle < 31 && i + 16 <= n_bytes; ++cycle, i += 16) {
+            v128_t a_u8x16 = wasm_v128_load(a_bytes + i);
+            v128_t b_u8x16 = wasm_v128_load(b_bytes + i);
+            // XOR to find differing bits
+            v128_t xor_u8x16 = wasm_v128_xor(a_u8x16, b_u8x16);
+            // Popcount each byte
+            v128_t popcnt_u8x16 = wasm_i8x16_popcnt(xor_u8x16);
+            // Accumulate in u8 (safe: 31 × 8 = 248 < 255)
+            popcount_u8x16 = wasm_i8x16_add(popcount_u8x16, popcnt_u8x16);
+        }
+        // Widen once per window: u8 → u16 → u32
+        differences += nk_reduce_add_u8x16_v128relaxed_(popcount_u8x16);
+    }
+    // Handle tail bytes
+    for (; i < n_bytes; i++) {
+        nk_u8_t xor_byte = a_bytes[i] ^ b_bytes[i];
+        differences += nk_u1x8_popcount_(xor_byte);
+    }
+    *result = differences;
+}
+NK_PUBLIC void nk_jaccard_u1_v128relaxed(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_f32_t *result) {
+    nk_u8_t const *a_bytes = (nk_u8_t const *)a;
+    nk_u8_t const *b_bytes = (nk_u8_t const *)b;
+    nk_size_t n_bytes = nk_size_divide_round_up_(n, NK_BITS_PER_BYTE);
+    nk_u32_t intersection = 0;
+    nk_u32_t union_count = 0;
+    nk_size_t i = 0;
+    // Windowed accumulation loop
+    while (i + 16 <= n_bytes) {
+        v128_t popcount_and_u8x16 = wasm_i8x16_splat(0);
+        v128_t popcount_or_u8x16 = wasm_i8x16_splat(0);
+        // Inner loop: accumulate 31 iterations in u8 before widening
+        nk_size_t cycle = 0;
+        for (; cycle < 31 && i + 16 <= n_bytes; ++cycle, i += 16) {
+            v128_t a_u8x16 = wasm_v128_load(a_bytes + i);
+            v128_t b_u8x16 = wasm_v128_load(b_bytes + i);
+            // Intersection: a AND b
+            v128_t and_u8x16 = wasm_v128_and(a_u8x16, b_u8x16);
+            v128_t popcnt_and_u8x16 = wasm_i8x16_popcnt(and_u8x16);
+            popcount_and_u8x16 = wasm_i8x16_add(popcount_and_u8x16, popcnt_and_u8x16);
+            // Union: a OR b
+            v128_t or_u8x16 = wasm_v128_or(a_u8x16, b_u8x16);
+            v128_t popcnt_or_u8x16 = wasm_i8x16_popcnt(or_u8x16);
+            popcount_or_u8x16 = wasm_i8x16_add(popcount_or_u8x16, popcnt_or_u8x16);
+        }
+        // Widen once per window
+        intersection += nk_reduce_add_u8x16_v128relaxed_(popcount_and_u8x16);
+        union_count += nk_reduce_add_u8x16_v128relaxed_(popcount_or_u8x16);
+    }
+    // Handle tail bytes
+    for (; i < n_bytes; i++) {
+        nk_u8_t a_byte = a_bytes[i];
+        nk_u8_t b_byte = b_bytes[i];
+        intersection += nk_u1x8_popcount_(a_byte & b_byte);
+        union_count += nk_u1x8_popcount_(a_byte | b_byte);
+    }
+    // Jaccard distance = 1 - (intersection / union)
+    *result = union_count > 0 ? 1.0f - ((nk_f32_t)intersection / (nk_f32_t)union_count) : 0.0f;
+}
+#pragma endregion - Binary Sets
+#pragma region - Integer Sets
+NK_PUBLIC void nk_hamming_u8_v128relaxed(nk_u8_t const *a, nk_u8_t const *b, nk_size_t n, nk_u32_t *result) {
+    nk_u32_t sum_total = 0;
+    nk_size_t i = 0;
+    // Windowed accumulation: outer loop for windows, inner loop for iterations within window
+    while (i + 16 <= n) {
+        v128_t sum_u8x16 = wasm_i8x16_splat(0);
+        // Inner loop: accumulate up to 31 iterations in u8 (safe: 31 × 1 = 31 < 255)
+        nk_size_t cycle = 0;
+        for (; cycle < 31 && i + 16 <= n; ++cycle, i += 16) {
+            v128_t a_u8x16 = wasm_v128_load(a + i);
+            v128_t b_u8x16 = wasm_v128_load(b + i);
+            // Compare for inequality: 0xFF where different, 0x00 where same
+            v128_t neq_mask_u8x16 = wasm_i8x16_ne(a_u8x16, b_u8x16);
+            // Convert mask to count: 0xFF → 1, 0x00 → 0
+            v128_t neq_count_u8x16 = wasm_v128_and(neq_mask_u8x16, wasm_i8x16_splat(1));
+            // Accumulate counts
+            sum_u8x16 = wasm_i8x16_add(sum_u8x16, neq_count_u8x16);
+        }
+        // Widen and reduce once per window
+        sum_total += nk_reduce_add_u8x16_v128relaxed_(sum_u8x16);
+    }
+    // Traditional tail loop: handle remaining bytes (0-15) scalar-style
+    for (; i < n; i++) { sum_total += (a[i] != b[i]); }
+    *result = sum_total;
+}
+NK_PUBLIC void nk_jaccard_u32_v128relaxed(nk_u32_t const *a, nk_u32_t const *b, nk_size_t n, nk_f32_t *result) {
+    nk_u32_t matches = 0;
+    nk_size_t i = 0;
+    v128_t matches_u32x4 = wasm_i32x4_splat(0);
+    for (; i + 4 <= n; i += 4) {
+        v128_t a_u32x4 = wasm_v128_load(a + i);
+        v128_t b_u32x4 = wasm_v128_load(b + i);
+        v128_t eq_mask_u32x4 = wasm_i32x4_eq(a_u32x4, b_u32x4);
+        v128_t match_bits_u32x4 = wasm_u32x4_shr(eq_mask_u32x4, 31);
+        matches_u32x4 = wasm_i32x4_add(matches_u32x4, match_bits_u32x4);
+    }
+    matches += nk_reduce_add_u32x4_v128relaxed_(matches_u32x4);
+    for (; i < n; ++i) matches += (a[i] == b[i]);
+    *result = (n != 0) ? 1.0f - (nk_f32_t)matches / (nk_f32_t)n : 0.0f;
+}
+NK_PUBLIC void nk_jaccard_u16_v128relaxed(nk_u16_t const *a, nk_u16_t const *b, nk_size_t n, nk_f32_t *result) {
+    nk_u32_t matches = 0;
+    nk_size_t i = 0;
+    v128_t matches_u32x4 = wasm_i32x4_splat(0);
+    for (; i + 8 <= n; i += 8) {
+        v128_t a_u16x8 = wasm_v128_load(a + i);
+        v128_t b_u16x8 = wasm_v128_load(b + i);
+        v128_t eq_mask_u16x8 = wasm_i16x8_eq(a_u16x8, b_u16x8);
+        v128_t match_bits_u16x8 = wasm_u16x8_shr(eq_mask_u16x8, 15);
+        matches_u32x4 = wasm_i32x4_add(matches_u32x4, wasm_u32x4_extadd_pairwise_u16x8(match_bits_u16x8));
+    }
+    matches += nk_reduce_add_u32x4_v128relaxed_(matches_u32x4);
+    for (; i < n; ++i) matches += (a[i] == b[i]);
+    *result = (n != 0) ? 1.0f - (nk_f32_t)matches / (nk_f32_t)n : 0.0f;
+}
+#pragma endregion - Integer Sets
+#pragma region - Binary Sets from Dot
+NK_INTERNAL void nk_hamming_u32x4_from_dot_v128relaxed_( //
+    nk_b128_vec_t dots, nk_u32_t query_pop, nk_b128_vec_t target_pops, nk_b128_vec_t *results) {
+    v128_t dots_u32x4 = dots.v128;
+    v128_t query_u32x4 = wasm_u32x4_splat(query_pop);
+    v128_t target_u32x4 = target_pops.v128;
+    results->v128 = wasm_i32x4_sub(wasm_i32x4_add(query_u32x4, target_u32x4), wasm_i32x4_shl(dots_u32x4, 1));
+}
+NK_INTERNAL void nk_jaccard_f32x4_from_dot_v128relaxed_( //
+    nk_b128_vec_t dots, nk_u32_t query_pop, nk_b128_vec_t target_pops, nk_b128_vec_t *results) {
+    v128_t dot_f32x4 = wasm_f32x4_convert_u32x4(dots.v128);
+    v128_t query_f32x4 = wasm_f32x4_splat((nk_f32_t)query_pop);
+    v128_t target_f32x4 = wasm_f32x4_convert_u32x4(target_pops.v128);
+    v128_t union_f32x4 = wasm_f32x4_sub(wasm_f32x4_add(query_f32x4, target_f32x4), dot_f32x4);
+    v128_t zero_f32x4 = wasm_f32x4_splat(0.0f);
+    v128_t one_f32x4 = wasm_f32x4_splat(1.0f);
+    v128_t zero_mask_u32x4 = wasm_f32x4_eq(union_f32x4, zero_f32x4);
+    v128_t safe_union_f32x4 = wasm_i32x4_relaxed_laneselect(one_f32x4, union_f32x4, zero_mask_u32x4);
+    v128_t ratio_f32x4 = wasm_f32x4_div(dot_f32x4, safe_union_f32x4);
+    v128_t jaccard_f32x4 = wasm_f32x4_sub(one_f32x4, ratio_f32x4);
+    results->v128 = wasm_i32x4_relaxed_laneselect(zero_f32x4, jaccard_f32x4, zero_mask_u32x4);
+}
+#pragma endregion - Binary Sets from Dot
+#if defined(__clang__)
+#pragma clang attribute pop
+#endif
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#endif // NK_TARGET_V128RELAXED
+#endif // NK_SET_V128RELAXED_H

package/include/numkong/set.h ADDED Viewed

@@ -0,0 +1,457 @@
+/**
+ *  @brief SIMD-accelerated Set Similarity Measures.
+ *  @file include/numkong/set.h
+ *  @author Ash Vardanian
+ *  @date July 1, 2023
+ *
+ *  Contains following similarity measures:
+ *
+ *  - Bit-level Hamming distance → `u32` counter
+ *  - Byte-level Hamming distance → `u32` counter
+ *  - Bit-level Jaccard distance (Tanimoto coefficient) → `f32` ratio
+ *  - Word-level Jaccard distance for `u16` and `u32` MinHash vectors from StringZilla → `f32` ratio
+ *
+ *  For hardware architectures:
+ *
+ *  - Arm: NEON, SVE
+ *  - x86: Haswell, Ice Lake
+ *  - RISC-V: RVV, RVV+BB
+ *  - WASM: V128Relaxed
+ *
+ *  @section numerical_stability Numerical Stability
+ *
+ *  Hamming u1: u32 popcount accumulator. Overflows at n_bits > 2^32 (~4.3 billion).
+ *  The streaming u1x512 variant uses u64, safe for any practical dimension.
+ *  Jaccard u1: u32 intersection/union counts, f32 division at finalization.
+ *  Popcount values above 2^24 lose precision in f32 cast (24-bit mantissa).
+ *  Byte-level Hamming/Jaccard u8: u32 mismatch counter. Overflows at n > 2^32.
+ *
+ *  @section popcount_strategies Population Count Strategies
+ *
+ *  Jaccard distances are extremely common and also fairly cheap to compute on binary vectors.
+ *  The hardest part of optimizing binary similarity measures is the population count operation.
+ *  It's natively supported by almost every instruction set, but the throughput and latency can
+ *  be suboptimal. There are several ways to optimize this operation:
+ *
+ *  - Lookup tables, mostly using nibbles (4-bit lookups)
+ *  - Harley-Seal population counts using Carry-Save Adders (CSA)
+ *
+ *  @section x86_instructions Relevant x86 Instructions
+ *
+ *  On binary vectors, when computing Jaccard distance, the CPU often struggles to compute the
+ *  large number of required population counts. There are several instructions we should keep in mind:
+ *
+ *      Intrinsic                   Instruction                     Ice         Genoa
+ *      _mm512_popcnt_epi64         VPOPCNTQ (ZMM, K, ZMM)          3cy @ p5     2cy @ p01
+ *      _mm512_shuffle_epi8         VPSHUFB (ZMM, ZMM, ZMM)         1cy @ p5     2cy @ p12
+ *      _mm512_sad_epu8             VPSADBW (ZMM, ZMM, ZMM)         3cy @ p5     3cy @ p01
+ *      _mm512_ternarylogic_epi64   VPTERNLOGQ (ZMM, ZMM, ZMM, I8)  1cy @ p05    1cy @ p0123
+ *      _mm512_gf2p8mul_epi8        VGF2P8MULB (ZMM, ZMM, ZMM)      5cy @ p0     3cy @ p01
+ *
+ *  On Ice Lake, VPOPCNTQ bottlenecks on port 5. On AMD Genoa/Turin, it dual-issues
+ *  on ports 0-1, making native popcount significantly faster without CSA tricks.
+ *
+ *  @section harley_seal Harley-Seal Carry-Save Adders
+ *
+ *  The Harley-Seal algorithm uses Carry-Save Adders (CSA) to accumulate population counts
+ *  with fewer VPOPCNTQ instructions. A CSA computes (a + b + c) as (sum, carry) using only
+ *  bitwise operations, deferring expensive popcounts to the final reduction.
+ *
+ *  Performance varies significantly by architecture and buffer size (cycles/byte):
+ *
+ *      Method              Buffer      Ice Lake    Sapphire    Genoa
+ *      Native VPOPCNTQ     any         ~0.12       ~0.10       ~0.06
+ *      Harley-Seal CSA     1 KB        0.107       0.095       0.08
+ *      Harley-Seal CSA     4 KB        0.056       0.052       0.05
+ *      VPSHUFB lookup      4 KB        0.063       0.058       0.07
+ *
+ *  For small buffers (<1KB), loop overhead dominates and unrolled native VPOPCNTQ wins.
+ *  Harley-Seal shines on large buffers where CSA chains amortize the setup cost.
+ *  On AMD Genoa, native VPOPCNTQ is competitive even for large buffers.
+ *
+ *  @section jaccard_norms Jaccard Optimization via Norms
+ *
+ *  There is a trivial optimization to halve the number of population counts needed for
+ *  binary Jaccard distance, if one knows the set magnitudes ahead of time:
+ *
+ *      J = |A ∩ B| / |A ∪ B| = |A ∩ B| / (|A| + |B| - |A ∩ B|)
+ *
+ *  At that point the problem reduces to optimizing memory accesses and register usage.
+ *  For such cases, we provide additional function variants designed exclusively for compile-time
+ *  dispatch in heavily inlined code, operating on wider vectors with known sizes:
+ *
+ *  - nk_jaccard_u1x512_state_<isa>_t - Smallest optimal running state
+ *  - nk_jaccard_u1x512_init_<isa> - Initializes the running state
+ *  - nk_jaccard_u1x512_update_<isa> - Updates the running state with 2 new 512-bit vectors
+ *  - nk_jaccard_u1x512_finalize_<isa> - Finalizes the running state and produces the distance
+ *
+ *  @section streaming_api Streaming API
+ *
+ *  The streaming variants aren't always strictly equivalent to their counterparts above
+ *  and their usage also differs quite drastically. For large-scale batch processing where
+ *  vectors won't be reused, consider non-temporal loads (`_mm512_stream_load_si512`) to
+ *  bypass the cache and avoid pollution. This is especially beneficial when computing
+ *  distances across millions of vectors in a single pass.
+ *
+ *  @code{.c}
+ *  // 1024-dimensional binary vectors, one query and four targets
+ *  nk_u1x8_t query[128], target_first[128], target_second[128], target_third[128], target_fourth[128];
+ *  // Precomputed popcount of 'a' as f32
+ *  nk_f32_t query_popcount = ...;
+ *  nk_f32_t target_popcount_first = ..., target_popcount_second = ...;
+ *
+ *  nk_jaccard_u1x512_state_icelake_t state_first, state_second, state_third, state_fourth;
+ *  nk_jaccard_u1x512_init_icelake(&state_first);
+ *  nk_jaccard_u1x512_init_icelake(&state_second);
+ *  nk_jaccard_u1x512_init_icelake(&state_third);
+ *  nk_jaccard_u1x512_init_icelake(&state_fourth);
+ *  nk_jaccard_u1x512_update_icelake(&state_first, &query[0], &target_first[0], 0, 512); // First 512 bits
+ *  nk_jaccard_u1x512_update_icelake(&state_first, &query[64], &target_first[64], 512, 512); // Second 512 bits
+ *  // ... update state_second, state_third, state_fourth similarly ...
+ *
+ *  nk_f32_t results[4];
+ *  nk_jaccard_u1x512_finalize_icelake(&state_first, &state_second, &state_third, &state_fourth,
+ *      query_popcount, target_popcount_first, target_popcount_second,
+ *      target_popcount_third, target_popcount_fourth, total_dimensions, results);
+ *  @endcode
+ *
+ *  @section tail_handling Tail Handling
+ *
+ *  The trickiest part is handling the tails of the vectors when their size isn't divisible
+ *  by our step size. In such cases, it's recommended to use masked loads when supported by
+ *  the ISA, or fall back to scalar code and a local on-stack buffer.
+ *
+ *  @section references References
+ *
+ *  - Intel Intrinsics Guide: https://www.intel.com/content/www/us/en/docs/intrinsics-guide/
+ *  - Arm Intrinsics Reference: https://developer.arm.com/architectures/instruction-sets/intrinsics/
+ *  - Muła et al. "Faster Population Counts": https://arxiv.org/pdf/1611.07612
+ *  - Muła SSE POPCOUNT experiments: https://github.com/WojciechMula/sse-popcount
+ *  - NumKong binary R&D tracker: https://github.com/ashvardanian/NumKong/pull/138
+ *
+ *  @section Finalize Output Types
+ *
+ *  Jaccard similarity finalize outputs to f32:
+ *  - Jaccard = intersection / union, always ∈ [0.0, 1.0]
+ *  - f32 provides ~7 decimal digits, far exceeding practical needs
+ *  - Matches spatial.h convention for non-f64 distance outputs
+ *  - Reduces memory footprint in large-scale binary similarity search
+ *
+ *  The intersection and union counts are u64 internally for correctness,
+ *  but the final ratio fits comfortably in f32.
+ *
+ */
+#ifndef NK_SET_H
+#define NK_SET_H
+#include "numkong/types.h"
+#if defined(__cplusplus)
+extern "C" {
+#endif
+/**
+ *  @brief Binary Hamming distance computing the number of differing bits between two binary vectors.
+ *
+ *  @param[in] a The first binary vector.
+ *  @param[in] b The second binary vector.
+ *  @param[in] n The number of bits in the vectors.
+ *  @param[out] result The output distance value.
+ *
+ *  @note The output distance value is non-negative.
+ *  @note The output distance value is zero if and only if the two vectors are identical.
+ */
+NK_DYNAMIC void nk_hamming_u1(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_u32_t *result);
+/**
+ *  @brief Binary Jaccard distance computing the ratio of differing bits to the union of bits.
+ *
+ *  @param[in] a The first binary vector.
+ *  @param[in] b The second binary vector.
+ *  @param[in] n The number of bits in the vectors.
+ *  @param[out] result The output distance value.
+ *
+ *  @note The output distance value is non-negative.
+ *  @note The output distance value is zero if and only if the two vectors are identical.
+ */
+NK_DYNAMIC void nk_jaccard_u1(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_f32_t *result);
+/**
+ *  @brief Integral Jaccard distance computing the ratio of differing bits to the union of bits.
+ *
+ *  @param[in] a The first binary vector.
+ *  @param[in] b The second binary vector.
+ *  @param[in] n The number of 32-bit scalars in the vectors.
+ *  @param[out] result The output distance value.
+ *
+ *  @note The output distance value is non-negative.
+ *  @note The output distance value is zero if and only if the two vectors are identical.
+ */
+NK_DYNAMIC void nk_jaccard_u32(nk_u32_t const *a, nk_u32_t const *b, nk_size_t n, nk_f32_t *result);
+/**
+ *  @brief Byte-level Hamming distance computing the number of differing bytes between two vectors.
+ *
+ *  @param[in] a The first byte vector.
+ *  @param[in] b The second byte vector.
+ *  @param[in] n The number of bytes in the vectors.
+ *  @param[out] result The output distance value.
+ *
+ *  @note The output distance value is non-negative.
+ *  @note The output distance value is zero if and only if the two vectors are identical.
+ */
+NK_DYNAMIC void nk_hamming_u8(nk_u8_t const *a, nk_u8_t const *b, nk_size_t n, nk_u32_t *result);
+/**
+ *  @brief Integral Jaccard distance for 16-bit unsigned integer vectors.
+ *
+ *  @param[in] a The first vector.
+ *  @param[in] b The second vector.
+ *  @param[in] n The number of 16-bit scalars in the vectors.
+ *  @param[out] result The output distance value.
+ *
+ *  @note The output distance value is non-negative.
+ *  @note The output distance value is zero if and only if the two vectors are identical.
+ */
+NK_DYNAMIC void nk_jaccard_u16(nk_u16_t const *a, nk_u16_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_hamming_u1 */
+NK_PUBLIC void nk_hamming_u1_serial(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_u32_t *result);
+/** @copydoc nk_hamming_u8 */
+NK_PUBLIC void nk_hamming_u8_serial(nk_u8_t const *a, nk_u8_t const *b, nk_size_t n, nk_u32_t *result);
+/** @copydoc nk_jaccard_u1 */
+NK_PUBLIC void nk_jaccard_u1_serial(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_jaccard_u32 */
+NK_PUBLIC void nk_jaccard_u32_serial(nk_u32_t const *a, nk_u32_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_jaccard_u16 */
+NK_PUBLIC void nk_jaccard_u16_serial(nk_u16_t const *a, nk_u16_t const *b, nk_size_t n, nk_f32_t *result);
+#if NK_TARGET_NEON
+/** @copydoc nk_hamming_u1 */
+NK_PUBLIC void nk_hamming_u1_neon(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_u32_t *result);
+/** @copydoc nk_hamming_u8 */
+NK_PUBLIC void nk_hamming_u8_neon(nk_u8_t const *a, nk_u8_t const *b, nk_size_t n, nk_u32_t *result);
+/** @copydoc nk_jaccard_u1 */
+NK_PUBLIC void nk_jaccard_u1_neon(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_jaccard_u32 */
+NK_PUBLIC void nk_jaccard_u32_neon(nk_u32_t const *a, nk_u32_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_jaccard_u16 */
+NK_PUBLIC void nk_jaccard_u16_neon(nk_u16_t const *a, nk_u16_t const *b, nk_size_t n, nk_f32_t *result);
+#endif // NK_TARGET_NEON
+#if NK_TARGET_SVE
+/** @copydoc nk_hamming_u1 */
+NK_PUBLIC void nk_hamming_u1_sve(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_u32_t *result);
+/** @copydoc nk_hamming_u8 */
+NK_PUBLIC void nk_hamming_u8_sve(nk_u8_t const *a, nk_u8_t const *b, nk_size_t n, nk_u32_t *result);
+/** @copydoc nk_jaccard_u1 */
+NK_PUBLIC void nk_jaccard_u1_sve(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_jaccard_u32 */
+NK_PUBLIC void nk_jaccard_u32_sve(nk_u32_t const *a, nk_u32_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_jaccard_u16 */
+NK_PUBLIC void nk_jaccard_u16_sve(nk_u16_t const *a, nk_u16_t const *b, nk_size_t n, nk_f32_t *result);
+#endif // NK_TARGET_SVE
+#if NK_TARGET_HASWELL
+/** @copydoc nk_hamming_u1 */
+NK_PUBLIC void nk_hamming_u1_haswell(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_u32_t *result);
+/** @copydoc nk_hamming_u8 */
+NK_PUBLIC void nk_hamming_u8_haswell(nk_u8_t const *a, nk_u8_t const *b, nk_size_t n, nk_u32_t *result);
+/** @copydoc nk_jaccard_u1 */
+NK_PUBLIC void nk_jaccard_u1_haswell(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_jaccard_u16 */
+NK_PUBLIC void nk_jaccard_u16_haswell(nk_u16_t const *a, nk_u16_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_jaccard_u32 */
+NK_PUBLIC void nk_jaccard_u32_haswell(nk_u32_t const *a, nk_u32_t const *b, nk_size_t n, nk_f32_t *result);
+#endif // NK_TARGET_HASWELL
+#if NK_TARGET_ICELAKE
+/** @copydoc nk_hamming_u1 */
+NK_PUBLIC void nk_hamming_u1_icelake(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_u32_t *result);
+/** @copydoc nk_hamming_u8 */
+NK_PUBLIC void nk_hamming_u8_icelake(nk_u8_t const *a, nk_u8_t const *b, nk_size_t n, nk_u32_t *result);
+/** @copydoc nk_jaccard_u1 */
+NK_PUBLIC void nk_jaccard_u1_icelake(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_jaccard_u32 */
+NK_PUBLIC void nk_jaccard_u32_icelake(nk_u32_t const *a, nk_u32_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_jaccard_u16 */
+NK_PUBLIC void nk_jaccard_u16_icelake(nk_u16_t const *a, nk_u16_t const *b, nk_size_t n, nk_f32_t *result);
+#endif // NK_TARGET_ICELAKE
+#if NK_TARGET_RVVBB
+/** @copydoc nk_hamming_u1 */
+NK_PUBLIC void nk_hamming_u1_rvvbb(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_u32_t *result);
+/** @copydoc nk_jaccard_u1 */
+NK_PUBLIC void nk_jaccard_u1_rvvbb(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_f32_t *result);
+#endif // NK_TARGET_RVVBB
+#if NK_TARGET_RVV
+/** @copydoc nk_hamming_u1 */
+NK_PUBLIC void nk_hamming_u1_rvv(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_u32_t *result);
+/** @copydoc nk_hamming_u8 */
+NK_PUBLIC void nk_hamming_u8_rvv(nk_u8_t const *a, nk_u8_t const *b, nk_size_t n, nk_u32_t *result);
+/** @copydoc nk_jaccard_u1 */
+NK_PUBLIC void nk_jaccard_u1_rvv(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_jaccard_u16 */
+NK_PUBLIC void nk_jaccard_u16_rvv(nk_u16_t const *a, nk_u16_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_jaccard_u32 */
+NK_PUBLIC void nk_jaccard_u32_rvv(nk_u32_t const *a, nk_u32_t const *b, nk_size_t n, nk_f32_t *result);
+#endif // NK_TARGET_RVV
+#if NK_TARGET_V128RELAXED
+/** @copydoc nk_hamming_u1 */
+NK_PUBLIC void nk_hamming_u1_v128relaxed(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_u32_t *result);
+/** @copydoc nk_hamming_u8 */
+NK_PUBLIC void nk_hamming_u8_v128relaxed(nk_u8_t const *a, nk_u8_t const *b, nk_size_t n, nk_u32_t *result);
+/** @copydoc nk_jaccard_u1 */
+NK_PUBLIC void nk_jaccard_u1_v128relaxed(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_jaccard_u16 */
+NK_PUBLIC void nk_jaccard_u16_v128relaxed(nk_u16_t const *a, nk_u16_t const *b, nk_size_t n, nk_f32_t *result);
+/** @copydoc nk_jaccard_u32 */
+NK_PUBLIC void nk_jaccard_u32_v128relaxed(nk_u32_t const *a, nk_u32_t const *b, nk_size_t n, nk_f32_t *result);
+#endif // NK_TARGET_V128RELAXED
+/**
+ *  @brief  Returns the output dtype for Hamming distance.
+ */
+NK_INTERNAL nk_dtype_t nk_hamming_output_dtype(nk_dtype_t dtype) {
+    switch (dtype) {
+    case nk_u1_k: return nk_u32_k;
+    case nk_u8_k: return nk_u32_k;
+    default: return nk_dtype_unknown_k;
+    }
+}
+/**
+ *  @brief  Returns the output dtype for Jaccard distance.
+ */
+NK_INTERNAL nk_dtype_t nk_jaccard_output_dtype(nk_dtype_t dtype) {
+    switch (dtype) {
+    case nk_u1_k: return nk_f32_k;
+    case nk_u16_k: return nk_f32_k;
+    case nk_u32_k: return nk_f32_k;
+    default: return nk_dtype_unknown_k;
+    }
+}
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#include "numkong/set/serial.h"
+#include "numkong/set/neon.h"
+#include "numkong/set/sve.h"
+#include "numkong/set/icelake.h"
+#include "numkong/set/haswell.h"
+#include "numkong/set/v128relaxed.h"
+#include "numkong/set/rvv.h"
+#include "numkong/set/rvvbb.h"
+#if defined(__cplusplus)
+extern "C" {
+#endif
+#if !NK_DYNAMIC_DISPATCH
+NK_PUBLIC void nk_hamming_u1(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_u32_t *result) {
+#if NK_TARGET_V128RELAXED
+    nk_hamming_u1_v128relaxed(a, b, n, result);
+#elif NK_TARGET_SVE
+    nk_hamming_u1_sve(a, b, n, result);
+#elif NK_TARGET_NEON
+    nk_hamming_u1_neon(a, b, n, result);
+#elif NK_TARGET_ICELAKE
+    nk_hamming_u1_icelake(a, b, n, result);
+#elif NK_TARGET_HASWELL
+    nk_hamming_u1_haswell(a, b, n, result);
+#elif NK_TARGET_RVVBB
+    nk_hamming_u1_rvvbb(a, b, n, result);
+#elif NK_TARGET_RVV
+    nk_hamming_u1_rvv(a, b, n, result);
+#else
+    nk_hamming_u1_serial(a, b, n, result);
+#endif
+}
+NK_PUBLIC void nk_jaccard_u1(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_f32_t *result) {
+#if NK_TARGET_V128RELAXED
+    nk_jaccard_u1_v128relaxed(a, b, n, result);
+#elif NK_TARGET_SVE
+    nk_jaccard_u1_sve(a, b, n, result);
+#elif NK_TARGET_NEON
+    nk_jaccard_u1_neon(a, b, n, result);
+#elif NK_TARGET_ICELAKE
+    nk_jaccard_u1_icelake(a, b, n, result);
+#elif NK_TARGET_HASWELL
+    nk_jaccard_u1_haswell(a, b, n, result);
+#elif NK_TARGET_RVVBB
+    nk_jaccard_u1_rvvbb(a, b, n, result);
+#elif NK_TARGET_RVV
+    nk_jaccard_u1_rvv(a, b, n, result);
+#else
+    nk_jaccard_u1_serial(a, b, n, result);
+#endif
+}
+NK_PUBLIC void nk_jaccard_u32(nk_u32_t const *a, nk_u32_t const *b, nk_size_t n, nk_f32_t *result) {
+#if NK_TARGET_V128RELAXED
+    nk_jaccard_u32_v128relaxed(a, b, n, result);
+#elif NK_TARGET_SVE
+    nk_jaccard_u32_sve(a, b, n, result);
+#elif NK_TARGET_NEON
+    nk_jaccard_u32_neon(a, b, n, result);
+#elif NK_TARGET_ICELAKE
+    nk_jaccard_u32_icelake(a, b, n, result);
+#elif NK_TARGET_HASWELL
+    nk_jaccard_u32_haswell(a, b, n, result);
+#elif NK_TARGET_RVV
+    nk_jaccard_u32_rvv(a, b, n, result);
+#else
+    nk_jaccard_u32_serial(a, b, n, result);
+#endif
+}
+NK_PUBLIC void nk_hamming_u8(nk_u8_t const *a, nk_u8_t const *b, nk_size_t n, nk_u32_t *result) {
+#if NK_TARGET_V128RELAXED
+    nk_hamming_u8_v128relaxed(a, b, n, result);
+#elif NK_TARGET_SVE
+    nk_hamming_u8_sve(a, b, n, result);
+#elif NK_TARGET_NEON
+    nk_hamming_u8_neon(a, b, n, result);
+#elif NK_TARGET_ICELAKE
+    nk_hamming_u8_icelake(a, b, n, result);
+#elif NK_TARGET_HASWELL
+    nk_hamming_u8_haswell(a, b, n, result);
+#elif NK_TARGET_RVV
+    nk_hamming_u8_rvv(a, b, n, result);
+#else
+    nk_hamming_u8_serial(a, b, n, result);
+#endif
+}
+NK_PUBLIC void nk_jaccard_u16(nk_u16_t const *a, nk_u16_t const *b, nk_size_t n, nk_f32_t *result) {
+#if NK_TARGET_V128RELAXED
+    nk_jaccard_u16_v128relaxed(a, b, n, result);
+#elif NK_TARGET_SVE
+    nk_jaccard_u16_sve(a, b, n, result);
+#elif NK_TARGET_NEON
+    nk_jaccard_u16_neon(a, b, n, result);
+#elif NK_TARGET_ICELAKE
+    nk_jaccard_u16_icelake(a, b, n, result);
+#elif NK_TARGET_HASWELL
+    nk_jaccard_u16_haswell(a, b, n, result);
+#elif NK_TARGET_RVV
+    nk_jaccard_u16_rvv(a, b, n, result);
+#else
+    nk_jaccard_u16_serial(a, b, n, result);
+#endif
+}
+#endif // !NK_DYNAMIC_DISPATCH
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#endif