npm - numkong - Versions diffs - 7.0.0 - Mend

numkong 7.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (294) hide show

package/LICENSE +201 -0
package/README.md +495 -0
package/binding.gyp +540 -0
package/c/dispatch.h +512 -0
package/c/dispatch_bf16.c +389 -0
package/c/dispatch_bf16c.c +52 -0
package/c/dispatch_e2m3.c +263 -0
package/c/dispatch_e3m2.c +243 -0
package/c/dispatch_e4m3.c +276 -0
package/c/dispatch_e5m2.c +272 -0
package/c/dispatch_f16.c +376 -0
package/c/dispatch_f16c.c +58 -0
package/c/dispatch_f32.c +378 -0
package/c/dispatch_f32c.c +99 -0
package/c/dispatch_f64.c +296 -0
package/c/dispatch_f64c.c +98 -0
package/c/dispatch_i16.c +96 -0
package/c/dispatch_i32.c +89 -0
package/c/dispatch_i4.c +150 -0
package/c/dispatch_i64.c +86 -0
package/c/dispatch_i8.c +289 -0
package/c/dispatch_other.c +330 -0
package/c/dispatch_u1.c +148 -0
package/c/dispatch_u16.c +124 -0
package/c/dispatch_u32.c +118 -0
package/c/dispatch_u4.c +150 -0
package/c/dispatch_u64.c +102 -0
package/c/dispatch_u8.c +303 -0
package/c/numkong.c +950 -0
package/include/README.md +573 -0
package/include/module.modulemap +129 -0
package/include/numkong/attention/sapphireamx.h +1361 -0
package/include/numkong/attention/sme.h +2066 -0
package/include/numkong/attention.h +49 -0
package/include/numkong/capabilities.h +748 -0
package/include/numkong/cast/README.md +262 -0
package/include/numkong/cast/haswell.h +975 -0
package/include/numkong/cast/icelake.h +470 -0
package/include/numkong/cast/neon.h +1192 -0
package/include/numkong/cast/rvv.h +1021 -0
package/include/numkong/cast/sapphire.h +262 -0
package/include/numkong/cast/serial.h +2262 -0
package/include/numkong/cast/skylake.h +856 -0
package/include/numkong/cast/v128relaxed.h +180 -0
package/include/numkong/cast.h +230 -0
package/include/numkong/curved/README.md +223 -0
package/include/numkong/curved/genoa.h +182 -0
package/include/numkong/curved/haswell.h +276 -0
package/include/numkong/curved/neon.h +205 -0
package/include/numkong/curved/neonbfdot.h +212 -0
package/include/numkong/curved/neonhalf.h +212 -0
package/include/numkong/curved/rvv.h +305 -0
package/include/numkong/curved/serial.h +207 -0
package/include/numkong/curved/skylake.h +457 -0
package/include/numkong/curved/smef64.h +506 -0
package/include/numkong/curved.h +517 -0
package/include/numkong/curved.hpp +144 -0
package/include/numkong/dot/README.md +425 -0
package/include/numkong/dot/alder.h +563 -0
package/include/numkong/dot/genoa.h +315 -0
package/include/numkong/dot/haswell.h +1688 -0
package/include/numkong/dot/icelake.h +883 -0
package/include/numkong/dot/neon.h +818 -0
package/include/numkong/dot/neonbfdot.h +244 -0
package/include/numkong/dot/neonfhm.h +360 -0
package/include/numkong/dot/neonhalf.h +198 -0
package/include/numkong/dot/neonsdot.h +508 -0
package/include/numkong/dot/rvv.h +714 -0
package/include/numkong/dot/rvvbb.h +72 -0
package/include/numkong/dot/rvvbf16.h +123 -0
package/include/numkong/dot/rvvhalf.h +129 -0
package/include/numkong/dot/sapphire.h +141 -0
package/include/numkong/dot/serial.h +838 -0
package/include/numkong/dot/sierra.h +405 -0
package/include/numkong/dot/skylake.h +1084 -0
package/include/numkong/dot/sve.h +379 -0
package/include/numkong/dot/svebfdot.h +74 -0
package/include/numkong/dot/svehalf.h +123 -0
package/include/numkong/dot/v128relaxed.h +1258 -0
package/include/numkong/dot.h +1070 -0
package/include/numkong/dot.hpp +94 -0
package/include/numkong/dots/README.md +496 -0
package/include/numkong/dots/alder.h +114 -0
package/include/numkong/dots/genoa.h +94 -0
package/include/numkong/dots/haswell.h +295 -0
package/include/numkong/dots/icelake.h +171 -0
package/include/numkong/dots/neon.h +120 -0
package/include/numkong/dots/neonbfdot.h +58 -0
package/include/numkong/dots/neonfhm.h +94 -0
package/include/numkong/dots/neonhalf.h +57 -0
package/include/numkong/dots/neonsdot.h +108 -0
package/include/numkong/dots/rvv.h +2486 -0
package/include/numkong/dots/sapphireamx.h +3973 -0
package/include/numkong/dots/serial.h +2844 -0
package/include/numkong/dots/sierra.h +97 -0
package/include/numkong/dots/skylake.h +196 -0
package/include/numkong/dots/sme.h +5372 -0
package/include/numkong/dots/smebi32.h +461 -0
package/include/numkong/dots/smef64.h +1318 -0
package/include/numkong/dots/smehalf.h +47 -0
package/include/numkong/dots/v128relaxed.h +294 -0
package/include/numkong/dots.h +2804 -0
package/include/numkong/dots.hpp +639 -0
package/include/numkong/each/README.md +469 -0
package/include/numkong/each/haswell.h +1658 -0
package/include/numkong/each/icelake.h +272 -0
package/include/numkong/each/neon.h +1104 -0
package/include/numkong/each/neonbfdot.h +212 -0
package/include/numkong/each/neonhalf.h +410 -0
package/include/numkong/each/rvv.h +1121 -0
package/include/numkong/each/sapphire.h +477 -0
package/include/numkong/each/serial.h +260 -0
package/include/numkong/each/skylake.h +1562 -0
package/include/numkong/each.h +2146 -0
package/include/numkong/each.hpp +434 -0
package/include/numkong/geospatial/README.md +147 -0
package/include/numkong/geospatial/haswell.h +593 -0
package/include/numkong/geospatial/neon.h +571 -0
package/include/numkong/geospatial/rvv.h +701 -0
package/include/numkong/geospatial/serial.h +309 -0
package/include/numkong/geospatial/skylake.h +577 -0
package/include/numkong/geospatial/v128relaxed.h +613 -0
package/include/numkong/geospatial.h +453 -0
package/include/numkong/geospatial.hpp +235 -0
package/include/numkong/matrix.hpp +336 -0
package/include/numkong/maxsim/README.md +187 -0
package/include/numkong/maxsim/alder.h +511 -0
package/include/numkong/maxsim/genoa.h +115 -0
package/include/numkong/maxsim/haswell.h +553 -0
package/include/numkong/maxsim/icelake.h +480 -0
package/include/numkong/maxsim/neonsdot.h +394 -0
package/include/numkong/maxsim/sapphireamx.h +877 -0
package/include/numkong/maxsim/serial.h +490 -0
package/include/numkong/maxsim/sme.h +929 -0
package/include/numkong/maxsim/v128relaxed.h +280 -0
package/include/numkong/maxsim.h +571 -0
package/include/numkong/maxsim.hpp +133 -0
package/include/numkong/mesh/README.md +227 -0
package/include/numkong/mesh/haswell.h +2235 -0
package/include/numkong/mesh/neon.h +1329 -0
package/include/numkong/mesh/neonbfdot.h +842 -0
package/include/numkong/mesh/neonhalf.h +616 -0
package/include/numkong/mesh/rvv.h +916 -0
package/include/numkong/mesh/serial.h +742 -0
package/include/numkong/mesh/skylake.h +1135 -0
package/include/numkong/mesh/v128relaxed.h +1052 -0
package/include/numkong/mesh.h +652 -0
package/include/numkong/mesh.hpp +762 -0
package/include/numkong/numkong.h +78 -0
package/include/numkong/numkong.hpp +57 -0
package/include/numkong/probability/README.md +173 -0
package/include/numkong/probability/haswell.h +267 -0
package/include/numkong/probability/neon.h +225 -0
package/include/numkong/probability/rvv.h +409 -0
package/include/numkong/probability/serial.h +169 -0
package/include/numkong/probability/skylake.h +324 -0
package/include/numkong/probability.h +383 -0
package/include/numkong/probability.hpp +120 -0
package/include/numkong/random.h +50 -0
package/include/numkong/random.hpp +285 -0
package/include/numkong/reduce/README.md +547 -0
package/include/numkong/reduce/alder.h +632 -0
package/include/numkong/reduce/genoa.h +201 -0
package/include/numkong/reduce/haswell.h +3783 -0
package/include/numkong/reduce/icelake.h +549 -0
package/include/numkong/reduce/neon.h +3841 -0
package/include/numkong/reduce/neonbfdot.h +353 -0
package/include/numkong/reduce/neonfhm.h +665 -0
package/include/numkong/reduce/neonhalf.h +157 -0
package/include/numkong/reduce/neonsdot.h +357 -0
package/include/numkong/reduce/rvv.h +3407 -0
package/include/numkong/reduce/serial.h +757 -0
package/include/numkong/reduce/sierra.h +338 -0
package/include/numkong/reduce/skylake.h +3792 -0
package/include/numkong/reduce/v128relaxed.h +2302 -0
package/include/numkong/reduce.h +1597 -0
package/include/numkong/reduce.hpp +633 -0
package/include/numkong/scalar/README.md +89 -0
package/include/numkong/scalar/haswell.h +113 -0
package/include/numkong/scalar/neon.h +122 -0
package/include/numkong/scalar/neonhalf.h +70 -0
package/include/numkong/scalar/rvv.h +211 -0
package/include/numkong/scalar/sapphire.h +63 -0
package/include/numkong/scalar/serial.h +332 -0
package/include/numkong/scalar/v128relaxed.h +56 -0
package/include/numkong/scalar.h +683 -0
package/include/numkong/set/README.md +179 -0
package/include/numkong/set/haswell.h +334 -0
package/include/numkong/set/icelake.h +485 -0
package/include/numkong/set/neon.h +364 -0
package/include/numkong/set/rvv.h +226 -0
package/include/numkong/set/rvvbb.h +117 -0
package/include/numkong/set/serial.h +174 -0
package/include/numkong/set/sve.h +185 -0
package/include/numkong/set/v128relaxed.h +240 -0
package/include/numkong/set.h +457 -0
package/include/numkong/set.hpp +114 -0
package/include/numkong/sets/README.md +149 -0
package/include/numkong/sets/haswell.h +63 -0
package/include/numkong/sets/icelake.h +66 -0
package/include/numkong/sets/neon.h +61 -0
package/include/numkong/sets/serial.h +43 -0
package/include/numkong/sets/smebi32.h +1099 -0
package/include/numkong/sets/v128relaxed.h +58 -0
package/include/numkong/sets.h +339 -0
package/include/numkong/sparse/README.md +156 -0
package/include/numkong/sparse/icelake.h +463 -0
package/include/numkong/sparse/neon.h +288 -0
package/include/numkong/sparse/serial.h +117 -0
package/include/numkong/sparse/sve2.h +507 -0
package/include/numkong/sparse/turin.h +322 -0
package/include/numkong/sparse.h +363 -0
package/include/numkong/sparse.hpp +113 -0
package/include/numkong/spatial/README.md +435 -0
package/include/numkong/spatial/alder.h +607 -0
package/include/numkong/spatial/genoa.h +290 -0
package/include/numkong/spatial/haswell.h +960 -0
package/include/numkong/spatial/icelake.h +586 -0
package/include/numkong/spatial/neon.h +773 -0
package/include/numkong/spatial/neonbfdot.h +165 -0
package/include/numkong/spatial/neonhalf.h +118 -0
package/include/numkong/spatial/neonsdot.h +261 -0
package/include/numkong/spatial/rvv.h +984 -0
package/include/numkong/spatial/rvvbf16.h +123 -0
package/include/numkong/spatial/rvvhalf.h +117 -0
package/include/numkong/spatial/sapphire.h +343 -0
package/include/numkong/spatial/serial.h +346 -0
package/include/numkong/spatial/sierra.h +323 -0
package/include/numkong/spatial/skylake.h +606 -0
package/include/numkong/spatial/sve.h +224 -0
package/include/numkong/spatial/svebfdot.h +122 -0
package/include/numkong/spatial/svehalf.h +109 -0
package/include/numkong/spatial/v128relaxed.h +717 -0
package/include/numkong/spatial.h +1425 -0
package/include/numkong/spatial.hpp +183 -0
package/include/numkong/spatials/README.md +580 -0
package/include/numkong/spatials/alder.h +94 -0
package/include/numkong/spatials/genoa.h +94 -0
package/include/numkong/spatials/haswell.h +219 -0
package/include/numkong/spatials/icelake.h +113 -0
package/include/numkong/spatials/neon.h +109 -0
package/include/numkong/spatials/neonbfdot.h +60 -0
package/include/numkong/spatials/neonfhm.h +92 -0
package/include/numkong/spatials/neonhalf.h +58 -0
package/include/numkong/spatials/neonsdot.h +109 -0
package/include/numkong/spatials/rvv.h +1960 -0
package/include/numkong/spatials/sapphireamx.h +1149 -0
package/include/numkong/spatials/serial.h +226 -0
package/include/numkong/spatials/sierra.h +96 -0
package/include/numkong/spatials/skylake.h +184 -0
package/include/numkong/spatials/sme.h +1901 -0
package/include/numkong/spatials/smef64.h +465 -0
package/include/numkong/spatials/v128relaxed.h +240 -0
package/include/numkong/spatials.h +3021 -0
package/include/numkong/spatials.hpp +508 -0
package/include/numkong/tensor.hpp +1592 -0
package/include/numkong/trigonometry/README.md +184 -0
package/include/numkong/trigonometry/haswell.h +652 -0
package/include/numkong/trigonometry/neon.h +639 -0
package/include/numkong/trigonometry/rvv.h +699 -0
package/include/numkong/trigonometry/serial.h +703 -0
package/include/numkong/trigonometry/skylake.h +721 -0
package/include/numkong/trigonometry/v128relaxed.h +666 -0
package/include/numkong/trigonometry.h +467 -0
package/include/numkong/trigonometry.hpp +166 -0
package/include/numkong/types.h +1384 -0
package/include/numkong/types.hpp +5603 -0
package/include/numkong/vector.hpp +698 -0
package/javascript/README.md +246 -0
package/javascript/dist/cjs/numkong-wasm.d.ts +166 -0
package/javascript/dist/cjs/numkong-wasm.js +617 -0
package/javascript/dist/cjs/numkong.d.ts +343 -0
package/javascript/dist/cjs/numkong.js +523 -0
package/javascript/dist/cjs/package.json +3 -0
package/javascript/dist/cjs/types.d.ts +284 -0
package/javascript/dist/cjs/types.js +653 -0
package/javascript/dist/esm/numkong-wasm.d.ts +166 -0
package/javascript/dist/esm/numkong-wasm.js +595 -0
package/javascript/dist/esm/numkong.d.ts +343 -0
package/javascript/dist/esm/numkong.js +452 -0
package/javascript/dist/esm/package.json +3 -0
package/javascript/dist/esm/types.d.ts +284 -0
package/javascript/dist/esm/types.js +630 -0
package/javascript/dist-package-cjs.json +3 -0
package/javascript/dist-package-esm.json +3 -0
package/javascript/node-gyp-build.d.ts +1 -0
package/javascript/numkong-wasm.ts +756 -0
package/javascript/numkong.c +689 -0
package/javascript/numkong.ts +575 -0
package/javascript/tsconfig-base.json +39 -0
package/javascript/tsconfig-cjs.json +8 -0
package/javascript/tsconfig-esm.json +8 -0
package/javascript/types.ts +674 -0
package/package.json +87 -0

package/include/numkong/set/README.md ADDED Viewed

@@ -0,0 +1,179 @@
+# Set Similarity Measures in NumKong
+NumKong implements set similarity functions for binary and integer vectors: Hamming distance measures the number of differing elements, while Jaccard distance measures the complement of the intersection-over-union ratio.
+These are fundamental to locality-sensitive hashing, MinHash sketches, and binary feature matching.
+Hamming distance counts the number of positions where elements differ.
+For binary vectors packed as octets, this is the popcount of the XOR.
+For byte-level vectors, it counts the number of mismatched bytes:
+```math
+\text{hamming}(a, b) = \sum_{i=0}^{n-1} [a_i \neq b_i]
+```
+Jaccard distance measures the dissimilarity of two sets.
+For binary vectors, the intersection and union are computed via bitwise AND and OR with popcount:
+```math
+\text{jaccard}(a, b) = 1 - \frac{|A \cap B|}{|A \cup B|} = 1 - \frac{\text{popcount}(a \mathbin{\&} b)}{\text{popcount}(a \mathbin{|} b)}
+```
+For word-level vectors (MinHash signatures), Jaccard similarity is the fraction of matching elements:
+```math
+\text{jaccard}(a, b) = 1 - \frac{\sum_{i=0}^{n-1} [a_i = b_i]}{n}
+```
+Reformulating as Python pseudocode:
+```python
+import numpy as np
+def hamming_bits(a: np.ndarray, b: np.ndarray) -> int:
+    return np.unpackbits(np.bitwise_xor(a, b)).sum()
+def jaccard_bits(a: np.ndarray, b: np.ndarray) -> float:
+    intersection = np.unpackbits(np.bitwise_and(a, b)).sum()
+    union = np.unpackbits(np.bitwise_or(a, b)).sum()
+    return 1 - intersection / union if union else 0
+def jaccard_words(a: np.ndarray, b: np.ndarray) -> float:
+    return 1 - np.mean(a == b)
+```
+## Input & Output Types
+| Input Type | Output Type | Description                                 |
+| ---------- | ----------- | ------------------------------------------- |
+| `u1`       | `u32`       | Binary Hamming distance, packed octets      |
+| `u1`       | `f32`       | Binary Jaccard distance, packed octets      |
+| `u8`       | `u32`       | Byte-level Hamming distance                 |
+| `u16`      | `f32`       | Word-level Jaccard distance, 16-bit MinHash |
+| `u32`      | `f32`       | Word-level Jaccard distance, 32-bit MinHash |
+## Optimizations
+### Harley-Seal Carry-Save Adders for U1
+`nk_hamming_u1_haswell`, `nk_jaccard_u1_haswell` amortize the cost of popcount by using Harley-Seal carry-save adder trees.
+Instead of computing popcount on every XOR/AND/OR result independently, three intermediate values are combined through a full-adder circuit:
+```
+ones  = a ^ b ^ c
+twos  = (a & b) | (c & (a ^ b))
+```
+This circuit takes three popcount inputs and produces a ones and twos accumulator, where `twos` has double the weight of `ones`.
+By chaining two levels, a fours accumulator is also produced, so the actual `VPSHUFB`-based popcount is called only on the final accumulated ones, twos, and fours values.
+The total number of popcount operations is reduced by roughly a factor of three compared to computing popcount on every vector independently.
+### Native VPOPCNTQ on Ice Lake
+`nk_hamming_u1_icelake`, `nk_jaccard_u1_icelake` use `VPOPCNTQ` on 512-bit vectors, which directly produces per-quadword population counts for 8 quadwords at once.
+This single instruction replaces the entire nibble-LUT + Harley-Seal pipeline used on Haswell.
+The kernels batch 16 vectors before horizontal reduction to minimize `VPSADBW` overhead, accumulating the per-quadword counts into a running total via `VPADDQ`.
+### Jaccard via Precomputed Norms
+`nk_jaccard_u1_haswell`, `nk_jaccard_u1_icelake` exploit the identity $|A \cup B| = |A| + |B| - |A \cap B|$ to avoid computing both AND-popcount and OR-popcount in the inner loop.
+When vector norms (popcount of each vector) are precomputed and passed via the streaming API, only the intersection popcount is needed per pair, halving the work in the critical path.
+### Byte Hamming via VPSADBW
+`nk_hamming_u8_haswell`, `nk_hamming_u8_icelake` compute byte-level Hamming distance using XOR to produce per-byte difference indicators, then `VPSADBW` against zero to horizontally sum the nonzero bytes.
+XOR produces 0 for equal bytes and nonzero for different ones, and `VPSADBW` sums the absolute values of byte differences within each 64-bit lane.
+Since XOR results are either 0 or nonzero (not necessarily 1), the kernel masks XOR output through `VPMIN` with a vector of ones to clamp each byte to 0 or 1 before feeding `VPSADBW`.
+## Performance
+The following performance tables are produced by manually re-running `nk_test` and `nk_bench` included internal tools to measure both accuracy and throughput at different input shapes.
+The input size is controlled by the `NK_DENSE_DIMENSIONS` environment variable and set to 256, 1024, and 4096 elements.
+The throughput is measured in GB/s as the number of input bytes per second.
+Accuracy is reported where applicable as exact distance in the result representation; floating Jaccard rows are shown as mean ULP (units in last place).
+Each kernel runs for at least 20 seconds per configuration.
+Benchmark threads are pinned to specific cores; on machines with heterogeneous core types (e.g., Apple P/E cores), only the fastest cores are used.
+Workloads that significantly degrade CPU frequencies (Intel AMX, Apple SME) run in separate passes to avoid affecting throughput measurements of other kernels.
+### Intel Sapphire Rapids
+#### Native
+| Kernel                   |                      256 |                     1024 |                     4096 |
+| :----------------------- | -----------------------: | -----------------------: | -----------------------: |
+| __u1__                   | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ |
+| `nk_hamming_u1_serial`   |                2.30 gb/s |                2.62 gb/s |                2.54 gb/s |
+| `nk_jaccard_u1_serial`   |         1.35 gb/s, 0 ulp |         1.46 gb/s, 0 ulp |         1.50 gb/s, 0 ulp |
+| `nk_hamming_u1_haswell`  |                9.63 gb/s |                25.2 gb/s |                56.2 gb/s |
+| `nk_jaccard_u1_haswell`  |         5.24 gb/s, 0 ulp |         15.5 gb/s, 0 ulp |         27.0 gb/s, 0 ulp |
+| `nk_hamming_u1_icelake`  |                11.2 gb/s |                38.2 gb/s |                56.1 gb/s |
+| `nk_jaccard_u1_icelake`  |         6.46 gb/s, 0 ulp |         22.4 gb/s, 0 ulp |         33.3 gb/s, 0 ulp |
+| __u8__                   | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ |
+| `nk_hamming_u8_serial`   |                15.0 gb/s |                14.9 gb/s |                14.8 gb/s |
+| `nk_hamming_u8_haswell`  |                22.4 gb/s |                21.6 gb/s |                17.9 gb/s |
+| `nk_hamming_u8_icelake`  |                55.2 gb/s |                37.7 gb/s |                24.3 gb/s |
+| __u16__                  | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ |
+| `nk_jaccard_u16_serial`  |         27.8 gb/s, 0 ulp |         23.0 gb/s, 0 ulp |         19.2 gb/s, 0 ulp |
+| `nk_jaccard_u16_haswell` |         22.2 gb/s, 0 ulp |         18.4 gb/s, 0 ulp |         13.7 gb/s, 0 ulp |
+| `nk_jaccard_u16_icelake` |         54.2 gb/s, 0 ulp |         24.3 gb/s, 0 ulp |         20.9 gb/s, 0 ulp |
+| __u32__                  | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ |
+| `nk_jaccard_u32_serial`  |         33.1 gb/s, 0 ulp |         23.5 gb/s, 0 ulp |         18.3 gb/s, 0 ulp |
+| `nk_jaccard_u32_haswell` |         19.0 gb/s, 0 ulp |         16.9 gb/s, 0 ulp |         11.0 gb/s, 0 ulp |
+| `nk_jaccard_u32_icelake` |         33.0 gb/s, 0 ulp |         24.6 gb/s, 0 ulp |         16.3 gb/s, 0 ulp |
+#### WASM
+Measured with Wasmtime v42 (Cranelift backend).
+| Kernel                       |                      256 |                     1024 |                     4096 |
+| :--------------------------- | -----------------------: | -----------------------: | -----------------------: |
+| __u1__                       | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ |
+| `nk_hamming_u1_v128relaxed`  |               0.138 gb/s |               0.149 gb/s |               0.979 gb/s |
+| `nk_jaccard_u1_v128relaxed`  |        0.153 gb/s, 0 ulp |        0.352 gb/s, 0 ulp |         2.50 gb/s, 0 ulp |
+| __u8__                       | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ |
+| `nk_hamming_u8_v128relaxed`  |               0.370 gb/s |               0.400 gb/s |                2.19 gb/s |
+| __u16__                      | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ |
+| `nk_jaccard_u16_v128relaxed` |         2.30 gb/s, 0 ulp |         2.34 gb/s, 0 ulp |        0.381 gb/s, 0 ulp |
+| __u32__                      | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ |
+| `nk_jaccard_u32_v128relaxed` |        0.430 gb/s, 0 ulp |         2.46 gb/s, 0 ulp |         1.08 gb/s, 0 ulp |
+### Apple M4
+#### Native
+| Kernel                  |                      256 |                     1024 |                     4096 |
+| :---------------------- | -----------------------: | -----------------------: | -----------------------: |
+| __u1__                  | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ |
+| `nk_hamming_u1_serial`  |                4.66 gb/s |                5.30 gb/s |                5.04 gb/s |
+| `nk_jaccard_u1_serial`  |         3.03 gb/s, 0 ulp |         3.72 gb/s, 0 ulp |         3.65 gb/s, 0 ulp |
+| `nk_hamming_u1_neon`    |                20.7 gb/s |                41.9 gb/s |                52.2 gb/s |
+| `nk_jaccard_u1_neon`    |         15.8 gb/s, 0 ulp |         29.5 gb/s, 0 ulp |         34.8 gb/s, 0 ulp |
+| __u8__                  | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ |
+| `nk_hamming_u8_serial`  |                20.7 gb/s |                21.9 gb/s |                18.1 gb/s |
+| `nk_hamming_u8_neon`    |                49.1 gb/s |                43.9 gb/s |                32.5 gb/s |
+| __u16__                 | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ |
+| `nk_jaccard_u16_serial` |         42.5 gb/s, 0 ulp |         39.7 gb/s, 0 ulp |         36.1 gb/s, 0 ulp |
+| `nk_jaccard_u16_neon`   |         43.3 gb/s, 0 ulp |         33.0 gb/s, 0 ulp |         29.2 gb/s, 0 ulp |
+| __u32__                 | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ |
+| `nk_jaccard_u32_serial` |         60.6 gb/s, 0 ulp |         49.0 gb/s, 0 ulp |         51.2 gb/s, 0 ulp |
+| `nk_jaccard_u32_neon`   |         51.0 gb/s, 0 ulp |         39.9 gb/s, 0 ulp |         38.9 gb/s, 0 ulp |
+#### WASM
+Measured with Wasmtime v42 (Cranelift backend).
+| Kernel                       |                      256 |                     1024 |                     4096 |
+| :--------------------------- | -----------------------: | -----------------------: | -----------------------: |
+| __u1__                       | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ |
+| `nk_hamming_u1_serial`       |               0.501 gb/s |             0.00424 gb/s |              0.0443 gb/s |
+| `nk_jaccard_u1_serial`       |        0.315 gb/s, 0 ulp |        0.362 gb/s, 0 ulp |        0.382 gb/s, 0 ulp |
+| `nk_hamming_u1_v128relaxed`  |               0.414 gb/s |              0.0294 gb/s |               0.233 gb/s |
+| `nk_jaccard_u1_v128relaxed`  |       0.0141 gb/s, 0 ulp |        0.317 gb/s, 0 ulp |        0.249 gb/s, 0 ulp |
+| __u8__                       | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ |
+| `nk_hamming_u8_serial`       |               0.551 gb/s |               0.352 gb/s |               0.154 gb/s |
+| `nk_hamming_u8_v128relaxed`  |               0.702 gb/s |               0.409 gb/s |               0.464 gb/s |
+| __u16__                      | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ |
+| `nk_jaccard_u16_serial`      |        0.647 gb/s, 0 ulp |        0.362 gb/s, 0 ulp |        0.174 gb/s, 0 ulp |
+| `nk_jaccard_u16_v128relaxed` |        0.409 gb/s, 0 ulp |      0.00109 gb/s, 0 ulp |        0.275 gb/s, 0 ulp |
+| __u32__                      | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ | ░░░░░░░░░░░░░░░░░░░░░░░░ |
+| `nk_jaccard_u32_serial`      |        0.320 gb/s, 0 ulp |        0.161 gb/s, 0 ulp |        0.607 gb/s, 0 ulp |
+| `nk_jaccard_u32_v128relaxed` |        0.397 gb/s, 0 ulp |        0.364 gb/s, 0 ulp |       0.0807 gb/s, 0 ulp |

package/include/numkong/set/haswell.h ADDED Viewed

@@ -0,0 +1,334 @@
+/**
+ *  @brief SIMD-accelerated Set Similarity Measures for Haswell.
+ *  @file include/numkong/set/haswell.h
+ *  @author Ash Vardanian
+ *  @date December 27, 2025
+ *
+ *  @sa include/numkong/set.h
+ *
+ *  @section set_haswell_instructions Key POPCNT/AVX2 Set Instructions
+ *
+ *      Intrinsic                   Instruction                     Latency     Throughput  Ports
+ *      _mm_popcnt_u64              POPCNT (R64, R64)               3cy         1/cy        p1
+ *      _mm256_and_si256            VPAND (YMM, YMM, YMM)           1cy         0.33/cy     p015
+ *      _mm256_or_si256             VPOR (YMM, YMM, YMM)            1cy         0.33/cy     p015
+ *      _mm256_xor_si256            VPXOR (YMM, YMM, YMM)           1cy         0.33/cy     p015
+ *      _mm256_extracti128_si256    VEXTRACTI128 (XMM, YMM, I8)     3cy         1/cy        p5
+ *
+ *  Haswell lacks SIMD popcount; we extract 64-bit words and use scalar POPCNT. The p1 port
+ *  bottleneck limits throughput to 1 popcount/cycle. For Hamming distance, XOR + POPCNT;
+ *  for Jaccard, compute AND/OR + POPCNT separately to get intersection and union counts.
+ *
+ *  @section set_haswell_stateful Stateful Streaming Logic
+ *
+ *  To build memory-optimal tiled algorithms, this file defines:
+ *
+ *  - nk_hamming_u1x64_state_haswell_t for streaming Hamming distance
+ *  - nk_jaccard_u1x64_state_haswell_t for streaming Jaccard similarity
+ *
+ *  @code{c}
+ *  nk_jaccard_u1x64_state_haswell_t state_first, state_second, state_third, state_fourth;
+ *  nk_jaccard_u1x64_init_haswell(&state_first);
+ *  // ... stream through packed binary vectors ...
+ *  nk_jaccard_u1x64_finalize_haswell(&state_first, &state_second, &state_third, &state_fourth,
+ *      query_popcount, target_popcount_a, target_popcount_b, target_popcount_c, target_popcount_d,
+ *      total_dimensions, &results);
+ *  @endcode
+ */
+#ifndef NK_SET_HASWELL_H
+#define NK_SET_HASWELL_H
+#if NK_TARGET_X86_
+#if NK_TARGET_HASWELL
+#include "numkong/types.h"
+#include "numkong/set/serial.h" // `nk_u1x8_popcount_`
+#if defined(__cplusplus)
+extern "C" {
+#endif
+#if defined(__clang__)
+#pragma clang attribute push(__attribute__((target("avx2,sse4.1,popcnt"))), apply_to = function)
+#elif defined(__GNUC__)
+#pragma GCC push_options
+#pragma GCC target("avx2", "sse4.1", "popcnt")
+#endif
+#pragma region - Binary Sets
+NK_PUBLIC void nk_hamming_u1_haswell(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_u32_t *result) {
+    nk_size_t n_bytes = nk_size_divide_round_up_(n, NK_BITS_PER_BYTE);
+    // x86 supports unaligned loads and works just fine with the scalar version for small vectors.
+    nk_u32_t differences = 0;
+    for (; n_bytes >= 8; n_bytes -= 8, a += 8, b += 8)
+        differences += _mm_popcnt_u64(*(nk_u64_t const *)a ^ *(nk_u64_t const *)b);
+    for (; n_bytes; --n_bytes, ++a, ++b) differences += _mm_popcnt_u32(*a ^ *b);
+    *result = differences;
+}
+NK_PUBLIC void nk_jaccard_u1_haswell(nk_u1x8_t const *a, nk_u1x8_t const *b, nk_size_t n, nk_f32_t *result) {
+    nk_size_t n_bytes = nk_size_divide_round_up_(n, NK_BITS_PER_BYTE);
+    // x86 supports unaligned loads and works just fine with the scalar version for small vectors.
+    nk_u32_t intersection_count = 0, union_count = 0;
+    for (; n_bytes >= 8; n_bytes -= 8, a += 8, b += 8)
+        intersection_count += (nk_u32_t)_mm_popcnt_u64(*(nk_u64_t const *)a & *(nk_u64_t const *)b),
+            union_count += (nk_u32_t)_mm_popcnt_u64(*(nk_u64_t const *)a | *(nk_u64_t const *)b);
+    for (; n_bytes; --n_bytes, ++a, ++b)
+        intersection_count += nk_u1x8_popcount_(*a & *b), union_count += nk_u1x8_popcount_(*a | *b);
+    *result = (union_count != 0) ? 1.0f - (nk_f32_t)intersection_count / (nk_f32_t)union_count : 0.0f;
+}
+#pragma endregion - Binary Sets
+#pragma region - Integer Sets
+NK_PUBLIC void nk_jaccard_u32_haswell(nk_u32_t const *a, nk_u32_t const *b, nk_size_t n, nk_f32_t *result) {
+    nk_u32_t intersection_count = 0;
+    nk_size_t n_remaining = n;
+    for (; n_remaining >= 4; n_remaining -= 4, a += 4, b += 4) {
+        __m128i a_u32x4 = _mm_loadu_si128((__m128i const *)a);
+        __m128i b_u32x4 = _mm_loadu_si128((__m128i const *)b);
+        __m128i equality_u32x4 = _mm_cmpeq_epi32(a_u32x4, b_u32x4);
+        int equality_mask = _mm_movemask_ps(_mm_castsi128_ps(equality_u32x4));
+        intersection_count += (nk_u32_t)_mm_popcnt_u32((unsigned int)equality_mask);
+    }
+    for (; n_remaining; --n_remaining, ++a, ++b) intersection_count += (*a == *b);
+    *result = (n != 0) ? 1.0f - (nk_f32_t)intersection_count / (nk_f32_t)n : 0.0f;
+}
+NK_PUBLIC void nk_hamming_u8_haswell(nk_u8_t const *a, nk_u8_t const *b, nk_size_t n, nk_u32_t *result) {
+    // Process 32 bytes at a time using AVX2 (256-bit registers).
+    // Compare bytes for equality, invert to get not-equal mask, then count mismatches.
+    //
+    // Haswell port analysis:
+    // - `_mm256_loadu_si256`:   p23, 1cy latency (load)
+    // - `_mm256_cmpeq_epi8`:    p015, 1cy latency, 0.33cy throughput
+    // - `_mm256_extracti128`:   p5, 3cy latency, 1cy throughput
+    // - `_mm_popcnt_u64`:       p1 ONLY, 3cy latency, 1cy throughput (BOTTLENECK)
+    //
+    // For counting mismatches, we XOR and popcount the resulting bits set to 1.
+    // Alternative: compare -> movemask -> popcount, but movemask only works per-byte MSBs.
+    // XOR approach: each differing byte produces 0xFF (8 bits set), need to count bytes not bits.
+    nk_u32_t differences = 0;
+    nk_size_t n_remaining = n;
+    // Main loop: process 32 bytes at a time
+    for (; n_remaining >= 32; n_remaining -= 32, a += 32, b += 32) {
+        __m256i a_u8x32 = _mm256_loadu_si256((__m256i const *)a);
+        __m256i b_u8x32 = _mm256_loadu_si256((__m256i const *)b);
+        // Compare for equality: 0xFF where equal, 0x00 where different
+        __m256i equality_u8x32 = _mm256_cmpeq_epi8(a_u8x32, b_u8x32);
+        // Extract to two 128-bit halves for movemask
+        // movemask extracts the MSB of each byte, giving us 16 bits per 128-bit half
+        __m128i equality_low_u8x16 = _mm256_castsi256_si128(equality_u8x32);
+        __m128i equality_high_u8x16 = _mm256_extracti128_si256(equality_u8x32, 1);
+        // Get masks: bit set = equal (0xFF MSB = 1), bit clear = different
+        int mask_low = _mm_movemask_epi8(equality_low_u8x16);   // 16 bits
+        int mask_high = _mm_movemask_epi8(equality_high_u8x16); // 16 bits
+        // Invert to count differences (bit set = different)
+        // Then popcount to count mismatches
+        differences += (nk_u32_t)_mm_popcnt_u32((unsigned int)(~mask_low & 0xFFFF));
+        differences += (nk_u32_t)_mm_popcnt_u32((unsigned int)(~mask_high & 0xFFFF));
+    }
+    // Handle remaining bytes (0-31) with scalar code
+    for (; n_remaining; --n_remaining, ++a, ++b) differences += (*a != *b);
+    *result = differences;
+}
+NK_PUBLIC void nk_jaccard_u16_haswell(nk_u16_t const *a, nk_u16_t const *b, nk_size_t n, nk_f32_t *result) {
+    // Process 16 u16 values at a time using AVX2 (256-bit registers).
+    // Compare 16-bit integers for equality and count matches.
+    //
+    // Haswell port analysis:
+    // - `_mm256_loadu_si256`:   p23, 1cy latency (load)
+    // - `_mm256_cmpeq_epi16`:   p015, 1cy latency, 0.33cy throughput
+    // - `_mm256_packs_epi16`:   p5, 1cy latency, 1cy throughput (pack 16->8 bit)
+    // - `_mm_movemask_epi8`:    p0, 3cy latency (extracts MSB of each byte)
+    // - `_mm_popcnt_u32`:       p1 ONLY, 3cy latency, 1cy throughput
+    nk_u32_t matches = 0;
+    nk_size_t n_remaining = n;
+    // Main loop: process 16 u16 values at a time
+    for (; n_remaining >= 16; n_remaining -= 16, a += 16, b += 16) {
+        __m256i a_u16x16 = _mm256_loadu_si256((__m256i const *)a);
+        __m256i b_u16x16 = _mm256_loadu_si256((__m256i const *)b);
+        // Compare for equality: 0xFFFF where equal, 0x0000 where different
+        __m256i equality_u16x16 = _mm256_cmpeq_epi16(a_u16x16, b_u16x16);
+        // Pack 16-bit results to 8-bit to use movemask efficiently.
+        // _mm256_packs_epi16 saturates signed 16-bit to signed 8-bit:
+        // 0xFFFF (-1) -> 0x80 (-128), 0x0000 (0) -> 0x00 (0)
+        // Note: packs interleaves lanes, so we need to handle the permutation.
+        // For counting, we just need the total popcount, so lane order doesn't matter.
+        __m256i packed_i8x32 = _mm256_packs_epi16(equality_u16x16, equality_u16x16);
+        // Extract to 128-bit halves
+        __m128i packed_low_i8x16 = _mm256_castsi256_si128(packed_i8x32);
+        __m128i packed_high_i8x16 = _mm256_extracti128_si256(packed_i8x32, 1);
+        // movemask extracts MSB of each byte
+        // After packs: 0x80 (MSB=1) for equal, 0x00 (MSB=0) for different
+        // Each 128-bit half has 8 relevant bytes (lower 8 from each original lane)
+        int mask_low = _mm_movemask_epi8(packed_low_i8x16) & 0xFF;   // Lower 8 bytes
+        int mask_high = _mm_movemask_epi8(packed_high_i8x16) & 0xFF; // Lower 8 bytes from high lane
+        matches += (nk_u32_t)_mm_popcnt_u32((unsigned int)mask_low);
+        matches += (nk_u32_t)_mm_popcnt_u32((unsigned int)mask_high);
+    }
+    // Handle remaining elements (0-15) with scalar code
+    for (; n_remaining; --n_remaining, ++a, ++b) matches += (*a == *b);
+    *result = (n != 0) ? 1.0f - (nk_f32_t)matches / (nk_f32_t)n : 0.0f;
+}
+#pragma endregion - Integer Sets
+#pragma region - Stateful Streaming
+typedef struct nk_hamming_u1x64_state_haswell_t {
+    nk_u32_t intersection_count;
+} nk_hamming_u1x64_state_haswell_t;
+NK_INTERNAL void nk_hamming_u1x64_init_haswell(nk_hamming_u1x64_state_haswell_t *state) {
+    state->intersection_count = 0;
+}
+NK_INTERNAL void nk_hamming_u1x64_update_haswell(nk_hamming_u1x64_state_haswell_t *state, nk_b64_vec_t a,
+                                                 nk_b64_vec_t b, nk_size_t depth_offset, nk_size_t active_dimensions) {
+    nk_unused_(depth_offset);
+    nk_unused_(active_dimensions);
+    state->intersection_count += (nk_u32_t)_mm_popcnt_u64(a.u64 ^ b.u64);
+}
+NK_INTERNAL void nk_hamming_u1x64_finalize_haswell( //
+    nk_hamming_u1x64_state_haswell_t const *state_a, nk_hamming_u1x64_state_haswell_t const *state_b,
+    nk_hamming_u1x64_state_haswell_t const *state_c, nk_hamming_u1x64_state_haswell_t const *state_d,
+    nk_size_t total_dimensions, nk_b128_vec_t *result) {
+    nk_unused_(total_dimensions);
+    result->u32s[0] = state_a->intersection_count;
+    result->u32s[1] = state_b->intersection_count;
+    result->u32s[2] = state_c->intersection_count;
+    result->u32s[3] = state_d->intersection_count;
+}
+typedef struct nk_jaccard_u1x64_state_haswell_t {
+    nk_u32_t intersection_count;
+} nk_jaccard_u1x64_state_haswell_t;
+NK_INTERNAL void nk_jaccard_u1x64_init_haswell(nk_jaccard_u1x64_state_haswell_t *state) {
+    state->intersection_count = 0;
+}
+NK_INTERNAL void nk_jaccard_u1x64_update_haswell(nk_jaccard_u1x64_state_haswell_t *state, nk_b64_vec_t a,
+                                                 nk_b64_vec_t b, nk_size_t depth_offset, nk_size_t active_dimensions) {
+    nk_unused_(depth_offset);
+    nk_unused_(active_dimensions);
+    state->intersection_count += (nk_u32_t)_mm_popcnt_u64(a.u64 & b.u64);
+}
+NK_INTERNAL void nk_jaccard_u1x64_finalize_haswell( //
+    nk_jaccard_u1x64_state_haswell_t const *state_a, nk_jaccard_u1x64_state_haswell_t const *state_b,
+    nk_jaccard_u1x64_state_haswell_t const *state_c, nk_jaccard_u1x64_state_haswell_t const *state_d,
+    nk_f32_t query_popcount, nk_f32_t target_popcount_a, nk_f32_t target_popcount_b, nk_f32_t target_popcount_c,
+    nk_f32_t target_popcount_d, nk_size_t total_dimensions, nk_b128_vec_t *result) {
+    nk_unused_(total_dimensions);
+    // 4-way SIMD Jaccard computation with fast reciprocal.
+    //
+    // Haswell port analysis:
+    // - `_mm_setr_ps`:     p5, 1cy (INSERTPS chain)
+    // - `_mm_add_ps`:      p01, 3cy latency
+    // - `_mm_sub_ps`:      p01, 3cy latency
+    // - `_mm_rcp_ps`:      p0, 5cy latency, 1cy throughput
+    // - `_mm_mul_ps`:      p01, 5cy latency, 0.5cy throughput
+    // - `_mm_blendv_ps`:   p015, 2cy latency
+    // Pack intersection counts and convert to float
+    nk_f32_t intersection_a_f32 = (nk_f32_t)state_a->intersection_count;
+    nk_f32_t intersection_b_f32 = (nk_f32_t)state_b->intersection_count;
+    nk_f32_t intersection_c_f32 = (nk_f32_t)state_c->intersection_count;
+    nk_f32_t intersection_d_f32 = (nk_f32_t)state_d->intersection_count;
+    __m128 intersection_f32x4 = _mm_setr_ps(intersection_a_f32, intersection_b_f32, intersection_c_f32,
+                                            intersection_d_f32);
+    __m128 query_f32x4 = _mm_set1_ps(query_popcount);
+    __m128 targets_f32x4 = _mm_setr_ps(target_popcount_a, target_popcount_b, target_popcount_c, target_popcount_d);
+    __m128 union_f32x4 = _mm_sub_ps(_mm_add_ps(query_f32x4, targets_f32x4), intersection_f32x4);
+    // Handle zero-union edge case
+    __m128 zero_union_mask = _mm_cmpeq_ps(union_f32x4, _mm_setzero_ps());
+    __m128 one_f32x4 = _mm_set1_ps(1.0f);
+    __m128 two_f32x4 = _mm_set1_ps(2.0f);
+    __m128 safe_union_f32x4 = _mm_blendv_ps(union_f32x4, one_f32x4, zero_union_mask);
+    // Fast reciprocal with Newton-Raphson refinement:
+    // - `_mm_rcp_ps`: ~12-bit precision, 5cy latency, 1cy throughput
+    // Newton-Raphson:
+    //      rcp' = rcp × (2 - x × rcp), doubles precision to ~22-24 bits
+    // Total: ~10cy vs `_mm_div_ps` 13cy latency, but NR has better throughput
+    __m128 union_reciprocal_f32x4 = _mm_rcp_ps(safe_union_f32x4);
+    __m128 newton_raphson_correction = _mm_sub_ps(two_f32x4, _mm_mul_ps(safe_union_f32x4, union_reciprocal_f32x4));
+    union_reciprocal_f32x4 = _mm_mul_ps(union_reciprocal_f32x4, newton_raphson_correction);
+    __m128 ratio_f32x4 = _mm_mul_ps(intersection_f32x4, union_reciprocal_f32x4);
+    __m128 jaccard_f32x4 = _mm_sub_ps(one_f32x4, ratio_f32x4);
+    result->xmm_ps = _mm_blendv_ps(jaccard_f32x4, _mm_setzero_ps(), zero_union_mask);
+}
+/** @brief Hamming from_dot: computes pop_a + pop_b - 2*dot for 4 pairs (Haswell). */
+NK_INTERNAL void nk_hamming_u32x4_from_dot_haswell_(nk_b128_vec_t dots, nk_u32_t query_pop, nk_b128_vec_t target_pops,
+                                                    nk_b128_vec_t *results) {
+    __m128i dots_i32x4 = dots.xmm;
+    __m128i query_i32x4 = _mm_set1_epi32((int)query_pop);
+    __m128i target_i32x4 = target_pops.xmm;
+    results->xmm = _mm_sub_epi32(_mm_add_epi32(query_i32x4, target_i32x4), _mm_slli_epi32(dots_i32x4, 1));
+}
+/** @brief Jaccard from_dot: computes 1 - dot / (pop_a + pop_b - dot) for 4 pairs (Haswell). */
+NK_INTERNAL void nk_jaccard_f32x4_from_dot_haswell_(nk_b128_vec_t dots, nk_u32_t query_pop, nk_b128_vec_t target_pops,
+                                                    nk_b128_vec_t *results) {
+    __m128 dot_f32x4 = _mm_cvtepi32_ps(dots.xmm);
+    __m128 query_f32x4 = _mm_set1_ps((nk_f32_t)query_pop);
+    __m128 target_f32x4 = _mm_cvtepi32_ps(target_pops.xmm);
+    __m128 union_f32x4 = _mm_sub_ps(_mm_add_ps(query_f32x4, target_f32x4), dot_f32x4);
+    __m128 zero_union_mask = _mm_cmpeq_ps(union_f32x4, _mm_setzero_ps());
+    __m128 one_f32x4 = _mm_set1_ps(1.0f);
+    __m128 two_f32x4 = _mm_set1_ps(2.0f);
+    __m128 safe_union_f32x4 = _mm_blendv_ps(union_f32x4, one_f32x4, zero_union_mask);
+    __m128 union_reciprocal_f32x4 = _mm_rcp_ps(safe_union_f32x4);
+    __m128 nr_correction = _mm_sub_ps(two_f32x4, _mm_mul_ps(safe_union_f32x4, union_reciprocal_f32x4));
+    union_reciprocal_f32x4 = _mm_mul_ps(union_reciprocal_f32x4, nr_correction);
+    __m128 ratio_f32x4 = _mm_mul_ps(dot_f32x4, union_reciprocal_f32x4);
+    __m128 jaccard_f32x4 = _mm_sub_ps(one_f32x4, ratio_f32x4);
+    results->xmm_ps = _mm_blendv_ps(jaccard_f32x4, _mm_setzero_ps(), zero_union_mask);
+}
+#pragma endregion - Stateful Streaming
+#if defined(__clang__)
+#pragma clang attribute pop
+#elif defined(__GNUC__)
+#pragma GCC pop_options
+#endif
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#endif // NK_TARGET_HASWELL
+#endif // NK_TARGET_X86_
+#endif // NK_SET_HASWELL_H