npm - numkong - Versions diffs - 7.0.0 - Mend

numkong 7.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (294) hide show

package/LICENSE +201 -0
package/README.md +495 -0
package/binding.gyp +540 -0
package/c/dispatch.h +512 -0
package/c/dispatch_bf16.c +389 -0
package/c/dispatch_bf16c.c +52 -0
package/c/dispatch_e2m3.c +263 -0
package/c/dispatch_e3m2.c +243 -0
package/c/dispatch_e4m3.c +276 -0
package/c/dispatch_e5m2.c +272 -0
package/c/dispatch_f16.c +376 -0
package/c/dispatch_f16c.c +58 -0
package/c/dispatch_f32.c +378 -0
package/c/dispatch_f32c.c +99 -0
package/c/dispatch_f64.c +296 -0
package/c/dispatch_f64c.c +98 -0
package/c/dispatch_i16.c +96 -0
package/c/dispatch_i32.c +89 -0
package/c/dispatch_i4.c +150 -0
package/c/dispatch_i64.c +86 -0
package/c/dispatch_i8.c +289 -0
package/c/dispatch_other.c +330 -0
package/c/dispatch_u1.c +148 -0
package/c/dispatch_u16.c +124 -0
package/c/dispatch_u32.c +118 -0
package/c/dispatch_u4.c +150 -0
package/c/dispatch_u64.c +102 -0
package/c/dispatch_u8.c +303 -0
package/c/numkong.c +950 -0
package/include/README.md +573 -0
package/include/module.modulemap +129 -0
package/include/numkong/attention/sapphireamx.h +1361 -0
package/include/numkong/attention/sme.h +2066 -0
package/include/numkong/attention.h +49 -0
package/include/numkong/capabilities.h +748 -0
package/include/numkong/cast/README.md +262 -0
package/include/numkong/cast/haswell.h +975 -0
package/include/numkong/cast/icelake.h +470 -0
package/include/numkong/cast/neon.h +1192 -0
package/include/numkong/cast/rvv.h +1021 -0
package/include/numkong/cast/sapphire.h +262 -0
package/include/numkong/cast/serial.h +2262 -0
package/include/numkong/cast/skylake.h +856 -0
package/include/numkong/cast/v128relaxed.h +180 -0
package/include/numkong/cast.h +230 -0
package/include/numkong/curved/README.md +223 -0
package/include/numkong/curved/genoa.h +182 -0
package/include/numkong/curved/haswell.h +276 -0
package/include/numkong/curved/neon.h +205 -0
package/include/numkong/curved/neonbfdot.h +212 -0
package/include/numkong/curved/neonhalf.h +212 -0
package/include/numkong/curved/rvv.h +305 -0
package/include/numkong/curved/serial.h +207 -0
package/include/numkong/curved/skylake.h +457 -0
package/include/numkong/curved/smef64.h +506 -0
package/include/numkong/curved.h +517 -0
package/include/numkong/curved.hpp +144 -0
package/include/numkong/dot/README.md +425 -0
package/include/numkong/dot/alder.h +563 -0
package/include/numkong/dot/genoa.h +315 -0
package/include/numkong/dot/haswell.h +1688 -0
package/include/numkong/dot/icelake.h +883 -0
package/include/numkong/dot/neon.h +818 -0
package/include/numkong/dot/neonbfdot.h +244 -0
package/include/numkong/dot/neonfhm.h +360 -0
package/include/numkong/dot/neonhalf.h +198 -0
package/include/numkong/dot/neonsdot.h +508 -0
package/include/numkong/dot/rvv.h +714 -0
package/include/numkong/dot/rvvbb.h +72 -0
package/include/numkong/dot/rvvbf16.h +123 -0
package/include/numkong/dot/rvvhalf.h +129 -0
package/include/numkong/dot/sapphire.h +141 -0
package/include/numkong/dot/serial.h +838 -0
package/include/numkong/dot/sierra.h +405 -0
package/include/numkong/dot/skylake.h +1084 -0
package/include/numkong/dot/sve.h +379 -0
package/include/numkong/dot/svebfdot.h +74 -0
package/include/numkong/dot/svehalf.h +123 -0
package/include/numkong/dot/v128relaxed.h +1258 -0
package/include/numkong/dot.h +1070 -0
package/include/numkong/dot.hpp +94 -0
package/include/numkong/dots/README.md +496 -0
package/include/numkong/dots/alder.h +114 -0
package/include/numkong/dots/genoa.h +94 -0
package/include/numkong/dots/haswell.h +295 -0
package/include/numkong/dots/icelake.h +171 -0
package/include/numkong/dots/neon.h +120 -0
package/include/numkong/dots/neonbfdot.h +58 -0
package/include/numkong/dots/neonfhm.h +94 -0
package/include/numkong/dots/neonhalf.h +57 -0
package/include/numkong/dots/neonsdot.h +108 -0
package/include/numkong/dots/rvv.h +2486 -0
package/include/numkong/dots/sapphireamx.h +3973 -0
package/include/numkong/dots/serial.h +2844 -0
package/include/numkong/dots/sierra.h +97 -0
package/include/numkong/dots/skylake.h +196 -0
package/include/numkong/dots/sme.h +5372 -0
package/include/numkong/dots/smebi32.h +461 -0
package/include/numkong/dots/smef64.h +1318 -0
package/include/numkong/dots/smehalf.h +47 -0
package/include/numkong/dots/v128relaxed.h +294 -0
package/include/numkong/dots.h +2804 -0
package/include/numkong/dots.hpp +639 -0
package/include/numkong/each/README.md +469 -0
package/include/numkong/each/haswell.h +1658 -0
package/include/numkong/each/icelake.h +272 -0
package/include/numkong/each/neon.h +1104 -0
package/include/numkong/each/neonbfdot.h +212 -0
package/include/numkong/each/neonhalf.h +410 -0
package/include/numkong/each/rvv.h +1121 -0
package/include/numkong/each/sapphire.h +477 -0
package/include/numkong/each/serial.h +260 -0
package/include/numkong/each/skylake.h +1562 -0
package/include/numkong/each.h +2146 -0
package/include/numkong/each.hpp +434 -0
package/include/numkong/geospatial/README.md +147 -0
package/include/numkong/geospatial/haswell.h +593 -0
package/include/numkong/geospatial/neon.h +571 -0
package/include/numkong/geospatial/rvv.h +701 -0
package/include/numkong/geospatial/serial.h +309 -0
package/include/numkong/geospatial/skylake.h +577 -0
package/include/numkong/geospatial/v128relaxed.h +613 -0
package/include/numkong/geospatial.h +453 -0
package/include/numkong/geospatial.hpp +235 -0
package/include/numkong/matrix.hpp +336 -0
package/include/numkong/maxsim/README.md +187 -0
package/include/numkong/maxsim/alder.h +511 -0
package/include/numkong/maxsim/genoa.h +115 -0
package/include/numkong/maxsim/haswell.h +553 -0
package/include/numkong/maxsim/icelake.h +480 -0
package/include/numkong/maxsim/neonsdot.h +394 -0
package/include/numkong/maxsim/sapphireamx.h +877 -0
package/include/numkong/maxsim/serial.h +490 -0
package/include/numkong/maxsim/sme.h +929 -0
package/include/numkong/maxsim/v128relaxed.h +280 -0
package/include/numkong/maxsim.h +571 -0
package/include/numkong/maxsim.hpp +133 -0
package/include/numkong/mesh/README.md +227 -0
package/include/numkong/mesh/haswell.h +2235 -0
package/include/numkong/mesh/neon.h +1329 -0
package/include/numkong/mesh/neonbfdot.h +842 -0
package/include/numkong/mesh/neonhalf.h +616 -0
package/include/numkong/mesh/rvv.h +916 -0
package/include/numkong/mesh/serial.h +742 -0
package/include/numkong/mesh/skylake.h +1135 -0
package/include/numkong/mesh/v128relaxed.h +1052 -0
package/include/numkong/mesh.h +652 -0
package/include/numkong/mesh.hpp +762 -0
package/include/numkong/numkong.h +78 -0
package/include/numkong/numkong.hpp +57 -0
package/include/numkong/probability/README.md +173 -0
package/include/numkong/probability/haswell.h +267 -0
package/include/numkong/probability/neon.h +225 -0
package/include/numkong/probability/rvv.h +409 -0
package/include/numkong/probability/serial.h +169 -0
package/include/numkong/probability/skylake.h +324 -0
package/include/numkong/probability.h +383 -0
package/include/numkong/probability.hpp +120 -0
package/include/numkong/random.h +50 -0
package/include/numkong/random.hpp +285 -0
package/include/numkong/reduce/README.md +547 -0
package/include/numkong/reduce/alder.h +632 -0
package/include/numkong/reduce/genoa.h +201 -0
package/include/numkong/reduce/haswell.h +3783 -0
package/include/numkong/reduce/icelake.h +549 -0
package/include/numkong/reduce/neon.h +3841 -0
package/include/numkong/reduce/neonbfdot.h +353 -0
package/include/numkong/reduce/neonfhm.h +665 -0
package/include/numkong/reduce/neonhalf.h +157 -0
package/include/numkong/reduce/neonsdot.h +357 -0
package/include/numkong/reduce/rvv.h +3407 -0
package/include/numkong/reduce/serial.h +757 -0
package/include/numkong/reduce/sierra.h +338 -0
package/include/numkong/reduce/skylake.h +3792 -0
package/include/numkong/reduce/v128relaxed.h +2302 -0
package/include/numkong/reduce.h +1597 -0
package/include/numkong/reduce.hpp +633 -0
package/include/numkong/scalar/README.md +89 -0
package/include/numkong/scalar/haswell.h +113 -0
package/include/numkong/scalar/neon.h +122 -0
package/include/numkong/scalar/neonhalf.h +70 -0
package/include/numkong/scalar/rvv.h +211 -0
package/include/numkong/scalar/sapphire.h +63 -0
package/include/numkong/scalar/serial.h +332 -0
package/include/numkong/scalar/v128relaxed.h +56 -0
package/include/numkong/scalar.h +683 -0
package/include/numkong/set/README.md +179 -0
package/include/numkong/set/haswell.h +334 -0
package/include/numkong/set/icelake.h +485 -0
package/include/numkong/set/neon.h +364 -0
package/include/numkong/set/rvv.h +226 -0
package/include/numkong/set/rvvbb.h +117 -0
package/include/numkong/set/serial.h +174 -0
package/include/numkong/set/sve.h +185 -0
package/include/numkong/set/v128relaxed.h +240 -0
package/include/numkong/set.h +457 -0
package/include/numkong/set.hpp +114 -0
package/include/numkong/sets/README.md +149 -0
package/include/numkong/sets/haswell.h +63 -0
package/include/numkong/sets/icelake.h +66 -0
package/include/numkong/sets/neon.h +61 -0
package/include/numkong/sets/serial.h +43 -0
package/include/numkong/sets/smebi32.h +1099 -0
package/include/numkong/sets/v128relaxed.h +58 -0
package/include/numkong/sets.h +339 -0
package/include/numkong/sparse/README.md +156 -0
package/include/numkong/sparse/icelake.h +463 -0
package/include/numkong/sparse/neon.h +288 -0
package/include/numkong/sparse/serial.h +117 -0
package/include/numkong/sparse/sve2.h +507 -0
package/include/numkong/sparse/turin.h +322 -0
package/include/numkong/sparse.h +363 -0
package/include/numkong/sparse.hpp +113 -0
package/include/numkong/spatial/README.md +435 -0
package/include/numkong/spatial/alder.h +607 -0
package/include/numkong/spatial/genoa.h +290 -0
package/include/numkong/spatial/haswell.h +960 -0
package/include/numkong/spatial/icelake.h +586 -0
package/include/numkong/spatial/neon.h +773 -0
package/include/numkong/spatial/neonbfdot.h +165 -0
package/include/numkong/spatial/neonhalf.h +118 -0
package/include/numkong/spatial/neonsdot.h +261 -0
package/include/numkong/spatial/rvv.h +984 -0
package/include/numkong/spatial/rvvbf16.h +123 -0
package/include/numkong/spatial/rvvhalf.h +117 -0
package/include/numkong/spatial/sapphire.h +343 -0
package/include/numkong/spatial/serial.h +346 -0
package/include/numkong/spatial/sierra.h +323 -0
package/include/numkong/spatial/skylake.h +606 -0
package/include/numkong/spatial/sve.h +224 -0
package/include/numkong/spatial/svebfdot.h +122 -0
package/include/numkong/spatial/svehalf.h +109 -0
package/include/numkong/spatial/v128relaxed.h +717 -0
package/include/numkong/spatial.h +1425 -0
package/include/numkong/spatial.hpp +183 -0
package/include/numkong/spatials/README.md +580 -0
package/include/numkong/spatials/alder.h +94 -0
package/include/numkong/spatials/genoa.h +94 -0
package/include/numkong/spatials/haswell.h +219 -0
package/include/numkong/spatials/icelake.h +113 -0
package/include/numkong/spatials/neon.h +109 -0
package/include/numkong/spatials/neonbfdot.h +60 -0
package/include/numkong/spatials/neonfhm.h +92 -0
package/include/numkong/spatials/neonhalf.h +58 -0
package/include/numkong/spatials/neonsdot.h +109 -0
package/include/numkong/spatials/rvv.h +1960 -0
package/include/numkong/spatials/sapphireamx.h +1149 -0
package/include/numkong/spatials/serial.h +226 -0
package/include/numkong/spatials/sierra.h +96 -0
package/include/numkong/spatials/skylake.h +184 -0
package/include/numkong/spatials/sme.h +1901 -0
package/include/numkong/spatials/smef64.h +465 -0
package/include/numkong/spatials/v128relaxed.h +240 -0
package/include/numkong/spatials.h +3021 -0
package/include/numkong/spatials.hpp +508 -0
package/include/numkong/tensor.hpp +1592 -0
package/include/numkong/trigonometry/README.md +184 -0
package/include/numkong/trigonometry/haswell.h +652 -0
package/include/numkong/trigonometry/neon.h +639 -0
package/include/numkong/trigonometry/rvv.h +699 -0
package/include/numkong/trigonometry/serial.h +703 -0
package/include/numkong/trigonometry/skylake.h +721 -0
package/include/numkong/trigonometry/v128relaxed.h +666 -0
package/include/numkong/trigonometry.h +467 -0
package/include/numkong/trigonometry.hpp +166 -0
package/include/numkong/types.h +1384 -0
package/include/numkong/types.hpp +5603 -0
package/include/numkong/vector.hpp +698 -0
package/javascript/README.md +246 -0
package/javascript/dist/cjs/numkong-wasm.d.ts +166 -0
package/javascript/dist/cjs/numkong-wasm.js +617 -0
package/javascript/dist/cjs/numkong.d.ts +343 -0
package/javascript/dist/cjs/numkong.js +523 -0
package/javascript/dist/cjs/package.json +3 -0
package/javascript/dist/cjs/types.d.ts +284 -0
package/javascript/dist/cjs/types.js +653 -0
package/javascript/dist/esm/numkong-wasm.d.ts +166 -0
package/javascript/dist/esm/numkong-wasm.js +595 -0
package/javascript/dist/esm/numkong.d.ts +343 -0
package/javascript/dist/esm/numkong.js +452 -0
package/javascript/dist/esm/package.json +3 -0
package/javascript/dist/esm/types.d.ts +284 -0
package/javascript/dist/esm/types.js +630 -0
package/javascript/dist-package-cjs.json +3 -0
package/javascript/dist-package-esm.json +3 -0
package/javascript/node-gyp-build.d.ts +1 -0
package/javascript/numkong-wasm.ts +756 -0
package/javascript/numkong.c +689 -0
package/javascript/numkong.ts +575 -0
package/javascript/tsconfig-base.json +39 -0
package/javascript/tsconfig-cjs.json +8 -0
package/javascript/tsconfig-esm.json +8 -0
package/javascript/types.ts +674 -0
package/package.json +87 -0

package/include/numkong/geospatial/haswell.h ADDED Viewed

@@ -0,0 +1,593 @@
+/**
+ *  @brief SIMD-accelerated Geospatial Distances for Haswell.
+ *  @file include/numkong/geospatial/haswell.h
+ *  @author Ash Vardanian
+ *  @date February 6, 2026
+ *
+ *  @sa include/numkong/geospatial.h
+ *
+ *  @section geospatial_haswell_instructions Key AVX2 Geospatial Instructions
+ *
+ *      Intrinsic               Instruction                     Ice         Genoa
+ *      _mm256_sqrt_ps          VSQRTPS (YMM, YMM)              12c @ p0    15c @ p01
+ *      _mm256_sqrt_pd          VSQRTPD (YMM, YMM)              13c @ p0    21c @ p01
+ *      _mm256_div_ps           VDIVPS (YMM, YMM, YMM)          11c @ p0    11c @ p01
+ *      _mm256_div_pd           VDIVPD (YMM, YMM, YMM)          13c @ p0    13c @ p01
+ *      _mm256_fmadd_ps         VFMADD231PS (YMM, YMM, YMM)     4c @ p01    4c @ p01
+ *      _mm256_fmadd_pd         VFMADD231PD (YMM, YMM, YMM)     4c @ p01    4c @ p01
+ */
+#ifndef NK_GEOSPATIAL_HASWELL_H
+#define NK_GEOSPATIAL_HASWELL_H
+#if NK_TARGET_X86_
+#if NK_TARGET_HASWELL
+#include "numkong/types.h"
+#include "numkong/trigonometry/haswell.h" // `nk_sin_f64x4_haswell_`, `nk_cos_f64x4_haswell_`, `nk_atan2_f64x4_haswell_`, etc.
+#if defined(__cplusplus)
+extern "C" {
+#endif
+#if defined(__clang__)
+#pragma clang attribute push(__attribute__((target("avx2,f16c,fma,bmi,bmi2"))), apply_to = function)
+#elif defined(__GNUC__)
+#pragma GCC push_options
+#pragma GCC target("avx2", "f16c", "fma", "bmi", "bmi2")
+#endif
+/*  Haswell AVX2 implementations using 4-wide f64 and 8-wide f32 SIMD.
+ *  These require AVX2 trigonometric kernels from trigonometry.h.
+ */
+NK_INTERNAL __m256d nk_haversine_f64x4_haswell_(       //
+    __m256d first_latitudes, __m256d first_longitudes, //
+    __m256d second_latitudes, __m256d second_longitudes) {
+    __m256d const earth_radius = _mm256_set1_pd(NK_EARTH_MEDIATORIAL_RADIUS);
+    __m256d const half = _mm256_set1_pd(0.5);
+    __m256d const one = _mm256_set1_pd(1.0);
+    __m256d const two = _mm256_set1_pd(2.0);
+    __m256d latitude_delta = _mm256_sub_pd(second_latitudes, first_latitudes);
+    __m256d longitude_delta = _mm256_sub_pd(second_longitudes, first_longitudes);
+    // Haversine terms: sin²(Δ/2)
+    __m256d latitude_delta_half = _mm256_mul_pd(latitude_delta, half);
+    __m256d longitude_delta_half = _mm256_mul_pd(longitude_delta, half);
+    __m256d sin_latitude_delta_half = nk_sin_f64x4_haswell_(latitude_delta_half);
+    __m256d sin_longitude_delta_half = nk_sin_f64x4_haswell_(longitude_delta_half);
+    __m256d sin_squared_latitude_delta_half = _mm256_mul_pd(sin_latitude_delta_half, sin_latitude_delta_half);
+    __m256d sin_squared_longitude_delta_half = _mm256_mul_pd(sin_longitude_delta_half, sin_longitude_delta_half);
+    // Latitude cosine product
+    __m256d cos_first_latitude = nk_cos_f64x4_haswell_(first_latitudes);
+    __m256d cos_second_latitude = nk_cos_f64x4_haswell_(second_latitudes);
+    __m256d cos_latitude_product = _mm256_mul_pd(cos_first_latitude, cos_second_latitude);
+    // a = sin²(Δlat/2) + cos(lat1) × cos(lat2) × sin²(Δlon/2)
+    __m256d haversine_term = _mm256_add_pd(sin_squared_latitude_delta_half,
+                                           _mm256_mul_pd(cos_latitude_product, sin_squared_longitude_delta_half));
+    // Clamp haversine_term to [0, 1] to prevent NaN from sqrt of negative values
+    __m256d zero = _mm256_setzero_pd();
+    haversine_term = _mm256_max_pd(zero, _mm256_min_pd(one, haversine_term));
+    // Central angle: c = 2 × atan2(√a, √(1-a))
+    __m256d sqrt_haversine = _mm256_sqrt_pd(haversine_term);
+    __m256d sqrt_complement = _mm256_sqrt_pd(_mm256_sub_pd(one, haversine_term));
+    __m256d central_angle = _mm256_mul_pd(two, nk_atan2_f64x4_haswell_(sqrt_haversine, sqrt_complement));
+    return _mm256_mul_pd(earth_radius, central_angle);
+}
+NK_PUBLIC void nk_haversine_f64_haswell(            //
+    nk_f64_t const *a_lats, nk_f64_t const *a_lons, //
+    nk_f64_t const *b_lats, nk_f64_t const *b_lons, //
+    nk_size_t n, nk_f64_t *results) {
+    while (n >= 4) {
+        __m256d first_latitudes = _mm256_loadu_pd(a_lats);
+        __m256d first_longitudes = _mm256_loadu_pd(a_lons);
+        __m256d second_latitudes = _mm256_loadu_pd(b_lats);
+        __m256d second_longitudes = _mm256_loadu_pd(b_lons);
+        __m256d distances = nk_haversine_f64x4_haswell_(first_latitudes, first_longitudes, second_latitudes,
+                                                        second_longitudes);
+        _mm256_storeu_pd(results, distances);
+        a_lats += 4, a_lons += 4, b_lats += 4, b_lons += 4, results += 4, n -= 4;
+    }
+    // Handle remaining elements with partial loads (n can be 1-3 here)
+    if (n > 0) {
+        nk_b256_vec_t a_lat_vec, a_lon_vec, b_lat_vec, b_lon_vec, result_vec;
+        nk_partial_load_b64x4_haswell_(a_lats, &a_lat_vec, n);
+        nk_partial_load_b64x4_haswell_(a_lons, &a_lon_vec, n);
+        nk_partial_load_b64x4_haswell_(b_lats, &b_lat_vec, n);
+        nk_partial_load_b64x4_haswell_(b_lons, &b_lon_vec, n);
+        __m256d distances = nk_haversine_f64x4_haswell_(a_lat_vec.ymm_pd, a_lon_vec.ymm_pd, b_lat_vec.ymm_pd,
+                                                        b_lon_vec.ymm_pd);
+        result_vec.ymm_pd = distances;
+        nk_partial_store_b64x4_haswell_(&result_vec, results, n);
+    }
+}
+NK_INTERNAL __m256 nk_haversine_f32x8_haswell_(      //
+    __m256 first_latitudes, __m256 first_longitudes, //
+    __m256 second_latitudes, __m256 second_longitudes) {
+    __m256 const earth_radius = _mm256_set1_ps((float)NK_EARTH_MEDIATORIAL_RADIUS);
+    __m256 const half = _mm256_set1_ps(0.5f);
+    __m256 const one = _mm256_set1_ps(1.0f);
+    __m256 const two = _mm256_set1_ps(2.0f);
+    __m256 latitude_delta = _mm256_sub_ps(second_latitudes, first_latitudes);
+    __m256 longitude_delta = _mm256_sub_ps(second_longitudes, first_longitudes);
+    // Haversine terms: sin²(Δ/2)
+    __m256 latitude_delta_half = _mm256_mul_ps(latitude_delta, half);
+    __m256 longitude_delta_half = _mm256_mul_ps(longitude_delta, half);
+    __m256 sin_latitude_delta_half = nk_sin_f32x8_haswell_(latitude_delta_half);
+    __m256 sin_longitude_delta_half = nk_sin_f32x8_haswell_(longitude_delta_half);
+    __m256 sin_squared_latitude_delta_half = _mm256_mul_ps(sin_latitude_delta_half, sin_latitude_delta_half);
+    __m256 sin_squared_longitude_delta_half = _mm256_mul_ps(sin_longitude_delta_half, sin_longitude_delta_half);
+    // Latitude cosine product
+    __m256 cos_first_latitude = nk_cos_f32x8_haswell_(first_latitudes);
+    __m256 cos_second_latitude = nk_cos_f32x8_haswell_(second_latitudes);
+    __m256 cos_latitude_product = _mm256_mul_ps(cos_first_latitude, cos_second_latitude);
+    // a = sin²(Δlat/2) + cos(lat1) × cos(lat2) × sin²(Δlon/2)
+    __m256 haversine_term = _mm256_add_ps(sin_squared_latitude_delta_half,
+                                          _mm256_mul_ps(cos_latitude_product, sin_squared_longitude_delta_half));
+    // Clamp to [0, 1] to avoid NaN from sqrt of negative numbers (due to floating point errors)
+    __m256 zero = _mm256_setzero_ps();
+    haversine_term = _mm256_max_ps(zero, _mm256_min_ps(one, haversine_term));
+    // Central angle: c = 2 × atan2(√a, √(1-a))
+    __m256 sqrt_haversine = _mm256_sqrt_ps(haversine_term);
+    __m256 sqrt_complement = _mm256_sqrt_ps(_mm256_sub_ps(one, haversine_term));
+    __m256 central_angle = _mm256_mul_ps(two, nk_atan2_f32x8_haswell_(sqrt_haversine, sqrt_complement));
+    return _mm256_mul_ps(earth_radius, central_angle);
+}
+NK_PUBLIC void nk_haversine_f32_haswell(            //
+    nk_f32_t const *a_lats, nk_f32_t const *a_lons, //
+    nk_f32_t const *b_lats, nk_f32_t const *b_lons, //
+    nk_size_t n, nk_f32_t *results) {
+    while (n >= 8) {
+        __m256 first_latitudes = _mm256_loadu_ps(a_lats);
+        __m256 first_longitudes = _mm256_loadu_ps(a_lons);
+        __m256 second_latitudes = _mm256_loadu_ps(b_lats);
+        __m256 second_longitudes = _mm256_loadu_ps(b_lons);
+        __m256 distances = nk_haversine_f32x8_haswell_(first_latitudes, first_longitudes, second_latitudes,
+                                                       second_longitudes);
+        _mm256_storeu_ps(results, distances);
+        a_lats += 8, a_lons += 8, b_lats += 8, b_lons += 8, results += 8, n -= 8;
+    }
+    // Handle remaining elements with partial loads (n can be 1-7 here)
+    if (n > 0) {
+        nk_b256_vec_t a_lat_vec, a_lon_vec, b_lat_vec, b_lon_vec, result_vec;
+        nk_partial_load_b32x8_serial_(a_lats, &a_lat_vec, n);
+        nk_partial_load_b32x8_serial_(a_lons, &a_lon_vec, n);
+        nk_partial_load_b32x8_serial_(b_lats, &b_lat_vec, n);
+        nk_partial_load_b32x8_serial_(b_lons, &b_lon_vec, n);
+        __m256 distances = nk_haversine_f32x8_haswell_(a_lat_vec.ymm_ps, a_lon_vec.ymm_ps, b_lat_vec.ymm_ps,
+                                                       b_lon_vec.ymm_ps);
+        result_vec.ymm_ps = distances;
+        nk_partial_store_b32x8_serial_(&result_vec, results, n);
+    }
+}
+/**
+ *  @brief  AVX2 helper for Vincenty's geodesic distance on 4 f64 point pairs.
+ *  @note   This is a true SIMD implementation using masked convergence tracking via blending.
+ */
+NK_INTERNAL __m256d nk_vincenty_f64x4_haswell_(        //
+    __m256d first_latitudes, __m256d first_longitudes, //
+    __m256d second_latitudes, __m256d second_longitudes) {
+    __m256d const equatorial_radius = _mm256_set1_pd(NK_EARTH_ELLIPSOID_EQUATORIAL_RADIUS);
+    __m256d const polar_radius = _mm256_set1_pd(NK_EARTH_ELLIPSOID_POLAR_RADIUS);
+    __m256d const flattening = _mm256_set1_pd(1.0 / NK_EARTH_ELLIPSOID_INVERSE_FLATTENING);
+    __m256d const convergence_threshold = _mm256_set1_pd(NK_VINCENTY_CONVERGENCE_THRESHOLD_F64);
+    __m256d const one = _mm256_set1_pd(1.0);
+    __m256d const two = _mm256_set1_pd(2.0);
+    __m256d const three = _mm256_set1_pd(3.0);
+    __m256d const four = _mm256_set1_pd(4.0);
+    __m256d const six = _mm256_set1_pd(6.0);
+    __m256d const sixteen = _mm256_set1_pd(16.0);
+    __m256d const epsilon = _mm256_set1_pd(1e-15);
+    // Longitude difference
+    __m256d longitude_difference = _mm256_sub_pd(second_longitudes, first_longitudes);
+    // Reduced latitudes: tan(U) = (1-f) * tan(lat)
+    __m256d one_minus_f = _mm256_sub_pd(one, flattening);
+    __m256d tan_first = _mm256_div_pd(nk_sin_f64x4_haswell_(first_latitudes), nk_cos_f64x4_haswell_(first_latitudes));
+    __m256d tan_second = _mm256_div_pd(nk_sin_f64x4_haswell_(second_latitudes),
+                                       nk_cos_f64x4_haswell_(second_latitudes));
+    __m256d tan_reduced_first = _mm256_mul_pd(one_minus_f, tan_first);
+    __m256d tan_reduced_second = _mm256_mul_pd(one_minus_f, tan_second);
+    // cos(U) = 1/√(1 + tan²(U)), sin(U) = tan(U) × cos(U)
+    __m256d cos_reduced_first = _mm256_div_pd(
+        one, _mm256_sqrt_pd(_mm256_fmadd_pd(tan_reduced_first, tan_reduced_first, one)));
+    __m256d sin_reduced_first = _mm256_mul_pd(tan_reduced_first, cos_reduced_first);
+    __m256d cos_reduced_second = _mm256_div_pd(
+        one, _mm256_sqrt_pd(_mm256_fmadd_pd(tan_reduced_second, tan_reduced_second, one)));
+    __m256d sin_reduced_second = _mm256_mul_pd(tan_reduced_second, cos_reduced_second);
+    // Initialize lambda and tracking variables
+    __m256d lambda = longitude_difference;
+    __m256d sin_angular_distance, cos_angular_distance, angular_distance;
+    __m256d sin_azimuth, cos_squared_azimuth, cos_double_angular_midpoint;
+    // Track convergence and coincident points using masks
+    __m256d converged_mask = _mm256_setzero_pd();
+    __m256d coincident_mask = _mm256_setzero_pd();
+    for (nk_u32_t iteration = 0; iteration < NK_VINCENTY_MAX_ITERATIONS; ++iteration) {
+        // Check if all lanes converged
+        int converged_bits = _mm256_movemask_pd(converged_mask);
+        if (converged_bits == 0xF) break;
+        __m256d sin_lambda = nk_sin_f64x4_haswell_(lambda);
+        __m256d cos_lambda = nk_cos_f64x4_haswell_(lambda);
+        // sin²(angular_distance) = (cos(U₂) × sin(λ))² + (cos(U₁) × sin(U₂) - sin(U₁) × cos(U₂) × cos(λ))²
+        __m256d cross_term = _mm256_mul_pd(cos_reduced_second, sin_lambda);
+        __m256d mixed_term = _mm256_sub_pd(
+            _mm256_mul_pd(cos_reduced_first, sin_reduced_second),
+            _mm256_mul_pd(_mm256_mul_pd(sin_reduced_first, cos_reduced_second), cos_lambda));
+        __m256d sin_angular_dist_sq = _mm256_fmadd_pd(cross_term, cross_term, _mm256_mul_pd(mixed_term, mixed_term));
+        sin_angular_distance = _mm256_sqrt_pd(sin_angular_dist_sq);
+        // Check for coincident points (sin_angular_distance ≈ 0)
+        coincident_mask = _mm256_cmp_pd(sin_angular_distance, epsilon, _CMP_LT_OS);
+        // cos(angular_distance) = sin(U₁) × sin(U₂) + cos(U₁) × cos(U₂) × cos(λ)
+        cos_angular_distance = _mm256_fmadd_pd(_mm256_mul_pd(cos_reduced_first, cos_reduced_second), cos_lambda,
+                                               _mm256_mul_pd(sin_reduced_first, sin_reduced_second));
+        // angular_distance = atan2(sin, cos)
+        angular_distance = nk_atan2_f64x4_haswell_(sin_angular_distance, cos_angular_distance);
+        // sin(azimuth) = cos(U₁) × cos(U₂) × sin(λ) / sin(angular_distance)
+        // Avoid division by zero by using blending
+        __m256d safe_sin_angular = _mm256_blendv_pd(sin_angular_distance, one, coincident_mask);
+        sin_azimuth = _mm256_div_pd(_mm256_mul_pd(_mm256_mul_pd(cos_reduced_first, cos_reduced_second), sin_lambda),
+                                    safe_sin_angular);
+        cos_squared_azimuth = _mm256_sub_pd(one, _mm256_mul_pd(sin_azimuth, sin_azimuth));
+        // Handle equatorial case: cos²α ≈ 0
+        __m256d equatorial_mask = _mm256_cmp_pd(cos_squared_azimuth, epsilon, _CMP_LT_OS);
+        __m256d safe_cos_sq_azimuth = _mm256_blendv_pd(cos_squared_azimuth, one, equatorial_mask);
+        // cos(2σₘ) = cos(σ) - 2 × sin(U₁) × sin(U₂) / cos²(α)
+        __m256d sin_product = _mm256_mul_pd(sin_reduced_first, sin_reduced_second);
+        cos_double_angular_midpoint = _mm256_sub_pd(
+            cos_angular_distance, _mm256_div_pd(_mm256_mul_pd(two, sin_product), safe_cos_sq_azimuth));
+        cos_double_angular_midpoint = _mm256_blendv_pd(cos_double_angular_midpoint, _mm256_setzero_pd(),
+                                                       equatorial_mask);
+        // C = f/16 * cos²α * (4 + f*(4 - 3*cos²α))
+        __m256d correction_factor = _mm256_mul_pd(
+            _mm256_div_pd(flattening, sixteen),
+            _mm256_mul_pd(cos_squared_azimuth,
+                          _mm256_fmadd_pd(flattening, _mm256_fnmadd_pd(three, cos_squared_azimuth, four), four)));
+        // λ' = L + (1-C) × f × sin(α) × (σ + C × sin(σ) × (cos(2σₘ) + C × cos(σ) × (-1 + 2 × cos²(2σₘ))))
+        __m256d cos_2sm_sq = _mm256_mul_pd(cos_double_angular_midpoint, cos_double_angular_midpoint);
+        // innermost = -1 + 2 × cos²(2σₘ)
+        __m256d innermost = _mm256_fmadd_pd(two, cos_2sm_sq, _mm256_set1_pd(-1.0));
+        // middle = cos(2σₘ) + C × cos(σ) × innermost
+        __m256d middle = _mm256_fmadd_pd(_mm256_mul_pd(correction_factor, cos_angular_distance), innermost,
+                                         cos_double_angular_midpoint);
+        // inner = C × sin(σ) × middle
+        __m256d inner = _mm256_mul_pd(_mm256_mul_pd(correction_factor, sin_angular_distance), middle);
+        // λ' = L + (1-C) * f * sin_α * (σ + inner)
+        __m256d lambda_new = _mm256_fmadd_pd(
+            _mm256_mul_pd(_mm256_mul_pd(_mm256_sub_pd(one, correction_factor), flattening), sin_azimuth),
+            _mm256_add_pd(angular_distance, inner), longitude_difference);
+        // Check convergence: |λ - λ'| < threshold
+        __m256d lambda_diff_abs = _mm256_andnot_pd(_mm256_set1_pd(-0.0), _mm256_sub_pd(lambda_new, lambda));
+        __m256d newly_converged = _mm256_cmp_pd(lambda_diff_abs, convergence_threshold, _CMP_LT_OS);
+        converged_mask = _mm256_or_pd(converged_mask, newly_converged);
+        // Only update lambda for non-converged lanes
+        lambda = _mm256_blendv_pd(lambda_new, lambda, converged_mask);
+    }
+    // Final distance calculation
+    // u² = cos²α * (a² - b²) / b²
+    __m256d a_sq = _mm256_mul_pd(equatorial_radius, equatorial_radius);
+    __m256d b_sq = _mm256_mul_pd(polar_radius, polar_radius);
+    __m256d u_squared = _mm256_div_pd(_mm256_mul_pd(cos_squared_azimuth, _mm256_sub_pd(a_sq, b_sq)), b_sq);
+    // A = 1 + u²/16384 * (4096 + u²*(-768 + u²*(320 - 175*u²)))
+    __m256d series_a = _mm256_fmadd_pd(u_squared, _mm256_set1_pd(-175.0), _mm256_set1_pd(320.0));
+    series_a = _mm256_fmadd_pd(u_squared, series_a, _mm256_set1_pd(-768.0));
+    series_a = _mm256_fmadd_pd(u_squared, series_a, _mm256_set1_pd(4096.0));
+    series_a = _mm256_fmadd_pd(_mm256_div_pd(u_squared, _mm256_set1_pd(16384.0)), series_a, one);
+    // B = u²/1024 * (256 + u²*(-128 + u²*(74 - 47*u²)))
+    __m256d series_b = _mm256_fmadd_pd(u_squared, _mm256_set1_pd(-47.0), _mm256_set1_pd(74.0));
+    series_b = _mm256_fmadd_pd(u_squared, series_b, _mm256_set1_pd(-128.0));
+    series_b = _mm256_fmadd_pd(u_squared, series_b, _mm256_set1_pd(256.0));
+    series_b = _mm256_mul_pd(_mm256_div_pd(u_squared, _mm256_set1_pd(1024.0)), series_b);
+    // Δσ = B × sin(σ) × (cos(2σₘ) +
+    //      B/4 × (cos(σ) × (-1 + 2 × cos²(2σₘ)) - B/6 × cos(2σₘ) × (-3 + 4 × sin²(σ)) × (-3 + 4 × cos²(2σₘ))))
+    __m256d cos_2sm_sq = _mm256_mul_pd(cos_double_angular_midpoint, cos_double_angular_midpoint);
+    __m256d sin_sq = _mm256_mul_pd(sin_angular_distance, sin_angular_distance);
+    __m256d term1 = _mm256_fmadd_pd(two, cos_2sm_sq, _mm256_set1_pd(-1.0));
+    term1 = _mm256_mul_pd(cos_angular_distance, term1);
+    __m256d term2 = _mm256_fmadd_pd(four, sin_sq, _mm256_set1_pd(-3.0));
+    __m256d term3 = _mm256_fmadd_pd(four, cos_2sm_sq, _mm256_set1_pd(-3.0));
+    term2 = _mm256_mul_pd(_mm256_mul_pd(_mm256_div_pd(series_b, six), cos_double_angular_midpoint),
+                          _mm256_mul_pd(term2, term3));
+    __m256d delta_sigma = _mm256_mul_pd(
+        series_b, _mm256_mul_pd(sin_angular_distance, _mm256_add_pd(cos_double_angular_midpoint,
+                                                                    _mm256_mul_pd(_mm256_div_pd(series_b, four),
+                                                                                  _mm256_sub_pd(term1, term2)))));
+    // s = b * A * (σ - Δσ)
+    __m256d distances = _mm256_mul_pd(_mm256_mul_pd(polar_radius, series_a),
+                                      _mm256_sub_pd(angular_distance, delta_sigma));
+    // Set coincident points to zero
+    distances = _mm256_blendv_pd(distances, _mm256_setzero_pd(), coincident_mask);
+    return distances;
+}
+NK_PUBLIC void nk_vincenty_f64_haswell(             //
+    nk_f64_t const *a_lats, nk_f64_t const *a_lons, //
+    nk_f64_t const *b_lats, nk_f64_t const *b_lons, //
+    nk_size_t n, nk_f64_t *results) {
+    while (n >= 4) {
+        __m256d first_latitudes = _mm256_loadu_pd(a_lats);
+        __m256d first_longitudes = _mm256_loadu_pd(a_lons);
+        __m256d second_latitudes = _mm256_loadu_pd(b_lats);
+        __m256d second_longitudes = _mm256_loadu_pd(b_lons);
+        __m256d distances = nk_vincenty_f64x4_haswell_(first_latitudes, first_longitudes, second_latitudes,
+                                                       second_longitudes);
+        _mm256_storeu_pd(results, distances);
+        a_lats += 4, a_lons += 4, b_lats += 4, b_lons += 4, results += 4, n -= 4;
+    }
+    // Handle remaining elements with partial loads (n can be 1-3 here)
+    if (n > 0) {
+        nk_b256_vec_t a_lat_vec, a_lon_vec, b_lat_vec, b_lon_vec, result_vec;
+        nk_partial_load_b64x4_haswell_(a_lats, &a_lat_vec, n);
+        nk_partial_load_b64x4_haswell_(a_lons, &a_lon_vec, n);
+        nk_partial_load_b64x4_haswell_(b_lats, &b_lat_vec, n);
+        nk_partial_load_b64x4_haswell_(b_lons, &b_lon_vec, n);
+        __m256d distances = nk_vincenty_f64x4_haswell_(a_lat_vec.ymm_pd, a_lon_vec.ymm_pd, b_lat_vec.ymm_pd,
+                                                       b_lon_vec.ymm_pd);
+        result_vec.ymm_pd = distances;
+        nk_partial_store_b64x4_haswell_(&result_vec, results, n);
+    }
+}
+/**
+ *  @brief  AVX2 helper for Vincenty's geodesic distance on 8 f32 point pairs.
+ *  @note   This is a true SIMD implementation using masked convergence tracking via blending.
+ */
+NK_INTERNAL __m256 nk_vincenty_f32x8_haswell_(       //
+    __m256 first_latitudes, __m256 first_longitudes, //
+    __m256 second_latitudes, __m256 second_longitudes) {
+    __m256 const equatorial_radius = _mm256_set1_ps((float)NK_EARTH_ELLIPSOID_EQUATORIAL_RADIUS);
+    __m256 const polar_radius = _mm256_set1_ps((float)NK_EARTH_ELLIPSOID_POLAR_RADIUS);
+    __m256 const flattening = _mm256_set1_ps(1.0f / (float)NK_EARTH_ELLIPSOID_INVERSE_FLATTENING);
+    __m256 const convergence_threshold = _mm256_set1_ps(NK_VINCENTY_CONVERGENCE_THRESHOLD_F32);
+    __m256 const one = _mm256_set1_ps(1.0f);
+    __m256 const two = _mm256_set1_ps(2.0f);
+    __m256 const three = _mm256_set1_ps(3.0f);
+    __m256 const four = _mm256_set1_ps(4.0f);
+    __m256 const six = _mm256_set1_ps(6.0f);
+    __m256 const sixteen = _mm256_set1_ps(16.0f);
+    __m256 const epsilon = _mm256_set1_ps(1e-7f);
+    // Longitude difference
+    __m256 longitude_difference = _mm256_sub_ps(second_longitudes, first_longitudes);
+    // Reduced latitudes: tan(U) = (1-f) * tan(lat)
+    __m256 one_minus_f = _mm256_sub_ps(one, flattening);
+    __m256 tan_first = _mm256_div_ps(nk_sin_f32x8_haswell_(first_latitudes), nk_cos_f32x8_haswell_(first_latitudes));
+    __m256 tan_second = _mm256_div_ps(nk_sin_f32x8_haswell_(second_latitudes), nk_cos_f32x8_haswell_(second_latitudes));
+    __m256 tan_reduced_first = _mm256_mul_ps(one_minus_f, tan_first);
+    __m256 tan_reduced_second = _mm256_mul_ps(one_minus_f, tan_second);
+    // cos(U) = 1/√(1 + tan²(U)), sin(U) = tan(U) × cos(U)
+    __m256 cos_reduced_first = _mm256_div_ps(
+        one, _mm256_sqrt_ps(_mm256_fmadd_ps(tan_reduced_first, tan_reduced_first, one)));
+    __m256 sin_reduced_first = _mm256_mul_ps(tan_reduced_first, cos_reduced_first);
+    __m256 cos_reduced_second = _mm256_div_ps(
+        one, _mm256_sqrt_ps(_mm256_fmadd_ps(tan_reduced_second, tan_reduced_second, one)));
+    __m256 sin_reduced_second = _mm256_mul_ps(tan_reduced_second, cos_reduced_second);
+    // Initialize lambda and tracking variables
+    __m256 lambda = longitude_difference;
+    __m256 sin_angular_distance, cos_angular_distance, angular_distance;
+    __m256 sin_azimuth, cos_squared_azimuth, cos_double_angular_midpoint;
+    // Track convergence and coincident points using masks
+    __m256 converged_mask = _mm256_setzero_ps();
+    __m256 coincident_mask = _mm256_setzero_ps();
+    for (nk_u32_t iteration = 0; iteration < NK_VINCENTY_MAX_ITERATIONS; ++iteration) {
+        // Check if all lanes converged
+        int converged_bits = _mm256_movemask_ps(converged_mask);
+        if (converged_bits == 0xFF) break;
+        __m256 sin_lambda = nk_sin_f32x8_haswell_(lambda);
+        __m256 cos_lambda = nk_cos_f32x8_haswell_(lambda);
+        // sin²(angular_distance) = (cos(U₂) × sin(λ))² + (cos(U₁) × sin(U₂) - sin(U₁) × cos(U₂) × cos(λ))²
+        __m256 cross_term = _mm256_mul_ps(cos_reduced_second, sin_lambda);
+        __m256 mixed_term = _mm256_sub_ps(
+            _mm256_mul_ps(cos_reduced_first, sin_reduced_second),
+            _mm256_mul_ps(_mm256_mul_ps(sin_reduced_first, cos_reduced_second), cos_lambda));
+        __m256 sin_angular_dist_sq = _mm256_fmadd_ps(cross_term, cross_term, _mm256_mul_ps(mixed_term, mixed_term));
+        sin_angular_distance = _mm256_sqrt_ps(sin_angular_dist_sq);
+        // Check for coincident points (sin_angular_distance ≈ 0)
+        coincident_mask = _mm256_cmp_ps(sin_angular_distance, epsilon, _CMP_LT_OS);
+        // cos(angular_distance) = sin(U₁) × sin(U₂) + cos(U₁) × cos(U₂) × cos(λ)
+        cos_angular_distance = _mm256_fmadd_ps(_mm256_mul_ps(cos_reduced_first, cos_reduced_second), cos_lambda,
+                                               _mm256_mul_ps(sin_reduced_first, sin_reduced_second));
+        // angular_distance = atan2(sin, cos)
+        angular_distance = nk_atan2_f32x8_haswell_(sin_angular_distance, cos_angular_distance);
+        // sin(azimuth) = cos(U₁) × cos(U₂) × sin(λ) / sin(angular_distance)
+        // Avoid division by zero by using blending
+        __m256 safe_sin_angular = _mm256_blendv_ps(sin_angular_distance, one, coincident_mask);
+        sin_azimuth = _mm256_div_ps(_mm256_mul_ps(_mm256_mul_ps(cos_reduced_first, cos_reduced_second), sin_lambda),
+                                    safe_sin_angular);
+        cos_squared_azimuth = _mm256_sub_ps(one, _mm256_mul_ps(sin_azimuth, sin_azimuth));
+        // Handle equatorial case: cos²α ≈ 0
+        __m256 equatorial_mask = _mm256_cmp_ps(cos_squared_azimuth, epsilon, _CMP_LT_OS);
+        __m256 safe_cos_sq_azimuth = _mm256_blendv_ps(cos_squared_azimuth, one, equatorial_mask);
+        // cos(2σₘ) = cos(σ) - 2 × sin(U₁) × sin(U₂) / cos²(α)
+        __m256 sin_product = _mm256_mul_ps(sin_reduced_first, sin_reduced_second);
+        cos_double_angular_midpoint = _mm256_sub_ps(
+            cos_angular_distance, _mm256_div_ps(_mm256_mul_ps(two, sin_product), safe_cos_sq_azimuth));
+        cos_double_angular_midpoint = _mm256_blendv_ps(cos_double_angular_midpoint, _mm256_setzero_ps(),
+                                                       equatorial_mask);
+        // C = f/16 * cos²α * (4 + f*(4 - 3*cos²α))
+        __m256 correction_factor = _mm256_mul_ps(
+            _mm256_div_ps(flattening, sixteen),
+            _mm256_mul_ps(cos_squared_azimuth,
+                          _mm256_fmadd_ps(flattening, _mm256_fnmadd_ps(three, cos_squared_azimuth, four), four)));
+        // λ' = L + (1-C) × f × sin(α) × (σ + C × sin(σ) × (cos(2σₘ) + C × cos(σ) × (-1 + 2 × cos²(2σₘ))))
+        __m256 cos_2sm_sq = _mm256_mul_ps(cos_double_angular_midpoint, cos_double_angular_midpoint);
+        // innermost = -1 + 2 × cos²(2σₘ)
+        __m256 innermost = _mm256_fmadd_ps(two, cos_2sm_sq, _mm256_set1_ps(-1.0f));
+        // middle = cos(2σₘ) + C × cos(σ) × innermost
+        __m256 middle = _mm256_fmadd_ps(_mm256_mul_ps(correction_factor, cos_angular_distance), innermost,
+                                        cos_double_angular_midpoint);
+        // inner = C × sin(σ) × middle
+        __m256 inner = _mm256_mul_ps(_mm256_mul_ps(correction_factor, sin_angular_distance), middle);
+        // λ' = L + (1-C) * f * sin_α * (σ + inner)
+        __m256 lambda_new = _mm256_fmadd_ps(
+            _mm256_mul_ps(_mm256_mul_ps(_mm256_sub_ps(one, correction_factor), flattening), sin_azimuth),
+            _mm256_add_ps(angular_distance, inner), longitude_difference);
+        // Check convergence: |λ - λ'| < threshold
+        __m256 lambda_diff_abs = _mm256_andnot_ps(_mm256_set1_ps(-0.0f), _mm256_sub_ps(lambda_new, lambda));
+        __m256 newly_converged = _mm256_cmp_ps(lambda_diff_abs, convergence_threshold, _CMP_LT_OS);
+        converged_mask = _mm256_or_ps(converged_mask, newly_converged);
+        // Only update lambda for non-converged lanes
+        lambda = _mm256_blendv_ps(lambda_new, lambda, converged_mask);
+    }
+    // Final distance calculation
+    // u² = cos²α * (a² - b²) / b²
+    __m256 a_sq = _mm256_mul_ps(equatorial_radius, equatorial_radius);
+    __m256 b_sq = _mm256_mul_ps(polar_radius, polar_radius);
+    __m256 u_squared = _mm256_div_ps(_mm256_mul_ps(cos_squared_azimuth, _mm256_sub_ps(a_sq, b_sq)), b_sq);
+    // A = 1 + u²/16384 * (4096 + u²*(-768 + u²*(320 - 175*u²)))
+    __m256 series_a = _mm256_fmadd_ps(u_squared, _mm256_set1_ps(-175.0f), _mm256_set1_ps(320.0f));
+    series_a = _mm256_fmadd_ps(u_squared, series_a, _mm256_set1_ps(-768.0f));
+    series_a = _mm256_fmadd_ps(u_squared, series_a, _mm256_set1_ps(4096.0f));
+    series_a = _mm256_fmadd_ps(_mm256_div_ps(u_squared, _mm256_set1_ps(16384.0f)), series_a, one);
+    // B = u²/1024 * (256 + u²*(-128 + u²*(74 - 47*u²)))
+    __m256 series_b = _mm256_fmadd_ps(u_squared, _mm256_set1_ps(-47.0f), _mm256_set1_ps(74.0f));
+    series_b = _mm256_fmadd_ps(u_squared, series_b, _mm256_set1_ps(-128.0f));
+    series_b = _mm256_fmadd_ps(u_squared, series_b, _mm256_set1_ps(256.0f));
+    series_b = _mm256_mul_ps(_mm256_div_ps(u_squared, _mm256_set1_ps(1024.0f)), series_b);
+    // Δσ = B × sin(σ) × (cos(2σₘ) +
+    //      B/4 × (cos(σ) × (-1 + 2 × cos²(2σₘ)) - B/6 × cos(2σₘ) × (-3 + 4 × sin²(σ)) × (-3 + 4 × cos²(2σₘ))))
+    __m256 cos_2sm_sq = _mm256_mul_ps(cos_double_angular_midpoint, cos_double_angular_midpoint);
+    __m256 sin_sq = _mm256_mul_ps(sin_angular_distance, sin_angular_distance);
+    __m256 term1 = _mm256_fmadd_ps(two, cos_2sm_sq, _mm256_set1_ps(-1.0f));
+    term1 = _mm256_mul_ps(cos_angular_distance, term1);
+    __m256 term2 = _mm256_fmadd_ps(four, sin_sq, _mm256_set1_ps(-3.0f));
+    __m256 term3 = _mm256_fmadd_ps(four, cos_2sm_sq, _mm256_set1_ps(-3.0f));
+    term2 = _mm256_mul_ps(_mm256_mul_ps(_mm256_div_ps(series_b, six), cos_double_angular_midpoint),
+                          _mm256_mul_ps(term2, term3));
+    __m256 delta_sigma = _mm256_mul_ps(
+        series_b, _mm256_mul_ps(sin_angular_distance, _mm256_add_ps(cos_double_angular_midpoint,
+                                                                    _mm256_mul_ps(_mm256_div_ps(series_b, four),
+                                                                                  _mm256_sub_ps(term1, term2)))));
+    // s = b * A * (σ - Δσ)
+    __m256 distances = _mm256_mul_ps(_mm256_mul_ps(polar_radius, series_a),
+                                     _mm256_sub_ps(angular_distance, delta_sigma));
+    // Set coincident points to zero
+    distances = _mm256_blendv_ps(distances, _mm256_setzero_ps(), coincident_mask);
+    return distances;
+}
+NK_PUBLIC void nk_vincenty_f32_haswell(             //
+    nk_f32_t const *a_lats, nk_f32_t const *a_lons, //
+    nk_f32_t const *b_lats, nk_f32_t const *b_lons, //
+    nk_size_t n, nk_f32_t *results) {
+    while (n >= 8) {
+        __m256 first_latitudes = _mm256_loadu_ps(a_lats);
+        __m256 first_longitudes = _mm256_loadu_ps(a_lons);
+        __m256 second_latitudes = _mm256_loadu_ps(b_lats);
+        __m256 second_longitudes = _mm256_loadu_ps(b_lons);
+        __m256 distances = nk_vincenty_f32x8_haswell_(first_latitudes, first_longitudes, second_latitudes,
+                                                      second_longitudes);
+        _mm256_storeu_ps(results, distances);
+        a_lats += 8, a_lons += 8, b_lats += 8, b_lons += 8, results += 8, n -= 8;
+    }
+    // Handle remaining elements with partial loads (n can be 1-7 here)
+    if (n > 0) {
+        nk_b256_vec_t a_lat_vec, a_lon_vec, b_lat_vec, b_lon_vec, result_vec;
+        nk_partial_load_b32x8_serial_(a_lats, &a_lat_vec, n);
+        nk_partial_load_b32x8_serial_(a_lons, &a_lon_vec, n);
+        nk_partial_load_b32x8_serial_(b_lats, &b_lat_vec, n);
+        nk_partial_load_b32x8_serial_(b_lons, &b_lon_vec, n);
+        __m256 distances = nk_vincenty_f32x8_haswell_(a_lat_vec.ymm_ps, a_lon_vec.ymm_ps, b_lat_vec.ymm_ps,
+                                                      b_lon_vec.ymm_ps);
+        result_vec.ymm_ps = distances;
+        nk_partial_store_b32x8_serial_(&result_vec, results, n);
+    }
+}
+#if defined(__clang__)
+#pragma clang attribute pop
+#elif defined(__GNUC__)
+#pragma GCC pop_options
+#endif
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#endif // NK_TARGET_HASWELL
+#endif // NK_TARGET_X86_
+#endif // NK_GEOSPATIAL_HASWELL_H