npm - numkong - Versions diffs - 7.0.0 - Mend

numkong 7.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (294) hide show

package/LICENSE +201 -0
package/README.md +495 -0
package/binding.gyp +540 -0
package/c/dispatch.h +512 -0
package/c/dispatch_bf16.c +389 -0
package/c/dispatch_bf16c.c +52 -0
package/c/dispatch_e2m3.c +263 -0
package/c/dispatch_e3m2.c +243 -0
package/c/dispatch_e4m3.c +276 -0
package/c/dispatch_e5m2.c +272 -0
package/c/dispatch_f16.c +376 -0
package/c/dispatch_f16c.c +58 -0
package/c/dispatch_f32.c +378 -0
package/c/dispatch_f32c.c +99 -0
package/c/dispatch_f64.c +296 -0
package/c/dispatch_f64c.c +98 -0
package/c/dispatch_i16.c +96 -0
package/c/dispatch_i32.c +89 -0
package/c/dispatch_i4.c +150 -0
package/c/dispatch_i64.c +86 -0
package/c/dispatch_i8.c +289 -0
package/c/dispatch_other.c +330 -0
package/c/dispatch_u1.c +148 -0
package/c/dispatch_u16.c +124 -0
package/c/dispatch_u32.c +118 -0
package/c/dispatch_u4.c +150 -0
package/c/dispatch_u64.c +102 -0
package/c/dispatch_u8.c +303 -0
package/c/numkong.c +950 -0
package/include/README.md +573 -0
package/include/module.modulemap +129 -0
package/include/numkong/attention/sapphireamx.h +1361 -0
package/include/numkong/attention/sme.h +2066 -0
package/include/numkong/attention.h +49 -0
package/include/numkong/capabilities.h +748 -0
package/include/numkong/cast/README.md +262 -0
package/include/numkong/cast/haswell.h +975 -0
package/include/numkong/cast/icelake.h +470 -0
package/include/numkong/cast/neon.h +1192 -0
package/include/numkong/cast/rvv.h +1021 -0
package/include/numkong/cast/sapphire.h +262 -0
package/include/numkong/cast/serial.h +2262 -0
package/include/numkong/cast/skylake.h +856 -0
package/include/numkong/cast/v128relaxed.h +180 -0
package/include/numkong/cast.h +230 -0
package/include/numkong/curved/README.md +223 -0
package/include/numkong/curved/genoa.h +182 -0
package/include/numkong/curved/haswell.h +276 -0
package/include/numkong/curved/neon.h +205 -0
package/include/numkong/curved/neonbfdot.h +212 -0
package/include/numkong/curved/neonhalf.h +212 -0
package/include/numkong/curved/rvv.h +305 -0
package/include/numkong/curved/serial.h +207 -0
package/include/numkong/curved/skylake.h +457 -0
package/include/numkong/curved/smef64.h +506 -0
package/include/numkong/curved.h +517 -0
package/include/numkong/curved.hpp +144 -0
package/include/numkong/dot/README.md +425 -0
package/include/numkong/dot/alder.h +563 -0
package/include/numkong/dot/genoa.h +315 -0
package/include/numkong/dot/haswell.h +1688 -0
package/include/numkong/dot/icelake.h +883 -0
package/include/numkong/dot/neon.h +818 -0
package/include/numkong/dot/neonbfdot.h +244 -0
package/include/numkong/dot/neonfhm.h +360 -0
package/include/numkong/dot/neonhalf.h +198 -0
package/include/numkong/dot/neonsdot.h +508 -0
package/include/numkong/dot/rvv.h +714 -0
package/include/numkong/dot/rvvbb.h +72 -0
package/include/numkong/dot/rvvbf16.h +123 -0
package/include/numkong/dot/rvvhalf.h +129 -0
package/include/numkong/dot/sapphire.h +141 -0
package/include/numkong/dot/serial.h +838 -0
package/include/numkong/dot/sierra.h +405 -0
package/include/numkong/dot/skylake.h +1084 -0
package/include/numkong/dot/sve.h +379 -0
package/include/numkong/dot/svebfdot.h +74 -0
package/include/numkong/dot/svehalf.h +123 -0
package/include/numkong/dot/v128relaxed.h +1258 -0
package/include/numkong/dot.h +1070 -0
package/include/numkong/dot.hpp +94 -0
package/include/numkong/dots/README.md +496 -0
package/include/numkong/dots/alder.h +114 -0
package/include/numkong/dots/genoa.h +94 -0
package/include/numkong/dots/haswell.h +295 -0
package/include/numkong/dots/icelake.h +171 -0
package/include/numkong/dots/neon.h +120 -0
package/include/numkong/dots/neonbfdot.h +58 -0
package/include/numkong/dots/neonfhm.h +94 -0
package/include/numkong/dots/neonhalf.h +57 -0
package/include/numkong/dots/neonsdot.h +108 -0
package/include/numkong/dots/rvv.h +2486 -0
package/include/numkong/dots/sapphireamx.h +3973 -0
package/include/numkong/dots/serial.h +2844 -0
package/include/numkong/dots/sierra.h +97 -0
package/include/numkong/dots/skylake.h +196 -0
package/include/numkong/dots/sme.h +5372 -0
package/include/numkong/dots/smebi32.h +461 -0
package/include/numkong/dots/smef64.h +1318 -0
package/include/numkong/dots/smehalf.h +47 -0
package/include/numkong/dots/v128relaxed.h +294 -0
package/include/numkong/dots.h +2804 -0
package/include/numkong/dots.hpp +639 -0
package/include/numkong/each/README.md +469 -0
package/include/numkong/each/haswell.h +1658 -0
package/include/numkong/each/icelake.h +272 -0
package/include/numkong/each/neon.h +1104 -0
package/include/numkong/each/neonbfdot.h +212 -0
package/include/numkong/each/neonhalf.h +410 -0
package/include/numkong/each/rvv.h +1121 -0
package/include/numkong/each/sapphire.h +477 -0
package/include/numkong/each/serial.h +260 -0
package/include/numkong/each/skylake.h +1562 -0
package/include/numkong/each.h +2146 -0
package/include/numkong/each.hpp +434 -0
package/include/numkong/geospatial/README.md +147 -0
package/include/numkong/geospatial/haswell.h +593 -0
package/include/numkong/geospatial/neon.h +571 -0
package/include/numkong/geospatial/rvv.h +701 -0
package/include/numkong/geospatial/serial.h +309 -0
package/include/numkong/geospatial/skylake.h +577 -0
package/include/numkong/geospatial/v128relaxed.h +613 -0
package/include/numkong/geospatial.h +453 -0
package/include/numkong/geospatial.hpp +235 -0
package/include/numkong/matrix.hpp +336 -0
package/include/numkong/maxsim/README.md +187 -0
package/include/numkong/maxsim/alder.h +511 -0
package/include/numkong/maxsim/genoa.h +115 -0
package/include/numkong/maxsim/haswell.h +553 -0
package/include/numkong/maxsim/icelake.h +480 -0
package/include/numkong/maxsim/neonsdot.h +394 -0
package/include/numkong/maxsim/sapphireamx.h +877 -0
package/include/numkong/maxsim/serial.h +490 -0
package/include/numkong/maxsim/sme.h +929 -0
package/include/numkong/maxsim/v128relaxed.h +280 -0
package/include/numkong/maxsim.h +571 -0
package/include/numkong/maxsim.hpp +133 -0
package/include/numkong/mesh/README.md +227 -0
package/include/numkong/mesh/haswell.h +2235 -0
package/include/numkong/mesh/neon.h +1329 -0
package/include/numkong/mesh/neonbfdot.h +842 -0
package/include/numkong/mesh/neonhalf.h +616 -0
package/include/numkong/mesh/rvv.h +916 -0
package/include/numkong/mesh/serial.h +742 -0
package/include/numkong/mesh/skylake.h +1135 -0
package/include/numkong/mesh/v128relaxed.h +1052 -0
package/include/numkong/mesh.h +652 -0
package/include/numkong/mesh.hpp +762 -0
package/include/numkong/numkong.h +78 -0
package/include/numkong/numkong.hpp +57 -0
package/include/numkong/probability/README.md +173 -0
package/include/numkong/probability/haswell.h +267 -0
package/include/numkong/probability/neon.h +225 -0
package/include/numkong/probability/rvv.h +409 -0
package/include/numkong/probability/serial.h +169 -0
package/include/numkong/probability/skylake.h +324 -0
package/include/numkong/probability.h +383 -0
package/include/numkong/probability.hpp +120 -0
package/include/numkong/random.h +50 -0
package/include/numkong/random.hpp +285 -0
package/include/numkong/reduce/README.md +547 -0
package/include/numkong/reduce/alder.h +632 -0
package/include/numkong/reduce/genoa.h +201 -0
package/include/numkong/reduce/haswell.h +3783 -0
package/include/numkong/reduce/icelake.h +549 -0
package/include/numkong/reduce/neon.h +3841 -0
package/include/numkong/reduce/neonbfdot.h +353 -0
package/include/numkong/reduce/neonfhm.h +665 -0
package/include/numkong/reduce/neonhalf.h +157 -0
package/include/numkong/reduce/neonsdot.h +357 -0
package/include/numkong/reduce/rvv.h +3407 -0
package/include/numkong/reduce/serial.h +757 -0
package/include/numkong/reduce/sierra.h +338 -0
package/include/numkong/reduce/skylake.h +3792 -0
package/include/numkong/reduce/v128relaxed.h +2302 -0
package/include/numkong/reduce.h +1597 -0
package/include/numkong/reduce.hpp +633 -0
package/include/numkong/scalar/README.md +89 -0
package/include/numkong/scalar/haswell.h +113 -0
package/include/numkong/scalar/neon.h +122 -0
package/include/numkong/scalar/neonhalf.h +70 -0
package/include/numkong/scalar/rvv.h +211 -0
package/include/numkong/scalar/sapphire.h +63 -0
package/include/numkong/scalar/serial.h +332 -0
package/include/numkong/scalar/v128relaxed.h +56 -0
package/include/numkong/scalar.h +683 -0
package/include/numkong/set/README.md +179 -0
package/include/numkong/set/haswell.h +334 -0
package/include/numkong/set/icelake.h +485 -0
package/include/numkong/set/neon.h +364 -0
package/include/numkong/set/rvv.h +226 -0
package/include/numkong/set/rvvbb.h +117 -0
package/include/numkong/set/serial.h +174 -0
package/include/numkong/set/sve.h +185 -0
package/include/numkong/set/v128relaxed.h +240 -0
package/include/numkong/set.h +457 -0
package/include/numkong/set.hpp +114 -0
package/include/numkong/sets/README.md +149 -0
package/include/numkong/sets/haswell.h +63 -0
package/include/numkong/sets/icelake.h +66 -0
package/include/numkong/sets/neon.h +61 -0
package/include/numkong/sets/serial.h +43 -0
package/include/numkong/sets/smebi32.h +1099 -0
package/include/numkong/sets/v128relaxed.h +58 -0
package/include/numkong/sets.h +339 -0
package/include/numkong/sparse/README.md +156 -0
package/include/numkong/sparse/icelake.h +463 -0
package/include/numkong/sparse/neon.h +288 -0
package/include/numkong/sparse/serial.h +117 -0
package/include/numkong/sparse/sve2.h +507 -0
package/include/numkong/sparse/turin.h +322 -0
package/include/numkong/sparse.h +363 -0
package/include/numkong/sparse.hpp +113 -0
package/include/numkong/spatial/README.md +435 -0
package/include/numkong/spatial/alder.h +607 -0
package/include/numkong/spatial/genoa.h +290 -0
package/include/numkong/spatial/haswell.h +960 -0
package/include/numkong/spatial/icelake.h +586 -0
package/include/numkong/spatial/neon.h +773 -0
package/include/numkong/spatial/neonbfdot.h +165 -0
package/include/numkong/spatial/neonhalf.h +118 -0
package/include/numkong/spatial/neonsdot.h +261 -0
package/include/numkong/spatial/rvv.h +984 -0
package/include/numkong/spatial/rvvbf16.h +123 -0
package/include/numkong/spatial/rvvhalf.h +117 -0
package/include/numkong/spatial/sapphire.h +343 -0
package/include/numkong/spatial/serial.h +346 -0
package/include/numkong/spatial/sierra.h +323 -0
package/include/numkong/spatial/skylake.h +606 -0
package/include/numkong/spatial/sve.h +224 -0
package/include/numkong/spatial/svebfdot.h +122 -0
package/include/numkong/spatial/svehalf.h +109 -0
package/include/numkong/spatial/v128relaxed.h +717 -0
package/include/numkong/spatial.h +1425 -0
package/include/numkong/spatial.hpp +183 -0
package/include/numkong/spatials/README.md +580 -0
package/include/numkong/spatials/alder.h +94 -0
package/include/numkong/spatials/genoa.h +94 -0
package/include/numkong/spatials/haswell.h +219 -0
package/include/numkong/spatials/icelake.h +113 -0
package/include/numkong/spatials/neon.h +109 -0
package/include/numkong/spatials/neonbfdot.h +60 -0
package/include/numkong/spatials/neonfhm.h +92 -0
package/include/numkong/spatials/neonhalf.h +58 -0
package/include/numkong/spatials/neonsdot.h +109 -0
package/include/numkong/spatials/rvv.h +1960 -0
package/include/numkong/spatials/sapphireamx.h +1149 -0
package/include/numkong/spatials/serial.h +226 -0
package/include/numkong/spatials/sierra.h +96 -0
package/include/numkong/spatials/skylake.h +184 -0
package/include/numkong/spatials/sme.h +1901 -0
package/include/numkong/spatials/smef64.h +465 -0
package/include/numkong/spatials/v128relaxed.h +240 -0
package/include/numkong/spatials.h +3021 -0
package/include/numkong/spatials.hpp +508 -0
package/include/numkong/tensor.hpp +1592 -0
package/include/numkong/trigonometry/README.md +184 -0
package/include/numkong/trigonometry/haswell.h +652 -0
package/include/numkong/trigonometry/neon.h +639 -0
package/include/numkong/trigonometry/rvv.h +699 -0
package/include/numkong/trigonometry/serial.h +703 -0
package/include/numkong/trigonometry/skylake.h +721 -0
package/include/numkong/trigonometry/v128relaxed.h +666 -0
package/include/numkong/trigonometry.h +467 -0
package/include/numkong/trigonometry.hpp +166 -0
package/include/numkong/types.h +1384 -0
package/include/numkong/types.hpp +5603 -0
package/include/numkong/vector.hpp +698 -0
package/javascript/README.md +246 -0
package/javascript/dist/cjs/numkong-wasm.d.ts +166 -0
package/javascript/dist/cjs/numkong-wasm.js +617 -0
package/javascript/dist/cjs/numkong.d.ts +343 -0
package/javascript/dist/cjs/numkong.js +523 -0
package/javascript/dist/cjs/package.json +3 -0
package/javascript/dist/cjs/types.d.ts +284 -0
package/javascript/dist/cjs/types.js +653 -0
package/javascript/dist/esm/numkong-wasm.d.ts +166 -0
package/javascript/dist/esm/numkong-wasm.js +595 -0
package/javascript/dist/esm/numkong.d.ts +343 -0
package/javascript/dist/esm/numkong.js +452 -0
package/javascript/dist/esm/package.json +3 -0
package/javascript/dist/esm/types.d.ts +284 -0
package/javascript/dist/esm/types.js +630 -0
package/javascript/dist-package-cjs.json +3 -0
package/javascript/dist-package-esm.json +3 -0
package/javascript/node-gyp-build.d.ts +1 -0
package/javascript/numkong-wasm.ts +756 -0
package/javascript/numkong.c +689 -0
package/javascript/numkong.ts +575 -0
package/javascript/tsconfig-base.json +39 -0
package/javascript/tsconfig-cjs.json +8 -0
package/javascript/tsconfig-esm.json +8 -0
package/javascript/types.ts +674 -0
package/package.json +87 -0

package/include/numkong/geospatial/v128relaxed.h ADDED Viewed

@@ -0,0 +1,613 @@
+/**
+ *  @brief SIMD-accelerated Geospatial Distances for WASM.
+ *  @file include/numkong/geospatial/v128relaxed.h
+ *  @author Ash Vardanian
+ *  @date February 6, 2026
+ *
+ *  @sa include/numkong/geospatial.h
+ *
+ *  Implements Haversine and Vincenty great-circle distances for f32x4 and f64x2.
+ *  Haversine uses sin/cos/atan2 with min/max clamping to keep the atan2 argument in [0,1].
+ *  Vincenty iterates sin/cos/atan2 until convergence, using `i8x16_all_true` to test whether
+ *  all SIMD lanes have converged without per-lane extraction.
+ *
+ *  @section geospatial_wasm_instructions Key WASM SIMD Instructions (beyond trig)
+ *
+ *      Intrinsic                               Operation
+ *      wasm_f32x4_sqrt(a)                      Square root (4-way f32)
+ *      wasm_f64x2_sqrt(a)                      Square root (2-way f64)
+ *      wasm_f32x4_div(a, b)                    Division (4-way f32)
+ *      wasm_f64x2_div(a, b)                    Division (2-way f64)
+ *      wasm_f32x4_min/max(a, b)                Clamping for Haversine
+ *      wasm_f64x2_min/max(a, b)                Clamping for Haversine
+ *      wasm_f32x4_relaxed_min/max(a, b)        Min/max without NaN fixup (1 vs 6-9 on x86)
+ *      wasm_f64x2_relaxed_min/max(a, b)        Min/max without NaN fixup (1 vs 6-9 on x86)
+ *      wasm_i32x4_relaxed_laneselect(a, b, m)  Lane select (1 instr vs 3 on x86)
+ *      wasm_i64x2_relaxed_laneselect(a, b, m)  Lane select for f64 masks
+ *      wasm_i8x16_all_true(a)                  Vincenty convergence check (all lanes at once)
+ */
+#ifndef NK_GEOSPATIAL_V128RELAXED_H
+#define NK_GEOSPATIAL_V128RELAXED_H
+#if NK_TARGET_V128RELAXED
+#include "numkong/types.h"
+#include "numkong/trigonometry/v128relaxed.h"
+#if defined(__cplusplus)
+extern "C" {
+#endif
+#if defined(__clang__)
+#pragma clang attribute push(__attribute__((target("relaxed-simd"))), apply_to = function)
+#endif
+/*  WASM Relaxed SIMD implementations using 2-wide f64 and 4-wide f32 SIMD.
+ *  These require WASM trigonometric kernels from trigonometry/v128relaxed.h.
+ */
+NK_INTERNAL v128_t nk_haversine_f64x2_v128relaxed_(  //
+    v128_t first_latitudes, v128_t first_longitudes, //
+    v128_t second_latitudes, v128_t second_longitudes) {
+    v128_t const earth_radius = wasm_f64x2_splat(NK_EARTH_MEDIATORIAL_RADIUS);
+    v128_t const half = wasm_f64x2_splat(0.5);
+    v128_t const one = wasm_f64x2_splat(1.0);
+    v128_t const two = wasm_f64x2_splat(2.0);
+    v128_t latitude_delta = wasm_f64x2_sub(second_latitudes, first_latitudes);
+    v128_t longitude_delta = wasm_f64x2_sub(second_longitudes, first_longitudes);
+    // Haversine terms: sin^2(delta/2)
+    v128_t latitude_delta_half = wasm_f64x2_mul(latitude_delta, half);
+    v128_t longitude_delta_half = wasm_f64x2_mul(longitude_delta, half);
+    v128_t sin_latitude_delta_half = nk_f64x2_sin_v128relaxed_(latitude_delta_half);
+    v128_t sin_longitude_delta_half = nk_f64x2_sin_v128relaxed_(longitude_delta_half);
+    v128_t sin_squared_latitude_delta_half = wasm_f64x2_mul(sin_latitude_delta_half, sin_latitude_delta_half);
+    v128_t sin_squared_longitude_delta_half = wasm_f64x2_mul(sin_longitude_delta_half, sin_longitude_delta_half);
+    // Latitude cosine product
+    v128_t cos_first_latitude = nk_f64x2_cos_v128relaxed_(first_latitudes);
+    v128_t cos_second_latitude = nk_f64x2_cos_v128relaxed_(second_latitudes);
+    v128_t cos_latitude_product = wasm_f64x2_mul(cos_first_latitude, cos_second_latitude);
+    // a = sin^2(dlat/2) + cos(lat1) * cos(lat2) * sin^2(dlon/2)
+    v128_t haversine_term = wasm_f64x2_add(sin_squared_latitude_delta_half,
+                                           wasm_f64x2_mul(cos_latitude_product, sin_squared_longitude_delta_half));
+    // Clamp haversine_term to [0, 1] to prevent NaN from sqrt of negative values
+    // relaxed_min/max: 1 instruction (minpd/maxpd) vs 6-9 (with NaN/signed-zero fixup) on x86.
+    // Safe because haversine_term is a product of finite sin/cos values — NaN is impossible.
+    v128_t zero = wasm_f64x2_splat(0.0);
+    haversine_term = wasm_f64x2_relaxed_max(zero, wasm_f64x2_relaxed_min(one, haversine_term));
+    // Central angle: c = 2 * atan2(sqrt(a), sqrt(1-a))
+    v128_t sqrt_haversine = wasm_f64x2_sqrt(haversine_term);
+    v128_t sqrt_complement = wasm_f64x2_sqrt(wasm_f64x2_sub(one, haversine_term));
+    v128_t central_angle = wasm_f64x2_mul(two, nk_f64x2_atan2_v128relaxed_(sqrt_haversine, sqrt_complement));
+    return wasm_f64x2_mul(earth_radius, central_angle);
+}
+NK_PUBLIC void nk_haversine_f64_v128relaxed(        //
+    nk_f64_t const *a_lats, nk_f64_t const *a_lons, //
+    nk_f64_t const *b_lats, nk_f64_t const *b_lons, //
+    nk_size_t n, nk_f64_t *results) {
+    while (n >= 2) {
+        v128_t first_latitudes = wasm_v128_load(a_lats);
+        v128_t first_longitudes = wasm_v128_load(a_lons);
+        v128_t second_latitudes = wasm_v128_load(b_lats);
+        v128_t second_longitudes = wasm_v128_load(b_lons);
+        v128_t distances = nk_haversine_f64x2_v128relaxed_(first_latitudes, first_longitudes, second_latitudes,
+                                                           second_longitudes);
+        wasm_v128_store(results, distances);
+        a_lats += 2, a_lons += 2, b_lats += 2, b_lons += 2, results += 2, n -= 2;
+    }
+    // Handle tail with partial loads (n can only be 0 or 1 here)
+    if (n > 0) {
+        nk_b128_vec_t a_lat_vec, a_lon_vec, b_lat_vec, b_lon_vec, result_vec;
+        nk_partial_load_b64x2_serial_(a_lats, &a_lat_vec, n);
+        nk_partial_load_b64x2_serial_(a_lons, &a_lon_vec, n);
+        nk_partial_load_b64x2_serial_(b_lats, &b_lat_vec, n);
+        nk_partial_load_b64x2_serial_(b_lons, &b_lon_vec, n);
+        v128_t distances = nk_haversine_f64x2_v128relaxed_(a_lat_vec.v128, a_lon_vec.v128, b_lat_vec.v128,
+                                                           b_lon_vec.v128);
+        result_vec.v128 = distances;
+        nk_partial_store_b64x2_serial_(&result_vec, results, n);
+    }
+}
+NK_INTERNAL v128_t nk_haversine_f32x4_v128relaxed_(  //
+    v128_t first_latitudes, v128_t first_longitudes, //
+    v128_t second_latitudes, v128_t second_longitudes) {
+    v128_t const earth_radius = wasm_f32x4_splat((float)NK_EARTH_MEDIATORIAL_RADIUS);
+    v128_t const half = wasm_f32x4_splat(0.5f);
+    v128_t const one = wasm_f32x4_splat(1.0f);
+    v128_t const two = wasm_f32x4_splat(2.0f);
+    v128_t latitude_delta = wasm_f32x4_sub(second_latitudes, first_latitudes);
+    v128_t longitude_delta = wasm_f32x4_sub(second_longitudes, first_longitudes);
+    // Haversine terms: sin^2(delta/2)
+    v128_t latitude_delta_half = wasm_f32x4_mul(latitude_delta, half);
+    v128_t longitude_delta_half = wasm_f32x4_mul(longitude_delta, half);
+    v128_t sin_latitude_delta_half = nk_f32x4_sin_v128relaxed_(latitude_delta_half);
+    v128_t sin_longitude_delta_half = nk_f32x4_sin_v128relaxed_(longitude_delta_half);
+    v128_t sin_squared_latitude_delta_half = wasm_f32x4_mul(sin_latitude_delta_half, sin_latitude_delta_half);
+    v128_t sin_squared_longitude_delta_half = wasm_f32x4_mul(sin_longitude_delta_half, sin_longitude_delta_half);
+    // Latitude cosine product
+    v128_t cos_first_latitude = nk_f32x4_cos_v128relaxed_(first_latitudes);
+    v128_t cos_second_latitude = nk_f32x4_cos_v128relaxed_(second_latitudes);
+    v128_t cos_latitude_product = wasm_f32x4_mul(cos_first_latitude, cos_second_latitude);
+    // a = sin^2(dlat/2) + cos(lat1) * cos(lat2) * sin^2(dlon/2)
+    v128_t haversine_term = wasm_f32x4_add(sin_squared_latitude_delta_half,
+                                           wasm_f32x4_mul(cos_latitude_product, sin_squared_longitude_delta_half));
+    // Clamp to [0, 1] to avoid NaN from sqrt of negative numbers (due to floating point errors)
+    // relaxed_min/max: 1 instruction (minps/maxps) vs 6-9 (with NaN/signed-zero fixup) on x86.
+    // Safe because haversine_term is a product of finite sin/cos values — NaN is impossible.
+    v128_t zero = wasm_f32x4_splat(0.0f);
+    haversine_term = wasm_f32x4_relaxed_max(zero, wasm_f32x4_relaxed_min(one, haversine_term));
+    // Central angle: c = 2 * atan2(sqrt(a), sqrt(1-a))
+    v128_t sqrt_haversine = wasm_f32x4_sqrt(haversine_term);
+    v128_t sqrt_complement = wasm_f32x4_sqrt(wasm_f32x4_sub(one, haversine_term));
+    v128_t central_angle = wasm_f32x4_mul(two, nk_f32x4_atan2_v128relaxed_(sqrt_haversine, sqrt_complement));
+    return wasm_f32x4_mul(earth_radius, central_angle);
+}
+NK_PUBLIC void nk_haversine_f32_v128relaxed(        //
+    nk_f32_t const *a_lats, nk_f32_t const *a_lons, //
+    nk_f32_t const *b_lats, nk_f32_t const *b_lons, //
+    nk_size_t n, nk_f32_t *results) {
+    while (n >= 4) {
+        v128_t first_latitudes = wasm_v128_load(a_lats);
+        v128_t first_longitudes = wasm_v128_load(a_lons);
+        v128_t second_latitudes = wasm_v128_load(b_lats);
+        v128_t second_longitudes = wasm_v128_load(b_lons);
+        v128_t distances = nk_haversine_f32x4_v128relaxed_(first_latitudes, first_longitudes, second_latitudes,
+                                                           second_longitudes);
+        wasm_v128_store(results, distances);
+        a_lats += 4, a_lons += 4, b_lats += 4, b_lons += 4, results += 4, n -= 4;
+    }
+    // Handle tail with partial loads (n can be 0-3 here)
+    if (n > 0) {
+        nk_b128_vec_t a_lat_vec, a_lon_vec, b_lat_vec, b_lon_vec, result_vec;
+        nk_partial_load_b32x4_serial_(a_lats, &a_lat_vec, n);
+        nk_partial_load_b32x4_serial_(a_lons, &a_lon_vec, n);
+        nk_partial_load_b32x4_serial_(b_lats, &b_lat_vec, n);
+        nk_partial_load_b32x4_serial_(b_lons, &b_lon_vec, n);
+        v128_t distances = nk_haversine_f32x4_v128relaxed_(a_lat_vec.v128, a_lon_vec.v128, b_lat_vec.v128,
+                                                           b_lon_vec.v128);
+        result_vec.v128 = distances;
+        nk_partial_store_b32x4_serial_(&result_vec, results, n);
+    }
+}
+/**
+ *  @brief  WASM Relaxed SIMD helper for Vincenty's geodesic distance on 2 f64 point pairs.
+ *  @note   This is a true SIMD implementation using masked convergence tracking via blending.
+ */
+NK_INTERNAL v128_t nk_vincenty_f64x2_v128relaxed_(   //
+    v128_t first_latitudes, v128_t first_longitudes, //
+    v128_t second_latitudes, v128_t second_longitudes) {
+    v128_t const equatorial_radius = wasm_f64x2_splat(NK_EARTH_ELLIPSOID_EQUATORIAL_RADIUS);
+    v128_t const polar_radius = wasm_f64x2_splat(NK_EARTH_ELLIPSOID_POLAR_RADIUS);
+    v128_t const flattening = wasm_f64x2_splat(1.0 / NK_EARTH_ELLIPSOID_INVERSE_FLATTENING);
+    v128_t const convergence_threshold = wasm_f64x2_splat(NK_VINCENTY_CONVERGENCE_THRESHOLD_F64);
+    v128_t const one = wasm_f64x2_splat(1.0);
+    v128_t const two = wasm_f64x2_splat(2.0);
+    v128_t const three = wasm_f64x2_splat(3.0);
+    v128_t const four = wasm_f64x2_splat(4.0);
+    v128_t const six = wasm_f64x2_splat(6.0);
+    v128_t const sixteen = wasm_f64x2_splat(16.0);
+    v128_t const epsilon = wasm_f64x2_splat(1e-15);
+    // Longitude difference
+    v128_t longitude_difference = wasm_f64x2_sub(second_longitudes, first_longitudes);
+    // Reduced latitudes: tan(U) = (1-f) * tan(lat)
+    v128_t one_minus_f = wasm_f64x2_sub(one, flattening);
+    v128_t tan_first = wasm_f64x2_div(nk_f64x2_sin_v128relaxed_(first_latitudes),
+                                      nk_f64x2_cos_v128relaxed_(first_latitudes));
+    v128_t tan_second = wasm_f64x2_div(nk_f64x2_sin_v128relaxed_(second_latitudes),
+                                       nk_f64x2_cos_v128relaxed_(second_latitudes));
+    v128_t tan_reduced_first = wasm_f64x2_mul(one_minus_f, tan_first);
+    v128_t tan_reduced_second = wasm_f64x2_mul(one_minus_f, tan_second);
+    // cos(U) = 1/sqrt(1 + tan^2(U)), sin(U) = tan(U) * cos(U)
+    v128_t cos_reduced_first = wasm_f64x2_div(
+        one, wasm_f64x2_sqrt(wasm_f64x2_relaxed_madd(tan_reduced_first, tan_reduced_first, one)));
+    v128_t sin_reduced_first = wasm_f64x2_mul(tan_reduced_first, cos_reduced_first);
+    v128_t cos_reduced_second = wasm_f64x2_div(
+        one, wasm_f64x2_sqrt(wasm_f64x2_relaxed_madd(tan_reduced_second, tan_reduced_second, one)));
+    v128_t sin_reduced_second = wasm_f64x2_mul(tan_reduced_second, cos_reduced_second);
+    // Initialize lambda and tracking variables
+    v128_t lambda = longitude_difference;
+    v128_t sin_angular_distance, cos_angular_distance, angular_distance;
+    v128_t sin_azimuth, cos_squared_azimuth, cos_double_angular_midpoint;
+    // Track convergence and coincident points using masks
+    v128_t converged_mask = wasm_i64x2_splat(0);
+    v128_t coincident_mask = wasm_i64x2_splat(0);
+    for (nk_u32_t iteration = 0; iteration < NK_VINCENTY_MAX_ITERATIONS; ++iteration) {
+        // Check if all lanes converged
+        if (wasm_i8x16_all_true(converged_mask)) break;
+        v128_t sin_lambda = nk_f64x2_sin_v128relaxed_(lambda);
+        v128_t cos_lambda = nk_f64x2_cos_v128relaxed_(lambda);
+        // sin^2(angular_distance) = (cos(U2) * sin(l))^2 + (cos(U1) * sin(U2) - sin(U1) * cos(U2) * cos(l))^2
+        v128_t cross_term = wasm_f64x2_mul(cos_reduced_second, sin_lambda);
+        v128_t mixed_term = wasm_f64x2_sub(
+            wasm_f64x2_mul(cos_reduced_first, sin_reduced_second),
+            wasm_f64x2_mul(wasm_f64x2_mul(sin_reduced_first, cos_reduced_second), cos_lambda));
+        v128_t sin_angular_dist_sq = wasm_f64x2_relaxed_madd(cross_term, cross_term,
+                                                             wasm_f64x2_mul(mixed_term, mixed_term));
+        sin_angular_distance = wasm_f64x2_sqrt(sin_angular_dist_sq);
+        // Check for coincident points (sin_angular_distance ~ 0)
+        coincident_mask = wasm_f64x2_lt(sin_angular_distance, epsilon);
+        // cos(angular_distance) = sin(U1) * sin(U2) + cos(U1) * cos(U2) * cos(l)
+        cos_angular_distance = wasm_f64x2_relaxed_madd(wasm_f64x2_mul(cos_reduced_first, cos_reduced_second),
+                                                       cos_lambda,
+                                                       wasm_f64x2_mul(sin_reduced_first, sin_reduced_second));
+        // angular_distance = atan2(sin, cos)
+        angular_distance = nk_f64x2_atan2_v128relaxed_(sin_angular_distance, cos_angular_distance);
+        // sin(azimuth) = cos(U1) * cos(U2) * sin(l) / sin(angular_distance)
+        // Avoid division by zero by using blending
+        // relaxed_laneselect: 1 instruction (vblendvpd) vs 3 (vpand+vpandn+vpor) on x86.
+        // Safe because mask is from comparison (all-ones or all-zeros per lane).
+        v128_t safe_sin_angular = wasm_i64x2_relaxed_laneselect(one, sin_angular_distance, coincident_mask);
+        sin_azimuth = wasm_f64x2_div(wasm_f64x2_mul(wasm_f64x2_mul(cos_reduced_first, cos_reduced_second), sin_lambda),
+                                     safe_sin_angular);
+        cos_squared_azimuth = wasm_f64x2_relaxed_nmadd(sin_azimuth, sin_azimuth, one);
+        // Handle equatorial case: cos^2(a) ~ 0
+        v128_t equatorial_mask = wasm_f64x2_lt(cos_squared_azimuth, epsilon);
+        v128_t safe_cos_sq_azimuth = wasm_i64x2_relaxed_laneselect(one, cos_squared_azimuth, equatorial_mask);
+        // cos(2sm) = cos(s) - 2 * sin(U1) * sin(U2) / cos^2(a)
+        v128_t sin_product = wasm_f64x2_mul(sin_reduced_first, sin_reduced_second);
+        cos_double_angular_midpoint = wasm_f64x2_sub(
+            cos_angular_distance, wasm_f64x2_div(wasm_f64x2_mul(two, sin_product), safe_cos_sq_azimuth));
+        cos_double_angular_midpoint = wasm_i64x2_relaxed_laneselect(wasm_f64x2_splat(0.0), cos_double_angular_midpoint,
+                                                                    equatorial_mask);
+        // C = f/16 * cos^2(a) * (4 + f*(4 - 3*cos^2(a)))
+        v128_t correction_factor = wasm_f64x2_mul(
+            wasm_f64x2_div(flattening, sixteen),
+            wasm_f64x2_mul(
+                cos_squared_azimuth,
+                wasm_f64x2_relaxed_madd(flattening, wasm_f64x2_relaxed_nmadd(three, cos_squared_azimuth, four), four)));
+        // l' = L + (1-C) * f * sin(a) * (s + C * sin(s) * (cos(2sm) + C * cos(s) * (-1 + 2 * cos^2(2sm))))
+        v128_t cos_2sm_sq = wasm_f64x2_mul(cos_double_angular_midpoint, cos_double_angular_midpoint);
+        // innermost = -1 + 2 * cos^2(2sm)
+        v128_t innermost = wasm_f64x2_relaxed_madd(two, cos_2sm_sq, wasm_f64x2_splat(-1.0));
+        // middle = cos(2sm) + C * cos(s) * innermost
+        v128_t middle = wasm_f64x2_relaxed_madd(wasm_f64x2_mul(correction_factor, cos_angular_distance), innermost,
+                                                cos_double_angular_midpoint);
+        // inner = C * sin(s) * middle
+        v128_t inner = wasm_f64x2_mul(wasm_f64x2_mul(correction_factor, sin_angular_distance), middle);
+        // l' = L + (1-C) * f * sin_a * (s + inner)
+        v128_t lambda_new = wasm_f64x2_relaxed_madd(
+            wasm_f64x2_mul(wasm_f64x2_mul(wasm_f64x2_sub(one, correction_factor), flattening), sin_azimuth),
+            wasm_f64x2_add(angular_distance, inner), longitude_difference);
+        // Check convergence: |l - l'| < threshold
+        v128_t lambda_diff = wasm_f64x2_sub(lambda_new, lambda);
+        v128_t lambda_diff_abs = wasm_f64x2_abs(lambda_diff);
+        v128_t newly_converged = wasm_f64x2_lt(lambda_diff_abs, convergence_threshold);
+        converged_mask = wasm_v128_or(converged_mask, newly_converged);
+        // Only update lambda for non-converged lanes
+        // relaxed_laneselect: 1 instruction (vblendvpd) vs 3 (vpand+vpandn+vpor) on x86.
+        // Safe because mask is from comparison (all-ones or all-zeros per lane).
+        lambda = wasm_i64x2_relaxed_laneselect(lambda, lambda_new, converged_mask);
+    }
+    // Final distance calculation
+    // u^2 = cos^2(a) * (a^2 - b^2) / b^2
+    v128_t a_sq = wasm_f64x2_mul(equatorial_radius, equatorial_radius);
+    v128_t b_sq = wasm_f64x2_mul(polar_radius, polar_radius);
+    v128_t u_squared = wasm_f64x2_div(wasm_f64x2_mul(cos_squared_azimuth, wasm_f64x2_sub(a_sq, b_sq)), b_sq);
+    // A = 1 + u^2/16384 * (4096 + u^2*(-768 + u^2*(320 - 175*u^2)))
+    v128_t series_a = wasm_f64x2_relaxed_madd(u_squared, wasm_f64x2_splat(-175.0), wasm_f64x2_splat(320.0));
+    series_a = wasm_f64x2_relaxed_madd(u_squared, series_a, wasm_f64x2_splat(-768.0));
+    series_a = wasm_f64x2_relaxed_madd(u_squared, series_a, wasm_f64x2_splat(4096.0));
+    series_a = wasm_f64x2_relaxed_madd(wasm_f64x2_div(u_squared, wasm_f64x2_splat(16384.0)), series_a, one);
+    // B = u^2/1024 * (256 + u^2*(-128 + u^2*(74 - 47*u^2)))
+    v128_t series_b = wasm_f64x2_relaxed_madd(u_squared, wasm_f64x2_splat(-47.0), wasm_f64x2_splat(74.0));
+    series_b = wasm_f64x2_relaxed_madd(u_squared, series_b, wasm_f64x2_splat(-128.0));
+    series_b = wasm_f64x2_relaxed_madd(u_squared, series_b, wasm_f64x2_splat(256.0));
+    series_b = wasm_f64x2_mul(wasm_f64x2_div(u_squared, wasm_f64x2_splat(1024.0)), series_b);
+    // Delta-sigma calculation
+    v128_t cos_2sm_sq = wasm_f64x2_mul(cos_double_angular_midpoint, cos_double_angular_midpoint);
+    v128_t sin_sq = wasm_f64x2_mul(sin_angular_distance, sin_angular_distance);
+    v128_t term1 = wasm_f64x2_relaxed_madd(two, cos_2sm_sq, wasm_f64x2_splat(-1.0));
+    term1 = wasm_f64x2_mul(cos_angular_distance, term1);
+    v128_t term2 = wasm_f64x2_relaxed_madd(four, sin_sq, wasm_f64x2_splat(-3.0));
+    v128_t term3 = wasm_f64x2_relaxed_madd(four, cos_2sm_sq, wasm_f64x2_splat(-3.0));
+    term2 = wasm_f64x2_mul(wasm_f64x2_mul(wasm_f64x2_div(series_b, six), cos_double_angular_midpoint),
+                           wasm_f64x2_mul(term2, term3));
+    v128_t delta_sigma = wasm_f64x2_mul(
+        series_b, wasm_f64x2_mul(sin_angular_distance, wasm_f64x2_add(cos_double_angular_midpoint,
+                                                                      wasm_f64x2_mul(wasm_f64x2_div(series_b, four),
+                                                                                     wasm_f64x2_sub(term1, term2)))));
+    // s = b * A * (s - ds)
+    v128_t distances = wasm_f64x2_mul(wasm_f64x2_mul(polar_radius, series_a),
+                                      wasm_f64x2_sub(angular_distance, delta_sigma));
+    // Set coincident points to zero
+    // relaxed_laneselect: 1 instruction (vblendvpd) vs 3 (vpand+vpandn+vpor) on x86.
+    // Safe because mask is from comparison (all-ones or all-zeros per lane).
+    distances = wasm_i64x2_relaxed_laneselect(wasm_f64x2_splat(0.0), distances, coincident_mask);
+    return distances;
+}
+NK_PUBLIC void nk_vincenty_f64_v128relaxed(         //
+    nk_f64_t const *a_lats, nk_f64_t const *a_lons, //
+    nk_f64_t const *b_lats, nk_f64_t const *b_lons, //
+    nk_size_t n, nk_f64_t *results) {
+    while (n >= 2) {
+        v128_t first_latitudes = wasm_v128_load(a_lats);
+        v128_t first_longitudes = wasm_v128_load(a_lons);
+        v128_t second_latitudes = wasm_v128_load(b_lats);
+        v128_t second_longitudes = wasm_v128_load(b_lons);
+        v128_t distances = nk_vincenty_f64x2_v128relaxed_(first_latitudes, first_longitudes, second_latitudes,
+                                                          second_longitudes);
+        wasm_v128_store(results, distances);
+        a_lats += 2, a_lons += 2, b_lats += 2, b_lons += 2, results += 2, n -= 2;
+    }
+    // Handle remaining elements with partial loads (n can only be 0 or 1 here)
+    if (n > 0) {
+        nk_b128_vec_t a_lat_vec, a_lon_vec, b_lat_vec, b_lon_vec, result_vec;
+        nk_partial_load_b64x2_serial_(a_lats, &a_lat_vec, n);
+        nk_partial_load_b64x2_serial_(a_lons, &a_lon_vec, n);
+        nk_partial_load_b64x2_serial_(b_lats, &b_lat_vec, n);
+        nk_partial_load_b64x2_serial_(b_lons, &b_lon_vec, n);
+        v128_t distances = nk_vincenty_f64x2_v128relaxed_(a_lat_vec.v128, a_lon_vec.v128, b_lat_vec.v128,
+                                                          b_lon_vec.v128);
+        result_vec.v128 = distances;
+        nk_partial_store_b64x2_serial_(&result_vec, results, n);
+    }
+}
+/**
+ *  @brief  WASM Relaxed SIMD helper for Vincenty's geodesic distance on 4 f32 point pairs.
+ *  @note   This is a true SIMD implementation using masked convergence tracking via blending.
+ */
+NK_INTERNAL v128_t nk_vincenty_f32x4_v128relaxed_(   //
+    v128_t first_latitudes, v128_t first_longitudes, //
+    v128_t second_latitudes, v128_t second_longitudes) {
+    v128_t const equatorial_radius = wasm_f32x4_splat((float)NK_EARTH_ELLIPSOID_EQUATORIAL_RADIUS);
+    v128_t const polar_radius = wasm_f32x4_splat((float)NK_EARTH_ELLIPSOID_POLAR_RADIUS);
+    v128_t const flattening = wasm_f32x4_splat(1.0f / (float)NK_EARTH_ELLIPSOID_INVERSE_FLATTENING);
+    v128_t const convergence_threshold = wasm_f32x4_splat(NK_VINCENTY_CONVERGENCE_THRESHOLD_F32);
+    v128_t const one = wasm_f32x4_splat(1.0f);
+    v128_t const two = wasm_f32x4_splat(2.0f);
+    v128_t const three = wasm_f32x4_splat(3.0f);
+    v128_t const four = wasm_f32x4_splat(4.0f);
+    v128_t const six = wasm_f32x4_splat(6.0f);
+    v128_t const sixteen = wasm_f32x4_splat(16.0f);
+    v128_t const epsilon = wasm_f32x4_splat(1e-7f);
+    // Longitude difference
+    v128_t longitude_difference = wasm_f32x4_sub(second_longitudes, first_longitudes);
+    // Reduced latitudes: tan(U) = (1-f) * tan(lat)
+    v128_t one_minus_f = wasm_f32x4_sub(one, flattening);
+    v128_t tan_first = wasm_f32x4_div(nk_f32x4_sin_v128relaxed_(first_latitudes),
+                                      nk_f32x4_cos_v128relaxed_(first_latitudes));
+    v128_t tan_second = wasm_f32x4_div(nk_f32x4_sin_v128relaxed_(second_latitudes),
+                                       nk_f32x4_cos_v128relaxed_(second_latitudes));
+    v128_t tan_reduced_first = wasm_f32x4_mul(one_minus_f, tan_first);
+    v128_t tan_reduced_second = wasm_f32x4_mul(one_minus_f, tan_second);
+    // cos(U) = 1/sqrt(1 + tan^2(U)), sin(U) = tan(U) * cos(U)
+    v128_t cos_reduced_first = wasm_f32x4_div(
+        one, wasm_f32x4_sqrt(wasm_f32x4_relaxed_madd(tan_reduced_first, tan_reduced_first, one)));
+    v128_t sin_reduced_first = wasm_f32x4_mul(tan_reduced_first, cos_reduced_first);
+    v128_t cos_reduced_second = wasm_f32x4_div(
+        one, wasm_f32x4_sqrt(wasm_f32x4_relaxed_madd(tan_reduced_second, tan_reduced_second, one)));
+    v128_t sin_reduced_second = wasm_f32x4_mul(tan_reduced_second, cos_reduced_second);
+    // Initialize lambda and tracking variables
+    v128_t lambda = longitude_difference;
+    v128_t sin_angular_distance, cos_angular_distance, angular_distance;
+    v128_t sin_azimuth, cos_squared_azimuth, cos_double_angular_midpoint;
+    // Track convergence and coincident points using masks
+    v128_t converged_mask = wasm_i32x4_splat(0);
+    v128_t coincident_mask = wasm_i32x4_splat(0);
+    for (nk_u32_t iteration = 0; iteration < NK_VINCENTY_MAX_ITERATIONS; ++iteration) {
+        // Check if all lanes converged
+        if (wasm_i8x16_all_true(converged_mask)) break;
+        v128_t sin_lambda = nk_f32x4_sin_v128relaxed_(lambda);
+        v128_t cos_lambda = nk_f32x4_cos_v128relaxed_(lambda);
+        // sin^2(angular_distance) = (cos(U2) * sin(l))^2 + (cos(U1) * sin(U2) - sin(U1) * cos(U2) * cos(l))^2
+        v128_t cross_term = wasm_f32x4_mul(cos_reduced_second, sin_lambda);
+        v128_t mixed_term = wasm_f32x4_sub(
+            wasm_f32x4_mul(cos_reduced_first, sin_reduced_second),
+            wasm_f32x4_mul(wasm_f32x4_mul(sin_reduced_first, cos_reduced_second), cos_lambda));
+        v128_t sin_angular_dist_sq = wasm_f32x4_relaxed_madd(cross_term, cross_term,
+                                                             wasm_f32x4_mul(mixed_term, mixed_term));
+        sin_angular_distance = wasm_f32x4_sqrt(sin_angular_dist_sq);
+        // Check for coincident points (sin_angular_distance ~ 0)
+        coincident_mask = wasm_f32x4_lt(sin_angular_distance, epsilon);
+        // cos(angular_distance) = sin(U1) * sin(U2) + cos(U1) * cos(U2) * cos(l)
+        cos_angular_distance = wasm_f32x4_relaxed_madd(wasm_f32x4_mul(cos_reduced_first, cos_reduced_second),
+                                                       cos_lambda,
+                                                       wasm_f32x4_mul(sin_reduced_first, sin_reduced_second));
+        // angular_distance = atan2(sin, cos)
+        angular_distance = nk_f32x4_atan2_v128relaxed_(sin_angular_distance, cos_angular_distance);
+        // sin(azimuth) = cos(U1) * cos(U2) * sin(l) / sin(angular_distance)
+        // relaxed_laneselect: 1 instruction (vblendvps) vs 3 (vpand+vpandn+vpor) on x86.
+        // Safe because mask is from comparison (all-ones or all-zeros per lane).
+        v128_t safe_sin_angular = wasm_i32x4_relaxed_laneselect(one, sin_angular_distance, coincident_mask);
+        sin_azimuth = wasm_f32x4_div(wasm_f32x4_mul(wasm_f32x4_mul(cos_reduced_first, cos_reduced_second), sin_lambda),
+                                     safe_sin_angular);
+        cos_squared_azimuth = wasm_f32x4_relaxed_nmadd(sin_azimuth, sin_azimuth, one);
+        // Handle equatorial case: cos^2(a) ~ 0
+        v128_t equatorial_mask = wasm_f32x4_lt(cos_squared_azimuth, epsilon);
+        v128_t safe_cos_sq_azimuth = wasm_i32x4_relaxed_laneselect(one, cos_squared_azimuth, equatorial_mask);
+        // cos(2sm) = cos(s) - 2 * sin(U1) * sin(U2) / cos^2(a)
+        v128_t sin_product = wasm_f32x4_mul(sin_reduced_first, sin_reduced_second);
+        cos_double_angular_midpoint = wasm_f32x4_sub(
+            cos_angular_distance, wasm_f32x4_div(wasm_f32x4_mul(two, sin_product), safe_cos_sq_azimuth));
+        cos_double_angular_midpoint = wasm_i32x4_relaxed_laneselect(wasm_f32x4_splat(0.0f), cos_double_angular_midpoint,
+                                                                    equatorial_mask);
+        // C = f/16 * cos^2(a) * (4 + f*(4 - 3*cos^2(a)))
+        v128_t correction_factor = wasm_f32x4_mul(
+            wasm_f32x4_div(flattening, sixteen),
+            wasm_f32x4_mul(
+                cos_squared_azimuth,
+                wasm_f32x4_relaxed_madd(flattening, wasm_f32x4_relaxed_nmadd(three, cos_squared_azimuth, four), four)));
+        // l' = L + (1-C) * f * sin(a) * (s + C * sin(s) * (cos(2sm) + C * cos(s) * (-1 + 2 * cos^2(2sm))))
+        v128_t cos_2sm_sq = wasm_f32x4_mul(cos_double_angular_midpoint, cos_double_angular_midpoint);
+        v128_t innermost = wasm_f32x4_relaxed_madd(two, cos_2sm_sq, wasm_f32x4_splat(-1.0f));
+        v128_t middle = wasm_f32x4_relaxed_madd(wasm_f32x4_mul(correction_factor, cos_angular_distance), innermost,
+                                                cos_double_angular_midpoint);
+        v128_t inner = wasm_f32x4_mul(wasm_f32x4_mul(correction_factor, sin_angular_distance), middle);
+        v128_t lambda_new = wasm_f32x4_relaxed_madd(
+            wasm_f32x4_mul(wasm_f32x4_mul(wasm_f32x4_sub(one, correction_factor), flattening), sin_azimuth),
+            wasm_f32x4_add(angular_distance, inner), longitude_difference);
+        // Check convergence: |l - l'| < threshold
+        v128_t lambda_diff = wasm_f32x4_sub(lambda_new, lambda);
+        v128_t lambda_diff_abs = wasm_f32x4_abs(lambda_diff);
+        v128_t newly_converged = wasm_f32x4_lt(lambda_diff_abs, convergence_threshold);
+        converged_mask = wasm_v128_or(converged_mask, newly_converged);
+        // Only update lambda for non-converged lanes
+        // relaxed_laneselect: 1 instruction (vblendvps) vs 3 (vpand+vpandn+vpor) on x86.
+        // Safe because mask is from comparison (all-ones or all-zeros per lane).
+        lambda = wasm_i32x4_relaxed_laneselect(lambda, lambda_new, converged_mask);
+    }
+    // Final distance calculation
+    v128_t a_sq = wasm_f32x4_mul(equatorial_radius, equatorial_radius);
+    v128_t b_sq = wasm_f32x4_mul(polar_radius, polar_radius);
+    v128_t u_squared = wasm_f32x4_div(wasm_f32x4_mul(cos_squared_azimuth, wasm_f32x4_sub(a_sq, b_sq)), b_sq);
+    // A = 1 + u^2/16384 * (4096 + u^2*(-768 + u^2*(320 - 175*u^2)))
+    v128_t series_a = wasm_f32x4_relaxed_madd(u_squared, wasm_f32x4_splat(-175.0f), wasm_f32x4_splat(320.0f));
+    series_a = wasm_f32x4_relaxed_madd(u_squared, series_a, wasm_f32x4_splat(-768.0f));
+    series_a = wasm_f32x4_relaxed_madd(u_squared, series_a, wasm_f32x4_splat(4096.0f));
+    series_a = wasm_f32x4_relaxed_madd(wasm_f32x4_div(u_squared, wasm_f32x4_splat(16384.0f)), series_a, one);
+    // B = u^2/1024 * (256 + u^2*(-128 + u^2*(74 - 47*u^2)))
+    v128_t series_b = wasm_f32x4_relaxed_madd(u_squared, wasm_f32x4_splat(-47.0f), wasm_f32x4_splat(74.0f));
+    series_b = wasm_f32x4_relaxed_madd(u_squared, series_b, wasm_f32x4_splat(-128.0f));
+    series_b = wasm_f32x4_relaxed_madd(u_squared, series_b, wasm_f32x4_splat(256.0f));
+    series_b = wasm_f32x4_mul(wasm_f32x4_div(u_squared, wasm_f32x4_splat(1024.0f)), series_b);
+    // Delta-sigma calculation
+    v128_t cos_2sm_sq = wasm_f32x4_mul(cos_double_angular_midpoint, cos_double_angular_midpoint);
+    v128_t sin_sq = wasm_f32x4_mul(sin_angular_distance, sin_angular_distance);
+    v128_t term1 = wasm_f32x4_relaxed_madd(two, cos_2sm_sq, wasm_f32x4_splat(-1.0f));
+    term1 = wasm_f32x4_mul(cos_angular_distance, term1);
+    v128_t term2 = wasm_f32x4_relaxed_madd(four, sin_sq, wasm_f32x4_splat(-3.0f));
+    v128_t term3 = wasm_f32x4_relaxed_madd(four, cos_2sm_sq, wasm_f32x4_splat(-3.0f));
+    term2 = wasm_f32x4_mul(wasm_f32x4_mul(wasm_f32x4_div(series_b, six), cos_double_angular_midpoint),
+                           wasm_f32x4_mul(term2, term3));
+    v128_t delta_sigma = wasm_f32x4_mul(
+        series_b, wasm_f32x4_mul(sin_angular_distance, wasm_f32x4_add(cos_double_angular_midpoint,
+                                                                      wasm_f32x4_mul(wasm_f32x4_div(series_b, four),
+                                                                                     wasm_f32x4_sub(term1, term2)))));
+    // s = b * A * (s - ds)
+    v128_t distances = wasm_f32x4_mul(wasm_f32x4_mul(polar_radius, series_a),
+                                      wasm_f32x4_sub(angular_distance, delta_sigma));
+    // Set coincident points to zero
+    // relaxed_laneselect: 1 instruction (vblendvps) vs 3 (vpand+vpandn+vpor) on x86.
+    // Safe because mask is from comparison (all-ones or all-zeros per lane).
+    distances = wasm_i32x4_relaxed_laneselect(wasm_f32x4_splat(0.0f), distances, coincident_mask);
+    return distances;
+}
+NK_PUBLIC void nk_vincenty_f32_v128relaxed(         //
+    nk_f32_t const *a_lats, nk_f32_t const *a_lons, //
+    nk_f32_t const *b_lats, nk_f32_t const *b_lons, //
+    nk_size_t n, nk_f32_t *results) {
+    while (n >= 4) {
+        v128_t first_latitudes = wasm_v128_load(a_lats);
+        v128_t first_longitudes = wasm_v128_load(a_lons);
+        v128_t second_latitudes = wasm_v128_load(b_lats);
+        v128_t second_longitudes = wasm_v128_load(b_lons);
+        v128_t distances = nk_vincenty_f32x4_v128relaxed_(first_latitudes, first_longitudes, second_latitudes,
+                                                          second_longitudes);
+        wasm_v128_store(results, distances);
+        a_lats += 4, a_lons += 4, b_lats += 4, b_lons += 4, results += 4, n -= 4;
+    }
+    // Handle remaining elements with partial loads (n can be 1-3 here)
+    if (n > 0) {
+        nk_b128_vec_t a_lat_vec, a_lon_vec, b_lat_vec, b_lon_vec, result_vec;
+        nk_partial_load_b32x4_serial_(a_lats, &a_lat_vec, n);
+        nk_partial_load_b32x4_serial_(a_lons, &a_lon_vec, n);
+        nk_partial_load_b32x4_serial_(b_lats, &b_lat_vec, n);
+        nk_partial_load_b32x4_serial_(b_lons, &b_lon_vec, n);
+        v128_t distances = nk_vincenty_f32x4_v128relaxed_(a_lat_vec.v128, a_lon_vec.v128, b_lat_vec.v128,
+                                                          b_lon_vec.v128);
+        result_vec.v128 = distances;
+        nk_partial_store_b32x4_serial_(&result_vec, results, n);
+    }
+}
+#if defined(__clang__)
+#pragma clang attribute pop
+#endif
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#endif // NK_TARGET_V128RELAXED
+#endif // NK_GEOSPATIAL_V128RELAXED_H