npm - numkong - Versions diffs - 7.0.0 → 7.4.1 - Mend

numkong 7.0.0 → 7.4.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (315) hide show

package/README.md +239 -122
package/binding.gyp +25 -491
package/c/dispatch_bf16.c +59 -1
package/c/dispatch_e2m3.c +41 -8
package/c/dispatch_e3m2.c +49 -8
package/c/dispatch_e4m3.c +51 -9
package/c/dispatch_e5m2.c +45 -1
package/c/dispatch_f16.c +79 -26
package/c/dispatch_f16c.c +5 -5
package/c/dispatch_f32.c +56 -0
package/c/dispatch_f64.c +52 -0
package/c/dispatch_i4.c +3 -0
package/c/dispatch_i8.c +62 -3
package/c/dispatch_other.c +18 -0
package/c/dispatch_u1.c +54 -9
package/c/dispatch_u4.c +3 -0
package/c/dispatch_u8.c +64 -3
package/c/numkong.c +3 -0
package/include/README.md +79 -9
package/include/numkong/attention/sapphireamx.h +278 -276
package/include/numkong/attention/sme.h +983 -977
package/include/numkong/attention.h +1 -1
package/include/numkong/capabilities.h +289 -94
package/include/numkong/cast/README.md +40 -40
package/include/numkong/cast/diamond.h +64 -0
package/include/numkong/cast/haswell.h +42 -194
package/include/numkong/cast/icelake.h +42 -37
package/include/numkong/cast/loongsonasx.h +252 -0
package/include/numkong/cast/neon.h +216 -249
package/include/numkong/cast/powervsx.h +449 -0
package/include/numkong/cast/rvv.h +223 -274
package/include/numkong/cast/sapphire.h +18 -18
package/include/numkong/cast/serial.h +1018 -944
package/include/numkong/cast/skylake.h +82 -23
package/include/numkong/cast/v128relaxed.h +462 -105
package/include/numkong/cast.h +24 -0
package/include/numkong/cast.hpp +44 -0
package/include/numkong/curved/README.md +17 -17
package/include/numkong/curved/neon.h +131 -7
package/include/numkong/curved/neonbfdot.h +6 -7
package/include/numkong/curved/rvv.h +26 -26
package/include/numkong/curved/smef64.h +186 -182
package/include/numkong/curved.h +14 -18
package/include/numkong/dot/README.md +154 -137
package/include/numkong/dot/alder.h +43 -43
package/include/numkong/dot/diamond.h +158 -0
package/include/numkong/dot/genoa.h +4 -30
package/include/numkong/dot/haswell.h +215 -180
package/include/numkong/dot/icelake.h +190 -76
package/include/numkong/dot/loongsonasx.h +671 -0
package/include/numkong/dot/neon.h +124 -73
package/include/numkong/dot/neonbfdot.h +11 -12
package/include/numkong/dot/neonfhm.h +44 -46
package/include/numkong/dot/neonfp8.h +323 -0
package/include/numkong/dot/neonsdot.h +190 -76
package/include/numkong/dot/powervsx.h +752 -0
package/include/numkong/dot/rvv.h +92 -84
package/include/numkong/dot/rvvbf16.h +12 -12
package/include/numkong/dot/rvvhalf.h +12 -12
package/include/numkong/dot/sapphire.h +4 -4
package/include/numkong/dot/serial.h +66 -30
package/include/numkong/dot/sierra.h +31 -31
package/include/numkong/dot/skylake.h +142 -110
package/include/numkong/dot/sve.h +217 -177
package/include/numkong/dot/svebfdot.h +10 -10
package/include/numkong/dot/svehalf.h +85 -41
package/include/numkong/dot/svesdot.h +89 -0
package/include/numkong/dot/v128relaxed.h +124 -89
package/include/numkong/dot.h +114 -48
package/include/numkong/dots/README.md +203 -203
package/include/numkong/dots/alder.h +12 -9
package/include/numkong/dots/diamond.h +86 -0
package/include/numkong/dots/genoa.h +10 -4
package/include/numkong/dots/haswell.h +63 -48
package/include/numkong/dots/icelake.h +27 -18
package/include/numkong/dots/loongsonasx.h +176 -0
package/include/numkong/dots/neon.h +14 -11
package/include/numkong/dots/neonbfdot.h +4 -3
package/include/numkong/dots/neonfhm.h +11 -9
package/include/numkong/dots/neonfp8.h +99 -0
package/include/numkong/dots/neonsdot.h +48 -12
package/include/numkong/dots/powervsx.h +194 -0
package/include/numkong/dots/rvv.h +451 -344
package/include/numkong/dots/sapphireamx.h +1028 -984
package/include/numkong/dots/serial.h +213 -197
package/include/numkong/dots/sierra.h +10 -7
package/include/numkong/dots/skylake.h +47 -36
package/include/numkong/dots/sme.h +2001 -2364
package/include/numkong/dots/smebi32.h +175 -162
package/include/numkong/dots/smef64.h +328 -323
package/include/numkong/dots/v128relaxed.h +64 -41
package/include/numkong/dots.h +573 -293
package/include/numkong/dots.hpp +45 -43
package/include/numkong/each/README.md +133 -137
package/include/numkong/each/haswell.h +6 -6
package/include/numkong/each/icelake.h +7 -7
package/include/numkong/each/neon.h +76 -42
package/include/numkong/each/neonbfdot.h +11 -12
package/include/numkong/each/neonhalf.h +24 -116
package/include/numkong/each/rvv.h +28 -28
package/include/numkong/each/sapphire.h +27 -161
package/include/numkong/each/serial.h +6 -6
package/include/numkong/each/skylake.h +7 -7
package/include/numkong/each/v128relaxed.h +562 -0
package/include/numkong/each.h +148 -62
package/include/numkong/each.hpp +2 -2
package/include/numkong/geospatial/README.md +18 -18
package/include/numkong/geospatial/haswell.h +365 -325
package/include/numkong/geospatial/neon.h +350 -306
package/include/numkong/geospatial/rvv.h +4 -4
package/include/numkong/geospatial/skylake.h +376 -340
package/include/numkong/geospatial/v128relaxed.h +366 -327
package/include/numkong/geospatial.h +17 -17
package/include/numkong/matrix.hpp +4 -4
package/include/numkong/maxsim/README.md +14 -14
package/include/numkong/maxsim/alder.h +6 -6
package/include/numkong/maxsim/genoa.h +4 -4
package/include/numkong/maxsim/haswell.h +6 -6
package/include/numkong/maxsim/icelake.h +18 -18
package/include/numkong/maxsim/neonsdot.h +21 -21
package/include/numkong/maxsim/sapphireamx.h +14 -14
package/include/numkong/maxsim/serial.h +6 -6
package/include/numkong/maxsim/sme.h +221 -196
package/include/numkong/maxsim/v128relaxed.h +6 -6
package/include/numkong/mesh/README.md +62 -56
package/include/numkong/mesh/haswell.h +339 -464
package/include/numkong/mesh/neon.h +1100 -519
package/include/numkong/mesh/neonbfdot.h +36 -68
package/include/numkong/mesh/rvv.h +530 -435
package/include/numkong/mesh/serial.h +75 -91
package/include/numkong/mesh/skylake.h +1627 -302
package/include/numkong/mesh/v128relaxed.h +443 -330
package/include/numkong/mesh.h +63 -49
package/include/numkong/mesh.hpp +4 -4
package/include/numkong/numkong.h +3 -3
package/include/numkong/numkong.hpp +1 -0
package/include/numkong/probability/README.md +23 -19
package/include/numkong/probability/neon.h +82 -52
package/include/numkong/probability/rvv.h +28 -23
package/include/numkong/probability/serial.h +51 -39
package/include/numkong/probability.h +20 -23
package/include/numkong/random.h +1 -1
package/include/numkong/reduce/README.md +143 -138
package/include/numkong/reduce/alder.h +81 -77
package/include/numkong/reduce/haswell.h +222 -220
package/include/numkong/reduce/neon.h +629 -519
package/include/numkong/reduce/neonbfdot.h +7 -218
package/include/numkong/reduce/neonfhm.h +9 -381
package/include/numkong/reduce/neonsdot.h +9 -9
package/include/numkong/reduce/rvv.h +928 -802
package/include/numkong/reduce/serial.h +23 -27
package/include/numkong/reduce/sierra.h +20 -20
package/include/numkong/reduce/skylake.h +326 -324
package/include/numkong/reduce/v128relaxed.h +52 -52
package/include/numkong/reduce.h +4 -23
package/include/numkong/reduce.hpp +156 -11
package/include/numkong/scalar/README.md +6 -6
package/include/numkong/scalar/haswell.h +26 -17
package/include/numkong/scalar/loongsonasx.h +74 -0
package/include/numkong/scalar/neon.h +9 -9
package/include/numkong/scalar/powervsx.h +96 -0
package/include/numkong/scalar/rvv.h +2 -2
package/include/numkong/scalar/sapphire.h +21 -10
package/include/numkong/scalar/serial.h +21 -21
package/include/numkong/scalar.h +13 -0
package/include/numkong/set/README.md +28 -28
package/include/numkong/set/haswell.h +12 -12
package/include/numkong/set/icelake.h +14 -14
package/include/numkong/set/loongsonasx.h +181 -0
package/include/numkong/set/neon.h +17 -18
package/include/numkong/set/powervsx.h +326 -0
package/include/numkong/set/rvv.h +4 -4
package/include/numkong/set/serial.h +6 -6
package/include/numkong/set/sve.h +60 -59
package/include/numkong/set/v128relaxed.h +6 -6
package/include/numkong/set.h +21 -7
package/include/numkong/sets/README.md +26 -26
package/include/numkong/sets/loongsonasx.h +52 -0
package/include/numkong/sets/powervsx.h +65 -0
package/include/numkong/sets/smebi32.h +395 -364
package/include/numkong/sets.h +83 -40
package/include/numkong/sparse/README.md +4 -4
package/include/numkong/sparse/icelake.h +101 -101
package/include/numkong/sparse/serial.h +1 -1
package/include/numkong/sparse/sve2.h +137 -141
package/include/numkong/sparse/turin.h +12 -12
package/include/numkong/sparse.h +10 -10
package/include/numkong/spatial/README.md +230 -226
package/include/numkong/spatial/alder.h +113 -116
package/include/numkong/spatial/diamond.h +240 -0
package/include/numkong/spatial/genoa.h +0 -68
package/include/numkong/spatial/haswell.h +74 -55
package/include/numkong/spatial/icelake.h +539 -58
package/include/numkong/spatial/loongsonasx.h +483 -0
package/include/numkong/spatial/neon.h +125 -52
package/include/numkong/spatial/neonbfdot.h +8 -9
package/include/numkong/spatial/neonfp8.h +258 -0
package/include/numkong/spatial/neonsdot.h +180 -12
package/include/numkong/spatial/powervsx.h +738 -0
package/include/numkong/spatial/rvv.h +146 -139
package/include/numkong/spatial/rvvbf16.h +17 -12
package/include/numkong/spatial/rvvhalf.h +13 -10
package/include/numkong/spatial/serial.h +13 -12
package/include/numkong/spatial/sierra.h +232 -39
package/include/numkong/spatial/skylake.h +73 -74
package/include/numkong/spatial/sve.h +93 -72
package/include/numkong/spatial/svebfdot.h +29 -29
package/include/numkong/spatial/svehalf.h +52 -26
package/include/numkong/spatial/svesdot.h +142 -0
package/include/numkong/spatial/v128relaxed.h +293 -41
package/include/numkong/spatial.h +338 -82
package/include/numkong/spatials/README.md +194 -194
package/include/numkong/spatials/diamond.h +82 -0
package/include/numkong/spatials/haswell.h +2 -2
package/include/numkong/spatials/loongsonasx.h +153 -0
package/include/numkong/spatials/neonfp8.h +111 -0
package/include/numkong/spatials/neonsdot.h +34 -0
package/include/numkong/spatials/powervsx.h +153 -0
package/include/numkong/spatials/rvv.h +259 -243
package/include/numkong/spatials/sapphireamx.h +173 -173
package/include/numkong/spatials/serial.h +2 -2
package/include/numkong/spatials/skylake.h +2 -2
package/include/numkong/spatials/sme.h +590 -605
package/include/numkong/spatials/smef64.h +139 -130
package/include/numkong/spatials/v128relaxed.h +2 -2
package/include/numkong/spatials.h +820 -500
package/include/numkong/spatials.hpp +49 -48
package/include/numkong/tensor.hpp +406 -17
package/include/numkong/trigonometry/README.md +19 -19
package/include/numkong/trigonometry/haswell.h +402 -401
package/include/numkong/trigonometry/neon.h +386 -387
package/include/numkong/trigonometry/rvv.h +52 -51
package/include/numkong/trigonometry/serial.h +13 -13
package/include/numkong/trigonometry/skylake.h +373 -369
package/include/numkong/trigonometry/v128relaxed.h +375 -374
package/include/numkong/trigonometry.h +13 -13
package/include/numkong/trigonometry.hpp +2 -2
package/include/numkong/types.h +287 -49
package/include/numkong/types.hpp +436 -12
package/include/numkong/vector.hpp +82 -14
package/javascript/dist/cjs/numkong-wasm.js +6 -12
package/javascript/dist/cjs/numkong.d.ts +7 -1
package/javascript/dist/cjs/numkong.js +37 -11
package/javascript/dist/cjs/types.d.ts +9 -0
package/javascript/dist/cjs/types.js +96 -0
package/javascript/dist/esm/numkong-browser.d.ts +14 -0
package/javascript/dist/esm/numkong-browser.js +23 -0
package/javascript/dist/esm/numkong-wasm.js +6 -12
package/javascript/dist/esm/numkong.d.ts +7 -1
package/javascript/dist/esm/numkong.js +37 -11
package/javascript/dist/esm/types.d.ts +9 -0
package/javascript/dist/esm/types.js +96 -0
package/javascript/node-gyp-build.d.ts +4 -1
package/javascript/numkong-browser.ts +40 -0
package/javascript/numkong-wasm.ts +7 -13
package/javascript/numkong.c +5 -26
package/javascript/numkong.ts +36 -11
package/javascript/tsconfig-base.json +1 -0
package/javascript/tsconfig-cjs.json +6 -1
package/javascript/types.ts +110 -0
package/numkong.gypi +101 -0
package/package.json +34 -13
package/probes/arm_neon.c +8 -0
package/probes/arm_neon_bfdot.c +9 -0
package/probes/arm_neon_fhm.c +9 -0
package/probes/arm_neon_half.c +8 -0
package/probes/arm_neon_sdot.c +9 -0
package/probes/arm_neonfp8.c +9 -0
package/probes/arm_sme.c +16 -0
package/probes/arm_sme2.c +16 -0
package/probes/arm_sme2p1.c +16 -0
package/probes/arm_sme_bf16.c +16 -0
package/probes/arm_sme_bi32.c +16 -0
package/probes/arm_sme_f64.c +16 -0
package/probes/arm_sme_fa64.c +14 -0
package/probes/arm_sme_half.c +16 -0
package/probes/arm_sme_lut2.c +15 -0
package/probes/arm_sve.c +18 -0
package/probes/arm_sve2.c +20 -0
package/probes/arm_sve2p1.c +18 -0
package/probes/arm_sve_bfdot.c +20 -0
package/probes/arm_sve_half.c +18 -0
package/probes/arm_sve_sdot.c +21 -0
package/probes/loongarch_lasx.c +12 -0
package/probes/power_vsx.c +12 -0
package/probes/probe.js +127 -0
package/probes/riscv_rvv.c +14 -0
package/probes/riscv_rvv_bb.c +15 -0
package/probes/riscv_rvv_bf16.c +17 -0
package/probes/riscv_rvv_half.c +14 -0
package/probes/wasm_v128relaxed.c +11 -0
package/probes/x86_alder.c +17 -0
package/probes/x86_diamond.c +17 -0
package/probes/x86_genoa.c +17 -0
package/probes/x86_graniteamx.c +19 -0
package/probes/x86_haswell.c +11 -0
package/probes/x86_icelake.c +17 -0
package/probes/x86_sapphire.c +16 -0
package/probes/x86_sapphireamx.c +18 -0
package/probes/x86_sierra.c +17 -0
package/probes/x86_skylake.c +15 -0
package/probes/x86_turin.c +17 -0
package/wasm/numkong-emscripten.js +2 -0
package/wasm/numkong.d.ts +14 -0
package/wasm/numkong.js +1124 -0
package/wasm/numkong.wasm +0 -0
package/include/numkong/curved/neonhalf.h +0 -212
package/include/numkong/dot/neonhalf.h +0 -198
package/include/numkong/dots/neonhalf.h +0 -57
package/include/numkong/mesh/neonhalf.h +0 -616
package/include/numkong/reduce/neonhalf.h +0 -157
package/include/numkong/spatial/neonhalf.h +0 -118
package/include/numkong/spatial/sapphire.h +0 -343
package/include/numkong/spatials/neonhalf.h +0 -58
package/javascript/README.md +0 -246

package/include/numkong/geospatial/neon.h CHANGED Viewed

@@ -8,11 +8,11 @@
  *
  *  @section geospatial_neon_instructions Key NEON Geospatial Instructions
  *
- *      Intrinsic               Instruction     M1 Firestorm    Graviton 3      Graviton 4
- *      vfmaq_f32               FMLA.S (vec)    4c @ V0123      4c @ V0123      4c @ V0123
- *      vfmaq_f64               FMLA.D (vec)    4c @ V0123      4c @ V0123      4c @ V0123
- *      vsqrtq_f32              FSQRT.S (vec)   10c @ V02       10c @ V02       9c @ V02
- *      vsqrtq_f64              FSQRT.D (vec)   13c @ V02       16c @ V02       16c @ V02
+ *      Intrinsic   Instruction    M1 Firestorm  Graviton 3   Graviton 4
+ *      vfmaq_f32   FMLA.S (vec)   4cy @ V0123   4cy @ V0123  4cy @ V0123
+ *      vfmaq_f64   FMLA.D (vec)   4cy @ V0123   4cy @ V0123  4cy @ V0123
+ *      vsqrtq_f32  FSQRT.S (vec)  10cy @ V02    10cy @ V02   9cy @ V02
+ *      vsqrtq_f64  FSQRT.D (vec)  13cy @ V02    16cy @ V02   16cy @ V02
  */
 #ifndef NK_GEOSPATIAL_NEON_H
 #define NK_GEOSPATIAL_NEON_H
@@ -38,44 +38,48 @@ extern "C" {
  *  These require NEON trigonometric kernels from trigonometry/neon.h.
  */
-NK_INTERNAL float64x2_t nk_haversine_f64x2_neon_(              //
-    float64x2_t first_latitudes, float64x2_t first_longitudes, //
-    float64x2_t second_latitudes, float64x2_t second_longitudes) {
+NK_INTERNAL float64x2_t nk_haversine_f64x2_neon_(                          //
+    float64x2_t first_latitudes_f64x2, float64x2_t first_longitudes_f64x2, //
+    float64x2_t second_latitudes_f64x2, float64x2_t second_longitudes_f64x2) {
-    float64x2_t const earth_radius = vdupq_n_f64(NK_EARTH_MEDIATORIAL_RADIUS);
-    float64x2_t const half = vdupq_n_f64(0.5);
-    float64x2_t const one = vdupq_n_f64(1.0);
-    float64x2_t const two = vdupq_n_f64(2.0);
+    float64x2_t const earth_radius_f64x2 = vdupq_n_f64(NK_EARTH_MEDIATORIAL_RADIUS);
+    float64x2_t const half_f64x2 = vdupq_n_f64(0.5);
+    float64x2_t const one_f64x2 = vdupq_n_f64(1.0);
+    float64x2_t const two_f64x2 = vdupq_n_f64(2.0);
-    float64x2_t latitude_delta = vsubq_f64(second_latitudes, first_latitudes);
-    float64x2_t longitude_delta = vsubq_f64(second_longitudes, first_longitudes);
+    float64x2_t latitude_delta_f64x2 = vsubq_f64(second_latitudes_f64x2, first_latitudes_f64x2);
+    float64x2_t longitude_delta_f64x2 = vsubq_f64(second_longitudes_f64x2, first_longitudes_f64x2);
     // Haversine terms: sin²(Δ/2)
-    float64x2_t latitude_delta_half = vmulq_f64(latitude_delta, half);
-    float64x2_t longitude_delta_half = vmulq_f64(longitude_delta, half);
-    float64x2_t sin_latitude_delta_half = nk_sin_f64x2_neon_(latitude_delta_half);
-    float64x2_t sin_longitude_delta_half = nk_sin_f64x2_neon_(longitude_delta_half);
-    float64x2_t sin_squared_latitude_delta_half = vmulq_f64(sin_latitude_delta_half, sin_latitude_delta_half);
-    float64x2_t sin_squared_longitude_delta_half = vmulq_f64(sin_longitude_delta_half, sin_longitude_delta_half);
+    float64x2_t latitude_delta_half_f64x2 = vmulq_f64(latitude_delta_f64x2, half_f64x2);
+    float64x2_t longitude_delta_half_f64x2 = vmulq_f64(longitude_delta_f64x2, half_f64x2);
+    float64x2_t sin_latitude_delta_half_f64x2 = nk_sin_f64x2_neon_(latitude_delta_half_f64x2);
+    float64x2_t sin_longitude_delta_half_f64x2 = nk_sin_f64x2_neon_(longitude_delta_half_f64x2);
+    float64x2_t sin_squared_latitude_delta_half_f64x2 = vmulq_f64(sin_latitude_delta_half_f64x2,
+                                                                  sin_latitude_delta_half_f64x2);
+    float64x2_t sin_squared_longitude_delta_half_f64x2 = vmulq_f64(sin_longitude_delta_half_f64x2,
+                                                                   sin_longitude_delta_half_f64x2);
     // Latitude cosine product
-    float64x2_t cos_first_latitude = nk_cos_f64x2_neon_(first_latitudes);
-    float64x2_t cos_second_latitude = nk_cos_f64x2_neon_(second_latitudes);
-    float64x2_t cos_latitude_product = vmulq_f64(cos_first_latitude, cos_second_latitude);
+    float64x2_t cos_first_latitude_f64x2 = nk_cos_f64x2_neon_(first_latitudes_f64x2);
+    float64x2_t cos_second_latitude_f64x2 = nk_cos_f64x2_neon_(second_latitudes_f64x2);
+    float64x2_t cos_latitude_product_f64x2 = vmulq_f64(cos_first_latitude_f64x2, cos_second_latitude_f64x2);
     // a = sin²(Δlat/2) + cos(lat1) × cos(lat2) × sin²(Δlon/2)
-    float64x2_t haversine_term = vaddq_f64(sin_squared_latitude_delta_half,
-                                           vmulq_f64(cos_latitude_product, sin_squared_longitude_delta_half));
-    // Clamp haversine_term to [0, 1] to prevent NaN from sqrt of negative values
-    float64x2_t zero = vdupq_n_f64(0.0);
-    haversine_term = vmaxq_f64(zero, vminq_f64(one, haversine_term));
+    float64x2_t haversine_term_f64x2 = vaddq_f64(
+        sin_squared_latitude_delta_half_f64x2,
+        vmulq_f64(cos_latitude_product_f64x2, sin_squared_longitude_delta_half_f64x2));
+    // Clamp haversine_term_f64x2 to [0, 1] to prevent NaN from sqrt of negative values
+    float64x2_t zero_f64x2 = vdupq_n_f64(0.0);
+    haversine_term_f64x2 = vmaxq_f64(zero_f64x2, vminq_f64(one_f64x2, haversine_term_f64x2));
     // Central angle: c = 2 × atan2(√a, √(1-a))
-    float64x2_t sqrt_haversine = vsqrtq_f64(haversine_term);
-    float64x2_t sqrt_complement = vsqrtq_f64(vsubq_f64(one, haversine_term));
-    float64x2_t central_angle = vmulq_f64(two, nk_atan2_f64x2_neon_(sqrt_haversine, sqrt_complement));
+    float64x2_t sqrt_haversine_f64x2 = vsqrtq_f64(haversine_term_f64x2);
+    float64x2_t sqrt_complement_f64x2 = vsqrtq_f64(vsubq_f64(one_f64x2, haversine_term_f64x2));
+    float64x2_t central_angle_f64x2 = vmulq_f64(two_f64x2,
+                                                nk_atan2_f64x2_neon_(sqrt_haversine_f64x2, sqrt_complement_f64x2));
-    return vmulq_f64(earth_radius, central_angle);
+    return vmulq_f64(earth_radius_f64x2, central_angle_f64x2);
 }
 NK_PUBLIC void nk_haversine_f64_neon(               //
@@ -84,14 +88,14 @@ NK_PUBLIC void nk_haversine_f64_neon(               //
     nk_size_t n, nk_f64_t *results) {
     while (n >= 2) {
-        float64x2_t first_latitudes = vld1q_f64(a_lats);
-        float64x2_t first_longitudes = vld1q_f64(a_lons);
-        float64x2_t second_latitudes = vld1q_f64(b_lats);
-        float64x2_t second_longitudes = vld1q_f64(b_lons);
+        float64x2_t first_latitudes_f64x2 = vld1q_f64(a_lats);
+        float64x2_t first_longitudes_f64x2 = vld1q_f64(a_lons);
+        float64x2_t second_latitudes_f64x2 = vld1q_f64(b_lats);
+        float64x2_t second_longitudes_f64x2 = vld1q_f64(b_lons);
-        float64x2_t distances = nk_haversine_f64x2_neon_(first_latitudes, first_longitudes, second_latitudes,
-                                                         second_longitudes);
-        vst1q_f64(results, distances);
+        float64x2_t distances_f64x2 = nk_haversine_f64x2_neon_(first_latitudes_f64x2, first_longitudes_f64x2,
+                                                               second_latitudes_f64x2, second_longitudes_f64x2);
+        vst1q_f64(results, distances_f64x2);
         a_lats += 2, a_lons += 2, b_lats += 2, b_lons += 2, results += 2, n -= 2;
     }
@@ -103,52 +107,56 @@ NK_PUBLIC void nk_haversine_f64_neon(               //
         nk_partial_load_b64x2_serial_(a_lons, &a_lon_vec, n);
         nk_partial_load_b64x2_serial_(b_lats, &b_lat_vec, n);
         nk_partial_load_b64x2_serial_(b_lons, &b_lon_vec, n);
-        float64x2_t distances = nk_haversine_f64x2_neon_(a_lat_vec.f64x2, a_lon_vec.f64x2, b_lat_vec.f64x2,
-                                                         b_lon_vec.f64x2);
-        result_vec.f64x2 = distances;
+        float64x2_t distances_f64x2 = nk_haversine_f64x2_neon_(a_lat_vec.f64x2, a_lon_vec.f64x2, b_lat_vec.f64x2,
+                                                               b_lon_vec.f64x2);
+        result_vec.f64x2 = distances_f64x2;
         nk_partial_store_b64x2_serial_(&result_vec, results, n);
     }
 }
-NK_INTERNAL float32x4_t nk_haversine_f32x4_neon_(              //
-    float32x4_t first_latitudes, float32x4_t first_longitudes, //
-    float32x4_t second_latitudes, float32x4_t second_longitudes) {
+NK_INTERNAL float32x4_t nk_haversine_f32x4_neon_(                          //
+    float32x4_t first_latitudes_f32x4, float32x4_t first_longitudes_f32x4, //
+    float32x4_t second_latitudes_f32x4, float32x4_t second_longitudes_f32x4) {
-    float32x4_t const earth_radius = vdupq_n_f32((float)NK_EARTH_MEDIATORIAL_RADIUS);
-    float32x4_t const half = vdupq_n_f32(0.5f);
-    float32x4_t const one = vdupq_n_f32(1.0f);
-    float32x4_t const two = vdupq_n_f32(2.0f);
+    float32x4_t const earth_radius_f32x4 = vdupq_n_f32((float)NK_EARTH_MEDIATORIAL_RADIUS);
+    float32x4_t const half_f32x4 = vdupq_n_f32(0.5f);
+    float32x4_t const one_f32x4 = vdupq_n_f32(1.0f);
+    float32x4_t const two_f32x4 = vdupq_n_f32(2.0f);
-    float32x4_t latitude_delta = vsubq_f32(second_latitudes, first_latitudes);
-    float32x4_t longitude_delta = vsubq_f32(second_longitudes, first_longitudes);
+    float32x4_t latitude_delta_f32x4 = vsubq_f32(second_latitudes_f32x4, first_latitudes_f32x4);
+    float32x4_t longitude_delta_f32x4 = vsubq_f32(second_longitudes_f32x4, first_longitudes_f32x4);
     // Haversine terms: sin²(Δ/2)
-    float32x4_t latitude_delta_half = vmulq_f32(latitude_delta, half);
-    float32x4_t longitude_delta_half = vmulq_f32(longitude_delta, half);
-    float32x4_t sin_latitude_delta_half = nk_sin_f32x4_neon_(latitude_delta_half);
-    float32x4_t sin_longitude_delta_half = nk_sin_f32x4_neon_(longitude_delta_half);
-    float32x4_t sin_squared_latitude_delta_half = vmulq_f32(sin_latitude_delta_half, sin_latitude_delta_half);
-    float32x4_t sin_squared_longitude_delta_half = vmulq_f32(sin_longitude_delta_half, sin_longitude_delta_half);
+    float32x4_t latitude_delta_half_f32x4 = vmulq_f32(latitude_delta_f32x4, half_f32x4);
+    float32x4_t longitude_delta_half_f32x4 = vmulq_f32(longitude_delta_f32x4, half_f32x4);
+    float32x4_t sin_latitude_delta_half_f32x4 = nk_sin_f32x4_neon_(latitude_delta_half_f32x4);
+    float32x4_t sin_longitude_delta_half_f32x4 = nk_sin_f32x4_neon_(longitude_delta_half_f32x4);
+    float32x4_t sin_squared_latitude_delta_half_f32x4 = vmulq_f32(sin_latitude_delta_half_f32x4,
+                                                                  sin_latitude_delta_half_f32x4);
+    float32x4_t sin_squared_longitude_delta_half_f32x4 = vmulq_f32(sin_longitude_delta_half_f32x4,
+                                                                   sin_longitude_delta_half_f32x4);
     // Latitude cosine product
-    float32x4_t cos_first_latitude = nk_cos_f32x4_neon_(first_latitudes);
-    float32x4_t cos_second_latitude = nk_cos_f32x4_neon_(second_latitudes);
-    float32x4_t cos_latitude_product = vmulq_f32(cos_first_latitude, cos_second_latitude);
+    float32x4_t cos_first_latitude_f32x4 = nk_cos_f32x4_neon_(first_latitudes_f32x4);
+    float32x4_t cos_second_latitude_f32x4 = nk_cos_f32x4_neon_(second_latitudes_f32x4);
+    float32x4_t cos_latitude_product_f32x4 = vmulq_f32(cos_first_latitude_f32x4, cos_second_latitude_f32x4);
     // a = sin²(Δlat/2) + cos(lat1) × cos(lat2) × sin²(Δlon/2)
-    float32x4_t haversine_term = vaddq_f32(sin_squared_latitude_delta_half,
-                                           vmulq_f32(cos_latitude_product, sin_squared_longitude_delta_half));
+    float32x4_t haversine_term_f32x4 = vaddq_f32(
+        sin_squared_latitude_delta_half_f32x4,
+        vmulq_f32(cos_latitude_product_f32x4, sin_squared_longitude_delta_half_f32x4));
     // Clamp to [0, 1] to avoid NaN from sqrt of negative numbers (due to floating point errors)
-    float32x4_t zero = vdupq_n_f32(0.0f);
-    haversine_term = vmaxq_f32(zero, vminq_f32(one, haversine_term));
+    float32x4_t zero_f32x4 = vdupq_n_f32(0.0f);
+    haversine_term_f32x4 = vmaxq_f32(zero_f32x4, vminq_f32(one_f32x4, haversine_term_f32x4));
     // Central angle: c = 2 × atan2(√a, √(1-a))
-    float32x4_t sqrt_haversine = vsqrtq_f32(haversine_term);
-    float32x4_t sqrt_complement = vsqrtq_f32(vsubq_f32(one, haversine_term));
-    float32x4_t central_angle = vmulq_f32(two, nk_atan2_f32x4_neon_(sqrt_haversine, sqrt_complement));
+    float32x4_t sqrt_haversine_f32x4 = vsqrtq_f32(haversine_term_f32x4);
+    float32x4_t sqrt_complement_f32x4 = vsqrtq_f32(vsubq_f32(one_f32x4, haversine_term_f32x4));
+    float32x4_t central_angle_f32x4 = vmulq_f32(two_f32x4,
+                                                nk_atan2_f32x4_neon_(sqrt_haversine_f32x4, sqrt_complement_f32x4));
-    return vmulq_f32(earth_radius, central_angle);
+    return vmulq_f32(earth_radius_f32x4, central_angle_f32x4);
 }
 NK_PUBLIC void nk_haversine_f32_neon(               //
@@ -157,14 +165,14 @@ NK_PUBLIC void nk_haversine_f32_neon(               //
     nk_size_t n, nk_f32_t *results) {
     while (n >= 4) {
-        float32x4_t first_latitudes = vld1q_f32(a_lats);
-        float32x4_t first_longitudes = vld1q_f32(a_lons);
-        float32x4_t second_latitudes = vld1q_f32(b_lats);
-        float32x4_t second_longitudes = vld1q_f32(b_lons);
+        float32x4_t first_latitudes_f32x4 = vld1q_f32(a_lats);
+        float32x4_t first_longitudes_f32x4 = vld1q_f32(a_lons);
+        float32x4_t second_latitudes_f32x4 = vld1q_f32(b_lats);
+        float32x4_t second_longitudes_f32x4 = vld1q_f32(b_lons);
-        float32x4_t distances = nk_haversine_f32x4_neon_(first_latitudes, first_longitudes, second_latitudes,
-                                                         second_longitudes);
-        vst1q_f32(results, distances);
+        float32x4_t distances_f32x4 = nk_haversine_f32x4_neon_(first_latitudes_f32x4, first_longitudes_f32x4,
+                                                               second_latitudes_f32x4, second_longitudes_f32x4);
+        vst1q_f32(results, distances_f32x4);
         a_lats += 4, a_lons += 4, b_lats += 4, b_lons += 4, results += 4, n -= 4;
     }
@@ -176,9 +184,9 @@ NK_PUBLIC void nk_haversine_f32_neon(               //
         nk_partial_load_b32x4_serial_(a_lons, &a_lon_vec, n);
         nk_partial_load_b32x4_serial_(b_lats, &b_lat_vec, n);
         nk_partial_load_b32x4_serial_(b_lons, &b_lon_vec, n);
-        float32x4_t distances = nk_haversine_f32x4_neon_(a_lat_vec.f32x4, a_lon_vec.f32x4, b_lat_vec.f32x4,
-                                                         b_lon_vec.f32x4);
-        result_vec.f32x4 = distances;
+        float32x4_t distances_f32x4 = nk_haversine_f32x4_neon_(a_lat_vec.f32x4, a_lon_vec.f32x4, b_lat_vec.f32x4,
+                                                               b_lon_vec.f32x4);
+        result_vec.f32x4 = distances_f32x4;
         nk_partial_store_b32x4_serial_(&result_vec, results, n);
     }
 }
@@ -187,158 +195,176 @@ NK_PUBLIC void nk_haversine_f32_neon(               //
  *  @brief  NEON helper for Vincenty's geodesic distance on 2 f64 point pairs.
  *  @note   This is a true SIMD implementation using masked convergence tracking via blending.
  */
-NK_INTERNAL float64x2_t nk_vincenty_f64x2_neon_(               //
-    float64x2_t first_latitudes, float64x2_t first_longitudes, //
-    float64x2_t second_latitudes, float64x2_t second_longitudes) {
-    float64x2_t const equatorial_radius = vdupq_n_f64(NK_EARTH_ELLIPSOID_EQUATORIAL_RADIUS);
-    float64x2_t const polar_radius = vdupq_n_f64(NK_EARTH_ELLIPSOID_POLAR_RADIUS);
-    float64x2_t const flattening = vdupq_n_f64(1.0 / NK_EARTH_ELLIPSOID_INVERSE_FLATTENING);
-    float64x2_t const convergence_threshold = vdupq_n_f64(NK_VINCENTY_CONVERGENCE_THRESHOLD_F64);
-    float64x2_t const one = vdupq_n_f64(1.0);
-    float64x2_t const two = vdupq_n_f64(2.0);
-    float64x2_t const three = vdupq_n_f64(3.0);
-    float64x2_t const four = vdupq_n_f64(4.0);
-    float64x2_t const six = vdupq_n_f64(6.0);
-    float64x2_t const sixteen = vdupq_n_f64(16.0);
-    float64x2_t const epsilon = vdupq_n_f64(1e-15);
+NK_INTERNAL float64x2_t nk_vincenty_f64x2_neon_(                           //
+    float64x2_t first_latitudes_f64x2, float64x2_t first_longitudes_f64x2, //
+    float64x2_t second_latitudes_f64x2, float64x2_t second_longitudes_f64x2) {
+    float64x2_t const equatorial_radius_f64x2 = vdupq_n_f64(NK_EARTH_ELLIPSOID_EQUATORIAL_RADIUS);
+    float64x2_t const polar_radius_f64x2 = vdupq_n_f64(NK_EARTH_ELLIPSOID_POLAR_RADIUS);
+    float64x2_t const flattening_f64x2 = vdupq_n_f64(1.0 / NK_EARTH_ELLIPSOID_INVERSE_FLATTENING);
+    float64x2_t const convergence_threshold_f64x2 = vdupq_n_f64(NK_VINCENTY_CONVERGENCE_THRESHOLD_F64);
+    float64x2_t const one_f64x2 = vdupq_n_f64(1.0);
+    float64x2_t const two_f64x2 = vdupq_n_f64(2.0);
+    float64x2_t const three_f64x2 = vdupq_n_f64(3.0);
+    float64x2_t const four_f64x2 = vdupq_n_f64(4.0);
+    float64x2_t const six_f64x2 = vdupq_n_f64(6.0);
+    float64x2_t const sixteen_f64x2 = vdupq_n_f64(16.0);
+    float64x2_t const epsilon_f64x2 = vdupq_n_f64(1e-15);
     // Longitude difference
-    float64x2_t longitude_difference = vsubq_f64(second_longitudes, first_longitudes);
+    float64x2_t longitude_difference_f64x2 = vsubq_f64(second_longitudes_f64x2, first_longitudes_f64x2);
     // Reduced latitudes: tan(U) = (1-f) * tan(lat)
-    float64x2_t one_minus_f = vsubq_f64(one, flattening);
-    float64x2_t tan_first = vdivq_f64(nk_sin_f64x2_neon_(first_latitudes), nk_cos_f64x2_neon_(first_latitudes));
-    float64x2_t tan_second = vdivq_f64(nk_sin_f64x2_neon_(second_latitudes), nk_cos_f64x2_neon_(second_latitudes));
-    float64x2_t tan_reduced_first = vmulq_f64(one_minus_f, tan_first);
-    float64x2_t tan_reduced_second = vmulq_f64(one_minus_f, tan_second);
+    float64x2_t one_minus_f_f64x2 = vsubq_f64(one_f64x2, flattening_f64x2);
+    float64x2_t tan_first_f64x2 = vdivq_f64(nk_sin_f64x2_neon_(first_latitudes_f64x2),
+                                            nk_cos_f64x2_neon_(first_latitudes_f64x2));
+    float64x2_t tan_second_f64x2 = vdivq_f64(nk_sin_f64x2_neon_(second_latitudes_f64x2),
+                                             nk_cos_f64x2_neon_(second_latitudes_f64x2));
+    float64x2_t tan_reduced_first_f64x2 = vmulq_f64(one_minus_f_f64x2, tan_first_f64x2);
+    float64x2_t tan_reduced_second_f64x2 = vmulq_f64(one_minus_f_f64x2, tan_second_f64x2);
     // cos(U) = 1/√(1 + tan²(U)), sin(U) = tan(U) × cos(U)
-    float64x2_t cos_reduced_first = vdivq_f64(one, vsqrtq_f64(vfmaq_f64(one, tan_reduced_first, tan_reduced_first)));
-    float64x2_t sin_reduced_first = vmulq_f64(tan_reduced_first, cos_reduced_first);
-    float64x2_t cos_reduced_second = vdivq_f64(one, vsqrtq_f64(vfmaq_f64(one, tan_reduced_second, tan_reduced_second)));
-    float64x2_t sin_reduced_second = vmulq_f64(tan_reduced_second, cos_reduced_second);
-    // Initialize lambda and tracking variables
-    float64x2_t lambda = longitude_difference;
-    float64x2_t sin_angular_distance, cos_angular_distance, angular_distance;
-    float64x2_t sin_azimuth, cos_squared_azimuth, cos_double_angular_midpoint;
+    float64x2_t cos_reduced_first_f64x2 = vdivq_f64(
+        one_f64x2, vsqrtq_f64(vfmaq_f64(one_f64x2, tan_reduced_first_f64x2, tan_reduced_first_f64x2)));
+    float64x2_t sin_reduced_first_f64x2 = vmulq_f64(tan_reduced_first_f64x2, cos_reduced_first_f64x2);
+    float64x2_t cos_reduced_second_f64x2 = vdivq_f64(
+        one_f64x2, vsqrtq_f64(vfmaq_f64(one_f64x2, tan_reduced_second_f64x2, tan_reduced_second_f64x2)));
+    float64x2_t sin_reduced_second_f64x2 = vmulq_f64(tan_reduced_second_f64x2, cos_reduced_second_f64x2);
+    // Initialize lambda_f64x2 and tracking variables
+    float64x2_t lambda_f64x2 = longitude_difference_f64x2;
+    float64x2_t sin_angular_distance_f64x2, cos_angular_distance_f64x2, angular_distance_f64x2;
+    float64x2_t sin_azimuth_f64x2, cos_squared_azimuth_f64x2, cos_double_angular_midpoint_f64x2;
     // Track convergence and coincident points using masks
-    uint64x2_t converged_mask = vdupq_n_u64(0);
-    uint64x2_t coincident_mask = vdupq_n_u64(0);
+    uint64x2_t converged_mask_u64x2 = vdupq_n_u64(0);
+    uint64x2_t coincident_mask_u64x2 = vdupq_n_u64(0);
     for (nk_u32_t iteration = 0; iteration < NK_VINCENTY_MAX_ITERATIONS; ++iteration) {
         // Check if all lanes converged
-        uint64_t converged_bits = vgetq_lane_u64(converged_mask, 0) & vgetq_lane_u64(converged_mask, 1);
+        nk_u64_t converged_bits = vgetq_lane_u64(converged_mask_u64x2, 0) & vgetq_lane_u64(converged_mask_u64x2, 1);
         if (converged_bits) break;
-        float64x2_t sin_lambda = nk_sin_f64x2_neon_(lambda);
-        float64x2_t cos_lambda = nk_cos_f64x2_neon_(lambda);
+        float64x2_t sin_lambda_f64x2 = nk_sin_f64x2_neon_(lambda_f64x2);
+        float64x2_t cos_lambda_f64x2 = nk_cos_f64x2_neon_(lambda_f64x2);
-        // sin²(angular_distance) = (cos(U₂) × sin(λ))² + (cos(U₁) × sin(U₂) - sin(U₁) × cos(U₂) × cos(λ))²
-        float64x2_t cross_term = vmulq_f64(cos_reduced_second, sin_lambda);
-        float64x2_t mixed_term = vsubq_f64(vmulq_f64(cos_reduced_first, sin_reduced_second),
-                                           vmulq_f64(vmulq_f64(sin_reduced_first, cos_reduced_second), cos_lambda));
-        float64x2_t sin_angular_dist_sq = vfmaq_f64(vmulq_f64(mixed_term, mixed_term), cross_term, cross_term);
-        sin_angular_distance = vsqrtq_f64(sin_angular_dist_sq);
+        // sin²(angular_distance_f64x2) = (cos(U₂) × sin(λ))² + (cos(U₁) × sin(U₂) - sin(U₁) × cos(U₂) × cos(λ))²
+        float64x2_t cross_term_f64x2 = vmulq_f64(cos_reduced_second_f64x2, sin_lambda_f64x2);
+        float64x2_t mixed_term_f64x2 = vsubq_f64(
+            vmulq_f64(cos_reduced_first_f64x2, sin_reduced_second_f64x2),
+            vmulq_f64(vmulq_f64(sin_reduced_first_f64x2, cos_reduced_second_f64x2), cos_lambda_f64x2));
+        float64x2_t sin_angular_dist_sq_f64x2 = vfmaq_f64(vmulq_f64(mixed_term_f64x2, mixed_term_f64x2),
+                                                          cross_term_f64x2, cross_term_f64x2);
+        sin_angular_distance_f64x2 = vsqrtq_f64(sin_angular_dist_sq_f64x2);
-        // Check for coincident points (sin_angular_distance ≈ 0)
-        coincident_mask = vcltq_f64(sin_angular_distance, epsilon);
+        // Check for coincident points (sin_angular_distance_f64x2 ≈ 0)
+        coincident_mask_u64x2 = vcltq_f64(sin_angular_distance_f64x2, epsilon_f64x2);
-        // cos(angular_distance) = sin(U₁) × sin(U₂) + cos(U₁) × cos(U₂) × cos(λ)
-        cos_angular_distance = vfmaq_f64(vmulq_f64(sin_reduced_first, sin_reduced_second),
-                                         vmulq_f64(cos_reduced_first, cos_reduced_second), cos_lambda);
+        // cos(angular_distance_f64x2) = sin(U₁) × sin(U₂) + cos(U₁) × cos(U₂) × cos(λ)
+        cos_angular_distance_f64x2 = vfmaq_f64(vmulq_f64(sin_reduced_first_f64x2, sin_reduced_second_f64x2),
+                                               vmulq_f64(cos_reduced_first_f64x2, cos_reduced_second_f64x2),
+                                               cos_lambda_f64x2);
-        // angular_distance = atan2(sin, cos)
-        angular_distance = nk_atan2_f64x2_neon_(sin_angular_distance, cos_angular_distance);
+        // angular_distance_f64x2 = atan2(sin, cos)
+        angular_distance_f64x2 = nk_atan2_f64x2_neon_(sin_angular_distance_f64x2, cos_angular_distance_f64x2);
-        // sin(azimuth) = cos(U₁) × cos(U₂) × sin(λ) / sin(angular_distance)
+        // sin(azimuth) = cos(U₁) × cos(U₂) × sin(λ) / sin(angular_distance_f64x2)
         // Avoid division by zero by using blending
-        float64x2_t safe_sin_angular = vbslq_f64(coincident_mask, one, sin_angular_distance);
-        sin_azimuth = vdivq_f64(vmulq_f64(vmulq_f64(cos_reduced_first, cos_reduced_second), sin_lambda),
-                                safe_sin_angular);
-        cos_squared_azimuth = vsubq_f64(one, vmulq_f64(sin_azimuth, sin_azimuth));
+        float64x2_t safe_sin_angular_f64x2 = vbslq_f64(coincident_mask_u64x2, one_f64x2, sin_angular_distance_f64x2);
+        sin_azimuth_f64x2 = vdivq_f64(
+            vmulq_f64(vmulq_f64(cos_reduced_first_f64x2, cos_reduced_second_f64x2), sin_lambda_f64x2),
+            safe_sin_angular_f64x2);
+        cos_squared_azimuth_f64x2 = vsubq_f64(one_f64x2, vmulq_f64(sin_azimuth_f64x2, sin_azimuth_f64x2));
         // Handle equatorial case: cos²α ≈ 0
-        uint64x2_t equatorial_mask = vcltq_f64(cos_squared_azimuth, epsilon);
-        float64x2_t safe_cos_sq_azimuth = vbslq_f64(equatorial_mask, one, cos_squared_azimuth);
+        uint64x2_t equatorial_mask_u64x2 = vcltq_f64(cos_squared_azimuth_f64x2, epsilon_f64x2);
+        float64x2_t safe_cos_sq_azimuth_f64x2 = vbslq_f64(equatorial_mask_u64x2, one_f64x2, cos_squared_azimuth_f64x2);
         // cos(2σₘ) = cos(σ) - 2 × sin(U₁) × sin(U₂) / cos²(α)
-        float64x2_t sin_product = vmulq_f64(sin_reduced_first, sin_reduced_second);
-        cos_double_angular_midpoint = vsubq_f64(cos_angular_distance,
-                                                vdivq_f64(vmulq_f64(two, sin_product), safe_cos_sq_azimuth));
-        cos_double_angular_midpoint = vbslq_f64(equatorial_mask, vdupq_n_f64(0.0), cos_double_angular_midpoint);
+        float64x2_t sin_product_f64x2 = vmulq_f64(sin_reduced_first_f64x2, sin_reduced_second_f64x2);
+        cos_double_angular_midpoint_f64x2 = vsubq_f64(
+            cos_angular_distance_f64x2, vdivq_f64(vmulq_f64(two_f64x2, sin_product_f64x2), safe_cos_sq_azimuth_f64x2));
+        cos_double_angular_midpoint_f64x2 = vbslq_f64(equatorial_mask_u64x2, vdupq_n_f64(0.0),
+                                                      cos_double_angular_midpoint_f64x2);
         // C = f/16 * cos²α * (4 + f*(4 - 3*cos²α))
-        float64x2_t correction_factor = vmulq_f64(
-            vdivq_f64(flattening, sixteen),
-            vmulq_f64(cos_squared_azimuth, vfmaq_f64(four, flattening, vfmsq_f64(four, three, cos_squared_azimuth))));
+        float64x2_t correction_factor_f64x2 = vmulq_f64(
+            vdivq_f64(flattening_f64x2, sixteen_f64x2),
+            vmulq_f64(cos_squared_azimuth_f64x2,
+                      vfmaq_f64(four_f64x2, flattening_f64x2,
+                                vfmsq_f64(four_f64x2, three_f64x2, cos_squared_azimuth_f64x2))));
         // λ' = L + (1-C) × f × sin(α) × (σ + C × sin(σ) × (cos(2σₘ) + C × cos(σ) × (-1 + 2 × cos²(2σₘ))))
-        float64x2_t cos_2sm_sq = vmulq_f64(cos_double_angular_midpoint, cos_double_angular_midpoint);
-        // innermost = -1 + 2 × cos²(2σₘ)
-        float64x2_t innermost = vfmaq_f64(vdupq_n_f64(-1.0), two, cos_2sm_sq);
-        // middle = cos(2σₘ) + C × cos(σ) × innermost
-        float64x2_t middle = vfmaq_f64(cos_double_angular_midpoint, vmulq_f64(correction_factor, cos_angular_distance),
-                                       innermost);
-        // inner = C × sin(σ) × middle
-        float64x2_t inner = vmulq_f64(vmulq_f64(correction_factor, sin_angular_distance), middle);
-        // λ' = L + (1-C) * f * sin_α * (σ + inner)
-        float64x2_t lambda_new = vfmaq_f64(
-            longitude_difference, vmulq_f64(vmulq_f64(vsubq_f64(one, correction_factor), flattening), sin_azimuth),
-            vaddq_f64(angular_distance, inner));
+        float64x2_t cos_2sm_sq_f64x2 = vmulq_f64(cos_double_angular_midpoint_f64x2, cos_double_angular_midpoint_f64x2);
+        // innermost_f64x2 = -1 + 2 × cos²(2σₘ)
+        float64x2_t innermost_f64x2 = vfmaq_f64(vdupq_n_f64(-1.0), two_f64x2, cos_2sm_sq_f64x2);
+        // middle_f64x2 = cos(2σₘ) + C × cos(σ) × innermost_f64x2
+        float64x2_t middle_f64x2 = vfmaq_f64(cos_double_angular_midpoint_f64x2,
+                                             vmulq_f64(correction_factor_f64x2, cos_angular_distance_f64x2),
+                                             innermost_f64x2);
+        // inner_f64x2 = C × sin(σ) × middle_f64x2
+        float64x2_t inner_f64x2 = vmulq_f64(vmulq_f64(correction_factor_f64x2, sin_angular_distance_f64x2),
+                                            middle_f64x2);
+        // λ' = L + (1-C) * f * sin_α * (σ + inner_f64x2)
+        float64x2_t lambda_new_f64x2 = vfmaq_f64(
+            longitude_difference_f64x2,
+            vmulq_f64(vmulq_f64(vsubq_f64(one_f64x2, correction_factor_f64x2), flattening_f64x2), sin_azimuth_f64x2),
+            vaddq_f64(angular_distance_f64x2, inner_f64x2));
         // Check convergence: |λ - λ'| < threshold
-        float64x2_t lambda_diff = vsubq_f64(lambda_new, lambda);
-        float64x2_t lambda_diff_abs = vabsq_f64(lambda_diff);
-        uint64x2_t newly_converged = vcltq_f64(lambda_diff_abs, convergence_threshold);
-        converged_mask = vorrq_u64(converged_mask, newly_converged);
+        float64x2_t lambda_diff_f64x2 = vsubq_f64(lambda_new_f64x2, lambda_f64x2);
+        float64x2_t lambda_diff_abs_f64x2 = vabsq_f64(lambda_diff_f64x2);
+        uint64x2_t newly_converged_u64x2 = vcltq_f64(lambda_diff_abs_f64x2, convergence_threshold_f64x2);
+        converged_mask_u64x2 = vorrq_u64(converged_mask_u64x2, newly_converged_u64x2);
-        // Only update lambda for non-converged lanes
-        lambda = vbslq_f64(converged_mask, lambda, lambda_new);
+        // Only update lambda_f64x2 for non-converged lanes
+        lambda_f64x2 = vbslq_f64(converged_mask_u64x2, lambda_f64x2, lambda_new_f64x2);
     }
     // Final distance calculation
     // u² = cos²α * (a² - b²) / b²
-    float64x2_t a_sq = vmulq_f64(equatorial_radius, equatorial_radius);
-    float64x2_t b_sq = vmulq_f64(polar_radius, polar_radius);
-    float64x2_t u_squared = vdivq_f64(vmulq_f64(cos_squared_azimuth, vsubq_f64(a_sq, b_sq)), b_sq);
+    float64x2_t a_sq_f64x2 = vmulq_f64(equatorial_radius_f64x2, equatorial_radius_f64x2);
+    float64x2_t b_sq_f64x2 = vmulq_f64(polar_radius_f64x2, polar_radius_f64x2);
+    float64x2_t u_squared_f64x2 = vdivq_f64(vmulq_f64(cos_squared_azimuth_f64x2, vsubq_f64(a_sq_f64x2, b_sq_f64x2)),
+                                            b_sq_f64x2);
     // A = 1 + u²/16384 * (4096 + u²*(-768 + u²*(320 - 175*u²)))
-    float64x2_t series_a = vfmaq_f64(vdupq_n_f64(320.0), u_squared, vdupq_n_f64(-175.0));
-    series_a = vfmaq_f64(vdupq_n_f64(-768.0), u_squared, series_a);
-    series_a = vfmaq_f64(vdupq_n_f64(4096.0), u_squared, series_a);
-    series_a = vfmaq_f64(one, vdivq_f64(u_squared, vdupq_n_f64(16384.0)), series_a);
+    float64x2_t series_a_f64x2 = vfmaq_f64(vdupq_n_f64(320.0), u_squared_f64x2, vdupq_n_f64(-175.0));
+    series_a_f64x2 = vfmaq_f64(vdupq_n_f64(-768.0), u_squared_f64x2, series_a_f64x2);
+    series_a_f64x2 = vfmaq_f64(vdupq_n_f64(4096.0), u_squared_f64x2, series_a_f64x2);
+    series_a_f64x2 = vfmaq_f64(one_f64x2, vdivq_f64(u_squared_f64x2, vdupq_n_f64(16384.0)), series_a_f64x2);
     // B = u²/1024 * (256 + u²*(-128 + u²*(74 - 47*u²)))
-    float64x2_t series_b = vfmaq_f64(vdupq_n_f64(74.0), u_squared, vdupq_n_f64(-47.0));
-    series_b = vfmaq_f64(vdupq_n_f64(-128.0), u_squared, series_b);
-    series_b = vfmaq_f64(vdupq_n_f64(256.0), u_squared, series_b);
-    series_b = vmulq_f64(vdivq_f64(u_squared, vdupq_n_f64(1024.0)), series_b);
+    float64x2_t series_b_f64x2 = vfmaq_f64(vdupq_n_f64(74.0), u_squared_f64x2, vdupq_n_f64(-47.0));
+    series_b_f64x2 = vfmaq_f64(vdupq_n_f64(-128.0), u_squared_f64x2, series_b_f64x2);
+    series_b_f64x2 = vfmaq_f64(vdupq_n_f64(256.0), u_squared_f64x2, series_b_f64x2);
+    series_b_f64x2 = vmulq_f64(vdivq_f64(u_squared_f64x2, vdupq_n_f64(1024.0)), series_b_f64x2);
     // Δσ = B × sin(σ) × (cos(2σₘ) + B/4 × (cos(σ) × (-1 + 2 × cos²(2σₘ)) - B/6 × cos(2σₘ) × (-3 + 4 × sin²(σ)) × (-3 +
     // 4 × cos²(2σₘ))))
-    float64x2_t cos_2sm_sq = vmulq_f64(cos_double_angular_midpoint, cos_double_angular_midpoint);
-    float64x2_t sin_sq = vmulq_f64(sin_angular_distance, sin_angular_distance);
-    float64x2_t term1 = vfmaq_f64(vdupq_n_f64(-1.0), two, cos_2sm_sq);
-    term1 = vmulq_f64(cos_angular_distance, term1);
-    float64x2_t term2 = vfmaq_f64(vdupq_n_f64(-3.0), four, sin_sq);
-    float64x2_t term3 = vfmaq_f64(vdupq_n_f64(-3.0), four, cos_2sm_sq);
-    term2 = vmulq_f64(vmulq_f64(vdivq_f64(series_b, six), cos_double_angular_midpoint), vmulq_f64(term2, term3));
-    float64x2_t delta_sigma = vmulq_f64(
-        series_b,
-        vmulq_f64(sin_angular_distance, vaddq_f64(cos_double_angular_midpoint,
-                                                  vmulq_f64(vdivq_f64(series_b, four), vsubq_f64(term1, term2)))));
+    float64x2_t cos_2sm_sq_f64x2 = vmulq_f64(cos_double_angular_midpoint_f64x2, cos_double_angular_midpoint_f64x2);
+    float64x2_t sin_sq_f64x2 = vmulq_f64(sin_angular_distance_f64x2, sin_angular_distance_f64x2);
+    float64x2_t term1_f64x2 = vfmaq_f64(vdupq_n_f64(-1.0), two_f64x2, cos_2sm_sq_f64x2);
+    term1_f64x2 = vmulq_f64(cos_angular_distance_f64x2, term1_f64x2);
+    float64x2_t term2_f64x2 = vfmaq_f64(vdupq_n_f64(-3.0), four_f64x2, sin_sq_f64x2);
+    float64x2_t term3_f64x2 = vfmaq_f64(vdupq_n_f64(-3.0), four_f64x2, cos_2sm_sq_f64x2);
+    term2_f64x2 = vmulq_f64(vmulq_f64(vdivq_f64(series_b_f64x2, six_f64x2), cos_double_angular_midpoint_f64x2),
+                            vmulq_f64(term2_f64x2, term3_f64x2));
+    float64x2_t delta_sigma_f64x2 = vmulq_f64(
+        series_b_f64x2,
+        vmulq_f64(sin_angular_distance_f64x2,
+                  vaddq_f64(cos_double_angular_midpoint_f64x2,
+                            vmulq_f64(vdivq_f64(series_b_f64x2, four_f64x2), vsubq_f64(term1_f64x2, term2_f64x2)))));
     // s = b * A * (σ - Δσ)
-    float64x2_t distances = vmulq_f64(vmulq_f64(polar_radius, series_a), vsubq_f64(angular_distance, delta_sigma));
+    float64x2_t distances_f64x2 = vmulq_f64(vmulq_f64(polar_radius_f64x2, series_a_f64x2),
+                                            vsubq_f64(angular_distance_f64x2, delta_sigma_f64x2));
     // Set coincident points to zero
-    distances = vbslq_f64(coincident_mask, vdupq_n_f64(0.0), distances);
+    distances_f64x2 = vbslq_f64(coincident_mask_u64x2, vdupq_n_f64(0.0), distances_f64x2);
-    return distances;
+    return distances_f64x2;
 }
 NK_PUBLIC void nk_vincenty_f64_neon(                //
@@ -347,14 +373,14 @@ NK_PUBLIC void nk_vincenty_f64_neon(                //
     nk_size_t n, nk_f64_t *results) {
     while (n >= 2) {
-        float64x2_t first_latitudes = vld1q_f64(a_lats);
-        float64x2_t first_longitudes = vld1q_f64(a_lons);
-        float64x2_t second_latitudes = vld1q_f64(b_lats);
-        float64x2_t second_longitudes = vld1q_f64(b_lons);
+        float64x2_t first_latitudes_f64x2 = vld1q_f64(a_lats);
+        float64x2_t first_longitudes_f64x2 = vld1q_f64(a_lons);
+        float64x2_t second_latitudes_f64x2 = vld1q_f64(b_lats);
+        float64x2_t second_longitudes_f64x2 = vld1q_f64(b_lons);
-        float64x2_t distances = nk_vincenty_f64x2_neon_(first_latitudes, first_longitudes, second_latitudes,
-                                                        second_longitudes);
-        vst1q_f64(results, distances);
+        float64x2_t distances_f64x2 = nk_vincenty_f64x2_neon_(first_latitudes_f64x2, first_longitudes_f64x2,
+                                                              second_latitudes_f64x2, second_longitudes_f64x2);
+        vst1q_f64(results, distances_f64x2);
         a_lats += 2, a_lons += 2, b_lats += 2, b_lons += 2, results += 2, n -= 2;
     }
@@ -366,9 +392,9 @@ NK_PUBLIC void nk_vincenty_f64_neon(                //
         nk_partial_load_b64x2_serial_(a_lons, &a_lon_vec, n);
         nk_partial_load_b64x2_serial_(b_lats, &b_lat_vec, n);
         nk_partial_load_b64x2_serial_(b_lons, &b_lon_vec, n);
-        float64x2_t distances = nk_vincenty_f64x2_neon_(a_lat_vec.f64x2, a_lon_vec.f64x2, b_lat_vec.f64x2,
-                                                        b_lon_vec.f64x2);
-        result_vec.f64x2 = distances;
+        float64x2_t distances_f64x2 = nk_vincenty_f64x2_neon_(a_lat_vec.f64x2, a_lon_vec.f64x2, b_lat_vec.f64x2,
+                                                              b_lon_vec.f64x2);
+        result_vec.f64x2 = distances_f64x2;
         nk_partial_store_b64x2_serial_(&result_vec, results, n);
     }
 }
@@ -377,151 +403,169 @@ NK_PUBLIC void nk_vincenty_f64_neon(                //
  *  @brief  NEON helper for Vincenty's geodesic distance on 4 f32 point pairs.
  *  @note   This is a true SIMD implementation using masked convergence tracking via blending.
  */
-NK_INTERNAL float32x4_t nk_vincenty_f32x4_neon_(               //
-    float32x4_t first_latitudes, float32x4_t first_longitudes, //
-    float32x4_t second_latitudes, float32x4_t second_longitudes) {
-    float32x4_t const equatorial_radius = vdupq_n_f32((float)NK_EARTH_ELLIPSOID_EQUATORIAL_RADIUS);
-    float32x4_t const polar_radius = vdupq_n_f32((float)NK_EARTH_ELLIPSOID_POLAR_RADIUS);
-    float32x4_t const flattening = vdupq_n_f32(1.0f / (float)NK_EARTH_ELLIPSOID_INVERSE_FLATTENING);
-    float32x4_t const convergence_threshold = vdupq_n_f32(NK_VINCENTY_CONVERGENCE_THRESHOLD_F32);
-    float32x4_t const one = vdupq_n_f32(1.0f);
-    float32x4_t const two = vdupq_n_f32(2.0f);
-    float32x4_t const three = vdupq_n_f32(3.0f);
-    float32x4_t const four = vdupq_n_f32(4.0f);
-    float32x4_t const six = vdupq_n_f32(6.0f);
-    float32x4_t const sixteen = vdupq_n_f32(16.0f);
-    float32x4_t const epsilon = vdupq_n_f32(1e-7f);
+NK_INTERNAL float32x4_t nk_vincenty_f32x4_neon_(                           //
+    float32x4_t first_latitudes_f32x4, float32x4_t first_longitudes_f32x4, //
+    float32x4_t second_latitudes_f32x4, float32x4_t second_longitudes_f32x4) {
+    float32x4_t const equatorial_radius_f32x4 = vdupq_n_f32((float)NK_EARTH_ELLIPSOID_EQUATORIAL_RADIUS);
+    float32x4_t const polar_radius_f32x4 = vdupq_n_f32((float)NK_EARTH_ELLIPSOID_POLAR_RADIUS);
+    float32x4_t const flattening_f32x4 = vdupq_n_f32(1.0f / (float)NK_EARTH_ELLIPSOID_INVERSE_FLATTENING);
+    float32x4_t const convergence_threshold_f32x4 = vdupq_n_f32(NK_VINCENTY_CONVERGENCE_THRESHOLD_F32);
+    float32x4_t const one_f32x4 = vdupq_n_f32(1.0f);
+    float32x4_t const two_f32x4 = vdupq_n_f32(2.0f);
+    float32x4_t const three_f32x4 = vdupq_n_f32(3.0f);
+    float32x4_t const four_f32x4 = vdupq_n_f32(4.0f);
+    float32x4_t const six_f32x4 = vdupq_n_f32(6.0f);
+    float32x4_t const sixteen_f32x4 = vdupq_n_f32(16.0f);
+    float32x4_t const epsilon_f32x4 = vdupq_n_f32(1e-7f);
     // Longitude difference
-    float32x4_t longitude_difference = vsubq_f32(second_longitudes, first_longitudes);
+    float32x4_t longitude_difference_f32x4 = vsubq_f32(second_longitudes_f32x4, first_longitudes_f32x4);
     // Reduced latitudes: tan(U) = (1-f) * tan(lat)
-    float32x4_t one_minus_f = vsubq_f32(one, flattening);
-    float32x4_t tan_first = vdivq_f32(nk_sin_f32x4_neon_(first_latitudes), nk_cos_f32x4_neon_(first_latitudes));
-    float32x4_t tan_second = vdivq_f32(nk_sin_f32x4_neon_(second_latitudes), nk_cos_f32x4_neon_(second_latitudes));
-    float32x4_t tan_reduced_first = vmulq_f32(one_minus_f, tan_first);
-    float32x4_t tan_reduced_second = vmulq_f32(one_minus_f, tan_second);
+    float32x4_t one_minus_f_f32x4 = vsubq_f32(one_f32x4, flattening_f32x4);
+    float32x4_t tan_first_f32x4 = vdivq_f32(nk_sin_f32x4_neon_(first_latitudes_f32x4),
+                                            nk_cos_f32x4_neon_(first_latitudes_f32x4));
+    float32x4_t tan_second_f32x4 = vdivq_f32(nk_sin_f32x4_neon_(second_latitudes_f32x4),
+                                             nk_cos_f32x4_neon_(second_latitudes_f32x4));
+    float32x4_t tan_reduced_first_f32x4 = vmulq_f32(one_minus_f_f32x4, tan_first_f32x4);
+    float32x4_t tan_reduced_second_f32x4 = vmulq_f32(one_minus_f_f32x4, tan_second_f32x4);
     // cos(U) = 1/√(1 + tan²(U)), sin(U) = tan(U) × cos(U)
-    float32x4_t cos_reduced_first = vdivq_f32(one, vsqrtq_f32(vfmaq_f32(one, tan_reduced_first, tan_reduced_first)));
-    float32x4_t sin_reduced_first = vmulq_f32(tan_reduced_first, cos_reduced_first);
-    float32x4_t cos_reduced_second = vdivq_f32(one, vsqrtq_f32(vfmaq_f32(one, tan_reduced_second, tan_reduced_second)));
-    float32x4_t sin_reduced_second = vmulq_f32(tan_reduced_second, cos_reduced_second);
-    // Initialize lambda and tracking variables
-    float32x4_t lambda = longitude_difference;
-    float32x4_t sin_angular_distance, cos_angular_distance, angular_distance;
-    float32x4_t sin_azimuth, cos_squared_azimuth, cos_double_angular_midpoint;
+    float32x4_t cos_reduced_first_f32x4 = vdivq_f32(
+        one_f32x4, vsqrtq_f32(vfmaq_f32(one_f32x4, tan_reduced_first_f32x4, tan_reduced_first_f32x4)));
+    float32x4_t sin_reduced_first_f32x4 = vmulq_f32(tan_reduced_first_f32x4, cos_reduced_first_f32x4);
+    float32x4_t cos_reduced_second_f32x4 = vdivq_f32(
+        one_f32x4, vsqrtq_f32(vfmaq_f32(one_f32x4, tan_reduced_second_f32x4, tan_reduced_second_f32x4)));
+    float32x4_t sin_reduced_second_f32x4 = vmulq_f32(tan_reduced_second_f32x4, cos_reduced_second_f32x4);
+    // Initialize lambda_f32x4 and tracking variables
+    float32x4_t lambda_f32x4 = longitude_difference_f32x4;
+    float32x4_t sin_angular_distance_f32x4, cos_angular_distance_f32x4, angular_distance_f32x4;
+    float32x4_t sin_azimuth_f32x4, cos_squared_azimuth_f32x4, cos_double_angular_midpoint_f32x4;
     // Track convergence and coincident points using masks
-    uint32x4_t converged_mask = vdupq_n_u32(0);
-    uint32x4_t coincident_mask = vdupq_n_u32(0);
+    uint32x4_t converged_mask_u32x4 = vdupq_n_u32(0);
+    uint32x4_t coincident_mask_u32x4 = vdupq_n_u32(0);
     for (nk_u32_t iteration = 0; iteration < NK_VINCENTY_MAX_ITERATIONS; ++iteration) {
         // Check if all lanes converged (all bits set = 0xFFFFFFFF per lane)
-        uint32_t converged_bits = vminvq_u32(converged_mask);
+        nk_u32_t converged_bits = vminvq_u32(converged_mask_u32x4);
         if (converged_bits == 0xFFFFFFFF) break;
-        float32x4_t sin_lambda = nk_sin_f32x4_neon_(lambda);
-        float32x4_t cos_lambda = nk_cos_f32x4_neon_(lambda);
+        float32x4_t sin_lambda_f32x4 = nk_sin_f32x4_neon_(lambda_f32x4);
+        float32x4_t cos_lambda_f32x4 = nk_cos_f32x4_neon_(lambda_f32x4);
-        // sin²(angular_distance) = (cos(U₂) × sin(λ))² + (cos(U₁) × sin(U₂) - sin(U₁) × cos(U₂) × cos(λ))²
-        float32x4_t cross_term = vmulq_f32(cos_reduced_second, sin_lambda);
-        float32x4_t mixed_term = vsubq_f32(vmulq_f32(cos_reduced_first, sin_reduced_second),
-                                           vmulq_f32(vmulq_f32(sin_reduced_first, cos_reduced_second), cos_lambda));
-        float32x4_t sin_angular_dist_sq = vfmaq_f32(vmulq_f32(mixed_term, mixed_term), cross_term, cross_term);
-        sin_angular_distance = vsqrtq_f32(sin_angular_dist_sq);
+        // sin²(angular_distance_f32x4) = (cos(U₂) × sin(λ))² + (cos(U₁) × sin(U₂) - sin(U₁) × cos(U₂) × cos(λ))²
+        float32x4_t cross_term_f32x4 = vmulq_f32(cos_reduced_second_f32x4, sin_lambda_f32x4);
+        float32x4_t mixed_term_f32x4 = vsubq_f32(
+            vmulq_f32(cos_reduced_first_f32x4, sin_reduced_second_f32x4),
+            vmulq_f32(vmulq_f32(sin_reduced_first_f32x4, cos_reduced_second_f32x4), cos_lambda_f32x4));
+        float32x4_t sin_angular_dist_sq_f32x4 = vfmaq_f32(vmulq_f32(mixed_term_f32x4, mixed_term_f32x4),
+                                                          cross_term_f32x4, cross_term_f32x4);
+        sin_angular_distance_f32x4 = vsqrtq_f32(sin_angular_dist_sq_f32x4);
-        // Check for coincident points (sin_angular_distance ≈ 0)
-        coincident_mask = vcltq_f32(sin_angular_distance, epsilon);
+        // Check for coincident points (sin_angular_distance_f32x4 ≈ 0)
+        coincident_mask_u32x4 = vcltq_f32(sin_angular_distance_f32x4, epsilon_f32x4);
-        // cos(angular_distance) = sin(U₁) × sin(U₂) + cos(U₁) × cos(U₂) × cos(λ)
-        cos_angular_distance = vfmaq_f32(vmulq_f32(sin_reduced_first, sin_reduced_second),
-                                         vmulq_f32(cos_reduced_first, cos_reduced_second), cos_lambda);
+        // cos(angular_distance_f32x4) = sin(U₁) × sin(U₂) + cos(U₁) × cos(U₂) × cos(λ)
+        cos_angular_distance_f32x4 = vfmaq_f32(vmulq_f32(sin_reduced_first_f32x4, sin_reduced_second_f32x4),
+                                               vmulq_f32(cos_reduced_first_f32x4, cos_reduced_second_f32x4),
+                                               cos_lambda_f32x4);
-        // angular_distance = atan2(sin, cos)
-        angular_distance = nk_atan2_f32x4_neon_(sin_angular_distance, cos_angular_distance);
+        // angular_distance_f32x4 = atan2(sin, cos)
+        angular_distance_f32x4 = nk_atan2_f32x4_neon_(sin_angular_distance_f32x4, cos_angular_distance_f32x4);
-        // sin(azimuth) = cos(U₁) × cos(U₂) × sin(λ) / sin(angular_distance)
-        float32x4_t safe_sin_angular = vbslq_f32(coincident_mask, one, sin_angular_distance);
-        sin_azimuth = vdivq_f32(vmulq_f32(vmulq_f32(cos_reduced_first, cos_reduced_second), sin_lambda),
-                                safe_sin_angular);
-        cos_squared_azimuth = vsubq_f32(one, vmulq_f32(sin_azimuth, sin_azimuth));
+        // sin(azimuth) = cos(U₁) × cos(U₂) × sin(λ) / sin(angular_distance_f32x4)
+        float32x4_t safe_sin_angular_f32x4 = vbslq_f32(coincident_mask_u32x4, one_f32x4, sin_angular_distance_f32x4);
+        sin_azimuth_f32x4 = vdivq_f32(
+            vmulq_f32(vmulq_f32(cos_reduced_first_f32x4, cos_reduced_second_f32x4), sin_lambda_f32x4),
+            safe_sin_angular_f32x4);
+        cos_squared_azimuth_f32x4 = vsubq_f32(one_f32x4, vmulq_f32(sin_azimuth_f32x4, sin_azimuth_f32x4));
         // Handle equatorial case: cos²α ≈ 0
-        uint32x4_t equatorial_mask = vcltq_f32(cos_squared_azimuth, epsilon);
-        float32x4_t safe_cos_sq_azimuth = vbslq_f32(equatorial_mask, one, cos_squared_azimuth);
+        uint32x4_t equatorial_mask_u32x4 = vcltq_f32(cos_squared_azimuth_f32x4, epsilon_f32x4);
+        float32x4_t safe_cos_sq_azimuth_f32x4 = vbslq_f32(equatorial_mask_u32x4, one_f32x4, cos_squared_azimuth_f32x4);
         // cos(2σₘ) = cos(σ) - 2 × sin(U₁) × sin(U₂) / cos²(α)
-        float32x4_t sin_product = vmulq_f32(sin_reduced_first, sin_reduced_second);
-        cos_double_angular_midpoint = vsubq_f32(cos_angular_distance,
-                                                vdivq_f32(vmulq_f32(two, sin_product), safe_cos_sq_azimuth));
-        cos_double_angular_midpoint = vbslq_f32(equatorial_mask, vdupq_n_f32(0.0f), cos_double_angular_midpoint);
+        float32x4_t sin_product_f32x4 = vmulq_f32(sin_reduced_first_f32x4, sin_reduced_second_f32x4);
+        cos_double_angular_midpoint_f32x4 = vsubq_f32(
+            cos_angular_distance_f32x4, vdivq_f32(vmulq_f32(two_f32x4, sin_product_f32x4), safe_cos_sq_azimuth_f32x4));
+        cos_double_angular_midpoint_f32x4 = vbslq_f32(equatorial_mask_u32x4, vdupq_n_f32(0.0f),
+                                                      cos_double_angular_midpoint_f32x4);
         // C = f/16 * cos²α * (4 + f*(4 - 3*cos²α))
-        float32x4_t correction_factor = vmulq_f32(
-            vdivq_f32(flattening, sixteen),
-            vmulq_f32(cos_squared_azimuth, vfmaq_f32(four, flattening, vfmsq_f32(four, three, cos_squared_azimuth))));
+        float32x4_t correction_factor_f32x4 = vmulq_f32(
+            vdivq_f32(flattening_f32x4, sixteen_f32x4),
+            vmulq_f32(cos_squared_azimuth_f32x4,
+                      vfmaq_f32(four_f32x4, flattening_f32x4,
+                                vfmsq_f32(four_f32x4, three_f32x4, cos_squared_azimuth_f32x4))));
         // λ' = L + (1-C) × f × sin(α) × (σ + C × sin(σ) × (cos(2σₘ) + C × cos(σ) × (-1 + 2 × cos²(2σₘ))))
-        float32x4_t cos_2sm_sq = vmulq_f32(cos_double_angular_midpoint, cos_double_angular_midpoint);
-        float32x4_t innermost = vfmaq_f32(vdupq_n_f32(-1.0f), two, cos_2sm_sq);
-        float32x4_t middle = vfmaq_f32(cos_double_angular_midpoint, vmulq_f32(correction_factor, cos_angular_distance),
-                                       innermost);
-        float32x4_t inner = vmulq_f32(vmulq_f32(correction_factor, sin_angular_distance), middle);
-        float32x4_t lambda_new = vfmaq_f32(
-            longitude_difference, vmulq_f32(vmulq_f32(vsubq_f32(one, correction_factor), flattening), sin_azimuth),
-            vaddq_f32(angular_distance, inner));
+        float32x4_t cos_2sm_sq_f32x4 = vmulq_f32(cos_double_angular_midpoint_f32x4, cos_double_angular_midpoint_f32x4);
+        float32x4_t innermost_f32x4 = vfmaq_f32(vdupq_n_f32(-1.0f), two_f32x4, cos_2sm_sq_f32x4);
+        float32x4_t middle_f32x4 = vfmaq_f32(cos_double_angular_midpoint_f32x4,
+                                             vmulq_f32(correction_factor_f32x4, cos_angular_distance_f32x4),
+                                             innermost_f32x4);
+        float32x4_t inner_f32x4 = vmulq_f32(vmulq_f32(correction_factor_f32x4, sin_angular_distance_f32x4),
+                                            middle_f32x4);
+        float32x4_t lambda_new_f32x4 = vfmaq_f32(
+            longitude_difference_f32x4,
+            vmulq_f32(vmulq_f32(vsubq_f32(one_f32x4, correction_factor_f32x4), flattening_f32x4), sin_azimuth_f32x4),
+            vaddq_f32(angular_distance_f32x4, inner_f32x4));
         // Check convergence: |λ - λ'| < threshold
-        float32x4_t lambda_diff = vsubq_f32(lambda_new, lambda);
-        float32x4_t lambda_diff_abs = vabsq_f32(lambda_diff);
-        uint32x4_t newly_converged = vcltq_f32(lambda_diff_abs, convergence_threshold);
-        converged_mask = vorrq_u32(converged_mask, newly_converged);
+        float32x4_t lambda_diff_f32x4 = vsubq_f32(lambda_new_f32x4, lambda_f32x4);
+        float32x4_t lambda_diff_abs_f32x4 = vabsq_f32(lambda_diff_f32x4);
+        uint32x4_t newly_converged_u32x4 = vcltq_f32(lambda_diff_abs_f32x4, convergence_threshold_f32x4);
+        converged_mask_u32x4 = vorrq_u32(converged_mask_u32x4, newly_converged_u32x4);
-        // Only update lambda for non-converged lanes
-        lambda = vbslq_f32(converged_mask, lambda, lambda_new);
+        // Only update lambda_f32x4 for non-converged lanes
+        lambda_f32x4 = vbslq_f32(converged_mask_u32x4, lambda_f32x4, lambda_new_f32x4);
     }
     // Final distance calculation
-    float32x4_t a_sq = vmulq_f32(equatorial_radius, equatorial_radius);
-    float32x4_t b_sq = vmulq_f32(polar_radius, polar_radius);
-    float32x4_t u_squared = vdivq_f32(vmulq_f32(cos_squared_azimuth, vsubq_f32(a_sq, b_sq)), b_sq);
+    float32x4_t a_sq_f32x4 = vmulq_f32(equatorial_radius_f32x4, equatorial_radius_f32x4);
+    float32x4_t b_sq_f32x4 = vmulq_f32(polar_radius_f32x4, polar_radius_f32x4);
+    float32x4_t u_squared_f32x4 = vdivq_f32(vmulq_f32(cos_squared_azimuth_f32x4, vsubq_f32(a_sq_f32x4, b_sq_f32x4)),
+                                            b_sq_f32x4);
     // A = 1 + u²/16384 * (4096 + u²*(-768 + u²*(320 - 175*u²)))
-    float32x4_t series_a = vfmaq_f32(vdupq_n_f32(320.0f), u_squared, vdupq_n_f32(-175.0f));
-    series_a = vfmaq_f32(vdupq_n_f32(-768.0f), u_squared, series_a);
-    series_a = vfmaq_f32(vdupq_n_f32(4096.0f), u_squared, series_a);
-    series_a = vfmaq_f32(one, vdivq_f32(u_squared, vdupq_n_f32(16384.0f)), series_a);
+    float32x4_t series_a_f32x4 = vfmaq_f32(vdupq_n_f32(320.0f), u_squared_f32x4, vdupq_n_f32(-175.0f));
+    series_a_f32x4 = vfmaq_f32(vdupq_n_f32(-768.0f), u_squared_f32x4, series_a_f32x4);
+    series_a_f32x4 = vfmaq_f32(vdupq_n_f32(4096.0f), u_squared_f32x4, series_a_f32x4);
+    series_a_f32x4 = vfmaq_f32(one_f32x4, vdivq_f32(u_squared_f32x4, vdupq_n_f32(16384.0f)), series_a_f32x4);
     // B = u²/1024 * (256 + u²*(-128 + u²*(74 - 47*u²)))
-    float32x4_t series_b = vfmaq_f32(vdupq_n_f32(74.0f), u_squared, vdupq_n_f32(-47.0f));
-    series_b = vfmaq_f32(vdupq_n_f32(-128.0f), u_squared, series_b);
-    series_b = vfmaq_f32(vdupq_n_f32(256.0f), u_squared, series_b);
-    series_b = vmulq_f32(vdivq_f32(u_squared, vdupq_n_f32(1024.0f)), series_b);
+    float32x4_t series_b_f32x4 = vfmaq_f32(vdupq_n_f32(74.0f), u_squared_f32x4, vdupq_n_f32(-47.0f));
+    series_b_f32x4 = vfmaq_f32(vdupq_n_f32(-128.0f), u_squared_f32x4, series_b_f32x4);
+    series_b_f32x4 = vfmaq_f32(vdupq_n_f32(256.0f), u_squared_f32x4, series_b_f32x4);
+    series_b_f32x4 = vmulq_f32(vdivq_f32(u_squared_f32x4, vdupq_n_f32(1024.0f)), series_b_f32x4);
     // Δσ calculation
-    float32x4_t cos_2sm_sq = vmulq_f32(cos_double_angular_midpoint, cos_double_angular_midpoint);
-    float32x4_t sin_sq = vmulq_f32(sin_angular_distance, sin_angular_distance);
-    float32x4_t term1 = vfmaq_f32(vdupq_n_f32(-1.0f), two, cos_2sm_sq);
-    term1 = vmulq_f32(cos_angular_distance, term1);
-    float32x4_t term2 = vfmaq_f32(vdupq_n_f32(-3.0f), four, sin_sq);
-    float32x4_t term3 = vfmaq_f32(vdupq_n_f32(-3.0f), four, cos_2sm_sq);
-    term2 = vmulq_f32(vmulq_f32(vdivq_f32(series_b, six), cos_double_angular_midpoint), vmulq_f32(term2, term3));
-    float32x4_t delta_sigma = vmulq_f32(
-        series_b,
-        vmulq_f32(sin_angular_distance, vaddq_f32(cos_double_angular_midpoint,
-                                                  vmulq_f32(vdivq_f32(series_b, four), vsubq_f32(term1, term2)))));
+    float32x4_t cos_2sm_sq_f32x4 = vmulq_f32(cos_double_angular_midpoint_f32x4, cos_double_angular_midpoint_f32x4);
+    float32x4_t sin_sq_f32x4 = vmulq_f32(sin_angular_distance_f32x4, sin_angular_distance_f32x4);
+    float32x4_t term1_f32x4 = vfmaq_f32(vdupq_n_f32(-1.0f), two_f32x4, cos_2sm_sq_f32x4);
+    term1_f32x4 = vmulq_f32(cos_angular_distance_f32x4, term1_f32x4);
+    float32x4_t term2_f32x4 = vfmaq_f32(vdupq_n_f32(-3.0f), four_f32x4, sin_sq_f32x4);
+    float32x4_t term3_f32x4 = vfmaq_f32(vdupq_n_f32(-3.0f), four_f32x4, cos_2sm_sq_f32x4);
+    term2_f32x4 = vmulq_f32(vmulq_f32(vdivq_f32(series_b_f32x4, six_f32x4), cos_double_angular_midpoint_f32x4),
+                            vmulq_f32(term2_f32x4, term3_f32x4));
+    float32x4_t delta_sigma_f32x4 = vmulq_f32(
+        series_b_f32x4,
+        vmulq_f32(sin_angular_distance_f32x4,
+                  vaddq_f32(cos_double_angular_midpoint_f32x4,
+                            vmulq_f32(vdivq_f32(series_b_f32x4, four_f32x4), vsubq_f32(term1_f32x4, term2_f32x4)))));
     // s = b * A * (σ - Δσ)
-    float32x4_t distances = vmulq_f32(vmulq_f32(polar_radius, series_a), vsubq_f32(angular_distance, delta_sigma));
+    float32x4_t distances_f32x4 = vmulq_f32(vmulq_f32(polar_radius_f32x4, series_a_f32x4),
+                                            vsubq_f32(angular_distance_f32x4, delta_sigma_f32x4));
     // Set coincident points to zero
-    distances = vbslq_f32(coincident_mask, vdupq_n_f32(0.0f), distances);
+    distances_f32x4 = vbslq_f32(coincident_mask_u32x4, vdupq_n_f32(0.0f), distances_f32x4);
-    return distances;
+    return distances_f32x4;
 }
 NK_PUBLIC void nk_vincenty_f32_neon(                //
@@ -530,14 +574,14 @@ NK_PUBLIC void nk_vincenty_f32_neon(                //
     nk_size_t n, nk_f32_t *results) {
     while (n >= 4) {
-        float32x4_t first_latitudes = vld1q_f32(a_lats);
-        float32x4_t first_longitudes = vld1q_f32(a_lons);
-        float32x4_t second_latitudes = vld1q_f32(b_lats);
-        float32x4_t second_longitudes = vld1q_f32(b_lons);
+        float32x4_t first_latitudes_f32x4 = vld1q_f32(a_lats);
+        float32x4_t first_longitudes_f32x4 = vld1q_f32(a_lons);
+        float32x4_t second_latitudes_f32x4 = vld1q_f32(b_lats);
+        float32x4_t second_longitudes_f32x4 = vld1q_f32(b_lons);
-        float32x4_t distances = nk_vincenty_f32x4_neon_(first_latitudes, first_longitudes, second_latitudes,
-                                                        second_longitudes);
-        vst1q_f32(results, distances);
+        float32x4_t distances_f32x4 = nk_vincenty_f32x4_neon_(first_latitudes_f32x4, first_longitudes_f32x4,
+                                                              second_latitudes_f32x4, second_longitudes_f32x4);
+        vst1q_f32(results, distances_f32x4);
         a_lats += 4, a_lons += 4, b_lats += 4, b_lons += 4, results += 4, n -= 4;
     }
@@ -549,9 +593,9 @@ NK_PUBLIC void nk_vincenty_f32_neon(                //
         nk_partial_load_b32x4_serial_(a_lons, &a_lon_vec, n);
         nk_partial_load_b32x4_serial_(b_lats, &b_lat_vec, n);
         nk_partial_load_b32x4_serial_(b_lons, &b_lon_vec, n);
-        float32x4_t distances = nk_vincenty_f32x4_neon_(a_lat_vec.f32x4, a_lon_vec.f32x4, b_lat_vec.f32x4,
-                                                        b_lon_vec.f32x4);
-        result_vec.f32x4 = distances;
+        float32x4_t distances_f32x4 = nk_vincenty_f32x4_neon_(a_lat_vec.f32x4, a_lon_vec.f32x4, b_lat_vec.f32x4,
+                                                              b_lon_vec.f32x4);
+        result_vec.f32x4 = distances_f32x4;
         nk_partial_store_b32x4_serial_(&result_vec, results, n);
     }
 }