npm - numkong - Versions diffs - 7.0.0 - Mend

numkong 7.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (294) hide show

package/LICENSE +201 -0
package/README.md +495 -0
package/binding.gyp +540 -0
package/c/dispatch.h +512 -0
package/c/dispatch_bf16.c +389 -0
package/c/dispatch_bf16c.c +52 -0
package/c/dispatch_e2m3.c +263 -0
package/c/dispatch_e3m2.c +243 -0
package/c/dispatch_e4m3.c +276 -0
package/c/dispatch_e5m2.c +272 -0
package/c/dispatch_f16.c +376 -0
package/c/dispatch_f16c.c +58 -0
package/c/dispatch_f32.c +378 -0
package/c/dispatch_f32c.c +99 -0
package/c/dispatch_f64.c +296 -0
package/c/dispatch_f64c.c +98 -0
package/c/dispatch_i16.c +96 -0
package/c/dispatch_i32.c +89 -0
package/c/dispatch_i4.c +150 -0
package/c/dispatch_i64.c +86 -0
package/c/dispatch_i8.c +289 -0
package/c/dispatch_other.c +330 -0
package/c/dispatch_u1.c +148 -0
package/c/dispatch_u16.c +124 -0
package/c/dispatch_u32.c +118 -0
package/c/dispatch_u4.c +150 -0
package/c/dispatch_u64.c +102 -0
package/c/dispatch_u8.c +303 -0
package/c/numkong.c +950 -0
package/include/README.md +573 -0
package/include/module.modulemap +129 -0
package/include/numkong/attention/sapphireamx.h +1361 -0
package/include/numkong/attention/sme.h +2066 -0
package/include/numkong/attention.h +49 -0
package/include/numkong/capabilities.h +748 -0
package/include/numkong/cast/README.md +262 -0
package/include/numkong/cast/haswell.h +975 -0
package/include/numkong/cast/icelake.h +470 -0
package/include/numkong/cast/neon.h +1192 -0
package/include/numkong/cast/rvv.h +1021 -0
package/include/numkong/cast/sapphire.h +262 -0
package/include/numkong/cast/serial.h +2262 -0
package/include/numkong/cast/skylake.h +856 -0
package/include/numkong/cast/v128relaxed.h +180 -0
package/include/numkong/cast.h +230 -0
package/include/numkong/curved/README.md +223 -0
package/include/numkong/curved/genoa.h +182 -0
package/include/numkong/curved/haswell.h +276 -0
package/include/numkong/curved/neon.h +205 -0
package/include/numkong/curved/neonbfdot.h +212 -0
package/include/numkong/curved/neonhalf.h +212 -0
package/include/numkong/curved/rvv.h +305 -0
package/include/numkong/curved/serial.h +207 -0
package/include/numkong/curved/skylake.h +457 -0
package/include/numkong/curved/smef64.h +506 -0
package/include/numkong/curved.h +517 -0
package/include/numkong/curved.hpp +144 -0
package/include/numkong/dot/README.md +425 -0
package/include/numkong/dot/alder.h +563 -0
package/include/numkong/dot/genoa.h +315 -0
package/include/numkong/dot/haswell.h +1688 -0
package/include/numkong/dot/icelake.h +883 -0
package/include/numkong/dot/neon.h +818 -0
package/include/numkong/dot/neonbfdot.h +244 -0
package/include/numkong/dot/neonfhm.h +360 -0
package/include/numkong/dot/neonhalf.h +198 -0
package/include/numkong/dot/neonsdot.h +508 -0
package/include/numkong/dot/rvv.h +714 -0
package/include/numkong/dot/rvvbb.h +72 -0
package/include/numkong/dot/rvvbf16.h +123 -0
package/include/numkong/dot/rvvhalf.h +129 -0
package/include/numkong/dot/sapphire.h +141 -0
package/include/numkong/dot/serial.h +838 -0
package/include/numkong/dot/sierra.h +405 -0
package/include/numkong/dot/skylake.h +1084 -0
package/include/numkong/dot/sve.h +379 -0
package/include/numkong/dot/svebfdot.h +74 -0
package/include/numkong/dot/svehalf.h +123 -0
package/include/numkong/dot/v128relaxed.h +1258 -0
package/include/numkong/dot.h +1070 -0
package/include/numkong/dot.hpp +94 -0
package/include/numkong/dots/README.md +496 -0
package/include/numkong/dots/alder.h +114 -0
package/include/numkong/dots/genoa.h +94 -0
package/include/numkong/dots/haswell.h +295 -0
package/include/numkong/dots/icelake.h +171 -0
package/include/numkong/dots/neon.h +120 -0
package/include/numkong/dots/neonbfdot.h +58 -0
package/include/numkong/dots/neonfhm.h +94 -0
package/include/numkong/dots/neonhalf.h +57 -0
package/include/numkong/dots/neonsdot.h +108 -0
package/include/numkong/dots/rvv.h +2486 -0
package/include/numkong/dots/sapphireamx.h +3973 -0
package/include/numkong/dots/serial.h +2844 -0
package/include/numkong/dots/sierra.h +97 -0
package/include/numkong/dots/skylake.h +196 -0
package/include/numkong/dots/sme.h +5372 -0
package/include/numkong/dots/smebi32.h +461 -0
package/include/numkong/dots/smef64.h +1318 -0
package/include/numkong/dots/smehalf.h +47 -0
package/include/numkong/dots/v128relaxed.h +294 -0
package/include/numkong/dots.h +2804 -0
package/include/numkong/dots.hpp +639 -0
package/include/numkong/each/README.md +469 -0
package/include/numkong/each/haswell.h +1658 -0
package/include/numkong/each/icelake.h +272 -0
package/include/numkong/each/neon.h +1104 -0
package/include/numkong/each/neonbfdot.h +212 -0
package/include/numkong/each/neonhalf.h +410 -0
package/include/numkong/each/rvv.h +1121 -0
package/include/numkong/each/sapphire.h +477 -0
package/include/numkong/each/serial.h +260 -0
package/include/numkong/each/skylake.h +1562 -0
package/include/numkong/each.h +2146 -0
package/include/numkong/each.hpp +434 -0
package/include/numkong/geospatial/README.md +147 -0
package/include/numkong/geospatial/haswell.h +593 -0
package/include/numkong/geospatial/neon.h +571 -0
package/include/numkong/geospatial/rvv.h +701 -0
package/include/numkong/geospatial/serial.h +309 -0
package/include/numkong/geospatial/skylake.h +577 -0
package/include/numkong/geospatial/v128relaxed.h +613 -0
package/include/numkong/geospatial.h +453 -0
package/include/numkong/geospatial.hpp +235 -0
package/include/numkong/matrix.hpp +336 -0
package/include/numkong/maxsim/README.md +187 -0
package/include/numkong/maxsim/alder.h +511 -0
package/include/numkong/maxsim/genoa.h +115 -0
package/include/numkong/maxsim/haswell.h +553 -0
package/include/numkong/maxsim/icelake.h +480 -0
package/include/numkong/maxsim/neonsdot.h +394 -0
package/include/numkong/maxsim/sapphireamx.h +877 -0
package/include/numkong/maxsim/serial.h +490 -0
package/include/numkong/maxsim/sme.h +929 -0
package/include/numkong/maxsim/v128relaxed.h +280 -0
package/include/numkong/maxsim.h +571 -0
package/include/numkong/maxsim.hpp +133 -0
package/include/numkong/mesh/README.md +227 -0
package/include/numkong/mesh/haswell.h +2235 -0
package/include/numkong/mesh/neon.h +1329 -0
package/include/numkong/mesh/neonbfdot.h +842 -0
package/include/numkong/mesh/neonhalf.h +616 -0
package/include/numkong/mesh/rvv.h +916 -0
package/include/numkong/mesh/serial.h +742 -0
package/include/numkong/mesh/skylake.h +1135 -0
package/include/numkong/mesh/v128relaxed.h +1052 -0
package/include/numkong/mesh.h +652 -0
package/include/numkong/mesh.hpp +762 -0
package/include/numkong/numkong.h +78 -0
package/include/numkong/numkong.hpp +57 -0
package/include/numkong/probability/README.md +173 -0
package/include/numkong/probability/haswell.h +267 -0
package/include/numkong/probability/neon.h +225 -0
package/include/numkong/probability/rvv.h +409 -0
package/include/numkong/probability/serial.h +169 -0
package/include/numkong/probability/skylake.h +324 -0
package/include/numkong/probability.h +383 -0
package/include/numkong/probability.hpp +120 -0
package/include/numkong/random.h +50 -0
package/include/numkong/random.hpp +285 -0
package/include/numkong/reduce/README.md +547 -0
package/include/numkong/reduce/alder.h +632 -0
package/include/numkong/reduce/genoa.h +201 -0
package/include/numkong/reduce/haswell.h +3783 -0
package/include/numkong/reduce/icelake.h +549 -0
package/include/numkong/reduce/neon.h +3841 -0
package/include/numkong/reduce/neonbfdot.h +353 -0
package/include/numkong/reduce/neonfhm.h +665 -0
package/include/numkong/reduce/neonhalf.h +157 -0
package/include/numkong/reduce/neonsdot.h +357 -0
package/include/numkong/reduce/rvv.h +3407 -0
package/include/numkong/reduce/serial.h +757 -0
package/include/numkong/reduce/sierra.h +338 -0
package/include/numkong/reduce/skylake.h +3792 -0
package/include/numkong/reduce/v128relaxed.h +2302 -0
package/include/numkong/reduce.h +1597 -0
package/include/numkong/reduce.hpp +633 -0
package/include/numkong/scalar/README.md +89 -0
package/include/numkong/scalar/haswell.h +113 -0
package/include/numkong/scalar/neon.h +122 -0
package/include/numkong/scalar/neonhalf.h +70 -0
package/include/numkong/scalar/rvv.h +211 -0
package/include/numkong/scalar/sapphire.h +63 -0
package/include/numkong/scalar/serial.h +332 -0
package/include/numkong/scalar/v128relaxed.h +56 -0
package/include/numkong/scalar.h +683 -0
package/include/numkong/set/README.md +179 -0
package/include/numkong/set/haswell.h +334 -0
package/include/numkong/set/icelake.h +485 -0
package/include/numkong/set/neon.h +364 -0
package/include/numkong/set/rvv.h +226 -0
package/include/numkong/set/rvvbb.h +117 -0
package/include/numkong/set/serial.h +174 -0
package/include/numkong/set/sve.h +185 -0
package/include/numkong/set/v128relaxed.h +240 -0
package/include/numkong/set.h +457 -0
package/include/numkong/set.hpp +114 -0
package/include/numkong/sets/README.md +149 -0
package/include/numkong/sets/haswell.h +63 -0
package/include/numkong/sets/icelake.h +66 -0
package/include/numkong/sets/neon.h +61 -0
package/include/numkong/sets/serial.h +43 -0
package/include/numkong/sets/smebi32.h +1099 -0
package/include/numkong/sets/v128relaxed.h +58 -0
package/include/numkong/sets.h +339 -0
package/include/numkong/sparse/README.md +156 -0
package/include/numkong/sparse/icelake.h +463 -0
package/include/numkong/sparse/neon.h +288 -0
package/include/numkong/sparse/serial.h +117 -0
package/include/numkong/sparse/sve2.h +507 -0
package/include/numkong/sparse/turin.h +322 -0
package/include/numkong/sparse.h +363 -0
package/include/numkong/sparse.hpp +113 -0
package/include/numkong/spatial/README.md +435 -0
package/include/numkong/spatial/alder.h +607 -0
package/include/numkong/spatial/genoa.h +290 -0
package/include/numkong/spatial/haswell.h +960 -0
package/include/numkong/spatial/icelake.h +586 -0
package/include/numkong/spatial/neon.h +773 -0
package/include/numkong/spatial/neonbfdot.h +165 -0
package/include/numkong/spatial/neonhalf.h +118 -0
package/include/numkong/spatial/neonsdot.h +261 -0
package/include/numkong/spatial/rvv.h +984 -0
package/include/numkong/spatial/rvvbf16.h +123 -0
package/include/numkong/spatial/rvvhalf.h +117 -0
package/include/numkong/spatial/sapphire.h +343 -0
package/include/numkong/spatial/serial.h +346 -0
package/include/numkong/spatial/sierra.h +323 -0
package/include/numkong/spatial/skylake.h +606 -0
package/include/numkong/spatial/sve.h +224 -0
package/include/numkong/spatial/svebfdot.h +122 -0
package/include/numkong/spatial/svehalf.h +109 -0
package/include/numkong/spatial/v128relaxed.h +717 -0
package/include/numkong/spatial.h +1425 -0
package/include/numkong/spatial.hpp +183 -0
package/include/numkong/spatials/README.md +580 -0
package/include/numkong/spatials/alder.h +94 -0
package/include/numkong/spatials/genoa.h +94 -0
package/include/numkong/spatials/haswell.h +219 -0
package/include/numkong/spatials/icelake.h +113 -0
package/include/numkong/spatials/neon.h +109 -0
package/include/numkong/spatials/neonbfdot.h +60 -0
package/include/numkong/spatials/neonfhm.h +92 -0
package/include/numkong/spatials/neonhalf.h +58 -0
package/include/numkong/spatials/neonsdot.h +109 -0
package/include/numkong/spatials/rvv.h +1960 -0
package/include/numkong/spatials/sapphireamx.h +1149 -0
package/include/numkong/spatials/serial.h +226 -0
package/include/numkong/spatials/sierra.h +96 -0
package/include/numkong/spatials/skylake.h +184 -0
package/include/numkong/spatials/sme.h +1901 -0
package/include/numkong/spatials/smef64.h +465 -0
package/include/numkong/spatials/v128relaxed.h +240 -0
package/include/numkong/spatials.h +3021 -0
package/include/numkong/spatials.hpp +508 -0
package/include/numkong/tensor.hpp +1592 -0
package/include/numkong/trigonometry/README.md +184 -0
package/include/numkong/trigonometry/haswell.h +652 -0
package/include/numkong/trigonometry/neon.h +639 -0
package/include/numkong/trigonometry/rvv.h +699 -0
package/include/numkong/trigonometry/serial.h +703 -0
package/include/numkong/trigonometry/skylake.h +721 -0
package/include/numkong/trigonometry/v128relaxed.h +666 -0
package/include/numkong/trigonometry.h +467 -0
package/include/numkong/trigonometry.hpp +166 -0
package/include/numkong/types.h +1384 -0
package/include/numkong/types.hpp +5603 -0
package/include/numkong/vector.hpp +698 -0
package/javascript/README.md +246 -0
package/javascript/dist/cjs/numkong-wasm.d.ts +166 -0
package/javascript/dist/cjs/numkong-wasm.js +617 -0
package/javascript/dist/cjs/numkong.d.ts +343 -0
package/javascript/dist/cjs/numkong.js +523 -0
package/javascript/dist/cjs/package.json +3 -0
package/javascript/dist/cjs/types.d.ts +284 -0
package/javascript/dist/cjs/types.js +653 -0
package/javascript/dist/esm/numkong-wasm.d.ts +166 -0
package/javascript/dist/esm/numkong-wasm.js +595 -0
package/javascript/dist/esm/numkong.d.ts +343 -0
package/javascript/dist/esm/numkong.js +452 -0
package/javascript/dist/esm/package.json +3 -0
package/javascript/dist/esm/types.d.ts +284 -0
package/javascript/dist/esm/types.js +630 -0
package/javascript/dist-package-cjs.json +3 -0
package/javascript/dist-package-esm.json +3 -0
package/javascript/node-gyp-build.d.ts +1 -0
package/javascript/numkong-wasm.ts +756 -0
package/javascript/numkong.c +689 -0
package/javascript/numkong.ts +575 -0
package/javascript/tsconfig-base.json +39 -0
package/javascript/tsconfig-cjs.json +8 -0
package/javascript/tsconfig-esm.json +8 -0
package/javascript/types.ts +674 -0
package/package.json +87 -0

package/include/numkong/trigonometry.h ADDED Viewed

@@ -0,0 +1,467 @@
+/**
+ *  @brief SIMD-accelerated Trigonometric Functions.
+ *  @file include/numkong/trigonometry.h
+ *  @author Ash Vardanian
+ *  @date July 1, 2023
+ *  @see SLEEF: https://sleef.org/
+ *
+ *  Contains:
+ *
+ *  - Sine and Cosine approximations: fast for `f32` vs accurate for `f64`
+ *  - Tangent and the 2-argument arctangent: fast for `f32` vs accurate for `f64`
+ *
+ *  For dtypes:
+ *
+ *  - 64-bit IEEE-754 floating point
+ *  - 32-bit IEEE-754 floating point
+ *  - 16-bit IEEE-754 floating point
+ *
+ *  For hardware architectures:
+ *
+ *  - Arm: NEON
+ *  - x86: Haswell, Skylake, Sapphire Rapids
+ *
+ *  Those functions partially complement the `each.h` module, and are necessary for
+ *  the `geospatial.h` module, among others. Both Haversine and Vincenty's formulas require
+ *  trigonometric functions, and those are the most expensive part of the computation.
+ *
+ *  @section glibc_math GLibC IEEE-754-compliant Math Functions
+ *
+ *  The GNU C Library (GLibC) provides a set of IEEE-754-compliant math functions, like `sinf`, `cosf`,
+ *  and double-precision variants `sin`, `cos`. Those functions are accurate to ~0.55 ULP (units in the
+ *  last place), but can be slow to evaluate. They use a combination of techniques, like:
+ *
+ *  - Taylor series expansions for small values.
+ *  - Table lookups combined with corrections for moderate values.
+ *  - Accurate modulo reduction for large values.
+ *
+ *  The precomputed tables may be the hardest part to accelerate with SIMD, as they contain 440x values,
+ *  each 64-bit wide.
+ *
+ *  https://github.com/lattera/glibc/blob/895ef79e04a953cac1493863bcae29ad85657ee1/sysdeps/ieee754/dbl-64/branred.c#L54
+ *  https://github.com/lattera/glibc/blob/895ef79e04a953cac1493863bcae29ad85657ee1/sysdeps/ieee754/dbl-64/s_sin.c#L84
+ *
+ *  @section approximation_algorithms Approximation Algorithms
+ *
+ *  There are several ways to approximate trigonometric functions, and the choice depends on the
+ *  target hardware and the desired precision. Notably:
+ *
+ *  - Taylor Series approximation is a series expansion of a sum of its derivatives at a target point.
+ *    It's easy to derive for differentiable functions, works well for functions smooth around the
+ *    expsansion point, but can perform poorly for functions with singularities or high-frequency
+ *    oscillations.
+ *
+ *  - Pade approximations are rational functions that approximate a function by a ratio of polynomials.
+ *    It often converges faster than Taylor for functions with singularities or steep changes, provides
+ *    good approximations for both smooth and rational functions, but can be more computationally
+ *    intensive to evaluate, and can have holes (undefined points).
+ *
+ *  Moreover, most approximations can be combined with Horner's methods of evaluating polynomials
+ *  to reduce the number of multiplications and additions, and to improve the numerical stability.
+ *  In trigonometry, the Payne-Hanek Range Reduction is another technique used to reduce the argument
+ *  to a smaller range, where the approximation is more accurate.
+ *
+ *  @section optimization_notes Optimization Notes
+ *
+ *  The following optimizations were evaluated but did not yield performance improvements:
+ *
+ *  - Estrin's scheme for polynomial evaluation: This tree-based approach reduces the dependency depth
+ *    from N sequential FMAs to log2(N) by computing powers of x in parallel with partial sums.
+ *    For an 8-term polynomial, Estrin reduces depth from 7 to 3. However, benchmarks showed ~20%
+ *    regression because the extra MUL operations for computing x², x⁴, x⁸ hurt throughput more
+ *    than the reduced dependency depth helps latency. For large arrays, out-of-order execution
+ *    across loop iterations already hides FMA latency, making throughput the bottleneck.
+ *
+ *  - RCPPS with Newton-Raphson refinement: Fast reciprocal approximation (~4 cycles) with one
+ *    refinement iteration for ~22-bit precision, tested as an alternative to VDIVPS (~11 cycles).
+ *    Did not improve performance when combined with Estrin's scheme, likely because the division
+ *    is not on the critical path when processing large arrays.
+ *
+ *  @section x86_instructions Relevant x86 Instructions
+ *
+ *  Polynomial evaluation (Horner's method) for sin/cos/tan uses chained FMAs - the 4-cycle latency
+ *  is hidden by out-of-order execution across iterations. Range reduction uses VRNDSCALE for fast
+ *  rounding (notably 3x faster on Genoa than Ice Lake). VFPCLASS detects NaN/Inf inputs for special
+ *  case handling. Division appears in tangent's final step but isn't on the critical path.
+ *
+ *      Intrinsic               Instruction                     Ice         Genoa
+ *      _mm512_roundscale_ps    VRNDSCALEPS (ZMM, ZMM, I8)      8c @ p0     3c @ p23
+ *      _mm512_roundscale_pd    VRNDSCALEPD (ZMM, ZMM, I8)      8c @ p0     3c @ p23
+ *      _mm512_fpclass_ps_mask  VFPCLASSPS (K, ZMM, I8)         3c @ p5     5c @ p01
+ *      _mm512_fmadd_ps         VFMADD231PS (ZMM, ZMM, ZMM)     4c @ p0     4c @ p01
+ *      _mm256_fmadd_ps         VFMADD231PS (YMM, YMM, YMM)     4c @ p01    4c @ p01
+ *      _mm256_div_ps           VDIVPS (YMM, YMM, YMM)          ~14c @ p0   ~11c @ p01
+ *      _mm256_div_pd           VDIVPD (YMM, YMM, YMM)          ~23c @ p0   ~13c @ p01
+ *
+ *  @section arm_instructions Relevant ARM NEON/SVE Instructions
+ *
+ *  ARM implementations use the same Horner polynomial approach with FMLA chains. FRINTA provides
+ *  fast rounding for range reduction. The 4-cycle FMA latency with 4 inst/cycle throughput allows
+ *  excellent pipelining when processing multiple elements.
+ *
+ *      Intrinsic               Instruction     M1 Firestorm    Graviton 3      Graviton 4
+ *      vfmaq_f32               FMLA.S (vec)    4c @ V0123      4c @ V0123      4c @ V0123
+ *      vfmaq_f64               FMLA.D (vec)    4c @ V0123      4c @ V0123      4c @ V0123
+ *      vrndaq_f32              FRINTA.S        2c @ V0123      2c @ V01        2c @ V01
+ *
+ *  @section references References
+ *
+ *  - x86 intrinsics: https://www.intel.com/content/www/us/en/docs/intrinsics-guide/
+ *  - Arm intrinsics: https://developer.arm.com/architectures/instruction-sets/intrinsics/
+ *
+ */
+#ifndef NK_TRIGONOMETRY_H
+#define NK_TRIGONOMETRY_H
+#include "numkong/types.h"
+#if defined(__cplusplus)
+extern "C" {
+#endif
+/**
+ *  @brief Element-wise sine over f64 inputs in radians.
+ *
+ *  @param[in] ins Input array of angles in radians.
+ *  @param[in] n Number of elements in the input/output arrays.
+ *  @param[out] outs Output array of sine values.
+ */
+NK_DYNAMIC void nk_each_sin_f64(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs);
+/**
+ *  @brief Element-wise cosine over f64 inputs in radians.
+ *
+ *  @param[in] ins Input array of angles in radians.
+ *  @param[in] n Number of elements in the input/output arrays.
+ *  @param[out] outs Output array of cosine values.
+ */
+NK_DYNAMIC void nk_each_cos_f64(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs);
+/**
+ *  @brief Element-wise arc-tangent over f64 inputs.
+ *
+ *  @param[in] ins Input array of input values.
+ *  @param[in] n Number of elements in the input/output arrays.
+ *  @param[out] outs Output array of arc-tangent values.
+ */
+NK_DYNAMIC void nk_each_atan_f64(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs);
+/**
+ *  @brief Element-wise sine over f32 inputs in radians.
+ *
+ *  @param[in] ins Input array of angles in radians.
+ *  @param[in] n Number of elements in the input/output arrays.
+ *  @param[out] outs Output array of sine values.
+ */
+NK_DYNAMIC void nk_each_sin_f32(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs);
+/**
+ *  @brief Element-wise cosine over f32 inputs in radians.
+ *
+ *  @param[in] ins Input array of angles in radians.
+ *  @param[in] n Number of elements in the input/output arrays.
+ *  @param[out] outs Output array of cosine values.
+ */
+NK_DYNAMIC void nk_each_cos_f32(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs);
+/**
+ *  @brief Element-wise arc-tangent over f32 inputs.
+ *
+ *  @param[in] ins Input array of input values.
+ *  @param[in] n Number of elements in the input/output arrays.
+ *  @param[out] outs Output array of arc-tangent values.
+ */
+NK_DYNAMIC void nk_each_atan_f32(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs);
+/**
+ *  @brief Element-wise sine over f16 inputs in radians.
+ *
+ *  @param[in] ins Input array of angles in radians.
+ *  @param[in] n Number of elements in the input/output arrays.
+ *  @param[out] outs Output array of sine values.
+ */
+NK_DYNAMIC void nk_each_sin_f16(nk_f16_t const *ins, nk_size_t n, nk_f16_t *outs);
+/**
+ *  @brief Element-wise cosine over f16 inputs in radians.
+ *
+ *  @param[in] ins Input array of angles in radians.
+ *  @param[in] n Number of elements in the input/output arrays.
+ *  @param[out] outs Output array of cosine values.
+ */
+NK_DYNAMIC void nk_each_cos_f16(nk_f16_t const *ins, nk_size_t n, nk_f16_t *outs);
+/**
+ *  @brief Element-wise arc-tangent over f16 inputs.
+ *
+ *  @param[in] ins Input array of input values.
+ *  @param[in] n Number of elements in the input/output arrays.
+ *  @param[out] outs Output array of arc-tangent values.
+ */
+NK_DYNAMIC void nk_each_atan_f16(nk_f16_t const *ins, nk_size_t n, nk_f16_t *outs);
+/** @copydoc nk_each_sin_f64 */
+NK_PUBLIC void nk_each_sin_f64_serial(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs);
+/** @copydoc nk_each_cos_f64 */
+NK_PUBLIC void nk_each_cos_f64_serial(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs);
+/** @copydoc nk_each_atan_f64 */
+NK_PUBLIC void nk_each_atan_f64_serial(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs);
+/** @copydoc nk_each_sin_f32 */
+NK_PUBLIC void nk_each_sin_f32_serial(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs);
+/** @copydoc nk_each_cos_f32 */
+NK_PUBLIC void nk_each_cos_f32_serial(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs);
+/** @copydoc nk_each_atan_f32 */
+NK_PUBLIC void nk_each_atan_f32_serial(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs);
+/** @copydoc nk_each_sin_f16 */
+NK_PUBLIC void nk_each_sin_f16_serial(nk_f16_t const *ins, nk_size_t n, nk_f16_t *outs);
+/** @copydoc nk_each_cos_f16 */
+NK_PUBLIC void nk_each_cos_f16_serial(nk_f16_t const *ins, nk_size_t n, nk_f16_t *outs);
+/** @copydoc nk_each_atan_f16 */
+NK_PUBLIC void nk_each_atan_f16_serial(nk_f16_t const *ins, nk_size_t n, nk_f16_t *outs);
+#if NK_TARGET_NEON
+/** @copydoc nk_each_sin_f64 */
+NK_PUBLIC void nk_each_sin_f64_neon(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs);
+/** @copydoc nk_each_cos_f64 */
+NK_PUBLIC void nk_each_cos_f64_neon(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs);
+/** @copydoc nk_each_atan_f64 */
+NK_PUBLIC void nk_each_atan_f64_neon(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs);
+/** @copydoc nk_each_sin_f32 */
+NK_PUBLIC void nk_each_sin_f32_neon(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs);
+/** @copydoc nk_each_cos_f32 */
+NK_PUBLIC void nk_each_cos_f32_neon(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs);
+/** @copydoc nk_each_atan_f32 */
+NK_PUBLIC void nk_each_atan_f32_neon(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs);
+#endif // NK_TARGET_NEON
+/*  SIMD-powered backends for AVX2 CPUs of Haswell generation and newer, using 32-bit arithmetic over 256-bit words.
+ *  First demonstrated in 2011, at least one Haswell-based processor was still being sold in 2022 — the Pentium G3420.
+ *  Practically all modern x86 CPUs support AVX2, FMA, and F16C, making it a perfect baseline for SIMD algorithms.
+ *  On other hand, there is no need to implement AVX2 versions of `f32` and `f64` functions, as those are
+ *  properly vectorized by recent compilers.
+ */
+#if NK_TARGET_HASWELL
+/** @copydoc nk_each_sin_f64 */
+NK_PUBLIC void nk_each_sin_f64_haswell(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs);
+/** @copydoc nk_each_cos_f64 */
+NK_PUBLIC void nk_each_cos_f64_haswell(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs);
+/** @copydoc nk_each_atan_f64 */
+NK_PUBLIC void nk_each_atan_f64_haswell(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs);
+/** @copydoc nk_each_sin_f32 */
+NK_PUBLIC void nk_each_sin_f32_haswell(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs);
+/** @copydoc nk_each_cos_f32 */
+NK_PUBLIC void nk_each_cos_f32_haswell(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs);
+/** @copydoc nk_each_atan_f32 */
+NK_PUBLIC void nk_each_atan_f32_haswell(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs);
+#endif // NK_TARGET_HASWELL
+/*  SIMD-powered backends for various generations of AVX512 CPUs.
+ *  Skylake is handy, as it supports masked loads and other operations, avoiding the need for the tail loop.
+ */
+#if NK_TARGET_SKYLAKE
+/** @copydoc nk_each_sin_f64 */
+NK_PUBLIC void nk_each_sin_f64_skylake(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs);
+/** @copydoc nk_each_cos_f64 */
+NK_PUBLIC void nk_each_cos_f64_skylake(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs);
+/** @copydoc nk_each_atan_f64 */
+NK_PUBLIC void nk_each_atan_f64_skylake(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs);
+/** @copydoc nk_each_sin_f32 */
+NK_PUBLIC void nk_each_sin_f32_skylake(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs);
+/** @copydoc nk_each_cos_f32 */
+NK_PUBLIC void nk_each_cos_f32_skylake(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs);
+/** @copydoc nk_each_atan_f32 */
+NK_PUBLIC void nk_each_atan_f32_skylake(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs);
+/** @copydoc nk_each_sin_f16 */
+NK_PUBLIC void nk_each_sin_f16_skylake(nk_f16_t const *ins, nk_size_t n, nk_f16_t *outs);
+/** @copydoc nk_each_cos_f16 */
+NK_PUBLIC void nk_each_cos_f16_skylake(nk_f16_t const *ins, nk_size_t n, nk_f16_t *outs);
+/** @copydoc nk_each_atan_f16 */
+NK_PUBLIC void nk_each_atan_f16_skylake(nk_f16_t const *ins, nk_size_t n, nk_f16_t *outs);
+#endif // NK_TARGET_SKYLAKE
+#if NK_TARGET_V128RELAXED
+/** @copydoc nk_each_sin_f64 */
+NK_PUBLIC void nk_each_sin_f64_v128relaxed(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs);
+/** @copydoc nk_each_cos_f64 */
+NK_PUBLIC void nk_each_cos_f64_v128relaxed(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs);
+/** @copydoc nk_each_atan_f64 */
+NK_PUBLIC void nk_each_atan_f64_v128relaxed(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs);
+/** @copydoc nk_each_sin_f32 */
+NK_PUBLIC void nk_each_sin_f32_v128relaxed(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs);
+/** @copydoc nk_each_cos_f32 */
+NK_PUBLIC void nk_each_cos_f32_v128relaxed(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs);
+/** @copydoc nk_each_atan_f32 */
+NK_PUBLIC void nk_each_atan_f32_v128relaxed(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs);
+#endif // NK_TARGET_V128RELAXED
+#if NK_TARGET_RVV
+/** @copydoc nk_each_sin_f64 */
+NK_PUBLIC void nk_each_sin_f64_rvv(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs);
+/** @copydoc nk_each_cos_f64 */
+NK_PUBLIC void nk_each_cos_f64_rvv(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs);
+/** @copydoc nk_each_atan_f64 */
+NK_PUBLIC void nk_each_atan_f64_rvv(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs);
+/** @copydoc nk_each_sin_f32 */
+NK_PUBLIC void nk_each_sin_f32_rvv(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs);
+/** @copydoc nk_each_cos_f32 */
+NK_PUBLIC void nk_each_cos_f32_rvv(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs);
+/** @copydoc nk_each_atan_f32 */
+NK_PUBLIC void nk_each_atan_f32_rvv(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs);
+/** @copydoc nk_each_sin_f16 */
+NK_PUBLIC void nk_each_sin_f16_rvv(nk_f16_t const *ins, nk_size_t n, nk_f16_t *outs);
+/** @copydoc nk_each_cos_f16 */
+NK_PUBLIC void nk_each_cos_f16_rvv(nk_f16_t const *ins, nk_size_t n, nk_f16_t *outs);
+/** @copydoc nk_each_atan_f16 */
+NK_PUBLIC void nk_each_atan_f16_rvv(nk_f16_t const *ins, nk_size_t n, nk_f16_t *outs);
+#endif // NK_TARGET_RVV
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#include "numkong/trigonometry/serial.h"
+#include "numkong/trigonometry/neon.h"
+#include "numkong/trigonometry/haswell.h"
+#include "numkong/trigonometry/skylake.h"
+#include "numkong/trigonometry/v128relaxed.h"
+#include "numkong/trigonometry/rvv.h"
+#if defined(__cplusplus)
+extern "C" {
+#endif
+#if !NK_DYNAMIC_DISPATCH
+NK_PUBLIC void nk_each_sin_f64(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs) {
+#if NK_TARGET_NEON
+    nk_each_sin_f64_neon(ins, n, outs);
+#elif NK_TARGET_SKYLAKE
+    nk_each_sin_f64_skylake(ins, n, outs);
+#elif NK_TARGET_HASWELL
+    nk_each_sin_f64_haswell(ins, n, outs);
+#elif NK_TARGET_V128RELAXED
+    nk_each_sin_f64_v128relaxed(ins, n, outs);
+#elif NK_TARGET_RVV
+    nk_each_sin_f64_rvv(ins, n, outs);
+#else
+    nk_each_sin_f64_serial(ins, n, outs);
+#endif
+}
+NK_PUBLIC void nk_each_cos_f64(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs) {
+#if NK_TARGET_NEON
+    nk_each_cos_f64_neon(ins, n, outs);
+#elif NK_TARGET_SKYLAKE
+    nk_each_cos_f64_skylake(ins, n, outs);
+#elif NK_TARGET_HASWELL
+    nk_each_cos_f64_haswell(ins, n, outs);
+#elif NK_TARGET_V128RELAXED
+    nk_each_cos_f64_v128relaxed(ins, n, outs);
+#elif NK_TARGET_RVV
+    nk_each_cos_f64_rvv(ins, n, outs);
+#else
+    nk_each_cos_f64_serial(ins, n, outs);
+#endif
+}
+NK_PUBLIC void nk_each_atan_f64(nk_f64_t const *ins, nk_size_t n, nk_f64_t *outs) {
+#if NK_TARGET_NEON
+    nk_each_atan_f64_neon(ins, n, outs);
+#elif NK_TARGET_SKYLAKE
+    nk_each_atan_f64_skylake(ins, n, outs);
+#elif NK_TARGET_HASWELL
+    nk_each_atan_f64_haswell(ins, n, outs);
+#elif NK_TARGET_V128RELAXED
+    nk_each_atan_f64_v128relaxed(ins, n, outs);
+#elif NK_TARGET_RVV
+    nk_each_atan_f64_rvv(ins, n, outs);
+#else
+    nk_each_atan_f64_serial(ins, n, outs);
+#endif
+}
+NK_PUBLIC void nk_each_sin_f32(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs) {
+#if NK_TARGET_NEON
+    nk_each_sin_f32_neon(ins, n, outs);
+#elif NK_TARGET_SKYLAKE
+    nk_each_sin_f32_skylake(ins, n, outs);
+#elif NK_TARGET_HASWELL
+    nk_each_sin_f32_haswell(ins, n, outs);
+#elif NK_TARGET_V128RELAXED
+    nk_each_sin_f32_v128relaxed(ins, n, outs);
+#elif NK_TARGET_RVV
+    nk_each_sin_f32_rvv(ins, n, outs);
+#else
+    nk_each_sin_f32_serial(ins, n, outs);
+#endif
+}
+NK_PUBLIC void nk_each_cos_f32(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs) {
+#if NK_TARGET_NEON
+    nk_each_cos_f32_neon(ins, n, outs);
+#elif NK_TARGET_SKYLAKE
+    nk_each_cos_f32_skylake(ins, n, outs);
+#elif NK_TARGET_HASWELL
+    nk_each_cos_f32_haswell(ins, n, outs);
+#elif NK_TARGET_V128RELAXED
+    nk_each_cos_f32_v128relaxed(ins, n, outs);
+#elif NK_TARGET_RVV
+    nk_each_cos_f32_rvv(ins, n, outs);
+#else
+    nk_each_cos_f32_serial(ins, n, outs);
+#endif
+}
+NK_PUBLIC void nk_each_atan_f32(nk_f32_t const *ins, nk_size_t n, nk_f32_t *outs) {
+#if NK_TARGET_NEON
+    nk_each_atan_f32_neon(ins, n, outs);
+#elif NK_TARGET_SKYLAKE
+    nk_each_atan_f32_skylake(ins, n, outs);
+#elif NK_TARGET_HASWELL
+    nk_each_atan_f32_haswell(ins, n, outs);
+#elif NK_TARGET_V128RELAXED
+    nk_each_atan_f32_v128relaxed(ins, n, outs);
+#elif NK_TARGET_RVV
+    nk_each_atan_f32_rvv(ins, n, outs);
+#else
+    nk_each_atan_f32_serial(ins, n, outs);
+#endif
+}
+NK_PUBLIC void nk_each_sin_f16(nk_f16_t const *ins, nk_size_t n, nk_f16_t *outs) {
+#if NK_TARGET_SKYLAKE
+    nk_each_sin_f16_skylake(ins, n, outs);
+#elif NK_TARGET_RVV
+    nk_each_sin_f16_rvv(ins, n, outs);
+#else
+    nk_each_sin_f16_serial(ins, n, outs);
+#endif
+}
+NK_PUBLIC void nk_each_cos_f16(nk_f16_t const *ins, nk_size_t n, nk_f16_t *outs) {
+#if NK_TARGET_SKYLAKE
+    nk_each_cos_f16_skylake(ins, n, outs);
+#elif NK_TARGET_RVV
+    nk_each_cos_f16_rvv(ins, n, outs);
+#else
+    nk_each_cos_f16_serial(ins, n, outs);
+#endif
+}
+NK_PUBLIC void nk_each_atan_f16(nk_f16_t const *ins, nk_size_t n, nk_f16_t *outs) {
+#if NK_TARGET_SKYLAKE
+    nk_each_atan_f16_skylake(ins, n, outs);
+#elif NK_TARGET_RVV
+    nk_each_atan_f16_rvv(ins, n, outs);
+#else
+    nk_each_atan_f16_serial(ins, n, outs);
+#endif
+}
+#endif // !NK_DYNAMIC_DISPATCH
+#if defined(__cplusplus)
+} // extern "C"
+#endif
+#endif // NK_TRIGONOMETRY_H

package/include/numkong/trigonometry.hpp ADDED Viewed

@@ -0,0 +1,166 @@
+/**
+ *  @brief C++ bindings for trigonometric kernels.
+ *  @file include/numkong/trigonometry.hpp
+ *  @author Ash Vardanian
+ *  @date February 5, 2026
+ */
+#ifndef NK_TRIGONOMETRY_HPP
+#define NK_TRIGONOMETRY_HPP
+#include <cstdint>
+#include <type_traits>
+#include "numkong/trigonometry.h"
+#include "numkong/types.hpp"
+namespace ashvardanian::numkong {
+/**
+ *  @brief Array sine: outᵢ = sin(inᵢ)
+ *  @param[in] in Input array
+ *  @param[in] n Number of elements
+ *  @param[out] out Output array
+ *
+ *  @tparam in_type_ Element type (f32_t, f64_t, f16_t)
+ *  @tparam precision_type_ Precision type for scalar fallback, defaults to `in_type_`
+ *  @tparam allow_simd_ Enable SIMD kernel dispatch when `prefer_simd_k`
+ */
+template <numeric_dtype in_type_, numeric_dtype precision_type_ = in_type_, allow_simd_t allow_simd_ = prefer_simd_k>
+void sin(in_type_ const *in, std::size_t n, in_type_ *out) noexcept {
+    constexpr bool simd = allow_simd_ == prefer_simd_k && std::is_same_v<in_type_, precision_type_>;
+    if constexpr (std::is_same_v<in_type_, f64_t> && simd) nk_each_sin_f64(&in->raw_, n, &out->raw_);
+    else if constexpr (std::is_same_v<in_type_, f32_t> && simd) nk_each_sin_f32(&in->raw_, n, &out->raw_);
+    else if constexpr (std::is_same_v<in_type_, f16_t> && simd) nk_each_sin_f16(&in->raw_, n, &out->raw_);
+    // Scalar fallback
+    else {
+        for (std::size_t i = 0; i < n; i++) out[i] = in_type_(precision_type_(in[i]).sin());
+    }
+}
+/**
+ *  @brief Array cosine: outᵢ = cos(inᵢ)
+ *  @param[in] in Input array
+ *  @param[in] n Number of elements
+ *  @param[out] out Output array
+ *
+ *  @tparam in_type_ Element type (f32_t, f64_t, f16_t)
+ *  @tparam precision_type_ Precision type for scalar fallback, defaults to `in_type_`
+ *  @tparam allow_simd_ Enable SIMD kernel dispatch when `prefer_simd_k`
+ */
+template <numeric_dtype in_type_, numeric_dtype precision_type_ = in_type_, allow_simd_t allow_simd_ = prefer_simd_k>
+void cos(in_type_ const *in, std::size_t n, in_type_ *out) noexcept {
+    constexpr bool simd = allow_simd_ == prefer_simd_k && std::is_same_v<in_type_, precision_type_>;
+    if constexpr (std::is_same_v<in_type_, f64_t> && simd) nk_each_cos_f64(&in->raw_, n, &out->raw_);
+    else if constexpr (std::is_same_v<in_type_, f32_t> && simd) nk_each_cos_f32(&in->raw_, n, &out->raw_);
+    else if constexpr (std::is_same_v<in_type_, f16_t> && simd) nk_each_cos_f16(&in->raw_, n, &out->raw_);
+    // Scalar fallback
+    else {
+        for (std::size_t i = 0; i < n; i++) out[i] = in_type_(precision_type_(in[i]).cos());
+    }
+}
+/**
+ *  @brief Array arctangent: outᵢ = arctan(inᵢ)
+ *  @param[in] in Input array
+ *  @param[in] n Number of elements
+ *  @param[out] out Output array
+ *
+ *  @tparam in_type_ Element type (f32_t, f64_t, f16_t)
+ *  @tparam precision_type_ Precision type for scalar fallback, defaults to `in_type_`
+ *  @tparam allow_simd_ Enable SIMD kernel dispatch when `prefer_simd_k`
+ */
+template <numeric_dtype in_type_, numeric_dtype precision_type_ = in_type_, allow_simd_t allow_simd_ = prefer_simd_k>
+void atan(in_type_ const *in, std::size_t n, in_type_ *out) noexcept {
+    constexpr bool simd = allow_simd_ == prefer_simd_k && std::is_same_v<in_type_, precision_type_>;
+    if constexpr (std::is_same_v<in_type_, f64_t> && simd) nk_each_atan_f64(&in->raw_, n, &out->raw_);
+    else if constexpr (std::is_same_v<in_type_, f32_t> && simd) nk_each_atan_f32(&in->raw_, n, &out->raw_);
+    else if constexpr (std::is_same_v<in_type_, f16_t> && simd) nk_each_atan_f16(&in->raw_, n, &out->raw_);
+    // Scalar fallback
+    else {
+        for (std::size_t i = 0; i < n; i++) out[i] = in_type_(precision_type_(in[i]).atan());
+    }
+}
+} // namespace ashvardanian::numkong
+#include "numkong/tensor.hpp"
+namespace ashvardanian::numkong {
+#pragma region - Tensor Trigonometric
+/** @brief Elementwise sin into pre-allocated output. */
+template <numeric_dtype value_type_, std::size_t max_rank_ = 8>
+bool sin(tensor_view<value_type_, max_rank_> input, tensor_span<value_type_, max_rank_> output) noexcept {
+    return elementwise_into_<value_type_, max_rank_>(
+        input, output, [](tensor_view<value_type_, max_rank_> in, tensor_span<value_type_, max_rank_> out) {
+            numkong::sin<value_type_>(in.data(), in.extent(0), out.data());
+        });
+}
+/** @brief Allocating sin. */
+template <numeric_dtype value_type_, std::size_t max_rank_ = 8,
+          typename allocator_type_ = aligned_allocator<value_type_>>
+tensor<value_type_, allocator_type_, max_rank_> try_sin(tensor_view<value_type_, max_rank_> input) noexcept {
+    using out_tensor_t = tensor<value_type_, allocator_type_, max_rank_>;
+    if (input.empty()) return out_tensor_t {};
+    auto &input_shape = input.shape();
+    auto result = out_tensor_t::try_empty(input_shape.extents, input_shape.rank);
+    if (result.empty()) return result;
+    if (!sin<value_type_, max_rank_>(input, result.span())) return out_tensor_t {};
+    return result;
+}
+/** @brief Elementwise cos into pre-allocated output. */
+template <numeric_dtype value_type_, std::size_t max_rank_ = 8>
+bool cos(tensor_view<value_type_, max_rank_> input, tensor_span<value_type_, max_rank_> output) noexcept {
+    return elementwise_into_<value_type_, max_rank_>(
+        input, output, [](tensor_view<value_type_, max_rank_> in, tensor_span<value_type_, max_rank_> out) {
+            numkong::cos<value_type_>(in.data(), in.extent(0), out.data());
+        });
+}
+/** @brief Allocating cos. */
+template <numeric_dtype value_type_, std::size_t max_rank_ = 8,
+          typename allocator_type_ = aligned_allocator<value_type_>>
+tensor<value_type_, allocator_type_, max_rank_> try_cos(tensor_view<value_type_, max_rank_> input) noexcept {
+    using out_tensor_t = tensor<value_type_, allocator_type_, max_rank_>;
+    if (input.empty()) return out_tensor_t {};
+    auto &input_shape = input.shape();
+    auto result = out_tensor_t::try_empty(input_shape.extents, input_shape.rank);
+    if (result.empty()) return result;
+    if (!cos<value_type_, max_rank_>(input, result.span())) return out_tensor_t {};
+    return result;
+}
+/** @brief Elementwise atan into pre-allocated output. */
+template <numeric_dtype value_type_, std::size_t max_rank_ = 8>
+bool atan(tensor_view<value_type_, max_rank_> input, tensor_span<value_type_, max_rank_> output) noexcept {
+    return elementwise_into_<value_type_, max_rank_>(
+        input, output, [](tensor_view<value_type_, max_rank_> in, tensor_span<value_type_, max_rank_> out) {
+            numkong::atan<value_type_>(in.data(), in.extent(0), out.data());
+        });
+}
+/** @brief Allocating atan. */
+template <numeric_dtype value_type_, std::size_t max_rank_ = 8,
+          typename allocator_type_ = aligned_allocator<value_type_>>
+tensor<value_type_, allocator_type_, max_rank_> try_atan(tensor_view<value_type_, max_rank_> input) noexcept {
+    using out_tensor_t = tensor<value_type_, allocator_type_, max_rank_>;
+    if (input.empty()) return out_tensor_t {};
+    auto &input_shape = input.shape();
+    auto result = out_tensor_t::try_empty(input_shape.extents, input_shape.rank);
+    if (result.empty()) return result;
+    if (!atan<value_type_, max_rank_>(input, result.span())) return out_tensor_t {};
+    return result;
+}
+#pragma endregion - Tensor Trigonometric
+} // namespace ashvardanian::numkong
+#endif // NK_TRIGONOMETRY_HPP