npm - numkong - Versions diffs - 7.0.0 → 7.4.2 - Mend

numkong 7.0.0 → 7.4.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (315) hide show

package/README.md +197 -124
package/binding.gyp +34 -484
package/c/dispatch_bf16.c +59 -1
package/c/dispatch_e2m3.c +41 -8
package/c/dispatch_e3m2.c +49 -8
package/c/dispatch_e4m3.c +51 -9
package/c/dispatch_e5m2.c +45 -1
package/c/dispatch_f16.c +79 -26
package/c/dispatch_f16c.c +5 -5
package/c/dispatch_f32.c +56 -0
package/c/dispatch_f64.c +52 -0
package/c/dispatch_i4.c +3 -0
package/c/dispatch_i8.c +62 -3
package/c/dispatch_other.c +18 -0
package/c/dispatch_u1.c +54 -9
package/c/dispatch_u4.c +3 -0
package/c/dispatch_u8.c +64 -3
package/c/numkong.c +3 -0
package/include/README.md +79 -9
package/include/numkong/attention/sapphireamx.h +278 -276
package/include/numkong/attention/sme.h +983 -977
package/include/numkong/attention.h +1 -1
package/include/numkong/capabilities.h +289 -94
package/include/numkong/cast/README.md +40 -40
package/include/numkong/cast/diamond.h +64 -0
package/include/numkong/cast/haswell.h +42 -194
package/include/numkong/cast/icelake.h +42 -37
package/include/numkong/cast/loongsonasx.h +252 -0
package/include/numkong/cast/neon.h +216 -249
package/include/numkong/cast/powervsx.h +449 -0
package/include/numkong/cast/rvv.h +223 -274
package/include/numkong/cast/sapphire.h +18 -18
package/include/numkong/cast/serial.h +1018 -944
package/include/numkong/cast/skylake.h +82 -23
package/include/numkong/cast/v128relaxed.h +462 -105
package/include/numkong/cast.h +24 -0
package/include/numkong/cast.hpp +44 -0
package/include/numkong/curved/README.md +17 -17
package/include/numkong/curved/neon.h +131 -7
package/include/numkong/curved/neonbfdot.h +6 -7
package/include/numkong/curved/rvv.h +26 -26
package/include/numkong/curved/smef64.h +186 -182
package/include/numkong/curved.h +14 -18
package/include/numkong/dot/README.md +154 -137
package/include/numkong/dot/alder.h +43 -43
package/include/numkong/dot/diamond.h +158 -0
package/include/numkong/dot/genoa.h +4 -30
package/include/numkong/dot/haswell.h +215 -180
package/include/numkong/dot/icelake.h +190 -76
package/include/numkong/dot/loongsonasx.h +671 -0
package/include/numkong/dot/neon.h +124 -73
package/include/numkong/dot/neonbfdot.h +11 -12
package/include/numkong/dot/neonfhm.h +44 -46
package/include/numkong/dot/neonfp8.h +323 -0
package/include/numkong/dot/neonsdot.h +190 -76
package/include/numkong/dot/powervsx.h +752 -0
package/include/numkong/dot/rvv.h +92 -84
package/include/numkong/dot/rvvbf16.h +12 -12
package/include/numkong/dot/rvvhalf.h +12 -12
package/include/numkong/dot/sapphire.h +4 -4
package/include/numkong/dot/serial.h +66 -30
package/include/numkong/dot/sierra.h +31 -31
package/include/numkong/dot/skylake.h +142 -110
package/include/numkong/dot/sve.h +217 -177
package/include/numkong/dot/svebfdot.h +10 -10
package/include/numkong/dot/svehalf.h +85 -41
package/include/numkong/dot/svesdot.h +89 -0
package/include/numkong/dot/v128relaxed.h +124 -89
package/include/numkong/dot.h +114 -48
package/include/numkong/dots/README.md +203 -203
package/include/numkong/dots/alder.h +12 -9
package/include/numkong/dots/diamond.h +86 -0
package/include/numkong/dots/genoa.h +10 -4
package/include/numkong/dots/haswell.h +63 -48
package/include/numkong/dots/icelake.h +27 -18
package/include/numkong/dots/loongsonasx.h +176 -0
package/include/numkong/dots/neon.h +14 -11
package/include/numkong/dots/neonbfdot.h +4 -3
package/include/numkong/dots/neonfhm.h +11 -9
package/include/numkong/dots/neonfp8.h +99 -0
package/include/numkong/dots/neonsdot.h +48 -12
package/include/numkong/dots/powervsx.h +194 -0
package/include/numkong/dots/rvv.h +451 -344
package/include/numkong/dots/sapphireamx.h +1028 -984
package/include/numkong/dots/serial.h +213 -197
package/include/numkong/dots/sierra.h +10 -7
package/include/numkong/dots/skylake.h +47 -36
package/include/numkong/dots/sme.h +2001 -2364
package/include/numkong/dots/smebi32.h +175 -162
package/include/numkong/dots/smef64.h +328 -323
package/include/numkong/dots/v128relaxed.h +64 -41
package/include/numkong/dots.h +573 -293
package/include/numkong/dots.hpp +45 -43
package/include/numkong/each/README.md +133 -137
package/include/numkong/each/haswell.h +6 -6
package/include/numkong/each/icelake.h +7 -7
package/include/numkong/each/neon.h +76 -42
package/include/numkong/each/neonbfdot.h +11 -12
package/include/numkong/each/neonhalf.h +24 -116
package/include/numkong/each/rvv.h +28 -28
package/include/numkong/each/sapphire.h +27 -161
package/include/numkong/each/serial.h +6 -6
package/include/numkong/each/skylake.h +7 -7
package/include/numkong/each/v128relaxed.h +562 -0
package/include/numkong/each.h +148 -62
package/include/numkong/each.hpp +2 -2
package/include/numkong/geospatial/README.md +18 -18
package/include/numkong/geospatial/haswell.h +365 -325
package/include/numkong/geospatial/neon.h +350 -306
package/include/numkong/geospatial/rvv.h +4 -4
package/include/numkong/geospatial/skylake.h +376 -340
package/include/numkong/geospatial/v128relaxed.h +366 -327
package/include/numkong/geospatial.h +17 -17
package/include/numkong/matrix.hpp +4 -4
package/include/numkong/maxsim/README.md +14 -14
package/include/numkong/maxsim/alder.h +6 -6
package/include/numkong/maxsim/genoa.h +4 -4
package/include/numkong/maxsim/haswell.h +6 -6
package/include/numkong/maxsim/icelake.h +18 -18
package/include/numkong/maxsim/neonsdot.h +21 -21
package/include/numkong/maxsim/sapphireamx.h +14 -14
package/include/numkong/maxsim/serial.h +6 -6
package/include/numkong/maxsim/sme.h +221 -196
package/include/numkong/maxsim/v128relaxed.h +6 -6
package/include/numkong/mesh/README.md +62 -56
package/include/numkong/mesh/haswell.h +339 -464
package/include/numkong/mesh/neon.h +1100 -519
package/include/numkong/mesh/neonbfdot.h +36 -68
package/include/numkong/mesh/rvv.h +530 -435
package/include/numkong/mesh/serial.h +75 -91
package/include/numkong/mesh/skylake.h +1627 -302
package/include/numkong/mesh/v128relaxed.h +443 -330
package/include/numkong/mesh.h +63 -49
package/include/numkong/mesh.hpp +4 -4
package/include/numkong/numkong.h +3 -3
package/include/numkong/numkong.hpp +1 -0
package/include/numkong/probability/README.md +23 -19
package/include/numkong/probability/neon.h +82 -52
package/include/numkong/probability/rvv.h +28 -23
package/include/numkong/probability/serial.h +51 -39
package/include/numkong/probability.h +20 -23
package/include/numkong/random.h +1 -1
package/include/numkong/reduce/README.md +143 -138
package/include/numkong/reduce/alder.h +81 -77
package/include/numkong/reduce/haswell.h +222 -220
package/include/numkong/reduce/neon.h +629 -519
package/include/numkong/reduce/neonbfdot.h +7 -218
package/include/numkong/reduce/neonfhm.h +9 -381
package/include/numkong/reduce/neonsdot.h +9 -9
package/include/numkong/reduce/rvv.h +928 -802
package/include/numkong/reduce/serial.h +23 -27
package/include/numkong/reduce/sierra.h +20 -20
package/include/numkong/reduce/skylake.h +326 -324
package/include/numkong/reduce/v128relaxed.h +52 -52
package/include/numkong/reduce.h +4 -23
package/include/numkong/reduce.hpp +156 -11
package/include/numkong/scalar/README.md +6 -6
package/include/numkong/scalar/haswell.h +26 -17
package/include/numkong/scalar/loongsonasx.h +74 -0
package/include/numkong/scalar/neon.h +9 -9
package/include/numkong/scalar/powervsx.h +96 -0
package/include/numkong/scalar/rvv.h +2 -2
package/include/numkong/scalar/sapphire.h +21 -10
package/include/numkong/scalar/serial.h +21 -21
package/include/numkong/scalar.h +13 -0
package/include/numkong/set/README.md +28 -28
package/include/numkong/set/haswell.h +12 -12
package/include/numkong/set/icelake.h +14 -14
package/include/numkong/set/loongsonasx.h +181 -0
package/include/numkong/set/neon.h +17 -18
package/include/numkong/set/powervsx.h +326 -0
package/include/numkong/set/rvv.h +4 -4
package/include/numkong/set/serial.h +6 -6
package/include/numkong/set/sve.h +60 -59
package/include/numkong/set/v128relaxed.h +6 -6
package/include/numkong/set.h +21 -7
package/include/numkong/sets/README.md +26 -26
package/include/numkong/sets/loongsonasx.h +52 -0
package/include/numkong/sets/powervsx.h +65 -0
package/include/numkong/sets/smebi32.h +395 -364
package/include/numkong/sets.h +83 -40
package/include/numkong/sparse/README.md +4 -4
package/include/numkong/sparse/icelake.h +101 -101
package/include/numkong/sparse/serial.h +1 -1
package/include/numkong/sparse/sve2.h +137 -141
package/include/numkong/sparse/turin.h +12 -12
package/include/numkong/sparse.h +10 -10
package/include/numkong/spatial/README.md +230 -226
package/include/numkong/spatial/alder.h +113 -116
package/include/numkong/spatial/diamond.h +240 -0
package/include/numkong/spatial/genoa.h +0 -68
package/include/numkong/spatial/haswell.h +74 -55
package/include/numkong/spatial/icelake.h +539 -58
package/include/numkong/spatial/loongsonasx.h +483 -0
package/include/numkong/spatial/neon.h +125 -52
package/include/numkong/spatial/neonbfdot.h +8 -9
package/include/numkong/spatial/neonfp8.h +258 -0
package/include/numkong/spatial/neonsdot.h +180 -12
package/include/numkong/spatial/powervsx.h +738 -0
package/include/numkong/spatial/rvv.h +146 -139
package/include/numkong/spatial/rvvbf16.h +17 -12
package/include/numkong/spatial/rvvhalf.h +13 -10
package/include/numkong/spatial/serial.h +13 -12
package/include/numkong/spatial/sierra.h +232 -39
package/include/numkong/spatial/skylake.h +73 -74
package/include/numkong/spatial/sve.h +93 -72
package/include/numkong/spatial/svebfdot.h +29 -29
package/include/numkong/spatial/svehalf.h +52 -26
package/include/numkong/spatial/svesdot.h +142 -0
package/include/numkong/spatial/v128relaxed.h +293 -41
package/include/numkong/spatial.h +338 -82
package/include/numkong/spatials/README.md +194 -194
package/include/numkong/spatials/diamond.h +82 -0
package/include/numkong/spatials/haswell.h +2 -2
package/include/numkong/spatials/loongsonasx.h +153 -0
package/include/numkong/spatials/neonfp8.h +111 -0
package/include/numkong/spatials/neonsdot.h +34 -0
package/include/numkong/spatials/powervsx.h +153 -0
package/include/numkong/spatials/rvv.h +259 -243
package/include/numkong/spatials/sapphireamx.h +173 -173
package/include/numkong/spatials/serial.h +2 -2
package/include/numkong/spatials/skylake.h +2 -2
package/include/numkong/spatials/sme.h +590 -605
package/include/numkong/spatials/smef64.h +139 -130
package/include/numkong/spatials/v128relaxed.h +2 -2
package/include/numkong/spatials.h +820 -500
package/include/numkong/spatials.hpp +49 -48
package/include/numkong/tensor.hpp +406 -17
package/include/numkong/trigonometry/README.md +19 -19
package/include/numkong/trigonometry/haswell.h +402 -401
package/include/numkong/trigonometry/neon.h +386 -387
package/include/numkong/trigonometry/rvv.h +52 -51
package/include/numkong/trigonometry/serial.h +13 -13
package/include/numkong/trigonometry/skylake.h +373 -369
package/include/numkong/trigonometry/v128relaxed.h +375 -374
package/include/numkong/trigonometry.h +13 -13
package/include/numkong/trigonometry.hpp +2 -2
package/include/numkong/types.h +287 -49
package/include/numkong/types.hpp +436 -12
package/include/numkong/vector.hpp +82 -14
package/javascript/dist/cjs/numkong-wasm.js +6 -12
package/javascript/dist/cjs/numkong.d.ts +7 -1
package/javascript/dist/cjs/numkong.js +37 -11
package/javascript/dist/cjs/types.d.ts +9 -0
package/javascript/dist/cjs/types.js +96 -0
package/javascript/dist/esm/numkong-browser.d.ts +14 -0
package/javascript/dist/esm/numkong-browser.js +23 -0
package/javascript/dist/esm/numkong-wasm.js +6 -12
package/javascript/dist/esm/numkong.d.ts +7 -1
package/javascript/dist/esm/numkong.js +37 -11
package/javascript/dist/esm/types.d.ts +9 -0
package/javascript/dist/esm/types.js +96 -0
package/javascript/node-gyp-build.d.ts +4 -1
package/javascript/numkong-browser.ts +40 -0
package/javascript/numkong-wasm.ts +7 -13
package/javascript/numkong.c +5 -26
package/javascript/numkong.ts +36 -11
package/javascript/tsconfig-base.json +1 -0
package/javascript/tsconfig-cjs.json +6 -1
package/javascript/types.ts +110 -0
package/numkong.gypi +101 -0
package/package.json +34 -13
package/probes/arm_neon.c +8 -0
package/probes/arm_neon_bfdot.c +9 -0
package/probes/arm_neon_fhm.c +9 -0
package/probes/arm_neon_half.c +8 -0
package/probes/arm_neon_sdot.c +9 -0
package/probes/arm_neonfp8.c +9 -0
package/probes/arm_sme.c +16 -0
package/probes/arm_sme2.c +16 -0
package/probes/arm_sme2p1.c +16 -0
package/probes/arm_sme_bf16.c +16 -0
package/probes/arm_sme_bi32.c +16 -0
package/probes/arm_sme_f64.c +16 -0
package/probes/arm_sme_fa64.c +14 -0
package/probes/arm_sme_half.c +16 -0
package/probes/arm_sme_lut2.c +15 -0
package/probes/arm_sve.c +18 -0
package/probes/arm_sve2.c +20 -0
package/probes/arm_sve2p1.c +18 -0
package/probes/arm_sve_bfdot.c +20 -0
package/probes/arm_sve_half.c +18 -0
package/probes/arm_sve_sdot.c +21 -0
package/probes/loongarch_lasx.c +12 -0
package/probes/power_vsx.c +12 -0
package/probes/probe.js +127 -0
package/probes/riscv_rvv.c +14 -0
package/probes/riscv_rvv_bb.c +15 -0
package/probes/riscv_rvv_bf16.c +17 -0
package/probes/riscv_rvv_half.c +14 -0
package/probes/wasm_v128relaxed.c +11 -0
package/probes/x86_alder.c +17 -0
package/probes/x86_diamond.c +17 -0
package/probes/x86_genoa.c +17 -0
package/probes/x86_graniteamx.c +19 -0
package/probes/x86_haswell.c +11 -0
package/probes/x86_icelake.c +17 -0
package/probes/x86_sapphire.c +16 -0
package/probes/x86_sapphireamx.c +18 -0
package/probes/x86_sierra.c +17 -0
package/probes/x86_skylake.c +15 -0
package/probes/x86_turin.c +17 -0
package/wasm/numkong-emscripten.js +2 -0
package/wasm/numkong.d.ts +14 -0
package/wasm/numkong.js +1124 -0
package/wasm/numkong.wasm +0 -0
package/include/numkong/curved/neonhalf.h +0 -212
package/include/numkong/dot/neonhalf.h +0 -198
package/include/numkong/dots/neonhalf.h +0 -57
package/include/numkong/mesh/neonhalf.h +0 -616
package/include/numkong/reduce/neonhalf.h +0 -157
package/include/numkong/spatial/neonhalf.h +0 -118
package/include/numkong/spatial/sapphire.h +0 -343
package/include/numkong/spatials/neonhalf.h +0 -58
package/javascript/README.md +0 -246

package/include/numkong/types.hpp CHANGED Viewed

@@ -45,6 +45,49 @@
  *
  *  @sa `dimensions_per_value<T>()` to convert dimension counts to value counts.
  *  @sa `bits_per_value<T>()` to infer the size of each value.
+ *
+ *  @section fp8_types FP8 Numeric Types
+ *
+ *  There are several variants of 8-bit floating point types supported by different industry memebers
+ *  with different hardware support. None are part of the IEEE 754 standard, but some are part of the
+ *  Open Compute Project (OCP) 8-bit Floating Point Specification (OFP8):
+ *
+ *      Format    Bias  Sign  Exp  Mant  Range   Infinity            NaN               Standard
+ *      E4M3FN    7     1     4    3     ±448    ❌ No               Only 0x7F/0xFF    OCP, NVIDIA, ONNX
+ *      E5M2      15    1     5    2     ±57344  ✅ Yes (0x7C/0xFC)  0x7D-7F, 0xFD-FF  OCP, IEEE-like
+ *      E4M3FNUZ  8     1     4    3     ±240    ❌ No               0x80 only         GraphCore, ONNX
+ *      E5M2FNUZ  16    1     5    2     ±57344  ❌ No               0x80 only         GraphCore, ONNX
+ *
+ *  In currently available and soon incoming harware, only two series of models prioritze FNUZ over OCP:
+ *
+ *  - GraphCore IPUs were the original platform proposing FNUZ
+ *  - AMD MI300 series based on CDNA3 implements FNUZ, but not OCP
+ *  - AMD MI350+ series based on CDNA4 switch to OCP and remove FNUZ
+ *  - NVIDIA Hopper and Blackwell only support E4M3FN, E5M2
+ *  - Intel AVX10.2 defines HF8 (E4M3FN) and BF8 (E5M2) - OCP-aligned
+ *  - Arm implements E4M3 (meaning E4M3FN) and E5M2 with a shared `__mfp8` type and a `FPMR` format selector
+ *
+ *  For brevety, across NumKong, "E4M3" implies "E4M3FN".
+ *
+ *  @section fp6_types FP6 Numeric Types
+ *
+ *  The OCP Microscaling (MX) v1.0 specification defines two 6-bit floating-point formats
+ *  for block-scaled quantization. Both are "FN" (finite-numeric): all bit patterns map
+ *  to real numbers with no Inf or NaN codes. Stored byte-aligned with 2 bits of padding.
+ *
+ *      Format  Bias  Sign  Exp  Mant  Range   Subnormals  Infinity  NaN  Standard
+ *      E2M3    1     1     2    3     ±7.5    14 of 64    ❌ No     ❌   OCP MX v1.0
+ *      E3M2    3     1     3    2     ±28     6 of 64     ❌ No     ❌   OCP MX v1.0
+ *
+ *  E2M3 favors mantissa precision (3 bits) for narrow dynamic range — ideal for activations.
+ *  E3M2 favors exponent range (3 bits) for wider dynamic range — suited for weights.
+ *  Both follow IEEE 754 subnormal rules: when exp=0, the implicit leading bit is 0,
+ *  giving value = (-1)^s × 0.mmm × 2^(1-bias). This provides gradual underflow to zero.
+ *
+ *  No hardware directly computes on FP6. On Arm with FEAT_FP8DOT4, E2M3 values can be
+ *  losslessly promoted to E4M3 (same mantissa width, rebias exponent by +6) and E3M2 to
+ *  E5M2 (same mantissa width, rebias exponent by +12), then fed to FDOT instructions.
+ *  Subnormal values (exp=0) require normalization during this promotion.
  */
 #ifndef NK_TYPES_HPP
@@ -2352,10 +2395,13 @@ struct e5m2_t {
  *  @brief Float6 E2M3FN: 1 sign + 2 exponent (bias=1) + 3 mantissa bits, with 2 bits of padding.
  *
  *  Range: [-7.5, +7.5], stored byte-aligned (0b00SEEMMM, upper 2 bits padding).
- *  No Inf/NaN (OCP Microscaling FN format). All 64 bit patterns are valid.
+ *  No Inf/NaN (OCP Microscaling FN format). All 64 bit patterns are valid numbers.
+ *  64 total codes: 48 normal, 14 subnormal (exp=0, mant!=0), 2 zeros (+/-0).
  *  Only 18 of 64 values (28.1%) fall in [-1, +1] — 72% of codes represent |x| > 1.
+ *  Subnormal values span [+/-0.125, +/-0.875] using formula 0.mmm x 2^(1-bias).
  *  Dot products are exact via integer accumulation: every value x 16 is an integer
  *  in [-120, +120], so products fit in i16 and sums fit in i32 without rounding.
+ *  Losslessly promotable to E4M3 by rebiasing exponent +6 (normals) or normalizing (subnormals).
  *
  *  @see https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf
  *  @see https://arxiv.org/abs/2401.14112 (FP6-LLM paper)
@@ -2533,10 +2579,13 @@ struct e2m3_t {
  *  @brief Float6 E3M2FN: 1 sign + 3 exponent (bias=3) + 2 mantissa bits, with 2 bits of padding.
  *
  *  Range: [-28, +28], stored byte-aligned (0b00SEEEMM, upper 2 bits padding).
- *  No Inf/NaN (OCP Microscaling FN format). All 64 bit patterns are valid.
+ *  No Inf/NaN (OCP Microscaling FN format). All 64 bit patterns are valid numbers.
+ *  64 total codes: 56 normal, 6 subnormal (exp=0, mant!=0), 2 zeros (+/-0).
  *  26 of 64 values (40.6%) fall in [-1, +1].
+ *  Subnormal values span [+/-0.0625, +/-0.1875] using formula 0.mm x 2^(1-bias).
  *  Dot products are exact via integer accumulation: every value x 4 is an integer
  *  in [-28, +28], so products fit in i16 and sums fit in i32 without rounding.
+ *  Losslessly promotable to E5M2 by rebiasing exponent +12 (normals) or normalizing (subnormals).
  *
  *  @see https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf
  *  @see https://arxiv.org/abs/2401.14112 (FP6-LLM paper)
@@ -5266,7 +5315,7 @@ struct u4x2_t {
     constexpr std::strong_ordering operator<=>(u4x2_t const &o) const noexcept = default;
 };
-#pragma region - Enum Conversion
+#pragma region Enum Conversion
 /**
  *  @brief Maps `nk_dtype_t` enum values to their corresponding C++ wrapper types.
@@ -5301,9 +5350,9 @@ template <> struct type_for<nk_i4_k> { using type = i4x2_t; };
 template <> struct type_for<nk_u4_k> { using type = u4x2_t; };
 // clang-format on
-#pragma endregion - Enum Conversion
+#pragma endregion Enum Conversion
-#pragma region - Numeric Limits
+#pragma region Numeric Limits
 /** @brief Get the maximum representable value for a type. */
 template <typename scalar_type_>
@@ -5339,6 +5388,16 @@ constexpr unsigned dimensions_per_value() noexcept {
     return bits_per_value<scalar_type_>() / bits_per_dimension<scalar_type_>();
 }
+/**
+ *  @brief The mutable reference type for one logical dimension of a value.
+ *
+ *  For normal types (1 dim per value): a plain `value_type_ &`.
+ *  For sub-byte packed types: a `sub_byte_ref<value_type_>` proxy.
+ */
+template <typename value_type_>
+using value_ref =
+    std::conditional_t<dimensions_per_value<value_type_>() == 1, value_type_ &, sub_byte_ref<value_type_>>;
 /**
  *  @brief Extract the word type from a value type.
  *
@@ -5412,9 +5471,9 @@ constexpr std::size_t round_up_to_multiple(std::size_t n) {
     return divide_round_up<multiple_>(n) * multiple_;
 }
-#pragma endregion - Numeric Limits
+#pragma endregion Numeric Limits
-#pragma region - SIMD Dispatch Helpers
+#pragma region SIMD Dispatch Helpers
 /** @brief Controls whether template wrappers dispatch to SIMD C kernels. */
 enum allow_simd_t {
@@ -5553,9 +5612,9 @@ constexpr unsigned count_intersection(u1x8_t a, u1x8_t b) noexcept { return a.in
 /** @brief Count bit-level union for u1x8_t (8 packed bits). Returns popcount of OR. */
 constexpr unsigned count_union(u1x8_t a, u1x8_t b) noexcept { return a.union_size(b); }
-#pragma endregion - SIMD Dispatch Helpers
+#pragma endregion SIMD Dispatch Helpers
-#pragma region - f118_t Mixed Operators
+#pragma region F118 Mixed Operators
 constexpr f118_t operator+(double a, f118_t b) noexcept { return f118_t(a) + b; }
 constexpr f118_t operator-(double a, f118_t b) noexcept { return f118_t(a) - b; }
@@ -5569,9 +5628,9 @@ constexpr bool operator>(double a, f118_t b) noexcept { return f118_t(a) > b; }
 constexpr bool operator<=(double a, f118_t b) noexcept { return f118_t(a) <= b; }
 constexpr bool operator>=(double a, f118_t b) noexcept { return f118_t(a) >= b; }
-#pragma endregion - f118_t Mixed Operators
+#pragma endregion F118 Mixed Operators
-#pragma region - Concepts
+#pragma region Concepts
 template <typename matrix_type_, typename element_type_>
 concept const_matrix_of = requires(matrix_type_ const &m) {
@@ -5596,8 +5655,373 @@ concept packed_matrix_like = requires(packed_type_ const &p) {
     { p.depth() } -> std::convertible_to<std::size_t>;
 };
-#pragma endregion - Concepts
+#pragma endregion Concepts
+} // namespace ashvardanian::numkong
+#if __has_include(<format>)
+#include <format>
+#if defined(__cpp_lib_format) && __cpp_lib_format >= 202110L
+namespace ashvardanian::numkong {
+/**
+ *  Parsed format spec for NumKong scalar types.
+ *
+ *  Supports the standard format spec grammar `[[fill]align][sign][#][0][width][.precision][type]`:
+ *  - `{}` — clean float value, composes with C++23 range formatting
+ *  - `{:#}` — annotated: `3.14 [0x4248]`
+ *  - `{:.2f}` — precision/type forwarded to `std::formatter<float>`
+ *  - `{:x}` / `{:#x}` / `{:X}` — hex bits (with optional `0x` prefix)
+ *  - `{:b}` / `{:#b}` — binary bits (with optional `0b` prefix)
+ */
+struct scalar_format_spec_t {
+    enum class mode_t : unsigned char { float_val_k, hex_k, binary_k };
+    mode_t mode_ = mode_t::float_val_k;
+    bool annotate_ = false; // '#' in float mode → append [0xHHHH]
+    bool prefix_ = false;   // '#' in hex/binary mode → 0x/0b prefix
+    bool upper_ = false;    // 'X' vs 'x'
+    std::formatter<float> float_fmt_;
+    constexpr std::format_parse_context::iterator parse(std::format_parse_context &ctx) {
+        auto it = ctx.begin();
+        auto end = ctx.end();
+        if (it == end || *it == '}') return it;
+        // Find last character of the format spec (the type position).
+        auto spec_last = it;
+        for (auto s = it; s != end && *s != '}'; ++s) spec_last = s;
+        char type_char = *spec_last;
+        if (type_char == 'x' || type_char == 'X') {
+            mode_ = mode_t::hex_k;
+            upper_ = (type_char == 'X');
+            for (auto s = it; s != spec_last; ++s)
+                if (*s == '#') {
+                    prefix_ = true;
+                    break;
+                }
+            return spec_last + 1;
+        }
+        if (type_char == 'b' || type_char == 'B') {
+            mode_ = mode_t::binary_k;
+            for (auto s = it; s != spec_last; ++s)
+                if (*s == '#') {
+                    prefix_ = true;
+                    break;
+                }
+            return spec_last + 1;
+        }
+        // Float mode — '#' means annotate with hex bits.
+        for (auto s = it; s != end && *s != '}'; ++s)
+            if (*s == '#') {
+                annotate_ = true;
+                break;
+            }
+        return float_fmt_.parse(ctx);
+    }
+};
+/** Write zero-padded hex to an output iterator. `width` is 1, 2, or 4. Each branch uses a literal format string. */
+inline std::format_context::iterator format_hex_(std::format_context::iterator out, unsigned bits, unsigned width,
+                                                 bool prefix, bool upper) {
+    if (width == 4) {
+        if (prefix && upper) return std::format_to(out, "0X{:04X}", bits);
+        if (prefix) return std::format_to(out, "0x{:04x}", bits);
+        if (upper) return std::format_to(out, "{:04X}", bits);
+        return std::format_to(out, "{:04x}", bits);
+    }
+    if (width == 1) {
+        if (prefix && upper) return std::format_to(out, "0X{:01X}", bits);
+        if (prefix) return std::format_to(out, "0x{:01x}", bits);
+        if (upper) return std::format_to(out, "{:01X}", bits);
+        return std::format_to(out, "{:01x}", bits);
+    }
+    if (prefix && upper) return std::format_to(out, "0X{:02X}", bits);
+    if (prefix) return std::format_to(out, "0x{:02x}", bits);
+    if (upper) return std::format_to(out, "{:02X}", bits);
+    return std::format_to(out, "{:02x}", bits);
+}
+/** Write zero-padded binary to an output iterator. `width` is 4, 8, or 16. */
+inline std::format_context::iterator format_bin_(std::format_context::iterator out, unsigned bits, unsigned width,
+                                                 bool prefix) {
+    if (width == 16) {
+        if (prefix) return std::format_to(out, "0b{:016b}", bits);
+        return std::format_to(out, "{:016b}", bits);
+    }
+    if (width == 4) {
+        if (prefix) return std::format_to(out, "0b{:04b}", bits);
+        return std::format_to(out, "{:04b}", bits);
+    }
+    if (prefix) return std::format_to(out, "0b{:08b}", bits);
+    return std::format_to(out, "{:08b}", bits);
+}
+/** Write hex annotation suffix: ` [0x{hex}]`. */
+inline std::format_context::iterator format_hex_suffix_(std::format_context::iterator out, unsigned bits,
+                                                        unsigned width) {
+    if (width == 4) return std::format_to(out, " [0x{:04x}]", bits);
+    if (width == 1) return std::format_to(out, " [0x{:01x}]", bits);
+    return std::format_to(out, " [0x{:02x}]", bits);
+}
+/**
+ *  Formatter implementation for float-like scalar types (f16, bf16, e4m3, e5m2, e2m3, e3m2).
+ *  @tparam value_type_ The NumKong scalar type.
+ *  @tparam hex_width_ Number of hex digits (4 for 16-bit, 2 for 8-bit).
+ *  @tparam bin_width_ Number of binary digits (16 for 16-bit, 8 for 8-bit).
+ */
+template <typename value_type_, unsigned hex_width_, unsigned bin_width_>
+struct float_scalar_formatter_ {
+    scalar_format_spec_t spec_;
+    constexpr std::format_parse_context::iterator parse(std::format_parse_context &ctx) { return spec_.parse(ctx); }
+    std::format_context::iterator format(value_type_ v, std::format_context &ctx) const {
+        using mode_t = scalar_format_spec_t::mode_t;
+        unsigned bits;
+        if constexpr (requires { v.to_bits(); }) bits = static_cast<unsigned>(v.to_bits());
+        else bits = static_cast<unsigned>(v.raw_);
+        switch (spec_.mode_) {
+        case mode_t::hex_k: return format_hex_(ctx.out(), bits, hex_width_, spec_.prefix_, spec_.upper_);
+        case mode_t::binary_k: return format_bin_(ctx.out(), bits, bin_width_, spec_.prefix_);
+        default: {
+            auto out = spec_.float_fmt_.format(v.to_f32(), ctx);
+            if (spec_.annotate_) out = format_hex_suffix_(out, bits, hex_width_);
+            return out;
+        }
+        }
+    }
+};
 } // namespace ashvardanian::numkong
+template <>
+struct std::formatter<ashvardanian::numkong::f16_t>
+    : ashvardanian::numkong::float_scalar_formatter_<ashvardanian::numkong::f16_t, 4, 16> {};
+template <>
+struct std::formatter<ashvardanian::numkong::bf16_t>
+    : ashvardanian::numkong::float_scalar_formatter_<ashvardanian::numkong::bf16_t, 4, 16> {};
+template <>
+struct std::formatter<ashvardanian::numkong::e4m3_t>
+    : ashvardanian::numkong::float_scalar_formatter_<ashvardanian::numkong::e4m3_t, 2, 8> {};
+template <>
+struct std::formatter<ashvardanian::numkong::e5m2_t>
+    : ashvardanian::numkong::float_scalar_formatter_<ashvardanian::numkong::e5m2_t, 2, 8> {};
+template <>
+struct std::formatter<ashvardanian::numkong::e2m3_t>
+    : ashvardanian::numkong::float_scalar_formatter_<ashvardanian::numkong::e2m3_t, 2, 8> {};
+template <>
+struct std::formatter<ashvardanian::numkong::e3m2_t>
+    : ashvardanian::numkong::float_scalar_formatter_<ashvardanian::numkong::e3m2_t, 2, 8> {};
+template <>
+struct std::formatter<ashvardanian::numkong::i4x2_t> {
+    ashvardanian::numkong::scalar_format_spec_t spec_;
+    constexpr std::format_parse_context::iterator parse(std::format_parse_context &ctx) { return spec_.parse(ctx); }
+    std::format_context::iterator format(ashvardanian::numkong::i4x2_t v, std::format_context &ctx) const {
+        namespace nk = ashvardanian::numkong;
+        using mode_t = nk::scalar_format_spec_t::mode_t;
+        unsigned bits = static_cast<unsigned>(v.raw_);
+        switch (spec_.mode_) {
+        case mode_t::hex_k: return nk::format_hex_(ctx.out(), bits, 2, spec_.prefix_, spec_.upper_);
+        case mode_t::binary_k: return nk::format_bin_(ctx.out(), bits, 8, spec_.prefix_);
+        default: {
+            auto out = std::format_to(ctx.out(), "({}, {})", static_cast<int>(v.low().raw()),
+                                      static_cast<int>(v.high().raw()));
+            if (spec_.annotate_) out = nk::format_hex_suffix_(out, bits, 2);
+            return out;
+        }
+        }
+    }
+};
+template <>
+struct std::formatter<ashvardanian::numkong::u4x2_t> {
+    ashvardanian::numkong::scalar_format_spec_t spec_;
+    constexpr std::format_parse_context::iterator parse(std::format_parse_context &ctx) { return spec_.parse(ctx); }
+    std::format_context::iterator format(ashvardanian::numkong::u4x2_t v, std::format_context &ctx) const {
+        namespace nk = ashvardanian::numkong;
+        using mode_t = nk::scalar_format_spec_t::mode_t;
+        unsigned bits = static_cast<unsigned>(v.raw_);
+        switch (spec_.mode_) {
+        case mode_t::hex_k: return nk::format_hex_(ctx.out(), bits, 2, spec_.prefix_, spec_.upper_);
+        case mode_t::binary_k: return nk::format_bin_(ctx.out(), bits, 8, spec_.prefix_);
+        default: {
+            auto out = std::format_to(ctx.out(), "({}, {})", static_cast<unsigned>(v.low().raw()),
+                                      static_cast<unsigned>(v.high().raw()));
+            if (spec_.annotate_) out = nk::format_hex_suffix_(out, bits, 2);
+            return out;
+        }
+        }
+    }
+};
+template <>
+struct std::formatter<ashvardanian::numkong::u1x8_t> {
+    ashvardanian::numkong::scalar_format_spec_t spec_;
+    constexpr std::format_parse_context::iterator parse(std::format_parse_context &ctx) { return spec_.parse(ctx); }
+    std::format_context::iterator format(ashvardanian::numkong::u1x8_t v, std::format_context &ctx) const {
+        namespace nk = ashvardanian::numkong;
+        using mode_t = nk::scalar_format_spec_t::mode_t;
+        unsigned bits = static_cast<unsigned>(v.raw_);
+        switch (spec_.mode_) {
+        case mode_t::hex_k: return nk::format_hex_(ctx.out(), bits, 2, spec_.prefix_, spec_.upper_);
+        case mode_t::binary_k: return nk::format_bin_(ctx.out(), bits, 8, spec_.prefix_);
+        default: {
+            auto out = std::format_to(ctx.out(), "0b{:08b}", bits);
+            if (spec_.annotate_) out = nk::format_hex_suffix_(out, bits, 2);
+            return out;
+        }
+        }
+    }
+};
+/**
+ *  @brief Formatter for a single signed nibble (-8..7). Supports `{}`, `{:#}`, `{:x}`, `{:b}`.
+ *  Float-precision specs (e.g. `{:.2f}`) are not meaningful and ignored.
+ */
+template <>
+struct std::formatter<ashvardanian::numkong::sub_byte_ref<ashvardanian::numkong::i4x2_t>> {
+    ashvardanian::numkong::scalar_format_spec_t spec_;
+    constexpr std::format_parse_context::iterator parse(std::format_parse_context &ctx) { return spec_.parse(ctx); }
+    std::format_context::iterator format(ashvardanian::numkong::sub_byte_ref<ashvardanian::numkong::i4x2_t> v,
+                                         std::format_context &ctx) const {
+        namespace nk = ashvardanian::numkong;
+        using mode_t = nk::scalar_format_spec_t::mode_t;
+        unsigned bits = static_cast<unsigned>(v.get()) & 0x0Fu;
+        switch (spec_.mode_) {
+        case mode_t::hex_k: return nk::format_hex_(ctx.out(), bits, 1, spec_.prefix_, spec_.upper_);
+        case mode_t::binary_k: return nk::format_bin_(ctx.out(), bits, 4, spec_.prefix_);
+        default: {
+            auto out = std::format_to(ctx.out(), "{}", static_cast<int>(v.get()));
+            if (spec_.annotate_) out = nk::format_hex_suffix_(out, bits, 1);
+            return out;
+        }
+        }
+    }
+};
+/**
+ *  @brief Formatter for a single unsigned nibble (0..15). Supports `{}`, `{:#}`, `{:x}`, `{:b}`.
+ *  Float-precision specs (e.g. `{:.2f}`) are not meaningful and ignored.
+ */
+template <>
+struct std::formatter<ashvardanian::numkong::sub_byte_ref<ashvardanian::numkong::u4x2_t>> {
+    ashvardanian::numkong::scalar_format_spec_t spec_;
+    constexpr std::format_parse_context::iterator parse(std::format_parse_context &ctx) { return spec_.parse(ctx); }
+    std::format_context::iterator format(ashvardanian::numkong::sub_byte_ref<ashvardanian::numkong::u4x2_t> v,
+                                         std::format_context &ctx) const {
+        namespace nk = ashvardanian::numkong;
+        using mode_t = nk::scalar_format_spec_t::mode_t;
+        unsigned bits = static_cast<unsigned>(v.get());
+        switch (spec_.mode_) {
+        case mode_t::hex_k: return nk::format_hex_(ctx.out(), bits, 1, spec_.prefix_, spec_.upper_);
+        case mode_t::binary_k: return nk::format_bin_(ctx.out(), bits, 4, spec_.prefix_);
+        default: {
+            auto out = std::format_to(ctx.out(), "{}", static_cast<unsigned>(v.get()));
+            if (spec_.annotate_) out = nk::format_hex_suffix_(out, bits, 1);
+            return out;
+        }
+        }
+    }
+};
+/** @brief Formatter for a single bit. Only `{}` is supported — hex and binary are not meaningful. */
+template <>
+struct std::formatter<ashvardanian::numkong::sub_byte_ref<ashvardanian::numkong::u1x8_t>> {
+    constexpr std::format_parse_context::iterator parse(std::format_parse_context &ctx) { return ctx.begin(); }
+    std::format_context::iterator format(ashvardanian::numkong::sub_byte_ref<ashvardanian::numkong::u1x8_t> v,
+                                         std::format_context &ctx) const {
+        return std::format_to(ctx.out(), "{}", v.get() ? 1u : 0u);
+    }
+};
+template <>
+struct std::formatter<ashvardanian::numkong::f16c_t> {
+    ashvardanian::numkong::scalar_format_spec_t spec_;
+    constexpr std::format_parse_context::iterator parse(std::format_parse_context &ctx) { return spec_.parse(ctx); }
+    std::format_context::iterator format(ashvardanian::numkong::f16c_t v, std::format_context &ctx) const {
+        namespace nk = ashvardanian::numkong;
+        using mode_t = nk::scalar_format_spec_t::mode_t;
+        unsigned re_bits = static_cast<unsigned>(v.real().to_bits());
+        unsigned im_bits = static_cast<unsigned>(v.imag().to_bits());
+        switch (spec_.mode_) {
+        case mode_t::hex_k: {
+            auto out = std::format_to(ctx.out(), "(");
+            out = nk::format_hex_(out, re_bits, 4, spec_.prefix_, spec_.upper_);
+            out = std::format_to(out, ", ");
+            out = nk::format_hex_(out, im_bits, 4, spec_.prefix_, spec_.upper_);
+            return std::format_to(out, ")");
+        }
+        case mode_t::binary_k: {
+            auto out = std::format_to(ctx.out(), "(");
+            out = nk::format_bin_(out, re_bits, 16, spec_.prefix_);
+            out = std::format_to(out, ", ");
+            out = nk::format_bin_(out, im_bits, 16, spec_.prefix_);
+            return std::format_to(out, ")");
+        }
+        default:
+            if (spec_.annotate_)
+                return std::format_to(ctx.out(), "({} [0x{:04x}], {} [0x{:04x}])", v.real().to_f32(), re_bits,
+                                      v.imag().to_f32(), im_bits);
+            return std::format_to(ctx.out(), "({}, {})", v.real().to_f32(), v.imag().to_f32());
+        }
+    }
+};
+template <>
+struct std::formatter<ashvardanian::numkong::bf16c_t> {
+    ashvardanian::numkong::scalar_format_spec_t spec_;
+    constexpr std::format_parse_context::iterator parse(std::format_parse_context &ctx) { return spec_.parse(ctx); }
+    std::format_context::iterator format(ashvardanian::numkong::bf16c_t v, std::format_context &ctx) const {
+        namespace nk = ashvardanian::numkong;
+        using mode_t = nk::scalar_format_spec_t::mode_t;
+        unsigned re_bits = static_cast<unsigned>(v.real().to_bits());
+        unsigned im_bits = static_cast<unsigned>(v.imag().to_bits());
+        switch (spec_.mode_) {
+        case mode_t::hex_k: {
+            auto out = std::format_to(ctx.out(), "(");
+            out = nk::format_hex_(out, re_bits, 4, spec_.prefix_, spec_.upper_);
+            out = std::format_to(out, ", ");
+            out = nk::format_hex_(out, im_bits, 4, spec_.prefix_, spec_.upper_);
+            return std::format_to(out, ")");
+        }
+        case mode_t::binary_k: {
+            auto out = std::format_to(ctx.out(), "(");
+            out = nk::format_bin_(out, re_bits, 16, spec_.prefix_);
+            out = std::format_to(out, ", ");
+            out = nk::format_bin_(out, im_bits, 16, spec_.prefix_);
+            return std::format_to(out, ")");
+        }
+        default:
+            if (spec_.annotate_)
+                return std::format_to(ctx.out(), "({} [0x{:04x}], {} [0x{:04x}])", v.real().to_f32(), re_bits,
+                                      v.imag().to_f32(), im_bits);
+            return std::format_to(ctx.out(), "({}, {})", v.real().to_f32(), v.imag().to_f32());
+        }
+    }
+};
+#endif // __cpp_lib_format
+#endif // __has_include(<format>)
 #endif // NK_TYPES_HPP