npm - @genai-fi/nanogpt - Versions diffs - 0.9.1 → 0.10.1 - Mend

@genai-fi/nanogpt 0.9.1 → 0.10.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (343) hide show

package/README.md +352 -14
package/dist/Generator.js +69 -78
package/dist/{RealDiv-D4EzDsC0.js → RealDiv-DgA3z9oO.js} +32 -206
package/dist/Reshape-CF6odzV4.js +16 -0
package/dist/Reshape-_kILl6tK.js +81 -0
package/dist/TeachableLLM.js +28 -22
package/dist/Trainer.d.ts +2 -0
package/dist/Trainer.js +3 -2
package/dist/{axis_util-TbGYJ208.js → axis_util-BvHEw88j.js} +7 -23
package/dist/backend.d.ts +2 -1
package/dist/backend.js +10 -4
package/dist/backend_util-D-rUb2ty.js +474 -0
package/dist/backend_webgpu-B0u2ndUn.js +547 -0
package/dist/binary_op_util-pKXltfxI.js +192 -0
package/dist/broadcast_to-CwF7XIeu.js +30 -0
package/dist/checks/appendCache.js +2 -2
package/dist/checks/attentionMask.js +3 -3
package/dist/checks/check.d.ts +1 -1
package/dist/checks/check.js +8 -8
package/dist/checks/gelu.js +2 -2
package/dist/checks/index.d.ts +2 -0
package/dist/checks/index.js +7 -5
package/dist/checks/matMulGelu.js +6 -6
package/dist/checks/normRMS.js +7 -7
package/dist/checks/normRMSGrad.js +3 -3
package/dist/checks/packUnpack.d.ts +1 -0
package/dist/checks/packUnpack.js +18 -0
package/dist/checks/qkv.js +12 -27
package/dist/checks/rope.js +2 -2
package/dist/checks/weights.js +18 -16
package/dist/complex-CSlYz-2T.js +13 -0
package/dist/complex_util-Yc1A_gV1.js +55 -0
package/dist/concat-BHlIJeyT.js +19 -0
package/dist/concat_util-DcJk7YHS.js +22 -0
package/dist/data/docx.js +1 -1
package/dist/data/parquet.js +2 -2
package/dist/data/pdf.js +1 -1
package/dist/data/textLoader.js +1 -1
package/dist/{dataset-DlZtKmBq.js → dataset-0xP8GjwI.js} +136 -236
package/dist/dropout-C1pM3f11.js +99 -0
package/dist/expand_dims-BPG4fwBP.js +13 -0
package/dist/exports_initializers-xuidcwI4.js +7 -0
package/dist/gather-DykLGqmW.js +10 -0
package/dist/{gelu-Bp_-935b.js → gelu-CNLFZWea.js} +11 -10
package/dist/{gpgpu_math-CDaYiyE_.js → gpgpu_math-DDVJCn6-.js} +90 -265
package/dist/{index-C4L8Cm77.js → index-CieiGp4Y.js} +14 -14
package/dist/index-CjOj7j-u.js +7308 -0
package/dist/{index-Tf7vU29b.js → index-Cp39cXWe.js} +3 -10
package/dist/{index-Dwqa6Zy2.js → index-DvYrXKkX.js} +2 -2
package/dist/index-ZyQhjEPo.js +2157 -0
package/dist/{jszip.min-CjP2V1VV.js → jszip.min-Bz5-11Bk.js} +56 -57
package/dist/kernel_funcs_utils-Dg_-E44D.js +308 -0
package/dist/layers/BaseLayer.d.ts +1 -0
package/dist/layers/BaseLayer.js +7 -6
package/dist/layers/CausalSelfAttention.d.ts +0 -1
package/dist/layers/CausalSelfAttention.js +56 -55
package/dist/layers/MLP.js +15 -16
package/dist/layers/PositionEmbedding.js +5 -14
package/dist/layers/RMSNorm.js +3 -3
package/dist/layers/RoPECache.d.ts +2 -0
package/dist/layers/RoPECache.js +22 -17
package/dist/layers/TiedEmbedding.js +22 -17
package/dist/layers/TransformerBlock.js +21 -20
package/dist/loader/load.js +1 -1
package/dist/loader/loadTransformers.js +1 -1
package/dist/loader/oldZipLoad.js +39 -33
package/dist/loader/save.js +1 -1
package/dist/log_sum_exp-DWI-76TI.js +41 -0
package/dist/main.d.ts +8 -0
package/dist/main.js +63 -52
package/dist/matMul16--R5hOwDG.js +77 -0
package/dist/mat_mul-DeAh4uTH.js +12 -0
package/dist/mod-Gt1rMB4n.js +12 -0
package/dist/models/NanoGPTV1.js +40 -31
package/dist/models/model.d.ts +2 -0
package/dist/models/model.js +37 -29
package/dist/{mulmat_packed_gpu-BT60jmzP.js → mulmat_packed_gpu-BMFhLwta.js} +1 -17
package/dist/{non_max_suppression_impl-CsEgBuMA.js → non_max_suppression_impl-B2W7YjZB.js} +0 -32
package/dist/ones-CAMiP4I2.js +15 -0
package/dist/ops/adamAdjust.js +1 -1
package/dist/ops/adamMoments.d.ts +1 -1
package/dist/ops/adamMoments.js +4 -4
package/dist/ops/add16.d.ts +2 -0
package/dist/ops/add16.js +9 -0
package/dist/ops/appendCache.js +16 -9
package/dist/ops/attentionMask.js +4 -4
package/dist/ops/concat16.d.ts +2 -0
package/dist/ops/concat16.js +9 -0
package/dist/ops/cpu/adamAdjust.js +14 -13
package/dist/ops/cpu/adamMoments.js +10 -9
package/dist/ops/cpu/appendCache.js +9 -8
package/dist/ops/cpu/attentionMask.js +15 -14
package/dist/ops/cpu/fusedSoftmax.js +13 -12
package/dist/ops/cpu/gatherSub.js +9 -24
package/dist/ops/cpu/gelu.js +13 -12
package/dist/ops/cpu/matMul16.d.ts +1 -0
package/dist/ops/cpu/matMul16.js +16 -0
package/dist/ops/cpu/matMulGelu.js +18 -16
package/dist/ops/cpu/matMulMul.js +8 -7
package/dist/ops/cpu/mulDropout.js +4 -3
package/dist/ops/cpu/normRMS.js +11 -10
package/dist/ops/cpu/qkv.js +17 -13
package/dist/ops/cpu/rope.js +23 -22
package/dist/ops/cpu/scatterSub.js +16 -30
package/dist/ops/dot16.d.ts +2 -0
package/dist/ops/dot16.js +42 -0
package/dist/ops/gatherSub.js +1 -1
package/dist/ops/gelu.js +2 -2
package/dist/ops/grads/add16.d.ts +1 -0
package/dist/ops/grads/add16.js +27 -0
package/dist/ops/grads/attentionMask.js +12 -19
package/dist/ops/grads/gelu.js +4 -3
package/dist/ops/grads/matMul16.d.ts +2 -0
package/dist/ops/grads/matMul16.js +9 -0
package/dist/ops/grads/matMulGelu.js +8 -7
package/dist/ops/grads/normRMS.js +8 -7
package/dist/ops/grads/{fusedSoftmax.d.ts → pack16.d.ts} +1 -1
package/dist/ops/grads/pack16.js +7 -0
package/dist/ops/grads/qkv.d.ts +3 -1
package/dist/ops/grads/qkv.js +28 -22
package/dist/ops/grads/rope.d.ts +2 -1
package/dist/ops/grads/rope.js +6 -13
package/dist/ops/grads/softmax16.d.ts +2 -0
package/dist/ops/grads/softmax16.js +26 -0
package/dist/ops/grads/unpack16.d.ts +2 -0
package/dist/ops/grads/unpack16.js +6 -0
package/dist/ops/grads/utils.d.ts +3 -0
package/dist/ops/grads/utils.js +10 -0
package/dist/ops/matMul16.d.ts +15 -0
package/dist/ops/matMul16.js +13 -0
package/dist/ops/matMulGelu.js +1 -1
package/dist/ops/matMulMul.js +1 -1
package/dist/ops/mul16.d.ts +2 -0
package/dist/ops/mul16.js +8 -0
package/dist/ops/mulDrop.js +1 -1
package/dist/ops/normRMS.js +1 -1
package/dist/ops/pack16.d.ts +2 -0
package/dist/ops/pack16.js +6 -0
package/dist/ops/qkv.d.ts +1 -1
package/dist/ops/qkv.js +8 -4
package/dist/ops/reshape16.d.ts +2 -0
package/dist/ops/reshape16.js +43 -0
package/dist/ops/rope.d.ts +1 -1
package/dist/ops/rope.js +8 -10
package/dist/ops/scatterSub.js +1 -1
package/dist/ops/slice16.d.ts +2 -0
package/dist/ops/slice16.js +9 -0
package/dist/ops/softmax16.d.ts +2 -0
package/dist/ops/softmax16.js +12 -0
package/dist/ops/sub16.d.ts +2 -0
package/dist/ops/sub16.js +8 -0
package/dist/ops/sum16.d.ts +2 -0
package/dist/ops/sum16.js +13 -0
package/dist/ops/transpose16.d.ts +3 -0
package/dist/ops/transpose16.js +41 -0
package/dist/ops/unpack16.d.ts +2 -0
package/dist/ops/unpack16.js +6 -0
package/dist/ops/webgl/adamAdjust.js +3 -2
package/dist/ops/webgl/adamMoments.js +2 -1
package/dist/ops/webgl/appendCache.js +2 -1
package/dist/ops/webgl/attentionMask.js +5 -4
package/dist/ops/webgl/fusedSoftmax.js +6 -4
package/dist/ops/webgl/gatherSub.js +7 -6
package/dist/ops/webgl/gelu.js +3 -2
package/dist/ops/webgl/log.js +12 -27
package/dist/ops/webgl/matMul16.d.ts +1 -0
package/dist/ops/webgl/matMul16.js +37 -0
package/dist/ops/webgl/matMulGelu.js +17 -15
package/dist/ops/webgl/matMulMul.js +13 -12
package/dist/ops/webgl/mulDropout.js +9 -8
package/dist/ops/webgl/normRMS.js +8 -7
package/dist/ops/webgl/qkv.js +6 -5
package/dist/ops/webgl/rope.js +11 -10
package/dist/ops/webgl/scatterSub.js +6 -5
package/dist/ops/webgpu/adamAdjust.js +12 -10
package/dist/ops/webgpu/adamMoments.js +27 -22
package/dist/ops/webgpu/add16.d.ts +1 -0
package/dist/ops/webgpu/add16.js +14 -0
package/dist/ops/webgpu/appendCache.js +64 -17
package/dist/ops/webgpu/attentionMask.js +19 -62
package/dist/ops/webgpu/attentionMask32_program.d.ts +19 -0
package/dist/ops/webgpu/attentionMask32_program.js +54 -0
package/dist/ops/webgpu/concat16.d.ts +19 -0
package/dist/ops/webgpu/concat16.js +128 -0
package/dist/ops/webgpu/gatherSub.js +9 -7
package/dist/ops/webgpu/gelu.js +78 -31
package/dist/ops/webgpu/index.js +12 -0
package/dist/ops/webgpu/matMul16.d.ts +1 -0
package/dist/ops/webgpu/matMul16.js +58 -0
package/dist/ops/webgpu/matMul16_program.d.ts +42 -0
package/dist/ops/webgpu/matMul16_program.js +336 -0
package/dist/ops/webgpu/mul16.d.ts +1 -0
package/dist/ops/webgpu/mul16.js +14 -0
package/dist/ops/webgpu/normRMS.js +21 -40
package/dist/ops/webgpu/normRMS16_program.d.ts +9 -0
package/dist/ops/webgpu/normRMS16_program.js +24 -0
package/dist/ops/webgpu/normRMS32_program.d.ts +9 -0
package/dist/ops/webgpu/normRMS32_program.js +24 -0
package/dist/ops/webgpu/normRMSGrad.js +113 -64
package/dist/ops/webgpu/pack16.d.ts +1 -0
package/dist/ops/webgpu/pack16.js +19 -0
package/dist/ops/webgpu/pack16_program.d.ts +19 -0
package/dist/ops/webgpu/pack16_program.js +92 -0
package/dist/ops/webgpu/qkv.js +20 -55
package/dist/ops/webgpu/rope.js +77 -22
package/dist/ops/webgpu/scatterSub.js +9 -7
package/dist/ops/webgpu/slice16.d.ts +7 -0
package/dist/ops/webgpu/slice16.js +71 -0
package/dist/{variable-Bm2OFwGI.js → ops/webgpu/softmax16.d.ts} +2 -8
package/dist/ops/webgpu/softmax16.js +23 -0
package/dist/ops/webgpu/softmax16_program.d.ts +13 -0
package/dist/ops/webgpu/softmax16_program.js +73 -0
package/dist/ops/webgpu/softmax16_subgroup_program.d.ts +17 -0
package/dist/ops/webgpu/softmax16_subgroup_program.js +75 -0
package/dist/ops/webgpu/softmax16grad.d.ts +1 -0
package/dist/ops/webgpu/softmax16grad.js +38 -0
package/dist/ops/webgpu/sub16.d.ts +1 -0
package/dist/ops/webgpu/sub16.js +14 -0
package/dist/ops/webgpu/sum16.d.ts +1 -0
package/dist/ops/webgpu/sum16.js +40 -0
package/dist/ops/webgpu/transpose16.d.ts +1 -0
package/dist/ops/webgpu/transpose16.js +35 -0
package/dist/ops/webgpu/transpose16_program.d.ts +16 -0
package/dist/ops/webgpu/transpose16_program.js +50 -0
package/dist/ops/webgpu/transpose16_shared_program.d.ts +15 -0
package/dist/ops/webgpu/transpose16_shared_program.js +71 -0
package/dist/ops/webgpu/unpack16.d.ts +1 -0
package/dist/ops/webgpu/unpack16.js +49 -0
package/dist/ops/webgpu/utils/binary_op.d.ts +19 -0
package/dist/ops/webgpu/utils/binary_op.js +79 -0
package/dist/ops/webgpu/utils/deviceInfo.d.ts +7 -0
package/dist/ops/webgpu/utils/deviceInfo.js +11 -0
package/dist/ops/webgpu/utils/reductions.d.ts +32 -4
package/dist/ops/webgpu/utils/reductions.js +236 -45
package/dist/ops-CNI3TwqM.js +645 -0
package/dist/pack16-CFUqumar.js +41 -0
package/dist/{papaparse.min-C8l2Kvo1.js → papaparse.min-C0cScC2i.js} +2 -8
package/dist/{parquet-C0Tlmv9c.js → parquet-BE8MU_ge.js} +201 -278
package/dist/patches/PackedTensor.d.ts +12 -0
package/dist/patches/PackedTensor.js +11 -0
package/dist/patches/engine.d.ts +261 -0
package/dist/patches/engine.js +10 -0
package/dist/patches/tape.d.ts +12 -0
package/dist/patches/tape.js +5 -0
package/dist/patches/webgpu_backend.d.ts +18 -0
package/dist/patches/webgpu_backend.js +57 -0
package/dist/{tensor-CZr4dh61.js → patches/webgpu_base.d.ts} +5 -8
package/dist/patches/webgpu_base.js +34 -0
package/dist/patches/webgpu_program.d.ts +36 -0
package/dist/patches/webgpu_program.js +401 -0
package/dist/{pdf-kJD-f258.js → pdf-NIhmP3sq.js} +424 -428
package/dist/random_width-DY6Kk2Dl.js +10051 -0
package/dist/range-BMS52eQi.js +11 -0
package/dist/reciprocal-CTmshQ9J.js +10 -0
package/dist/{register_all_kernels-DIGpEwcf.js → register_all_kernels-Bwu1PTuU.js} +719 -9766
package/dist/relu-yZ2-7WxU.js +10 -0
package/dist/reshape-DevtBWtf.js +10 -0
package/dist/rope-B5UUMsPi.js +32 -0
package/dist/{scatter_nd_util-BQdz--Gn.js → scatter_nd_util-5EL-8VAQ.js} +1 -1
package/dist/selu_util-D1w6yyTO.js +303 -0
package/dist/{shared-DuP7ue-R.js → shared-BRksrJb3.js} +1 -17
package/dist/shared-BuAXb4CI.js +2145 -0
package/dist/sin-BGfy2HZo.js +16 -0
package/dist/slice-D_gkkqZK.js +13 -0
package/dist/slice_util-DtEldBfK.js +261 -0
package/dist/softmax-ZHVebtR1.js +13 -0
package/dist/split-DrfihRpZ.js +10 -0
package/dist/squeeze-DZEpeblb.js +11 -0
package/dist/stack-yOIAalTq.js +13 -0
package/dist/sum-_fzj5ZTB.js +12 -0
package/dist/tensor-DdQUJZlz.js +909 -0
package/dist/tensor-f35l8Odg.js +8 -0
package/dist/tensor1d-CeZuc-Rv.js +12 -0
package/dist/tensor2d-G4Ys2GxX.js +15 -0
package/dist/tensor4d-B8roDgtc.js +15 -0
package/dist/tensor_util-DV-FP5Q3.js +523 -0
package/dist/tfjs_backend-kNyO5L2d.js +653 -0
package/dist/tile-BzyEiF-F.js +13 -0
package/dist/tokeniser/CharTokeniser.js +1 -1
package/dist/tokeniser/bpe.js +1 -1
package/dist/training/Adam.d.ts +2 -1
package/dist/training/Adam.js +12 -28
package/dist/training/AdamExt.d.ts +1 -0
package/dist/training/AdamExt.js +2 -2
package/dist/training/DatasetBuilder.js +3 -20
package/dist/training/FullTrainer.js +55 -48
package/dist/training/Trainer.d.ts +11 -6
package/dist/training/Trainer.js +51 -39
package/dist/training/sparseCrossEntropy.js +3 -3
package/dist/transpose-DKELTqhe.js +38 -0
package/dist/utilities/arrayClose.js +7 -7
package/dist/utilities/dummy.js +35 -27
package/dist/utilities/multinomialCPU.js +2 -2
package/dist/utilities/packed.d.ts +7 -0
package/dist/utilities/packed.js +716 -0
package/dist/utilities/performance.js +1 -1
package/dist/utilities/profile.js +1 -1
package/dist/utilities/safetensors.js +2 -2
package/dist/utilities/sentences.d.ts +5 -0
package/dist/utilities/sentences.js +41 -0
package/dist/utilities/weights.js +2 -2
package/dist/variable-Bhn5bHYv.js +7 -0
package/dist/{webgpu_program-DkQJOJSd.js → webgpu_program-Cigz-7RF.js} +15 -44
package/dist/webgpu_util-BBCnKm2X.js +65 -0
package/dist/zeros-2gldETuK.js +14 -0
package/package.json +4 -3
package/dist/Reshape-Bowtk9BP.js +0 -127
package/dist/Reshape-DUqYftGC.js +0 -30
package/dist/backend_util-CJIiDoV1.js +0 -749
package/dist/broadcast_to-DzlNweb8.js +0 -44
package/dist/concat-B912vBbo.js +0 -33
package/dist/dropout-C-csYCLj.js +0 -193
package/dist/exports_initializers-B8iZMgQ0.js +0 -16
package/dist/gather-Dnpgw-YQ.js +0 -25
package/dist/index-BzFyqcy-.js +0 -4457
package/dist/index-C1rx_Ajs.js +0 -12076
package/dist/kernel_funcs_utils-DKLK0Mg3.js +0 -466
package/dist/log_sum_exp-DO6z8tSE.js +0 -103
package/dist/mat_mul-DzjTFx-u.js +0 -27
package/dist/mod-Dobti4j4.js +0 -27
package/dist/ones-tIJeHlq-.js +0 -29
package/dist/ops/fusedSoftmax.d.ts +0 -2
package/dist/ops/fusedSoftmax.js +0 -10
package/dist/ops/grads/fusedSoftmax.js +0 -22
package/dist/ops-LuCMAnmM.js +0 -1525
package/dist/random_width-CXVRloNK.js +0 -13670
package/dist/range-CWcz7xFA.js +0 -26
package/dist/reciprocal-C4rNcM-S.js +0 -25
package/dist/relu-BjCh_SYb.js +0 -25
package/dist/reshape-CnIwVG1c.js +0 -25
package/dist/selu_util-OtRzVwW5.js +0 -719
package/dist/shared-DmRsFyaJ.js +0 -3134
package/dist/sin-gpDNRxE0.js +0 -47
package/dist/slice-d0Vo9XTN.js +0 -28
package/dist/softmax-D7Jj3p_P.js +0 -28
package/dist/split-DK2k5eHf.js +0 -25
package/dist/stack-DFatutCx.js +0 -27
package/dist/sum-CJ0ULhmt.js +0 -27
package/dist/tensor1d-vML0r3q6.js +0 -27
package/dist/tensor2d-D76QGjF3.js +0 -30
package/dist/tensor4d-Df1WlVDY.js +0 -30
package/dist/webgpu_util-pLEV9tks.js +0 -80
package/dist/zeros-Bj5rMYA7.js +0 -52

package/dist/ops/webgpu/matMul16_program.js ADDED Viewed

@@ -0,0 +1,336 @@
+import "../../index-ZyQhjEPo.js";
+import { e as h } from "../../webgpu_program-Cigz-7RF.js";
+import { s as f } from "../../tensor-DdQUJZlz.js";
+class A {
+  variableNames = ["A", "B"];
+  outputShape;
+  shaderKey = "MatMul16TB";
+  dispatchLayout;
+  dispatch;
+  workgroupSize = [8, 8, 1];
+  // 8x8 threads for 32x32 tile
+  dimInner;
+  transposeA = !1;
+  transposeB = !0;
+  broadcastBatch = !0;
+  tileInner = 32;
+  uniforms;
+  scale = !1;
+  scaleA = !1;
+  scaleB = !1;
+  activation;
+  causalMask = !1;
+  outputComponent;
+  variableComponents;
+  outputIndexSnippet;
+  outputStrideSnippet;
+  constructor(e, t, o, a, i, r = !1, s = !1) {
+    if (this.transposeA = r, this.transposeB = s, this.variableComponents = [2, 2], this.outputComponent = 2, this.shaderKey = `MatMul16TB_${t}_${o}_${a}_${i}_${r ? "TA" : ""}${s ? "TB" : ""}`, r) {
+      if (this.outputShape = [e, a, i / 2], this.dimInner = t, t !== o)
+        throw new Error("Inner dimensions of A and B must match for MatMul16 transposeA");
+    } else if (s) {
+      if (this.outputShape = [e, t, o / 2], this.dimInner = i, i !== a)
+        throw new Error("Inner dimensions of A and B must match for MatMul16 transposeB");
+    } else if (this.outputShape = [e, t, i / 2], this.dimInner = a, a !== o)
+      throw new Error("Inner dimensions of A and B must match for MatMul16");
+    if (this.dimInner % this.tileInner !== 0)
+      throw new Error(`Inner dimension ${this.dimInner} must be multiple of ${this.tileInner}`);
+    if (this.dispatchLayout = { x: [2], y: [1], z: [0] }, this.dispatch = [
+      Math.ceil(this.outputShape[2] / (this.workgroupSize[0] * 2)),
+      // 4 unpacked cols per thread = 2 packed cols
+      Math.ceil(this.outputShape[1] / (this.workgroupSize[1] * 4)),
+      // 4 rows per thread
+      this.outputShape[0]
+    ], i % 32 !== 0)
+      throw new Error("Head size must be even for MatMul16 transposeB");
+    if (a % 32 !== 0)
+      throw new Error("Head size must be even for MatMul16 transposeB");
+    if (t % 32 !== 0)
+      throw new Error("Sequence length must be multiple of 32 for MatMul16 transposeB");
+    if (o % 32 !== 0)
+      throw new Error("Sequence length must be multiple of 32 for MatMul16 transposeB");
+    this.outputIndexSnippet = "var idx0 = getOutputIndexFromCoords(vec3<i32>(batch, gRow, gColPacked));", this.outputStrideSnippet = "idx0 = idx0 + uniforms.outShapeStrides[1];  // Next row";
+  }
+  addUniform(e) {
+    this.uniforms ? this.uniforms += `, ${e}` : this.uniforms = e;
+  }
+  /* Note: this is done after constructor because it shouldn't affect dispatch */
+  setOutputShape(e, t) {
+    const o = f(e), a = f(this.outputShape);
+    if (o !== a)
+      throw new Error(`New shape size ${o} must match current size ${a}`);
+    function i(c, u) {
+      return [`${c} / ${u}`, `${c} % ${u}`];
+    }
+    const r = this.outputShape;
+    let s = [];
+    if (e.length === r.length + 1)
+      if (e[0] * e[1] === r[0])
+        s = [
+          ...i("batch", e[1]),
+          // batch / B2, batch % B2
+          "gRow",
+          "gColPacked"
+        ], this.shaderKey += `_batchSplit_${e[1]}`;
+      else if (e[e.length - 2] * e[e.length - 1] === r[r.length - 1])
+        s = [
+          "batch",
+          "gRow",
+          ...i("gColPacked", e[e.length - 1])
+          // gColPacked / N2, gColPacked % N2
+        ], this.shaderKey += `_colSplit_${e[e.length - 1]}`;
+      else
+        throw new Error("Unsupported output shape split");
+    else if (e.length === r.length)
+      s = ["batch", "gRow", "gColPacked"];
+    else if (e.length === 2 && r[0] === 1)
+      s = ["gRow", "gColPacked"], this.shaderKey += "_batchRemoved";
+    else
+      throw new Error(`Unsupported output shape rank change: ${r.length} -> ${e.length}}`);
+    let n = [];
+    if (t) {
+      if (t.length !== e.length)
+        throw new Error("Permutation length must match output rank");
+      n = t.map((c) => s[c]), this.shaderKey += `_perm_${t.join("")}`;
+    } else
+      n = s;
+    const l = n.findIndex((c) => c === "gRow"), p = `vec${e.length}<i32>(${n.join(", ")})`;
+    this.outputIndexSnippet = `var idx0: i32 = getOutputIndexFromCoords(${p});`, this.outputStrideSnippet = `idx0 = idx0 + uniforms.outShapeStrides${l === 0 ? "" : `[${l}]`}; `, t ? this.outputShape = t.map((c) => e[c]) : this.outputShape = e;
+  }
+  useScale() {
+    this.addUniform("scale: f32"), this.scale = !0, this.shaderKey += "_scaled";
+  }
+  useScaleA() {
+    this.addUniform("scaleA: f32"), this.scaleA = !0, this.shaderKey += "_scaledA";
+  }
+  useScaleB() {
+    this.addUniform("scaleB: f32"), this.scaleB = !0, this.shaderKey += "_scaledB";
+  }
+  useActivation(e) {
+    this.activation = e, this.shaderKey += `_${e}`;
+  }
+  useCausalMask() {
+    this.causalMask = !0, this.addUniform("pastLen: i32"), this.shaderKey += "_causalMask";
+  }
+  activationSnippet() {
+    return this.activation === "gelu" ? `
+                // TODO: revisit after https://github.com/gpuweb/gpuweb/issues/4458 is resolved
+                fn tanhComplete(x: vec4<f32>) -> vec4<f32> {
+                    return vec4<f32>(
+                        select(tanh(x.x), sign(x.x), abs(x.x) > 15.0f),
+                        select(tanh(x.y), sign(x.y), abs(x.y) > 15.0f),
+                        select(tanh(x.z), sign(x.z), abs(x.z) > 15.0f),
+                        select(tanh(x.w), sign(x.w), abs(x.w) > 15.0f),
+                    );
+                }
+                fn activation(x : vec4<f32>) -> vec4<f32> {
+                    let x3 = x * x * x;
+                    var inner = fma(vec4<f32>(${0.044715}f), x3, x);
+                    inner = ${0.7978845608028654}f * inner;
+                    inner = tanhComplete(inner);
+                    inner = 0.5f * (1.0f + inner);
+                    return x * inner;
+                }
+                ` : "";
+  }
+  /* Transpose when writing to shared memory */
+  readASnippet() {
+    const e = `
+            var col = i32(localId.x);
+            var row = i32(localId.y) * 4;
+            var packedA: vec2<i32> = A[offsetA + row * strideA + col];
+            var Arow1 = vec4<f32>(
+                unpack2x16float(u32(packedA.x)),
+                unpack2x16float(u32(packedA.y))
+            );
+            packedA = A[offsetA + (row + 1) * strideA + col];
+            var Arow2 = vec4<f32>(
+                unpack2x16float(u32(packedA.x)),
+                unpack2x16float(u32(packedA.y))
+            );
+            packedA = A[offsetA + (row + 2) * strideA + col];
+            var Arow3 = vec4<f32>(
+                unpack2x16float(u32(packedA.x)),
+                unpack2x16float(u32(packedA.y))
+            );
+            packedA = A[offsetA + (row + 3) * strideA + col];
+            var Arow4 = vec4<f32>(
+                unpack2x16float(u32(packedA.x)),
+                unpack2x16float(u32(packedA.y))
+            );
+            ${this.scaleA ? "Arow1 = Arow1 * uniforms.scaleA;" : ""}
+            ${this.scaleA ? "Arow2 = Arow2 * uniforms.scaleA;" : ""}
+            ${this.scaleA ? "Arow3 = Arow3 * uniforms.scaleA;" : ""}
+            ${this.scaleA ? "Arow4 = Arow4 * uniforms.scaleA;" : ""}
+        `;
+    return this.transposeA ? `{
+                ${e}
+                mm_Asub[row][col] = Arow1;
+                mm_Asub[row + 1][col] = Arow2;
+                mm_Asub[row + 2][col] = Arow3;
+                mm_Asub[row + 3][col] = Arow4;
+        }` : `{
+                ${e}
+                col = i32(localId.x) * 4;
+                row = i32(localId.y);
+                mm_Asub[col][row] = vec4<f32>(Arow1.x, Arow2.x, Arow3.x, Arow4.x);
+                mm_Asub[col + 1][row] = vec4<f32>(Arow1.y, Arow2.y, Arow3.y, Arow4.y);
+                mm_Asub[col + 2][row] = vec4<f32>(Arow1.z, Arow2.z, Arow3.z, Arow4.z);
+                mm_Asub[col + 3][row] = vec4<f32>(Arow1.w, Arow2.w, Arow3.w, Arow4.w);
+        }`;
+  }
+  /* Transpose when writing to shared memory */
+  readBSnippet() {
+    const e = `
+            var col = i32(localId.x);
+            var row = i32(localId.y) * 4;
+            var packedB: vec2<i32> = B[offsetB + row * strideB + col];
+            var Brow1 = vec4<f32>(
+                unpack2x16float(u32(packedB.x)),
+                unpack2x16float(u32(packedB.y))
+            );
+            packedB = B[offsetB + (row + 1) * strideB + col];
+            var Brow2 = vec4<f32>(
+                unpack2x16float(u32(packedB.x)),
+                unpack2x16float(u32(packedB.y))
+            );
+            packedB = B[offsetB + (row + 2) * strideB + col];
+            var Brow3 = vec4<f32>(
+                unpack2x16float(u32(packedB.x)),
+                unpack2x16float(u32(packedB.y))
+            );
+            packedB = B[offsetB + (row + 3) * strideB + col];
+            var Brow4 = vec4<f32>(
+                unpack2x16float(u32(packedB.x)),
+                unpack2x16float(u32(packedB.y))
+            );
+            ${this.scaleB ? "Brow1 = Brow1 * uniforms.scaleB;" : ""}
+            ${this.scaleB ? "Brow2 = Brow2 * uniforms.scaleB;" : ""}
+            ${this.scaleB ? "Brow3 = Brow3 * uniforms.scaleB;" : ""}
+            ${this.scaleB ? "Brow4 = Brow4 * uniforms.scaleB;" : ""}
+        `;
+    return this.transposeB ? `{
+                ${e}
+                col = i32(localId.x) * 4;
+                row = i32(localId.y);
+                mm_Bsub[col][row] = vec4<f32>(Brow1.x, Brow2.x, Brow3.x, Brow4.x);
+                mm_Bsub[col + 1][row] = vec4<f32>(Brow1.y, Brow2.y, Brow3.y, Brow4.y);
+                mm_Bsub[col + 2][row] = vec4<f32>(Brow1.z, Brow2.z, Brow3.z, Brow4.z);
+                mm_Bsub[col + 3][row] = vec4<f32>(Brow1.w, Brow2.w, Brow3.w, Brow4.w);
+            }` : `{
+                ${e}
+                mm_Bsub[row][col] = Brow1;
+                mm_Bsub[row + 1][col] = Brow2;
+                mm_Bsub[row + 2][col] = Brow3;
+                mm_Bsub[row + 3][col] = Brow4;
+            }`;
+  }
+  baseIndexSnippets() {
+    const e = `
+            let strideA = uniforms.aShape.z / 2;
+            let strideB = uniforms.bShape.z / 2;
+        `;
+    let t = "";
+    this.transposeB ? t = "let baseB = getIndexFromCoords3D(vec3<i32>(batchB, globalColStart, 0), vec3<i32>(uniforms.bShape.x, uniforms.bShape.y, strideB));" : t = "let baseB = getIndexFromCoords3D(vec3<i32>(batchB, 0, globalColStart / 4), vec3<i32>(uniforms.bShape.x, uniforms.bShape.y, strideB));";
+    let o = "";
+    return this.transposeA ? o = "let baseA = getIndexFromCoords3D(vec3<i32>(batchA, 0, globalRowStart / 4), vec3<i32>(uniforms.aShape.x, uniforms.aShape.y, strideA));" : o = "let baseA = getIndexFromCoords3D(vec3<i32>(batchA, globalRowStart, 0), vec3<i32>(uniforms.aShape.x, uniforms.aShape.y, strideA));", `
+            ${e}
+            ${o}
+            ${t}
+        `;
+  }
+  offsetSnippets() {
+    let e = "";
+    this.transposeA ? e = "let offsetA = baseA + kStart * strideA;" : e = "let offsetA = baseA + kStart / 4;";
+    let t = "";
+    return this.transposeB ? t = "let offsetB = baseB + kStart / 4;" : t = "let offsetB = baseB + kStart * strideB;", `
+            ${e}
+            ${t}
+        `;
+  }
+  getUserCode() {
+    const e = this.transposeA, t = this.tileInner, o = this.workgroupSize[1] * 4, a = this.workgroupSize[0] * 4, i = e ? o : t, r = e ? t : o, s = this.dimInner, n = Math.ceil(s / t);
+    return `
+            var<workgroup> mm_Asub : array<array<vec4<f32>, ${i / 4 + (this.transposeA ? 0 : 1)}>, ${r}>;
+            var<workgroup> mm_Bsub : array<array<vec4<f32>, ${a / 4 + (this.transposeB ? 1 : 0)}>, ${t}>;
+            ${this.activation ? this.activationSnippet() : ""}
+            ${h()} {
+                let batch = i32(globalId.z);
+                let batchA = ${this.broadcastBatch ? "batch % uniforms.aShape[0]" : "batch"};
+                let batchB = ${this.broadcastBatch ? "batch % uniforms.bShape[0]" : "batch"};
+                var kStart = 0;
+                let localRow = i32(localId.y);
+                let localCol = i32(localId.x);
+                let globalRowStart = i32(workgroupId.y) * ${o};
+                let globalColStart = i32(workgroupId.x) * ${a};
+                // 4 rows x 4 cols accumulator
+                // acc[i] holds row i (4 cols)
+                var acc = array<vec4<f32>, 4>(
+                    vec4<f32>(0.0), vec4<f32>(0.0), vec4<f32>(0.0), vec4<f32>(0.0)
+                );
+                ${this.baseIndexSnippets()}
+                for (var t = 0; t < ${n}; t++) {
+                    ${this.offsetSnippets()}
+                    ${this.readASnippet()}
+                    ${this.readBSnippet()}
+                    kStart = kStart + ${t};
+                    workgroupBarrier();
+                    for (var k = 0; k < ${t}; k++) {
+                        // Load 4 columns of B as a vec4
+                        let bVec = mm_Bsub[k][localCol];
+                        let aVec = mm_Asub[k][localRow];
+                        // Compute 4 rows
+                        for (var r = 0; r < 4; r = r + 1) {
+                            acc[r] = fma(vec4<f32>(aVec[r]), bVec, acc[r]);
+                        }
+                    }
+                    workgroupBarrier();
+                }
+                // Write out 4 rows x 2 packed cols (4 unpacked cols)
+                let gRow = globalRowStart + localRow * 4;
+                let gColPacked = i32(workgroupId.x) * ${this.workgroupSize[0] * 2} + localCol * 2;
+                ${this.outputIndexSnippet}
+                for (var i = 0; i < 4; i = i + 1) {
+                    ${this.scale ? "acc[i] = acc[i] * uniforms.scale;" : ""}
+                    ${this.causalMask ? `
+                    // Causal Masking: mask if col > row + pastLen
+                    let r = gRow + i;
+                    let cBase = gColPacked * 2;
+                    let cVec = vec4<i32>(cBase, cBase + 1, cBase + 2, cBase + 3);
+                    let mask = cVec > vec4<i32>(r + uniforms.pastLen);
+                    acc[i] = select(acc[i], vec4<f32>(-uniforms.INFINITY), mask);
+                    ` : ""}
+                    ${this.activation ? "acc[i] = activation(acc[i]);" : ""}
+                    result[idx0 / 2] = vec2<i32>(
+                        i32(pack2x16float(acc[i].xy)),
+                        i32(pack2x16float(acc[i].zw))
+                    );
+                    ${this.outputStrideSnippet}
+                }
+            }
+        `;
+  }
+}
+export {
+  A as default
+};

package/dist/ops/webgpu/mul16.d.ts ADDED Viewed

	@@ -0,0 +1 @@
1	+ export {};

package/dist/ops/webgpu/mul16.js ADDED Viewed

@@ -0,0 +1,14 @@
+import "../../index-ZyQhjEPo.js";
+import { BinaryOpProgram as m } from "./utils/binary_op.js";
+import { B as p } from "../../binary_op_util-pKXltfxI.js";
+import { r as c } from "../../tensor_util-DV-FP5Q3.js";
+function i(r) {
+  const { a: e, b: n } = r.inputs, t = r.backend, a = new m(p.MUL, e.shape, n.shape), o = t.runWebGPUProgram(a, [e, n], "int32");
+  return o.packed = !0, o;
+}
+const s = {
+  kernelName: "Mul16",
+  backendName: "webgpu",
+  kernelFunc: i
+};
+c(s);

package/dist/ops/webgpu/normRMS.js CHANGED Viewed

@@ -1,49 +1,30 @@
-import { f as n } from "../../webgpu_util-pLEV9tks.js";
-import { f as p, a4 as h } from "../../index-BzFyqcy-.js";
-import { createReduceInfo as u, reduce as c, createReductionShader as m } from "./utils/reductions.js";
-class d {
-  outputShape;
-  shaderKey = "RMSNorm";
-  dispatchLayout;
-  dispatch;
-  workgroupSize = [64, 1, 1];
-  variableNames = ["x", "gamma"];
-  uniforms = "reduceSize : i32,";
-  inputShape;
-  size = !0;
-  constructor(e) {
-    this.inputShape = [e.batchSize, e.inSize], this.outputShape = this.inputShape, this.dispatchLayout = n(this.outputShape), this.dispatch = [e.batchSize, 1, 1];
-  }
-  getUserCode() {
-    const e = this.workgroupSize[0];
-    return m(e, "mean", `
-            candidate = candidate * candidate;
-        `, `
-            bestValue = inverseSqrt(bestValue + 1e-8);
-        `, `
-            let X = f32(x[offset + k]);
-            let gamma = gamma[k];
-            let normalized = X * bestValue;
-            let outVal = normalized * gamma;
-            result[offset + k] = f32(outVal);
-        `);
-  }
-}
-function S(a) {
-  const { x: e, gamma: r } = a.inputs, o = a.backend, s = [e, r], t = u(s, -1), i = new d(t);
-  if (h(r.shape, [e.shape[e.shape.length - 1]], "Error in RMSNorm: "), e.shape.length !== 3)
+import "../../index-ZyQhjEPo.js";
+import { createReduceInfo as g, reduce as l } from "./utils/reductions.js";
+import { j as w } from "../../tensor-DdQUJZlz.js";
+import { isPackedTensor as f } from "../../utilities/packed.js";
+import { p as k } from "../../pack16-CFUqumar.js";
+import S from "./normRMS16_program.js";
+import z from "./normRMS32_program.js";
+import N from "./utils/deviceInfo.js";
+import { r as b } from "../../tensor_util-DV-FP5Q3.js";
+function P(m) {
+  const { x: e, gamma: n } = m.inputs, c = m.backend, i = N(c), s = f(e), a = f(n), o = s || a, r = !o || s ? e : k(e), p = !o || a ? n : k(n), h = [r, p], t = g(h, -1), u = o ? new S(i, t) : new z(i, t);
+  if (w(p.shape, [r.shape[r.shape.length - 1]], "Error in RMSNorm: "), e.shape.length !== 3)
     throw new Error(`rmsNormGPU: input rank ${e.shape.length} not supported, only rank 3 is supported`);
-  if (t.inSize !== e.shape[2])
-    throw new Error(`rmsNormGPU: reduction size ${t.inSize} does not match expected size ${e.shape[2]}`);
+  if (t.inSize !== r.shape[r.shape.length - 1])
+    throw new Error(
+      `rmsNormGPU: reduction size ${t.inSize} does not match expected size ${r.shape[r.shape.length - 1]}`
+    );
   if (t.batchSize !== e.shape[0] * e.shape[1])
     throw new Error(
       `rmsNormGPU: batch size ${t.batchSize} does not match expected size ${e.shape[0] * e.shape[1]}`
     );
-  return c(i, s, o);
+  const d = l(u, h, c);
+  return d.packed = o, o && !s && r.dispose(), o && !a && p.dispose(), d;
 }
-const l = {
+const G = {
   kernelName: "RMSNorm",
   backendName: "webgpu",
-  kernelFunc: S
+  kernelFunc: P
 };
-p(l);
+b(G);

package/dist/ops/webgpu/normRMS16_program.d.ts ADDED Viewed

@@ -0,0 +1,9 @@
+import { backend_util } from '@tensorflow/tfjs-core';
+import { ReduceProgram } from './utils/reductions';
+import { DeviceInformation } from './utils/deviceInfo';
+export default class RMSProgram16 extends ReduceProgram {
+    constructor(deviceInfo: DeviceInformation, reduceInfo: backend_util.ReduceInfo);
+    getPreprocessSnippet(): string;
+    getPostprocessSnippet(): string;
+    getWriteSnippet(): string;
+}

package/dist/ops/webgpu/normRMS16_program.js ADDED Viewed

@@ -0,0 +1,24 @@
+import { ReduceProgram as a } from "./utils/reductions.js";
+class o extends a {
+  constructor(e, t) {
+    super(e, t, { reductionOp: "mean", elementwise: !0 }, !0), this.shaderKey = "RMSNorm16", this.variableNames.push("gamma"), this.variableComponents = [1, 1];
+  }
+  getPreprocessSnippet() {
+    return "candidate = candidate * candidate;";
+  }
+  getPostprocessSnippet() {
+    return "bestValue = inverseSqrt(bestValue + 1e-8);";
+  }
+  getWriteSnippet() {
+    return `
+            let X = unpack2x16float(u32(x[offset + k]));
+            let gamma = unpack2x16float(u32(gamma[k]));
+            let normalized = X * bestValue;
+            let outVal = normalized * gamma;
+            result[offset + k] = i32(pack2x16float(outVal));
+        `;
+  }
+}
+export {
+  o as default
+};

package/dist/ops/webgpu/normRMS32_program.d.ts ADDED Viewed

@@ -0,0 +1,9 @@
+import { backend_util } from '@tensorflow/tfjs-core';
+import { ReduceProgram } from './utils/reductions';
+import { DeviceInformation } from './utils/deviceInfo';
+export default class RMSProgram32 extends ReduceProgram {
+    constructor(deviceInfo: DeviceInformation, reduceInfo: backend_util.ReduceInfo);
+    protected getPreprocessSnippet(): string;
+    protected getPostprocessSnippet(): string;
+    protected getWriteSnippet(): string;
+}

package/dist/ops/webgpu/normRMS32_program.js ADDED Viewed

@@ -0,0 +1,24 @@
+import { ReduceProgram as a } from "./utils/reductions.js";
+class o extends a {
+  constructor(e, t) {
+    super(e, t, { reductionOp: "mean", elementwise: !0 }, !1), this.shaderKey = "RMSNorm32", this.variableNames.push("gamma"), this.variableComponents = [1, 1];
+  }
+  getPreprocessSnippet() {
+    return "candidate = candidate * candidate;";
+  }
+  getPostprocessSnippet() {
+    return "bestValue = inverseSqrt(bestValue + 1e-8);";
+  }
+  getWriteSnippet() {
+    return `
+            let X = f32(x[offset + k]);
+            let gamma = gamma[k];
+            let normalized = X * bestValue;
+            let outVal = normalized * gamma;
+            result[offset + k] = f32(outVal);
+        `;
+  }
+}
+export {
+  o as default
+};