npm - @genai-fi/nanogpt - Versions diffs - 0.19.1 → 0.20.0 - Mend

@genai-fi/nanogpt 0.19.1 → 0.20.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (482) hide show

package/package.json +9 -10
package/dist/Generator.d.ts +0 -82
package/dist/Generator.js +0 -11941
package/dist/RealDiv-CGwv0liw.js +0 -365
package/dist/Reshape-BW__R4mZ.js +0 -79
package/dist/Reshape-CPBkTIH2.js +0 -14
package/dist/TeachableLLM.d.ts +0 -70
package/dist/TeachableLLM.js +0 -273
package/dist/Trainer.d.ts +0 -43
package/dist/Trainer.js +0 -244
package/dist/_commonjsHelpers-ByX85dGu.js +0 -33
package/dist/axis_util-GTVlo58H.js +0 -55
package/dist/backend.d.ts +0 -2
package/dist/backend.js +0 -13
package/dist/backend_util-GaFarB78.js +0 -425
package/dist/backend_webgpu-BqASlsbV.js +0 -545
package/dist/binary_op_util-pKXltfxI.js +0 -192
package/dist/broadcast_to-eS93CCN_.js +0 -28
package/dist/checks/appendCache.d.ts +0 -1
package/dist/checks/appendCache.js +0 -22
package/dist/checks/attentionMask.d.ts +0 -1
package/dist/checks/attentionMask.js +0 -37
package/dist/checks/check.d.ts +0 -9
package/dist/checks/check.js +0 -20
package/dist/checks/gelu.d.ts +0 -1
package/dist/checks/gelu.js +0 -18
package/dist/checks/index.d.ts +0 -26
package/dist/checks/index.js +0 -28
package/dist/checks/matMulGelu.d.ts +0 -1
package/dist/checks/matMulGelu.js +0 -28
package/dist/checks/normRMS.d.ts +0 -1
package/dist/checks/normRMS.js +0 -16
package/dist/checks/normRMSGrad.d.ts +0 -1
package/dist/checks/normRMSGrad.js +0 -12
package/dist/checks/packUnpack.d.ts +0 -1
package/dist/checks/packUnpack.js +0 -18
package/dist/checks/qkv.d.ts +0 -1
package/dist/checks/qkv.js +0 -34
package/dist/checks/rope.d.ts +0 -1
package/dist/checks/rope.js +0 -36
package/dist/checks/weights.d.ts +0 -14
package/dist/checks/weights.js +0 -31
package/dist/clip_by_value-DDA7rrcT.js +0 -12
package/dist/complex-DI35Q-gW.js +0 -11
package/dist/complex_util-Yc1A_gV1.js +0 -55
package/dist/concat-CAQpCret.js +0 -17
package/dist/concat_util-D18dJ4fD.js +0 -22
package/dist/data/docx.d.ts +0 -2
package/dist/data/docx.js +0 -15
package/dist/data/parquet.d.ts +0 -2
package/dist/data/parquet.js +0 -17
package/dist/data/pdf.d.ts +0 -2
package/dist/data/pdf.js +0 -14
package/dist/data/textLoader.d.ts +0 -7
package/dist/data/textLoader.js +0 -118
package/dist/dataset-CGGp1z9P.js +0 -1124
package/dist/dropout_util--NxWuYg2.js +0 -27
package/dist/expand_dims-Bkd1YD5x.js +0 -11
package/dist/exports_initializers-CYzKLjN7.js +0 -7
package/dist/floor-BQtb-Azg.js +0 -9
package/dist/gather-qIqEqaGn.js +0 -9
package/dist/gelu-B220X1Go.js +0 -26
package/dist/gpgpu_math-BwvV12df.js +0 -2022
package/dist/index-CUXkjxiT.js +0 -3516
package/dist/index-CieiGp4Y.js +0 -349
package/dist/index-CjOWnMXP.js +0 -7308
package/dist/index-Cp39cXWe.js +0 -1016
package/dist/index-D5v913EJ.js +0 -4
package/dist/index-DmeWGGmS.js +0 -1074
package/dist/index-DvYrXKkX.js +0 -113
package/dist/index-Ksja3su6.js +0 -151
package/dist/index-xuotMAFm.js +0 -118
package/dist/inference/types.d.ts +0 -16
package/dist/inference/types.js +0 -1
package/dist/jszip.min-BZhlzntC.js +0 -2313
package/dist/kernel_funcs_utils-pq0CK9co.js +0 -306
package/dist/layers/BaseLayer.d.ts +0 -44
package/dist/layers/BaseLayer.js +0 -74
package/dist/layers/CausalSelfAttention.d.ts +0 -39
package/dist/layers/CausalSelfAttention.js +0 -86
package/dist/layers/LoRA.d.ts +0 -14
package/dist/layers/LoRA.js +0 -58
package/dist/layers/MLP.d.ts +0 -17
package/dist/layers/MLP.js +0 -44
package/dist/layers/PositionEmbedding.d.ts +0 -8
package/dist/layers/PositionEmbedding.js +0 -31
package/dist/layers/RMSNorm.d.ts +0 -12
package/dist/layers/RMSNorm.js +0 -22
package/dist/layers/RoPECache.d.ts +0 -18
package/dist/layers/RoPECache.js +0 -50
package/dist/layers/TiedEmbedding.d.ts +0 -13
package/dist/layers/TiedEmbedding.js +0 -36
package/dist/layers/TransformerBlock.d.ts +0 -27
package/dist/layers/TransformerBlock.js +0 -40
package/dist/layers/WeightStore.d.ts +0 -20
package/dist/layers/WeightStore.js +0 -76
package/dist/loader/load.d.ts +0 -6
package/dist/loader/load.js +0 -68
package/dist/loader/loadHF.d.ts +0 -8
package/dist/loader/loadHF.js +0 -22
package/dist/loader/loadTransformers.d.ts +0 -4
package/dist/loader/loadTransformers.js +0 -44
package/dist/loader/loadZipMeta.d.ts +0 -3
package/dist/loader/loadZipMeta.js +0 -16
package/dist/loader/newZipLoad.d.ts +0 -3
package/dist/loader/newZipLoad.js +0 -31
package/dist/loader/oldZipLoad.d.ts +0 -9
package/dist/loader/oldZipLoad.js +0 -80
package/dist/loader/save.d.ts +0 -16
package/dist/loader/save.js +0 -90
package/dist/loader/types.d.ts +0 -67
package/dist/loader/types.js +0 -1
package/dist/main.d.ts +0 -50
package/dist/main.js +0 -109
package/dist/matMul16-BcVC_E62.js +0 -80
package/dist/matMulGelu-JNLZqKQp.js +0 -163
package/dist/mat_mul-DhG0Newp.js +0 -11
package/dist/mod-CSdCpRjf.js +0 -11
package/dist/models/NanoGPTV1.d.ts +0 -16
package/dist/models/NanoGPTV1.js +0 -99
package/dist/models/NanoGPTV2.d.ts +0 -16
package/dist/models/NanoGPTV2.js +0 -90
package/dist/models/config.d.ts +0 -27
package/dist/models/config.js +0 -50
package/dist/models/factory.d.ts +0 -3
package/dist/models/factory.js +0 -16
package/dist/models/model.d.ts +0 -44
package/dist/models/model.js +0 -134
package/dist/non_max_suppression_impl-B2W7YjZB.js +0 -102
package/dist/not_equal-hurPF26l.js +0 -64
package/dist/ones-BytntneX.js +0 -14
package/dist/ops/adamAdjust.d.ts +0 -2
package/dist/ops/adamAdjust.js +0 -9
package/dist/ops/adamMoments.d.ts +0 -2
package/dist/ops/adamMoments.js +0 -9
package/dist/ops/add16.d.ts +0 -2
package/dist/ops/add16.js +0 -9
package/dist/ops/appendCache.d.ts +0 -2
package/dist/ops/appendCache.js +0 -22
package/dist/ops/attentionMask.d.ts +0 -2
package/dist/ops/attentionMask.js +0 -10
package/dist/ops/concat16.d.ts +0 -2
package/dist/ops/concat16.js +0 -9
package/dist/ops/cpu/adamAdjust.d.ts +0 -1
package/dist/ops/cpu/adamAdjust.js +0 -18
package/dist/ops/cpu/adamMoments.d.ts +0 -1
package/dist/ops/cpu/adamMoments.js +0 -16
package/dist/ops/cpu/appendCache.d.ts +0 -1
package/dist/ops/cpu/appendCache.js +0 -23
package/dist/ops/cpu/attentionMask.d.ts +0 -1
package/dist/ops/cpu/attentionMask.js +0 -22
package/dist/ops/cpu/fusedSoftmax.d.ts +0 -9
package/dist/ops/cpu/fusedSoftmax.js +0 -29
package/dist/ops/cpu/gatherSub.d.ts +0 -1
package/dist/ops/cpu/gatherSub.js +0 -18
package/dist/ops/cpu/gelu.d.ts +0 -1
package/dist/ops/cpu/gelu.js +0 -40
package/dist/ops/cpu/matMul16.d.ts +0 -1
package/dist/ops/cpu/matMul16.js +0 -15
package/dist/ops/cpu/matMulGelu.d.ts +0 -1
package/dist/ops/cpu/matMulGelu.js +0 -53
package/dist/ops/cpu/matMulMul.d.ts +0 -1
package/dist/ops/cpu/matMulMul.js +0 -23
package/dist/ops/cpu/mulDropout.d.ts +0 -1
package/dist/ops/cpu/mulDropout.js +0 -23
package/dist/ops/cpu/normRMS.d.ts +0 -1
package/dist/ops/cpu/normRMS.js +0 -39
package/dist/ops/cpu/qkv.d.ts +0 -5
package/dist/ops/cpu/qkv.js +0 -41
package/dist/ops/cpu/rope.d.ts +0 -6
package/dist/ops/cpu/rope.js +0 -38
package/dist/ops/cpu/scatterSub.d.ts +0 -1
package/dist/ops/cpu/scatterSub.js +0 -23
package/dist/ops/dot16.d.ts +0 -2
package/dist/ops/dot16.js +0 -42
package/dist/ops/dropout.d.ts +0 -2
package/dist/ops/dropout.js +0 -14
package/dist/ops/dropout16.d.ts +0 -2
package/dist/ops/dropout16.js +0 -25
package/dist/ops/gatherSub.d.ts +0 -2
package/dist/ops/gatherSub.js +0 -9
package/dist/ops/gelu.d.ts +0 -3
package/dist/ops/gelu.js +0 -8
package/dist/ops/globalNorm.d.ts +0 -2
package/dist/ops/globalNorm.js +0 -13
package/dist/ops/grads/add16.d.ts +0 -1
package/dist/ops/grads/add16.js +0 -26
package/dist/ops/grads/attentionMask.d.ts +0 -1
package/dist/ops/grads/attentionMask.js +0 -21
package/dist/ops/grads/dropout16.d.ts +0 -1
package/dist/ops/grads/dropout16.js +0 -2
package/dist/ops/grads/gelu.d.ts +0 -2
package/dist/ops/grads/gelu.js +0 -5
package/dist/ops/grads/matMul16.d.ts +0 -2
package/dist/ops/grads/matMul16.js +0 -9
package/dist/ops/grads/matMulGelu.d.ts +0 -1
package/dist/ops/grads/matMulGelu.js +0 -17
package/dist/ops/grads/mul16.d.ts +0 -1
package/dist/ops/grads/mul16.js +0 -4
package/dist/ops/grads/normRMS.d.ts +0 -3
package/dist/ops/grads/normRMS.js +0 -33
package/dist/ops/grads/pack16.d.ts +0 -2
package/dist/ops/grads/pack16.js +0 -6
package/dist/ops/grads/qkv.d.ts +0 -3
package/dist/ops/grads/qkv.js +0 -34
package/dist/ops/grads/rope.d.ts +0 -2
package/dist/ops/grads/rope.js +0 -5
package/dist/ops/grads/softmax16.d.ts +0 -2
package/dist/ops/grads/softmax16.js +0 -25
package/dist/ops/grads/unpack16.d.ts +0 -2
package/dist/ops/grads/unpack16.js +0 -5
package/dist/ops/grads/utils.d.ts +0 -4
package/dist/ops/grads/utils.js +0 -14
package/dist/ops/log.d.ts +0 -0
package/dist/ops/log.js +0 -1
package/dist/ops/matMul16.d.ts +0 -15
package/dist/ops/matMul16.js +0 -13
package/dist/ops/matMulGelu.d.ts +0 -3
package/dist/ops/matMulGelu.js +0 -14
package/dist/ops/matMulMul.d.ts +0 -2
package/dist/ops/matMulMul.js +0 -9
package/dist/ops/mul16.d.ts +0 -2
package/dist/ops/mul16.js +0 -39
package/dist/ops/mulDrop.d.ts +0 -2
package/dist/ops/mulDrop.js +0 -9
package/dist/ops/normRMS.d.ts +0 -2
package/dist/ops/normRMS.js +0 -19
package/dist/ops/pack16.d.ts +0 -2
package/dist/ops/pack16.js +0 -5
package/dist/ops/qkv.d.ts +0 -2
package/dist/ops/qkv.js +0 -10
package/dist/ops/reshape16.d.ts +0 -2
package/dist/ops/reshape16.js +0 -41
package/dist/ops/rope.d.ts +0 -3
package/dist/ops/rope.js +0 -7
package/dist/ops/scatterSub.d.ts +0 -2
package/dist/ops/scatterSub.js +0 -9
package/dist/ops/slice16.d.ts +0 -2
package/dist/ops/slice16.js +0 -9
package/dist/ops/softmax16.d.ts +0 -2
package/dist/ops/softmax16.js +0 -9
package/dist/ops/sub16.d.ts +0 -2
package/dist/ops/sub16.js +0 -8
package/dist/ops/sum16.d.ts +0 -2
package/dist/ops/sum16.js +0 -13
package/dist/ops/transpose16.d.ts +0 -3
package/dist/ops/transpose16.js +0 -40
package/dist/ops/unpack16.d.ts +0 -2
package/dist/ops/unpack16.js +0 -6
package/dist/ops/webgl/adamAdjust.d.ts +0 -1
package/dist/ops/webgl/adamAdjust.js +0 -49
package/dist/ops/webgl/adamMoments.d.ts +0 -1
package/dist/ops/webgl/adamMoments.js +0 -40
package/dist/ops/webgl/appendCache.d.ts +0 -1
package/dist/ops/webgl/appendCache.js +0 -44
package/dist/ops/webgl/attentionMask.d.ts +0 -1
package/dist/ops/webgl/attentionMask.js +0 -45
package/dist/ops/webgl/dropout16.d.ts +0 -1
package/dist/ops/webgl/dropout16.js +0 -11
package/dist/ops/webgl/fusedSoftmax.d.ts +0 -11
package/dist/ops/webgl/fusedSoftmax.js +0 -80
package/dist/ops/webgl/gatherSub.d.ts +0 -1
package/dist/ops/webgl/gatherSub.js +0 -27
package/dist/ops/webgl/gelu.d.ts +0 -2
package/dist/ops/webgl/gelu.js +0 -50
package/dist/ops/webgl/log.d.ts +0 -17
package/dist/ops/webgl/log.js +0 -23
package/dist/ops/webgl/matMul16.d.ts +0 -1
package/dist/ops/webgl/matMul16.js +0 -45
package/dist/ops/webgl/matMulGelu.d.ts +0 -21
package/dist/ops/webgl/matMulGelu.js +0 -9
package/dist/ops/webgl/matMulMul.d.ts +0 -14
package/dist/ops/webgl/matMulMul.js +0 -28
package/dist/ops/webgl/mulDropout.d.ts +0 -1
package/dist/ops/webgl/mulDropout.js +0 -41
package/dist/ops/webgl/normRMS.d.ts +0 -1
package/dist/ops/webgl/normRMS.js +0 -93
package/dist/ops/webgl/qkv.d.ts +0 -1
package/dist/ops/webgl/qkv.js +0 -46
package/dist/ops/webgl/rope.d.ts +0 -1
package/dist/ops/webgl/rope.js +0 -56
package/dist/ops/webgl/scatterSub.d.ts +0 -1
package/dist/ops/webgl/scatterSub.js +0 -27
package/dist/ops/webgpu/adamAdjust.d.ts +0 -1
package/dist/ops/webgpu/adamAdjust.js +0 -57
package/dist/ops/webgpu/adamMoments.d.ts +0 -1
package/dist/ops/webgpu/adamMoments.js +0 -60
package/dist/ops/webgpu/add16.d.ts +0 -1
package/dist/ops/webgpu/add16.js +0 -13
package/dist/ops/webgpu/appendCache.d.ts +0 -1
package/dist/ops/webgpu/appendCache.js +0 -105
package/dist/ops/webgpu/attentionMask.d.ts +0 -1
package/dist/ops/webgpu/attentionMask.js +0 -26
package/dist/ops/webgpu/attentionMask32_program.d.ts +0 -19
package/dist/ops/webgpu/attentionMask32_program.js +0 -54
package/dist/ops/webgpu/clipScale.d.ts +0 -1
package/dist/ops/webgpu/clipScale.js +0 -58
package/dist/ops/webgpu/concat16.d.ts +0 -19
package/dist/ops/webgpu/concat16.js +0 -126
package/dist/ops/webgpu/dropout16.d.ts +0 -1
package/dist/ops/webgpu/dropout16.js +0 -51
package/dist/ops/webgpu/gatherSub.d.ts +0 -1
package/dist/ops/webgpu/gatherSub.js +0 -39
package/dist/ops/webgpu/gelu.d.ts +0 -14
package/dist/ops/webgpu/gelu.js +0 -141
package/dist/ops/webgpu/index.d.ts +0 -0
package/dist/ops/webgpu/index.js +0 -26
package/dist/ops/webgpu/matMul16.d.ts +0 -1
package/dist/ops/webgpu/matMul16.js +0 -65
package/dist/ops/webgpu/matMul16_program.d.ts +0 -42
package/dist/ops/webgpu/matMul16_program.js +0 -343
package/dist/ops/webgpu/mul16.d.ts +0 -1
package/dist/ops/webgpu/mul16.js +0 -13
package/dist/ops/webgpu/norm2.d.ts +0 -1
package/dist/ops/webgpu/norm2.js +0 -76
package/dist/ops/webgpu/normRMS.d.ts +0 -1
package/dist/ops/webgpu/normRMS.js +0 -34
package/dist/ops/webgpu/normRMS16_program.d.ts +0 -10
package/dist/ops/webgpu/normRMS16_program.js +0 -25
package/dist/ops/webgpu/normRMS32_program.d.ts +0 -10
package/dist/ops/webgpu/normRMS32_program.js +0 -25
package/dist/ops/webgpu/normRMSGrad.d.ts +0 -1
package/dist/ops/webgpu/normRMSGrad.js +0 -284
package/dist/ops/webgpu/pack16.d.ts +0 -1
package/dist/ops/webgpu/pack16.js +0 -18
package/dist/ops/webgpu/pack16_program.d.ts +0 -19
package/dist/ops/webgpu/pack16_program.js +0 -92
package/dist/ops/webgpu/qkv.d.ts +0 -1
package/dist/ops/webgpu/qkv.js +0 -24
package/dist/ops/webgpu/rope.d.ts +0 -1
package/dist/ops/webgpu/rope.js +0 -135
package/dist/ops/webgpu/scatterSub.d.ts +0 -1
package/dist/ops/webgpu/scatterSub.js +0 -40
package/dist/ops/webgpu/slice16.d.ts +0 -7
package/dist/ops/webgpu/slice16.js +0 -69
package/dist/ops/webgpu/softmax16.d.ts +0 -17
package/dist/ops/webgpu/softmax16.js +0 -21
package/dist/ops/webgpu/softmax16_program.d.ts +0 -13
package/dist/ops/webgpu/softmax16_program.js +0 -73
package/dist/ops/webgpu/softmax16_subgroup_program.d.ts +0 -17
package/dist/ops/webgpu/softmax16_subgroup_program.js +0 -75
package/dist/ops/webgpu/softmax16grad.d.ts +0 -1
package/dist/ops/webgpu/softmax16grad.js +0 -37
package/dist/ops/webgpu/sub16.d.ts +0 -1
package/dist/ops/webgpu/sub16.js +0 -13
package/dist/ops/webgpu/sum16.d.ts +0 -1
package/dist/ops/webgpu/sum16.js +0 -38
package/dist/ops/webgpu/transpose16.d.ts +0 -1
package/dist/ops/webgpu/transpose16.js +0 -34
package/dist/ops/webgpu/transpose16_program.d.ts +0 -16
package/dist/ops/webgpu/transpose16_program.js +0 -50
package/dist/ops/webgpu/transpose16_shared_program.d.ts +0 -15
package/dist/ops/webgpu/transpose16_shared_program.js +0 -70
package/dist/ops/webgpu/unpack16.d.ts +0 -1
package/dist/ops/webgpu/unpack16.js +0 -48
package/dist/ops/webgpu/utils/binary_op.d.ts +0 -35
package/dist/ops/webgpu/utils/binary_op.js +0 -139
package/dist/ops/webgpu/utils/deviceInfo.d.ts +0 -7
package/dist/ops/webgpu/utils/deviceInfo.js +0 -11
package/dist/ops/webgpu/utils/reductions.d.ts +0 -43
package/dist/ops/webgpu/utils/reductions.js +0 -275
package/dist/ops-CsXeTq1P.js +0 -476
package/dist/pack16-bqltoUlR.js +0 -39
package/dist/papaparse.min-C0cScC2i.js +0 -418
package/dist/parquet-Bqjmp2vo.js +0 -44231
package/dist/patches/webgpu_backend.d.ts +0 -18
package/dist/patches/webgpu_backend.js +0 -56
package/dist/patches/webgpu_base.d.ts +0 -21
package/dist/patches/webgpu_base.js +0 -34
package/dist/patches/webgpu_program.d.ts +0 -36
package/dist/patches/webgpu_program.js +0 -400
package/dist/pdf-NIhmP3sq.js +0 -19477
package/dist/rand_util-CZ7yLoUm.js +0 -50
package/dist/random_normal-IBRrha8a.js +0 -14
package/dist/random_width-DN5ZtQkM.js +0 -9796
package/dist/range-C-CjF-LI.js +0 -10
package/dist/relu-J_X6MUzx.js +0 -9
package/dist/reshape-BDOuCSNW.js +0 -9
package/dist/resize_nearest_neighbor-BojqlfRe.js +0 -150
package/dist/rope-DcrZM_e6.js +0 -24
package/dist/scatter_nd_util-ByNJaL6I.js +0 -46
package/dist/segment_util-Dasb2Zaf.js +0 -43
package/dist/selu_util-BLhIqRkw.js +0 -44
package/dist/shared-3agzAqQ_.js +0 -53
package/dist/shared-CagdqkLh.js +0 -2143
package/dist/slice-BzS11Qh0.js +0 -12
package/dist/slice_util-CC35pLmT.js +0 -153
package/dist/softmax-D4q1LJN7.js +0 -12
package/dist/split-C2Sj255c.js +0 -9
package/dist/squeeze-ho4wLUek.js +0 -10
package/dist/stack-DudVrtmG.js +0 -11
package/dist/step-BTxPtq1r.js +0 -261
package/dist/sum-BpiwSWvg.js +0 -11
package/dist/tensor-BWFldCso.js +0 -8
package/dist/tensor1d-LMGMIUlr.js +0 -11
package/dist/tensor2d-BnXMKScO.js +0 -14
package/dist/tensor4d-C6UCG_u8.js +0 -14
package/dist/tfjs_backend-BGnG-ppu.js +0 -654
package/dist/tile-CFy-xTO6.js +0 -11
package/dist/tokeniser/BaseTokeniser.d.ts +0 -33
package/dist/tokeniser/BaseTokeniser.js +0 -124
package/dist/tokeniser/CharTokeniser.d.ts +0 -24
package/dist/tokeniser/CharTokeniser.js +0 -107
package/dist/tokeniser/bpe.d.ts +0 -28
package/dist/tokeniser/bpe.js +0 -173
package/dist/tokeniser/messages.d.ts +0 -61
package/dist/tokeniser/messages.js +0 -1
package/dist/tokeniser/type.d.ts +0 -34
package/dist/tokeniser/type.js +0 -1
package/dist/training/AdamW.d.ts +0 -36
package/dist/training/AdamW.js +0 -138
package/dist/training/BasicTrainer.d.ts +0 -63
package/dist/training/BasicTrainer.js +0 -265
package/dist/training/DatasetBuilder.d.ts +0 -26
package/dist/training/DatasetBuilder.js +0 -86
package/dist/training/Evaluator.d.ts +0 -19
package/dist/training/Evaluator.js +0 -39
package/dist/training/LRScheduler.d.ts +0 -12
package/dist/training/LRScheduler.js +0 -34
package/dist/training/PreTrainer.d.ts +0 -11
package/dist/training/PreTrainer.js +0 -20
package/dist/training/SFTTrainer.d.ts +0 -12
package/dist/training/SFTTrainer.js +0 -22
package/dist/training/loss.d.ts +0 -3
package/dist/training/loss.js +0 -24
package/dist/training/orthoGrad.d.ts +0 -2
package/dist/training/orthoGrad.js +0 -10
package/dist/training/sparseCrossEntropy.d.ts +0 -7
package/dist/training/sparseCrossEntropy.js +0 -69
package/dist/training/tasks/ConversationTask.d.ts +0 -18
package/dist/training/tasks/ConversationTask.js +0 -40
package/dist/training/tasks/PretrainingTask.d.ts +0 -17
package/dist/training/tasks/PretrainingTask.js +0 -47
package/dist/training/tasks/StartSentenceTask.d.ts +0 -18
package/dist/training/tasks/StartSentenceTask.js +0 -49
package/dist/training/tasks/Task.d.ts +0 -22
package/dist/training/tasks/Task.js +0 -68
package/dist/training/tasks/splitter.d.ts +0 -5
package/dist/training/tasks/splitter.js +0 -21
package/dist/training/types.d.ts +0 -78
package/dist/training/types.js +0 -1
package/dist/training/validation.d.ts +0 -17
package/dist/training/validation.js +0 -84
package/dist/transpose-9kRxIXWR.js +0 -36
package/dist/unsorted_segment_sum-DJvk5xnh.js +0 -277
package/dist/utilities/arrayClose.d.ts +0 -1
package/dist/utilities/arrayClose.js +0 -20
package/dist/utilities/datasetID.d.ts +0 -2
package/dist/utilities/datasetID.js +0 -21
package/dist/utilities/dummy.d.ts +0 -9
package/dist/utilities/dummy.js +0 -43
package/dist/utilities/multinomialCPU.d.ts +0 -2
package/dist/utilities/multinomialCPU.js +0 -13
package/dist/utilities/naming.d.ts +0 -4
package/dist/utilities/naming.js +0 -1
package/dist/utilities/packed.d.ts +0 -4
package/dist/utilities/packed.js +0 -15
package/dist/utilities/parameters.d.ts +0 -11
package/dist/utilities/parameters.js +0 -57
package/dist/utilities/performance.d.ts +0 -2
package/dist/utilities/performance.js +0 -16
package/dist/utilities/profile.d.ts +0 -17
package/dist/utilities/profile.js +0 -38
package/dist/utilities/safetensors.d.ts +0 -3
package/dist/utilities/safetensors.js +0 -83
package/dist/utilities/sentences.d.ts +0 -5
package/dist/utilities/sentences.js +0 -41
package/dist/utilities/tokenParse.d.ts +0 -1
package/dist/utilities/tokenParse.js +0 -21
package/dist/utilities/topP.d.ts +0 -1
package/dist/utilities/topP.js +0 -13
package/dist/utilities/waitForModel.d.ts +0 -2
package/dist/utilities/waitForModel.js +0 -12
package/dist/utilities/weights.d.ts +0 -12
package/dist/utilities/weights.js +0 -45
package/dist/utilities/yielder.d.ts +0 -1
package/dist/utilities/yielder.js +0 -7
package/dist/variable-Ck482e3n.js +0 -7
package/dist/webgpu_program-B4HmApL1.js +0 -525
package/dist/webgpu_util-DYlGSwOJ.js +0 -64
package/dist/zeros-DvZpK8s6.js +0 -13
package/dist/zeros_like-CWjDdwr-.js +0 -721

package/dist/kernel_funcs_utils-pq0CK9co.js DELETED Viewed

@@ -1,306 +0,0 @@
-import { _ as B, U as G, aU as K, a7 as W, aH as z, aV as V, ab as N, aI as F, am as S } from "./index-CUXkjxiT.js";
-import { u as O, f as H } from "./gpgpu_math-BwvV12df.js";
-import { f as v } from "./backend_util-GaFarB78.js";
-function Y(t, e) {
-  return ["x", "y", "z", "w", "u", "v"].slice(0, e).map((s) => `${t}.${s}`);
-}
-function Z(t, e) {
-  return e === 1 ? [t] : Y(t, e);
-}
-function pe(t, e) {
-  if (t === 1)
-    return "rc";
-  let s = "";
-  for (let r = 0; r < t; r++)
-    s += e[r], r < t - 1 && (s += ",");
-  return s;
-}
-class q {
-  constructor(e, s) {
-    this.variableNames = ["A"], this.outputShape = e, this.enableShapeUniforms = O(this.outputShape.length), this.userCode = `
-      float unaryOperation(float x) {
-        ${s}
-      }
-      void main() {
-        float x = getAAtOutCoords();
-        float y = unaryOperation(x);
-        setOutput(y);
-      }
-    `;
-  }
-}
-const T = "if (isnan(x)) return x;", M = "return x;", de = "return abs(x);", j = "return (x >= 0.0) ? x : (exp(x) - 1.0);", J = T + `
-  return (x < 0.0) ? 0.0 : x;
-`, Q = T + `
-  return (x < 0.0) ? 0.0 : min(6.0, x);
-`, he = "return x;", X = "return 1.0 / (1.0 + exp(-1.0 * x));";
-const ee = "return x;", te = `
-  vec4 result;
-  result.r = (x.r >= 0.0) ? x.r : (exp(x.r) - 1.0);
-  result.g = (x.g >= 0.0) ? x.g : (exp(x.g) - 1.0);
-  result.b = (x.b >= 0.0) ? x.b : (exp(x.b) - 1.0);
-  result.a = (x.a >= 0.0) ? x.a : (exp(x.a) - 1.0);
-  return result;
-`, se = `
-  vec4 result = x * vec4(greaterThanEqual(x, vec4(0.0)));
-  bvec4 isNaN = isnan(x);
-  result.r = isNaN.r ? x.r : result.r;
-  result.g = isNaN.g ? x.g : result.g;
-  result.b = isNaN.b ? x.b : result.b;
-  result.a = isNaN.a ? x.a : result.a;
-  return result;
-`, ae = `
-  vec4 result = min(x, vec4(6.)) * vec4(greaterThanEqual(x, vec4(0.0)));
-  bvec4 isNaN = isnan(x);
-  result.r = isNaN.r ? x.r : result.r;
-  result.g = isNaN.g ? x.g : result.g;
-  result.b = isNaN.b ? x.b : result.b;
-  result.a = isNaN.a ? x.a : result.a;
-  return result;
-`, re = "return 1.0 / (1.0 + exp(-1.0 * x));";
-class ne {
-  constructor(e, s) {
-    this.variableNames = ["A"], this.packedInputs = !0, this.packedOutput = !0, this.outputShape = e, this.enableShapeUniforms = O(this.outputShape.length), this.userCode = `
-      vec4 unaryOperation(vec4 x) {
-        ${s}
-      }
-      void main() {
-        vec4 x = getAAtOutCoords();
-        vec4 y = unaryOperation(x);
-        setOutput(y);
-      }
-    `;
-  }
-}
-const fe = `
-  if (isnan(a)) return a;
-  if (isnan(b)) return b;
-`;
-class b {
-  constructor(e, s, r) {
-    this.variableNames = ["A", "B"], this.outputShape = B(s, r), this.enableShapeUniforms = O(this.outputShape.length), this.userCode = `
-      float binaryOperation(float a, float b) {
-        ${e}
-      }
-      void main() {
-        float a = getAAtOutCoords();
-        float b = getBAtOutCoords();
-        setOutput(binaryOperation(a, b));
-      }
-    `;
-  }
-}
-const xe = `
-  result.r = isNaN.r ? NAN : result.r;
-  result.g = isNaN.g ? NAN : result.g;
-  result.b = isNaN.b ? NAN : result.b;
-  result.a = isNaN.a ? NAN : result.a;
-`;
-class E {
-  constructor(e, s, r, u = !1) {
-    this.variableNames = ["A", "B"], this.supportsBroadcasting = !0, this.packedInputs = !0, this.packedOutput = !0, this.outputShape = B(s, r);
-    const n = this.outputShape.length;
-    this.enableShapeUniforms = O(n);
-    let o = "";
-    if (u)
-      if (n === 0 || G(this.outputShape) === 1)
-        o = `
-          result.y = 0.;
-          result.z = 0.;
-          result.w = 0.;
-        `;
-      else if (o = `
-          ${H(n)} coords = getOutputCoords();
-        `, n === 1)
-        this.enableShapeUniforms ? o += `
-            result.y = (coords + 1) >= outShape ? 0. : result.y;
-            result.z = 0.;
-            result.w = 0.;
-          ` : o += `
-            result.y = (coords + 1) >= ${this.outputShape[0]} ? 0. : result.y;
-            result.z = 0.;
-            result.w = 0.;
-          `;
-      else {
-        const a = Z("coords", n);
-        this.enableShapeUniforms ? o += `
-            bool nextRowOutOfBounds =
-              (${a[n - 2]} + 1) >= outShape[${n} - 2];
-            bool nextColOutOfBounds =
-              (${a[n - 1]} + 1) >= outShape[${n} - 1];
-            result.y = nextColOutOfBounds ? 0. : result.y;
-            result.z = nextRowOutOfBounds ? 0. : result.z;
-            result.w = nextColOutOfBounds || nextRowOutOfBounds ? 0. : result.w;
-          ` : o += `
-            bool nextRowOutOfBounds =
-              (${a[n - 2]} + 1) >= ${this.outputShape[n - 2]};
-            bool nextColOutOfBounds =
-              (${a[n - 1]} + 1) >= ${this.outputShape[n - 1]};
-            result.y = nextColOutOfBounds ? 0. : result.y;
-            result.z = nextRowOutOfBounds ? 0. : result.z;
-            result.w = nextColOutOfBounds || nextRowOutOfBounds ? 0. : result.w;
-          `;
-      }
-    this.userCode = `
-      vec4 binaryOperation(vec4 a, vec4 b) {
-        ${e}
-      }
-      void main() {
-        vec4 a = getAAtOutCoords();
-        vec4 b = getBAtOutCoords();
-        vec4 result = binaryOperation(a, b);
-        ${o}
-        setOutput(result);
-      }
-    `;
-  }
-}
-function P(t) {
-  const { inputs: e, backend: s } = t, { x: r } = e;
-  return s.incRef(r.dataId), { dataId: r.dataId, shape: r.shape, dtype: r.dtype };
-}
-const ge = {
-  kernelName: K,
-  backendName: "webgl",
-  kernelFunc: P
-};
-function L(t) {
-  const { inputs: e, backend: s } = t, { real: r, imag: u } = e, n = s.makeTensorInfo(r.shape, "complex64"), o = s.texData.get(n.dataId), i = P({ inputs: { x: r }, backend: s }), a = P({ inputs: { x: u }, backend: s });
-  return o.complexTensorInfos = { real: i, imag: a }, n;
-}
-const me = {
-  kernelName: W,
-  backendName: "webgl",
-  kernelFunc: L
-};
-const w = "return (a < 0.) ? b * a : a;", R = `
-  vec4 aLessThanZero = vec4(lessThan(a, vec4(0.)));
-  return (aLessThanZero * (b * a)) + ((vec4(1.0) - aLessThanZero) * a);
-`;
-function oe(t) {
-  const { inputs: e, backend: s, attrs: r } = t, { x: u } = e, { alpha: n } = r, o = s.makeTensorInfo([], "float32", V(n, "float32")), i = N().getBool("WEBGL_PACK_BINARY_OPERATIONS") ? new E(R, u.shape, o.shape) : new b(w, u.shape, o.shape), a = s.runWebGLProgram(i, [u, o], "float32");
-  return s.disposeIntermediateTensorInfo(o), a;
-}
-const be = {
-  kernelName: z,
-  backendName: "webgl",
-  kernelFunc: oe
-};
-const U = "return (a < 0.) ? b * a : a;", k = `
-  vec4 aLessThanZero = vec4(lessThan(a, vec4(0.)));
-  return (aLessThanZero * (b * a)) + ((vec4(1.0) - aLessThanZero) * a);
-`;
-function ue(t) {
-  const { inputs: e, backend: s } = t, { x: r, alpha: u } = e, n = N().getBool("WEBGL_PACK_BINARY_OPERATIONS") ? new E(k, r.shape, u.shape) : new b(U, r.shape, u.shape);
-  return s.runWebGLProgram(n, [r, u], "float32");
-}
-const Ne = {
-  kernelName: F,
-  backendName: "webgl",
-  kernelFunc: ue
-};
-const Oe = "if (isnan(x)) return x;";
-function ye({ opSnippet: t, packedOpSnippet: e, cpuKernelImpl: s, dtype: r }) {
-  return ({ inputs: u, backend: n }) => {
-    const { x: o } = u, i = n, a = r || o.dtype;
-    if (i.shouldExecuteOnCPU([o]) && s != null) {
-      const d = i.texData.get(o.dataId), y = s(d.values, a);
-      return i.makeTensorInfo(o.shape, a, y);
-    }
-    const c = N().getBool("WEBGL_PACK_UNARY_OPERATIONS") && e != null;
-    let l;
-    return c ? l = new ne(o.shape, e) : l = new q(o.shape, t), i.runWebGLProgram(l, [o], a);
-  };
-}
-function Ie({ opSnippet: t, packedOpSnippet: e, checkOutOfBounds: s = !1, supportsComplex: r = !1, cpuKernelImpl: u, dtype: n }) {
-  return ({ inputs: o, backend: i }) => {
-    const { a, b: c } = o, l = i;
-    if (r && a.dtype === "complex64") {
-      const h = l.texData.get(a.dataId), f = l.texData.get(c.dataId), [g, m] = [
-        [h.complexTensorInfos.real, f.complexTensorInfos.real],
-        [h.complexTensorInfos.imag, f.complexTensorInfos.imag]
-      ].map((C) => {
-        const [p, x] = C, $ = {
-          dataId: p.dataId,
-          dtype: p.dtype,
-          shape: a.shape
-        }, _ = {
-          dataId: x.dataId,
-          dtype: x.dtype,
-          shape: c.shape
-        }, D = new b(t, a.shape, c.shape);
-        return l.runWebGLProgram(D, [$, _], S(p.dtype, x.dtype));
-      }), A = L({ inputs: { real: g, imag: m }, backend: l });
-      return l.disposeIntermediateTensorInfo(g), l.disposeIntermediateTensorInfo(m), A;
-    }
-    const d = n || S(a.dtype, c.dtype);
-    if ((a.dtype === "string" || c.dtype === "string" || l.shouldExecuteOnCPU([a, c])) && u != null) {
-      const h = l.texData.get(a.dataId).values, f = l.texData.get(c.dataId).values, g = a.dtype === "string" ? (
-        // tslint:disable-next-line: no-any
-        v(h)
-      ) : h, m = a.dtype === "string" ? (
-        // tslint:disable-next-line: no-any
-        v(f)
-      ) : f, [A, C] = u(a.shape, c.shape, g, m, d), p = l.makeTensorInfo(C, d), x = l.texData.get(p.dataId);
-      return x.values = A, p;
-    }
-    const y = N().getBool("WEBGL_PACK_BINARY_OPERATIONS") && e != null;
-    let I;
-    return y ? I = new E(e, a.shape, c.shape, s) : I = new b(t, a.shape, c.shape), l.runWebGLProgram(I, [a, c], d);
-  };
-}
-function Ae(t, e = !1) {
-  if (t === "linear")
-    return e ? ee : M;
-  if (t === "relu")
-    return e ? se : J;
-  if (t === "elu")
-    return e ? te : j;
-  if (t === "relu6")
-    return e ? ae : Q;
-  if (t === "prelu")
-    return e ? k : U;
-  if (t === "leakyrelu")
-    return e ? R : w;
-  if (t === "sigmoid")
-    return e ? re : X;
-  throw new Error(`Activation ${t} has not been implemented for the WebGL backend.`);
-}
-export {
-  de as A,
-  E as B,
-  T as C,
-  ne as U,
-  Z as a,
-  Ie as b,
-  pe as c,
-  he as d,
-  q as e,
-  L as f,
-  Y as g,
-  b as h,
-  P as i,
-  fe as j,
-  xe as k,
-  Oe as l,
-  Ae as m,
-  me as n,
-  ge as o,
-  be as p,
-  Ne as q,
-  ye as u
-};

package/dist/layers/BaseLayer.d.ts DELETED Viewed

@@ -1,44 +0,0 @@
-import { GPTConfig } from '../models/config';
-import { default as MemoryProfiler } from '../utilities/profile';
-import { default as RoPECache } from './RoPECache';
-import { Tensor, Variable } from '@tensorflow/tfjs-core';
-import { default as WeightStore } from './WeightStore';
-export interface ForwardAttributes {
-    training: boolean;
-    checkpointing?: boolean;
-    mixedPrecision?: boolean;
-    ropeCache?: RoPECache;
-    outputEmbeddings?: boolean;
-    embeddings?: {
-        name: string;
-        tensor: Tensor;
-    }[];
-    dropout?: number;
-    layerDrop?: number;
-}
-export default abstract class BaseLayer<ATTR extends ForwardAttributes = ForwardAttributes, CONFIG extends GPTConfig = GPTConfig> {
-    readonly parent?: BaseLayer;
-    readonly config: CONFIG;
-    weightStore: WeightStore;
-    readonly children: BaseLayer[];
-    private profiler?;
-    private ownVariables;
-    constructor(config: CONFIG, parent?: BaseLayer);
-    getProfiler(): MemoryProfiler | undefined;
-    setProfiler(profiler: MemoryProfiler | null): void;
-    startMemory(): void;
-    endMemory(label: string): void;
-    addVariable(name: string, variable?: Variable): void;
-    addChildVariable(name: string): void;
-    get variables(): Variable[];
-    get trainableVariables(): Variable[];
-    getVariable(name: string): Tensor;
-    hasVariable(name: string): boolean;
-    setVariable(name: string, variable: Variable): void;
-    dispose(): void;
-    protected build(): void;
-    abstract forward(attrs: ATTR, ...x: Tensor[]): Tensor | Tensor[];
-    call(attrs: ATTR, ...x: Tensor[]): Tensor | Tensor[];
-    callCheckpoint(attrs: ATTR, ...x: Tensor[]): Tensor;
-    private checkpointingFn;
-}

package/dist/layers/BaseLayer.js DELETED Viewed

@@ -1,74 +0,0 @@
-import { a2 as p, h as s, a4 as g } from "../index-CUXkjxiT.js";
-import b from "./WeightStore.js";
-class T {
-  parent;
-  config;
-  weightStore;
-  children = [];
-  profiler;
-  ownVariables = /* @__PURE__ */ new Set();
-  constructor(t, e) {
-    this.config = t, this.parent = e, this.parent ? (this.parent.children.push(this), this.weightStore = this.parent.weightStore) : this.weightStore = new b();
-  }
-  getProfiler() {
-    return this.profiler;
-  }
-  setProfiler(t) {
-    this.profiler = t || void 0, this.children.forEach((e) => {
-      e.setProfiler(t);
-    });
-  }
-  startMemory() {
-    this.profiler?.startMemory();
-  }
-  endMemory(t) {
-    this.profiler?.endMemory(t);
-  }
-  addVariable(t, e) {
-    this.weightStore.addVariable(t, e), this.ownVariables.add(t), this.parent && this.parent.addChildVariable(t);
-  }
-  addChildVariable(t) {
-    this.ownVariables.add(t);
-  }
-  get variables() {
-    return this.weightStore.variables;
-  }
-  get trainableVariables() {
-    return this.weightStore.trainableVariables.filter((t) => this.ownVariables.has(t.name));
-  }
-  getVariable(t) {
-    return this.weightStore.getVariable(t);
-  }
-  hasVariable(t) {
-    return this.weightStore.hasVariable(t);
-  }
-  setVariable(t, e) {
-    this.weightStore.setVariable(t, e);
-  }
-  dispose() {
-    this.weightStore.dispose();
-  }
-  build() {
-  }
-  call(t, ...e) {
-    return this.build(), this.forward(t, ...e);
-  }
-  callCheckpoint(t, ...e) {
-    return this.build(), this.checkpointingFn(t, ...e);
-  }
-  checkpointingFn(t, ...e) {
-    const r = this.trainableVariables;
-    return p((...i) => {
-      const o = i[i.length - 1], a = i.slice(0, e.length), h = this.forward(t, ...a);
-      return o(a), { value: h, gradFunc: (n, l) => {
-        const c = s().state.activeTape;
-        s().state.activeTape = [];
-        const d = g((...u) => this.forward(t, ...u.slice(0, a.length)))([...l, ...r], n);
-        return s().state.activeTape = c, d;
-      } };
-    })(...e, ...r);
-  }
-}
-export {
-  T as default
-};

package/dist/layers/CausalSelfAttention.d.ts DELETED Viewed

@@ -1,39 +0,0 @@
-import { default as BaseLayer, ForwardAttributes } from './BaseLayer';
-import { Tensor } from '@tensorflow/tfjs-core';
-import { GPTConfig } from '../models/config';
-export interface KVCache {
-    k?: Tensor;
-    v?: Tensor;
-    length: number;
-    cumulativeLength: number;
-}
-export interface AttentionScores {
-    meanOfHeads?: boolean;
-    attentionOut?: Tensor[];
-}
-interface AttentionForwardAttributes extends ForwardAttributes {
-    attentionScores?: AttentionScores;
-    pastKV?: KVCache;
-    seed?: number;
-    ropePositionOffset?: number;
-}
-export interface CausalSelfAttentionConfig {
-    useQKNorm?: boolean;
-}
-export default class CausalSelfAttention extends BaseLayer<AttentionForwardAttributes> {
-    private readonly attentionConfig;
-    private divisor;
-    private index;
-    private units;
-    private projUnits;
-    private ATTN;
-    private PROJ;
-    constructor(index: number, config: GPTConfig, attentionConfig: CausalSelfAttentionConfig, parent?: BaseLayer);
-    protected build(): void;
-    private getAttentionScores;
-    private getQKV;
-    private getOutputProjection;
-    private updateCache;
-    forward(attr: AttentionForwardAttributes, x: Tensor): Tensor;
-}
-export {};

package/dist/layers/CausalSelfAttention.js DELETED Viewed

@@ -1,86 +0,0 @@
-import { attentionMask as R } from "../ops/attentionMask.js";
-import J from "./BaseLayer.js";
-import { r as v } from "../rope-DcrZM_e6.js";
-import { appendCache as A } from "../ops/appendCache.js";
-import { k as c, t as L } from "../index-CUXkjxiT.js";
-import { softmax16 as y } from "../ops/softmax16.js";
-import { b as M } from "../matMul16-BcVC_E62.js";
-import { p as K } from "../pack16-bqltoUlR.js";
-import { transpose16 as j } from "../ops/transpose16.js";
-import { dot16 as E } from "../ops/dot16.js";
-import { reshape16 as _ } from "../ops/reshape16.js";
-import { isPackedTensor as f } from "../utilities/packed.js";
-import { qkv as q } from "../ops/qkv.js";
-import { normRMS as O } from "../ops/normRMS.js";
-import { dropout16 as x } from "../ops/dropout16.js";
-import { v as P } from "../variable-Ck482e3n.js";
-import { r as S } from "../random_normal-IBRrha8a.js";
-class it extends J {
-  constructor(t, o, s, i) {
-    super(o, i), this.attentionConfig = s, this.index = t, this.units = o.nEmbed * 3, this.projUnits = o.nEmbed, this.ATTN = `block_${this.index}_cAttn`, this.PROJ = `block_${this.index}_cProj`, this.addVariable(this.ATTN), this.addVariable(this.PROJ), this.divisor = 1 / Math.sqrt(o.nEmbed / o.nHead);
-  }
-  divisor;
-  index;
-  units;
-  projUnits;
-  ATTN;
-  PROJ;
-  build() {
-    this.hasVariable(this.ATTN) === !1 && this.setVariable(
-      this.ATTN,
-      P(S([this.config.nEmbed, this.units], 0, 0.02), !0, this.ATTN)
-    ), this.hasVariable(this.PROJ) === !1 && this.setVariable(
-      this.PROJ,
-      P(S([this.projUnits, this.config.nEmbed], 0, 0.02), !0, this.PROJ)
-    );
-  }
-  getAttentionScores(t, o, s) {
-    const i = R(t, o, this.divisor, s), e = y(i);
-    return i.dispose(), e;
-  }
-  getQKV(t) {
-    const o = f(t) ? K(this.getVariable(this.ATTN)) : this.getVariable(this.ATTN), s = q(t, o, this.config.nHead);
-    return f(t) && o.dispose(), s;
-  }
-  getOutputProjection(t) {
-    const o = t.shape[0], s = t.shape[2], i = this.config.nEmbed, e = f(t), r = j(t, [0, 2, 1, 3]), n = _(r, [o, s, e ? i / 2 : i]);
-    r.dispose();
-    const p = e ? K(this.getVariable(this.PROJ)) : this.getVariable(this.PROJ), a = E(n, p);
-    return e && p.dispose(), n.dispose(), a;
-  }
-  updateCache(t, o, s) {
-    const i = this.config.blockSize, e = t.shape[2], r = s.length || 0, n = A(t, i, r, s.k);
-    t.dispose(), s.k && s.k.dispose();
-    const p = A(o, i, r, s.v);
-    o.dispose(), s.v && s.v.dispose();
-    const a = Math.min(r + e, i), h = s.cumulativeLength + e;
-    s.length = a, s.cumulativeLength = h, s.k = c(n), s.v = c(p);
-  }
-  forward(t, o) {
-    return L(() => {
-      this.startMemory();
-      const [s, i, e] = this.getQKV(o), r = t.pastKV ? t.pastKV.cumulativeLength : t.ropePositionOffset || 0, n = t.ropeCache, p = n ? v(s, n, r) : s, a = n ? v(i, n, r) : i, h = this.attentionConfig.useQKNorm ?? !1, m = h ? O(p) : p;
-      h && p.dispose();
-      const l = h ? O(a) : a;
-      h && a.dispose(), n && (s.dispose(), i.dispose());
-      const T = t.pastKV ? t.pastKV.length : 0;
-      t.pastKV && !t.training && this.updateCache(l, e, t.pastKV);
-      const u = t.pastKV?.k ? t.pastKV.k : l, V = t.pastKV?.v ? t.pastKV.v : e;
-      let d;
-      T > 0 ? d = this.getAttentionScores(m, u, T) : d = this.getAttentionScores(m, u), m.dispose(), t.pastKV || u.dispose();
-      const g = M(d, V), b = t.attentionScores !== void 0 && t.attentionScores.attentionOut !== void 0;
-      b || d.dispose(), t.pastKV || V.dispose();
-      const k = this.getOutputProjection(g);
-      if (g.dispose(), b && t.attentionScores && t.attentionScores.attentionOut !== void 0) {
-        const N = d.shape[1], C = d.shape[2];
-        t.attentionScores.attentionOut?.push(
-          c(d.slice([0, 0, 0, 0], [1, -1, -1, -1]).reshape([N, C, -1]))
-        );
-      }
-      return this.endMemory("CausalSelfAttention"), t.dropout && t.dropout > 0 ? x(k, t.dropout) : k;
-    });
-  }
-}
-export {
-  it as default
-};

package/dist/layers/LoRA.d.ts DELETED Viewed

@@ -1,14 +0,0 @@
-import { default as WeightStore } from './WeightStore';
-export default class LoRA {
-    private weightStore;
-    readonly alpha: number;
-    readonly rank: number;
-    readonly variables: Set<string>;
-    private scale;
-    readonly name: string;
-    constructor(name: string, weightStore: WeightStore, alpha: number, rank: number, variables: string[]);
-    attach(): void;
-    merge(): void;
-    detach(): void;
-    dispose(): void;
-}

package/dist/layers/LoRA.js DELETED Viewed

@@ -1,58 +0,0 @@
-import { a as m, t as n } from "../index-CUXkjxiT.js";
-import { p } from "../index-DmeWGGmS.js";
-import { v as g } from "../variable-Ck482e3n.js";
-import { r as S } from "../random_normal-IBRrha8a.js";
-import { z as _ } from "../zeros-DvZpK8s6.js";
-class B {
-  weightStore;
-  alpha;
-  rank;
-  variables;
-  scale;
-  name;
-  constructor(t, e, a, s, r) {
-    this.name = t, this.weightStore = e, this.alpha = a, this.rank = s;
-    const c = p(r), w = e.variableNames.filter(
-      (i) => c(i) && !i.endsWith("_loraA") && !i.endsWith("_loraB")
-    );
-    this.variables = new Set(w), this.scale = m(a / s), this.variables.forEach((i) => {
-      const o = this.weightStore.getRawVariable(i), [d, b] = o.shape, h = `${i}_${this.name}_loraA`, l = `${i}_${this.name}_loraB`;
-      if (o.shape.length !== 2) {
-        console.warn(
-          `LoRA currently only supports 2D weight matrices. Variable ${i} has shape ${o.shape}`
-        ), this.variables.delete(i);
-        return;
-      }
-      this.weightStore.hasVariable(h) || this.weightStore.hasVariable(l) || (this.weightStore.addVariable(
-        h,
-        g(S([d, this.rank], 0, 0.02), !0, h)
-      ), this.weightStore.addVariable(l, g(_([this.rank, b]), !0, l)));
-    });
-  }
-  attach() {
-    if (this.weightStore.onWeightRead)
-      throw new Error("LoRA cannot be applied to a WeightStore that already has a onWeightRead hook.");
-    this.weightStore.onWeightRead = (t, e) => this.variables.has(t) ? n(() => {
-      const a = this.weightStore.getRawVariable(`${t}_${this.name}_loraA`), s = this.weightStore.getRawVariable(`${t}_${this.name}_loraB`);
-      return e.add(a.matMul(s).mul(this.scale));
-    }) : e, this.weightStore.setTrainable([`*_${this.name}_loraA`, `*_${this.name}_loraB`]);
-  }
-  merge() {
-    this.variables.forEach((t) => {
-      const e = this.weightStore.getRawVariable(t), a = this.weightStore.getRawVariable(`${t}_${this.name}_loraA`), s = this.weightStore.getRawVariable(`${t}_${this.name}_loraB`), r = n(() => e.add(a.matMul(s).mul(this.scale)));
-      e.assign(r), r.dispose();
-    });
-  }
-  detach() {
-    this.weightStore.onWeightRead = void 0, this.weightStore.setTrainable(["*"]);
-  }
-  dispose() {
-    this.detach(), this.scale.dispose(), this.variables.forEach((t) => {
-      const e = `${t}_${this.name}_loraA`, a = `${t}_${this.name}_loraB`;
-      this.weightStore.getRawVariable(e).dispose(), this.weightStore.getRawVariable(a).dispose(), this.weightStore.deleteVariable(e), this.weightStore.deleteVariable(a);
-    }), this.variables.clear();
-  }
-}
-export {
-  B as default
-};

package/dist/layers/MLP.d.ts DELETED Viewed

@@ -1,17 +0,0 @@
-import { Tensor } from '@tensorflow/tfjs-core';
-import { default as BaseLayer, ForwardAttributes } from './BaseLayer';
-import { GPTConfig } from '../main';
-export interface MLPConfig {
-    activation?: 'gelu' | 'relu2';
-    hiddenFactor?: number;
-}
-export default class MLP extends BaseLayer {
-    private index;
-    private hiddenUnits;
-    private MLPHIDDEN;
-    private MLPOUT;
-    private mlpConfig;
-    constructor(index: number, config: GPTConfig, mlpConfig: MLPConfig, parent?: BaseLayer);
-    protected build(): void;
-    forward(attr: ForwardAttributes, x: Tensor): Tensor;
-}

package/dist/layers/MLP.js DELETED Viewed

@@ -1,44 +0,0 @@
-import { t as M } from "../index-CUXkjxiT.js";
-import f from "./BaseLayer.js";
-import { b as h } from "../matMul16-BcVC_E62.js";
-import { reshape16 as d } from "../ops/reshape16.js";
-import { dropout16 as L } from "../ops/dropout16.js";
-import { v as n } from "../variable-Ck482e3n.js";
-import { r as m } from "../random_normal-IBRrha8a.js";
-class N extends f {
-  index;
-  hiddenUnits;
-  MLPHIDDEN;
-  MLPOUT;
-  mlpConfig;
-  constructor(i, t, s, e) {
-    super(t, e), this.index = i, this.mlpConfig = s, this.hiddenUnits = (s.hiddenFactor ?? t.mlpFactor) * t.nEmbed, this.MLPHIDDEN = `block_${this.index}_mlpHidden`, this.MLPOUT = `block_${this.index}_mlpOut`, this.addVariable(this.MLPHIDDEN), this.addVariable(this.MLPOUT);
-  }
-  build() {
-    this.hasVariable(this.MLPHIDDEN) === !1 && this.setVariable(
-      this.MLPHIDDEN,
-      n(m([this.config.nEmbed, this.hiddenUnits], 0, 0.02), !0, this.MLPHIDDEN)
-    ), this.hasVariable(this.MLPOUT) === !1 && this.setVariable(
-      this.MLPOUT,
-      n(
-        m([this.hiddenUnits, this.config.nEmbed], 0, 0.02 / Math.sqrt(2 * this.config.nLayer)),
-        !0,
-        this.MLPOUT
-      )
-    );
-  }
-  forward(i, t) {
-    return M(() => {
-      this.startMemory();
-      const [s, e, r] = t.shape, l = d(t, [s * e, r]), a = h(l, this.getVariable(this.MLPHIDDEN), !1, !1, {
-        activation: this.mlpConfig.activation ?? "gelu"
-      }), p = h(a, this.getVariable(this.MLPOUT));
-      a.dispose();
-      const o = d(p, [s, e, r]);
-      return this.endMemory("MLP"), i.dropout && i.dropout > 0 ? L(o, i.dropout) : o;
-    });
-  }
-}
-export {
-  N as default
-};