npm - @genai-fi/nanogpt - Versions diffs - 0.10.3 → 0.11.0 - Mend

@genai-fi/nanogpt 0.10.3 → 0.11.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (225) hide show

package/dist/Generator.d.ts +10 -5
package/dist/Generator.js +1789 -1765
package/dist/{RealDiv-KAPDe8zB.js → RealDiv-Ds-jvL09.js} +22 -22
package/dist/{Reshape-BYkmUnAv.js → Reshape-Cd6e-Otn.js} +1 -1
package/dist/{Reshape-Zt6eb7yh.js → Reshape-Ct266DEk.js} +9 -9
package/dist/TeachableLLM.d.ts +4 -3
package/dist/TeachableLLM.js +14 -14
package/dist/Trainer.d.ts +2 -2
package/dist/Trainer.js +6 -6
package/dist/{axis_util-BaG7mf5A.js → axis_util-DofAuy0p.js} +3 -3
package/dist/backend.js +2 -2
package/dist/{backend_util-RCe-rHaj.js → backend_util-C7NWHpv7.js} +7 -7
package/dist/{backend_webgpu-DE3ACOLx.js → backend_webgpu-B0Vls736.js} +10 -10
package/dist/{broadcast_to-B3eYlZm7.js → broadcast_to-DDaNMbX7.js} +2 -2
package/dist/checks/appendCache.js +2 -2
package/dist/checks/attentionMask.js +3 -3
package/dist/checks/gelu.js +2 -2
package/dist/checks/matMulGelu.js +2 -2
package/dist/checks/normRMS.js +4 -4
package/dist/checks/normRMSGrad.js +3 -3
package/dist/checks/packUnpack.js +2 -2
package/dist/checks/qkv.js +4 -4
package/dist/checks/rope.js +2 -2
package/dist/{clip_by_value-BnO7-a88.js → clip_by_value-Dn5tzexi.js} +4 -4
package/dist/complex-DClmWqJt.js +11 -0
package/dist/{concat-BV8bt5H-.js → concat-C6X3AAlQ.js} +1 -1
package/dist/{concat_util-DpW8mL_l.js → concat_util-CHsJFZJJ.js} +1 -1
package/dist/{dataset-BcwmTGYc.js → dataset-DcjWqUVQ.js} +7 -7
package/dist/{dropout-BcvN9JYi.js → dropout-OxuaJz6z.js} +11 -11
package/dist/{expand_dims-DT4tEPwA.js → expand_dims-BzfJK2uc.js} +3 -3
package/dist/{exports_initializers-Hta_rEnm.js → exports_initializers-eS9QJ6ut.js} +1 -1
package/dist/{floor-D5QdR_le.js → floor-DIb-lN_u.js} +1 -1
package/dist/gather-BcO5UQNJ.js +9 -0
package/dist/{gelu-CjNPL4OH.js → gelu-DqTbCx5x.js} +1 -1
package/dist/{gpgpu_math-DAOmgtXR.js → gpgpu_math-CJcbnKPC.js} +2 -2
package/dist/{index-DOvlwCh-.js → index-D0RBWjq8.js} +52 -52
package/dist/{index-BwexR4lA.js → index-Dj5TkmPY.js} +89 -89
package/dist/{kernel_funcs_utils-CCzYdUZg.js → kernel_funcs_utils-CSaumNDs.js} +11 -11
package/dist/layers/BaseLayer.js +2 -2
package/dist/layers/CausalSelfAttention.js +6 -6
package/dist/layers/MLP.js +4 -4
package/dist/layers/PositionEmbedding.js +5 -5
package/dist/layers/RMSNorm.js +3 -3
package/dist/layers/RoPECache.js +4 -4
package/dist/layers/TiedEmbedding.js +6 -6
package/dist/layers/TransformerBlock.js +1 -1
package/dist/loader/loadTransformers.js +1 -1
package/dist/loader/oldZipLoad.js +17 -17
package/dist/log_sum_exp-VLZgbFAH.js +39 -0
package/dist/main.d.ts +1 -1
package/dist/main.js +9 -9
package/dist/{matMul16-BWRSOCWB.js → matMul16-cDxwemKj.js} +7 -7
package/dist/{matMulGelu-CzfgT6Wq.js → matMulGelu-B2s_80-H.js} +18 -18
package/dist/{mat_mul-SjpJRLyL.js → mat_mul-DxpNTCRz.js} +3 -3
package/dist/{mod-AnXEvvpo.js → mod-PrOKlFxH.js} +1 -1
package/dist/models/NanoGPTV1.js +2 -2
package/dist/models/model.js +9 -9
package/dist/{ones-D2rT0xk2.js → ones-BX_wEgzB.js} +3 -3
package/dist/ops/adamAdjust.js +1 -1
package/dist/ops/adamMoments.js +1 -1
package/dist/ops/add16.js +1 -1
package/dist/ops/appendCache.js +3 -3
package/dist/ops/attentionMask.js +1 -1
package/dist/ops/concat16.js +2 -2
package/dist/ops/cpu/adamAdjust.js +6 -6
package/dist/ops/cpu/adamMoments.js +2 -2
package/dist/ops/cpu/appendCache.js +5 -5
package/dist/ops/cpu/attentionMask.js +10 -10
package/dist/ops/cpu/fusedSoftmax.js +2 -2
package/dist/ops/cpu/gatherSub.js +6 -6
package/dist/ops/cpu/gelu.js +9 -9
package/dist/ops/cpu/matMul16.js +2 -2
package/dist/ops/cpu/matMulGelu.js +3 -3
package/dist/ops/cpu/matMulMul.js +1 -1
package/dist/ops/cpu/mulDropout.js +1 -1
package/dist/ops/cpu/normRMS.js +3 -3
package/dist/ops/cpu/qkv.js +3 -3
package/dist/ops/cpu/rope.js +9 -9
package/dist/ops/cpu/scatterSub.js +11 -11
package/dist/ops/dot16.js +2 -2
package/dist/ops/gatherSub.js +1 -1
package/dist/ops/gelu.js +2 -2
package/dist/ops/grads/add16.js +4 -4
package/dist/ops/grads/attentionMask.js +2 -2
package/dist/ops/grads/gelu.js +2 -2
package/dist/ops/grads/matMul16.js +3 -3
package/dist/ops/grads/matMulGelu.js +3 -3
package/dist/ops/grads/normRMS.js +7 -7
package/dist/ops/grads/pack16.js +3 -3
package/dist/ops/grads/qkv.js +6 -6
package/dist/ops/grads/rope.js +2 -2
package/dist/ops/grads/softmax16.js +1 -1
package/dist/ops/grads/unpack16.js +2 -2
package/dist/ops/matMul16.js +3 -3
package/dist/ops/matMulGelu.js +2 -2
package/dist/ops/matMulMul.js +1 -1
package/dist/ops/mul16.js +1 -1
package/dist/ops/mulDrop.js +1 -1
package/dist/ops/normRMS.js +1 -1
package/dist/ops/pack16.js +2 -2
package/dist/ops/qkv.js +1 -1
package/dist/ops/reshape16.js +6 -6
package/dist/ops/rope.js +2 -2
package/dist/ops/scatterSub.js +1 -1
package/dist/ops/slice16.js +2 -2
package/dist/ops/softmax16.js +1 -1
package/dist/ops/sub16.js +1 -1
package/dist/ops/sum16.js +2 -2
package/dist/ops/transpose16.js +3 -3
package/dist/ops/unpack16.js +2 -2
package/dist/ops/webgl/adamAdjust.js +2 -2
package/dist/ops/webgl/adamMoments.js +1 -1
package/dist/ops/webgl/appendCache.js +1 -1
package/dist/ops/webgl/attentionMask.js +4 -4
package/dist/ops/webgl/fusedSoftmax.js +6 -6
package/dist/ops/webgl/gatherSub.js +1 -1
package/dist/ops/webgl/gelu.js +2 -2
package/dist/ops/webgl/log.js +3 -3
package/dist/ops/webgl/matMul16.js +11 -11
package/dist/ops/webgl/matMulGelu.js +4 -4
package/dist/ops/webgl/matMulMul.js +7 -7
package/dist/ops/webgl/mulDropout.js +1 -1
package/dist/ops/webgl/normRMS.js +7 -7
package/dist/ops/webgl/qkv.js +1 -1
package/dist/ops/webgl/rope.js +4 -4
package/dist/ops/webgl/scatterSub.js +1 -1
package/dist/ops/webgpu/adamAdjust.js +3 -3
package/dist/ops/webgpu/adamMoments.js +3 -3
package/dist/ops/webgpu/add16.js +1 -1
package/dist/ops/webgpu/appendCache.js +3 -3
package/dist/ops/webgpu/attentionMask.js +5 -5
package/dist/ops/webgpu/attentionMask32_program.js +2 -2
package/dist/ops/webgpu/concat16.js +5 -5
package/dist/ops/webgpu/gatherSub.js +5 -5
package/dist/ops/webgpu/gelu.js +3 -3
package/dist/ops/webgpu/matMul16.js +18 -18
package/dist/ops/webgpu/matMul16_program.js +2 -2
package/dist/ops/webgpu/mul16.js +4 -4
package/dist/ops/webgpu/normRMS.js +6 -6
package/dist/ops/webgpu/normRMSGrad.js +4 -4
package/dist/ops/webgpu/pack16.js +1 -1
package/dist/ops/webgpu/pack16_program.js +2 -2
package/dist/ops/webgpu/qkv.js +6 -6
package/dist/ops/webgpu/rope.js +3 -3
package/dist/ops/webgpu/scatterSub.js +3 -3
package/dist/ops/webgpu/slice16.js +4 -4
package/dist/ops/webgpu/softmax16.js +2 -2
package/dist/ops/webgpu/softmax16_program.js +2 -2
package/dist/ops/webgpu/softmax16_subgroup_program.js +2 -2
package/dist/ops/webgpu/softmax16grad.js +1 -1
package/dist/ops/webgpu/sub16.js +4 -4
package/dist/ops/webgpu/sum16.js +6 -6
package/dist/ops/webgpu/transpose16.js +2 -2
package/dist/ops/webgpu/transpose16_program.js +2 -2
package/dist/ops/webgpu/transpose16_shared_program.js +3 -3
package/dist/ops/webgpu/unpack16.js +3 -3
package/dist/ops/webgpu/utils/binary_op.js +3 -3
package/dist/ops/webgpu/utils/reductions.js +4 -4
package/dist/{ops-B5yanEdW.js → ops-FJapAPfm.js} +56 -56
package/dist/{pack16-nQ6JaLo-.js → pack16-k4jq6aMX.js} +7 -7
package/dist/patches/webgpu_backend.js +7 -7
package/dist/patches/webgpu_base.js +1 -1
package/dist/patches/webgpu_program.js +8 -8
package/dist/{random_width-or-CEftb.js → random_width-UGQn4OWb.js} +33 -33
package/dist/range-CuGvVN2c.js +10 -0
package/dist/{relu-CP0ZcxWO.js → relu-Cf80uA2p.js} +1 -1
package/dist/{reshape-ByE68wS9.js → reshape-CkjKPPqB.js} +1 -1
package/dist/{resize_nearest_neighbor-B19mCEg2.js → resize_nearest_neighbor-DB8k9KN_.js} +43 -43
package/dist/{rope-Ir4mTyD1.js → rope-BmZmp9uP.js} +1 -1
package/dist/{scatter_nd_util-lvSiX8q4.js → scatter_nd_util-BY22Cc-C.js} +1 -1
package/dist/{selu_util-kbhpTdYD.js → selu_util-BuLbmbrl.js} +5 -5
package/dist/{shared-DT1TkE6w.js → shared-B7USJZgw.js} +1 -1
package/dist/{shared-dntlHIDQ.js → shared-BQboIImQ.js} +86 -86
package/dist/{slice-BfEGSH82.js → slice-Aqy7KbJh.js} +3 -3
package/dist/{slice_util-uTKwiEpW.js → slice_util-D8CQRenR.js} +7 -7
package/dist/{softmax-CA5jFsLR.js → softmax-faLoUZVT.js} +1 -1
package/dist/{split-CVLc0w--.js → split-BNz5jcGc.js} +3 -3
package/dist/{squeeze-C7Z2srUo.js → squeeze--YMgaAAf.js} +2 -2
package/dist/{stack-Cf4n9h0N.js → stack-WJK22CFn.js} +1 -1
package/dist/{step-CINUs5QB.js → step-dXR33iOg.js} +32 -32
package/dist/sum-BdplSvq_.js +11 -0
package/dist/tensor-BQqrDvpx.js +8 -0
package/dist/tensor1d-LxP9asMm.js +11 -0
package/dist/{tensor2d-Bs9wZRc7.js → tensor2d-BN1sSfQO.js} +3 -3
package/dist/{tensor4d-BARPdTaS.js → tensor4d-DVwr7pLF.js} +1 -1
package/dist/{tfjs_backend-y1cvNhLA.js → tfjs_backend-Vi4JfLzT.js} +28 -28
package/dist/{tile-mbfagpsB.js → tile-CvN_LyVr.js} +4 -4
package/dist/tokeniser/BaseTokeniser.d.ts +27 -0
package/dist/tokeniser/BaseTokeniser.js +94 -0
package/dist/tokeniser/CharTokeniser.d.ts +4 -3
package/dist/tokeniser/CharTokeniser.js +46 -32
package/dist/tokeniser/bpe.d.ts +4 -3
package/dist/tokeniser/bpe.js +60 -45
package/dist/tokeniser/type.d.ts +11 -0
package/dist/training/Adam.js +2 -2
package/dist/training/AdamExt.js +1 -1
package/dist/training/DatasetBuilder.d.ts +2 -2
package/dist/training/DatasetBuilder.js +32 -36
package/dist/training/FullTrainer.js +1 -1
package/dist/training/Trainer.d.ts +3 -3
package/dist/training/Trainer.js +2 -2
package/dist/training/sparseCrossEntropy.js +3 -3
package/dist/{transpose-ClWiBS_b.js → transpose-JawVKyZy.js} +5 -5
package/dist/{unsorted_segment_sum-BDDhB_E6.js → unsorted_segment_sum-LAbmE9G4.js} +78 -78
package/dist/utilities/dummy.js +3 -3
package/dist/utilities/multinomialCPU.js +2 -2
package/dist/utilities/packed.js +1 -1
package/dist/utilities/performance.js +1 -1
package/dist/utilities/profile.js +1 -1
package/dist/utilities/safetensors.js +2 -2
package/dist/utilities/sentences.js +5 -5
package/dist/utilities/weights.js +2 -2
package/dist/{variable-WawDEaAb.js → variable-DQ9yYgEU.js} +1 -1
package/dist/{webgpu_program-DuOXPQol.js → webgpu_program-CAE4RICo.js} +3 -3
package/dist/{webgpu_util-RxEF33Rj.js → webgpu_util-BdovYhXr.js} +1 -1
package/dist/{zeros-KnWaWf-X.js → zeros-DeiE2zTa.js} +2 -2
package/dist/{zeros_like-DvE73F4e.js → zeros_like-BAz3iKru.js} +77 -77
package/package.json +1 -1
package/dist/complex-DjxcVmoX.js +0 -11
package/dist/gather-D3JcZUaI.js +0 -9
package/dist/log_sum_exp-ngO0-4pK.js +0 -39
package/dist/range-BklejeeW.js +0 -10
package/dist/sum-DWAtNGez.js +0 -11
package/dist/tensor-DJoc7gJU.js +0 -8
package/dist/tensor1d-D11P_7Dp.js +0 -11

package/dist/layers/PositionEmbedding.js CHANGED Viewed

@@ -1,9 +1,9 @@
-import { t as c, al as u, b as i } from "../index-DOvlwCh-.js";
+import { t as c, al as u, b as i } from "../index-D0RBWjq8.js";
 import f from "./BaseLayer.js";
-import { E as g, D as h } from "../random_width-or-CEftb.js";
-import { r as l } from "../exports_initializers-Hta_rEnm.js";
-import { m as b } from "../mod-AnXEvvpo.js";
-import { r as w } from "../range-BklejeeW.js";
+import { E as g, D as h } from "../random_width-UGQn4OWb.js";
+import { r as l } from "../exports_initializers-eS9QJ6ut.js";
+import { m as b } from "../mod-PrOKlFxH.js";
+import { r as w } from "../range-CuGvVN2c.js";
 function E(t) {
   return new h(t);
 }

package/dist/layers/RMSNorm.js CHANGED Viewed

@@ -1,8 +1,8 @@
-import { t as s } from "../index-DOvlwCh-.js";
+import { t as s } from "../index-D0RBWjq8.js";
 import e from "./BaseLayer.js";
 import { normRMS as a } from "../ops/normRMS.js";
-import { v as i } from "../variable-WawDEaAb.js";
-import { o as m } from "../ones-D2rT0xk2.js";
+import { v as i } from "../variable-DQ9yYgEU.js";
+import { o as m } from "../ones-BX_wEgzB.js";
 class l extends e {
   GAMMA;
   constructor(r, t = "", o) {

package/dist/layers/RoPECache.js CHANGED Viewed

@@ -1,7 +1,7 @@
-import { w as a, b as n, z as c, t as p, k as r } from "../index-DOvlwCh-.js";
-import { r as l } from "../zeros_like-DvE73F4e.js";
-import { c as f, s as m } from "../unsorted_segment_sum-BDDhB_E6.js";
-import { r as h } from "../range-BklejeeW.js";
+import { l as a, b as n, p as c, t as p, k as r } from "../index-D0RBWjq8.js";
+import { r as l } from "../zeros_like-BAz3iKru.js";
+import { c as f, s as m } from "../unsorted_segment_sum-LAbmE9G4.js";
+import { r as h } from "../range-CuGvVN2c.js";
 class D {
   constructor(s) {
     this.config = s;

package/dist/layers/TiedEmbedding.js CHANGED Viewed

@@ -1,13 +1,13 @@
-import "../random_width-or-CEftb.js";
-import "../index-DOvlwCh-.js";
-import { r as s } from "../exports_initializers-Hta_rEnm.js";
+import "../random_width-UGQn4OWb.js";
+import "../index-D0RBWjq8.js";
+import { r as s } from "../exports_initializers-eS9QJ6ut.js";
 import a from "./BaseLayer.js";
 import { dot16 as o } from "../ops/dot16.js";
 import { isPackedTensor as r } from "../utilities/packed.js";
-import { p as m } from "../pack16-nQ6JaLo-.js";
+import { p as m } from "../pack16-k4jq6aMX.js";
 import { transpose16 as d } from "../ops/transpose16.js";
-import { v as p } from "../variable-WawDEaAb.js";
-import { g as h } from "../gather-D3JcZUaI.js";
+import { v as p } from "../variable-DQ9yYgEU.js";
+import { g as h } from "../gather-BcO5UQNJ.js";
 class g extends a {
   vocabSize;
   embedDim;

package/dist/layers/TransformerBlock.js CHANGED Viewed

@@ -2,7 +2,7 @@ import p from "./CausalSelfAttention.js";
 import m from "./MLP.js";
 import d from "./RMSNorm.js";
 import h from "./BaseLayer.js";
-import { k as n, t as u } from "../index-DOvlwCh-.js";
+import { k as n, t as u } from "../index-D0RBWjq8.js";
 import { add16 as l } from "../ops/add16.js";
 class g extends h {
   ln1;

package/dist/loader/loadTransformers.js CHANGED Viewed

@@ -1,7 +1,7 @@
 import l from "../tokeniser/CharTokeniser.js";
 import c from "../tokeniser/bpe.js";
 import { load_safetensors as b } from "../utilities/safetensors.js";
-import { ae as y } from "../index-DOvlwCh-.js";
+import { aa as y } from "../index-D0RBWjq8.js";
 import { dummyPassAsync as u } from "../utilities/dummy.js";
 import _ from "../models/factory.js";
 async function L(e, a, r, t) {

package/dist/loader/oldZipLoad.js CHANGED Viewed

@@ -1,22 +1,22 @@
-import { ae as y } from "../index-DOvlwCh-.js";
-import "../random_width-or-CEftb.js";
-import "../zeros_like-DvE73F4e.js";
+import { aa as y } from "../index-D0RBWjq8.js";
+import "../random_width-UGQn4OWb.js";
+import "../zeros_like-BAz3iKru.js";
 import "../Generator.js";
 import "../index-Cp39cXWe.js";
-import "../dataset-BcwmTGYc.js";
+import "../dataset-DcjWqUVQ.js";
 import "../ops/cpu/attentionMask.js";
 import "../ops/webgl/attentionMask.js";
 import "../ops/grads/attentionMask.js";
 import "../ops/cpu/rope.js";
 import "../ops/webgl/rope.js";
-import "../rope-Ir4mTyD1.js";
+import "../rope-BmZmp9uP.js";
 import "../ops/cpu/appendCache.js";
 import "../ops/webgl/appendCache.js";
 import "../ops/grads/softmax16.js";
-import "../matMul16-BWRSOCWB.js";
+import "../matMul16-cDxwemKj.js";
 import "../ops/webgl/matMul16.js";
 import "../ops/cpu/matMul16.js";
-import "../pack16-nQ6JaLo-.js";
+import "../pack16-k4jq6aMX.js";
 import "../ops/transpose16.js";
 import "../ops/reshape16.js";
 import "../ops/cpu/qkv.js";
@@ -42,26 +42,26 @@ import "../ops/cpu/adamMoments.js";
 import "../ops/webgl/adamMoments.js";
 import "../papaparse.min-C0cScC2i.js";
 import "../ops/cpu/matMulGelu.js";
-import "../matMulGelu-CzfgT6Wq.js";
+import "../matMulGelu-B2s_80-H.js";
 import "../ops/grads/matMulGelu.js";
 import "../ops/cpu/gelu.js";
 import "../ops/webgl/gelu.js";
-import "../gelu-CjNPL4OH.js";
+import "../gelu-DqTbCx5x.js";
 import "../ops/webgl/log.js";
 import "../checks/normRMS.js";
 import "../checks/normRMSGrad.js";
 import { importWeights as u } from "../utilities/weights.js";
 async function Mt(r) {
-  const e = /* @__PURE__ */ new Map(), p = await r.file("manifest.json")?.async("string");
-  if (!p)
+  const e = /* @__PURE__ */ new Map(), a = await r.file("manifest.json")?.async("string");
+  if (!a)
     throw new Error("Manifest file not found in the zip archive");
-  const s = JSON.parse(p);
-  for (const [t, o] of Object.entries(s.weightSpec))
+  const p = JSON.parse(a);
+  for (const [t, o] of Object.entries(p.weightSpec))
     e.set(t, { spec: o, data: new Float32Array() });
-  const a = await r.file("tokeniser.json")?.async("string");
-  if (!a)
+  const s = await r.file("tokeniser.json")?.async("string");
+  if (!s)
     throw new Error("Tokeniser file not found in the zip archive");
-  const i = JSON.parse(a), f = (i.type ?? "char") === "char" ? new h(i.vocab) : new k(i.vocab, i.merges), c = /* @__PURE__ */ new Map();
+  const i = JSON.parse(s), f = (i.type ?? "char") === "char" ? new h(i.vocab) : new k(i.vocab, i.merges), c = /* @__PURE__ */ new Map();
   for (const t of Object.keys(r.files))
     if (t.endsWith(".bin")) {
       const o = t.replace(".bin", ""), l = await r.file(t).async("arraybuffer"), w = new Float32Array(l), n = e.get(o) || { spec: [], data: new Float32Array() };
@@ -70,7 +70,7 @@ async function Mt(r) {
       c.set(o, d);
     }
   y();
-  const m = b(s.config);
+  const m = b(p.config);
   return await g(m), m.loadWeights(c), { model: m, tokeniser: f };
 }
 export {

package/dist/log_sum_exp-VLZgbFAH.js ADDED Viewed

@@ -0,0 +1,39 @@
+import { q as r, u as x, E as p, am as E, an as $, ao as d, af as h, c as S, n as K } from "./index-D0RBWjq8.js";
+import { e as _ } from "./axis_util-DofAuy0p.js";
+import { r as m } from "./reshape-CkjKPPqB.js";
+import { s as T } from "./sum-BdplSvq_.js";
+function b(s, o = null, n = !1) {
+  const a = { x: x(s, "x", "max") }, e = { reductionIndices: o, keepDims: n };
+  return p.runKernel(E, a, e);
+}
+const I = /* @__PURE__ */ r({ max_: b });
+function M(s) {
+  const n = { x: x(s, "x", "exp") };
+  return p.runKernel($, n);
+}
+const N = /* @__PURE__ */ r({ exp_: M });
+function q(s) {
+  const n = { x: x(s, "x", "log", "float32") };
+  return p.runKernel(d, n);
+}
+const v = /* @__PURE__ */ r({ log_: q });
+function w(s, o = null, n = !1) {
+  const t = x(s, "x", "logSumExp"), a = h(o, t.shape), e = I(
+    t,
+    a,
+    !0
+    /* keepDims */
+  ), l = S(t, e), i = N(l), f = T(i, a), u = v(f), c = K(m(e, u.shape), u);
+  if (n) {
+    const g = _(c.shape, a);
+    return m(c, g);
+  }
+  return c;
+}
+const P = /* @__PURE__ */ r({ logSumExp_: w });
+export {
+  v as a,
+  N as e,
+  P as l,
+  I as m
+};

package/dist/main.d.ts CHANGED Viewed

@@ -14,7 +14,7 @@ export { default as Generator } from './Generator';
 export type { ITrainerOptions } from './Trainer';
 export type { IGenerateOptions } from './Generator';
 export { type ModelForwardAttributes, default as Model } from './models/model';
-export type { ITokeniser } from './tokeniser/type';
+export type { ITokeniser, Conversation, Roles } from './tokeniser/type';
 export type { TrainingProgress, TrainingLogEntry } from './training/Trainer';
 export type { GPTConfig } from './models/config';
 export { estimateParameterCount, estimateMemoryUsage, estimateTrainingMemoryUsage, estimateResources, validateConfig, } from './utilities/parameters';

package/dist/main.js CHANGED Viewed

@@ -1,9 +1,9 @@
-import "./index-DOvlwCh-.js";
-import "./random_width-or-CEftb.js";
-import "./zeros_like-DvE73F4e.js";
+import "./index-D0RBWjq8.js";
+import "./random_width-UGQn4OWb.js";
+import "./zeros_like-BAz3iKru.js";
 import { default as oo } from "./Generator.js";
 import "./index-Cp39cXWe.js";
-import "./dataset-BcwmTGYc.js";
+import "./dataset-DcjWqUVQ.js";
 import { default as to } from "./models/NanoGPTV1.js";
 import { default as mo } from "./TeachableLLM.js";
 import { default as io } from "./tokeniser/CharTokeniser.js";
@@ -25,15 +25,15 @@ import "./ops/webgl/qkv.js";
 import "./ops/grads/qkv.js";
 import "./ops/cpu/rope.js";
 import "./ops/webgl/rope.js";
-import "./rope-Ir4mTyD1.js";
+import "./rope-BmZmp9uP.js";
 import "./ops/cpu/appendCache.js";
 import "./ops/webgl/appendCache.js";
 import "./ops/cpu/matMulGelu.js";
-import "./matMulGelu-CzfgT6Wq.js";
+import "./matMulGelu-B2s_80-H.js";
 import "./ops/grads/matMulGelu.js";
 import "./ops/cpu/gelu.js";
 import "./ops/webgl/gelu.js";
-import "./gelu-CjNPL4OH.js";
+import "./gelu-DqTbCx5x.js";
 import "./ops/cpu/normRMS.js";
 import "./ops/webgl/normRMS.js";
 import "./ops/grads/normRMS.js";
@@ -42,9 +42,9 @@ import "./ops/cpu/adamMoments.js";
 import "./ops/webgl/adamMoments.js";
 import "./ops/cpu/adamAdjust.js";
 import "./ops/webgl/adamAdjust.js";
-import { u as o, p as r } from "./pack16-nQ6JaLo-.js";
+import { u as o, p as r } from "./pack16-k4jq6aMX.js";
 import "./ops/grads/softmax16.js";
-import "./matMul16-BWRSOCWB.js";
+import "./matMul16-cDxwemKj.js";
 import "./ops/webgl/matMul16.js";
 import "./ops/cpu/matMul16.js";
 import "./ops/transpose16.js";

package/dist/{matMul16-BWRSOCWB.js → matMul16-cDxwemKj.js} RENAMED Viewed

@@ -1,9 +1,9 @@
-import { u as y, e as h } from "./index-DOvlwCh-.js";
+import { j as y, e as h } from "./index-D0RBWjq8.js";
 import "./ops/webgl/matMul16.js";
 import "./ops/cpu/matMul16.js";
 import { isPackedTensor as g } from "./utilities/packed.js";
-import { p as v } from "./pack16-nQ6JaLo-.js";
-import { d as k } from "./gelu-CjNPL4OH.js";
+import { p as v } from "./pack16-k4jq6aMX.js";
+import { d as k } from "./gelu-DqTbCx5x.js";
 import { transpose16 as S } from "./ops/transpose16.js";
 import { reshape16 as w } from "./ops/reshape16.js";
 const G = {
@@ -54,7 +54,7 @@ function l(r, o, n = !1, s = !1, t = {}) {
   const e = g(r), f = g(o), i = e || f, a = !i || e ? r : v(r), p = !i || f ? o : v(o), c = h().runKernel("MatMul16", { A: a, B: p }, { transposeA: n, transposeB: s, ...t });
   return i && !e && a.dispose(), i && !f && p.dispose(), c;
 }
-function K(r, o, n, s = !1, t = !1) {
+function F(r, o, n, s = !1, t = !1) {
   return l(r, o, s, t, { scale: n });
 }
 function B(r, o, n, s = !1, t = !1) {
@@ -63,14 +63,14 @@ function B(r, o, n, s = !1, t = !1) {
 function M(r, o, n, s = !1, t = !1) {
   return l(r, o, s, t, { scaleB: n });
 }
-function N(r, o, n = !1, s = !1) {
+function K(r, o, n = !1, s = !1) {
   return l(r, o, n, s, { activation: "gelu" });
 }
 export {
   G as a,
   l as b,
-  N as c,
+  K as c,
   B as d,
   M as e,
-  K as m
+  F as m
 };

package/dist/{matMulGelu-CzfgT6Wq.js → matMulGelu-B2s_80-H.js} RENAMED Viewed

@@ -1,12 +1,12 @@
-import { p as C, t as R, e as I, h as G, a3 as L, l as F, ak as U } from "./index-DOvlwCh-.js";
-import { r as M } from "./Reshape-Zt6eb7yh.js";
-import { u as H } from "./gpgpu_math-DAOmgtXR.js";
-import { m as B } from "./mat_mul-SjpJRLyL.js";
+import { h as C, t as R, e as I, V as G, $ as L, y as F, ak as U } from "./index-D0RBWjq8.js";
+import { r as M } from "./Reshape-Ct266DEk.js";
+import { u as H } from "./gpgpu_math-CJcbnKPC.js";
+import { m as B } from "./mat_mul-DxpNTCRz.js";
 class W {
   constructor(e, s, a, n = !1, o = !1, r = !1, i = null, u = !1, l = !1) {
     this.variableNames = ["matrixA", "matrixB"], this.packedInputs = !0, this.packedOutput = !0, this.outputShape = a, this.enableShapeUniforms = H(this.outputShape.length);
     const p = n ? e[1] : e[2], h = Math.ceil(p / 2), d = n ? "i * 2, rc.y" : "rc.y, i * 2", x = o ? "rc.z, i * 2" : "i * 2, rc.z", b = n ? ["a.xxyy", "a.zzww"] : ["a.xxzz", "a.yyww"], m = o ? ["b.xzxz", "b.ywyw"] : ["b.xyxy", "b.zwzw"];
-    let c = "", g = "";
+    let c = "", $ = "";
     i && (u ? c = `vec4 activation(vec4 a) {
           vec4 b = getPreluActivationWeightsAtOutCoords();
           ${i}
@@ -15,8 +15,8 @@ class W {
           ${i}
         }` : c = `vec4 activation(vec4 x) {
           ${i}
-        }`, g = "result = activation(result);");
-    const $ = r ? "result += getBiasAtOutCoords();" : "";
+        }`, $ = "result = activation(result);");
+    const g = r ? "result += getBiasAtOutCoords();" : "";
     r && this.variableNames.push("bias"), u && this.variableNames.push("preluActivationWeights"), l && this.variableNames.push("leakyreluAlpha");
     let f = "rc.x", v = "rc.x";
     e[0] < s[0] ? f = `imod(rc.x, ${e[0]})` : s[0] < e[0] && (v = `imod(rc.x, ${s[0]})`), this.userCode = `
@@ -44,10 +44,10 @@ class W {
         ivec3 rc = getOutputCoords();
         vec4 result = dot2x2ARowBCol(rc);
-        ${$}
         ${g}
+        ${$}
         setOutput(result);
       }
     `;
@@ -90,7 +90,7 @@ function O({
   activationSnippet: o,
   multiplier: r
 }) {
-  const i = t.shape.length, u = e.shape.length, l = s ? t.shape[i - 2] : t.shape[i - 1], p = a ? e.shape[u - 1] : e.shape[u - 2], h = s ? t.shape[i - 1] : t.shape[i - 2], d = a ? e.shape[u - 2] : e.shape[u - 1], x = t.shape.slice(0, -2), b = e.shape.slice(0, -2), m = G(x), c = G(b), $ = L(t.shape.slice(0, -2), e.shape.slice(0, -2)).concat([h, d]);
+  const i = t.shape.length, u = e.shape.length, l = s ? t.shape[i - 2] : t.shape[i - 1], p = a ? e.shape[u - 1] : e.shape[u - 2], h = s ? t.shape[i - 1] : t.shape[i - 2], d = a ? e.shape[u - 2] : e.shape[u - 1], x = t.shape.slice(0, -2), b = e.shape.slice(0, -2), m = G(x), c = G(b), g = L(t.shape.slice(0, -2), e.shape.slice(0, -2)).concat([h, d]);
   F(
     l === p,
     () => `Error in matMul: inner shapes (${l}) and (${p}) of Tensors with shapes ${t.shape} and ${e.shape} and transposeA=${s} and transposeB=${a} must match.`
@@ -107,13 +107,13 @@ function O({
     !1
   ), D = [A, y];
   r && D.push(r);
-  const z = n.runWebGLProgram(_, D, T), K = M({ inputs: { x: z }, backend: n, attrs: { shape: $ } });
+  const z = n.runWebGLProgram(_, D, T), K = M({ inputs: { x: z }, backend: n, attrs: { shape: g } });
   k.push(z);
   for (const P of k)
     n.disposeIntermediateTensorInfo(P);
   return K;
 }
-function J(t) {
+function V(t) {
   const { inputs: e, backend: s } = t, { x: a, kernel: n } = e;
   if (a === void 0 || n === void 0)
     throw new Error("BatchMatMul requires two input tensors.");
@@ -126,13 +126,13 @@ function J(t) {
     activationSnippet: j
   });
 }
-const Q = {
+const J = {
   kernelName: "MatMulGelu",
   backendName: "webgl",
-  kernelFunc: J
+  kernelFunc: V
 };
-C(Q);
-function V(t) {
+C(J);
+function Q(t) {
   const { dy: e, x: s, kernel: a } = t.inputs, n = t.backend;
   return R(() => {
     const o = I().makeTensorFromTensorInfo(
@@ -152,12 +152,12 @@ function V(t) {
 const X = {
   kernelName: "MatMulGeluGrad",
   backendName: "webgl",
-  kernelFunc: V
+  kernelFunc: Q
 };
 C(X);
 export {
   W as M,
   se as a,
   O as b,
-  J as c
+  V as c
 };

package/dist/{mat_mul-SjpJRLyL.js → mat_mul-DxpNTCRz.js} RENAMED Viewed

@@ -1,9 +1,9 @@
-import { A as m, B as s, L as M, E as c, M as p } from "./index-DOvlwCh-.js";
+import { q as m, u as s, D as c, E as M, H as p } from "./index-D0RBWjq8.js";
 function f(e, n, o = !1, l = !1) {
   let a = s(e, "a", "matMul"), t = s(n, "b", "matMul");
-  [a, t] = M(a, t);
+  [a, t] = c(a, t);
   const r = { a, b: t }, u = { transposeA: o, transposeB: l };
-  return c.runKernel(p, r, u);
+  return M.runKernel(p, r, u);
 }
 const i = /* @__PURE__ */ m({ matMul_: f });
 export {

package/dist/{mod-AnXEvvpo.js → mod-PrOKlFxH.js} RENAMED Viewed

@@ -1,4 +1,4 @@
-import { A as r, B as s, L as m, E as c, N as d } from "./index-DOvlwCh-.js";
+import { q as r, u as s, D as m, E as c, M as d } from "./index-D0RBWjq8.js";
 function p(t, e) {
   let o = s(t, "a", "mod"), a = s(e, "b", "mod");
   [o, a] = m(o, a);

package/dist/models/NanoGPTV1.js CHANGED Viewed

@@ -3,11 +3,11 @@ import b from "../layers/TransformerBlock.js";
 import k from "../layers/TiedEmbedding.js";
 import w from "../layers/RoPECache.js";
 import E from "../layers/RMSNorm.js";
-import { t as l, k as u } from "../index-DOvlwCh-.js";
+import { t as l, k as u } from "../index-D0RBWjq8.js";
 import C from "./model.js";
 import P from "../layers/PositionEmbedding.js";
 import { packingSupported as _ } from "../utilities/packed.js";
-import { p as y, u as M } from "../pack16-nQ6JaLo-.js";
+import { p as y, u as M } from "../pack16-k4jq6aMX.js";
 class I extends C {
   wte;
   // Token embeddings

package/dist/models/model.js CHANGED Viewed

@@ -1,23 +1,23 @@
 import m from "../layers/BaseLayer.js";
-import "../index-DOvlwCh-.js";
-import "../random_width-or-CEftb.js";
-import "../zeros_like-DvE73F4e.js";
+import "../index-D0RBWjq8.js";
+import "../random_width-UGQn4OWb.js";
+import "../zeros_like-BAz3iKru.js";
 import "../Generator.js";
 import "../index-Cp39cXWe.js";
-import "../dataset-BcwmTGYc.js";
+import "../dataset-DcjWqUVQ.js";
 import "../ops/cpu/attentionMask.js";
 import "../ops/webgl/attentionMask.js";
 import "../ops/grads/attentionMask.js";
 import "../ops/cpu/rope.js";
 import "../ops/webgl/rope.js";
-import "../rope-Ir4mTyD1.js";
+import "../rope-BmZmp9uP.js";
 import "../ops/cpu/appendCache.js";
 import "../ops/webgl/appendCache.js";
 import "../ops/grads/softmax16.js";
-import "../matMul16-BWRSOCWB.js";
+import "../matMul16-cDxwemKj.js";
 import "../ops/webgl/matMul16.js";
 import "../ops/cpu/matMul16.js";
-import "../pack16-nQ6JaLo-.js";
+import "../pack16-k4jq6aMX.js";
 import "../ops/transpose16.js";
 import "../ops/reshape16.js";
 import "../ops/cpu/qkv.js";
@@ -40,11 +40,11 @@ import "../ops/webgl/scatterSub.js";
 import "../ops/cpu/gatherSub.js";
 import "../ops/webgl/gatherSub.js";
 import "../ops/cpu/matMulGelu.js";
-import "../matMulGelu-CzfgT6Wq.js";
+import "../matMulGelu-B2s_80-H.js";
 import "../ops/grads/matMulGelu.js";
 import "../ops/cpu/gelu.js";
 import "../ops/webgl/gelu.js";
-import "../gelu-CjNPL4OH.js";
+import "../gelu-DqTbCx5x.js";
 import "../ops/webgl/log.js";
 import "../checks/normRMS.js";
 import "../checks/normRMSGrad.js";

package/dist/{ones-D2rT0xk2.js → ones-BX_wEgzB.js} RENAMED Viewed

@@ -1,6 +1,6 @@
-import { C as n, _ as t, h as m, E as i } from "./index-DOvlwCh-.js";
-import { c as f } from "./complex-DjxcVmoX.js";
-import { z as c } from "./zeros-KnWaWf-X.js";
+import { w as n, W as t, V as m, E as i } from "./index-D0RBWjq8.js";
+import { c as f } from "./complex-DClmWqJt.js";
+import { z as c } from "./zeros-DeiE2zTa.js";
 function l(o, r = "float32") {
   if (n(o), r === "complex64") {
     const s = l(o, "float32"), a = c(o, "float32");

package/dist/ops/adamAdjust.js CHANGED Viewed

@@ -1,4 +1,4 @@
-import { e as i } from "../index-DOvlwCh-.js";
+import { e as i } from "../index-D0RBWjq8.js";
 import "./cpu/adamAdjust.js";
 import "./webgl/adamAdjust.js";
 function p(r, t, e, n, m, o) {

package/dist/ops/adamMoments.js CHANGED Viewed

@@ -1,4 +1,4 @@
-import { e as t } from "../index-DOvlwCh-.js";
+import { e as t } from "../index-D0RBWjq8.js";
 import "./cpu/adamMoments.js";
 import "./webgl/adamMoments.js";
 function s(e, n, r, m, o) {

package/dist/ops/add16.js CHANGED Viewed

@@ -1,4 +1,4 @@
-import { x as t, e as o } from "../index-DOvlwCh-.js";
+import { n as t, e as o } from "../index-D0RBWjq8.js";
 import { isPackedTensor as n } from "../utilities/packed.js";
 import "./grads/add16.js";
 function m(r, e) {

package/dist/ops/appendCache.js CHANGED Viewed

@@ -1,9 +1,9 @@
-import { e as a } from "../index-DOvlwCh-.js";
+import { e as a } from "../index-D0RBWjq8.js";
 import "./cpu/appendCache.js";
 import "./webgl/appendCache.js";
 import { isPackedTensor as c } from "../utilities/packed.js";
-import { c as t } from "../concat-BV8bt5H-.js";
-import { z as f } from "../zeros-KnWaWf-X.js";
+import { c as t } from "../concat-C6X3AAlQ.js";
+import { z as f } from "../zeros-DeiE2zTa.js";
 function C(r, o, n, p) {
   if (!p) {
     const e = r.shape[2], s = c(r);

package/dist/ops/attentionMask.js CHANGED Viewed

@@ -1,4 +1,4 @@
-import { e as r } from "../index-DOvlwCh-.js";
+import { e as r } from "../index-D0RBWjq8.js";
 import "./cpu/attentionMask.js";
 import "./webgl/attentionMask.js";
 import "./grads/attentionMask.js";

package/dist/ops/concat16.js CHANGED Viewed

@@ -1,6 +1,6 @@
 import { isPackedTensor as o } from "../utilities/packed.js";
-import { e } from "../index-DOvlwCh-.js";
-import { c } from "../concat-BV8bt5H-.js";
+import { e } from "../index-D0RBWjq8.js";
+import { c } from "../concat-C6X3AAlQ.js";
 function p(r, n) {
   return o(r[0]) ? e().runKernel("Concat16", r, { axis: n ?? -1 }) : c(r, n);
 }

package/dist/ops/cpu/adamAdjust.js CHANGED Viewed

@@ -1,12 +1,12 @@
-import { p as k, w as t, x as i, m as w, y as z } from "../../index-DOvlwCh-.js";
+import { h, l as t, n as i, m as k, o as z } from "../../index-D0RBWjq8.js";
 function A(c) {
-  const { moments: s, value: r } = c.inputs, { beta1: l, beta2: m, epsilon: u, learningRate: d } = c.attrs, e = s.shape.length, a = new Array(e).fill(0), n = s.shape.slice();
-  n[e - 1] = 1;
+  const { moments: n, value: r } = c.inputs, { beta1: l, beta2: m, epsilon: u, learningRate: d } = c.attrs, e = n.shape.length, a = new Array(e).fill(0), s = n.shape.slice();
+  s[e - 1] = 1;
   const o = a.slice();
   o[e - 1] = 1;
-  const p = n.slice(), b = s.slice(a, n).squeeze([e - 1]), M = s.slice(o, p).squeeze([e - 1]), g = t(b, l), f = t(M, m);
+  const b = s.slice(), p = n.slice(a, s).squeeze([e - 1]), M = n.slice(o, b).squeeze([e - 1]), g = t(p, l), f = t(M, m);
   return i(
-    w(t(g, i(z(f), u ?? 1e-8)), -d),
+    k(t(g, i(z(f), u ?? 1e-8)), -d),
     r
   );
 }
@@ -15,4 +15,4 @@ const C = {
   backendName: "cpu",
   kernelFunc: A
 };
-k(C);
+h(C);

package/dist/ops/cpu/adamMoments.js CHANGED Viewed

@@ -1,5 +1,5 @@
-import { p } from "../../index-DOvlwCh-.js";
-import { s as b } from "../../stack-Cf4n9h0N.js";
+import { h as p } from "../../index-D0RBWjq8.js";
+import { s as b } from "../../stack-WJK22CFn.js";
 function f(t) {
   const { moments: n, gradient: c } = t.inputs, { beta1: o, beta2: m } = t.attrs, e = n.shape.length, a = new Array(e).fill(0), s = n.shape.slice();
   s[e - 1] = 1;

package/dist/ops/cpu/appendCache.js CHANGED Viewed

@@ -1,12 +1,12 @@
-import { p as d } from "../../index-DOvlwCh-.js";
-import { c as h } from "../../concat-BV8bt5H-.js";
+import { h as d } from "../../index-D0RBWjq8.js";
+import { c as m } from "../../concat-C6X3AAlQ.js";
 function u(p) {
   const { cache: n, item: s } = p.inputs, { maxSize: i, pastLen: c } = p.attrs, t = n.shape[0], o = n.shape[1], a = n.shape[3], e = s.shape[2];
   if (c + e <= i) {
-    const f = n.slice([0, 0, 0, 0], [t, o, c, a]), m = n.slice([0, 0, c + e, 0], [t, o, i - c - e, a]), r = e < e ? s.slice([0, 0, 0, 0], [t, o, e, a]) : s, k = h([f, r, m], 2);
-    return f.dispose(), m.dispose(), r !== s && r.dispose(), k;
+    const f = n.slice([0, 0, 0, 0], [t, o, c, a]), h = n.slice([0, 0, c + e, 0], [t, o, i - c - e, a]), r = e < e ? s.slice([0, 0, 0, 0], [t, o, e, a]) : s, k = m([f, r, h], 2);
+    return f.dispose(), h.dispose(), r !== s && r.dispose(), k;
   }
-  const l = n.slice([0, 0, e, 0], [t, o, i - e, a]), C = h([l, s], 2);
+  const l = n.slice([0, 0, e, 0], [t, o, i - e, a]), C = m([l, s], 2);
   return l.dispose(), C;
 }
 const w = {

package/dist/ops/cpu/attentionMask.js CHANGED Viewed

@@ -1,22 +1,22 @@
-import { p as o, q as d, b as u } from "../../index-DOvlwCh-.js";
-import { l as N } from "../../ops-B5yanEdW.js";
-import { o as b } from "../../ones-D2rT0xk2.js";
-import { z as A } from "../../zeros-KnWaWf-X.js";
-import { w as I } from "../../resize_nearest_neighbor-B19mCEg2.js";
-import { m as g } from "../../mat_mul-SjpJRLyL.js";
+import { h as o, i as d, b as u } from "../../index-D0RBWjq8.js";
+import { l as N } from "../../ops-FJapAPfm.js";
+import { o as b } from "../../ones-BX_wEgzB.js";
+import { z as A } from "../../zeros-DeiE2zTa.js";
+import { w as I } from "../../resize_nearest_neighbor-DB8k9KN_.js";
+import { m as g } from "../../mat_mul-DxpNTCRz.js";
 function a(n) {
   const { q: s, k: e } = n.inputs, { divisor: r } = n.attrs, c = s.shape[2], t = e.shape[2], m = N.bandPart(b([t, t]), -1, 0).cast("bool"), i = A([t, t]), l = d([t, t], Number.NEGATIVE_INFINITY), f = I(m, i, l), k = g(s, e, !1, !0).mul(u(r)), p = f.slice([0, 0], [c, t]).expandDims(0).expandDims(0);
   return k.add(p);
 }
-const w = {
+const h = {
   kernelName: "AttentionMask",
   backendName: "cpu",
   kernelFunc: a
 };
-o(w);
-const M = {
+o(h);
+const w = {
   kernelName: "AttentionMask",
   backendName: "tensorflow",
   kernelFunc: a
 };
-o(M);
+o(w);

package/dist/ops/cpu/fusedSoftmax.js CHANGED Viewed

@@ -1,5 +1,5 @@
-import { p as e } from "../../index-DOvlwCh-.js";
-import { s as m } from "../../softmax-CA5jFsLR.js";
+import { h as e } from "../../index-D0RBWjq8.js";
+import { s as m } from "../../softmax-faLoUZVT.js";
 function n(t) {
   const { inputs: s, attrs: a } = t, { logits: o } = s, { dim: i, dropoutRate: r } = a;
   if (!o)