npm - @genai-fi/nanogpt - Versions diffs - 0.3.2 → 0.4.1 - Mend

@genai-fi/nanogpt 0.3.2 → 0.4.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (98) hide show

package/dist/Generator.js +22 -22
package/dist/MLP-KHhikThU.js +83 -0
package/dist/NanoGPTModel.d.ts +2 -3
package/dist/NanoGPTModel.js +79 -79
package/dist/TeachableLLM.js +16 -13
package/dist/axis_util-DeydwOoC.js +69 -0
package/dist/{concat-BIZS_td9.js → concat-DS_qH7MI.js} +5 -5
package/dist/config.js +7 -8
package/dist/{gather-BPGW8RsB.js → gather-BUmJIS8n.js} +1 -1
package/dist/{index-pWA4_lUh.js → index-XjBAhiFO.js} +1272 -1174
package/dist/layers/BaseLayer.d.ts +14 -2
package/dist/layers/BaseLayer.js +9 -9
package/dist/layers/CausalSelfAttention.d.ts +4 -8
package/dist/layers/CausalSelfAttention.js +106 -80
package/dist/layers/MLP.d.ts +2 -3
package/dist/layers/MLP.js +5 -62
package/dist/layers/RMSNorm.d.ts +2 -2
package/dist/layers/RMSNorm.js +11 -11
package/dist/layers/RoPECache.js +3 -3
package/dist/layers/TiedEmbedding.js +7 -6
package/dist/layers/TransformerBlock.d.ts +2 -6
package/dist/layers/TransformerBlock.js +9 -12
package/dist/{sum-C7Mgy9Bw.js → log_sum_exp-DJPkVZZn.js} +32 -54
package/dist/main.js +22 -19
package/dist/{mat_mul-D7_a4KJn.js → mat_mul-CKwFEV1Q.js} +1 -1
package/dist/max-DJvEiCAJ.js +25 -0
package/dist/moments-CrWRPcR3.js +53 -0
package/dist/norm-BzY929B_.js +86 -0
package/dist/{ones-Cog-G2ag.js → ones-BO01zpJG.js} +2 -2
package/dist/ops/appendCache.js +1 -1
package/dist/ops/attentionMask.js +1 -1
package/dist/ops/cpu/appendCache.js +2 -2
package/dist/ops/cpu/attentionMask.js +2 -2
package/dist/ops/cpu/fusedSoftmax.d.ts +9 -0
package/dist/ops/cpu/fusedSoftmax.js +23 -0
package/dist/ops/cpu/gatherSub.js +3 -3
package/dist/ops/cpu/mulDropout.d.ts +1 -0
package/dist/ops/cpu/mulDropout.js +17 -0
package/dist/ops/cpu/qkv.js +3 -3
package/dist/ops/cpu/rope.js +5 -5
package/dist/ops/cpu/scatterSub.js +27 -27
package/dist/ops/fusedSoftmax.d.ts +2 -0
package/dist/ops/fusedSoftmax.js +10 -0
package/dist/ops/gatherSub.js +1 -1
package/dist/ops/grads/attentionMask.js +1 -1
package/dist/ops/grads/fusedSoftmax.d.ts +2 -0
package/dist/ops/grads/fusedSoftmax.js +17 -0
package/dist/ops/grads/qkv.js +1 -1
package/dist/ops/grads/rope.js +1 -1
package/dist/ops/mulDrop.d.ts +2 -0
package/dist/ops/mulDrop.js +9 -0
package/dist/ops/node/sparseCrossEntropy.js +1 -1
package/dist/ops/qkv.js +1 -1
package/dist/ops/scatterSub.js +1 -1
package/dist/ops/webgl/appendCache.js +1 -1
package/dist/ops/webgl/attentionMask.js +1 -1
package/dist/ops/webgl/fusedSoftmax.d.ts +11 -0
package/dist/ops/webgl/fusedSoftmax.js +3930 -0
package/dist/ops/webgl/gatherSub.js +1 -1
package/dist/ops/webgl/mulDropout.d.ts +1 -0
package/dist/ops/webgl/mulDropout.js +41 -0
package/dist/ops/webgl/qkv.js +1 -1
package/dist/ops/webgl/rope.js +1 -1
package/dist/ops/webgl/scatterSub.js +1 -1
package/dist/{random_width-oeUIlUZj.js → random_width-CMHmdbSu.js} +4212 -6630
package/dist/{range-CcDl05lo.js → range-DQMNzBWs.js} +1 -1
package/dist/{reshape-C8CR_Bad.js → reshape-DFzh97Sc.js} +1 -1
package/dist/{sin-BJIrfnj7.js → sin-BYM-U4Ut.js} +1 -1
package/dist/slice_util-CnVNPQI-.js +90 -0
package/dist/softmax-4DOn6cPq.js +28 -0
package/dist/{split-DZbvruEP.js → split-CkbeVdF8.js} +3 -3
package/dist/{stack-BMm-efee.js → stack-DaIMO5iX.js} +1 -1
package/dist/sum-C6u3xMi3.js +27 -0
package/dist/{tensor-DJVbYhh1.js → tensor-Cu1fU7H7.js} +1 -1
package/dist/{tensor2d-ZuQSh2D-.js → tensor2d-D0CKdG6B.js} +1 -1
package/dist/tfjs_backend-Bzl2SrRo.js +2460 -0
package/dist/training/AdamExt.js +1 -1
package/dist/training/DatasetBuilder.js +3 -3
package/dist/training/FullTrainer.js +1 -1
package/dist/training/Trainer.js +13 -12
package/dist/training/sparseCrossEntropy.js +12 -11
package/dist/utilities/dummy.js +8 -8
package/dist/utilities/generate.js +11 -11
package/dist/utilities/load.js +1 -1
package/dist/utilities/profile.js +1 -1
package/dist/utilities/weights.js +2 -2
package/dist/{variable-Dl_ub3pk.js → variable-BS4AKqNU.js} +1 -1
package/dist/{zeros-CCy9C3uU.js → zeros-CmJFiC84.js} +1 -1
package/package.json +1 -1
package/dist/exports_layers-tbTBcwMM.js +0 -25
package/dist/layers/LayerNorm.d.ts +0 -13
package/dist/layers/LayerNorm.js +0 -33
package/dist/moments-DfcpfwKi.js +0 -132
package/dist/softmax-Be_lsqUc.js +0 -105
package/dist/training/LayerTrainer.d.ts +0 -29
package/dist/training/LayerTrainer.js +0 -95
package/dist/training/lwSchedule.d.ts +0 -7
package/dist/training/lwSchedule.js +0 -162

package/dist/training/LayerTrainer.js DELETED Viewed

@@ -1,95 +0,0 @@
-import { generateText as u } from "../utilities/generate.js";
-import v from "./Trainer.js";
-import { schedule as w } from "./lwSchedule.js";
-import T from "./Evaluator.js";
-import { a as m } from "../index-pWA4_lUh.js";
-const x = {
-  desiredLoss: 0.01,
-  logInterval: 1,
-  stepsPerLayer: 400,
-  maxPasses: 3,
-  maxSteps: 1e3
-};
-class E extends v {
-  trainingPattern = [];
-  startPass = 0;
-  startLayer = 0;
-  constructor(a, r, e = 3e-4) {
-    if (super(a, r, e), this.trainingPattern = w[a.config.nLayer - 1] || [], a.log.length > 0) {
-      const i = a.log[a.log.length - 1];
-      i.pass !== void 0 && i.layer !== void 0 && (this.startPass = i.pass, this.startLayer = i.layer, console.log(`Resuming training from pass ${this.startPass}, layer ${this.startLayer}`));
-    }
-  }
-  applyTrainingPattern(a) {
-    const r = a < this.trainingPattern.length ? a : this.trainingPattern.length - 1, e = this.trainingPattern[r];
-    this.model.setSkipMask(e.skip), this.model.setTrainableMask(e.trainable), this.resetOptimizer(e.adam), console.log("Applied training pattern:", r, e);
-  }
-  // Train for multiple epochs using Dataset API - FIXED memory leaks
-  async trainOnDataset(a, r, e) {
-    const { desiredLoss: i, logInterval: L, stepsPerLayer: d, onLayerChange: l, onPassComplete: p, onStep: h, prompt: c } = {
-      ...x,
-      ...r
-    }, t = {
-      pass: 0,
-      layerStep: 0,
-      step: 0,
-      stepSinceLayerChange: 0,
-      lastLoss: 1e6,
-      totalSteps: 0,
-      losses: [],
-      validationLosses: [],
-      trainingDuration: 0
-    };
-    this.dummyPass();
-    const S = Date.now();
-    this.startPass = 0, this.startLayer = 0;
-    const g = e ? new T(this.model, e) : void 0, f = await a.iterator();
-    this.applyTrainingPattern(t.layerStep % this.trainingPattern.length);
-    try {
-      for (; !(t.lastLoss < i); ) {
-        const o = await f.next();
-        if (o.done) break;
-        const y = o.value, P = this.trainBatch(t, y);
-        t.stepSinceLayerChange++;
-        const n = {
-          loss: t.lastLoss,
-          step: t.step,
-          time: Date.now() - S,
-          batchSize: y.xs.shape[0],
-          pass: t.pass,
-          layer: t.layerStep % this.model.config.nLayer
-        };
-        if (this.model.log.push(n), t.step % L === 0) {
-          if (await P, g)
-            try {
-              const s = await g.evaluate(5);
-              t.validationLosses.push(s), n.valLoss = s;
-            } catch (s) {
-              console.error("Validation error:", s);
-            }
-          if (h) {
-            if (c) {
-              const s = await u(this.tokenizer, this.model, c, 100, {
-                temperature: 0.8,
-                topK: 10
-              });
-              n.example = s;
-            }
-            await h(n, {
-              duration: t.trainingDuration,
-              totalSamples: t.totalSteps * n.batchSize,
-              samplesPerSecond: t.totalSteps * n.batchSize / (t.trainingDuration / 1e3)
-            });
-          }
-        }
-        t.stepSinceLayerChange >= d && (t.layerStep++, t.layerStep % this.model.config.nLayer === 0 ? (l && await l(t.layerStep, t.pass), p && await p(t.pass), t.pass++) : l && await l(t.layerStep, t.pass), t.stepSinceLayerChange = 0, this.applyTrainingPattern(t.layerStep % this.trainingPattern.length));
-      }
-    } catch (o) {
-      throw console.error("Training error:", o), m(), o;
-    }
-    return m(), { losses: t.losses, validationLosses: t.validationLosses };
-  }
-}
-export {
-  E as default
-};

package/dist/training/lwSchedule.d.ts DELETED Viewed

@@ -1,7 +0,0 @@
-import { AdamConfig } from './Trainer';
-export interface LWSchedule {
-    adam: AdamConfig;
-    skip: boolean[];
-    trainable: boolean[];
-}
-export declare const schedule: LWSchedule[][];

package/dist/training/lwSchedule.js DELETED Viewed

@@ -1,162 +0,0 @@
-const e = [
-  [
-    {
-      adam: {
-        learningRateFactor: 1,
-        beta1: 0.9,
-        beta2: 0.999,
-        epsilon: 1e-8
-      },
-      skip: [!1],
-      trainable: [!0]
-    }
-  ],
-  [
-    {
-      adam: {
-        learningRateFactor: 1,
-        beta1: 0.9,
-        beta2: 0.999,
-        epsilon: 1e-8
-      },
-      skip: [!0, !1],
-      trainable: [!1, !0]
-    },
-    {
-      adam: {
-        learningRateFactor: 1,
-        beta1: 0.9,
-        beta2: 0.999,
-        epsilon: 1e-8
-      },
-      skip: [!1, !1],
-      trainable: [!0, !1]
-    },
-    {
-      adam: {
-        learningRateFactor: 0.3333333333333333,
-        beta1: 0.95,
-        beta2: 0.999,
-        epsilon: 1e-8
-      },
-      skip: [!1, !1],
-      trainable: [!0, !0]
-    }
-  ],
-  [],
-  [
-    {
-      adam: {
-        learningRateFactor: 1,
-        beta1: 0.9,
-        beta2: 0.999,
-        epsilon: 1e-8
-      },
-      skip: [!0, !0, !0, !1],
-      trainable: [!1, !1, !1, !0]
-    },
-    {
-      adam: {
-        learningRateFactor: 1,
-        beta1: 0.9,
-        beta2: 0.999,
-        epsilon: 1e-8
-      },
-      skip: [!0, !0, !1, !1],
-      trainable: [!1, !1, !0, !1]
-    },
-    {
-      adam: {
-        learningRateFactor: 0.3333333333333333,
-        beta1: 0.95,
-        beta2: 0.999,
-        epsilon: 1e-8
-      },
-      skip: [!0, !0, !1, !1],
-      trainable: [!1, !1, !1, !0]
-    },
-    {
-      adam: {
-        learningRateFactor: 1,
-        beta1: 0.9,
-        beta2: 0.999,
-        epsilon: 1e-8
-      },
-      skip: [!0, !1, !1, !1],
-      trainable: [!1, !0, !1, !1]
-    },
-    {
-      adam: {
-        learningRateFactor: 0.3333333333333333,
-        beta1: 0.95,
-        beta2: 0.999,
-        epsilon: 1e-8
-      },
-      skip: [!0, !1, !1, !1],
-      trainable: [!1, !1, !0, !1]
-    },
-    {
-      adam: {
-        learningRateFactor: 0.16666666666666666,
-        beta1: 0.98,
-        beta2: 0.9999,
-        epsilon: 1e-8
-      },
-      skip: [!0, !1, !1, !1],
-      trainable: [!1, !1, !1, !0]
-    },
-    {
-      adam: {
-        learningRateFactor: 1,
-        beta1: 0.9,
-        beta2: 0.999,
-        epsilon: 1e-8
-      },
-      skip: [!1, !1, !1, !1],
-      trainable: [!0, !1, !1, !1]
-    },
-    {
-      adam: {
-        learningRateFactor: 0.3333333333333333,
-        beta1: 0.95,
-        beta2: 0.999,
-        epsilon: 1e-8
-      },
-      skip: [!1, !1, !1, !1],
-      trainable: [!1, !0, !1, !1]
-    },
-    {
-      adam: {
-        learningRateFactor: 0.16666666666666666,
-        beta1: 0.98,
-        beta2: 0.9999,
-        epsilon: 1e-8
-      },
-      skip: [!1, !1, !1, !1],
-      trainable: [!1, !1, !0, !1]
-    },
-    {
-      adam: {
-        learningRateFactor: 0.16666666666666666,
-        beta1: 0.98,
-        beta2: 0.9999,
-        epsilon: 1e-8
-      },
-      skip: [!1, !1, !1, !1],
-      trainable: [!1, !1, !1, !0]
-    },
-    {
-      adam: {
-        learningRateFactor: 0.16666666666666666,
-        beta1: 0.98,
-        beta2: 0.9999,
-        epsilon: 1e-8
-      },
-      skip: [!1, !1, !1, !1],
-      trainable: [!0, !0, !0, !0]
-    }
-  ]
-];
-export {
-  e as schedule
-};