npm - @simulatte/doppler - Versions diffs - 0.1.6 → 0.1.7 - Mend

@simulatte/doppler 0.1.6 → 0.1.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (316) hide show

package/CHANGELOG.md +126 -0
package/README.md +16 -23
package/package.json +14 -1
package/src/adapters/adapter-registry.js +12 -1
package/src/adapters/lora-loader.js +23 -6
package/src/bridge/extension-client.d.ts +5 -0
package/src/bridge/extension-client.js +40 -0
package/src/bridge/index.d.ts +2 -1
package/src/bridge/index.js +6 -4
package/src/browser/browser-converter.js +26 -1
package/src/browser/file-picker.js +6 -0
package/src/browser/safetensors-parser-browser.js +84 -1
package/src/browser/shard-io-browser.js +2 -2
package/src/browser/tensor-source-download.js +8 -2
package/src/browser/tensor-source-http.d.ts +1 -0
package/src/browser/tensor-source-http.js +5 -1
package/src/client/doppler-api.browser.js +20 -4
package/src/client/doppler-api.js +19 -3
package/src/client/doppler-provider/generation.js +12 -0
package/src/client/doppler-provider/model-manager.d.ts +10 -0
package/src/client/doppler-provider/model-manager.js +91 -19
package/src/client/doppler-provider/source-runtime.d.ts +2 -1
package/src/client/doppler-provider/source-runtime.js +132 -13
package/src/client/doppler-registry.json +8 -7
package/src/config/backward-registry-loader.js +17 -2
package/src/config/execution-v0-contract-check.js +113 -15
package/src/config/kernel-path-contract-check.js +57 -29
package/src/config/kernel-path-loader.js +5 -36
package/src/config/kernels/kernel-ref-digests.js +1 -1
package/src/config/kernels/registry.js +14 -1
package/src/config/kernels/registry.json +7 -5
package/src/config/loader.d.ts +1 -1
package/src/config/loader.js +12 -2
package/src/config/merge-contract-check.js +59 -4
package/src/config/merge-helpers.js +128 -7
package/src/config/merge.d.ts +1 -0
package/src/config/merge.js +10 -0
package/src/config/param-validator.js +47 -2
package/src/config/presets/kernel-paths/{gemma2-q4k-dequant-f32a.json → gemma2-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/gemma3-f16-fused-f32a-online-streamingprefill.json +223 -0
package/src/config/presets/kernel-paths/{gemma3-q4k-dequant-f32a.json → gemma3-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/registry.json +29 -8
package/src/config/presets/models/gemma2.json +2 -2
package/src/config/presets/runtime/experiments/bench/gemma3-bench-q4k.json +1 -1
package/src/config/presets/runtime/experiments/debug/gemma3-debug-q4k.json +1 -1
package/src/config/presets/runtime/experiments/verify/gemma3-verify.json +1 -1
package/src/config/presets/runtime/kernels/dequant-f16-q4k.json +6 -13
package/src/config/presets/runtime/kernels/dequant-f32-q4k.json +6 -13
package/src/config/presets/runtime/kernels/embeddinggemma-q4k-dequant-f32a.json +37 -0
package/src/config/presets/runtime/kernels/fused-q4k.json +6 -13
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f16a.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f32a-nosubgroups.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-fused-f32a.json +33 -0
package/src/config/presets/runtime/kernels/safe-q4k.json +6 -13
package/src/config/presets/runtime/platform/metal-apple-q4k.json +1 -1
package/src/config/runtime.js +6 -1
package/src/config/schema/debug.schema.d.ts +5 -0
package/src/config/schema/doppler.schema.js +16 -21
package/src/config/schema/inference-defaults.schema.js +3 -3
package/src/config/schema/kernel-path.schema.d.ts +5 -1
package/src/config/schema/kernel-thresholds.schema.js +12 -4
package/src/config/schema/manifest.schema.d.ts +2 -1
package/src/config/schema/manifest.schema.js +16 -3
package/src/config/training-defaults.js +30 -22
package/src/converter/conversion-plan.js +94 -9
package/src/converter/core.d.ts +7 -0
package/src/converter/core.js +14 -9
package/src/converter/execution-v0-manifest.js +4 -1
package/src/converter/index.d.ts +1 -0
package/src/converter/index.js +1 -0
package/src/converter/manifest-inference.js +43 -12
package/src/converter/parsers/diffusion.js +0 -3
package/src/converter/quantization-info.js +35 -15
package/src/converter/shard-packer.d.ts +1 -1
package/src/converter/shard-packer.js +4 -1
package/src/debug/config.js +123 -11
package/src/debug/signals.js +7 -1
package/src/debug/tensor.d.ts +2 -0
package/src/debug/tensor.js +13 -2
package/src/distribution/p2p-control-plane.js +52 -12
package/src/distribution/p2p-observability.js +43 -7
package/src/distribution/p2p-webrtc-browser.js +20 -0
package/src/distribution/shard-delivery.js +77 -26
package/src/formats/gguf/types.js +33 -16
package/src/formats/rdrr/groups.d.ts +12 -4
package/src/formats/rdrr/groups.js +3 -6
package/src/formats/rdrr/parsing.js +39 -2
package/src/formats/rdrr/types.d.ts +2 -1
package/src/gpu/command-recorder.js +86 -61
package/src/gpu/device.d.ts +1 -0
package/src/gpu/device.js +73 -19
package/src/gpu/kernel-tuner/benchmarks.js +326 -316
package/src/gpu/kernel-tuner/cache.js +71 -4
package/src/gpu/kernel-tuner/tuner.js +22 -4
package/src/gpu/kernels/attention.js +15 -34
package/src/gpu/kernels/backward/adam.js +62 -58
package/src/gpu/kernels/backward/attention_backward.js +257 -169
package/src/gpu/kernels/backward/conv2d_backward.js +14 -1
package/src/gpu/kernels/cast.js +191 -149
package/src/gpu/kernels/check-stop.js +33 -44
package/src/gpu/kernels/conv2d.js +27 -17
package/src/gpu/kernels/cross_entropy_loss.js +21 -15
package/src/gpu/kernels/depthwise_conv2d.js +36 -26
package/src/gpu/kernels/dequant.js +178 -126
package/src/gpu/kernels/energy.d.ts +3 -21
package/src/gpu/kernels/energy.js +111 -88
package/src/gpu/kernels/feature-check.js +1 -1
package/src/gpu/kernels/fused_ffn.js +84 -65
package/src/gpu/kernels/fused_matmul_residual.js +56 -33
package/src/gpu/kernels/fused_matmul_rmsnorm.js +62 -45
package/src/gpu/kernels/gather.js +33 -15
package/src/gpu/kernels/gelu.js +19 -11
package/src/gpu/kernels/grouped_pointwise_conv2d.js +33 -23
package/src/gpu/kernels/groupnorm.js +34 -23
package/src/gpu/kernels/kv-quantize.js +5 -2
package/src/gpu/kernels/layernorm.js +35 -19
package/src/gpu/kernels/logit-merge.js +5 -3
package/src/gpu/kernels/matmul.js +58 -39
package/src/gpu/kernels/modulate.js +23 -15
package/src/gpu/kernels/moe.js +221 -175
package/src/gpu/kernels/pixel_shuffle.js +22 -14
package/src/gpu/kernels/relu.js +18 -10
package/src/gpu/kernels/repeat_channels.js +25 -17
package/src/gpu/kernels/residual.js +37 -27
package/src/gpu/kernels/rmsnorm.js +57 -41
package/src/gpu/kernels/rope.js +3 -0
package/src/gpu/kernels/sample.js +27 -38
package/src/gpu/kernels/sana_linear_attention.js +18 -10
package/src/gpu/kernels/scale.js +18 -11
package/src/gpu/kernels/shader-cache.js +4 -2
package/src/gpu/kernels/silu.js +120 -72
package/src/gpu/kernels/softmax.js +44 -25
package/src/gpu/kernels/split_qkv.js +23 -13
package/src/gpu/kernels/transpose.js +18 -10
package/src/gpu/kernels/transpose.wgsl +5 -3
package/src/gpu/kernels/upsample2d.js +21 -13
package/src/gpu/kernels/utils.js +20 -13
package/src/gpu/partitioned-buffer-pool.js +10 -2
package/src/gpu/perf-guards.js +2 -9
package/src/gpu/profiler.js +27 -22
package/src/gpu/readback-utils.d.ts +16 -0
package/src/gpu/readback-utils.js +41 -0
package/src/gpu/submit-tracker.js +13 -0
package/src/gpu/uniform-cache.d.ts +1 -0
package/src/gpu/uniform-cache.js +30 -9
package/src/hotswap/intent-bundle.js +6 -0
package/src/hotswap/manifest.d.ts +10 -1
package/src/hotswap/manifest.js +12 -2
package/src/hotswap/runtime.js +30 -8
package/src/index-browser.d.ts +44 -0
package/src/index-browser.js +14 -0
package/src/inference/browser-harness-contract-helpers.d.ts +5 -0
package/src/inference/browser-harness-contract-helpers.js +28 -0
package/src/inference/browser-harness-diffusion-energy-suites.d.ts +2 -0
package/src/inference/browser-harness-diffusion-energy-suites.js +269 -0
package/src/inference/browser-harness-model-helpers.d.ts +16 -0
package/src/inference/browser-harness-model-helpers.js +217 -0
package/src/inference/browser-harness-report-helpers.d.ts +7 -0
package/src/inference/browser-harness-report-helpers.js +42 -0
package/src/inference/browser-harness-runtime-helpers.d.ts +61 -0
package/src/inference/browser-harness-runtime-helpers.js +415 -0
package/src/inference/browser-harness-suite-helpers.d.ts +28 -0
package/src/inference/browser-harness-suite-helpers.js +268 -0
package/src/inference/browser-harness-text-helpers.d.ts +27 -0
package/src/inference/browser-harness-text-helpers.js +788 -0
package/src/inference/browser-harness.d.ts +6 -0
package/src/inference/browser-harness.js +130 -1996
package/src/inference/kv-cache/base.js +140 -94
package/src/inference/kv-cache/tiered.js +5 -3
package/src/inference/moe-router.js +88 -56
package/src/inference/multi-model-network.js +5 -3
package/src/inference/network-evolution.d.ts +11 -2
package/src/inference/network-evolution.js +20 -21
package/src/inference/pipelines/context.d.ts +3 -0
package/src/inference/pipelines/context.js +142 -2
package/src/inference/pipelines/diffusion/helpers.js +7 -2
package/src/inference/pipelines/diffusion/pipeline.js +2 -1
package/src/inference/pipelines/diffusion/sd3-transformer.js +10 -10
package/src/inference/pipelines/diffusion/vae.js +3 -7
package/src/inference/pipelines/energy/pipeline.js +27 -21
package/src/inference/pipelines/energy/quintel.d.ts +5 -0
package/src/inference/pipelines/energy/quintel.js +11 -0
package/src/inference/pipelines/energy-head/row-head-pipeline.js +17 -13
package/src/inference/pipelines/structured/json-head-pipeline.js +26 -11
package/src/inference/pipelines/text/attention/projections.js +151 -101
package/src/inference/pipelines/text/attention/record.js +62 -8
package/src/inference/pipelines/text/attention/run.js +62 -8
package/src/inference/pipelines/text/config.js +3 -4
package/src/inference/pipelines/text/embed.js +2 -8
package/src/inference/pipelines/text/execution-plan.js +41 -19
package/src/inference/pipelines/text/execution-v0-contract-helpers.d.ts +59 -0
package/src/inference/pipelines/text/execution-v0-contract-helpers.js +937 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.d.ts +15 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.js +279 -0
package/src/inference/pipelines/text/execution-v0.js +62 -1013
package/src/inference/pipelines/text/generator-steps.d.ts +46 -0
package/src/inference/pipelines/text/generator-steps.js +298 -207
package/src/inference/pipelines/text/generator.js +6 -23
package/src/inference/pipelines/text/init.js +78 -20
package/src/inference/pipelines/text/kernel-path-auto-select.js +2 -0
package/src/inference/pipelines/text/kernel-trace.d.ts +2 -0
package/src/inference/pipelines/text/kernel-trace.js +6 -0
package/src/inference/pipelines/text/layer.js +3 -9
package/src/inference/pipelines/text/linear-attention.d.ts +10 -0
package/src/inference/pipelines/text/linear-attention.js +80 -6
package/src/inference/pipelines/text/logits/gpu.js +10 -5
package/src/inference/pipelines/text/logits/index.js +10 -11
package/src/inference/pipelines/text/logits/utils.d.ts +7 -0
package/src/inference/pipelines/text/logits/utils.js +9 -0
package/src/inference/pipelines/text/lora-apply.js +50 -32
package/src/inference/pipelines/text/model-load.js +279 -104
package/src/inference/pipelines/text/moe-cache.js +5 -4
package/src/inference/pipelines/text/moe-cpu-gptoss.js +74 -69
package/src/inference/pipelines/text/moe-cpu.js +42 -38
package/src/inference/pipelines/text/moe-gpu.js +110 -86
package/src/inference/pipelines/text/ops.js +90 -90
package/src/inference/pipelines/text/probes.js +9 -9
package/src/inference/pipelines/text/weights.js +17 -7
package/src/inference/pipelines/text.js +13 -1
package/src/inference/speculative.d.ts +2 -2
package/src/inference/speculative.js +4 -18
package/src/inference/test-harness.d.ts +1 -1
package/src/inference/test-harness.js +15 -5
package/src/inference/tokenizer.d.ts +0 -5
package/src/inference/tokenizer.js +4 -23
package/src/inference/tokenizers/bpe.js +9 -0
package/src/inference/tokenizers/bundled.js +20 -0
package/src/inference/tokenizers/sentencepiece.js +12 -0
package/src/loader/doppler-loader.js +38 -22
package/src/loader/dtype-utils.js +3 -44
package/src/loader/embedding-loader.js +7 -3
package/src/loader/experts/expert-cache.js +13 -6
package/src/loader/experts/expert-loader.js +10 -6
package/src/loader/final-weights-loader.js +8 -4
package/src/loader/layer-loader.js +2 -1
package/src/loader/loader-state.js +2 -2
package/src/loader/memory-monitor.js +8 -0
package/src/loader/multi-model-loader.d.ts +14 -0
package/src/loader/multi-model-loader.js +70 -24
package/src/loader/shard-cache.js +81 -12
package/src/loader/shard-resolver.js +25 -3
package/src/loader/tensors/tensor-loader.js +209 -144
package/src/loader/tensors/tensor-reader.js +76 -19
package/src/loader/weight-downcast.js +1 -1
package/src/memory/buffer-pool.d.ts +9 -1
package/src/memory/buffer-pool.js +109 -44
package/src/memory/unified-detect.js +1 -1
package/src/rules/inference/kernel-path.rules.json +24 -8
package/src/rules/rule-registry.js +25 -1
package/src/storage/backends/opfs-store.js +68 -24
package/src/storage/downloader.js +364 -83
package/src/storage/index.d.ts +3 -0
package/src/storage/index.js +3 -0
package/src/storage/preflight.d.ts +2 -2
package/src/storage/preflight.js +24 -2
package/src/storage/quickstart-downloader.js +11 -5
package/src/storage/registry.js +10 -4
package/src/storage/reports.js +1 -1
package/src/storage/shard-manager.d.ts +15 -1
package/src/storage/shard-manager.js +51 -3
package/src/storage/source-artifact-store.d.ts +52 -0
package/src/storage/source-artifact-store.js +234 -0
package/src/tooling/command-api-constants.d.ts +9 -0
package/src/tooling/command-api-constants.js +9 -0
package/src/tooling/command-api-family-normalizers.d.ts +9 -0
package/src/tooling/command-api-family-normalizers.js +343 -0
package/src/tooling/command-api-helpers.d.ts +25 -0
package/src/tooling/command-api-helpers.js +262 -0
package/src/tooling/command-api.js +16 -602
package/src/tooling/command-envelope.js +4 -1
package/src/tooling/command-runner-shared.js +52 -18
package/src/tooling/lean-execution-contract.js +150 -3
package/src/tooling/node-browser-command-runner.js +161 -271
package/src/tooling/node-command-runner.js +29 -3
package/src/tooling/node-converter.js +27 -1
package/src/tooling/node-source-runtime.d.ts +1 -1
package/src/tooling/node-source-runtime.js +84 -3
package/src/tooling/node-webgpu.js +24 -21
package/src/tooling/opfs-cache.js +21 -4
package/src/tooling/runtime-input-composition.d.ts +38 -0
package/src/tooling/runtime-input-composition.js +86 -0
package/src/tooling/source-runtime-bundle.d.ts +40 -5
package/src/tooling/source-runtime-bundle.js +261 -34
package/src/tooling/source-runtime-materializer.d.ts +6 -0
package/src/tooling/source-runtime-materializer.js +93 -0
package/src/training/attention-backward.js +32 -17
package/src/training/autograd.js +80 -52
package/src/training/checkpoint-watch.d.ts +2 -1
package/src/training/checkpoint-watch.js +39 -6
package/src/training/checkpoint.js +40 -11
package/src/training/clip.js +2 -1
package/src/training/datasets/token-batch.js +20 -8
package/src/training/distillation/checkpoint-watch.js +1 -0
package/src/training/distillation/student-fixture.d.ts +22 -0
package/src/training/distillation/student-fixture.js +846 -0
package/src/training/distillation/suite-data.d.ts +45 -0
package/src/training/distillation/suite-data.js +189 -0
package/src/training/lora-pipeline.js +4 -7
package/src/training/lora.js +26 -12
package/src/training/loss.js +5 -6
package/src/training/objectives/cross_entropy.js +2 -5
package/src/training/objectives/distill_kd.js +4 -8
package/src/training/objectives/distill_triplet.js +4 -8
package/src/training/objectives/ul_stage2_base.js +4 -8
package/src/training/operator-command.js +2 -0
package/src/training/optimizer.js +19 -7
package/src/training/runner.js +2 -1
package/src/training/suite.js +18 -978
package/src/training/tensor-factory.d.ts +9 -0
package/src/training/tensor-factory.js +13 -0
package/src/training/trainer.js +3 -5
package/src/training/ul_dataset.js +3 -5
package/src/training/workloads.js +70 -79
package/src/version.js +1 -1
package/tools/convert-safetensors-node.js +22 -16
package/tools/doppler-cli.js +44 -25

package/src/inference/kv-cache/base.js CHANGED Viewed

@@ -3,6 +3,7 @@
 import { getDevice } from '../../gpu/device.js';
 import { allowReadback } from '../../gpu/perf-guards.js';
 import { log } from '../../debug/index.js';
+import { readBuffer } from '../../memory/buffer-pool.js';
 import {
   isContiguousLayer,
   isPagedLayer,
@@ -815,8 +816,52 @@ export class KVCache {
     }
   }
+  _destroyGpuBuffer(buffer) {
+    if (!buffer) return;
+    try {
+      buffer.destroy();
+    } catch {
+      // Ignore already-destroyed buffers during rollback.
+    }
+  }
+  _snapshotLayerGpuState(layer) {
+    return {
+      keysGPU: layer.keysGPU ?? null,
+      valuesGPU: layer.valuesGPU ?? null,
+      pageTableGPU: layer.pageTableGPU ?? null,
+    };
+  }
+  _rollbackMigratedLayers(snapshots) {
+    for (let l = 0; l < this.numLayers; l++) {
+      const layer = this.layers[l];
+      const snapshot = snapshots[l];
+      if (!snapshot) continue;
+      if (layer.keysGPU && layer.keysGPU !== snapshot.keysGPU) {
+        this._destroyGpuBuffer(layer.keysGPU);
+      }
+      if (layer.valuesGPU && layer.valuesGPU !== snapshot.valuesGPU) {
+        this._destroyGpuBuffer(layer.valuesGPU);
+      }
+      if (layer.pageTableGPU && layer.pageTableGPU !== snapshot.pageTableGPU) {
+        this._destroyGpuBuffer(layer.pageTableGPU);
+      }
+      layer.keysGPU = snapshot.keysGPU;
+      layer.valuesGPU = snapshot.valuesGPU;
+      if ('pageTableGPU' in layer) {
+        layer.pageTableGPU = snapshot.pageTableGPU;
+      }
+    }
+  }
   _migrateToGPU(device) {
+    const snapshots = this.layers.map((layer) => this._snapshotLayerGpuState(layer));
+    try {
     if (this.layout === 'paged') {
       log.info('KVCache', `Migrating ${this.currentSeqLen} positions to GPU (paged)...`);
       const numPages = Math.ceil(this.maxSeqLen / this.pageSize);
@@ -826,56 +871,66 @@ export class KVCache {
       for (let l = 0; l < this.numLayers; l++) {
         const layer =  (this.layers[l]);
-        if (!layer.keysGPU) {
-          layer.keysGPU = device.createBuffer({
+        let keysGPU = null;
+        let valuesGPU = null;
+        let pageTableGPU = null;
+        try {
+          keysGPU = device.createBuffer({
             label: `kv_cache_keys_paged_layer_${l}`,
             size: bytesPerLayer,
             usage: GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_DST | GPUBufferUsage.COPY_SRC,
           });
-        }
-        if (!layer.valuesGPU) {
-          layer.valuesGPU = device.createBuffer({
+          valuesGPU = device.createBuffer({
             label: `kv_cache_values_paged_layer_${l}`,
             size: bytesPerLayer,
             usage: GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_DST | GPUBufferUsage.COPY_SRC,
           });
-        }
-        if (!layer.pageTable) {
-          layer.pageTable = new Uint32Array(numPages);
-          for (let i = 0; i < numPages; i++) {
-            layer.pageTable[i] = i;
+          if (!layer.pageTable) {
+            layer.pageTable = new Uint32Array(numPages);
+            for (let i = 0; i < numPages; i++) {
+              layer.pageTable[i] = i;
+            }
           }
-        }
-        if (!layer.pageTableGPU) {
-          layer.pageTableGPU = device.createBuffer({
+          pageTableGPU = device.createBuffer({
             label: `kv_cache_page_table_layer_${l}`,
             size: pageTableBytes,
             usage: GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_DST,
           });
-        }
-        device.queue.writeBuffer(layer.pageTableGPU, 0, layer.pageTable);
-        const allocatedPages = layer.allocatedPages ?? 0;
-        if (allocatedPages > 0) {
-          const pageElems = this.pageSize * this.kvSize;
-          const pageBytes = pageElems * this.bytesPerElem;
-          for (let p = 0; p < allocatedPages; p++) {
-            const keyPage = layer.keyPages?.[p];
-            const valuePage = layer.valuePages?.[p];
-            if (!keyPage || !valuePage) continue;
-            const byteOffset = p * pageBytes;
-            if (this.kvDtype === 'f16') {
-              const keysF16 = f32ToF16Array(keyPage);
-              const valuesF16 = f32ToF16Array(valuePage);
-              device.queue.writeBuffer(layer.keysGPU, byteOffset, keysF16);
-              device.queue.writeBuffer(layer.valuesGPU, byteOffset, valuesF16);
-            } else {
-              device.queue.writeBuffer(layer.keysGPU, byteOffset, keyPage);
-              device.queue.writeBuffer(layer.valuesGPU, byteOffset, valuePage);
+          device.queue.writeBuffer(pageTableGPU, 0, layer.pageTable);
+          const allocatedPages = layer.allocatedPages ?? 0;
+          if (allocatedPages > 0) {
+            const pageElems = this.pageSize * this.kvSize;
+            const pageBytes = pageElems * this.bytesPerElem;
+            for (let p = 0; p < allocatedPages; p++) {
+              const keyPage = layer.keyPages?.[p];
+              const valuePage = layer.valuePages?.[p];
+              if (!keyPage || !valuePage) continue;
+              const byteOffset = p * pageBytes;
+              if (this.kvDtype === 'f16') {
+                const keysF16 = f32ToF16Array(keyPage);
+                const valuesF16 = f32ToF16Array(valuePage);
+                device.queue.writeBuffer(keysGPU, byteOffset, keysF16);
+                device.queue.writeBuffer(valuesGPU, byteOffset, valuesF16);
+              } else {
+                device.queue.writeBuffer(keysGPU, byteOffset, keyPage);
+                device.queue.writeBuffer(valuesGPU, byteOffset, valuePage);
+              }
             }
           }
+          this._destroyGpuBuffer(layer.keysGPU);
+          this._destroyGpuBuffer(layer.valuesGPU);
+          this._destroyGpuBuffer(layer.pageTableGPU);
+          layer.keysGPU = keysGPU;
+          layer.valuesGPU = valuesGPU;
+          layer.pageTableGPU = pageTableGPU;
+        } catch (error) {
+          this._destroyGpuBuffer(keysGPU);
+          this._destroyGpuBuffer(valuesGPU);
+          this._destroyGpuBuffer(pageTableGPU);
+          throw error;
         }
       }
@@ -890,53 +945,64 @@ export class KVCache {
     for (let l = 0; l < this.numLayers; l++) {
       const layer =  (this.layers[l]);
-      // Create GPU buffers if they don't exist
-      if (!layer.keysGPU) {
-        layer.keysGPU = device.createBuffer({
+      let keysGPU = null;
+      let valuesGPU = null;
+      try {
+        keysGPU = device.createBuffer({
           label: `kv_cache_keys_layer_${l}`,
           size: bytesPerLayer,
           usage: GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_DST | GPUBufferUsage.COPY_SRC,
         });
-      }
-      if (!layer.valuesGPU) {
-        layer.valuesGPU = device.createBuffer({
+        valuesGPU = device.createBuffer({
           label: `kv_cache_values_layer_${l}`,
           size: bytesPerLayer,
           usage: GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_DST | GPUBufferUsage.COPY_SRC,
         });
-      }
-      // Upload existing CPU data to GPU
-      const usedElems = layer.seqLen * this.kvSize;
-      const usedSize = usedElems * this.bytesPerElem;
-      if (usedSize > 0) {
-        if (this.kvDtype === 'f16') {
-          const keysF16 = f32ToF16Array(layer.keys.subarray(0, usedElems));
-          const valuesF16 = f32ToF16Array(layer.values.subarray(0, usedElems));
-          device.queue.writeBuffer(layer.keysGPU, 0, keysF16);
-          device.queue.writeBuffer(layer.valuesGPU, 0, valuesF16);
-        } else {
-          device.queue.writeBuffer(
-            layer.keysGPU,
-            0,
-            layer.keys.buffer,
-            layer.keys.byteOffset,
-            usedSize
-          );
-          device.queue.writeBuffer(
-            layer.valuesGPU,
-            0,
-            layer.values.buffer,
-            layer.values.byteOffset,
-            usedSize
-          );
+        // Upload existing CPU data to GPU
+        const usedElems = layer.seqLen * this.kvSize;
+        const usedSize = usedElems * this.bytesPerElem;
+        if (usedSize > 0) {
+          if (this.kvDtype === 'f16') {
+            const keysF16 = f32ToF16Array(layer.keys.subarray(0, usedElems));
+            const valuesF16 = f32ToF16Array(layer.values.subarray(0, usedElems));
+            device.queue.writeBuffer(keysGPU, 0, keysF16);
+            device.queue.writeBuffer(valuesGPU, 0, valuesF16);
+          } else {
+            device.queue.writeBuffer(
+              keysGPU,
+              0,
+              layer.keys.buffer,
+              layer.keys.byteOffset,
+              usedSize
+            );
+            device.queue.writeBuffer(
+              valuesGPU,
+              0,
+              layer.values.buffer,
+              layer.values.byteOffset,
+              usedSize
+            );
+          }
         }
+        this._destroyGpuBuffer(layer.keysGPU);
+        this._destroyGpuBuffer(layer.valuesGPU);
+        layer.keysGPU = keysGPU;
+        layer.valuesGPU = valuesGPU;
+      } catch (error) {
+        this._destroyGpuBuffer(keysGPU);
+        this._destroyGpuBuffer(valuesGPU);
+        throw error;
       }
     }
     this.useGPU = true;
     log.info('KVCache', 'Migration complete');
+    } catch (error) {
+      this._rollbackMigratedLayers(snapshots);
+      throw error;
+    }
   }
@@ -962,44 +1028,24 @@ export class KVCache {
         layer.values = new Float32Array(sizePerLayer);
       }
-      // Create staging buffers for readback
-      const keysStaging = device.createBuffer({
-        size: usedSize,
-        usage: GPUBufferUsage.MAP_READ | GPUBufferUsage.COPY_DST,
-      });
-      const valuesStaging = device.createBuffer({
-        size: usedSize,
-        usage: GPUBufferUsage.MAP_READ | GPUBufferUsage.COPY_DST,
-      });
-      // Copy from GPU cache to staging
-      const encoder = device.createCommandEncoder({ label: 'kv_cache_sync' });
-      encoder.copyBufferToBuffer(layer.keysGPU, 0, keysStaging, 0, usedSize);
-      encoder.copyBufferToBuffer(layer.valuesGPU, 0, valuesStaging, 0, usedSize);
-      device.queue.submit([encoder.finish()]);
-      // Map and copy to CPU arrays
-      await keysStaging.mapAsync(GPUMapMode.READ);
-      await valuesStaging.mapAsync(GPUMapMode.READ);
+      const [keysBytes, valuesBytes] = await Promise.all([
+        readBuffer(layer.keysGPU, usedSize),
+        readBuffer(layer.valuesGPU, usedSize),
+      ]);
       if (this.kvDtype === 'f16') {
-        const keysRaw = new Uint16Array(keysStaging.getMappedRange().slice(0));
-        const valuesRaw = new Uint16Array(valuesStaging.getMappedRange().slice(0));
+        const keysRaw = new Uint16Array(keysBytes);
+        const valuesRaw = new Uint16Array(valuesBytes);
         const keysData = f16ToF32Array(keysRaw);
         const valuesData = f16ToF32Array(valuesRaw);
         layer.keys.set(keysData);
         layer.values.set(valuesData);
       } else {
-        const keysData = new Float32Array(keysStaging.getMappedRange().slice(0));
-        const valuesData = new Float32Array(valuesStaging.getMappedRange().slice(0));
+        const keysData = new Float32Array(keysBytes);
+        const valuesData = new Float32Array(valuesBytes);
         layer.keys.set(keysData);
         layer.values.set(valuesData);
       }
-      keysStaging.unmap();
-      valuesStaging.unmap();
-      keysStaging.destroy();
-      valuesStaging.destroy();
     }
   }

package/src/inference/kv-cache/tiered.js CHANGED Viewed

@@ -60,7 +60,7 @@ export class TieredKVCache {
       : (tiering.mode === 'int4' ? 'int4' : 'none');
     this.compression = tiering.compression ?? { mode: defaultCompressionMode, blockSize: 1 };
-    this.gating = tiering.gating ?? { mode: 'auto', minAluBwRatio: 0.0 };
+    this.gating = tiering.gating ?? { mode: 'force_off', minAluBwRatio: 0.0 };
     this.currentSeqLen = 0;
@@ -145,8 +145,10 @@ export class TieredKVCache {
     if (gating?.mode === 'force_off') return 'none';
     if (gating?.mode === 'force_on') return requested;
     if (gating?.mode === 'auto' && gating.minAluBwRatio > 0) {
-      const ratio = 1.0;
-      if (ratio < gating.minAluBwRatio) return 'none';
+      throw new Error(
+        'TieredKVCache auto compression gating requires an explicit measured ALU/BW ratio. ' +
+        'Use gating.mode="force_on"/"force_off" or set minAluBwRatio to 0.'
+      );
     }
     return requested;
   }

package/src/inference/moe-router.js CHANGED Viewed

@@ -8,6 +8,9 @@ import { createTensor } from '../gpu/tensor.js';
 import { f16ToF32Array } from './kv-cache/types.js';
 import { selectRuleValue } from '../rules/rule-registry.js';
+function isGpuBufferInstance(value) {
+  return typeof GPUBuffer !== 'undefined' && value instanceof GPUBuffer;
+}
@@ -84,6 +87,12 @@ export class MoERouter {
   loadWeights(weights, bias = null) {
+    if (this._gateBiasGPU) {
+      this._gateBiasGPU.destroy();
+    }
+    if (this._gateWeightGPU) {
+      this._gateWeightGPU.destroy();
+    }
     this.gateWeight = weights;
     this.gateBias = bias;
     // Clear cached GPU uploads when swapping router parameters (e.g., per-layer routers).
@@ -91,13 +100,27 @@ export class MoERouter {
     this._gateWeightGPU = null;
   }
+  destroy() {
+    if (isGpuBufferInstance(this._gateBiasGPU)) {
+      this._gateBiasGPU.destroy();
+    }
+    if (isGpuBufferInstance(this._gateWeightGPU)) {
+      this._gateWeightGPU.destroy();
+    }
+    this._gateBiasGPU = null;
+    this._gateWeightGPU = null;
+    this.gateWeight = null;
+    this.gateBias = null;
+    this._biasAddPipelines.clear();
+  }
   computeRouterLogitsCPU(hiddenStates, numTokens) {
     if (!this.gateWeight) {
       throw new Error('Router gate weights not loaded');
     }
-    if (this.gateWeight instanceof GPUBuffer || isWeightBuffer(this.gateWeight)) {
+    if (isGpuBufferInstance(this.gateWeight) || isWeightBuffer(this.gateWeight)) {
       throw new Error('Gate weights are on GPU, use computeRouterLogitsGPU instead');
     }
@@ -140,13 +163,18 @@ export class MoERouter {
     if (!gateWeightBuffer) {
       throw new Error('Router gate weights not loaded');
     }
-    if (!isWeightBuffer(gateWeightBuffer) && !(gateWeightBuffer instanceof GPUBuffer)) {
+    if (!isWeightBuffer(gateWeightBuffer) && !isGpuBufferInstance(gateWeightBuffer)) {
       const uploaded = device.createBuffer({
         label: 'moe_gate_weight',
         size: gateWeightBuffer.byteLength,
         usage: GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_DST,
       });
-      device.queue.writeBuffer(uploaded, 0,  (gateWeightBuffer));
+      try {
+        device.queue.writeBuffer(uploaded, 0, gateWeightBuffer);
+      } catch (error) {
+        uploaded.destroy();
+        throw error;
+      }
       this._gateWeightGPU = uploaded;
       this.gateWeight = uploaded;
       gateWeightBuffer = uploaded;
@@ -186,7 +214,7 @@ export class MoERouter {
   async _getGateBiasBuffer(device) {
-    if (this.gateBias instanceof GPUBuffer) return this.gateBias;
+    if (isGpuBufferInstance(this.gateBias)) return this.gateBias;
     if (this._gateBiasGPU) return this._gateBiasGPU;
     if (!(this.gateBias instanceof Float32Array)) {
@@ -198,7 +226,12 @@ export class MoERouter {
       size: this.gateBias.byteLength,
       usage: GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_DST,
     });
-    device.queue.writeBuffer(buf, 0,  (this.gateBias));
+    try {
+      device.queue.writeBuffer(buf, 0, this.gateBias);
+    } catch (error) {
+      buf.destroy();
+      throw error;
+    }
     this._gateBiasGPU = buf;
     return buf;
   }
@@ -206,7 +239,7 @@ export class MoERouter {
   _inferBiasDtype(bias) {
     if (bias instanceof Float32Array) return 'f32';
-    if (bias instanceof GPUBuffer) {
+    if (isGpuBufferInstance(bias)) {
       const bytesPerElement = Math.round(bias.size / this.numExperts);
       return selectRuleValue('inference', 'dtype', 'f16OrF32FromBytes', { bytesPerElement });
     }
@@ -276,65 +309,64 @@ export class MoERouter {
       size: 16,
       usage: GPUBufferUsage.UNIFORM | GPUBufferUsage.COPY_DST,
     });
-    device.queue.writeBuffer(uniformBuffer, 0, uniformData);
-    const bindGroup = device.createBindGroup({
-      layout: pipeline.getBindGroupLayout(0),
-      entries: [
-        { binding: 0, resource: { buffer: uniformBuffer } },
-        { binding: 1, resource: { buffer: logits } },
-        { binding: 2, resource: { buffer: bias } },
-      ],
-    });
-    const encoder = device.createCommandEncoder({ label: 'moe_router_bias_add_encoder' });
-    const pass = encoder.beginComputePass({ label: 'moe_router_bias_add_pass' });
-    pass.setPipeline(pipeline);
-    pass.setBindGroup(0, bindGroup);
-    const total = numTokens * this.numExperts;
-    pass.dispatchWorkgroups(Math.ceil(total / 256));
-    pass.end();
-    device.queue.submit([encoder.finish()]);
+    try {
+      device.queue.writeBuffer(uniformBuffer, 0, uniformData);
+      const bindGroup = device.createBindGroup({
+        layout: pipeline.getBindGroupLayout(0),
+        entries: [
+          { binding: 0, resource: { buffer: uniformBuffer } },
+          { binding: 1, resource: { buffer: logits } },
+          { binding: 2, resource: { buffer: bias } },
+        ],
+      });
-    uniformBuffer.destroy();
+      const encoder = device.createCommandEncoder({ label: 'moe_router_bias_add_encoder' });
+      const pass = encoder.beginComputePass({ label: 'moe_router_bias_add_pass' });
+      pass.setPipeline(pipeline);
+      pass.setBindGroup(0, bindGroup);
+      const total = numTokens * this.numExperts;
+      pass.dispatchWorkgroups(Math.ceil(total / 256));
+      pass.end();
+      device.queue.submit([encoder.finish()]);
+    } finally {
+      uniformBuffer.destroy();
+    }
   }
   async routeGPU(hiddenStates, numTokens) {
     // Compute router logits on GPU
     const logitsBuffer = await this.computeRouterLogitsGPU(hiddenStates, numTokens);
-    // Read back logits to CPU for top-k selection
-    // (GPU top-k is complex and not always faster for small numExperts)
-    const logitsData = await readBuffer(logitsBuffer);
-    const logits = this.lastLogitsDtype === 'f16'
-      ? f16ToF32Array(new Uint16Array(logitsData))
-      : new Float32Array(logitsData);
-    const selections = [];
-    this.activeExperts.clear();
-    for (let t = 0; t < numTokens; t++) {
-      const tokenLogits = logits.subarray(
-        t * this.numExperts,
-        (t + 1) * this.numExperts
-      );
-      const selection = this.selectExpertsForToken(tokenLogits);
-      selections.push(selection);
-      for (const idx of selection.indices) {
-        this.activeExperts.add(idx);
-        this.loadBalanceStats.expertCounts[idx]++;
+    try {
+      const logitsData = await readBuffer(logitsBuffer);
+      const logits = this.lastLogitsDtype === 'f16'
+        ? f16ToF32Array(new Uint16Array(logitsData))
+        : new Float32Array(logitsData);
+      const selections = [];
+      this.activeExperts.clear();
+      for (let t = 0; t < numTokens; t++) {
+        const tokenLogits = logits.subarray(
+          t * this.numExperts,
+          (t + 1) * this.numExperts
+        );
+        const selection = this.selectExpertsForToken(tokenLogits);
+        selections.push(selection);
+        for (const idx of selection.indices) {
+          this.activeExperts.add(idx);
+          this.loadBalanceStats.expertCounts[idx]++;
+        }
+        this.loadBalanceStats.totalTokens++;
       }
-      this.loadBalanceStats.totalTokens++;
-    }
-    // Clean up logits buffer
-    releaseBuffer(logitsBuffer);
-    return selections;
+      return selections;
+    } finally {
+      releaseBuffer(logitsBuffer);
+    }
   }

package/src/inference/multi-model-network.js CHANGED Viewed

@@ -4,9 +4,10 @@ import { ExpertRouter } from './expert-router.js';
 import { MultiModelRecorder } from '../gpu/multi-model-recorder.js';
 import { applyRepetitionPenalty, sample, getTopK } from './pipelines/text/sampling.js';
 import { finalizeLogits, extractLastPositionLogits } from './pipelines/text/logits/index.js';
+import { readBufferWithCleanup } from './pipelines/text/logits/utils.js';
 import { isStopToken } from './pipelines/text/init.js';
 import { mergeMultipleLogits } from '../gpu/kernels/logit-merge.js';
-import { releaseBuffer, readBuffer } from '../memory/buffer-pool.js';
+import { releaseBuffer } from '../memory/buffer-pool.js';
 const MIN_AGREEMENT_WEIGHT = 1e-4;
@@ -478,8 +479,9 @@ export class MultiModelNetwork {
       if (canMergeOnGpu) {
         const buffers = voterResults.map((result) => result.logitsBuffer);
         const mergedBuffer = await mergeMultipleLogits(buffers, rawVocabSize, normalizedWeights, 1.0);
-        const mergedData = await readBuffer(mergedBuffer, rawVocabSize * 4);
-        releaseBuffer(mergedBuffer);
+        const mergedData = await readBufferWithCleanup(mergedBuffer, rawVocabSize * 4, () => {
+          releaseBuffer(mergedBuffer);
+        });
         const rawMerged = new Float32Array(mergedData);
         const finalized = await finalizeLogits(
           rawMerged,

package/src/inference/network-evolution.d.ts CHANGED Viewed

@@ -35,12 +35,21 @@ export interface EvolutionConfig {
   generations?: number;
   eliteCount?: number;
   mutationRate?: number;
+  random: () => number;
   evaluate: (genome: NetworkGenome) => Promise<number>;
   randomGenome: () => NetworkGenome;
 }
-export declare const mutateGenome: (genome: NetworkGenome, mutationRate?: number) => NetworkGenome;
+export declare const mutateGenome: (
+  genome: NetworkGenome,
+  mutationRate?: number,
+  random?: (() => number) | null
+) => NetworkGenome;
-export declare const crossoverGenome: (a: NetworkGenome, b: NetworkGenome) => NetworkGenome;
+export declare const crossoverGenome: (
+  a: NetworkGenome,
+  b: NetworkGenome,
+  random?: (() => number) | null
+) => NetworkGenome;
 export declare function evolveNetwork(config: EvolutionConfig): Promise<NetworkGenome>;