npm - @simulatte/doppler - Versions diffs - 0.1.6 → 0.1.8 - Mend

@simulatte/doppler 0.1.6 → 0.1.8

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (355) hide show

package/CHANGELOG.md +145 -0
package/README.md +16 -23
package/package.json +30 -32
package/src/adapters/adapter-registry.js +12 -1
package/src/adapters/lora-loader.js +23 -6
package/src/bridge/extension-client.d.ts +5 -0
package/src/bridge/extension-client.js +40 -0
package/src/bridge/index.d.ts +2 -1
package/src/bridge/index.js +6 -4
package/src/browser/browser-converter.js +31 -1
package/src/browser/file-picker.js +6 -0
package/src/browser/safetensors-parser-browser.js +84 -1
package/src/browser/shard-io-browser.js +2 -2
package/src/browser/tensor-source-download.js +8 -2
package/src/browser/tensor-source-http.d.ts +1 -0
package/src/browser/tensor-source-http.js +5 -1
package/src/client/doppler-api.browser.js +20 -4
package/src/client/doppler-api.js +19 -3
package/src/client/doppler-provider/generation.js +12 -0
package/src/client/doppler-provider/model-manager.d.ts +10 -0
package/src/client/doppler-provider/model-manager.js +91 -19
package/src/client/doppler-provider/source-runtime.d.ts +2 -1
package/src/client/doppler-provider/source-runtime.js +132 -13
package/src/client/doppler-registry.json +5 -20
package/src/config/backward-registry-loader.js +17 -2
package/src/config/execution-v0-contract-check.js +113 -15
package/src/config/kernel-path-contract-check.js +57 -29
package/src/config/kernel-path-loader.d.ts +5 -0
package/src/config/kernel-path-loader.js +18 -36
package/src/config/kernels/kernel-ref-digests.js +1 -1
package/src/config/kernels/registry.js +14 -1
package/src/config/kernels/registry.json +81 -5
package/src/config/loader.d.ts +1 -1
package/src/config/loader.js +15 -2
package/src/config/merge-contract-check.js +66 -4
package/src/config/merge-helpers.js +128 -7
package/src/config/merge.d.ts +1 -0
package/src/config/merge.js +10 -0
package/src/config/param-validator.js +47 -2
package/src/config/presets/kernel-paths/{gemma2-q4k-dequant-f32a.json → gemma2-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/gemma3-f16-fused-f32a-online-streamingprefill.json +223 -0
package/src/config/presets/kernel-paths/{gemma3-q4k-dequant-f32a.json → gemma3-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32w-f32a-online.json +56 -0
package/src/config/presets/kernel-paths/lfm2-q4k-dequant-f32a-nosubgroups.json +61 -0
package/src/config/presets/kernel-paths/registry.json +43 -8
package/src/config/presets/models/gemma2.json +3 -2
package/src/config/presets/models/gemma3.json +2 -0
package/src/config/presets/models/qwen3.json +4 -3
package/src/config/presets/models/qwen3_5.json +16 -0
package/src/config/presets/runtime/experiments/bench/gemma3-bench-q4k.json +1 -1
package/src/config/presets/runtime/experiments/debug/gemma3-debug-q4k.json +1 -1
package/src/config/presets/runtime/experiments/verify/gemma3-verify.json +1 -1
package/src/config/presets/runtime/kernels/dequant-f16-q4k.json +6 -13
package/src/config/presets/runtime/kernels/dequant-f32-q4k.json +6 -13
package/src/config/presets/runtime/kernels/embeddinggemma-q4k-dequant-f32a.json +37 -0
package/src/config/presets/runtime/kernels/fused-q4k.json +6 -13
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f16a.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f32a-nosubgroups.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-fused-f32a.json +33 -0
package/src/config/presets/runtime/kernels/safe-q4k.json +6 -13
package/src/config/presets/runtime/model/qwen3-5-layer-probe.json +52 -0
package/src/config/presets/runtime/model/qwen3-5-linear-attn-debug.json +90 -0
package/src/config/presets/runtime/platform/metal-apple-q4k.json +1 -1
package/src/config/runtime.js +6 -1
package/src/config/schema/conversion.schema.d.ts +1 -0
package/src/config/schema/debug.schema.d.ts +5 -0
package/src/config/schema/doppler.schema.js +16 -21
package/src/config/schema/inference-defaults.schema.js +3 -3
package/src/config/schema/kernel-path.schema.d.ts +5 -1
package/src/config/schema/kernel-thresholds.schema.js +12 -4
package/src/config/schema/manifest.schema.d.ts +3 -2
package/src/config/schema/manifest.schema.js +17 -4
package/src/config/schema/storage.schema.js +1 -1
package/src/config/training-defaults.js +30 -22
package/src/converter/conversion-plan.js +104 -11
package/src/converter/core.d.ts +7 -0
package/src/converter/core.js +16 -9
package/src/converter/execution-v0-manifest.js +4 -1
package/src/converter/index.d.ts +1 -0
package/src/converter/index.js +1 -0
package/src/converter/manifest-inference.js +50 -29
package/src/converter/parsers/diffusion.js +0 -3
package/src/converter/parsers/transformer.js +4 -0
package/src/converter/quantization-info.js +40 -16
package/src/converter/quantizer.js +19 -12
package/src/converter/rope-config.js +8 -6
package/src/converter/shard-packer.d.ts +1 -1
package/src/converter/shard-packer.js +4 -1
package/src/converter/tokenizer-utils.d.ts +1 -0
package/src/converter/tokenizer-utils.js +4 -1
package/src/debug/config.js +123 -11
package/src/debug/reference/hf_qwen35_linear_attn_debug.py +268 -0
package/src/debug/signals.js +7 -1
package/src/debug/tensor.d.ts +2 -0
package/src/debug/tensor.js +13 -2
package/src/distribution/p2p-control-plane.js +52 -12
package/src/distribution/p2p-observability.js +43 -7
package/src/distribution/p2p-webrtc-browser.js +20 -0
package/src/distribution/shard-delivery.js +83 -27
package/src/formats/gguf/types.js +33 -16
package/src/formats/rdrr/groups.d.ts +12 -4
package/src/formats/rdrr/groups.js +3 -6
package/src/formats/rdrr/parsing.d.ts +4 -0
package/src/formats/rdrr/parsing.js +53 -3
package/src/formats/rdrr/types.d.ts +2 -1
package/src/gpu/command-recorder.js +86 -61
package/src/gpu/device.d.ts +1 -0
package/src/gpu/device.js +73 -19
package/src/gpu/kernel-tuner/benchmarks.js +326 -316
package/src/gpu/kernel-tuner/cache.js +71 -4
package/src/gpu/kernel-tuner/tuner.js +22 -4
package/src/gpu/kernels/attention.js +15 -34
package/src/gpu/kernels/backward/adam.js +62 -58
package/src/gpu/kernels/backward/attention_backward.js +257 -169
package/src/gpu/kernels/backward/conv2d_backward.js +14 -1
package/src/gpu/kernels/cast.js +191 -149
package/src/gpu/kernels/check-stop.js +33 -44
package/src/gpu/kernels/conv2d.js +27 -17
package/src/gpu/kernels/cross_entropy_loss.js +21 -15
package/src/gpu/kernels/depthwise_conv2d.js +36 -26
package/src/gpu/kernels/dequant.js +178 -126
package/src/gpu/kernels/energy.d.ts +3 -21
package/src/gpu/kernels/energy.js +111 -88
package/src/gpu/kernels/feature-check.js +1 -1
package/src/gpu/kernels/fused_ffn.js +84 -65
package/src/gpu/kernels/fused_matmul_residual.js +56 -33
package/src/gpu/kernels/fused_matmul_rmsnorm.js +62 -45
package/src/gpu/kernels/gather.js +33 -15
package/src/gpu/kernels/gelu.js +19 -11
package/src/gpu/kernels/grouped_pointwise_conv2d.js +33 -23
package/src/gpu/kernels/groupnorm.js +34 -23
package/src/gpu/kernels/index.d.ts +8 -0
package/src/gpu/kernels/index.js +6 -0
package/src/gpu/kernels/kv-quantize.js +5 -2
package/src/gpu/kernels/layernorm.js +35 -19
package/src/gpu/kernels/logit-merge.js +5 -3
package/src/gpu/kernels/matmul-selection.js +47 -4
package/src/gpu/kernels/matmul.d.ts +2 -0
package/src/gpu/kernels/matmul.js +59 -40
package/src/gpu/kernels/modulate.js +23 -15
package/src/gpu/kernels/moe.js +221 -175
package/src/gpu/kernels/pixel_shuffle.js +22 -14
package/src/gpu/kernels/relu.js +18 -10
package/src/gpu/kernels/repeat_channels.js +25 -17
package/src/gpu/kernels/residual.js +37 -27
package/src/gpu/kernels/rmsnorm.js +66 -43
package/src/gpu/kernels/rope.js +3 -0
package/src/gpu/kernels/sample.js +27 -38
package/src/gpu/kernels/sana_linear_attention.js +18 -10
package/src/gpu/kernels/scale.js +18 -11
package/src/gpu/kernels/shader-cache.js +4 -2
package/src/gpu/kernels/silu.js +120 -72
package/src/gpu/kernels/softmax.js +44 -25
package/src/gpu/kernels/split_qg.d.ts +50 -0
package/src/gpu/kernels/split_qg.js +46 -0
package/src/gpu/kernels/split_qg.wgsl +58 -0
package/src/gpu/kernels/split_qg_f16.wgsl +62 -0
package/src/gpu/kernels/split_qkv.js +23 -13
package/src/gpu/kernels/transpose.js +18 -10
package/src/gpu/kernels/transpose.wgsl +5 -3
package/src/gpu/kernels/upsample2d.js +21 -13
package/src/gpu/kernels/utils.js +20 -13
package/src/gpu/partitioned-buffer-pool.js +10 -2
package/src/gpu/perf-guards.js +2 -9
package/src/gpu/profiler.js +27 -22
package/src/gpu/readback-utils.d.ts +16 -0
package/src/gpu/readback-utils.js +41 -0
package/src/gpu/submit-tracker.js +13 -0
package/src/gpu/uniform-cache.d.ts +1 -0
package/src/gpu/uniform-cache.js +30 -9
package/src/gpu/weight-buffer.d.ts +1 -1
package/src/gpu/weight-buffer.js +1 -1
package/src/hotswap/intent-bundle.js +6 -0
package/src/hotswap/manifest.d.ts +10 -1
package/src/hotswap/manifest.js +12 -2
package/src/hotswap/runtime.js +30 -8
package/src/index-browser.d.ts +44 -0
package/src/index-browser.js +14 -0
package/src/inference/browser-harness-contract-helpers.d.ts +5 -0
package/src/inference/browser-harness-contract-helpers.js +28 -0
package/src/inference/browser-harness-diffusion-energy-suites.d.ts +2 -0
package/src/inference/browser-harness-diffusion-energy-suites.js +269 -0
package/src/inference/browser-harness-model-helpers.d.ts +16 -0
package/src/inference/browser-harness-model-helpers.js +217 -0
package/src/inference/browser-harness-report-helpers.d.ts +7 -0
package/src/inference/browser-harness-report-helpers.js +42 -0
package/src/inference/browser-harness-runtime-helpers.d.ts +61 -0
package/src/inference/browser-harness-runtime-helpers.js +415 -0
package/src/inference/browser-harness-suite-helpers.d.ts +28 -0
package/src/inference/browser-harness-suite-helpers.js +268 -0
package/src/inference/browser-harness-text-helpers.d.ts +27 -0
package/src/inference/browser-harness-text-helpers.js +788 -0
package/src/inference/browser-harness.d.ts +8 -0
package/src/inference/browser-harness.js +149 -1996
package/src/inference/kv-cache/base.js +140 -94
package/src/inference/kv-cache/tiered.js +5 -3
package/src/inference/moe-router.js +88 -56
package/src/inference/multi-model-network.js +5 -3
package/src/inference/network-evolution.d.ts +11 -2
package/src/inference/network-evolution.js +20 -21
package/src/inference/pipelines/context.d.ts +3 -0
package/src/inference/pipelines/context.js +142 -2
package/src/inference/pipelines/diffusion/helpers.js +10 -2
package/src/inference/pipelines/diffusion/pipeline.js +2 -1
package/src/inference/pipelines/diffusion/sd3-transformer.js +10 -10
package/src/inference/pipelines/diffusion/text-encoder-gpu.js +8 -2
package/src/inference/pipelines/diffusion/vae.js +3 -7
package/src/inference/pipelines/energy/pipeline.js +27 -21
package/src/inference/pipelines/energy/quintel.d.ts +5 -0
package/src/inference/pipelines/energy/quintel.js +11 -0
package/src/inference/pipelines/energy-head/row-head-pipeline.js +17 -13
package/src/inference/pipelines/structured/json-head-pipeline.js +26 -11
package/src/inference/pipelines/text/attention/output-projection.d.ts +12 -0
package/src/inference/pipelines/text/attention/output-projection.js +8 -0
package/src/inference/pipelines/text/attention/projections.d.ts +10 -1
package/src/inference/pipelines/text/attention/projections.js +192 -112
package/src/inference/pipelines/text/attention/record.js +77 -14
package/src/inference/pipelines/text/attention/run.js +112 -14
package/src/inference/pipelines/text/config.js +17 -4
package/src/inference/pipelines/text/embed.js +2 -8
package/src/inference/pipelines/text/execution-plan.js +46 -23
package/src/inference/pipelines/text/execution-v0-contract-helpers.d.ts +59 -0
package/src/inference/pipelines/text/execution-v0-contract-helpers.js +937 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.d.ts +15 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.js +279 -0
package/src/inference/pipelines/text/execution-v0.js +62 -1013
package/src/inference/pipelines/text/generator-runtime.js +5 -0
package/src/inference/pipelines/text/generator-steps.d.ts +52 -0
package/src/inference/pipelines/text/generator-steps.js +340 -221
package/src/inference/pipelines/text/generator.js +56 -40
package/src/inference/pipelines/text/init.d.ts +13 -0
package/src/inference/pipelines/text/init.js +94 -25
package/src/inference/pipelines/text/kernel-path-auto-select.js +2 -0
package/src/inference/pipelines/text/kernel-trace.d.ts +2 -0
package/src/inference/pipelines/text/kernel-trace.js +6 -0
package/src/inference/pipelines/text/layer.js +4 -9
package/src/inference/pipelines/text/linear-attention.d.ts +15 -0
package/src/inference/pipelines/text/linear-attention.js +113 -9
package/src/inference/pipelines/text/logits/gpu.js +12 -7
package/src/inference/pipelines/text/logits/index.d.ts +6 -1
package/src/inference/pipelines/text/logits/index.js +13 -12
package/src/inference/pipelines/text/logits/utils.d.ts +7 -0
package/src/inference/pipelines/text/logits/utils.js +9 -0
package/src/inference/pipelines/text/lora-apply.js +50 -32
package/src/inference/pipelines/text/model-load.js +282 -104
package/src/inference/pipelines/text/moe-cache.js +5 -4
package/src/inference/pipelines/text/moe-cpu-gptoss.js +74 -69
package/src/inference/pipelines/text/moe-cpu.js +42 -38
package/src/inference/pipelines/text/moe-gpu.js +110 -86
package/src/inference/pipelines/text/ops.js +90 -90
package/src/inference/pipelines/text/probes.js +9 -9
package/src/inference/pipelines/text/sampling.js +52 -6
package/src/inference/pipelines/text/weights.js +17 -7
package/src/inference/pipelines/text.js +13 -1
package/src/inference/speculative.d.ts +2 -2
package/src/inference/speculative.js +4 -18
package/src/inference/test-harness.d.ts +1 -1
package/src/inference/test-harness.js +17 -7
package/src/inference/tokenizer.d.ts +0 -5
package/src/inference/tokenizer.js +4 -23
package/src/inference/tokenizers/bpe.js +9 -0
package/src/inference/tokenizers/bundled.js +20 -0
package/src/inference/tokenizers/sentencepiece.js +12 -0
package/src/loader/doppler-loader.js +38 -22
package/src/loader/dtype-utils.js +3 -44
package/src/loader/embedding-loader.js +7 -3
package/src/loader/experts/expert-cache.js +13 -6
package/src/loader/experts/expert-loader.js +10 -6
package/src/loader/final-weights-loader.js +10 -4
package/src/loader/layer-loader.js +2 -1
package/src/loader/loader-state.js +2 -2
package/src/loader/memory-monitor.js +8 -0
package/src/loader/multi-model-loader.d.ts +14 -0
package/src/loader/multi-model-loader.js +70 -24
package/src/loader/shard-cache.js +84 -14
package/src/loader/shard-resolver.js +25 -3
package/src/loader/tensors/tensor-loader.js +214 -144
package/src/loader/tensors/tensor-reader.js +76 -19
package/src/loader/weight-downcast.js +1 -1
package/src/memory/buffer-pool.d.ts +9 -1
package/src/memory/buffer-pool.js +109 -44
package/src/memory/unified-detect.js +1 -1
package/src/rules/inference/dtype.rules.json +5 -0
package/src/rules/inference/kernel-path.rules.json +24 -8
package/src/rules/kernels/split-qg.rules.json +6 -0
package/src/rules/rule-registry.js +27 -1
package/src/storage/backends/opfs-store.js +68 -24
package/src/storage/downloader.js +365 -83
package/src/storage/index.d.ts +3 -0
package/src/storage/index.js +3 -0
package/src/storage/preflight.d.ts +2 -2
package/src/storage/preflight.js +24 -2
package/src/storage/quickstart-downloader.js +11 -5
package/src/storage/registry.js +10 -4
package/src/storage/reports.js +1 -1
package/src/storage/shard-manager.d.ts +15 -1
package/src/storage/shard-manager.js +55 -6
package/src/storage/source-artifact-store.d.ts +52 -0
package/src/storage/source-artifact-store.js +234 -0
package/src/tooling/command-api-constants.d.ts +9 -0
package/src/tooling/command-api-constants.js +9 -0
package/src/tooling/command-api-family-normalizers.d.ts +9 -0
package/src/tooling/command-api-family-normalizers.js +343 -0
package/src/tooling/command-api-helpers.d.ts +25 -0
package/src/tooling/command-api-helpers.js +262 -0
package/src/tooling/command-api.js +16 -602
package/src/tooling/command-envelope.js +4 -1
package/src/tooling/command-runner-shared.js +52 -18
package/src/tooling/conversion-config-materializer.js +3 -5
package/src/tooling/lean-execution-contract.js +150 -3
package/src/tooling/node-browser-command-runner.js +161 -271
package/src/tooling/node-command-runner.js +29 -3
package/src/tooling/node-converter.js +30 -1
package/src/tooling/node-source-runtime.d.ts +1 -1
package/src/tooling/node-source-runtime.js +120 -3
package/src/tooling/node-webgpu.js +24 -21
package/src/tooling/opfs-cache.js +21 -4
package/src/tooling/runtime-input-composition.d.ts +38 -0
package/src/tooling/runtime-input-composition.js +86 -0
package/src/tooling/source-runtime-bundle.d.ts +40 -5
package/src/tooling/source-runtime-bundle.js +261 -34
package/src/tooling/source-runtime-materializer.d.ts +6 -0
package/src/tooling/source-runtime-materializer.js +93 -0
package/src/training/attention-backward.js +32 -17
package/src/training/autograd.js +80 -52
package/src/training/checkpoint-watch.d.ts +2 -1
package/src/training/checkpoint-watch.js +39 -6
package/src/training/checkpoint.js +40 -11
package/src/training/clip.js +2 -1
package/src/training/datasets/token-batch.js +20 -8
package/src/training/distillation/checkpoint-watch.js +1 -0
package/src/training/distillation/student-fixture.d.ts +22 -0
package/src/training/distillation/student-fixture.js +846 -0
package/src/training/distillation/suite-data.d.ts +45 -0
package/src/training/distillation/suite-data.js +189 -0
package/src/training/lora-pipeline.js +4 -7
package/src/training/lora.js +26 -12
package/src/training/loss.js +5 -6
package/src/training/objectives/cross_entropy.js +2 -5
package/src/training/objectives/distill_kd.js +4 -8
package/src/training/objectives/distill_triplet.js +4 -8
package/src/training/objectives/ul_stage2_base.js +4 -8
package/src/training/operator-command.js +2 -0
package/src/training/optimizer.js +19 -7
package/src/training/runner.js +2 -1
package/src/training/suite.js +18 -978
package/src/training/tensor-factory.d.ts +9 -0
package/src/training/tensor-factory.js +13 -0
package/src/training/trainer.js +3 -5
package/src/training/ul_dataset.js +3 -5
package/src/training/workloads.js +70 -79
package/src/types/model.d.ts +5 -0
package/src/version.js +1 -1
package/tools/convert-safetensors-node.js +22 -16
package/tools/doppler-cli.js +50 -26

package/src/inference/pipelines/text/generator-steps.js CHANGED Viewed

@@ -113,6 +113,130 @@ export function resolveBatchStop(tokens, stopFlags, stopTokenIds, eosTokenId) {
   return actualCount;
 }
+export function findInvalidGeneratedToken(tokens, vocabSize, padTokenId = null) {
+  for (let i = 0; i < tokens.length; i++) {
+    const tokenId = tokens[i];
+    const isInvalid = !Number.isFinite(tokenId)
+      || tokenId < 0
+      || tokenId >= vocabSize
+      || (padTokenId != null ? tokenId === padTokenId : tokenId === 0);
+    if (isInvalid) {
+      return { index: i, tokenId };
+    }
+  }
+  return null;
+}
+export async function readSampledTokenFromStagingBuffer(stagingBuffer, options = {}) {
+  const ownsStagingBuffer = options.ownsStagingBuffer === true;
+  const hasFinitenessBuffer = options.hasFinitenessBuffer === true;
+  const ring = options.ring ?? null;
+  let mapped = false;
+  try {
+    await stagingBuffer.mapAsync(GPUMapMode.READ);
+    mapped = true;
+    const mappedWords = new Uint32Array(stagingBuffer.getMappedRange());
+    return {
+      nextToken: mappedWords[0],
+      finitenessStatus: hasFinitenessBuffer
+        ? parseFinitenessStatusWords(mappedWords, 1)
+        : parseFinitenessStatusWords(mappedWords, 0),
+    };
+  } finally {
+    if (mapped) {
+      stagingBuffer.unmap();
+    }
+    if (ownsStagingBuffer) {
+      stagingBuffer.destroy();
+    }
+    ring?.advance();
+  }
+}
+export async function readMappedBufferCopy(stagingBuffer, options = {}) {
+  const ownsStagingBuffer = options.ownsStagingBuffer !== false;
+  let mapped = false;
+  try {
+    await stagingBuffer.mapAsync(GPUMapMode.READ);
+    mapped = true;
+    return stagingBuffer.getMappedRange().slice(0);
+  } finally {
+    if (mapped) {
+      stagingBuffer.unmap();
+    }
+    if (ownsStagingBuffer) {
+      stagingBuffer.destroy();
+    }
+  }
+}
+export async function readBatchTokensFromStagingBuffers(options) {
+  const {
+    tokensStagingBuffer,
+    stopStagingBuffer = null,
+    finitenessStagingBuffer = null,
+    tokenCount,
+    ownsTokensStaging = false,
+    ownsStopStaging = false,
+    ring = null,
+  } = options;
+  let tokensMapped = false;
+  let stopMapped = false;
+  let finitenessMapped = false;
+  try {
+    const mapPromises = [tokensStagingBuffer.mapAsync(GPUMapMode.READ)];
+    if (stopStagingBuffer) {
+      mapPromises.push(stopStagingBuffer.mapAsync(GPUMapMode.READ));
+    }
+    if (finitenessStagingBuffer) {
+      mapPromises.push(finitenessStagingBuffer.mapAsync(GPUMapMode.READ));
+    }
+    await Promise.all(mapPromises);
+    tokensMapped = true;
+    stopMapped = Boolean(stopStagingBuffer);
+    finitenessMapped = Boolean(finitenessStagingBuffer);
+    const tokens = Array.from(
+      new Uint32Array(tokensStagingBuffer.getMappedRange()).subarray(0, tokenCount)
+    );
+    const stopFlags = stopStagingBuffer
+      ? new Uint32Array(stopStagingBuffer.getMappedRange().slice(0, tokenCount * 4))
+      : null;
+    const finitenessStatus = finitenessStagingBuffer
+      ? parseFinitenessStatusWords(new Uint32Array(finitenessStagingBuffer.getMappedRange()), 0)
+      : { triggered: false, metadata: '' };
+    return {
+      tokens,
+      stopFlags,
+      finitenessStatus,
+    };
+  } finally {
+    if (finitenessMapped) {
+      finitenessStagingBuffer.unmap();
+    }
+    if (tokensMapped) {
+      tokensStagingBuffer.unmap();
+    }
+    if (stopMapped) {
+      stopStagingBuffer.unmap();
+    }
+    if (finitenessStagingBuffer) {
+      finitenessStagingBuffer.destroy();
+    }
+    if (ownsTokensStaging) {
+      tokensStagingBuffer.destroy();
+    }
+    if (ownsStopStaging) {
+      stopStagingBuffer?.destroy();
+    }
+    ring?.advance();
+  }
+}
 async function runDecodeLayers(state, tokenId, opts, helpers) {
   const config = state.modelConfig;
   const debugCheckBuffer = state.debug ? helpers.debugCheckBuffer : undefined;
@@ -130,11 +254,9 @@ async function runDecodeLayers(state, tokenId, opts, helpers) {
     throw new Error('Embed buffer not found or not a supported buffer type');
   }
   const embedBuffer = isWeightBuffer(embedBufferRaw) ? embedBufferRaw.buffer : embedBufferRaw;
-  const embedDtype = isWeightBuffer(embedBufferRaw)
-    ? getWeightDtype(embedBufferRaw)
-    : isCpuWeightBuffer(embedBufferRaw)
-      ? embedBufferRaw.dtype
-      : null;
+  const embedDtype = isCpuWeightBuffer(embedBufferRaw)
+    ? embedBufferRaw.dtype
+    : getWeightDtype(embedBufferRaw);
   const activationDtype = getEffectiveActivationDtype(state, opts);
   const embedTensor = await embed([tokenId], embedBuffer, {
@@ -216,11 +338,9 @@ export async function decodeStep(state, currentIds, opts, helpers) {
     throw new Error('Embed buffer not found or not a supported buffer type');
   }
   const embedBuffer = isWeightBuffer(embedBufferRaw) ? embedBufferRaw.buffer : embedBufferRaw;
-  const embedDtype = isWeightBuffer(embedBufferRaw)
-    ? getWeightDtype(embedBufferRaw)
-    : isCpuWeightBuffer(embedBufferRaw)
-      ? embedBufferRaw.dtype
-      : null;
+  const embedDtype = isCpuWeightBuffer(embedBufferRaw)
+    ? embedBufferRaw.dtype
+    : getWeightDtype(embedBufferRaw);
   const activationDtype = getEffectiveActivationDtype(state, opts);
   const activationBytes = selectRuleValue('shared', 'dtype', 'bytesFromDtype', { dtype: activationDtype });
@@ -352,17 +472,11 @@ export async function decodeStep(state, currentIds, opts, helpers) {
       throw new Error('[Pipeline] GPU readback disabled for sampling');
     }
-    await stagingBuffer.mapAsync(GPUMapMode.READ);
-    const mapped = new Uint32Array(stagingBuffer.getMappedRange());
-    const nextToken = mapped[0];
-    const finitenessStatus = state.finitenessBuffer
-      ? parseFinitenessStatusWords(mapped, 1)
-      : parseFinitenessStatusWords(mapped, 0);
-    stagingBuffer.unmap();
-    if (ownsStagingBuffer) {
-      stagingBuffer.destroy();
-    }
-    ring?.advance();
+    const { nextToken, finitenessStatus } = await readSampledTokenFromStagingBuffer(stagingBuffer, {
+      ownsStagingBuffer,
+      hasFinitenessBuffer: Boolean(state.finitenessBuffer),
+      ring,
+    });
     if (finitenessStatus.triggered) {
       releaseBuffer(logitsBuffer);
@@ -499,10 +613,7 @@ export async function decodeStep(state, currentIds, opts, helpers) {
         const enc = debugDevice.createCommandEncoder();
         enc.copyBufferToBuffer(hiddenStates, 0, staging, 0, sampleSize);
         debugDevice.queue.submit([enc.finish()]);
-        await staging.mapAsync(GPUMapMode.READ);
-        const data = new Float32Array(staging.getMappedRange().slice(0));
-        staging.unmap();
-        staging.destroy();
+        const data = new Float32Array(await readMappedBufferCopy(staging));
         const nanCount = Array.from(data).filter(x => !Number.isFinite(x)).length;
         const nonZero = Array.from(data).filter(x => Number.isFinite(x) && x !== 0).slice(0, 5);
         log.debug('Decode', `[1] HIDDEN_AFTER_LAYERS: nan=${nanCount}/${data.length}, nonZero=${nonZero.length}, sample=[${nonZero.map(x => x.toFixed(4)).join(', ')}]`);
@@ -535,11 +646,21 @@ export async function decodeStep(state, currentIds, opts, helpers) {
         });
       releaseBuffer(logitsBuffer);
-      if (!context.decodeBuffers?.ownsBuffer(hiddenStates)) {
-        releaseBuffer(hiddenStates);
+      const invalidGpuToken = nextToken >= config.vocabSize
+        || (padTokenId != null && nextToken === padTokenId)
+        || (padTokenId == null && nextToken === 0);
+      if (!invalidGpuToken) {
+        if (!context.decodeBuffers?.ownsBuffer(hiddenStates)) {
+          releaseBuffer(hiddenStates);
+        }
+        state.currentSeqLen++;
+        return nextToken;
       }
-      state.currentSeqLen++;
-      return nextToken;
+      state.disableFusedDecode = true;
+      log.warn(
+        'Decode',
+        `GPU sampling produced invalid token ${nextToken} (vocabSize=${config.vocabSize}, step=${state.decodeStepCount}); falling back to CPU sampling.`
+      );
     }
   }
@@ -854,225 +975,223 @@ export async function generateNTokensGPU(state, startToken, N, currentIds, opts,
     })
     : null;
   const ownsStopStaging = useGpuStopFlags && !ringSlot?.stagingStop;
+  let finitenessStagingBuffer = null;
+  let readbackCleanupDelegated = false;
+  try {
+    if (state.finitenessBuffer) {
+      device.queue.writeBuffer(state.finitenessBuffer, 0, new Uint32Array([0, 0, 0, 0]));
+    }
-  if (state.finitenessBuffer) {
-    device.queue.writeBuffer(state.finitenessBuffer, 0, new Uint32Array([0, 0, 0, 0]));
-  }
+    device.queue.writeBuffer(tokensBuffer, 0, new Uint32Array([startToken]));
+    if (stopBuffer) {
+      const stopElements = stopBuffer.size / 4;
+      const zeroStopData = ringSlot?.zeroStopData;
+      const clearData = zeroStopData && zeroStopData.length <= stopElements
+        ? zeroStopData
+        : new Uint32Array(stopElements);
+      device.queue.writeBuffer(stopBuffer, 0, clearData);
+    }
-  device.queue.writeBuffer(tokensBuffer, 0, new Uint32Array([startToken]));
-  if (stopBuffer) {
-    const stopElements = stopBuffer.size / 4;
-    const zeroStopData = ringSlot?.zeroStopData;
-    const clearData = zeroStopData && zeroStopData.length <= stopElements
-      ? zeroStopData
-      : new Uint32Array(stopElements);
-    device.queue.writeBuffer(stopBuffer, 0, clearData);
-  }
+    const context = helpers.buildLayerContext(recorder, true, opts.debugLayers, executionPlan);
+    const embedBufferRaw = state.weights.get('embed');
+    if (isCpuWeightBuffer(embedBufferRaw)) {
+      throw new Error('[Pipeline] GPU-only decode not supported with CPU-resident embeddings.');
+    }
+    if (!(embedBufferRaw instanceof GPUBuffer) && !isWeightBuffer(embedBufferRaw)) {
+      throw new Error('Embed buffer not found or not a GPUBuffer/WeightBuffer');
+    }
+    const embedBuffer = isWeightBuffer(embedBufferRaw) ? embedBufferRaw.buffer : embedBufferRaw;
+    const embedDtype = getWeightDtype(embedBufferRaw);
+    const activationDtype = getEffectiveActivationDtype(state, opts);
+    for (let i = 0; i < N; i++) {
+      const currentPos = state.currentSeqLen + i;
+      context.currentSeqLen = currentPos;
+      context.currentTokenIds = [startToken];
+      context.decodeBuffers?.resetPingPong();
+      const hiddenTensor = await embed(tokensBuffer, embedBuffer, {
+        hiddenSize: config.hiddenSize,
+        vocabSize: config.vocabSize,
+        scaleEmbeddings: config.scaleEmbeddings,
+        recorder,
+        transpose: state.embeddingTranspose,
+        debugProbes: state.runtimeConfig.shared.debug.probes,
+        activationDtype,
+        embeddingDtype: selectRuleValue('inference', 'dtype', 'f16OrF32FromDtype', { dtype: embedDtype }),
+        numTokens: 1,
+        indexOffset: i,
+      });
-  const context = helpers.buildLayerContext(recorder, true, opts.debugLayers, executionPlan);
-  const embedBufferRaw = state.weights.get('embed');
-  if (isCpuWeightBuffer(embedBufferRaw)) {
-    throw new Error('[Pipeline] GPU-only decode not supported with CPU-resident embeddings.');
-  }
-  if (!(embedBufferRaw instanceof GPUBuffer) && !isWeightBuffer(embedBufferRaw)) {
-    throw new Error('Embed buffer not found or not a GPUBuffer/WeightBuffer');
-  }
-  const embedBuffer = isWeightBuffer(embedBufferRaw) ? embedBufferRaw.buffer : embedBufferRaw;
-  const embedDtype = isWeightBuffer(embedBufferRaw) ? getWeightDtype(embedBufferRaw) : null;
-  const activationDtype = getEffectiveActivationDtype(state, opts);
+      let hiddenStatesBuffer = hiddenTensor.buffer;
+      for (let l = 0; l < config.numLayers; l++) {
+        const prevStates = hiddenStatesBuffer;
+        hiddenStatesBuffer = (await processLayer(l, hiddenStatesBuffer, 1, false, context));
+        context.decodeBuffers?.swapPingPong();
+        if (prevStates instanceof GPUBuffer && prevStates !== hiddenStatesBuffer) {
+          const ownsBuffer = context.decodeBuffers?.ownsBuffer(prevStates);
+          if (!ownsBuffer) {
+            recorder.trackTemporaryBuffer(prevStates);
+          }
+        }
+      }
-  for (let i = 0; i < N; i++) {
-    const currentPos = state.currentSeqLen + i;
-    context.currentSeqLen = currentPos;
-    context.currentTokenIds = [startToken];
-    context.decodeBuffers?.resetPingPong();
+      const logits = await recordLogitsGPU(
+        recorder,
+        hiddenStatesBuffer,
+        1,
+        helpers.getLogitsWeights(),
+        helpers.getLogitsConfig()
+      );
+      const { logitsBuffer, vocabSize, logitsDtype } = logits;
-    const hiddenTensor = await embed(tokensBuffer, embedBuffer, {
-      hiddenSize: config.hiddenSize,
-      vocabSize: config.vocabSize,
-      scaleEmbeddings: config.scaleEmbeddings,
-      recorder,
-      transpose: state.embeddingTranspose,
-      debugProbes: state.runtimeConfig.shared.debug.probes,
-      activationDtype,
-      embeddingDtype: selectRuleValue('inference', 'dtype', 'f16OrF32FromDtype', { dtype: embedDtype }),
-      numTokens: 1,
-      indexOffset: i,
-    });
+      const outputIndex = i + 1;
+      if (opts.temperature < samplingDefaults.greedyThreshold) {
+        await recordArgmax(recorder, logitsBuffer, vocabSize, {
+          padTokenId,
+          logitSoftcap,
+          logitsDtype,
+          outputBuffer: tokensBuffer,
+          outputIndex,
+        });
+      } else {
+        await recordGPUSample(recorder, logitsBuffer, vocabSize, {
+          temperature: opts.temperature,
+          topK: opts.topK,
+          padTokenId,
+          logitSoftcap,
+          logitsDtype,
+          outputBuffer: tokensBuffer,
+          outputIndex,
+          greedyThreshold: samplingDefaults.greedyThreshold,
+        });
+      }
-    let hiddenStatesBuffer = hiddenTensor.buffer;
-    for (let l = 0; l < config.numLayers; l++) {
-      const prevStates = hiddenStatesBuffer;
-      hiddenStatesBuffer = (await processLayer(l, hiddenStatesBuffer, 1, false, context));
-      context.decodeBuffers?.swapPingPong();
-      if (prevStates instanceof GPUBuffer && prevStates !== hiddenStatesBuffer) {
-        const ownsBuffer = context.decodeBuffers?.ownsBuffer(prevStates);
-        if (!ownsBuffer) {
-          recorder.trackTemporaryBuffer(prevStates);
-        }
+      const stopCheck = useGpuStopFlags
+        ? recordCheckStop(recorder, {
+          sampledTokenBuffer: tokensBuffer,
+          shouldStopBuffer: stopBuffer,
+          tokenIndex: outputIndex,
+          eosTokenId,
+          maxTokens: maxSeqLen,
+          currentPos,
+        })
+        : null;
+      if (hiddenStatesBuffer instanceof GPUBuffer && !context.decodeBuffers?.ownsBuffer(hiddenStatesBuffer)) {
+        recorder.trackTemporaryBuffer(hiddenStatesBuffer);
+      }
+      if (logitsBuffer instanceof GPUBuffer) {
+        recorder.trackTemporaryBuffer(logitsBuffer);
+      }
+      if (stopCheck instanceof GPUBuffer && stopCheck !== stopBuffer) {
+        recorder.trackTemporaryBuffer(stopCheck);
       }
     }
-    const logits = await recordLogitsGPU(
-      recorder,
-      hiddenStatesBuffer,
-      1,
-      helpers.getLogitsWeights(),
-      helpers.getLogitsConfig()
-    );
-    const { logitsBuffer, vocabSize, logitsDtype } = logits;
+    const recordMs = performance.now() - recordStart;
+    state.stats.decodeRecordMs = (state.stats.decodeRecordMs ?? 0) + recordMs;
-    const outputIndex = i + 1;
-    if (opts.temperature < samplingDefaults.greedyThreshold) {
-      await recordArgmax(recorder, logitsBuffer, vocabSize, {
-        padTokenId,
-        logitSoftcap,
-        logitsDtype,
-        outputBuffer: tokensBuffer,
-        outputIndex,
-      });
-    } else {
-      await recordGPUSample(recorder, logitsBuffer, vocabSize, {
-        temperature: opts.temperature,
-        topK: opts.topK,
-        padTokenId,
-        logitSoftcap,
-        logitsDtype,
-        outputBuffer: tokensBuffer,
-        outputIndex,
-        greedyThreshold: samplingDefaults.greedyThreshold,
-      });
+    const encoder = recorder.getEncoder();
+    encoder.copyBufferToBuffer(tokensBuffer, 4, tokensStagingBuffer, 0, N * 4);
+    if (useGpuStopFlags && stopBuffer && stopStagingBuffer) {
+      encoder.copyBufferToBuffer(stopBuffer, 4, stopStagingBuffer, 0, N * 4);
     }
-    const stopCheck = useGpuStopFlags
-      ? recordCheckStop(recorder, {
-        sampledTokenBuffer: tokensBuffer,
-        shouldStopBuffer: stopBuffer,
-        tokenIndex: outputIndex,
-        eosTokenId,
-        maxTokens: maxSeqLen,
-        currentPos,
-      })
-      : null;
-    if (hiddenStatesBuffer instanceof GPUBuffer && !context.decodeBuffers?.ownsBuffer(hiddenStatesBuffer)) {
-      recorder.trackTemporaryBuffer(hiddenStatesBuffer);
-    }
-    if (logitsBuffer instanceof GPUBuffer) {
-      recorder.trackTemporaryBuffer(logitsBuffer);
-    }
-    if (stopCheck instanceof GPUBuffer && stopCheck !== stopBuffer) {
-      recorder.trackTemporaryBuffer(stopCheck);
+    if (state.finitenessBuffer) {
+      finitenessStagingBuffer = device.createBuffer({
+        size: 16,
+        usage: GPUBufferUsage.COPY_DST | GPUBufferUsage.MAP_READ
+      });
+      encoder.copyBufferToBuffer(state.finitenessBuffer, 0, finitenessStagingBuffer, 0, 16);
     }
-  }
-  const recordMs = performance.now() - recordStart;
-  state.stats.decodeRecordMs = (state.stats.decodeRecordMs ?? 0) + recordMs;
+    recorder.submit();
-  const encoder = recorder.getEncoder();
-  encoder.copyBufferToBuffer(tokensBuffer, 4, tokensStagingBuffer, 0, N * 4);
-  if (useGpuStopFlags && stopBuffer && stopStagingBuffer) {
-    encoder.copyBufferToBuffer(stopBuffer, 4, stopStagingBuffer, 0, N * 4);
-  }
+    if (!allowReadback('pipeline.decode.sample')) {
+      throw new Error('[Pipeline] GPU readback disabled for sampling');
+    }
-  let finitenessStagingBuffer = null;
-  if (state.finitenessBuffer) {
-    finitenessStagingBuffer = device.createBuffer({
-      size: 16,
-      usage: GPUBufferUsage.COPY_DST | GPUBufferUsage.MAP_READ
+    const readbackStart = performance.now();
+    readbackCleanupDelegated = true;
+    const readback = await readBatchTokensFromStagingBuffers({
+      tokensStagingBuffer,
+      stopStagingBuffer,
+      finitenessStagingBuffer,
+      tokenCount: N,
+      ownsTokensStaging,
+      ownsStopStaging,
+      ring,
     });
-    encoder.copyBufferToBuffer(state.finitenessBuffer, 0, finitenessStagingBuffer, 0, 16);
-  }
-  recorder.submit();
-  if (!allowReadback('pipeline.decode.sample')) {
-    throw new Error('[Pipeline] GPU readback disabled for sampling');
-  }
-  const readbackStart = performance.now();
-  const mapPromises = [tokensStagingBuffer.mapAsync(GPUMapMode.READ)];
-  if (stopStagingBuffer) {
-    mapPromises.push(stopStagingBuffer.mapAsync(GPUMapMode.READ));
-  }
-  if (finitenessStagingBuffer) {
-    mapPromises.push(finitenessStagingBuffer.mapAsync(GPUMapMode.READ));
-  }
-  await Promise.all(mapPromises);
-  const readbackWaitMs = performance.now() - readbackStart;
-  state.stats.decodeReadbackWaitMs = (state.stats.decodeReadbackWaitMs ?? 0) + readbackWaitMs;
-  let isInfinite = false;
-  let metadata = '';
-  if (finitenessStagingBuffer) {
-    const finitenessData = new Uint32Array(finitenessStagingBuffer.getMappedRange());
-    const finitenessStatus = parseFinitenessStatusWords(finitenessData, 0);
-    isInfinite = finitenessStatus.triggered;
-    metadata = finitenessStatus.metadata;
-    finitenessStagingBuffer.unmap();
-    finitenessStagingBuffer.destroy();
-  }
+    const readbackWaitMs = performance.now() - readbackStart;
+    state.stats.decodeReadbackWaitMs = (state.stats.decodeReadbackWaitMs ?? 0) + readbackWaitMs;
-  const submitWaitMs = recorder.getSubmitLatencyMs();
-  if (submitWaitMs != null) {
-    state.stats.decodeSubmitWaitMs = (state.stats.decodeSubmitWaitMs ?? 0) + submitWaitMs;
-  }
-  getUniformCache().flushPendingDestruction();
-  const tokensView = new Uint32Array(tokensStagingBuffer.getMappedRange());
-  const tokens = Array.from(tokensView.subarray(0, N));
+    const isInfinite = readback.finitenessStatus.triggered;
+    const metadata = readback.finitenessStatus.metadata;
-  const stopFlags = stopStagingBuffer
-    ? new Uint32Array(stopStagingBuffer.getMappedRange().slice(0, N * 4))
-    : null;
-  if (stopFlags) {
-    log.debug('Pipeline', `[STOP] N=${N} flags=[${Array.from(stopFlags).join(',')}] tokens=[${tokens.join(',')}] eos=${eosTokenId}`);
-  }
+    const submitWaitMs = recorder.getSubmitLatencyMs();
+    if (submitWaitMs != null) {
+      state.stats.decodeSubmitWaitMs = (state.stats.decodeSubmitWaitMs ?? 0) + submitWaitMs;
+    }
-  const actualCount = resolveBatchStop(tokens, stopFlags, stopTokenIds, eosToken);
+    getUniformCache().flushPendingDestruction();
-  tokensStagingBuffer.unmap();
-  if (stopStagingBuffer) {
-    stopStagingBuffer.unmap();
-  }
+    const tokens = readback.tokens;
+    const stopFlags = readback.stopFlags;
-  const generatedTokens = tokens.slice(0, actualCount);
+    if (stopFlags) {
+      log.debug('Pipeline', `[STOP] N=${N} flags=[${Array.from(stopFlags).join(',')}] tokens=[${tokens.join(',')}] eos=${eosTokenId}`);
+    }
-  if (ownsTokensBuffer) tokensBuffer.destroy();
-  if (ownsStopBuffer) stopBuffer?.destroy();
-  if (ownsTokensStaging) tokensStagingBuffer.destroy();
-  if (ownsStopStaging) stopStagingBuffer?.destroy();
+    const actualCount = resolveBatchStop(tokens, stopFlags, stopTokenIds, eosToken);
+    const generatedTokens = tokens.slice(0, actualCount);
+    const invalidToken = findInvalidGeneratedToken(generatedTokens, config.vocabSize, padTokenId);
-  if (isInfinite) {
-    throw new FinitenessError(`F16 bounds exceeded during batch generation${metadata}`);
-  }
+    if (isInfinite) {
+      throw new FinitenessError(`F16 bounds exceeded during batch generation${metadata}`);
+    }
+    if (invalidToken) {
+      state.disableFusedDecode = true;
+      throw new Error(
+        `[Pipeline] Batch decode produced invalid token ${invalidToken.tokenId} ` +
+        `at batch index ${invalidToken.index} (vocabSize=${config.vocabSize}, padTokenId=${padTokenId ?? 'none'}).`
+      );
+    }
-  if (opts.profile && recorder.isProfilingEnabled()) {
-    const timings = await recorder.resolveProfileTimings();
-    const total = sumProfileTimings(timings);
-    if (total !== null) {
-      state.stats.gpuTimeDecodeMs = (state.stats.gpuTimeDecodeMs ?? 0) + total;
+    if (opts.profile && recorder.isProfilingEnabled()) {
+      const timings = await recorder.resolveProfileTimings();
+      const total = sumProfileTimings(timings);
+      if (total !== null) {
+        state.stats.gpuTimeDecodeMs = (state.stats.gpuTimeDecodeMs ?? 0) + total;
+      }
+      if (timings) {
+        recordDecodeProfileStep(state, {
+          batch: true,
+          stepStart: state.decodeStepCount + 1,
+          stepCount: actualCount,
+          timings,
+          totalMs: total ?? undefined,
+        });
+        const stepStart = state.decodeStepCount + 1;
+        if (shouldLogProfileStep(state, stepStart)) {
+          log.warn('Profile', `Batch decode (N=${N}):`);
+          log.warn('Profile', CommandRecorder.formatProfileReport(timings));
+        }
+      }
     }
-    if (timings) {
-      recordDecodeProfileStep(state, {
-        batch: true,
-        stepStart: state.decodeStepCount + 1,
-        stepCount: actualCount,
-        timings,
-        totalMs: total ?? undefined,
-      });
-      const stepStart = state.decodeStepCount + 1;
-      if (shouldLogProfileStep(state, stepStart)) {
-        log.warn('Profile', `Batch decode (N=${N}):`);
-        log.warn('Profile', CommandRecorder.formatProfileReport(timings));
+    state.currentSeqLen += actualCount;
+    return { tokens: generatedTokens, actualCount };
+  } finally {
+    if (!readbackCleanupDelegated) {
+      if (finitenessStagingBuffer) {
+        finitenessStagingBuffer.destroy();
       }
+      if (ownsTokensStaging) tokensStagingBuffer.destroy();
+      if (ownsStopStaging) stopStagingBuffer?.destroy();
+      ring?.advance();
     }
+    if (ownsTokensBuffer) tokensBuffer.destroy();
+    if (ownsStopBuffer) stopBuffer?.destroy();
   }
-  state.currentSeqLen += actualCount;
-  ring?.advance();
-  return { tokens: generatedTokens, actualCount };
 }