npm - @simulatte/doppler - Versions diffs - 0.1.5 → 0.1.7 - Mend

@simulatte/doppler 0.1.5 → 0.1.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (392) hide show

package/CHANGELOG.md +126 -0
package/README.md +25 -17
package/package.json +20 -4
package/src/adapters/adapter-registry.js +12 -1
package/src/adapters/lora-loader.js +23 -6
package/src/bridge/extension-client.d.ts +5 -0
package/src/bridge/extension-client.js +40 -0
package/src/bridge/index.d.ts +2 -1
package/src/bridge/index.js +6 -4
package/src/browser/browser-converter.js +26 -1
package/src/browser/file-picker.js +6 -0
package/src/browser/safetensors-parser-browser.js +84 -1
package/src/browser/shard-io-browser.js +2 -2
package/src/browser/tensor-source-download.js +8 -2
package/src/browser/tensor-source-http.d.ts +1 -0
package/src/browser/tensor-source-http.js +5 -1
package/src/client/doppler-api.browser.js +20 -4
package/src/client/doppler-api.js +19 -3
package/src/client/doppler-provider/generation.js +12 -0
package/src/client/doppler-provider/model-manager.d.ts +10 -0
package/src/client/doppler-provider/model-manager.js +91 -19
package/src/client/doppler-provider/source-runtime.d.ts +2 -1
package/src/client/doppler-provider/source-runtime.js +132 -13
package/src/client/doppler-registry.json +8 -7
package/src/config/backward-registry-loader.js +17 -2
package/src/config/execution-v0-contract-check.js +113 -15
package/src/config/kernel-path-contract-check.js +57 -29
package/src/config/kernel-path-loader.js +5 -36
package/src/config/kernels/kernel-ref-digests.js +39 -39
package/src/config/kernels/registry.js +14 -1
package/src/config/kernels/registry.json +49 -7
package/src/config/loader.d.ts +1 -1
package/src/config/loader.js +43 -4
package/src/config/merge-contract-check.js +59 -4
package/src/config/merge-helpers.js +128 -7
package/src/config/merge.d.ts +1 -0
package/src/config/merge.js +28 -0
package/src/config/param-validator.js +47 -2
package/src/config/presets/kernel-paths/{gemma2-q4k-dequant-f32a.json → gemma2-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/gemma3-f16-fused-f32a-online-streamingprefill.json +223 -0
package/src/config/presets/kernel-paths/{gemma3-q4k-dequant-f32a.json → gemma3-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/registry.json +29 -8
package/src/config/presets/models/gemma2.json +2 -2
package/src/config/presets/models/qwen3.json +9 -2
package/src/config/presets/models/transformer.json +5 -0
package/src/config/presets/runtime/experiments/bench/gemma3-bench-q4k.json +1 -1
package/src/config/presets/runtime/experiments/debug/gemma3-debug-q4k.json +1 -1
package/src/config/presets/runtime/experiments/verify/gemma3-verify.json +1 -1
package/src/config/presets/runtime/kernels/dequant-f16-q4k.json +6 -13
package/src/config/presets/runtime/kernels/dequant-f32-q4k.json +6 -13
package/src/config/presets/runtime/kernels/embeddinggemma-q4k-dequant-f32a.json +37 -0
package/src/config/presets/runtime/kernels/fused-q4k.json +6 -13
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f16a.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f32a-nosubgroups.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-fused-f32a.json +33 -0
package/src/config/presets/runtime/kernels/safe-q4k.json +6 -13
package/src/config/presets/runtime/platform/metal-apple-q4k.json +1 -1
package/src/config/required-inference-fields-contract-check.js +6 -0
package/src/config/runtime.js +6 -1
package/src/config/schema/debug.schema.d.ts +5 -0
package/src/config/schema/doppler.schema.js +16 -21
package/src/config/schema/inference-defaults.schema.js +6 -3
package/src/config/schema/inference.schema.d.ts +9 -0
package/src/config/schema/kernel-path.schema.d.ts +11 -1
package/src/config/schema/kernel-thresholds.schema.js +12 -4
package/src/config/schema/manifest.schema.d.ts +8 -1
package/src/config/schema/manifest.schema.js +19 -3
package/src/config/training-defaults.js +30 -22
package/src/converter/conversion-plan.js +94 -9
package/src/converter/core.d.ts +7 -0
package/src/converter/core.js +14 -9
package/src/converter/execution-v0-manifest.js +4 -1
package/src/converter/index.d.ts +1 -0
package/src/converter/index.js +1 -0
package/src/converter/manifest-inference.js +43 -12
package/src/converter/parsers/diffusion.js +0 -3
package/src/converter/quantization-info.js +35 -15
package/src/converter/rope-config.js +42 -0
package/src/converter/shard-packer.d.ts +1 -1
package/src/converter/shard-packer.js +4 -1
package/src/debug/config.js +123 -11
package/src/debug/signals.js +7 -1
package/src/debug/tensor.d.ts +2 -0
package/src/debug/tensor.js +13 -2
package/src/distribution/p2p-control-plane.js +52 -12
package/src/distribution/p2p-observability.js +43 -7
package/src/distribution/p2p-webrtc-browser.js +20 -0
package/src/distribution/shard-delivery.js +77 -26
package/src/formats/gguf/types.js +33 -16
package/src/formats/rdrr/groups.d.ts +12 -4
package/src/formats/rdrr/groups.js +3 -6
package/src/formats/rdrr/parsing.js +39 -2
package/src/formats/rdrr/types.d.ts +2 -1
package/src/gpu/command-recorder.js +86 -61
package/src/gpu/device.d.ts +1 -0
package/src/gpu/device.js +131 -19
package/src/gpu/kernel-tuner/benchmarks.js +326 -316
package/src/gpu/kernel-tuner/cache.js +71 -4
package/src/gpu/kernel-tuner/tuner.js +22 -4
package/src/gpu/kernels/attention.js +113 -34
package/src/gpu/kernels/backward/adam.js +62 -58
package/src/gpu/kernels/backward/attention_backward.js +257 -169
package/src/gpu/kernels/backward/conv2d_backward.js +14 -1
package/src/gpu/kernels/bias_add.wgsl +8 -6
package/src/gpu/kernels/bias_add_f16.wgsl +8 -5
package/src/gpu/kernels/cast.js +191 -149
package/src/gpu/kernels/check-stop.js +33 -44
package/src/gpu/kernels/conv2d.js +27 -17
package/src/gpu/kernels/conv2d.wgsl +7 -8
package/src/gpu/kernels/conv2d_f16.wgsl +7 -8
package/src/gpu/kernels/cross_entropy_loss.js +21 -15
package/src/gpu/kernels/depthwise_conv2d.js +37 -26
package/src/gpu/kernels/depthwise_conv2d.wgsl +6 -9
package/src/gpu/kernels/depthwise_conv2d_f16.wgsl +6 -9
package/src/gpu/kernels/dequant.js +178 -126
package/src/gpu/kernels/energy.d.ts +3 -21
package/src/gpu/kernels/energy.js +111 -88
package/src/gpu/kernels/feature-check.js +1 -1
package/src/gpu/kernels/fused_ffn.js +84 -65
package/src/gpu/kernels/fused_matmul_residual.js +56 -33
package/src/gpu/kernels/fused_matmul_rmsnorm.js +62 -45
package/src/gpu/kernels/gather.js +33 -15
package/src/gpu/kernels/gelu.js +19 -11
package/src/gpu/kernels/grouped_pointwise_conv2d.js +34 -23
package/src/gpu/kernels/grouped_pointwise_conv2d.wgsl +6 -9
package/src/gpu/kernels/grouped_pointwise_conv2d_f16.wgsl +6 -9
package/src/gpu/kernels/groupnorm.js +34 -23
package/src/gpu/kernels/kv-quantize.js +5 -2
package/src/gpu/kernels/layernorm.js +35 -19
package/src/gpu/kernels/logit-merge.js +5 -3
package/src/gpu/kernels/matmul.js +83 -39
package/src/gpu/kernels/modulate.js +23 -15
package/src/gpu/kernels/moe.js +221 -175
package/src/gpu/kernels/pixel_shuffle.js +22 -14
package/src/gpu/kernels/pixel_shuffle.wgsl +4 -5
package/src/gpu/kernels/pixel_shuffle_f16.wgsl +4 -5
package/src/gpu/kernels/relu.js +31 -10
package/src/gpu/kernels/relu.wgsl +2 -1
package/src/gpu/kernels/relu_f16.wgsl +2 -1
package/src/gpu/kernels/repeat_channels.js +25 -17
package/src/gpu/kernels/repeat_channels.wgsl +4 -5
package/src/gpu/kernels/repeat_channels_f16.wgsl +4 -5
package/src/gpu/kernels/residual.js +69 -23
package/src/gpu/kernels/residual.wgsl +6 -3
package/src/gpu/kernels/residual_f16.wgsl +2 -1
package/src/gpu/kernels/residual_f16_vec4.wgsl +2 -1
package/src/gpu/kernels/residual_vec4.wgsl +2 -1
package/src/gpu/kernels/rmsnorm.js +96 -28
package/src/gpu/kernels/rmsnorm.wgsl +14 -6
package/src/gpu/kernels/rmsnorm_f16.wgsl +10 -2
package/src/gpu/kernels/rope.d.ts +2 -0
package/src/gpu/kernels/rope.js +14 -1
package/src/gpu/kernels/rope.wgsl +56 -40
package/src/gpu/kernels/sample.js +27 -38
package/src/gpu/kernels/sana_linear_attention.js +19 -12
package/src/gpu/kernels/sana_linear_attention_apply.wgsl +4 -5
package/src/gpu/kernels/sana_linear_attention_apply_f16.wgsl +4 -5
package/src/gpu/kernels/sana_linear_attention_summary.wgsl +4 -0
package/src/gpu/kernels/sana_linear_attention_summary_f16.wgsl +4 -0
package/src/gpu/kernels/scale.js +18 -11
package/src/gpu/kernels/shader-cache.js +4 -2
package/src/gpu/kernels/silu.d.ts +1 -0
package/src/gpu/kernels/silu.js +148 -82
package/src/gpu/kernels/silu.wgsl +19 -9
package/src/gpu/kernels/silu_f16.wgsl +19 -9
package/src/gpu/kernels/softmax.js +44 -25
package/src/gpu/kernels/split_qkv.js +23 -13
package/src/gpu/kernels/transpose.js +31 -10
package/src/gpu/kernels/transpose.wgsl +6 -5
package/src/gpu/kernels/upsample2d.js +22 -13
package/src/gpu/kernels/upsample2d.wgsl +6 -9
package/src/gpu/kernels/upsample2d_f16.wgsl +6 -9
package/src/gpu/kernels/utils.js +35 -13
package/src/gpu/partitioned-buffer-pool.js +10 -2
package/src/gpu/perf-guards.js +2 -9
package/src/gpu/profiler.js +27 -22
package/src/gpu/readback-utils.d.ts +16 -0
package/src/gpu/readback-utils.js +41 -0
package/src/gpu/submit-tracker.js +13 -0
package/src/gpu/uniform-cache.d.ts +1 -0
package/src/gpu/uniform-cache.js +30 -9
package/src/hotswap/intent-bundle.js +6 -0
package/src/hotswap/manifest.d.ts +10 -1
package/src/hotswap/manifest.js +12 -2
package/src/hotswap/runtime.js +30 -8
package/src/index-browser.d.ts +44 -0
package/src/index-browser.js +14 -0
package/src/inference/browser-harness-contract-helpers.d.ts +5 -0
package/src/inference/browser-harness-contract-helpers.js +28 -0
package/src/inference/browser-harness-diffusion-energy-suites.d.ts +2 -0
package/src/inference/browser-harness-diffusion-energy-suites.js +269 -0
package/src/inference/browser-harness-model-helpers.d.ts +16 -0
package/src/inference/browser-harness-model-helpers.js +217 -0
package/src/inference/browser-harness-report-helpers.d.ts +7 -0
package/src/inference/browser-harness-report-helpers.js +42 -0
package/src/inference/browser-harness-runtime-helpers.d.ts +61 -0
package/src/inference/browser-harness-runtime-helpers.js +415 -0
package/src/inference/browser-harness-suite-helpers.d.ts +28 -0
package/src/inference/browser-harness-suite-helpers.js +268 -0
package/src/inference/browser-harness-text-helpers.d.ts +27 -0
package/src/inference/browser-harness-text-helpers.js +788 -0
package/src/inference/browser-harness.d.ts +6 -0
package/src/inference/browser-harness.js +130 -1950
package/src/inference/kv-cache/base.js +140 -94
package/src/inference/kv-cache/tiered.js +5 -3
package/src/inference/moe-router.js +88 -56
package/src/inference/multi-model-network.js +5 -3
package/src/inference/network-evolution.d.ts +11 -2
package/src/inference/network-evolution.js +20 -21
package/src/inference/pipelines/context.d.ts +3 -0
package/src/inference/pipelines/context.js +142 -2
package/src/inference/pipelines/diffusion/helpers.js +7 -2
package/src/inference/pipelines/diffusion/pipeline.js +17 -7
package/src/inference/pipelines/diffusion/sd3-transformer.js +10 -10
package/src/inference/pipelines/diffusion/text-encoder-gpu.d.ts +5 -0
package/src/inference/pipelines/diffusion/text-encoder-gpu.js +27 -15
package/src/inference/pipelines/diffusion/vae.js +3 -7
package/src/inference/pipelines/energy/pipeline.js +27 -21
package/src/inference/pipelines/energy/quintel.d.ts +5 -0
package/src/inference/pipelines/energy/quintel.js +11 -0
package/src/inference/pipelines/energy-head/row-head-pipeline.js +17 -13
package/src/inference/pipelines/structured/json-head-pipeline.js +26 -11
package/src/inference/pipelines/text/attention/projections.js +151 -101
package/src/inference/pipelines/text/attention/record.js +73 -10
package/src/inference/pipelines/text/attention/run.js +73 -10
package/src/inference/pipelines/text/chat-format.js +25 -1
package/src/inference/pipelines/text/config.d.ts +4 -0
package/src/inference/pipelines/text/config.js +71 -5
package/src/inference/pipelines/text/embed.js +2 -8
package/src/inference/pipelines/text/execution-plan.js +64 -50
package/src/inference/pipelines/text/execution-v0-contract-helpers.d.ts +59 -0
package/src/inference/pipelines/text/execution-v0-contract-helpers.js +937 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.d.ts +15 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.js +279 -0
package/src/inference/pipelines/text/execution-v0.js +78 -1002
package/src/inference/pipelines/text/ffn/standard.js +3 -0
package/src/inference/pipelines/text/generator-steps.d.ts +46 -0
package/src/inference/pipelines/text/generator-steps.js +298 -207
package/src/inference/pipelines/text/generator.js +6 -23
package/src/inference/pipelines/text/init.d.ts +4 -0
package/src/inference/pipelines/text/init.js +134 -29
package/src/inference/pipelines/text/kernel-path-auto-select.js +2 -0
package/src/inference/pipelines/text/kernel-trace.d.ts +2 -0
package/src/inference/pipelines/text/kernel-trace.js +6 -0
package/src/inference/pipelines/text/layer.js +14 -9
package/src/inference/pipelines/text/linear-attention.d.ts +10 -0
package/src/inference/pipelines/text/linear-attention.js +80 -6
package/src/inference/pipelines/text/logits/gpu.js +10 -5
package/src/inference/pipelines/text/logits/index.js +10 -11
package/src/inference/pipelines/text/logits/utils.d.ts +7 -0
package/src/inference/pipelines/text/logits/utils.js +9 -0
package/src/inference/pipelines/text/lora-apply.js +50 -32
package/src/inference/pipelines/text/model-load.js +279 -104
package/src/inference/pipelines/text/moe-cache.js +5 -4
package/src/inference/pipelines/text/moe-cpu-gptoss.js +74 -69
package/src/inference/pipelines/text/moe-cpu.js +42 -38
package/src/inference/pipelines/text/moe-gpu.js +110 -86
package/src/inference/pipelines/text/ops.js +90 -90
package/src/inference/pipelines/text/probes.js +9 -9
package/src/inference/pipelines/text/weights.js +17 -7
package/src/inference/pipelines/text.js +17 -1
package/src/inference/speculative.d.ts +2 -2
package/src/inference/speculative.js +4 -18
package/src/inference/test-harness.d.ts +1 -1
package/src/inference/test-harness.js +15 -5
package/src/inference/tokenizer.d.ts +0 -5
package/src/inference/tokenizer.js +4 -23
package/src/inference/tokenizers/bpe.js +9 -0
package/src/inference/tokenizers/bundled.js +176 -33
package/src/inference/tokenizers/sentencepiece.js +12 -0
package/src/loader/doppler-loader.js +38 -22
package/src/loader/dtype-utils.js +3 -44
package/src/loader/embedding-loader.js +7 -3
package/src/loader/experts/expert-cache.js +13 -6
package/src/loader/experts/expert-loader.js +10 -6
package/src/loader/final-weights-loader.js +8 -4
package/src/loader/layer-loader.js +2 -1
package/src/loader/loader-state.js +2 -2
package/src/loader/memory-monitor.js +8 -0
package/src/loader/multi-model-loader.d.ts +14 -0
package/src/loader/multi-model-loader.js +70 -24
package/src/loader/shard-cache.js +81 -12
package/src/loader/shard-resolver.js +25 -3
package/src/loader/tensors/tensor-loader.js +209 -144
package/src/loader/tensors/tensor-reader.js +76 -19
package/src/loader/weight-downcast.js +1 -1
package/src/memory/buffer-pool.d.ts +9 -1
package/src/memory/buffer-pool.js +109 -44
package/src/memory/unified-detect.js +1 -1
package/src/rules/inference/kernel-path.rules.json +24 -8
package/src/rules/rule-registry.js +25 -1
package/src/rules/tooling/command-runtime.rules.json +18 -0
package/src/storage/backends/opfs-store.js +68 -24
package/src/storage/downloader.js +364 -83
package/src/storage/index.d.ts +3 -0
package/src/storage/index.js +3 -0
package/src/storage/preflight.d.ts +2 -2
package/src/storage/preflight.js +24 -2
package/src/storage/quickstart-downloader.js +11 -5
package/src/storage/registry.js +10 -4
package/src/storage/reports.js +1 -1
package/src/storage/shard-manager.d.ts +15 -1
package/src/storage/shard-manager.js +51 -3
package/src/storage/source-artifact-store.d.ts +52 -0
package/src/storage/source-artifact-store.js +234 -0
package/src/tooling/command-api-constants.d.ts +9 -0
package/src/tooling/command-api-constants.js +9 -0
package/src/tooling/command-api-family-normalizers.d.ts +9 -0
package/src/tooling/command-api-family-normalizers.js +343 -0
package/src/tooling/command-api-helpers.d.ts +25 -0
package/src/tooling/command-api-helpers.js +262 -0
package/src/tooling/command-api.d.ts +27 -1
package/src/tooling/command-api.js +26 -473
package/src/tooling/command-envelope.js +4 -1
package/src/tooling/command-runner-shared.js +52 -18
package/src/tooling/lean-execution-contract.js +150 -3
package/src/tooling/node-browser-command-runner.d.ts +4 -0
package/src/tooling/node-browser-command-runner.js +218 -273
package/src/tooling/node-command-runner.js +44 -3
package/src/tooling/node-converter.js +27 -1
package/src/tooling/node-source-runtime.d.ts +1 -1
package/src/tooling/node-source-runtime.js +84 -3
package/src/tooling/node-webgpu.js +30 -105
package/src/tooling/opfs-cache.js +21 -4
package/src/tooling/runtime-input-composition.d.ts +38 -0
package/src/tooling/runtime-input-composition.js +86 -0
package/src/tooling/source-runtime-bundle.d.ts +40 -5
package/src/tooling/source-runtime-bundle.js +261 -34
package/src/tooling/source-runtime-materializer.d.ts +6 -0
package/src/tooling/source-runtime-materializer.js +93 -0
package/src/training/attention-backward.js +32 -17
package/src/training/autograd.js +80 -52
package/src/training/checkpoint-watch.d.ts +8 -0
package/src/training/checkpoint-watch.js +139 -0
package/src/training/checkpoint.d.ts +6 -1
package/src/training/checkpoint.js +46 -7
package/src/training/clip.js +2 -1
package/src/training/datasets/token-batch.js +20 -8
package/src/training/distillation/artifacts.d.ts +71 -0
package/src/training/distillation/artifacts.js +132 -0
package/src/training/distillation/checkpoint-watch.d.ts +10 -0
package/src/training/distillation/checkpoint-watch.js +58 -0
package/src/training/distillation/dataset.d.ts +59 -0
package/src/training/distillation/dataset.js +337 -0
package/src/training/distillation/eval.d.ts +34 -0
package/src/training/distillation/eval.js +310 -0
package/src/training/distillation/index.d.ts +29 -0
package/src/training/distillation/index.js +29 -0
package/src/training/distillation/runtime.d.ts +20 -0
package/src/training/distillation/runtime.js +121 -0
package/src/training/distillation/scoreboard.d.ts +6 -0
package/src/training/distillation/scoreboard.js +8 -0
package/src/training/distillation/stage-a.d.ts +45 -0
package/src/training/distillation/stage-a.js +338 -0
package/src/training/distillation/stage-b.d.ts +24 -0
package/src/training/distillation/stage-b.js +20 -0
package/src/training/distillation/student-fixture.d.ts +22 -0
package/src/training/distillation/student-fixture.js +846 -0
package/src/training/distillation/suite-data.d.ts +45 -0
package/src/training/distillation/suite-data.js +189 -0
package/src/training/index.d.ts +10 -0
package/src/training/index.js +10 -0
package/src/training/lora-pipeline.d.ts +40 -0
package/src/training/lora-pipeline.js +793 -0
package/src/training/lora.js +26 -12
package/src/training/loss.js +5 -6
package/src/training/objectives/cross_entropy.js +2 -5
package/src/training/objectives/distill_kd.js +4 -8
package/src/training/objectives/distill_triplet.js +4 -8
package/src/training/objectives/ul_stage2_base.js +4 -8
package/src/training/operator-artifacts.d.ts +62 -0
package/src/training/operator-artifacts.js +140 -0
package/src/training/operator-command.d.ts +5 -0
package/src/training/operator-command.js +455 -0
package/src/training/operator-eval.d.ts +48 -0
package/src/training/operator-eval.js +230 -0
package/src/training/operator-scoreboard.d.ts +5 -0
package/src/training/operator-scoreboard.js +44 -0
package/src/training/optimizer.js +19 -7
package/src/training/runner.d.ts +52 -0
package/src/training/runner.js +31 -5
package/src/training/suite.d.ts +112 -0
package/src/training/suite.js +24 -984
package/src/training/tensor-factory.d.ts +9 -0
package/src/training/tensor-factory.js +13 -0
package/src/training/trainer.js +3 -5
package/src/training/ul_dataset.js +3 -5
package/src/training/workloads.d.ts +164 -0
package/src/training/workloads.js +530 -0
package/src/version.js +1 -1
package/tools/convert-safetensors-node.js +22 -16
package/tools/doppler-cli.js +179 -63

package/src/inference/pipelines/text/ffn/standard.js CHANGED Viewed

@@ -42,6 +42,7 @@ export async function processFFNStandard(
     hiddenSize,
     probes: context.debugProbes,
     recorder,
+    dtype: normedTensor.dtype,
   });
   // 2. FFN
@@ -58,6 +59,7 @@ export async function processFFNStandard(
     hiddenSize,
     probes: context.debugProbes,
     recorder,
+    dtype: ffnOutput.dtype,
   });
   // 3. Residual add
@@ -72,6 +74,7 @@ export async function processFFNStandard(
     hiddenSize,
     probes: context.debugProbes,
     recorder,
+    dtype: output.dtype,
   });
   if (normedTensor !== postAttn) {

package/src/inference/pipelines/text/generator-steps.d.ts CHANGED Viewed

@@ -19,6 +19,52 @@ export declare function resolveBatchStop(
   eosTokenId: number | undefined | null
 ): number;
+export interface SampledTokenStagingBuffer {
+  mapAsync(mode: number): Promise<void>;
+  getMappedRange(): ArrayBufferLike;
+  unmap(): void;
+  destroy(): void;
+}
+export declare function readSampledTokenFromStagingBuffer(
+  stagingBuffer: SampledTokenStagingBuffer,
+  options?: {
+    ownsStagingBuffer?: boolean;
+    hasFinitenessBuffer?: boolean;
+    ring?: { advance(): void } | null;
+  }
+): Promise<{
+  nextToken: number;
+  finitenessStatus: {
+    triggered: boolean;
+    metadata: string;
+  };
+}>;
+export declare function readMappedBufferCopy(
+  stagingBuffer: SampledTokenStagingBuffer,
+  options?: {
+    ownsStagingBuffer?: boolean;
+  }
+): Promise<ArrayBuffer>;
+export declare function readBatchTokensFromStagingBuffers(options: {
+  tokensStagingBuffer: SampledTokenStagingBuffer;
+  stopStagingBuffer?: SampledTokenStagingBuffer | null;
+  finitenessStagingBuffer?: SampledTokenStagingBuffer | null;
+  tokenCount: number;
+  ownsTokensStaging?: boolean;
+  ownsStopStaging?: boolean;
+  ring?: { advance(): void } | null;
+}): Promise<{
+  tokens: number[];
+  stopFlags: Uint32Array | null;
+  finitenessStatus: {
+    triggered: boolean;
+    metadata: string;
+  };
+}>;
 export declare function decodeStep(
   state: unknown,
   currentIds: number[],

package/src/inference/pipelines/text/generator-steps.js CHANGED Viewed

@@ -113,6 +113,116 @@ export function resolveBatchStop(tokens, stopFlags, stopTokenIds, eosTokenId) {
   return actualCount;
 }
+export async function readSampledTokenFromStagingBuffer(stagingBuffer, options = {}) {
+  const ownsStagingBuffer = options.ownsStagingBuffer === true;
+  const hasFinitenessBuffer = options.hasFinitenessBuffer === true;
+  const ring = options.ring ?? null;
+  let mapped = false;
+  try {
+    await stagingBuffer.mapAsync(GPUMapMode.READ);
+    mapped = true;
+    const mappedWords = new Uint32Array(stagingBuffer.getMappedRange());
+    return {
+      nextToken: mappedWords[0],
+      finitenessStatus: hasFinitenessBuffer
+        ? parseFinitenessStatusWords(mappedWords, 1)
+        : parseFinitenessStatusWords(mappedWords, 0),
+    };
+  } finally {
+    if (mapped) {
+      stagingBuffer.unmap();
+    }
+    if (ownsStagingBuffer) {
+      stagingBuffer.destroy();
+    }
+    ring?.advance();
+  }
+}
+export async function readMappedBufferCopy(stagingBuffer, options = {}) {
+  const ownsStagingBuffer = options.ownsStagingBuffer !== false;
+  let mapped = false;
+  try {
+    await stagingBuffer.mapAsync(GPUMapMode.READ);
+    mapped = true;
+    return stagingBuffer.getMappedRange().slice(0);
+  } finally {
+    if (mapped) {
+      stagingBuffer.unmap();
+    }
+    if (ownsStagingBuffer) {
+      stagingBuffer.destroy();
+    }
+  }
+}
+export async function readBatchTokensFromStagingBuffers(options) {
+  const {
+    tokensStagingBuffer,
+    stopStagingBuffer = null,
+    finitenessStagingBuffer = null,
+    tokenCount,
+    ownsTokensStaging = false,
+    ownsStopStaging = false,
+    ring = null,
+  } = options;
+  let tokensMapped = false;
+  let stopMapped = false;
+  let finitenessMapped = false;
+  try {
+    const mapPromises = [tokensStagingBuffer.mapAsync(GPUMapMode.READ)];
+    if (stopStagingBuffer) {
+      mapPromises.push(stopStagingBuffer.mapAsync(GPUMapMode.READ));
+    }
+    if (finitenessStagingBuffer) {
+      mapPromises.push(finitenessStagingBuffer.mapAsync(GPUMapMode.READ));
+    }
+    await Promise.all(mapPromises);
+    tokensMapped = true;
+    stopMapped = Boolean(stopStagingBuffer);
+    finitenessMapped = Boolean(finitenessStagingBuffer);
+    const tokens = Array.from(
+      new Uint32Array(tokensStagingBuffer.getMappedRange()).subarray(0, tokenCount)
+    );
+    const stopFlags = stopStagingBuffer
+      ? new Uint32Array(stopStagingBuffer.getMappedRange().slice(0, tokenCount * 4))
+      : null;
+    const finitenessStatus = finitenessStagingBuffer
+      ? parseFinitenessStatusWords(new Uint32Array(finitenessStagingBuffer.getMappedRange()), 0)
+      : { triggered: false, metadata: '' };
+    return {
+      tokens,
+      stopFlags,
+      finitenessStatus,
+    };
+  } finally {
+    if (finitenessMapped) {
+      finitenessStagingBuffer.unmap();
+    }
+    if (tokensMapped) {
+      tokensStagingBuffer.unmap();
+    }
+    if (stopMapped) {
+      stopStagingBuffer.unmap();
+    }
+    if (finitenessStagingBuffer) {
+      finitenessStagingBuffer.destroy();
+    }
+    if (ownsTokensStaging) {
+      tokensStagingBuffer.destroy();
+    }
+    if (ownsStopStaging) {
+      stopStagingBuffer?.destroy();
+    }
+    ring?.advance();
+  }
+}
 async function runDecodeLayers(state, tokenId, opts, helpers) {
   const config = state.modelConfig;
   const debugCheckBuffer = state.debug ? helpers.debugCheckBuffer : undefined;
@@ -352,17 +462,11 @@ export async function decodeStep(state, currentIds, opts, helpers) {
       throw new Error('[Pipeline] GPU readback disabled for sampling');
     }
-    await stagingBuffer.mapAsync(GPUMapMode.READ);
-    const mapped = new Uint32Array(stagingBuffer.getMappedRange());
-    const nextToken = mapped[0];
-    const finitenessStatus = state.finitenessBuffer
-      ? parseFinitenessStatusWords(mapped, 1)
-      : parseFinitenessStatusWords(mapped, 0);
-    stagingBuffer.unmap();
-    if (ownsStagingBuffer) {
-      stagingBuffer.destroy();
-    }
-    ring?.advance();
+    const { nextToken, finitenessStatus } = await readSampledTokenFromStagingBuffer(stagingBuffer, {
+      ownsStagingBuffer,
+      hasFinitenessBuffer: Boolean(state.finitenessBuffer),
+      ring,
+    });
     if (finitenessStatus.triggered) {
       releaseBuffer(logitsBuffer);
@@ -499,10 +603,7 @@ export async function decodeStep(state, currentIds, opts, helpers) {
         const enc = debugDevice.createCommandEncoder();
         enc.copyBufferToBuffer(hiddenStates, 0, staging, 0, sampleSize);
         debugDevice.queue.submit([enc.finish()]);
-        await staging.mapAsync(GPUMapMode.READ);
-        const data = new Float32Array(staging.getMappedRange().slice(0));
-        staging.unmap();
-        staging.destroy();
+        const data = new Float32Array(await readMappedBufferCopy(staging));
         const nanCount = Array.from(data).filter(x => !Number.isFinite(x)).length;
         const nonZero = Array.from(data).filter(x => Number.isFinite(x) && x !== 0).slice(0, 5);
         log.debug('Decode', `[1] HIDDEN_AFTER_LAYERS: nan=${nanCount}/${data.length}, nonZero=${nonZero.length}, sample=[${nonZero.map(x => x.toFixed(4)).join(', ')}]`);
@@ -854,225 +955,215 @@ export async function generateNTokensGPU(state, startToken, N, currentIds, opts,
     })
     : null;
   const ownsStopStaging = useGpuStopFlags && !ringSlot?.stagingStop;
+  let finitenessStagingBuffer = null;
+  let readbackCleanupDelegated = false;
+  try {
+    if (state.finitenessBuffer) {
+      device.queue.writeBuffer(state.finitenessBuffer, 0, new Uint32Array([0, 0, 0, 0]));
+    }
-  if (state.finitenessBuffer) {
-    device.queue.writeBuffer(state.finitenessBuffer, 0, new Uint32Array([0, 0, 0, 0]));
-  }
+    device.queue.writeBuffer(tokensBuffer, 0, new Uint32Array([startToken]));
+    if (stopBuffer) {
+      const stopElements = stopBuffer.size / 4;
+      const zeroStopData = ringSlot?.zeroStopData;
+      const clearData = zeroStopData && zeroStopData.length <= stopElements
+        ? zeroStopData
+        : new Uint32Array(stopElements);
+      device.queue.writeBuffer(stopBuffer, 0, clearData);
+    }
-  device.queue.writeBuffer(tokensBuffer, 0, new Uint32Array([startToken]));
-  if (stopBuffer) {
-    const stopElements = stopBuffer.size / 4;
-    const zeroStopData = ringSlot?.zeroStopData;
-    const clearData = zeroStopData && zeroStopData.length <= stopElements
-      ? zeroStopData
-      : new Uint32Array(stopElements);
-    device.queue.writeBuffer(stopBuffer, 0, clearData);
-  }
+    const context = helpers.buildLayerContext(recorder, true, opts.debugLayers, executionPlan);
+    const embedBufferRaw = state.weights.get('embed');
+    if (isCpuWeightBuffer(embedBufferRaw)) {
+      throw new Error('[Pipeline] GPU-only decode not supported with CPU-resident embeddings.');
+    }
+    if (!(embedBufferRaw instanceof GPUBuffer) && !isWeightBuffer(embedBufferRaw)) {
+      throw new Error('Embed buffer not found or not a GPUBuffer/WeightBuffer');
+    }
+    const embedBuffer = isWeightBuffer(embedBufferRaw) ? embedBufferRaw.buffer : embedBufferRaw;
+    const embedDtype = isWeightBuffer(embedBufferRaw) ? getWeightDtype(embedBufferRaw) : null;
+    const activationDtype = getEffectiveActivationDtype(state, opts);
+    for (let i = 0; i < N; i++) {
+      const currentPos = state.currentSeqLen + i;
+      context.currentSeqLen = currentPos;
+      context.currentTokenIds = [startToken];
+      context.decodeBuffers?.resetPingPong();
+      const hiddenTensor = await embed(tokensBuffer, embedBuffer, {
+        hiddenSize: config.hiddenSize,
+        vocabSize: config.vocabSize,
+        scaleEmbeddings: config.scaleEmbeddings,
+        recorder,
+        transpose: state.embeddingTranspose,
+        debugProbes: state.runtimeConfig.shared.debug.probes,
+        activationDtype,
+        embeddingDtype: selectRuleValue('inference', 'dtype', 'f16OrF32FromDtype', { dtype: embedDtype }),
+        numTokens: 1,
+        indexOffset: i,
+      });
-  const context = helpers.buildLayerContext(recorder, true, opts.debugLayers, executionPlan);
-  const embedBufferRaw = state.weights.get('embed');
-  if (isCpuWeightBuffer(embedBufferRaw)) {
-    throw new Error('[Pipeline] GPU-only decode not supported with CPU-resident embeddings.');
-  }
-  if (!(embedBufferRaw instanceof GPUBuffer) && !isWeightBuffer(embedBufferRaw)) {
-    throw new Error('Embed buffer not found or not a GPUBuffer/WeightBuffer');
-  }
-  const embedBuffer = isWeightBuffer(embedBufferRaw) ? embedBufferRaw.buffer : embedBufferRaw;
-  const embedDtype = isWeightBuffer(embedBufferRaw) ? getWeightDtype(embedBufferRaw) : null;
-  const activationDtype = getEffectiveActivationDtype(state, opts);
+      let hiddenStatesBuffer = hiddenTensor.buffer;
+      for (let l = 0; l < config.numLayers; l++) {
+        const prevStates = hiddenStatesBuffer;
+        hiddenStatesBuffer = (await processLayer(l, hiddenStatesBuffer, 1, false, context));
+        context.decodeBuffers?.swapPingPong();
+        if (prevStates instanceof GPUBuffer && prevStates !== hiddenStatesBuffer) {
+          const ownsBuffer = context.decodeBuffers?.ownsBuffer(prevStates);
+          if (!ownsBuffer) {
+            recorder.trackTemporaryBuffer(prevStates);
+          }
+        }
+      }
-  for (let i = 0; i < N; i++) {
-    const currentPos = state.currentSeqLen + i;
-    context.currentSeqLen = currentPos;
-    context.currentTokenIds = [startToken];
-    context.decodeBuffers?.resetPingPong();
+      const logits = await recordLogitsGPU(
+        recorder,
+        hiddenStatesBuffer,
+        1,
+        helpers.getLogitsWeights(),
+        helpers.getLogitsConfig()
+      );
+      const { logitsBuffer, vocabSize, logitsDtype } = logits;
-    const hiddenTensor = await embed(tokensBuffer, embedBuffer, {
-      hiddenSize: config.hiddenSize,
-      vocabSize: config.vocabSize,
-      scaleEmbeddings: config.scaleEmbeddings,
-      recorder,
-      transpose: state.embeddingTranspose,
-      debugProbes: state.runtimeConfig.shared.debug.probes,
-      activationDtype,
-      embeddingDtype: selectRuleValue('inference', 'dtype', 'f16OrF32FromDtype', { dtype: embedDtype }),
-      numTokens: 1,
-      indexOffset: i,
-    });
+      const outputIndex = i + 1;
+      if (opts.temperature < samplingDefaults.greedyThreshold) {
+        await recordArgmax(recorder, logitsBuffer, vocabSize, {
+          padTokenId,
+          logitSoftcap,
+          logitsDtype,
+          outputBuffer: tokensBuffer,
+          outputIndex,
+        });
+      } else {
+        await recordGPUSample(recorder, logitsBuffer, vocabSize, {
+          temperature: opts.temperature,
+          topK: opts.topK,
+          padTokenId,
+          logitSoftcap,
+          logitsDtype,
+          outputBuffer: tokensBuffer,
+          outputIndex,
+          greedyThreshold: samplingDefaults.greedyThreshold,
+        });
+      }
-    let hiddenStatesBuffer = hiddenTensor.buffer;
-    for (let l = 0; l < config.numLayers; l++) {
-      const prevStates = hiddenStatesBuffer;
-      hiddenStatesBuffer = (await processLayer(l, hiddenStatesBuffer, 1, false, context));
-      context.decodeBuffers?.swapPingPong();
-      if (prevStates instanceof GPUBuffer && prevStates !== hiddenStatesBuffer) {
-        const ownsBuffer = context.decodeBuffers?.ownsBuffer(prevStates);
-        if (!ownsBuffer) {
-          recorder.trackTemporaryBuffer(prevStates);
-        }
+      const stopCheck = useGpuStopFlags
+        ? recordCheckStop(recorder, {
+          sampledTokenBuffer: tokensBuffer,
+          shouldStopBuffer: stopBuffer,
+          tokenIndex: outputIndex,
+          eosTokenId,
+          maxTokens: maxSeqLen,
+          currentPos,
+        })
+        : null;
+      if (hiddenStatesBuffer instanceof GPUBuffer && !context.decodeBuffers?.ownsBuffer(hiddenStatesBuffer)) {
+        recorder.trackTemporaryBuffer(hiddenStatesBuffer);
+      }
+      if (logitsBuffer instanceof GPUBuffer) {
+        recorder.trackTemporaryBuffer(logitsBuffer);
+      }
+      if (stopCheck instanceof GPUBuffer && stopCheck !== stopBuffer) {
+        recorder.trackTemporaryBuffer(stopCheck);
       }
     }
-    const logits = await recordLogitsGPU(
-      recorder,
-      hiddenStatesBuffer,
-      1,
-      helpers.getLogitsWeights(),
-      helpers.getLogitsConfig()
-    );
-    const { logitsBuffer, vocabSize, logitsDtype } = logits;
+    const recordMs = performance.now() - recordStart;
+    state.stats.decodeRecordMs = (state.stats.decodeRecordMs ?? 0) + recordMs;
-    const outputIndex = i + 1;
-    if (opts.temperature < samplingDefaults.greedyThreshold) {
-      await recordArgmax(recorder, logitsBuffer, vocabSize, {
-        padTokenId,
-        logitSoftcap,
-        logitsDtype,
-        outputBuffer: tokensBuffer,
-        outputIndex,
-      });
-    } else {
-      await recordGPUSample(recorder, logitsBuffer, vocabSize, {
-        temperature: opts.temperature,
-        topK: opts.topK,
-        padTokenId,
-        logitSoftcap,
-        logitsDtype,
-        outputBuffer: tokensBuffer,
-        outputIndex,
-        greedyThreshold: samplingDefaults.greedyThreshold,
-      });
+    const encoder = recorder.getEncoder();
+    encoder.copyBufferToBuffer(tokensBuffer, 4, tokensStagingBuffer, 0, N * 4);
+    if (useGpuStopFlags && stopBuffer && stopStagingBuffer) {
+      encoder.copyBufferToBuffer(stopBuffer, 4, stopStagingBuffer, 0, N * 4);
     }
-    const stopCheck = useGpuStopFlags
-      ? recordCheckStop(recorder, {
-        sampledTokenBuffer: tokensBuffer,
-        shouldStopBuffer: stopBuffer,
-        tokenIndex: outputIndex,
-        eosTokenId,
-        maxTokens: maxSeqLen,
-        currentPos,
-      })
-      : null;
-    if (hiddenStatesBuffer instanceof GPUBuffer && !context.decodeBuffers?.ownsBuffer(hiddenStatesBuffer)) {
-      recorder.trackTemporaryBuffer(hiddenStatesBuffer);
-    }
-    if (logitsBuffer instanceof GPUBuffer) {
-      recorder.trackTemporaryBuffer(logitsBuffer);
-    }
-    if (stopCheck instanceof GPUBuffer && stopCheck !== stopBuffer) {
-      recorder.trackTemporaryBuffer(stopCheck);
+    if (state.finitenessBuffer) {
+      finitenessStagingBuffer = device.createBuffer({
+        size: 16,
+        usage: GPUBufferUsage.COPY_DST | GPUBufferUsage.MAP_READ
+      });
+      encoder.copyBufferToBuffer(state.finitenessBuffer, 0, finitenessStagingBuffer, 0, 16);
     }
-  }
-  const recordMs = performance.now() - recordStart;
-  state.stats.decodeRecordMs = (state.stats.decodeRecordMs ?? 0) + recordMs;
+    recorder.submit();
-  const encoder = recorder.getEncoder();
-  encoder.copyBufferToBuffer(tokensBuffer, 4, tokensStagingBuffer, 0, N * 4);
-  if (useGpuStopFlags && stopBuffer && stopStagingBuffer) {
-    encoder.copyBufferToBuffer(stopBuffer, 4, stopStagingBuffer, 0, N * 4);
-  }
+    if (!allowReadback('pipeline.decode.sample')) {
+      throw new Error('[Pipeline] GPU readback disabled for sampling');
+    }
-  let finitenessStagingBuffer = null;
-  if (state.finitenessBuffer) {
-    finitenessStagingBuffer = device.createBuffer({
-      size: 16,
-      usage: GPUBufferUsage.COPY_DST | GPUBufferUsage.MAP_READ
+    const readbackStart = performance.now();
+    readbackCleanupDelegated = true;
+    const readback = await readBatchTokensFromStagingBuffers({
+      tokensStagingBuffer,
+      stopStagingBuffer,
+      finitenessStagingBuffer,
+      tokenCount: N,
+      ownsTokensStaging,
+      ownsStopStaging,
+      ring,
     });
-    encoder.copyBufferToBuffer(state.finitenessBuffer, 0, finitenessStagingBuffer, 0, 16);
-  }
-  recorder.submit();
-  if (!allowReadback('pipeline.decode.sample')) {
-    throw new Error('[Pipeline] GPU readback disabled for sampling');
-  }
-  const readbackStart = performance.now();
-  const mapPromises = [tokensStagingBuffer.mapAsync(GPUMapMode.READ)];
-  if (stopStagingBuffer) {
-    mapPromises.push(stopStagingBuffer.mapAsync(GPUMapMode.READ));
-  }
-  if (finitenessStagingBuffer) {
-    mapPromises.push(finitenessStagingBuffer.mapAsync(GPUMapMode.READ));
-  }
-  await Promise.all(mapPromises);
-  const readbackWaitMs = performance.now() - readbackStart;
-  state.stats.decodeReadbackWaitMs = (state.stats.decodeReadbackWaitMs ?? 0) + readbackWaitMs;
-  let isInfinite = false;
-  let metadata = '';
-  if (finitenessStagingBuffer) {
-    const finitenessData = new Uint32Array(finitenessStagingBuffer.getMappedRange());
-    const finitenessStatus = parseFinitenessStatusWords(finitenessData, 0);
-    isInfinite = finitenessStatus.triggered;
-    metadata = finitenessStatus.metadata;
-    finitenessStagingBuffer.unmap();
-    finitenessStagingBuffer.destroy();
-  }
-  const submitWaitMs = recorder.getSubmitLatencyMs();
-  if (submitWaitMs != null) {
-    state.stats.decodeSubmitWaitMs = (state.stats.decodeSubmitWaitMs ?? 0) + submitWaitMs;
-  }
-  getUniformCache().flushPendingDestruction();
-  const tokensView = new Uint32Array(tokensStagingBuffer.getMappedRange());
-  const tokens = Array.from(tokensView.subarray(0, N));
+    const readbackWaitMs = performance.now() - readbackStart;
+    state.stats.decodeReadbackWaitMs = (state.stats.decodeReadbackWaitMs ?? 0) + readbackWaitMs;
-  const stopFlags = stopStagingBuffer
-    ? new Uint32Array(stopStagingBuffer.getMappedRange().slice(0, N * 4))
-    : null;
+    const isInfinite = readback.finitenessStatus.triggered;
+    const metadata = readback.finitenessStatus.metadata;
-  if (stopFlags) {
-    log.debug('Pipeline', `[STOP] N=${N} flags=[${Array.from(stopFlags).join(',')}] tokens=[${tokens.join(',')}] eos=${eosTokenId}`);
-  }
+    const submitWaitMs = recorder.getSubmitLatencyMs();
+    if (submitWaitMs != null) {
+      state.stats.decodeSubmitWaitMs = (state.stats.decodeSubmitWaitMs ?? 0) + submitWaitMs;
+    }
-  const actualCount = resolveBatchStop(tokens, stopFlags, stopTokenIds, eosToken);
+    getUniformCache().flushPendingDestruction();
-  tokensStagingBuffer.unmap();
-  if (stopStagingBuffer) {
-    stopStagingBuffer.unmap();
-  }
+    const tokens = readback.tokens;
+    const stopFlags = readback.stopFlags;
-  const generatedTokens = tokens.slice(0, actualCount);
+    if (stopFlags) {
+      log.debug('Pipeline', `[STOP] N=${N} flags=[${Array.from(stopFlags).join(',')}] tokens=[${tokens.join(',')}] eos=${eosTokenId}`);
+    }
-  if (ownsTokensBuffer) tokensBuffer.destroy();
-  if (ownsStopBuffer) stopBuffer?.destroy();
-  if (ownsTokensStaging) tokensStagingBuffer.destroy();
-  if (ownsStopStaging) stopStagingBuffer?.destroy();
+    const actualCount = resolveBatchStop(tokens, stopFlags, stopTokenIds, eosToken);
+    const generatedTokens = tokens.slice(0, actualCount);
-  if (isInfinite) {
-    throw new FinitenessError(`F16 bounds exceeded during batch generation${metadata}`);
-  }
+    if (isInfinite) {
+      throw new FinitenessError(`F16 bounds exceeded during batch generation${metadata}`);
+    }
-  if (opts.profile && recorder.isProfilingEnabled()) {
-    const timings = await recorder.resolveProfileTimings();
-    const total = sumProfileTimings(timings);
-    if (total !== null) {
-      state.stats.gpuTimeDecodeMs = (state.stats.gpuTimeDecodeMs ?? 0) + total;
+    if (opts.profile && recorder.isProfilingEnabled()) {
+      const timings = await recorder.resolveProfileTimings();
+      const total = sumProfileTimings(timings);
+      if (total !== null) {
+        state.stats.gpuTimeDecodeMs = (state.stats.gpuTimeDecodeMs ?? 0) + total;
+      }
+      if (timings) {
+        recordDecodeProfileStep(state, {
+          batch: true,
+          stepStart: state.decodeStepCount + 1,
+          stepCount: actualCount,
+          timings,
+          totalMs: total ?? undefined,
+        });
+        const stepStart = state.decodeStepCount + 1;
+        if (shouldLogProfileStep(state, stepStart)) {
+          log.warn('Profile', `Batch decode (N=${N}):`);
+          log.warn('Profile', CommandRecorder.formatProfileReport(timings));
+        }
+      }
     }
-    if (timings) {
-      recordDecodeProfileStep(state, {
-        batch: true,
-        stepStart: state.decodeStepCount + 1,
-        stepCount: actualCount,
-        timings,
-        totalMs: total ?? undefined,
-      });
-      const stepStart = state.decodeStepCount + 1;
-      if (shouldLogProfileStep(state, stepStart)) {
-        log.warn('Profile', `Batch decode (N=${N}):`);
-        log.warn('Profile', CommandRecorder.formatProfileReport(timings));
+    state.currentSeqLen += actualCount;
+    return { tokens: generatedTokens, actualCount };
+  } finally {
+    if (!readbackCleanupDelegated) {
+      if (finitenessStagingBuffer) {
+        finitenessStagingBuffer.destroy();
       }
+      if (ownsTokensStaging) tokensStagingBuffer.destroy();
+      if (ownsStopStaging) stopStagingBuffer?.destroy();
+      ring?.advance();
     }
+    if (ownsTokensBuffer) tokensBuffer.destroy();
+    if (ownsStopBuffer) stopBuffer?.destroy();
   }
-  state.currentSeqLen += actualCount;
-  ring?.advance();
-  return { tokens: generatedTokens, actualCount };
 }