npm - @simulatte/doppler - Versions diffs - 0.1.5 → 0.1.7 - Mend

@simulatte/doppler 0.1.5 → 0.1.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (392) hide show

package/CHANGELOG.md +126 -0
package/README.md +25 -17
package/package.json +20 -4
package/src/adapters/adapter-registry.js +12 -1
package/src/adapters/lora-loader.js +23 -6
package/src/bridge/extension-client.d.ts +5 -0
package/src/bridge/extension-client.js +40 -0
package/src/bridge/index.d.ts +2 -1
package/src/bridge/index.js +6 -4
package/src/browser/browser-converter.js +26 -1
package/src/browser/file-picker.js +6 -0
package/src/browser/safetensors-parser-browser.js +84 -1
package/src/browser/shard-io-browser.js +2 -2
package/src/browser/tensor-source-download.js +8 -2
package/src/browser/tensor-source-http.d.ts +1 -0
package/src/browser/tensor-source-http.js +5 -1
package/src/client/doppler-api.browser.js +20 -4
package/src/client/doppler-api.js +19 -3
package/src/client/doppler-provider/generation.js +12 -0
package/src/client/doppler-provider/model-manager.d.ts +10 -0
package/src/client/doppler-provider/model-manager.js +91 -19
package/src/client/doppler-provider/source-runtime.d.ts +2 -1
package/src/client/doppler-provider/source-runtime.js +132 -13
package/src/client/doppler-registry.json +8 -7
package/src/config/backward-registry-loader.js +17 -2
package/src/config/execution-v0-contract-check.js +113 -15
package/src/config/kernel-path-contract-check.js +57 -29
package/src/config/kernel-path-loader.js +5 -36
package/src/config/kernels/kernel-ref-digests.js +39 -39
package/src/config/kernels/registry.js +14 -1
package/src/config/kernels/registry.json +49 -7
package/src/config/loader.d.ts +1 -1
package/src/config/loader.js +43 -4
package/src/config/merge-contract-check.js +59 -4
package/src/config/merge-helpers.js +128 -7
package/src/config/merge.d.ts +1 -0
package/src/config/merge.js +28 -0
package/src/config/param-validator.js +47 -2
package/src/config/presets/kernel-paths/{gemma2-q4k-dequant-f32a.json → gemma2-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/gemma3-f16-fused-f32a-online-streamingprefill.json +223 -0
package/src/config/presets/kernel-paths/{gemma3-q4k-dequant-f32a.json → gemma3-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/registry.json +29 -8
package/src/config/presets/models/gemma2.json +2 -2
package/src/config/presets/models/qwen3.json +9 -2
package/src/config/presets/models/transformer.json +5 -0
package/src/config/presets/runtime/experiments/bench/gemma3-bench-q4k.json +1 -1
package/src/config/presets/runtime/experiments/debug/gemma3-debug-q4k.json +1 -1
package/src/config/presets/runtime/experiments/verify/gemma3-verify.json +1 -1
package/src/config/presets/runtime/kernels/dequant-f16-q4k.json +6 -13
package/src/config/presets/runtime/kernels/dequant-f32-q4k.json +6 -13
package/src/config/presets/runtime/kernels/embeddinggemma-q4k-dequant-f32a.json +37 -0
package/src/config/presets/runtime/kernels/fused-q4k.json +6 -13
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f16a.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f32a-nosubgroups.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-fused-f32a.json +33 -0
package/src/config/presets/runtime/kernels/safe-q4k.json +6 -13
package/src/config/presets/runtime/platform/metal-apple-q4k.json +1 -1
package/src/config/required-inference-fields-contract-check.js +6 -0
package/src/config/runtime.js +6 -1
package/src/config/schema/debug.schema.d.ts +5 -0
package/src/config/schema/doppler.schema.js +16 -21
package/src/config/schema/inference-defaults.schema.js +6 -3
package/src/config/schema/inference.schema.d.ts +9 -0
package/src/config/schema/kernel-path.schema.d.ts +11 -1
package/src/config/schema/kernel-thresholds.schema.js +12 -4
package/src/config/schema/manifest.schema.d.ts +8 -1
package/src/config/schema/manifest.schema.js +19 -3
package/src/config/training-defaults.js +30 -22
package/src/converter/conversion-plan.js +94 -9
package/src/converter/core.d.ts +7 -0
package/src/converter/core.js +14 -9
package/src/converter/execution-v0-manifest.js +4 -1
package/src/converter/index.d.ts +1 -0
package/src/converter/index.js +1 -0
package/src/converter/manifest-inference.js +43 -12
package/src/converter/parsers/diffusion.js +0 -3
package/src/converter/quantization-info.js +35 -15
package/src/converter/rope-config.js +42 -0
package/src/converter/shard-packer.d.ts +1 -1
package/src/converter/shard-packer.js +4 -1
package/src/debug/config.js +123 -11
package/src/debug/signals.js +7 -1
package/src/debug/tensor.d.ts +2 -0
package/src/debug/tensor.js +13 -2
package/src/distribution/p2p-control-plane.js +52 -12
package/src/distribution/p2p-observability.js +43 -7
package/src/distribution/p2p-webrtc-browser.js +20 -0
package/src/distribution/shard-delivery.js +77 -26
package/src/formats/gguf/types.js +33 -16
package/src/formats/rdrr/groups.d.ts +12 -4
package/src/formats/rdrr/groups.js +3 -6
package/src/formats/rdrr/parsing.js +39 -2
package/src/formats/rdrr/types.d.ts +2 -1
package/src/gpu/command-recorder.js +86 -61
package/src/gpu/device.d.ts +1 -0
package/src/gpu/device.js +131 -19
package/src/gpu/kernel-tuner/benchmarks.js +326 -316
package/src/gpu/kernel-tuner/cache.js +71 -4
package/src/gpu/kernel-tuner/tuner.js +22 -4
package/src/gpu/kernels/attention.js +113 -34
package/src/gpu/kernels/backward/adam.js +62 -58
package/src/gpu/kernels/backward/attention_backward.js +257 -169
package/src/gpu/kernels/backward/conv2d_backward.js +14 -1
package/src/gpu/kernels/bias_add.wgsl +8 -6
package/src/gpu/kernels/bias_add_f16.wgsl +8 -5
package/src/gpu/kernels/cast.js +191 -149
package/src/gpu/kernels/check-stop.js +33 -44
package/src/gpu/kernels/conv2d.js +27 -17
package/src/gpu/kernels/conv2d.wgsl +7 -8
package/src/gpu/kernels/conv2d_f16.wgsl +7 -8
package/src/gpu/kernels/cross_entropy_loss.js +21 -15
package/src/gpu/kernels/depthwise_conv2d.js +37 -26
package/src/gpu/kernels/depthwise_conv2d.wgsl +6 -9
package/src/gpu/kernels/depthwise_conv2d_f16.wgsl +6 -9
package/src/gpu/kernels/dequant.js +178 -126
package/src/gpu/kernels/energy.d.ts +3 -21
package/src/gpu/kernels/energy.js +111 -88
package/src/gpu/kernels/feature-check.js +1 -1
package/src/gpu/kernels/fused_ffn.js +84 -65
package/src/gpu/kernels/fused_matmul_residual.js +56 -33
package/src/gpu/kernels/fused_matmul_rmsnorm.js +62 -45
package/src/gpu/kernels/gather.js +33 -15
package/src/gpu/kernels/gelu.js +19 -11
package/src/gpu/kernels/grouped_pointwise_conv2d.js +34 -23
package/src/gpu/kernels/grouped_pointwise_conv2d.wgsl +6 -9
package/src/gpu/kernels/grouped_pointwise_conv2d_f16.wgsl +6 -9
package/src/gpu/kernels/groupnorm.js +34 -23
package/src/gpu/kernels/kv-quantize.js +5 -2
package/src/gpu/kernels/layernorm.js +35 -19
package/src/gpu/kernels/logit-merge.js +5 -3
package/src/gpu/kernels/matmul.js +83 -39
package/src/gpu/kernels/modulate.js +23 -15
package/src/gpu/kernels/moe.js +221 -175
package/src/gpu/kernels/pixel_shuffle.js +22 -14
package/src/gpu/kernels/pixel_shuffle.wgsl +4 -5
package/src/gpu/kernels/pixel_shuffle_f16.wgsl +4 -5
package/src/gpu/kernels/relu.js +31 -10
package/src/gpu/kernels/relu.wgsl +2 -1
package/src/gpu/kernels/relu_f16.wgsl +2 -1
package/src/gpu/kernels/repeat_channels.js +25 -17
package/src/gpu/kernels/repeat_channels.wgsl +4 -5
package/src/gpu/kernels/repeat_channels_f16.wgsl +4 -5
package/src/gpu/kernels/residual.js +69 -23
package/src/gpu/kernels/residual.wgsl +6 -3
package/src/gpu/kernels/residual_f16.wgsl +2 -1
package/src/gpu/kernels/residual_f16_vec4.wgsl +2 -1
package/src/gpu/kernels/residual_vec4.wgsl +2 -1
package/src/gpu/kernels/rmsnorm.js +96 -28
package/src/gpu/kernels/rmsnorm.wgsl +14 -6
package/src/gpu/kernels/rmsnorm_f16.wgsl +10 -2
package/src/gpu/kernels/rope.d.ts +2 -0
package/src/gpu/kernels/rope.js +14 -1
package/src/gpu/kernels/rope.wgsl +56 -40
package/src/gpu/kernels/sample.js +27 -38
package/src/gpu/kernels/sana_linear_attention.js +19 -12
package/src/gpu/kernels/sana_linear_attention_apply.wgsl +4 -5
package/src/gpu/kernels/sana_linear_attention_apply_f16.wgsl +4 -5
package/src/gpu/kernels/sana_linear_attention_summary.wgsl +4 -0
package/src/gpu/kernels/sana_linear_attention_summary_f16.wgsl +4 -0
package/src/gpu/kernels/scale.js +18 -11
package/src/gpu/kernels/shader-cache.js +4 -2
package/src/gpu/kernels/silu.d.ts +1 -0
package/src/gpu/kernels/silu.js +148 -82
package/src/gpu/kernels/silu.wgsl +19 -9
package/src/gpu/kernels/silu_f16.wgsl +19 -9
package/src/gpu/kernels/softmax.js +44 -25
package/src/gpu/kernels/split_qkv.js +23 -13
package/src/gpu/kernels/transpose.js +31 -10
package/src/gpu/kernels/transpose.wgsl +6 -5
package/src/gpu/kernels/upsample2d.js +22 -13
package/src/gpu/kernels/upsample2d.wgsl +6 -9
package/src/gpu/kernels/upsample2d_f16.wgsl +6 -9
package/src/gpu/kernels/utils.js +35 -13
package/src/gpu/partitioned-buffer-pool.js +10 -2
package/src/gpu/perf-guards.js +2 -9
package/src/gpu/profiler.js +27 -22
package/src/gpu/readback-utils.d.ts +16 -0
package/src/gpu/readback-utils.js +41 -0
package/src/gpu/submit-tracker.js +13 -0
package/src/gpu/uniform-cache.d.ts +1 -0
package/src/gpu/uniform-cache.js +30 -9
package/src/hotswap/intent-bundle.js +6 -0
package/src/hotswap/manifest.d.ts +10 -1
package/src/hotswap/manifest.js +12 -2
package/src/hotswap/runtime.js +30 -8
package/src/index-browser.d.ts +44 -0
package/src/index-browser.js +14 -0
package/src/inference/browser-harness-contract-helpers.d.ts +5 -0
package/src/inference/browser-harness-contract-helpers.js +28 -0
package/src/inference/browser-harness-diffusion-energy-suites.d.ts +2 -0
package/src/inference/browser-harness-diffusion-energy-suites.js +269 -0
package/src/inference/browser-harness-model-helpers.d.ts +16 -0
package/src/inference/browser-harness-model-helpers.js +217 -0
package/src/inference/browser-harness-report-helpers.d.ts +7 -0
package/src/inference/browser-harness-report-helpers.js +42 -0
package/src/inference/browser-harness-runtime-helpers.d.ts +61 -0
package/src/inference/browser-harness-runtime-helpers.js +415 -0
package/src/inference/browser-harness-suite-helpers.d.ts +28 -0
package/src/inference/browser-harness-suite-helpers.js +268 -0
package/src/inference/browser-harness-text-helpers.d.ts +27 -0
package/src/inference/browser-harness-text-helpers.js +788 -0
package/src/inference/browser-harness.d.ts +6 -0
package/src/inference/browser-harness.js +130 -1950
package/src/inference/kv-cache/base.js +140 -94
package/src/inference/kv-cache/tiered.js +5 -3
package/src/inference/moe-router.js +88 -56
package/src/inference/multi-model-network.js +5 -3
package/src/inference/network-evolution.d.ts +11 -2
package/src/inference/network-evolution.js +20 -21
package/src/inference/pipelines/context.d.ts +3 -0
package/src/inference/pipelines/context.js +142 -2
package/src/inference/pipelines/diffusion/helpers.js +7 -2
package/src/inference/pipelines/diffusion/pipeline.js +17 -7
package/src/inference/pipelines/diffusion/sd3-transformer.js +10 -10
package/src/inference/pipelines/diffusion/text-encoder-gpu.d.ts +5 -0
package/src/inference/pipelines/diffusion/text-encoder-gpu.js +27 -15
package/src/inference/pipelines/diffusion/vae.js +3 -7
package/src/inference/pipelines/energy/pipeline.js +27 -21
package/src/inference/pipelines/energy/quintel.d.ts +5 -0
package/src/inference/pipelines/energy/quintel.js +11 -0
package/src/inference/pipelines/energy-head/row-head-pipeline.js +17 -13
package/src/inference/pipelines/structured/json-head-pipeline.js +26 -11
package/src/inference/pipelines/text/attention/projections.js +151 -101
package/src/inference/pipelines/text/attention/record.js +73 -10
package/src/inference/pipelines/text/attention/run.js +73 -10
package/src/inference/pipelines/text/chat-format.js +25 -1
package/src/inference/pipelines/text/config.d.ts +4 -0
package/src/inference/pipelines/text/config.js +71 -5
package/src/inference/pipelines/text/embed.js +2 -8
package/src/inference/pipelines/text/execution-plan.js +64 -50
package/src/inference/pipelines/text/execution-v0-contract-helpers.d.ts +59 -0
package/src/inference/pipelines/text/execution-v0-contract-helpers.js +937 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.d.ts +15 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.js +279 -0
package/src/inference/pipelines/text/execution-v0.js +78 -1002
package/src/inference/pipelines/text/ffn/standard.js +3 -0
package/src/inference/pipelines/text/generator-steps.d.ts +46 -0
package/src/inference/pipelines/text/generator-steps.js +298 -207
package/src/inference/pipelines/text/generator.js +6 -23
package/src/inference/pipelines/text/init.d.ts +4 -0
package/src/inference/pipelines/text/init.js +134 -29
package/src/inference/pipelines/text/kernel-path-auto-select.js +2 -0
package/src/inference/pipelines/text/kernel-trace.d.ts +2 -0
package/src/inference/pipelines/text/kernel-trace.js +6 -0
package/src/inference/pipelines/text/layer.js +14 -9
package/src/inference/pipelines/text/linear-attention.d.ts +10 -0
package/src/inference/pipelines/text/linear-attention.js +80 -6
package/src/inference/pipelines/text/logits/gpu.js +10 -5
package/src/inference/pipelines/text/logits/index.js +10 -11
package/src/inference/pipelines/text/logits/utils.d.ts +7 -0
package/src/inference/pipelines/text/logits/utils.js +9 -0
package/src/inference/pipelines/text/lora-apply.js +50 -32
package/src/inference/pipelines/text/model-load.js +279 -104
package/src/inference/pipelines/text/moe-cache.js +5 -4
package/src/inference/pipelines/text/moe-cpu-gptoss.js +74 -69
package/src/inference/pipelines/text/moe-cpu.js +42 -38
package/src/inference/pipelines/text/moe-gpu.js +110 -86
package/src/inference/pipelines/text/ops.js +90 -90
package/src/inference/pipelines/text/probes.js +9 -9
package/src/inference/pipelines/text/weights.js +17 -7
package/src/inference/pipelines/text.js +17 -1
package/src/inference/speculative.d.ts +2 -2
package/src/inference/speculative.js +4 -18
package/src/inference/test-harness.d.ts +1 -1
package/src/inference/test-harness.js +15 -5
package/src/inference/tokenizer.d.ts +0 -5
package/src/inference/tokenizer.js +4 -23
package/src/inference/tokenizers/bpe.js +9 -0
package/src/inference/tokenizers/bundled.js +176 -33
package/src/inference/tokenizers/sentencepiece.js +12 -0
package/src/loader/doppler-loader.js +38 -22
package/src/loader/dtype-utils.js +3 -44
package/src/loader/embedding-loader.js +7 -3
package/src/loader/experts/expert-cache.js +13 -6
package/src/loader/experts/expert-loader.js +10 -6
package/src/loader/final-weights-loader.js +8 -4
package/src/loader/layer-loader.js +2 -1
package/src/loader/loader-state.js +2 -2
package/src/loader/memory-monitor.js +8 -0
package/src/loader/multi-model-loader.d.ts +14 -0
package/src/loader/multi-model-loader.js +70 -24
package/src/loader/shard-cache.js +81 -12
package/src/loader/shard-resolver.js +25 -3
package/src/loader/tensors/tensor-loader.js +209 -144
package/src/loader/tensors/tensor-reader.js +76 -19
package/src/loader/weight-downcast.js +1 -1
package/src/memory/buffer-pool.d.ts +9 -1
package/src/memory/buffer-pool.js +109 -44
package/src/memory/unified-detect.js +1 -1
package/src/rules/inference/kernel-path.rules.json +24 -8
package/src/rules/rule-registry.js +25 -1
package/src/rules/tooling/command-runtime.rules.json +18 -0
package/src/storage/backends/opfs-store.js +68 -24
package/src/storage/downloader.js +364 -83
package/src/storage/index.d.ts +3 -0
package/src/storage/index.js +3 -0
package/src/storage/preflight.d.ts +2 -2
package/src/storage/preflight.js +24 -2
package/src/storage/quickstart-downloader.js +11 -5
package/src/storage/registry.js +10 -4
package/src/storage/reports.js +1 -1
package/src/storage/shard-manager.d.ts +15 -1
package/src/storage/shard-manager.js +51 -3
package/src/storage/source-artifact-store.d.ts +52 -0
package/src/storage/source-artifact-store.js +234 -0
package/src/tooling/command-api-constants.d.ts +9 -0
package/src/tooling/command-api-constants.js +9 -0
package/src/tooling/command-api-family-normalizers.d.ts +9 -0
package/src/tooling/command-api-family-normalizers.js +343 -0
package/src/tooling/command-api-helpers.d.ts +25 -0
package/src/tooling/command-api-helpers.js +262 -0
package/src/tooling/command-api.d.ts +27 -1
package/src/tooling/command-api.js +26 -473
package/src/tooling/command-envelope.js +4 -1
package/src/tooling/command-runner-shared.js +52 -18
package/src/tooling/lean-execution-contract.js +150 -3
package/src/tooling/node-browser-command-runner.d.ts +4 -0
package/src/tooling/node-browser-command-runner.js +218 -273
package/src/tooling/node-command-runner.js +44 -3
package/src/tooling/node-converter.js +27 -1
package/src/tooling/node-source-runtime.d.ts +1 -1
package/src/tooling/node-source-runtime.js +84 -3
package/src/tooling/node-webgpu.js +30 -105
package/src/tooling/opfs-cache.js +21 -4
package/src/tooling/runtime-input-composition.d.ts +38 -0
package/src/tooling/runtime-input-composition.js +86 -0
package/src/tooling/source-runtime-bundle.d.ts +40 -5
package/src/tooling/source-runtime-bundle.js +261 -34
package/src/tooling/source-runtime-materializer.d.ts +6 -0
package/src/tooling/source-runtime-materializer.js +93 -0
package/src/training/attention-backward.js +32 -17
package/src/training/autograd.js +80 -52
package/src/training/checkpoint-watch.d.ts +8 -0
package/src/training/checkpoint-watch.js +139 -0
package/src/training/checkpoint.d.ts +6 -1
package/src/training/checkpoint.js +46 -7
package/src/training/clip.js +2 -1
package/src/training/datasets/token-batch.js +20 -8
package/src/training/distillation/artifacts.d.ts +71 -0
package/src/training/distillation/artifacts.js +132 -0
package/src/training/distillation/checkpoint-watch.d.ts +10 -0
package/src/training/distillation/checkpoint-watch.js +58 -0
package/src/training/distillation/dataset.d.ts +59 -0
package/src/training/distillation/dataset.js +337 -0
package/src/training/distillation/eval.d.ts +34 -0
package/src/training/distillation/eval.js +310 -0
package/src/training/distillation/index.d.ts +29 -0
package/src/training/distillation/index.js +29 -0
package/src/training/distillation/runtime.d.ts +20 -0
package/src/training/distillation/runtime.js +121 -0
package/src/training/distillation/scoreboard.d.ts +6 -0
package/src/training/distillation/scoreboard.js +8 -0
package/src/training/distillation/stage-a.d.ts +45 -0
package/src/training/distillation/stage-a.js +338 -0
package/src/training/distillation/stage-b.d.ts +24 -0
package/src/training/distillation/stage-b.js +20 -0
package/src/training/distillation/student-fixture.d.ts +22 -0
package/src/training/distillation/student-fixture.js +846 -0
package/src/training/distillation/suite-data.d.ts +45 -0
package/src/training/distillation/suite-data.js +189 -0
package/src/training/index.d.ts +10 -0
package/src/training/index.js +10 -0
package/src/training/lora-pipeline.d.ts +40 -0
package/src/training/lora-pipeline.js +793 -0
package/src/training/lora.js +26 -12
package/src/training/loss.js +5 -6
package/src/training/objectives/cross_entropy.js +2 -5
package/src/training/objectives/distill_kd.js +4 -8
package/src/training/objectives/distill_triplet.js +4 -8
package/src/training/objectives/ul_stage2_base.js +4 -8
package/src/training/operator-artifacts.d.ts +62 -0
package/src/training/operator-artifacts.js +140 -0
package/src/training/operator-command.d.ts +5 -0
package/src/training/operator-command.js +455 -0
package/src/training/operator-eval.d.ts +48 -0
package/src/training/operator-eval.js +230 -0
package/src/training/operator-scoreboard.d.ts +5 -0
package/src/training/operator-scoreboard.js +44 -0
package/src/training/optimizer.js +19 -7
package/src/training/runner.d.ts +52 -0
package/src/training/runner.js +31 -5
package/src/training/suite.d.ts +112 -0
package/src/training/suite.js +24 -984
package/src/training/tensor-factory.d.ts +9 -0
package/src/training/tensor-factory.js +13 -0
package/src/training/trainer.js +3 -5
package/src/training/ul_dataset.js +3 -5
package/src/training/workloads.d.ts +164 -0
package/src/training/workloads.js +530 -0
package/src/version.js +1 -1
package/tools/convert-safetensors-node.js +22 -16
package/tools/doppler-cli.js +179 -63

package/src/gpu/kernels/backward/attention_backward.js CHANGED Viewed

@@ -1,6 +1,5 @@
-import { CommandRecorder } from '../../command-recorder.js';
 import { getDevice } from '../../device.js';
-import { acquireBuffer } from '../../../memory/buffer-pool.js';
+import { acquireBuffer, releaseBuffer } from '../../../memory/buffer-pool.js';
 import { createTensor, dtypeBytes } from '../../tensor.js';
 import { castF16ToF32, recordCastF16ToF32 } from '../cast.js';
 import { runMatmul, recordMatmul } from '../matmul.js';
@@ -15,24 +14,16 @@ async function ensureF32(tensor, recorder = null) {
   if (!recorder) {
     return castF16ToF32(tensor);
   }
-  const casted = await recordCastF16ToF32(recorder, tensor);
-  recorder.trackTemporaryBuffer(casted.buffer);
-  return casted;
+  return recordCastF16ToF32(recorder, tensor);
 }
-function createHeadSliceBuffers(recorder, headBytes, softmaxBytes) {
+function createHeadSliceBuffers(headBytes, softmaxBytes) {
   const qHeadBuf = acquireBuffer(headBytes, undefined, 'attn_q_head');
   const kHeadBuf = acquireBuffer(headBytes, undefined, 'attn_k_head');
   const vHeadBuf = acquireBuffer(headBytes, undefined, 'attn_v_head');
   const sHeadBuf = acquireBuffer(softmaxBytes, undefined, 'attn_s_head');
   const dHeadBuf = acquireBuffer(headBytes, undefined, 'attn_d_head');
-  recorder.trackTemporaryBuffer(qHeadBuf);
-  recorder.trackTemporaryBuffer(kHeadBuf);
-  recorder.trackTemporaryBuffer(vHeadBuf);
-  recorder.trackTemporaryBuffer(sHeadBuf);
-  recorder.trackTemporaryBuffer(dHeadBuf);
   return { qHeadBuf, kHeadBuf, vHeadBuf, sHeadBuf, dHeadBuf };
 }
@@ -49,6 +40,19 @@ function trackTensorBuffer(recorder, tensor) {
   recorder.trackTemporaryBuffer(tensor.buffer);
 }
+function releaseTensorBuffer(tensor) {
+  if (tensor?.buffer) {
+    releaseBuffer(tensor.buffer);
+  }
+}
+function maybeTrackOwnedTensor(ownedTensors, originalTensor, resolvedTensor) {
+  if (resolvedTensor !== originalTensor) {
+    ownedTensors.push(resolvedTensor);
+  }
+  return resolvedTensor;
+}
 async function runAttentionBackwardCore(
   q,
   k,
@@ -63,11 +67,23 @@ async function runAttentionBackwardCore(
     throw new Error('attention backward requires seqLen, numHeads, and headDim');
   }
-  const qTensor = await ensureF32(q, recorder);
-  const kTensor = await ensureF32(k, recorder);
-  const vTensor = await ensureF32(v, recorder);
-  const sTensor = await ensureF32(softmax, recorder);
-  const dTensor = await ensureF32(gradOutput, recorder);
+  const ownedInputTensors = [];
+  const ownedRecorderInputTensors = [];
+  const qTensor = !recorder
+    ? maybeTrackOwnedTensor(ownedInputTensors, q, await ensureF32(q))
+    : maybeTrackOwnedTensor(ownedRecorderInputTensors, q, await ensureF32(q, recorder));
+  const kTensor = !recorder
+    ? maybeTrackOwnedTensor(ownedInputTensors, k, await ensureF32(k))
+    : maybeTrackOwnedTensor(ownedRecorderInputTensors, k, await ensureF32(k, recorder));
+  const vTensor = !recorder
+    ? maybeTrackOwnedTensor(ownedInputTensors, v, await ensureF32(v))
+    : maybeTrackOwnedTensor(ownedRecorderInputTensors, v, await ensureF32(v, recorder));
+  const sTensor = !recorder
+    ? maybeTrackOwnedTensor(ownedInputTensors, softmax, await ensureF32(softmax))
+    : maybeTrackOwnedTensor(ownedRecorderInputTensors, softmax, await ensureF32(softmax, recorder));
+  const dTensor = !recorder
+    ? maybeTrackOwnedTensor(ownedInputTensors, gradOutput, await ensureF32(gradOutput))
+    : maybeTrackOwnedTensor(ownedRecorderInputTensors, gradOutput, await ensureF32(gradOutput, recorder));
   const headElements = seqLen * headDim;
   const headBytes = headElements * dtypeBytes(qTensor.dtype);
@@ -77,171 +93,247 @@ async function runAttentionBackwardCore(
   const gradQBuf = acquireBuffer(totalBytes, undefined, 'attn_grad_q');
   const gradKBuf = acquireBuffer(totalBytes, undefined, 'attn_grad_k');
   const gradVBuf = acquireBuffer(totalBytes, undefined, 'attn_grad_v');
+  let completed = false;
-  if (!recorder) {
-    for (let h = 0; h < numHeads; h += 1) {
-      const qOffset = h * headBytes;
-      const kOffset = h * headBytes;
-      const vOffset = h * headBytes;
-      const dOffset = h * headBytes;
-      const sOffset = h * softmaxBytes;
+  try {
+    if (!recorder) {
+      for (let h = 0; h < numHeads; h += 1) {
+        const qOffset = h * headBytes;
+        const kOffset = h * headBytes;
+        const vOffset = h * headBytes;
+        const dOffset = h * headBytes;
+        const sOffset = h * softmaxBytes;
-      const qHeadBuf = acquireBuffer(headBytes, undefined, 'attn_q_head');
-      const kHeadBuf = acquireBuffer(headBytes, undefined, 'attn_k_head');
-      const vHeadBuf = acquireBuffer(headBytes, undefined, 'attn_v_head');
-      const sHeadBuf = acquireBuffer(softmaxBytes, undefined, 'attn_s_head');
-      const dHeadBuf = acquireBuffer(headBytes, undefined, 'attn_d_head');
+        const qHeadBuf = acquireBuffer(headBytes, undefined, 'attn_q_head');
+        const kHeadBuf = acquireBuffer(headBytes, undefined, 'attn_k_head');
+        const vHeadBuf = acquireBuffer(headBytes, undefined, 'attn_v_head');
+        const sHeadBuf = acquireBuffer(softmaxBytes, undefined, 'attn_s_head');
+        const dHeadBuf = acquireBuffer(headBytes, undefined, 'attn_d_head');
+        let sTransposed = null;
+        let dV = null;
+        let vTransposed = null;
+        let dS = null;
+        let dQK = null;
+        let dQ = null;
+        let dQKTransposed = null;
+        let dK = null;
-      const sliceEncoder = getDevice().createCommandEncoder();
-      sliceEncoder.copyBufferToBuffer(qTensor.buffer, qOffset, qHeadBuf, 0, headBytes);
-      sliceEncoder.copyBufferToBuffer(kTensor.buffer, kOffset, kHeadBuf, 0, headBytes);
-      sliceEncoder.copyBufferToBuffer(vTensor.buffer, vOffset, vHeadBuf, 0, headBytes);
-      sliceEncoder.copyBufferToBuffer(sTensor.buffer, sOffset, sHeadBuf, 0, softmaxBytes);
-      sliceEncoder.copyBufferToBuffer(dTensor.buffer, dOffset, dHeadBuf, 0, headBytes);
-      getDevice().queue.submit([sliceEncoder.finish()]);
+        try {
+          const sliceEncoder = getDevice().createCommandEncoder();
+          sliceEncoder.copyBufferToBuffer(qTensor.buffer, qOffset, qHeadBuf, 0, headBytes);
+          sliceEncoder.copyBufferToBuffer(kTensor.buffer, kOffset, kHeadBuf, 0, headBytes);
+          sliceEncoder.copyBufferToBuffer(vTensor.buffer, vOffset, vHeadBuf, 0, headBytes);
+          sliceEncoder.copyBufferToBuffer(sTensor.buffer, sOffset, sHeadBuf, 0, softmaxBytes);
+          sliceEncoder.copyBufferToBuffer(dTensor.buffer, dOffset, dHeadBuf, 0, headBytes);
+          getDevice().queue.submit([sliceEncoder.finish()]);
-      const { qHead, kHead, vHead, sHead, dHead } = createHeadTensors(
-        qHeadBuf,
-        kHeadBuf,
-        vHeadBuf,
-        sHeadBuf,
-        dHeadBuf,
-        seqLen,
-        headDim
-      );
+          const { qHead, kHead, vHead, sHead, dHead } = createHeadTensors(
+            qHeadBuf,
+            kHeadBuf,
+            vHeadBuf,
+            sHeadBuf,
+            dHeadBuf,
+            seqLen,
+            headDim
+          );
-      const sTransposed = await runTranspose(sHead, seqLen, seqLen);
-      const dV = await runMatmul(sTransposed, dHead.buffer, seqLen, headDim, seqLen, {
-        transposeB: false,
-        bDtype: 'f32',
-      });
+          sTransposed = await runTranspose(sHead, seqLen, seqLen);
+          dV = await runMatmul(sTransposed, dHead.buffer, seqLen, headDim, seqLen, {
+            transposeB: false,
+            bDtype: 'f32',
+          });
-      const vTransposed = await runTranspose(vHead, seqLen, headDim);
-      const dS = await runMatmul(dHead, vTransposed.buffer, seqLen, seqLen, headDim, {
-        transposeB: false,
-        bDtype: 'f32',
-      });
-      const dQK = causal
-        ? await runBackwardKernel(
-          'attention_backward',
-          sHead,
-          dS,
-          16,
-          (view) => {
-            view.setUint32(0, seqLen, true);
-            view.setUint32(4, seqLen, true);
-            view.setUint32(8, 1, true);
-          }
-        )
-        : await runSoftmaxBackward(sHead, dS, { rows: seqLen, cols: seqLen });
+          vTransposed = await runTranspose(vHead, seqLen, headDim);
+          dS = await runMatmul(dHead, vTransposed.buffer, seqLen, seqLen, headDim, {
+            transposeB: false,
+            bDtype: 'f32',
+          });
+          dQK = causal
+            ? await runBackwardKernel(
+              'attention_backward',
+              sHead,
+              dS,
+              16,
+              (view) => {
+                view.setUint32(0, seqLen, true);
+                view.setUint32(4, seqLen, true);
+                view.setUint32(8, 1, true);
+              }
+            )
+            : await runSoftmaxBackward(sHead, dS, { rows: seqLen, cols: seqLen });
-      const dQ = await runMatmul(dQK, kHead.buffer, seqLen, headDim, seqLen, {
-        transposeB: false,
-        alpha: scale,
-        bDtype: 'f32',
-      });
-      const dQKTransposed = await runTranspose(dQK, seqLen, seqLen);
-      const dK = await runMatmul(dQKTransposed, qHead.buffer, seqLen, headDim, seqLen, {
-        transposeB: false,
-        alpha: scale,
-        bDtype: 'f32',
-      });
+          dQ = await runMatmul(dQK, kHead.buffer, seqLen, headDim, seqLen, {
+            transposeB: false,
+            alpha: scale,
+            bDtype: 'f32',
+          });
+          dQKTransposed = await runTranspose(dQK, seqLen, seqLen);
+          dK = await runMatmul(dQKTransposed, qHead.buffer, seqLen, headDim, seqLen, {
+            transposeB: false,
+            alpha: scale,
+            bDtype: 'f32',
+          });
-      const copyEncoder = getDevice().createCommandEncoder();
-      copyEncoder.copyBufferToBuffer(dQ.buffer, 0, gradQBuf, qOffset, headBytes);
-      copyEncoder.copyBufferToBuffer(dK.buffer, 0, gradKBuf, kOffset, headBytes);
-      copyEncoder.copyBufferToBuffer(dV.buffer, 0, gradVBuf, vOffset, headBytes);
-      getDevice().queue.submit([copyEncoder.finish()]);
-    }
-  } else {
-    const encoder = recorder.getEncoder();
-    for (let h = 0; h < numHeads; h += 1) {
-      const qOffset = h * headBytes;
-      const kOffset = h * headBytes;
-      const vOffset = h * headBytes;
-      const dOffset = h * headBytes;
-      const sOffset = h * softmaxBytes;
+          const copyEncoder = getDevice().createCommandEncoder();
+          copyEncoder.copyBufferToBuffer(dQ.buffer, 0, gradQBuf, qOffset, headBytes);
+          copyEncoder.copyBufferToBuffer(dK.buffer, 0, gradKBuf, kOffset, headBytes);
+          copyEncoder.copyBufferToBuffer(dV.buffer, 0, gradVBuf, vOffset, headBytes);
+          getDevice().queue.submit([copyEncoder.finish()]);
+          await getDevice().queue.onSubmittedWorkDone();
+        } finally {
+          releaseTensorBuffer(sTransposed);
+          releaseTensorBuffer(dV);
+          releaseTensorBuffer(vTransposed);
+          releaseTensorBuffer(dS);
+          releaseTensorBuffer(dQK);
+          releaseTensorBuffer(dQ);
+          releaseTensorBuffer(dQKTransposed);
+          releaseTensorBuffer(dK);
+          releaseBuffer(qHeadBuf);
+          releaseBuffer(kHeadBuf);
+          releaseBuffer(vHeadBuf);
+          releaseBuffer(sHeadBuf);
+          releaseBuffer(dHeadBuf);
+        }
+      }
+    } else {
+      const encoder = recorder.getEncoder();
+      for (let h = 0; h < numHeads; h += 1) {
+        const qOffset = h * headBytes;
+        const kOffset = h * headBytes;
+        const vOffset = h * headBytes;
+        const dOffset = h * headBytes;
+        const sOffset = h * softmaxBytes;
-      const { qHeadBuf, kHeadBuf, vHeadBuf, sHeadBuf, dHeadBuf } = createHeadSliceBuffers(
-        recorder,
-        headBytes,
-        softmaxBytes
-      );
+        const { qHeadBuf, kHeadBuf, vHeadBuf, sHeadBuf, dHeadBuf } = createHeadSliceBuffers(
+          headBytes,
+          softmaxBytes
+        );
+        const headBuffers = [qHeadBuf, kHeadBuf, vHeadBuf, sHeadBuf, dHeadBuf];
+        let sTransposed = null;
+        let dV = null;
+        let vTransposed = null;
+        let dS = null;
+        let dQK = null;
+        let dQ = null;
+        let dQKTransposed = null;
+        let dK = null;
-      encoder.copyBufferToBuffer(qTensor.buffer, qOffset, qHeadBuf, 0, headBytes);
-      encoder.copyBufferToBuffer(kTensor.buffer, kOffset, kHeadBuf, 0, headBytes);
-      encoder.copyBufferToBuffer(vTensor.buffer, vOffset, vHeadBuf, 0, headBytes);
-      encoder.copyBufferToBuffer(sTensor.buffer, sOffset, sHeadBuf, 0, softmaxBytes);
-      encoder.copyBufferToBuffer(dTensor.buffer, dOffset, dHeadBuf, 0, headBytes);
+        try {
+          encoder.copyBufferToBuffer(qTensor.buffer, qOffset, qHeadBuf, 0, headBytes);
+          encoder.copyBufferToBuffer(kTensor.buffer, kOffset, kHeadBuf, 0, headBytes);
+          encoder.copyBufferToBuffer(vTensor.buffer, vOffset, vHeadBuf, 0, headBytes);
+          encoder.copyBufferToBuffer(sTensor.buffer, sOffset, sHeadBuf, 0, softmaxBytes);
+          encoder.copyBufferToBuffer(dTensor.buffer, dOffset, dHeadBuf, 0, headBytes);
-      const { qHead, kHead, vHead, sHead, dHead } = createHeadTensors(
-        qHeadBuf,
-        kHeadBuf,
-        vHeadBuf,
-        sHeadBuf,
-        dHeadBuf,
-        seqLen,
-        headDim
-      );
+          const { qHead, kHead, vHead, sHead, dHead } = createHeadTensors(
+            qHeadBuf,
+            kHeadBuf,
+            vHeadBuf,
+            sHeadBuf,
+            dHeadBuf,
+            seqLen,
+            headDim
+          );
-      const sTransposed = await recordTranspose(recorder, sHead, seqLen, seqLen);
-      const dV = await recordMatmul(recorder, sTransposed, dHead.buffer, seqLen, headDim, seqLen, {
-        transposeB: false,
-        bDtype: 'f32',
-      });
+          sTransposed = await recordTranspose(recorder, sHead, seqLen, seqLen);
+          dV = await recordMatmul(recorder, sTransposed, dHead.buffer, seqLen, headDim, seqLen, {
+            transposeB: false,
+            bDtype: 'f32',
+          });
-      const vTransposed = await recordTranspose(recorder, vHead, seqLen, headDim);
-      const dS = await recordMatmul(recorder, dHead, vTransposed.buffer, seqLen, seqLen, headDim, {
-        transposeB: false,
-        bDtype: 'f32',
-      });
-      const dQK = causal
-        ? await recordBackwardKernel(
-          recorder,
-          'attention_backward',
-          sHead,
-          dS,
-          16,
-          (view) => {
-            view.setUint32(0, seqLen, true);
-            view.setUint32(4, seqLen, true);
-            view.setUint32(8, 1, true);
-          }
-        )
-        : await recordSoftmaxBackward(recorder, sHead, dS, { rows: seqLen, cols: seqLen });
+          vTransposed = await recordTranspose(recorder, vHead, seqLen, headDim);
+          dS = await recordMatmul(recorder, dHead, vTransposed.buffer, seqLen, seqLen, headDim, {
+            transposeB: false,
+            bDtype: 'f32',
+          });
+          dQK = causal
+            ? await recordBackwardKernel(
+              recorder,
+              'attention_backward',
+              sHead,
+              dS,
+              16,
+              (view) => {
+                view.setUint32(0, seqLen, true);
+                view.setUint32(4, seqLen, true);
+                view.setUint32(8, 1, true);
+              }
+            )
+            : await recordSoftmaxBackward(recorder, sHead, dS, { rows: seqLen, cols: seqLen });
-      const dQ = await recordMatmul(recorder, dQK, kHead.buffer, seqLen, headDim, seqLen, {
-        transposeB: false,
-        alpha: scale,
-        bDtype: 'f32',
-      });
-      const dQKTransposed = await recordTranspose(recorder, dQK, seqLen, seqLen);
-      const dK = await recordMatmul(recorder, dQKTransposed, qHead.buffer, seqLen, headDim, seqLen, {
-        transposeB: false,
-        alpha: scale,
-        bDtype: 'f32',
-      });
+          dQ = await recordMatmul(recorder, dQK, kHead.buffer, seqLen, headDim, seqLen, {
+            transposeB: false,
+            alpha: scale,
+            bDtype: 'f32',
+          });
+          dQKTransposed = await recordTranspose(recorder, dQK, seqLen, seqLen);
+          dK = await recordMatmul(recorder, dQKTransposed, qHead.buffer, seqLen, headDim, seqLen, {
+            transposeB: false,
+            alpha: scale,
+            bDtype: 'f32',
+          });
-      encoder.copyBufferToBuffer(dQ.buffer, 0, gradQBuf, qOffset, headBytes);
-      encoder.copyBufferToBuffer(dK.buffer, 0, gradKBuf, kOffset, headBytes);
-      encoder.copyBufferToBuffer(dV.buffer, 0, gradVBuf, vOffset, headBytes);
+          encoder.copyBufferToBuffer(dQ.buffer, 0, gradQBuf, qOffset, headBytes);
+          encoder.copyBufferToBuffer(dK.buffer, 0, gradKBuf, kOffset, headBytes);
+          encoder.copyBufferToBuffer(dV.buffer, 0, gradVBuf, vOffset, headBytes);
+        } catch (error) {
+          releaseTensorBuffer(sTransposed);
+          releaseTensorBuffer(dV);
+          releaseTensorBuffer(vTransposed);
+          releaseTensorBuffer(dS);
+          releaseTensorBuffer(dQK);
+          releaseTensorBuffer(dQ);
+          releaseTensorBuffer(dQKTransposed);
+          releaseTensorBuffer(dK);
+          releaseBuffer(qHeadBuf);
+          releaseBuffer(kHeadBuf);
+          releaseBuffer(vHeadBuf);
+          releaseBuffer(sHeadBuf);
+          releaseBuffer(dHeadBuf);
+          throw error;
+        }
-      trackTensorBuffer(recorder, sTransposed);
-      trackTensorBuffer(recorder, dV);
-      trackTensorBuffer(recorder, vTransposed);
-      trackTensorBuffer(recorder, dS);
-      trackTensorBuffer(recorder, dQK);
-      trackTensorBuffer(recorder, dQ);
-      trackTensorBuffer(recorder, dQKTransposed);
-      trackTensorBuffer(recorder, dK);
+        for (const buffer of headBuffers) {
+          recorder.trackTemporaryBuffer(buffer);
+        }
+        trackTensorBuffer(recorder, sTransposed);
+        trackTensorBuffer(recorder, dV);
+        trackTensorBuffer(recorder, vTransposed);
+        trackTensorBuffer(recorder, dS);
+        trackTensorBuffer(recorder, dQK);
+        trackTensorBuffer(recorder, dQ);
+        trackTensorBuffer(recorder, dQKTransposed);
+        trackTensorBuffer(recorder, dK);
+      }
+    }
+    if (recorder) {
+      for (const tensor of ownedRecorderInputTensors) {
+        trackTensorBuffer(recorder, tensor);
+      }
+    }
+    completed = true;
+    return {
+      gradQ: createTensor(gradQBuf, 'f32', [...q.shape], 'attn_grad_q'),
+      gradK: createTensor(gradKBuf, 'f32', [...k.shape], 'attn_grad_k'),
+      gradV: createTensor(gradVBuf, 'f32', [...v.shape], 'attn_grad_v'),
+    };
+  } finally {
+    if (!completed) {
+      releaseBuffer(gradQBuf);
+      releaseBuffer(gradKBuf);
+      releaseBuffer(gradVBuf);
+    }
+    if (!recorder) {
+      for (const tensor of ownedInputTensors) {
+        releaseTensorBuffer(tensor);
+      }
+    } else {
+      for (const tensor of ownedRecorderInputTensors) {
+        releaseTensorBuffer(tensor);
+      }
     }
   }
-  return {
-    gradQ: createTensor(gradQBuf, 'f32', [...q.shape], 'attn_grad_q'),
-    gradK: createTensor(gradKBuf, 'f32', [...k.shape], 'attn_grad_k'),
-    gradV: createTensor(gradVBuf, 'f32', [...v.shape], 'attn_grad_v'),
-  };
 }
 export async function runAttentionBackward(
@@ -256,11 +348,7 @@ export async function runAttentionBackward(
   if (!device) {
     throw new Error('runAttentionBackward requires a GPU device');
   }
-  const recorder = new CommandRecorder(device, 'attention_backward');
-  const result = await runAttentionBackwardCore(q, k, v, softmax, gradOutput, options, recorder);
-  recorder.submit();
-  return result;
+  return runAttentionBackwardCore(q, k, v, softmax, gradOutput, options);
 }
 export async function recordAttentionBackward(

package/src/gpu/kernels/backward/conv2d_backward.js CHANGED Viewed

@@ -4,6 +4,19 @@ import { createPipeline, createUniformBufferWithView } from '../utils.js';
 import { dispatch, recordDispatch } from '../dispatch.js';
 import { getDevice } from '../../device.js';
+function destroyAfterSubmit(device, buffer) {
+  if (!buffer) {
+    return;
+  }
+  device.queue.onSubmittedWorkDone()
+    .then(() => {
+      buffer.destroy();
+    })
+    .catch(() => {
+      buffer.destroy();
+    });
+}
 export async function runConv2DBackward(input, weight, gradOutput, options = {}) {
   const { inChannels, outChannels, height, width, outHeight, outWidth, kernelH, kernelW, stride, pad, computeGradInput = true, computeGradWeight = true } = options;
@@ -67,7 +80,7 @@ export async function runConv2DBackward(input, weight, gradOutput, options = {})
     gradWeight = createTensor(outputBuf, 'f32', [outChannels, inChannels, kernelH, kernelW], 'conv2d_grad_weight');
   }
-  uniformBuffer.destroy();
+  destroyAfterSubmit(device, uniformBuffer);
   return { gradInput, gradWeight };
 }

package/src/gpu/kernels/bias_add.wgsl CHANGED Viewed

@@ -14,6 +14,10 @@ struct Uniforms {
     dim: u32,
     data_offset: u32,  // byte offset into data buffer (divide by 4 for F32)
     bias_offset: u32,  // byte offset into bias buffer (divide by 4 for F32)
+    token_stride: u32,
+    _pad0: u32,
+    _pad1: u32,
+    _pad2: u32,
 }
 override WORKGROUP_SIZE: u32 = 256u;
@@ -24,17 +28,15 @@ override WORKGROUP_SIZE: u32 = 256u;
 @compute @workgroup_size(WORKGROUP_SIZE, 1, 1)
 fn main(@builtin(global_invocation_id) gid: vec3<u32>) {
-    let idx = gid.x;
-    let total = u.num_tokens * u.dim;
-    if (idx >= total) {
+    let d = gid.x;
+    let token = gid.z * max(u.token_stride, 1u) + gid.y;
+    if (token >= u.num_tokens || d >= u.dim) {
         return;
     }
     // Convert byte offsets to F32 indices
     let data_base = u.data_offset / 4u;
     let bias_base = u.bias_offset / 4u;
-    let d = idx % u.dim;
+    let idx = token * u.dim + d;
     data[data_base + idx] = data[data_base + idx] + bias[bias_base + d];
 }

package/src/gpu/kernels/bias_add_f16.wgsl CHANGED Viewed

@@ -18,6 +18,10 @@ struct Uniforms {
     dim: u32,
     data_offset: u32,  // byte offset into data buffer (divide by 2 for F16)
     bias_offset: u32,  // byte offset into bias buffer (divide by 2 for F16)
+    token_stride: u32,
+    _pad0: u32,
+    _pad1: u32,
+    _pad2: u32,
 }
 override WORKGROUP_SIZE: u32 = 256u;
@@ -28,17 +32,16 @@ override WORKGROUP_SIZE: u32 = 256u;
 @compute @workgroup_size(WORKGROUP_SIZE, 1, 1)
 fn main(@builtin(global_invocation_id) gid: vec3<u32>) {
-    let idx = gid.x;
-    let total = u.num_tokens * u.dim;
-    if (idx >= total) {
+    let d = gid.x;
+    let token = gid.z * max(u.token_stride, 1u) + gid.y;
+    if (token >= u.num_tokens || d >= u.dim) {
         return;
     }
     // Convert byte offsets to F16 indices
     let data_base = u.data_offset / 2u;
     let bias_base = u.bias_offset / 2u;
-    let d = idx % u.dim;
+    let idx = token * u.dim + d;
     let out = f32(data[data_base + idx]) + f32(bias[bias_base + d]);
     data[data_base + idx] = f16(out);
 }