npm - @simulatte/doppler - Versions diffs - 0.1.9 → 0.2.0 - Mend

@simulatte/doppler 0.1.9 → 0.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (1359) hide show

package/README.md +3 -116
package/package.json +5 -162
package/BRANDING.md +0 -14
package/CHANGELOG.md +0 -158
package/LICENSE +0 -201
package/NOTICE +0 -5
package/SECURITY.md +0 -19
package/src/adapters/adapter-manager.d.ts +0 -200
package/src/adapters/adapter-manager.js +0 -509
package/src/adapters/adapter-manifest.d.ts +0 -290
package/src/adapters/adapter-manifest.js +0 -320
package/src/adapters/adapter-registry.d.ts +0 -192
package/src/adapters/adapter-registry.js +0 -477
package/src/adapters/index.d.ts +0 -89
package/src/adapters/index.js +0 -42
package/src/adapters/lora-loader.d.ts +0 -105
package/src/adapters/lora-loader.js +0 -414
package/src/bootstrap.d.ts +0 -1
package/src/bootstrap.js +0 -30
package/src/bridge/extension/background.d.ts +0 -14
package/src/bridge/extension/background.js +0 -168
package/src/bridge/extension/manifest.json +0 -34
package/src/bridge/extension-client.d.ts +0 -114
package/src/bridge/extension-client.js +0 -409
package/src/bridge/index.d.ts +0 -69
package/src/bridge/index.js +0 -53
package/src/bridge/protocol.d.ts +0 -96
package/src/bridge/protocol.js +0 -130
package/src/browser/browser-converter.d.ts +0 -71
package/src/browser/browser-converter.js +0 -977
package/src/browser/file-picker.d.ts +0 -63
package/src/browser/file-picker.js +0 -281
package/src/browser/gguf-importer.d.ts +0 -136
package/src/browser/gguf-importer.js +0 -532
package/src/browser/gguf-parser-browser.d.ts +0 -14
package/src/browser/gguf-parser-browser.js +0 -17
package/src/browser/quantization.d.ts +0 -69
package/src/browser/quantization.js +0 -328
package/src/browser/safetensors-parser-browser.d.ts +0 -193
package/src/browser/safetensors-parser-browser.js +0 -347
package/src/browser/shard-io-browser.d.ts +0 -57
package/src/browser/shard-io-browser.js +0 -89
package/src/browser/tensor-source-download.d.ts +0 -27
package/src/browser/tensor-source-download.js +0 -245
package/src/browser/tensor-source-file.d.ts +0 -26
package/src/browser/tensor-source-file.js +0 -53
package/src/browser/tensor-source-http.d.ts +0 -29
package/src/browser/tensor-source-http.js +0 -130
package/src/client/doppler-api.browser.d.ts +0 -1
package/src/client/doppler-api.browser.js +0 -310
package/src/client/doppler-api.d.ts +0 -83
package/src/client/doppler-api.js +0 -323
package/src/client/doppler-provider/generation.d.ts +0 -25
package/src/client/doppler-provider/generation.js +0 -126
package/src/client/doppler-provider/index.d.ts +0 -2
package/src/client/doppler-provider/index.js +0 -3
package/src/client/doppler-provider/model-manager.d.ts +0 -71
package/src/client/doppler-provider/model-manager.js +0 -739
package/src/client/doppler-provider/provider.d.ts +0 -5
package/src/client/doppler-provider/provider.js +0 -102
package/src/client/doppler-provider/source-runtime.d.ts +0 -23
package/src/client/doppler-provider/source-runtime.js +0 -641
package/src/client/doppler-provider/types.d.ts +0 -127
package/src/client/doppler-provider/types.js +0 -17
package/src/client/doppler-provider.d.ts +0 -46
package/src/client/doppler-provider.js +0 -36
package/src/client/doppler-registry.d.ts +0 -23
package/src/client/doppler-registry.js +0 -86
package/src/client/doppler-registry.json +0 -40
package/src/config/README.md +0 -69
package/src/config/backward-registry-loader.d.ts +0 -3
package/src/config/backward-registry-loader.js +0 -23
package/src/config/execution-contract-check.d.ts +0 -82
package/src/config/execution-contract-check.js +0 -317
package/src/config/execution-v0-contract-check.d.ts +0 -94
package/src/config/execution-v0-contract-check.js +0 -349
package/src/config/execution-v0-graph-contract-check.d.ts +0 -20
package/src/config/execution-v0-graph-contract-check.js +0 -64
package/src/config/index.d.ts +0 -63
package/src/config/index.js +0 -31
package/src/config/kernel-path-contract-check.d.ts +0 -76
package/src/config/kernel-path-contract-check.js +0 -507
package/src/config/kernel-path-loader.d.ts +0 -170
package/src/config/kernel-path-loader.js +0 -570
package/src/config/kernels/backward-registry.json +0 -99
package/src/config/kernels/kernel-ref-digests.d.ts +0 -1
package/src/config/kernels/kernel-ref-digests.js +0 -228
package/src/config/kernels/kernel-ref.d.ts +0 -17
package/src/config/kernels/kernel-ref.js +0 -75
package/src/config/kernels/moe/gpt-oss.paths.json +0 -49
package/src/config/kernels/moe/mixtral.paths.json +0 -46
package/src/config/kernels/registry.d.ts +0 -86
package/src/config/kernels/registry.js +0 -116
package/src/config/kernels/registry.json +0 -7443
package/src/config/loader.d.ts +0 -57
package/src/config/loader.js +0 -584
package/src/config/merge-contract-check.d.ts +0 -16
package/src/config/merge-contract-check.js +0 -383
package/src/config/merge-helpers.d.ts +0 -58
package/src/config/merge-helpers.js +0 -175
package/src/config/merge.d.ts +0 -143
package/src/config/merge.js +0 -414
package/src/config/param-categories.d.ts +0 -17
package/src/config/param-categories.js +0 -72
package/src/config/param-validator.d.ts +0 -26
package/src/config/param-validator.js +0 -280
package/src/config/platforms/amd-rdna3.json +0 -16
package/src/config/platforms/apple-m1.json +0 -16
package/src/config/platforms/apple-m2.json +0 -16
package/src/config/platforms/apple-m3.json +0 -16
package/src/config/platforms/generic.json +0 -14
package/src/config/platforms/loader.d.ts +0 -65
package/src/config/platforms/loader.js +0 -155
package/src/config/platforms/nvidia-rtx30.json +0 -16
package/src/config/platforms/nvidia-rtx40.json +0 -16
package/src/config/presets/kernel-paths/embeddinggemma-f16-f32a.json +0 -60
package/src/config/presets/kernel-paths/embeddinggemma-f32-f32a.json +0 -60
package/src/config/presets/kernel-paths/embeddinggemma-q4k-dequant-f32a.json +0 -60
package/src/config/presets/kernel-paths/gemma2-f16-f16a.json +0 -61
package/src/config/presets/kernel-paths/gemma2-f16-f32a.json +0 -60
package/src/config/presets/kernel-paths/gemma2-q4k-dequant-f16a.json +0 -61
package/src/config/presets/kernel-paths/gemma2-q4k-dequant-f32a-nosubgroups.json +0 -60
package/src/config/presets/kernel-paths/gemma2-q4k-fused-f32a.json +0 -57
package/src/config/presets/kernel-paths/gemma3-f16-fused-f16a-online.json +0 -200
package/src/config/presets/kernel-paths/gemma3-f16-fused-f32a-online-streamingprefill.json +0 -223
package/src/config/presets/kernel-paths/gemma3-f16-fused-f32a-online.json +0 -223
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f16a-online.json +0 -60
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32a-nosubgroups.json +0 -61
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32a-online.json +0 -61
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32a-small-attn.json +0 -61
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32w-f32a-online.json +0 -56
package/src/config/presets/kernel-paths/lfm2-q4k-dequant-f32a-nosubgroups.json +0 -61
package/src/config/presets/kernel-paths/lfm2-q4k-dequant-f32a-online.json +0 -61
package/src/config/presets/kernel-paths/registry.json +0 -145
package/src/config/presets/models/deepseek.json +0 -20
package/src/config/presets/models/diffusion.json +0 -10
package/src/config/presets/models/embeddinggemma.json +0 -74
package/src/config/presets/models/functiongemma.json +0 -31
package/src/config/presets/models/gemma2.json +0 -60
package/src/config/presets/models/gemma3.json +0 -78
package/src/config/presets/models/gemma4.json +0 -61
package/src/config/presets/models/gpt-oss.json +0 -68
package/src/config/presets/models/granite-docling.json +0 -70
package/src/config/presets/models/janus-text.json +0 -27
package/src/config/presets/models/kimi-k2.json +0 -25
package/src/config/presets/models/lfm2.json +0 -88
package/src/config/presets/models/llama3.json +0 -40
package/src/config/presets/models/mamba.json +0 -34
package/src/config/presets/models/mixtral.json +0 -37
package/src/config/presets/models/modernbert.json +0 -32
package/src/config/presets/models/qwen3.json +0 -49
package/src/config/presets/models/qwen3_5.json +0 -16
package/src/config/presets/models/qwen3_vl.json +0 -40
package/src/config/presets/models/transformer.json +0 -78
package/src/config/presets/models/translategemma.json +0 -30
package/src/config/presets/platforms/nvidia-gb200-8gpu.json +0 -45
package/src/config/presets/platforms/nvidia-gb200-nvl72.json +0 -45
package/src/config/presets/platforms/nvidia-gh200-nvl2.json +0 -44
package/src/config/presets/platforms/nvidia-gh200.json +0 -44
package/src/config/presets/runtime/compute/f16-activations.json +0 -30
package/src/config/presets/runtime/compute/f16-batched.json +0 -32
package/src/config/presets/runtime/default.json +0 -101
package/src/config/presets/runtime/diagnostics/debug-logits.json +0 -53
package/src/config/presets/runtime/experiments/bench/gemma3-bench-q4k.json +0 -54
package/src/config/presets/runtime/experiments/debug/gemma3-debug-q4k.json +0 -210
package/src/config/presets/runtime/experiments/verify/gemma3-verify.json +0 -39
package/src/config/presets/runtime/experiments/verify/lfm2-verify.json +0 -46
package/src/config/presets/runtime/experiments/verify/translategemma-verify.json +0 -39
package/src/config/presets/runtime/kernels/dequant-f16-q4k.json +0 -13
package/src/config/presets/runtime/kernels/dequant-f32-q4k.json +0 -13
package/src/config/presets/runtime/kernels/embeddinggemma-q4k-dequant-f32a.json +0 -37
package/src/config/presets/runtime/kernels/fused-q4k.json +0 -13
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f16a.json +0 -33
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f32a-nosubgroups.json +0 -33
package/src/config/presets/runtime/kernels/gemma2-q4k-fused-f32a.json +0 -33
package/src/config/presets/runtime/kernels/safe-q4k.json +0 -13
package/src/config/presets/runtime/model/gemma2-debug.json +0 -77
package/src/config/presets/runtime/model/gemma2-pipeline-debug.json +0 -66
package/src/config/presets/runtime/model/gemma2-pipeline.json +0 -75
package/src/config/presets/runtime/model/gemma3-layer-probe.json +0 -85
package/src/config/presets/runtime/model/qwen3-5-layer-probe.json +0 -52
package/src/config/presets/runtime/model/qwen3-5-linear-attn-debug.json +0 -90
package/src/config/presets/runtime/modes/bench.json +0 -37
package/src/config/presets/runtime/modes/debug.json +0 -39
package/src/config/presets/runtime/modes/default.json +0 -10
package/src/config/presets/runtime/modes/embedding-bench.json +0 -28
package/src/config/presets/runtime/modes/embedding.json +0 -54
package/src/config/presets/runtime/modes/low-memory.json +0 -40
package/src/config/presets/runtime/modes/production.json +0 -48
package/src/config/presets/runtime/modes/simulation.json +0 -30
package/src/config/presets/runtime/modes/trace-layers.json +0 -127
package/src/config/presets/runtime/platform/metal-apple-q4k.json +0 -11
package/src/config/presets/runtime/tiers/gemma4-16gb.json +0 -69
package/src/config/presets/runtime/tiers/gemma4-24gb.json +0 -66
package/src/config/presets/runtime/tiers/gemma4-32gb.json +0 -66
package/src/config/quantization-contract-check.d.ts +0 -12
package/src/config/quantization-contract-check.js +0 -91
package/src/config/required-inference-fields-contract-check.d.ts +0 -24
package/src/config/required-inference-fields-contract-check.js +0 -237
package/src/config/runtime-merge.d.ts +0 -5
package/src/config/runtime-merge.js +0 -21
package/src/config/runtime.d.ts +0 -28
package/src/config/runtime.js +0 -64
package/src/config/schema/adapter.schema.d.ts +0 -53
package/src/config/schema/adapter.schema.js +0 -60
package/src/config/schema/backward-registry.schema.d.ts +0 -14
package/src/config/schema/backward-registry.schema.js +0 -46
package/src/config/schema/benchmark.schema.d.ts +0 -54
package/src/config/schema/benchmark.schema.js +0 -74
package/src/config/schema/bridge.schema.d.ts +0 -25
package/src/config/schema/bridge.schema.js +0 -22
package/src/config/schema/browser-suite-metrics.schema.d.ts +0 -17
package/src/config/schema/browser-suite-metrics.schema.js +0 -46
package/src/config/schema/buffer-pool.schema.d.ts +0 -92
package/src/config/schema/buffer-pool.schema.js +0 -50
package/src/config/schema/conversion-report.schema.d.ts +0 -40
package/src/config/schema/conversion-report.schema.js +0 -108
package/src/config/schema/conversion.schema.d.ts +0 -184
package/src/config/schema/conversion.schema.js +0 -13
package/src/config/schema/converter.schema.d.ts +0 -123
package/src/config/schema/converter.schema.js +0 -136
package/src/config/schema/debug.schema.d.ts +0 -290
package/src/config/schema/debug.schema.js +0 -134
package/src/config/schema/diffusion.schema.d.ts +0 -88
package/src/config/schema/diffusion.schema.js +0 -62
package/src/config/schema/distill-training.schema.d.ts +0 -48
package/src/config/schema/distill-training.schema.js +0 -139
package/src/config/schema/distribution.schema.d.ts +0 -155
package/src/config/schema/distribution.schema.js +0 -81
package/src/config/schema/doppler.schema.d.ts +0 -75
package/src/config/schema/doppler.schema.js +0 -341
package/src/config/schema/ecosystem.schema.d.ts +0 -255
package/src/config/schema/ecosystem.schema.js +0 -534
package/src/config/schema/emulation.schema.d.ts +0 -351
package/src/config/schema/emulation.schema.js +0 -299
package/src/config/schema/energy.schema.d.ts +0 -102
package/src/config/schema/energy.schema.js +0 -72
package/src/config/schema/execution-v0.schema.d.ts +0 -187
package/src/config/schema/execution-v0.schema.js +0 -55
package/src/config/schema/gpu-cache.schema.d.ts +0 -26
package/src/config/schema/gpu-cache.schema.js +0 -8
package/src/config/schema/harness.schema.d.ts +0 -32
package/src/config/schema/harness.schema.js +0 -20
package/src/config/schema/hotswap.schema.d.ts +0 -55
package/src/config/schema/hotswap.schema.js +0 -18
package/src/config/schema/index.d.ts +0 -885
package/src/config/schema/index.js +0 -491
package/src/config/schema/inference-defaults.schema.d.ts +0 -276
package/src/config/schema/inference-defaults.schema.js +0 -188
package/src/config/schema/inference.schema.d.ts +0 -298
package/src/config/schema/inference.schema.js +0 -39
package/src/config/schema/intent-bundle.schema.d.ts +0 -28
package/src/config/schema/intent-bundle.schema.js +0 -12
package/src/config/schema/kernel-path.schema.d.ts +0 -184
package/src/config/schema/kernel-path.schema.js +0 -9
package/src/config/schema/kernel-registry.schema.d.ts +0 -199
package/src/config/schema/kernel-registry.schema.js +0 -46
package/src/config/schema/kernel-thresholds.schema.d.ts +0 -302
package/src/config/schema/kernel-thresholds.schema.js +0 -195
package/src/config/schema/kernel-warmup.schema.d.ts +0 -19
package/src/config/schema/kernel-warmup.schema.js +0 -5
package/src/config/schema/kvcache.schema.d.ts +0 -131
package/src/config/schema/kvcache.schema.js +0 -31
package/src/config/schema/loading.schema.d.ts +0 -153
package/src/config/schema/loading.schema.js +0 -84
package/src/config/schema/lora.schema.d.ts +0 -12
package/src/config/schema/lora.schema.js +0 -12
package/src/config/schema/manifest.schema.d.ts +0 -507
package/src/config/schema/manifest.schema.js +0 -146
package/src/config/schema/memory-limits.schema.d.ts +0 -107
package/src/config/schema/memory-limits.schema.js +0 -57
package/src/config/schema/moe.schema.d.ts +0 -78
package/src/config/schema/moe.schema.js +0 -31
package/src/config/schema/platform.schema.d.ts +0 -121
package/src/config/schema/platform.schema.js +0 -1
package/src/config/schema/preset.schema.d.ts +0 -124
package/src/config/schema/preset.schema.js +0 -1
package/src/config/schema/quantization-defaults.schema.d.ts +0 -34
package/src/config/schema/quantization-defaults.schema.js +0 -5
package/src/config/schema/quantization.schema.d.ts +0 -10
package/src/config/schema/quantization.schema.js +0 -33
package/src/config/schema/shared-runtime.schema.d.ts +0 -75
package/src/config/schema/shared-runtime.schema.js +0 -45
package/src/config/schema/speculative.schema.d.ts +0 -21
package/src/config/schema/speculative.schema.js +0 -11
package/src/config/schema/storage.schema.d.ts +0 -123
package/src/config/schema/storage.schema.js +0 -66
package/src/config/schema/tooling.schema.d.ts +0 -29
package/src/config/schema/tooling.schema.js +0 -12
package/src/config/schema/training-metrics.schema.d.ts +0 -89
package/src/config/schema/training-metrics.schema.js +0 -374
package/src/config/schema/training.schema.d.ts +0 -88
package/src/config/schema/training.schema.js +0 -106
package/src/config/schema/tuner.schema.d.ts +0 -39
package/src/config/schema/tuner.schema.js +0 -13
package/src/config/schema/ul-training.schema.d.ts +0 -61
package/src/config/schema/ul-training.schema.js +0 -140
package/src/config/schema/units.schema.d.ts +0 -27
package/src/config/schema/units.schema.js +0 -26
package/src/config/training-defaults.d.ts +0 -24
package/src/config/training-defaults.js +0 -99
package/src/converter/conversion-plan.d.ts +0 -64
package/src/converter/conversion-plan.js +0 -565
package/src/converter/core.d.ts +0 -264
package/src/converter/core.js +0 -1383
package/src/converter/execution-v0-manifest.d.ts +0 -15
package/src/converter/execution-v0-manifest.js +0 -149
package/src/converter/index.d.ts +0 -99
package/src/converter/index.js +0 -60
package/src/converter/manifest-inference.d.ts +0 -20
package/src/converter/manifest-inference.js +0 -513
package/src/converter/parsers/diffusion.d.ts +0 -50
package/src/converter/parsers/diffusion.js +0 -327
package/src/converter/parsers/gguf.d.ts +0 -22
package/src/converter/parsers/gguf.js +0 -46
package/src/converter/parsers/index.d.ts +0 -21
package/src/converter/parsers/index.js +0 -12
package/src/converter/parsers/transformer.d.ts +0 -16
package/src/converter/parsers/transformer.js +0 -29
package/src/converter/quantization-info.d.ts +0 -37
package/src/converter/quantization-info.js +0 -422
package/src/converter/quantizer.d.ts +0 -101
package/src/converter/quantizer.js +0 -444
package/src/converter/rope-config.d.ts +0 -15
package/src/converter/rope-config.js +0 -262
package/src/converter/shard-packer.d.ts +0 -138
package/src/converter/shard-packer.js +0 -425
package/src/converter/tokenizer-utils.d.ts +0 -12
package/src/converter/tokenizer-utils.js +0 -104
package/src/debug/config.d.ts +0 -78
package/src/debug/config.js +0 -347
package/src/debug/history.d.ts +0 -65
package/src/debug/history.js +0 -71
package/src/debug/index.d.ts +0 -268
package/src/debug/index.js +0 -192
package/src/debug/log.d.ts +0 -46
package/src/debug/log.js +0 -132
package/src/debug/perf.d.ts +0 -33
package/src/debug/perf.js +0 -51
package/src/debug/reference/README.md +0 -114
package/src/debug/reference/hf_attn_debug.py +0 -114
package/src/debug/reference/hf_embed_check.py +0 -89
package/src/debug/reference/hf_layer_out.py +0 -100
package/src/debug/reference/hf_qwen35_linear_attn_debug.py +0 -268
package/src/debug/reference/hf_rope_check.py +0 -116
package/src/debug/reference/hf_weights.py +0 -75
package/src/debug/signals.d.ts +0 -63
package/src/debug/signals.js +0 -39
package/src/debug/stats.d.ts +0 -47
package/src/debug/stats.js +0 -160
package/src/debug/tensor.d.ts +0 -125
package/src/debug/tensor.js +0 -268
package/src/debug/trace.d.ts +0 -17
package/src/debug/trace.js +0 -167
package/src/diffusion/image-regression.d.ts +0 -31
package/src/diffusion/image-regression.js +0 -107
package/src/diffusion/index.d.ts +0 -8
package/src/diffusion/index.js +0 -8
package/src/distribution/p2p-control-plane.d.ts +0 -52
package/src/distribution/p2p-control-plane.js +0 -272
package/src/distribution/p2p-observability.d.ts +0 -116
package/src/distribution/p2p-observability.js +0 -303
package/src/distribution/p2p-transport-contract.d.ts +0 -57
package/src/distribution/p2p-transport-contract.js +0 -310
package/src/distribution/p2p-webrtc-browser.d.ts +0 -37
package/src/distribution/p2p-webrtc-browser.js +0 -454
package/src/distribution/shard-delivery.d.ts +0 -251
package/src/distribution/shard-delivery.js +0 -2186
package/src/energy/index.d.ts +0 -2
package/src/energy/index.js +0 -2
package/src/errors/doppler-error.d.ts +0 -21
package/src/errors/doppler-error.js +0 -25
package/src/errors/index.d.ts +0 -1
package/src/errors/index.js +0 -1
package/src/formats/gguf/index.d.ts +0 -8
package/src/formats/gguf/index.js +0 -4
package/src/formats/gguf/types.d.ts +0 -137
package/src/formats/gguf/types.js +0 -460
package/src/formats/index.d.ts +0 -51
package/src/formats/index.js +0 -13
package/src/formats/rdrr/classification.d.ts +0 -39
package/src/formats/rdrr/classification.js +0 -307
package/src/formats/rdrr/groups.d.ts +0 -35
package/src/formats/rdrr/groups.js +0 -73
package/src/formats/rdrr/index.d.ts +0 -25
package/src/formats/rdrr/index.js +0 -19
package/src/formats/rdrr/manifest.d.ts +0 -32
package/src/formats/rdrr/manifest.js +0 -108
package/src/formats/rdrr/parsing.d.ts +0 -27
package/src/formats/rdrr/parsing.js +0 -151
package/src/formats/rdrr/tensor-config-validator.d.ts +0 -42
package/src/formats/rdrr/tensor-config-validator.js +0 -156
package/src/formats/rdrr/types.d.ts +0 -201
package/src/formats/rdrr/types.js +0 -16
package/src/formats/rdrr/validation.d.ts +0 -9
package/src/formats/rdrr/validation.js +0 -213
package/src/formats/safetensors/index.d.ts +0 -8
package/src/formats/safetensors/index.js +0 -4
package/src/formats/safetensors/types.d.ts +0 -67
package/src/formats/safetensors/types.js +0 -102
package/src/formats/tokenizer/index.d.ts +0 -5
package/src/formats/tokenizer/index.js +0 -3
package/src/formats/tokenizer/types.d.ts +0 -9
package/src/formats/tokenizer/types.js +0 -22
package/src/generation/index.d.ts +0 -18
package/src/generation/index.js +0 -12
package/src/gpu/command-recorder.d.ts +0 -175
package/src/gpu/command-recorder.js +0 -498
package/src/gpu/device.d.ts +0 -142
package/src/gpu/device.js +0 -462
package/src/gpu/kernel-runtime.d.ts +0 -20
package/src/gpu/kernel-runtime.js +0 -39
package/src/gpu/kernel-selection-cache.d.ts +0 -13
package/src/gpu/kernel-selection-cache.js +0 -13
package/src/gpu/kernel-selection-log.d.ts +0 -12
package/src/gpu/kernel-selection-log.js +0 -28
package/src/gpu/kernel-selector.d.ts +0 -11
package/src/gpu/kernel-selector.js +0 -10
package/src/gpu/kernel-tuner/benchmarks.d.ts +0 -144
package/src/gpu/kernel-tuner/benchmarks.js +0 -902
package/src/gpu/kernel-tuner/cache.d.ts +0 -55
package/src/gpu/kernel-tuner/cache.js +0 -133
package/src/gpu/kernel-tuner/index.d.ts +0 -59
package/src/gpu/kernel-tuner/index.js +0 -38
package/src/gpu/kernel-tuner/tuner.d.ts +0 -82
package/src/gpu/kernel-tuner/tuner.js +0 -247
package/src/gpu/kernel-tuner/types.d.ts +0 -101
package/src/gpu/kernel-tuner/types.js +0 -4
package/src/gpu/kernel-tuner.d.ts +0 -33
package/src/gpu/kernel-tuner.js +0 -12
package/src/gpu/kernels/README.md +0 -127
package/src/gpu/kernels/attention.d.ts +0 -236
package/src/gpu/kernels/attention.js +0 -1439
package/src/gpu/kernels/attention.wgsl +0 -249
package/src/gpu/kernels/attention_bdpa_decode_f16.wgsl +0 -246
package/src/gpu/kernels/attention_decode.wgsl +0 -233
package/src/gpu/kernels/attention_decode_chunked_f16.wgsl +0 -183
package/src/gpu/kernels/attention_decode_chunked_f16kv.wgsl +0 -208
package/src/gpu/kernels/attention_decode_f16.wgsl +0 -202
package/src/gpu/kernels/attention_decode_f16kv.wgsl +0 -224
package/src/gpu/kernels/attention_decode_online_f16.wgsl +0 -223
package/src/gpu/kernels/attention_decode_online_f16kv.wgsl +0 -225
package/src/gpu/kernels/attention_decode_optimized.wgsl +0 -445
package/src/gpu/kernels/attention_decode_paged_f16.wgsl +0 -172
package/src/gpu/kernels/attention_decode_paged_f16kv.wgsl +0 -174
package/src/gpu/kernels/attention_decode_subgroup.wgsl +0 -233
package/src/gpu/kernels/attention_decode_tiered_f16.wgsl +0 -218
package/src/gpu/kernels/attention_decode_tiered_f16kv.wgsl +0 -220
package/src/gpu/kernels/attention_decode_tiered_int4_f16kv.wgsl +0 -242
package/src/gpu/kernels/attention_decode_tiered_int8_f16kv.wgsl +0 -242
package/src/gpu/kernels/attention_f16.wgsl +0 -214
package/src/gpu/kernels/attention_f16kv.wgsl +0 -242
package/src/gpu/kernels/attention_small.wgsl +0 -260
package/src/gpu/kernels/attention_small_f16.wgsl +0 -240
package/src/gpu/kernels/attention_small_f16kv.wgsl +0 -266
package/src/gpu/kernels/attention_streaming.wgsl +0 -149
package/src/gpu/kernels/attention_streaming_f16.wgsl +0 -147
package/src/gpu/kernels/attention_streaming_f16kv.wgsl +0 -151
package/src/gpu/kernels/backward/adam.d.ts +0 -28
package/src/gpu/kernels/backward/adam.js +0 -203
package/src/gpu/kernels/backward/adam.wgsl +0 -50
package/src/gpu/kernels/backward/attention_backward.d.ts +0 -22
package/src/gpu/kernels/backward/attention_backward.js +0 -364
package/src/gpu/kernels/backward/attention_backward.wgsl +0 -49
package/src/gpu/kernels/backward/bias_add_backward.d.ts +0 -17
package/src/gpu/kernels/backward/bias_add_backward.js +0 -24
package/src/gpu/kernels/backward/bias_add_backward.wgsl +0 -33
package/src/gpu/kernels/backward/conv2d_backward.d.ts +0 -31
package/src/gpu/kernels/backward/conv2d_backward.js +0 -148
package/src/gpu/kernels/backward/conv2d_backward_input.wgsl +0 -83
package/src/gpu/kernels/backward/conv2d_backward_weight.wgsl +0 -70
package/src/gpu/kernels/backward/cross_entropy_backward.d.ts +0 -23
package/src/gpu/kernels/backward/cross_entropy_backward.js +0 -29
package/src/gpu/kernels/backward/cross_entropy_backward.wgsl +0 -39
package/src/gpu/kernels/backward/embed_backward.d.ts +0 -29
package/src/gpu/kernels/backward/embed_backward.js +0 -118
package/src/gpu/kernels/backward/embed_backward.wgsl +0 -73
package/src/gpu/kernels/backward/gelu_backward.d.ts +0 -16
package/src/gpu/kernels/backward/gelu_backward.js +0 -39
package/src/gpu/kernels/backward/gelu_backward.wgsl +0 -38
package/src/gpu/kernels/backward/groupnorm_backward.d.ts +0 -24
package/src/gpu/kernels/backward/groupnorm_backward.js +0 -29
package/src/gpu/kernels/backward/groupnorm_backward.wgsl +0 -143
package/src/gpu/kernels/backward/index.d.ts +0 -17
package/src/gpu/kernels/backward/index.js +0 -23
package/src/gpu/kernels/backward/layernorm_backward.d.ts +0 -22
package/src/gpu/kernels/backward/layernorm_backward.js +0 -135
package/src/gpu/kernels/backward/layernorm_backward.wgsl +0 -194
package/src/gpu/kernels/backward/matmul_backward.d.ts +0 -32
package/src/gpu/kernels/backward/matmul_backward.js +0 -124
package/src/gpu/kernels/backward/matmul_backward.wgsl +0 -90
package/src/gpu/kernels/backward/matmul_transpose_a.wgsl +0 -84
package/src/gpu/kernels/backward/pixel_shuffle_backward.d.ts +0 -22
package/src/gpu/kernels/backward/pixel_shuffle_backward.js +0 -30
package/src/gpu/kernels/backward/pixel_shuffle_backward.wgsl +0 -54
package/src/gpu/kernels/backward/rmsnorm_backward.d.ts +0 -24
package/src/gpu/kernels/backward/rmsnorm_backward.js +0 -101
package/src/gpu/kernels/backward/rmsnorm_backward.wgsl +0 -78
package/src/gpu/kernels/backward/rope_backward.d.ts +0 -25
package/src/gpu/kernels/backward/rope_backward.js +0 -109
package/src/gpu/kernels/backward/rope_backward.wgsl +0 -59
package/src/gpu/kernels/backward/scale_backward.d.ts +0 -16
package/src/gpu/kernels/backward/scale_backward.js +0 -84
package/src/gpu/kernels/backward/scale_backward.wgsl +0 -27
package/src/gpu/kernels/backward/silu_backward.d.ts +0 -16
package/src/gpu/kernels/backward/silu_backward.js +0 -39
package/src/gpu/kernels/backward/silu_backward.wgsl +0 -31
package/src/gpu/kernels/backward/softmax_backward.d.ts +0 -16
package/src/gpu/kernels/backward/softmax_backward.js +0 -43
package/src/gpu/kernels/backward/softmax_backward.wgsl +0 -44
package/src/gpu/kernels/backward/upsample2d_backward.d.ts +0 -21
package/src/gpu/kernels/backward/upsample2d_backward.js +0 -30
package/src/gpu/kernels/backward/upsample2d_backward.wgsl +0 -59
package/src/gpu/kernels/backward/utils.d.ts +0 -45
package/src/gpu/kernels/backward/utils.js +0 -371
package/src/gpu/kernels/bf16_to_f16.wgsl +0 -54
package/src/gpu/kernels/bf16_to_f32.wgsl +0 -70
package/src/gpu/kernels/bias_add.wgsl +0 -42
package/src/gpu/kernels/bias_add_f16.wgsl +0 -47
package/src/gpu/kernels/cast.d.ts +0 -67
package/src/gpu/kernels/cast.js +0 -464
package/src/gpu/kernels/cast_f16_to_f32.wgsl +0 -31
package/src/gpu/kernels/cast_f32_to_f16.wgsl +0 -36
package/src/gpu/kernels/check-finiteness.d.ts +0 -15
package/src/gpu/kernels/check-finiteness.js +0 -149
package/src/gpu/kernels/check-stop.d.ts +0 -31
package/src/gpu/kernels/check-stop.js +0 -170
package/src/gpu/kernels/clamp.d.ts +0 -22
package/src/gpu/kernels/clamp.js +0 -42
package/src/gpu/kernels/clamp.wgsl +0 -24
package/src/gpu/kernels/constants.d.ts +0 -168
package/src/gpu/kernels/constants.js +0 -129
package/src/gpu/kernels/conv2d.d.ts +0 -34
package/src/gpu/kernels/conv2d.js +0 -91
package/src/gpu/kernels/conv2d.wgsl +0 -70
package/src/gpu/kernels/conv2d_f16.wgsl +0 -72
package/src/gpu/kernels/cross_entropy_loss.d.ts +0 -21
package/src/gpu/kernels/cross_entropy_loss.js +0 -60
package/src/gpu/kernels/cross_entropy_loss.wgsl +0 -39
package/src/gpu/kernels/depthwise_conv2d.d.ts +0 -29
package/src/gpu/kernels/depthwise_conv2d.js +0 -109
package/src/gpu/kernels/depthwise_conv2d.wgsl +0 -55
package/src/gpu/kernels/depthwise_conv2d_f16.wgsl +0 -59
package/src/gpu/kernels/dequant.d.ts +0 -108
package/src/gpu/kernels/dequant.js +0 -576
package/src/gpu/kernels/dequant_f16_out.wgsl +0 -153
package/src/gpu/kernels/dequant_f16_out_vec4.wgsl +0 -152
package/src/gpu/kernels/dequant_f16_rowwise.wgsl +0 -139
package/src/gpu/kernels/dequant_f32_rowwise.wgsl +0 -133
package/src/gpu/kernels/dequant_mxfp4.wgsl +0 -120
package/src/gpu/kernels/dequant_mxfp4_expert.wgsl +0 -129
package/src/gpu/kernels/dequant_mxfp4_expert_f16.wgsl +0 -105
package/src/gpu/kernels/dequant_mxfp4_vec4.wgsl +0 -116
package/src/gpu/kernels/dequant_q6k.wgsl +0 -140
package/src/gpu/kernels/dequant_q8_0.wgsl +0 -98
package/src/gpu/kernels/dequant_shared.wgsl +0 -204
package/src/gpu/kernels/dequant_shared_vec4.wgsl +0 -155
package/src/gpu/kernels/dequant_subgroup.wgsl +0 -206
package/src/gpu/kernels/dispatch.d.ts +0 -157
package/src/gpu/kernels/dispatch.js +0 -235
package/src/gpu/kernels/energy.d.ts +0 -113
package/src/gpu/kernels/energy.js +0 -448
package/src/gpu/kernels/energy_eval.wgsl +0 -26
package/src/gpu/kernels/energy_eval_f16.wgsl +0 -30
package/src/gpu/kernels/energy_quintel_grad.wgsl +0 -92
package/src/gpu/kernels/energy_quintel_grad_f16.wgsl +0 -96
package/src/gpu/kernels/energy_quintel_reduce.wgsl +0 -112
package/src/gpu/kernels/energy_quintel_reduce_f16.wgsl +0 -116
package/src/gpu/kernels/energy_quintel_update.wgsl +0 -92
package/src/gpu/kernels/energy_quintel_update_f16.wgsl +0 -96
package/src/gpu/kernels/energy_update.wgsl +0 -25
package/src/gpu/kernels/energy_update_f16.wgsl +0 -30
package/src/gpu/kernels/feature-check.d.ts +0 -42
package/src/gpu/kernels/feature-check.js +0 -70
package/src/gpu/kernels/fused_ffn.d.ts +0 -65
package/src/gpu/kernels/fused_ffn.js +0 -337
package/src/gpu/kernels/fused_ffn.wgsl +0 -420
package/src/gpu/kernels/fused_ffn_f16.wgsl +0 -213
package/src/gpu/kernels/fused_ffn_q4k.wgsl +0 -375
package/src/gpu/kernels/fused_matmul_q4.wgsl +0 -404
package/src/gpu/kernels/fused_matmul_q4_batched.wgsl +0 -194
package/src/gpu/kernels/fused_matmul_q4_batched_f16.wgsl +0 -170
package/src/gpu/kernels/fused_matmul_q4_batched_f16a.wgsl +0 -154
package/src/gpu/kernels/fused_matmul_q4_f16a.wgsl +0 -219
package/src/gpu/kernels/fused_matmul_q4_multicol_f16.wgsl +0 -216
package/src/gpu/kernels/fused_matmul_q4_multicol_f16a.wgsl +0 -204
package/src/gpu/kernels/fused_matmul_residual.d.ts +0 -46
package/src/gpu/kernels/fused_matmul_residual.js +0 -175
package/src/gpu/kernels/fused_matmul_rmsnorm.d.ts +0 -64
package/src/gpu/kernels/fused_matmul_rmsnorm.js +0 -290
package/src/gpu/kernels/fused_matmul_rmsnorm.wgsl +0 -324
package/src/gpu/kernels/fused_matmul_rmsnorm_f16.wgsl +0 -303
package/src/gpu/kernels/fused_swiglu.wgsl +0 -63
package/src/gpu/kernels/fused_swiglu_f16.wgsl +0 -57
package/src/gpu/kernels/gated-short-conv.d.ts +0 -63
package/src/gpu/kernels/gated-short-conv.js +0 -284
package/src/gpu/kernels/gather.d.ts +0 -64
package/src/gpu/kernels/gather.js +0 -137
package/src/gpu/kernels/gather.wgsl +0 -61
package/src/gpu/kernels/gather_f16.wgsl +0 -65
package/src/gpu/kernels/gather_f16_f16_out.wgsl +0 -55
package/src/gpu/kernels/gather_f16_out.wgsl +0 -55
package/src/gpu/kernels/gather_f16_vec4.wgsl +0 -76
package/src/gpu/kernels/gather_f16_vec4_f16_out.wgsl +0 -68
package/src/gpu/kernels/gather_vec4.wgsl +0 -74
package/src/gpu/kernels/gather_vec4_f16_out.wgsl +0 -68
package/src/gpu/kernels/gelu.d.ts +0 -33
package/src/gpu/kernels/gelu.js +0 -55
package/src/gpu/kernels/gelu.wgsl +0 -64
package/src/gpu/kernels/gelu_f16.wgsl +0 -66
package/src/gpu/kernels/gptoss_mxfp4_expert_fused.wgsl +0 -127
package/src/gpu/kernels/gptoss_router_topk.wgsl +0 -119
package/src/gpu/kernels/grouped_pointwise_conv2d.d.ts +0 -27
package/src/gpu/kernels/grouped_pointwise_conv2d.js +0 -103
package/src/gpu/kernels/grouped_pointwise_conv2d.wgsl +0 -44
package/src/gpu/kernels/grouped_pointwise_conv2d_f16.wgsl +0 -48
package/src/gpu/kernels/groupnorm.d.ts +0 -31
package/src/gpu/kernels/groupnorm.js +0 -102
package/src/gpu/kernels/groupnorm_apply.wgsl +0 -41
package/src/gpu/kernels/groupnorm_apply_f16.wgsl +0 -46
package/src/gpu/kernels/groupnorm_stats.wgsl +0 -76
package/src/gpu/kernels/groupnorm_stats_f16.wgsl +0 -79
package/src/gpu/kernels/index.d.ts +0 -374
package/src/gpu/kernels/index.js +0 -315
package/src/gpu/kernels/kernel-base.d.ts +0 -33
package/src/gpu/kernels/kernel-base.js +0 -46
package/src/gpu/kernels/kernel-configs.d.ts +0 -65
package/src/gpu/kernels/kernel-configs.js +0 -50
package/src/gpu/kernels/kernel-tuning.d.ts +0 -42
package/src/gpu/kernels/kernel-tuning.js +0 -149
package/src/gpu/kernels/kv-quantize.d.ts +0 -37
package/src/gpu/kernels/kv-quantize.js +0 -141
package/src/gpu/kernels/kv_quantize_int4.wgsl +0 -119
package/src/gpu/kernels/kv_quantize_int8.wgsl +0 -119
package/src/gpu/kernels/layernorm.d.ts +0 -37
package/src/gpu/kernels/layernorm.js +0 -96
package/src/gpu/kernels/layernorm.wgsl +0 -121
package/src/gpu/kernels/layernorm_f16.wgsl +0 -103
package/src/gpu/kernels/linear-attention-core.d.ts +0 -39
package/src/gpu/kernels/linear-attention-core.js +0 -555
package/src/gpu/kernels/logit-merge.d.ts +0 -110
package/src/gpu/kernels/logit-merge.js +0 -394
package/src/gpu/kernels/matmul-dispatch.d.ts +0 -38
package/src/gpu/kernels/matmul-dispatch.js +0 -155
package/src/gpu/kernels/matmul-selection.d.ts +0 -87
package/src/gpu/kernels/matmul-selection.js +0 -518
package/src/gpu/kernels/matmul.d.ts +0 -114
package/src/gpu/kernels/matmul.js +0 -384
package/src/gpu/kernels/matmul_f16.wgsl +0 -170
package/src/gpu/kernels/matmul_f16_tiled.wgsl +0 -165
package/src/gpu/kernels/matmul_f16w_f32a.wgsl +0 -89
package/src/gpu/kernels/matmul_f16w_f32a_tiled.wgsl +0 -154
package/src/gpu/kernels/matmul_f32.wgsl +0 -100
package/src/gpu/kernels/matmul_gemv.wgsl +0 -80
package/src/gpu/kernels/matmul_gemv_f16a.wgsl +0 -81
package/src/gpu/kernels/matmul_gemv_residual.wgsl +0 -119
package/src/gpu/kernels/matmul_gemv_residual_f16.wgsl +0 -78
package/src/gpu/kernels/matmul_gemv_subgroup.wgsl +0 -343
package/src/gpu/kernels/matmul_gemv_subgroup_f16a.wgsl +0 -514
package/src/gpu/kernels/modulate.d.ts +0 -29
package/src/gpu/kernels/modulate.js +0 -57
package/src/gpu/kernels/modulate.wgsl +0 -40
package/src/gpu/kernels/modulate_f16.wgsl +0 -43
package/src/gpu/kernels/moe.d.ts +0 -164
package/src/gpu/kernels/moe.js +0 -542
package/src/gpu/kernels/moe_gather.wgsl +0 -170
package/src/gpu/kernels/moe_gather_f16.wgsl +0 -82
package/src/gpu/kernels/moe_gather_vec4.wgsl +0 -74
package/src/gpu/kernels/moe_offsets.wgsl +0 -48
package/src/gpu/kernels/pipeline-cache.d.ts +0 -88
package/src/gpu/kernels/pipeline-cache.js +0 -305
package/src/gpu/kernels/pixel_shuffle.d.ts +0 -27
package/src/gpu/kernels/pixel_shuffle.js +0 -57
package/src/gpu/kernels/pixel_shuffle.wgsl +0 -43
package/src/gpu/kernels/pixel_shuffle_f16.wgsl +0 -46
package/src/gpu/kernels/relu.d.ts +0 -18
package/src/gpu/kernels/relu.js +0 -66
package/src/gpu/kernels/relu.wgsl +0 -22
package/src/gpu/kernels/relu_f16.wgsl +0 -24
package/src/gpu/kernels/repeat_channels.d.ts +0 -21
package/src/gpu/kernels/repeat_channels.js +0 -68
package/src/gpu/kernels/repeat_channels.wgsl +0 -28
package/src/gpu/kernels/repeat_channels_f16.wgsl +0 -30
package/src/gpu/kernels/residual.d.ts +0 -74
package/src/gpu/kernels/residual.js +0 -173
package/src/gpu/kernels/residual.wgsl +0 -56
package/src/gpu/kernels/residual_f16.wgsl +0 -36
package/src/gpu/kernels/residual_f16_vec4.wgsl +0 -48
package/src/gpu/kernels/residual_vec4.wgsl +0 -47
package/src/gpu/kernels/rmsnorm.d.ts +0 -53
package/src/gpu/kernels/rmsnorm.js +0 -215
package/src/gpu/kernels/rmsnorm.wgsl +0 -425
package/src/gpu/kernels/rmsnorm_f16.wgsl +0 -172
package/src/gpu/kernels/rope.d.ts +0 -50
package/src/gpu/kernels/rope.js +0 -66
package/src/gpu/kernels/rope.wgsl +0 -344
package/src/gpu/kernels/rope_f16.wgsl +0 -271
package/src/gpu/kernels/rule-matcher.d.ts +0 -30
package/src/gpu/kernels/rule-matcher.js +0 -42
package/src/gpu/kernels/rule-registry.d.ts +0 -7
package/src/gpu/kernels/rule-registry.js +0 -41
package/src/gpu/kernels/sample.d.ts +0 -75
package/src/gpu/kernels/sample.js +0 -565
package/src/gpu/kernels/sample.wgsl +0 -407
package/src/gpu/kernels/sample_f16.wgsl +0 -361
package/src/gpu/kernels/sana_linear_attention.d.ts +0 -27
package/src/gpu/kernels/sana_linear_attention.js +0 -129
package/src/gpu/kernels/sana_linear_attention_apply.wgsl +0 -43
package/src/gpu/kernels/sana_linear_attention_apply_f16.wgsl +0 -46
package/src/gpu/kernels/sana_linear_attention_summary.wgsl +0 -51
package/src/gpu/kernels/sana_linear_attention_summary_f16.wgsl +0 -53
package/src/gpu/kernels/scale.d.ts +0 -35
package/src/gpu/kernels/scale.js +0 -44
package/src/gpu/kernels/scale.wgsl +0 -38
package/src/gpu/kernels/scatter_add.wgsl +0 -88
package/src/gpu/kernels/scatter_add_dynamic.wgsl +0 -59
package/src/gpu/kernels/scatter_add_dynamic_f16.wgsl +0 -52
package/src/gpu/kernels/scatter_add_dynamic_f16_weights.wgsl +0 -50
package/src/gpu/kernels/scatter_add_vec4.wgsl +0 -70
package/src/gpu/kernels/shader-cache.d.ts +0 -56
package/src/gpu/kernels/shader-cache.js +0 -213
package/src/gpu/kernels/silu.d.ts +0 -76
package/src/gpu/kernels/silu.js +0 -406
package/src/gpu/kernels/silu.wgsl +0 -109
package/src/gpu/kernels/silu_f16.wgsl +0 -108
package/src/gpu/kernels/softmax.d.ts +0 -57
package/src/gpu/kernels/softmax.js +0 -125
package/src/gpu/kernels/softmax.wgsl +0 -388
package/src/gpu/kernels/softmax_subgroup.wgsl +0 -175
package/src/gpu/kernels/split_qg.d.ts +0 -50
package/src/gpu/kernels/split_qg.js +0 -46
package/src/gpu/kernels/split_qg.wgsl +0 -58
package/src/gpu/kernels/split_qg_f16.wgsl +0 -62
package/src/gpu/kernels/split_qkv.d.ts +0 -51
package/src/gpu/kernels/split_qkv.js +0 -51
package/src/gpu/kernels/split_qkv.wgsl +0 -71
package/src/gpu/kernels/split_qkv_f16.wgsl +0 -75
package/src/gpu/kernels/topk.wgsl +0 -243
package/src/gpu/kernels/topk_f16.wgsl +0 -108
package/src/gpu/kernels/topk_f16_weights.wgsl +0 -101
package/src/gpu/kernels/transpose.d.ts +0 -21
package/src/gpu/kernels/transpose.js +0 -51
package/src/gpu/kernels/transpose.wgsl +0 -33
package/src/gpu/kernels/types.d.ts +0 -21
package/src/gpu/kernels/types.js +0 -4
package/src/gpu/kernels/uniform-utils.d.ts +0 -48
package/src/gpu/kernels/uniform-utils.js +0 -94
package/src/gpu/kernels/upsample2d.d.ts +0 -25
package/src/gpu/kernels/upsample2d.js +0 -67
package/src/gpu/kernels/upsample2d.wgsl +0 -34
package/src/gpu/kernels/upsample2d_f16.wgsl +0 -38
package/src/gpu/kernels/utils.d.ts +0 -106
package/src/gpu/kernels/utils.js +0 -246
package/src/gpu/multi-model-recorder.d.ts +0 -21
package/src/gpu/multi-model-recorder.js +0 -31
package/src/gpu/partitioned-buffer-pool.d.ts +0 -28
package/src/gpu/partitioned-buffer-pool.js +0 -57
package/src/gpu/perf-guards.d.ts +0 -25
package/src/gpu/perf-guards.js +0 -133
package/src/gpu/profiler.d.ts +0 -114
package/src/gpu/profiler.js +0 -396
package/src/gpu/readback-utils.d.ts +0 -16
package/src/gpu/readback-utils.js +0 -41
package/src/gpu/submit-tracker.d.ts +0 -111
package/src/gpu/submit-tracker.js +0 -242
package/src/gpu/tensor.d.ts +0 -69
package/src/gpu/tensor.js +0 -75
package/src/gpu/uniform-cache.d.ts +0 -109
package/src/gpu/uniform-cache.js +0 -263
package/src/gpu/weight-buffer.d.ts +0 -115
package/src/gpu/weight-buffer.js +0 -118
package/src/hotswap/intent-bundle.d.ts +0 -37
package/src/hotswap/intent-bundle.js +0 -129
package/src/hotswap/manifest.d.ts +0 -42
package/src/hotswap/manifest.js +0 -124
package/src/hotswap/runtime.d.ts +0 -31
package/src/hotswap/runtime.js +0 -150
package/src/index-browser.d.ts +0 -92
package/src/index-browser.js +0 -68
package/src/index-internal.d.ts +0 -2
package/src/index-internal.js +0 -2
package/src/index.d.ts +0 -103
package/src/index.js +0 -76
package/src/inference/README.md +0 -593
package/src/inference/browser-harness-contract-helpers.d.ts +0 -5
package/src/inference/browser-harness-contract-helpers.js +0 -28
package/src/inference/browser-harness-diffusion-energy-suites.d.ts +0 -2
package/src/inference/browser-harness-diffusion-energy-suites.js +0 -269
package/src/inference/browser-harness-model-helpers.d.ts +0 -16
package/src/inference/browser-harness-model-helpers.js +0 -217
package/src/inference/browser-harness-report-helpers.d.ts +0 -7
package/src/inference/browser-harness-report-helpers.js +0 -42
package/src/inference/browser-harness-runtime-helpers.d.ts +0 -61
package/src/inference/browser-harness-runtime-helpers.js +0 -415
package/src/inference/browser-harness-suite-helpers.d.ts +0 -28
package/src/inference/browser-harness-suite-helpers.js +0 -268
package/src/inference/browser-harness-text-helpers.d.ts +0 -27
package/src/inference/browser-harness-text-helpers.js +0 -788
package/src/inference/browser-harness.d.ts +0 -242
package/src/inference/browser-harness.js +0 -990
package/src/inference/decode-buffers.d.ts +0 -108
package/src/inference/decode-buffers.js +0 -181
package/src/inference/decode-ring.d.ts +0 -52
package/src/inference/decode-ring.js +0 -273
package/src/inference/expert-router.d.ts +0 -27
package/src/inference/expert-router.js +0 -55
package/src/inference/functiongemma.d.ts +0 -15
package/src/inference/functiongemma.js +0 -1
package/src/inference/kv-cache/base.d.ts +0 -150
package/src/inference/kv-cache/base.js +0 -1076
package/src/inference/kv-cache/basis-decomposed-paged.d.ts +0 -50
package/src/inference/kv-cache/basis-decomposed-paged.js +0 -276
package/src/inference/kv-cache/index.d.ts +0 -35
package/src/inference/kv-cache/index.js +0 -20
package/src/inference/kv-cache/sliding-window.d.ts +0 -72
package/src/inference/kv-cache/sliding-window.js +0 -243
package/src/inference/kv-cache/tiered.d.ts +0 -89
package/src/inference/kv-cache/tiered.js +0 -576
package/src/inference/kv-cache/types.d.ts +0 -188
package/src/inference/kv-cache/types.js +0 -80
package/src/inference/kv-cache.d.ts +0 -36
package/src/inference/kv-cache.js +0 -18
package/src/inference/moe-router.d.ts +0 -212
package/src/inference/moe-router.js +0 -585
package/src/inference/multi-model-network.d.ts +0 -139
package/src/inference/multi-model-network.js +0 -771
package/src/inference/multi-pipeline-pool.d.ts +0 -62
package/src/inference/multi-pipeline-pool.js +0 -161
package/src/inference/network-evolution.d.ts +0 -55
package/src/inference/network-evolution.js +0 -79
package/src/inference/pipelines/context.d.ts +0 -21
package/src/inference/pipelines/context.js +0 -184
package/src/inference/pipelines/diffusion/helpers.d.ts +0 -29
package/src/inference/pipelines/diffusion/helpers.js +0 -120
package/src/inference/pipelines/diffusion/index.d.ts +0 -3
package/src/inference/pipelines/diffusion/index.js +0 -3
package/src/inference/pipelines/diffusion/init.d.ts +0 -24
package/src/inference/pipelines/diffusion/init.js +0 -138
package/src/inference/pipelines/diffusion/pipeline.d.ts +0 -38
package/src/inference/pipelines/diffusion/pipeline.js +0 -772
package/src/inference/pipelines/diffusion/sana-transformer.d.ts +0 -53
package/src/inference/pipelines/diffusion/sana-transformer.js +0 -738
package/src/inference/pipelines/diffusion/scheduler.d.ts +0 -35
package/src/inference/pipelines/diffusion/scheduler.js +0 -153
package/src/inference/pipelines/diffusion/sd3-transformer.d.ts +0 -20
package/src/inference/pipelines/diffusion/sd3-transformer.js +0 -1194
package/src/inference/pipelines/diffusion/sd3-weights.d.ts +0 -21
package/src/inference/pipelines/diffusion/sd3-weights.js +0 -287
package/src/inference/pipelines/diffusion/text-encoder-gpu.d.ts +0 -87
package/src/inference/pipelines/diffusion/text-encoder-gpu.js +0 -1224
package/src/inference/pipelines/diffusion/text-encoder.d.ts +0 -29
package/src/inference/pipelines/diffusion/text-encoder.js +0 -195
package/src/inference/pipelines/diffusion/types.d.ts +0 -116
package/src/inference/pipelines/diffusion/types.js +0 -1
package/src/inference/pipelines/diffusion/vae.d.ts +0 -20
package/src/inference/pipelines/diffusion/vae.js +0 -1375
package/src/inference/pipelines/diffusion/weights.d.ts +0 -40
package/src/inference/pipelines/diffusion/weights.js +0 -150
package/src/inference/pipelines/dream/energy-head-pipeline.d.ts +0 -29
package/src/inference/pipelines/dream/energy-head-pipeline.js +0 -6
package/src/inference/pipelines/dream/pipeline.d.ts +0 -17
package/src/inference/pipelines/dream/pipeline.js +0 -8
package/src/inference/pipelines/energy/index.d.ts +0 -1
package/src/inference/pipelines/energy/index.js +0 -1
package/src/inference/pipelines/energy/pipeline.d.ts +0 -27
package/src/inference/pipelines/energy/pipeline.js +0 -686
package/src/inference/pipelines/energy/quintel.d.ts +0 -92
package/src/inference/pipelines/energy/quintel.js +0 -218
package/src/inference/pipelines/energy/types.d.ts +0 -63
package/src/inference/pipelines/energy/types.js +0 -1
package/src/inference/pipelines/energy-head/index.d.ts +0 -6
package/src/inference/pipelines/energy-head/index.js +0 -6
package/src/inference/pipelines/energy-head/row-head-pipeline.d.ts +0 -103
package/src/inference/pipelines/energy-head/row-head-pipeline.js +0 -491
package/src/inference/pipelines/factory.d.ts +0 -10
package/src/inference/pipelines/factory.js +0 -6
package/src/inference/pipelines/index.d.ts +0 -22
package/src/inference/pipelines/index.js +0 -19
package/src/inference/pipelines/registry.d.ts +0 -15
package/src/inference/pipelines/registry.js +0 -23
package/src/inference/pipelines/rng.d.ts +0 -2
package/src/inference/pipelines/rng.js +0 -17
package/src/inference/pipelines/structured/index.d.ts +0 -8
package/src/inference/pipelines/structured/index.js +0 -8
package/src/inference/pipelines/structured/json-head-pipeline.d.ts +0 -58
package/src/inference/pipelines/structured/json-head-pipeline.js +0 -196
package/src/inference/pipelines/text/attention/index.d.ts +0 -24
package/src/inference/pipelines/text/attention/index.js +0 -17
package/src/inference/pipelines/text/attention/output-projection.d.ts +0 -12
package/src/inference/pipelines/text/attention/output-projection.js +0 -8
package/src/inference/pipelines/text/attention/projections.d.ts +0 -113
package/src/inference/pipelines/text/attention/projections.js +0 -526
package/src/inference/pipelines/text/attention/record.d.ts +0 -36
package/src/inference/pipelines/text/attention/record.js +0 -686
package/src/inference/pipelines/text/attention/run.d.ts +0 -38
package/src/inference/pipelines/text/attention/run.js +0 -942
package/src/inference/pipelines/text/attention/types.d.ts +0 -98
package/src/inference/pipelines/text/attention/types.js +0 -67
package/src/inference/pipelines/text/attention.d.ts +0 -23
package/src/inference/pipelines/text/attention.js +0 -12
package/src/inference/pipelines/text/bdpa-steamroller.d.ts +0 -22
package/src/inference/pipelines/text/bdpa-steamroller.js +0 -158
package/src/inference/pipelines/text/buffer-types.d.ts +0 -7
package/src/inference/pipelines/text/buffer-types.js +0 -4
package/src/inference/pipelines/text/chat-format.d.ts +0 -46
package/src/inference/pipelines/text/chat-format.js +0 -390
package/src/inference/pipelines/text/config.d.ts +0 -245
package/src/inference/pipelines/text/config.js +0 -731
package/src/inference/pipelines/text/debug-utils/config.d.ts +0 -144
package/src/inference/pipelines/text/debug-utils/config.js +0 -156
package/src/inference/pipelines/text/debug-utils/index.d.ts +0 -53
package/src/inference/pipelines/text/debug-utils/index.js +0 -44
package/src/inference/pipelines/text/debug-utils/logging.d.ts +0 -106
package/src/inference/pipelines/text/debug-utils/logging.js +0 -152
package/src/inference/pipelines/text/debug-utils/tensor.d.ts +0 -119
package/src/inference/pipelines/text/debug-utils/tensor.js +0 -268
package/src/inference/pipelines/text/debug-utils/utils.d.ts +0 -77
package/src/inference/pipelines/text/debug-utils/utils.js +0 -139
package/src/inference/pipelines/text/debug-utils.d.ts +0 -42
package/src/inference/pipelines/text/debug-utils.js +0 -34
package/src/inference/pipelines/text/embed.d.ts +0 -67
package/src/inference/pipelines/text/embed.js +0 -474
package/src/inference/pipelines/text/execution-plan.d.ts +0 -116
package/src/inference/pipelines/text/execution-plan.js +0 -329
package/src/inference/pipelines/text/execution-v0-contract-helpers.d.ts +0 -59
package/src/inference/pipelines/text/execution-v0-contract-helpers.js +0 -937
package/src/inference/pipelines/text/execution-v0-runtime-builders.d.ts +0 -15
package/src/inference/pipelines/text/execution-v0-runtime-builders.js +0 -286
package/src/inference/pipelines/text/execution-v0.d.ts +0 -66
package/src/inference/pipelines/text/execution-v0.js +0 -266
package/src/inference/pipelines/text/ffn/dense.d.ts +0 -40
package/src/inference/pipelines/text/ffn/dense.js +0 -759
package/src/inference/pipelines/text/ffn/index.d.ts +0 -23
package/src/inference/pipelines/text/ffn/index.js +0 -16
package/src/inference/pipelines/text/ffn/moe.d.ts +0 -21
package/src/inference/pipelines/text/ffn/moe.js +0 -49
package/src/inference/pipelines/text/ffn/sandwich.d.ts +0 -25
package/src/inference/pipelines/text/ffn/sandwich.js +0 -196
package/src/inference/pipelines/text/ffn/standard.d.ts +0 -23
package/src/inference/pipelines/text/ffn/standard.js +0 -87
package/src/inference/pipelines/text/ffn/types.d.ts +0 -30
package/src/inference/pipelines/text/ffn/types.js +0 -25
package/src/inference/pipelines/text/ffn.d.ts +0 -31
package/src/inference/pipelines/text/ffn.js +0 -18
package/src/inference/pipelines/text/finiteness-guard-status.d.ts +0 -11
package/src/inference/pipelines/text/finiteness-guard-status.js +0 -21
package/src/inference/pipelines/text/finiteness-policy.d.ts +0 -35
package/src/inference/pipelines/text/finiteness-policy.js +0 -45
package/src/inference/pipelines/text/generator-helpers.d.ts +0 -34
package/src/inference/pipelines/text/generator-helpers.js +0 -176
package/src/inference/pipelines/text/generator-runtime.d.ts +0 -93
package/src/inference/pipelines/text/generator-runtime.js +0 -392
package/src/inference/pipelines/text/generator-steps.d.ts +0 -136
package/src/inference/pipelines/text/generator-steps.js +0 -1214
package/src/inference/pipelines/text/generator.d.ts +0 -46
package/src/inference/pipelines/text/generator.js +0 -1515
package/src/inference/pipelines/text/index.d.ts +0 -5
package/src/inference/pipelines/text/index.js +0 -6
package/src/inference/pipelines/text/init.d.ts +0 -314
package/src/inference/pipelines/text/init.js +0 -1126
package/src/inference/pipelines/text/kernel-path-auto-select.d.ts +0 -12
package/src/inference/pipelines/text/kernel-path-auto-select.js +0 -92
package/src/inference/pipelines/text/kernel-trace.d.ts +0 -152
package/src/inference/pipelines/text/kernel-trace.js +0 -330
package/src/inference/pipelines/text/layer-plan.d.ts +0 -65
package/src/inference/pipelines/text/layer-plan.js +0 -249
package/src/inference/pipelines/text/layer.d.ts +0 -56
package/src/inference/pipelines/text/layer.js +0 -951
package/src/inference/pipelines/text/linear-attention.d.ts +0 -109
package/src/inference/pipelines/text/linear-attention.js +0 -907
package/src/inference/pipelines/text/logits/cpu.d.ts +0 -81
package/src/inference/pipelines/text/logits/cpu.js +0 -91
package/src/inference/pipelines/text/logits/gpu.d.ts +0 -113
package/src/inference/pipelines/text/logits/gpu.js +0 -411
package/src/inference/pipelines/text/logits/index.d.ts +0 -62
package/src/inference/pipelines/text/logits/index.js +0 -306
package/src/inference/pipelines/text/logits/types.d.ts +0 -46
package/src/inference/pipelines/text/logits/types.js +0 -4
package/src/inference/pipelines/text/logits/utils.d.ts +0 -56
package/src/inference/pipelines/text/logits/utils.js +0 -68
package/src/inference/pipelines/text/logits.d.ts +0 -27
package/src/inference/pipelines/text/logits.js +0 -16
package/src/inference/pipelines/text/lora-apply.d.ts +0 -28
package/src/inference/pipelines/text/lora-apply.js +0 -76
package/src/inference/pipelines/text/lora-types.d.ts +0 -39
package/src/inference/pipelines/text/lora-types.js +0 -18
package/src/inference/pipelines/text/lora.d.ts +0 -18
package/src/inference/pipelines/text/lora.js +0 -12
package/src/inference/pipelines/text/model-load.d.ts +0 -58
package/src/inference/pipelines/text/model-load.js +0 -739
package/src/inference/pipelines/text/moe-cache.d.ts +0 -32
package/src/inference/pipelines/text/moe-cache.js +0 -108
package/src/inference/pipelines/text/moe-cpu-gptoss.d.ts +0 -9
package/src/inference/pipelines/text/moe-cpu-gptoss.js +0 -115
package/src/inference/pipelines/text/moe-cpu.d.ts +0 -13
package/src/inference/pipelines/text/moe-cpu.js +0 -120
package/src/inference/pipelines/text/moe-gpu.d.ts +0 -13
package/src/inference/pipelines/text/moe-gpu.js +0 -653
package/src/inference/pipelines/text/moe-helpers.d.ts +0 -12
package/src/inference/pipelines/text/moe-helpers.js +0 -21
package/src/inference/pipelines/text/moe-impl.d.ts +0 -117
package/src/inference/pipelines/text/moe-impl.js +0 -9
package/src/inference/pipelines/text/moe-shape-validator.d.ts +0 -40
package/src/inference/pipelines/text/moe-shape-validator.js +0 -98
package/src/inference/pipelines/text/ops.d.ts +0 -167
package/src/inference/pipelines/text/ops.js +0 -437
package/src/inference/pipelines/text/probes.d.ts +0 -31
package/src/inference/pipelines/text/probes.js +0 -171
package/src/inference/pipelines/text/sampling.d.ts +0 -54
package/src/inference/pipelines/text/sampling.js +0 -249
package/src/inference/pipelines/text/state.d.ts +0 -112
package/src/inference/pipelines/text/state.js +0 -154
package/src/inference/pipelines/text/types.d.ts +0 -627
package/src/inference/pipelines/text/types.js +0 -4
package/src/inference/pipelines/text/weights.d.ts +0 -110
package/src/inference/pipelines/text/weights.js +0 -173
package/src/inference/pipelines/text.d.ts +0 -162
package/src/inference/pipelines/text.js +0 -666
package/src/inference/pipelines/vision/encoder.js +0 -386
package/src/inference/pipelines/vision/image-preprocess.js +0 -151
package/src/inference/pipelines/vision/index.js +0 -173
package/src/inference/pipelines/vision/ops.js +0 -78
package/src/inference/pipelines/vision/patch-embed.js +0 -151
package/src/inference/speculative.d.ts +0 -239
package/src/inference/speculative.js +0 -402
package/src/inference/test-harness.d.ts +0 -178
package/src/inference/test-harness.js +0 -361
package/src/inference/tokenizer.d.ts +0 -72
package/src/inference/tokenizer.js +0 -239
package/src/inference/tokenizers/base.d.ts +0 -39
package/src/inference/tokenizers/base.js +0 -69
package/src/inference/tokenizers/bpe.d.ts +0 -27
package/src/inference/tokenizers/bpe.js +0 -180
package/src/inference/tokenizers/bundled.d.ts +0 -63
package/src/inference/tokenizers/bundled.js +0 -1009
package/src/inference/tokenizers/sentencepiece.d.ts +0 -28
package/src/inference/tokenizers/sentencepiece.js +0 -401
package/src/inference/tokenizers/types.d.ts +0 -166
package/src/inference/tokenizers/types.js +0 -7
package/src/loader/doppler-loader.d.ts +0 -137
package/src/loader/doppler-loader.js +0 -1069
package/src/loader/dtype-utils.d.ts +0 -40
package/src/loader/dtype-utils.js +0 -61
package/src/loader/embedding-loader.d.ts +0 -56
package/src/loader/embedding-loader.js +0 -211
package/src/loader/experts/expert-cache.d.ts +0 -156
package/src/loader/experts/expert-cache.js +0 -386
package/src/loader/experts/expert-loader.d.ts +0 -108
package/src/loader/experts/expert-loader.js +0 -392
package/src/loader/final-weights-loader.d.ts +0 -68
package/src/loader/final-weights-loader.js +0 -268
package/src/loader/index.d.ts +0 -150
package/src/loader/index.js +0 -124
package/src/loader/layer-loader.d.ts +0 -63
package/src/loader/layer-loader.js +0 -457
package/src/loader/loader-state.d.ts +0 -51
package/src/loader/loader-state.js +0 -142
package/src/loader/loader-types.d.ts +0 -236
package/src/loader/loader-types.js +0 -4
package/src/loader/manifest-config.d.ts +0 -97
package/src/loader/manifest-config.js +0 -134
package/src/loader/memory-monitor.d.ts +0 -112
package/src/loader/memory-monitor.js +0 -284
package/src/loader/multi-model-loader.d.ts +0 -51
package/src/loader/multi-model-loader.js +0 -133
package/src/loader/quantization-constants.d.ts +0 -23
package/src/loader/quantization-constants.js +0 -14
package/src/loader/shard-cache.d.ts +0 -60
package/src/loader/shard-cache.js +0 -638
package/src/loader/shard-resolver.d.ts +0 -12
package/src/loader/shard-resolver.js +0 -105
package/src/loader/tensors/tensor-loader.d.ts +0 -157
package/src/loader/tensors/tensor-loader.js +0 -618
package/src/loader/tensors/tensor-reader.d.ts +0 -22
package/src/loader/tensors/tensor-reader.js +0 -113
package/src/loader/tensors/tensor-role.d.ts +0 -7
package/src/loader/tensors/tensor-role.js +0 -12
package/src/loader/weight-downcast.d.ts +0 -62
package/src/loader/weight-downcast.js +0 -213
package/src/loader/weights.d.ts +0 -22
package/src/loader/weights.js +0 -4
package/src/memory/address-table.d.ts +0 -104
package/src/memory/address-table.js +0 -114
package/src/memory/buffer-pool.d.ts +0 -204
package/src/memory/buffer-pool.js +0 -821
package/src/memory/capability.d.ts +0 -49
package/src/memory/capability.js +0 -95
package/src/memory/heap-manager.d.ts +0 -104
package/src/memory/heap-manager.js +0 -264
package/src/memory/unified-detect.d.ts +0 -59
package/src/memory/unified-detect.js +0 -192
package/src/rules/converter/execution.rules.json +0 -20
package/src/rules/converter/tensor-roles.rules.json +0 -13
package/src/rules/converter/tokenizer.rules.json +0 -7
package/src/rules/execution-rules-contract-check.d.ts +0 -17
package/src/rules/execution-rules-contract-check.js +0 -245
package/src/rules/inference/attention.rules.json +0 -54
package/src/rules/inference/config.rules.json +0 -58
package/src/rules/inference/dtype.rules.json +0 -99
package/src/rules/inference/execution.rules.json +0 -45
package/src/rules/inference/ffn.rules.json +0 -35
package/src/rules/inference/kernel-path.rules.json +0 -92
package/src/rules/inference/layer-pattern.rules.json +0 -16
package/src/rules/inference/layer.rules.json +0 -7
package/src/rules/inference/moe.rules.json +0 -48
package/src/rules/kernels/attention.rules.json +0 -61
package/src/rules/kernels/conv2d.rules.json +0 -6
package/src/rules/kernels/depthwise-conv2d.rules.json +0 -6
package/src/rules/kernels/dequant.rules.json +0 -58
package/src/rules/kernels/energy.rules.json +0 -22
package/src/rules/kernels/fused-ffn.rules.json +0 -13
package/src/rules/kernels/fused-matmul-residual.rules.json +0 -6
package/src/rules/kernels/fused-matmul-rmsnorm.rules.json +0 -8
package/src/rules/kernels/gather.rules.json +0 -12
package/src/rules/kernels/gelu.rules.json +0 -11
package/src/rules/kernels/grouped-pointwise-conv2d.rules.json +0 -6
package/src/rules/kernels/groupnorm.rules.json +0 -10
package/src/rules/kernels/kernel-validator.d.ts +0 -24
package/src/rules/kernels/kernel-validator.js +0 -160
package/src/rules/kernels/kv_quantize.rules.json +0 -7
package/src/rules/kernels/layernorm.rules.json +0 -6
package/src/rules/kernels/matmul.rules.json +0 -60
package/src/rules/kernels/modulate.rules.json +0 -6
package/src/rules/kernels/moe.rules.gptoss.json +0 -105
package/src/rules/kernels/moe.rules.json +0 -11
package/src/rules/kernels/moe.rules.mixtral.json +0 -75
package/src/rules/kernels/pixel_shuffle.rules.json +0 -6
package/src/rules/kernels/relu.rules.json +0 -6
package/src/rules/kernels/repeat-channels.rules.json +0 -6
package/src/rules/kernels/residual.rules.json +0 -12
package/src/rules/kernels/rmsnorm.rules.json +0 -11
package/src/rules/kernels/rope.rules.json +0 -6
package/src/rules/kernels/sample.rules.json +0 -6
package/src/rules/kernels/sana-linear-attention.rules.json +0 -6
package/src/rules/kernels/scale.rules.json +0 -6
package/src/rules/kernels/silu.rules.json +0 -21
package/src/rules/kernels/softmax.rules.json +0 -25
package/src/rules/kernels/split-qg.rules.json +0 -6
package/src/rules/kernels/split-qkv.rules.json +0 -6
package/src/rules/kernels/upsample2d.rules.json +0 -6
package/src/rules/layer-pattern-contract-check.d.ts +0 -17
package/src/rules/layer-pattern-contract-check.js +0 -231
package/src/rules/loader/tensor-loader.rules.json +0 -15
package/src/rules/loader/weights.rules.json +0 -41
package/src/rules/rule-registry.d.ts +0 -77
package/src/rules/rule-registry.js +0 -243
package/src/rules/tooling/command-runtime.rules.json +0 -56
package/src/storage/backends/idb-store.d.ts +0 -52
package/src/storage/backends/idb-store.js +0 -590
package/src/storage/backends/memory-store.d.ts +0 -36
package/src/storage/backends/memory-store.js +0 -242
package/src/storage/backends/opfs-store.d.ts +0 -41
package/src/storage/backends/opfs-store.js +0 -473
package/src/storage/blake3.d.ts +0 -17
package/src/storage/blake3.js +0 -269
package/src/storage/download-types.d.ts +0 -157
package/src/storage/download-types.js +0 -48
package/src/storage/downloader.d.ts +0 -103
package/src/storage/downloader.js +0 -1121
package/src/storage/emulated-vram.d.ts +0 -264
package/src/storage/emulated-vram.js +0 -576
package/src/storage/export.d.ts +0 -20
package/src/storage/export.js +0 -159
package/src/storage/index.d.ts +0 -256
package/src/storage/index.js +0 -188
package/src/storage/inventory.d.ts +0 -26
package/src/storage/inventory.js +0 -218
package/src/storage/preflight.d.ts +0 -144
package/src/storage/preflight.js +0 -316
package/src/storage/quickstart-downloader.d.ts +0 -157
package/src/storage/quickstart-downloader.js +0 -268
package/src/storage/quota.d.ts +0 -150
package/src/storage/quota.js +0 -304
package/src/storage/registry.d.ts +0 -28
package/src/storage/registry.js +0 -131
package/src/storage/reports.d.ts +0 -20
package/src/storage/reports.js +0 -94
package/src/storage/shard-manager.d.ts +0 -151
package/src/storage/shard-manager.js +0 -850
package/src/storage/source-artifact-store.d.ts +0 -52
package/src/storage/source-artifact-store.js +0 -234
package/src/sw.d.ts +0 -1
package/src/sw.js +0 -187
package/src/tooling/browser-command-runner.d.ts +0 -28
package/src/tooling/browser-command-runner.js +0 -82
package/src/tooling/command-api-constants.d.ts +0 -9
package/src/tooling/command-api-constants.js +0 -9
package/src/tooling/command-api-family-normalizers.d.ts +0 -9
package/src/tooling/command-api-family-normalizers.js +0 -343
package/src/tooling/command-api-helpers.d.ts +0 -25
package/src/tooling/command-api-helpers.js +0 -262
package/src/tooling/command-api.d.ts +0 -173
package/src/tooling/command-api.js +0 -76
package/src/tooling/command-envelope.d.ts +0 -81
package/src/tooling/command-envelope.js +0 -198
package/src/tooling/command-runner-shared.d.ts +0 -73
package/src/tooling/command-runner-shared.js +0 -180
package/src/tooling/command-runner.html +0 -45
package/src/tooling/conversion-config-materializer.d.ts +0 -24
package/src/tooling/conversion-config-materializer.js +0 -97
package/src/tooling/lean-execution-contract-runner.d.ts +0 -43
package/src/tooling/lean-execution-contract-runner.js +0 -158
package/src/tooling/lean-execution-contract.d.ts +0 -16
package/src/tooling/lean-execution-contract.js +0 -228
package/src/tooling/node-browser-command-runner.d.ts +0 -34
package/src/tooling/node-browser-command-runner.js +0 -813
package/src/tooling/node-command-runner.d.ts +0 -36
package/src/tooling/node-command-runner.js +0 -168
package/src/tooling/node-convert-worker-pool.d.ts +0 -16
package/src/tooling/node-convert-worker-pool.js +0 -186
package/src/tooling/node-convert-worker.d.ts +0 -1
package/src/tooling/node-convert-worker.js +0 -60
package/src/tooling/node-converter.d.ts +0 -1
package/src/tooling/node-converter.js +0 -1333
package/src/tooling/node-file-fetch.d.ts +0 -1
package/src/tooling/node-file-fetch.js +0 -38
package/src/tooling/node-source-runtime.d.ts +0 -19
package/src/tooling/node-source-runtime.js +0 -610
package/src/tooling/node-webgpu.d.ts +0 -6
package/src/tooling/node-webgpu.js +0 -284
package/src/tooling/opfs-cache.d.ts +0 -11
package/src/tooling/opfs-cache.js +0 -191
package/src/tooling/runtime-input-composition.d.ts +0 -38
package/src/tooling/runtime-input-composition.js +0 -86
package/src/tooling/source-runtime-bundle.d.ts +0 -137
package/src/tooling/source-runtime-bundle.js +0 -711
package/src/tooling/source-runtime-materializer.d.ts +0 -6
package/src/tooling/source-runtime-materializer.js +0 -93
package/src/tooling-exports.browser.d.ts +0 -7
package/src/tooling-exports.browser.js +0 -2
package/src/tooling-exports.d.ts +0 -22
package/src/tooling-exports.js +0 -7
package/src/tooling-exports.shared.d.ts +0 -105
package/src/tooling-exports.shared.js +0 -92
package/src/training/README.md +0 -153
package/src/training/artifacts.d.ts +0 -160
package/src/training/artifacts.js +0 -896
package/src/training/attention-backward.d.ts +0 -30
package/src/training/attention-backward.js +0 -232
package/src/training/attention-forward.d.ts +0 -22
package/src/training/attention-forward.js +0 -82
package/src/training/autograd.d.ts +0 -51
package/src/training/autograd.js +0 -408
package/src/training/checkpoint-watch.d.ts +0 -8
package/src/training/checkpoint-watch.js +0 -139
package/src/training/checkpoint.d.ts +0 -36
package/src/training/checkpoint.js +0 -277
package/src/training/clip.d.ts +0 -9
package/src/training/clip.js +0 -55
package/src/training/dataloader.d.ts +0 -8
package/src/training/dataloader.js +0 -44
package/src/training/datasets/index.d.ts +0 -12
package/src/training/datasets/index.js +0 -6
package/src/training/datasets/jsonl.d.ts +0 -11
package/src/training/datasets/jsonl.js +0 -50
package/src/training/datasets/reploid.d.ts +0 -3
package/src/training/datasets/reploid.js +0 -36
package/src/training/datasets/text-pairs.d.ts +0 -21
package/src/training/datasets/text-pairs.js +0 -42
package/src/training/datasets/token-batch.d.ts +0 -21
package/src/training/datasets/token-batch.js +0 -52
package/src/training/datasets/translation-pairs.d.ts +0 -34
package/src/training/datasets/translation-pairs.js +0 -49
package/src/training/distillation/artifacts.d.ts +0 -71
package/src/training/distillation/artifacts.js +0 -132
package/src/training/distillation/checkpoint-watch.d.ts +0 -10
package/src/training/distillation/checkpoint-watch.js +0 -58
package/src/training/distillation/dataset.d.ts +0 -59
package/src/training/distillation/dataset.js +0 -337
package/src/training/distillation/eval.d.ts +0 -34
package/src/training/distillation/eval.js +0 -310
package/src/training/distillation/index.d.ts +0 -29
package/src/training/distillation/index.js +0 -29
package/src/training/distillation/runtime.d.ts +0 -20
package/src/training/distillation/runtime.js +0 -121
package/src/training/distillation/scoreboard.d.ts +0 -6
package/src/training/distillation/scoreboard.js +0 -8
package/src/training/distillation/stage-a.d.ts +0 -45
package/src/training/distillation/stage-a.js +0 -338
package/src/training/distillation/stage-b.d.ts +0 -24
package/src/training/distillation/stage-b.js +0 -20
package/src/training/distillation/student-fixture.d.ts +0 -22
package/src/training/distillation/student-fixture.js +0 -846
package/src/training/distillation/suite-data.d.ts +0 -45
package/src/training/distillation/suite-data.js +0 -189
package/src/training/export.d.ts +0 -32
package/src/training/export.js +0 -112
package/src/training/index.d.ts +0 -62
package/src/training/index.js +0 -51
package/src/training/lora-pipeline.d.ts +0 -40
package/src/training/lora-pipeline.js +0 -793
package/src/training/lora.d.ts +0 -19
package/src/training/lora.js +0 -71
package/src/training/loss-scaling.d.ts +0 -21
package/src/training/loss-scaling.js +0 -80
package/src/training/loss.d.ts +0 -10
package/src/training/loss.js +0 -40
package/src/training/objectives/base.d.ts +0 -58
package/src/training/objectives/base.js +0 -38
package/src/training/objectives/cross_entropy.d.ts +0 -18
package/src/training/objectives/cross_entropy.js +0 -34
package/src/training/objectives/distill_kd.d.ts +0 -16
package/src/training/objectives/distill_kd.js +0 -365
package/src/training/objectives/distill_triplet.d.ts +0 -16
package/src/training/objectives/distill_triplet.js +0 -408
package/src/training/objectives/index.d.ts +0 -12
package/src/training/objectives/index.js +0 -6
package/src/training/objectives/ul_stage1_joint.d.ts +0 -16
package/src/training/objectives/ul_stage1_joint.js +0 -188
package/src/training/objectives/ul_stage2_base.d.ts +0 -16
package/src/training/objectives/ul_stage2_base.js +0 -218
package/src/training/operator-artifacts.d.ts +0 -62
package/src/training/operator-artifacts.js +0 -140
package/src/training/operator-command.d.ts +0 -5
package/src/training/operator-command.js +0 -455
package/src/training/operator-eval.d.ts +0 -48
package/src/training/operator-eval.js +0 -230
package/src/training/operator-scoreboard.d.ts +0 -5
package/src/training/operator-scoreboard.js +0 -44
package/src/training/optimizer.d.ts +0 -22
package/src/training/optimizer.js +0 -127
package/src/training/runner.d.ts +0 -248
package/src/training/runner.js +0 -1220
package/src/training/suite.d.ts +0 -299
package/src/training/suite.js +0 -2196
package/src/training/tensor-factory.d.ts +0 -9
package/src/training/tensor-factory.js +0 -13
package/src/training/trainer.d.ts +0 -89
package/src/training/trainer.js +0 -299
package/src/training/ul_dataset.d.ts +0 -47
package/src/training/ul_dataset.js +0 -151
package/src/training/ul_schedule.d.ts +0 -6
package/src/training/ul_schedule.js +0 -29
package/src/training/workloads.d.ts +0 -164
package/src/training/workloads.js +0 -530
package/src/types/chrome.d.ts +0 -36
package/src/types/chrome.js +0 -1
package/src/types/gpu.d.ts +0 -185
package/src/types/gpu.js +0 -5
package/src/types/index.d.ts +0 -3
package/src/types/index.js +0 -3
package/src/types/inference.d.ts +0 -197
package/src/types/inference.js +0 -5
package/src/types/model.d.ts +0 -130
package/src/types/model.js +0 -5
package/src/utils/hf-resolve-url.d.ts +0 -16
package/src/utils/hf-resolve-url.js +0 -17
package/src/utils/index.d.ts +0 -7
package/src/utils/index.js +0 -7
package/src/utils/load-json.d.ts +0 -5
package/src/utils/load-json.js +0 -23
package/src/utils/plain-object.d.ts +0 -1
package/src/utils/plain-object.js +0 -3
package/src/utils/sha256.d.ts +0 -4
package/src/utils/sha256.js +0 -135
package/src/version.d.ts +0 -2
package/src/version.js +0 -2
package/tools/convert-safetensors-node.js +0 -233
package/tools/doppler-cli.js +0 -1452

package/src/gpu/kernels/attention.js DELETED Viewed

@@ -1,1439 +0,0 @@
-import { getDevice, getDeviceEpoch, getDeviceLimits, getKernelCapabilities } from '../device.js';
-import { acquireBuffer } from '../../memory/buffer-pool.js';
-import { createTensor } from '../tensor.js';
-import { KernelBase } from './kernel-base.js';
-import { TILE_SIZES } from './constants.js';
-import { getKernelThresholds, padToQ4KBlock } from '../../config/schema/index.js';
-import { createUniformBufferWithView, getKernelConfig, hasRequiredFeatures } from './utils.js';
-import { dispatchIndirect, recordDispatchIndirect } from './dispatch.js';
-import { releaseUniformBuffer } from '../uniform-cache.js';
-import { log, trace } from '../../debug/index.js';
-import { getKernelPathAttentionVariant, getKernelPathStrict } from '../../config/kernel-path-loader.js';
-import { selectRuleValue as selectKernelRuleValue } from './rule-registry.js';
-import { selectRuleValue as selectSharedRuleValue } from '../../rules/rule-registry.js';
-import { logKernelSelectionOnce } from '../kernel-selection-log.js';
-// Track if we've logged the attention tier selection (avoid spam)
-let loggedAttentionTier = false;
-function getRequiredVariantMaxKVLen(operation, variant, errorLabel) {
-  const config = getKernelConfig(operation, variant);
-  const maxKVLen = config.variantMetadata?.maxKVLen;
-  if (!Number.isFinite(maxKVLen)) {
-    throw new Error(`Kernel config missing ${errorLabel} maxKVLen`);
-  }
-  return maxKVLen;
-}
-function getChunkedMaxKVLen() {
-  return getRequiredVariantMaxKVLen('attention', 'decode_chunked_f16kv', 'attention.decode_chunked_f16kv');
-}
-function getTieredMaxKVLen() {
-  return getRequiredVariantMaxKVLen('attention_tiered', 'decode_tiered_f16', 'attention_tiered.decode_tiered_f16');
-}
-function getTieredQuantMaxKVLen() {
-  return getRequiredVariantMaxKVLen(
-    'attention_tiered_quant',
-    'decode_tiered_int8_f16kv',
-    'attention_tiered_quant.decode_tiered_int8_f16kv'
-  );
-}
-let kvLenFallbackBuffer = null;
-let kvLenFallbackBufferEpoch = -1;
-const U32_BYTES = Uint32Array.BYTES_PER_ELEMENT;
-function getKvLenFallbackBuffer(device) {
-  const epoch = getDeviceEpoch();
-  if (!kvLenFallbackBuffer || kvLenFallbackBufferEpoch !== epoch) {
-    kvLenFallbackBuffer = device.createBuffer({
-      label: 'attention_kv_len_fallback',
-      size: U32_BYTES,
-      usage: GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_DST,
-    });
-    device.queue.writeBuffer(kvLenFallbackBuffer, 0, new Uint32Array([0]));
-    kvLenFallbackBufferEpoch = epoch;
-  }
-  return kvLenFallbackBuffer;
-}
-let pageTableFallbackBuffer = null;
-let pageTableFallbackBufferEpoch = -1;
-function getPageTableFallbackBuffer(device) {
-  const epoch = getDeviceEpoch();
-  if (!pageTableFallbackBuffer || pageTableFallbackBufferEpoch !== epoch) {
-    pageTableFallbackBuffer = device.createBuffer({
-      label: 'attention_page_table_fallback',
-      size: U32_BYTES,
-      usage: GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_DST,
-    });
-    device.queue.writeBuffer(pageTableFallbackBuffer, 0, new Uint32Array([0]));
-    pageTableFallbackBufferEpoch = epoch;
-  }
-  return pageTableFallbackBuffer;
-}
-class AttentionKernel extends KernelBase {
-  async getPipeline(variant) {
-    return this.getPipelineFor('attention', variant);
-  }
-  dispatch(
-    pipeline,
-    bindGroup,
-    workgroups
-  ) {
-    this.dispatchKernel(pipeline, bindGroup, workgroups, 'attention');
-  }
-  record(
-    recorder,
-    pipeline,
-    bindGroup,
-    workgroups
-  ) {
-    this.recordKernel(recorder, pipeline, bindGroup, workgroups, 'attention');
-  }
-}
-class AttentionTieredKernel extends KernelBase {
-  async getPipeline(variant) {
-    return this.getPipelineFor('attention_tiered', variant);
-  }
-  dispatch(
-    pipeline,
-    bindGroup,
-    workgroups
-  ) {
-    this.dispatchKernel(pipeline, bindGroup, workgroups, 'attention_tiered');
-  }
-  record(
-    recorder,
-    pipeline,
-    bindGroup,
-    workgroups
-  ) {
-    this.recordKernel(recorder, pipeline, bindGroup, workgroups, 'attention_tiered');
-  }
-}
-class AttentionTieredQuantKernel extends KernelBase {
-  async getPipeline(variant) {
-    return this.getPipelineFor('attention_tiered_quant', variant);
-  }
-  dispatch(
-    pipeline,
-    bindGroup,
-    workgroups
-  ) {
-    this.dispatchKernel(pipeline, bindGroup, workgroups, 'attention_tiered_quant');
-  }
-  record(
-    recorder,
-    pipeline,
-    bindGroup,
-    workgroups
-  ) {
-    this.recordKernel(recorder, pipeline, bindGroup, workgroups, 'attention_tiered_quant');
-  }
-}
-class AttentionBDPAKernel extends KernelBase {
-  async getPipeline(variant) {
-    return this.getPipelineFor('attention_bdpa', variant);
-  }
-  dispatch(
-    pipeline,
-    bindGroup,
-    workgroups
-  ) {
-    this.dispatchKernel(pipeline, bindGroup, workgroups, 'attention_bdpa');
-  }
-  record(
-    recorder,
-    pipeline,
-    bindGroup,
-    workgroups
-  ) {
-    this.recordKernel(recorder, pipeline, bindGroup, workgroups, 'attention_bdpa');
-  }
-}
-function selectAttentionTier(
-  headDim,
-  seqLen,
-  useF16KV,
-  forcedTier,
-  sharedLimit,
-  caps
-) {
-  const isDecode = seqLen === 1;
-  const thresholds = getKernelThresholds().attention;
-  const largeRequired = useF16KV
-    ? thresholds.largeSharedF16
-    : thresholds.largeSharedF32;
-  const canLarge =
-    headDim <= thresholds.largeMaxHeadDim &&
-    sharedLimit >= largeRequired;
-  const smallRequired = useF16KV
-    ? thresholds.smallSharedF16
-    : thresholds.smallSharedF32;
-  const canSmall =
-    headDim <= thresholds.smallMaxHeadDim &&
-    sharedLimit >= smallRequired;
-  const canSubgroup =
-    caps.hasSubgroups &&
-    headDim <= thresholds.subgroupMaxHeadDim &&
-    sharedLimit >= thresholds.subgroupShared &&
-    isDecode;
-  let tier = forcedTier;
-  let reason = forcedTier ? `forced:${forcedTier}` : '';
-  if (tier === 'tiled_large' && !canLarge) {
-    throw new Error(`Requested tiled_large but device doesn't support it (headDim=${headDim}, shared=${sharedLimit}).`);
-  }
-  if (tier === 'tiled_small' && !canSmall) {
-    throw new Error(`Requested tiled_small but device doesn't support it (headDim=${headDim}, shared=${sharedLimit}).`);
-  }
-  if (tier === 'subgroup' && !canSubgroup) {
-    throw new Error(`Requested subgroup attention but device doesn't support it (headDim=${headDim}, shared=${sharedLimit}, subgroups=${caps.hasSubgroups}).`);
-  }
-  if (!tier) {
-    tier = selectKernelRuleValue('attention', 'tier', { canSubgroup, canLarge, canSmall, isDecode });
-    if (!reason) {
-      if (canSubgroup) {
-        reason = 'subgroup_capable';
-      } else if (canLarge) {
-        reason = 'tiled_large_capable';
-      } else if (canSmall) {
-        reason = 'tiled_small_capable';
-      } else if (isDecode) {
-        reason = 'decode_streaming_fallback';
-      } else {
-        reason = 'streaming_fallback';
-      }
-    }
-    if (tier === 'subgroup' && !loggedAttentionTier) {
-      trace.attn(0, `Using subgroup decode kernel (headDim=${headDim}, hasSubgroups=true)`);
-      loggedAttentionTier = true;
-    }
-  }
-  return { tier, reason };
-}
-// Track if we've logged chunked kernel selection
-let loggedChunkedKernel = false;
-function resolveAttentionVariant(
-  tier,
-  isDecode,
-  useF16KV,
-  useF16Q,
-  numHeads,
-  headDim,
-  kvLen,
-  isPaged,
-  caps,
-  sharedLimit
-) {
-  const base = selectKernelRuleValue('attention', 'phase', { isDecode });
-  const useF16 = useF16KV && useF16Q;
-  const suffix = selectKernelRuleValue('attention', 'suffix', { useF16, useF16KV });
-  // Check if chunked kernel is viable:
-  // - Decode only (seqLen=1)
-  // - F16 KV cache
-  // - Large headDim (parallelizes across dimensions)
-  // - KV length within shared memory limit (from kernel config)
-  const chunkedMaxKVLen = getChunkedMaxKVLen();
-  const minHeadDimForChunked = getKernelThresholds().attention.minHeadDimForChunked;
-  const canUseChunked = isDecode && useF16KV && headDim >= minHeadDimForChunked && kvLen <= chunkedMaxKVLen;
-  const decodeSubgroupMaxKVLen = chunkedMaxKVLen;
-  const decodeSubgroupMaxHeadDim = getKernelThresholds().attention.subgroupMaxHeadDim;
-  const canUseDecodeSubgroup = isDecode && !useF16KV && !useF16Q && headDim <= decodeSubgroupMaxHeadDim && kvLen <= decodeSubgroupMaxKVLen;
-  const canUseDecodeOptimized = isDecode
-    && useF16KV
-    && caps.hasF16
-    && caps.hasSubgroups
-    && headDim <= decodeSubgroupMaxHeadDim
-    && sharedLimit >= getKernelThresholds().attention.subgroupShared;
-  const chunkedVariant = selectKernelRuleValue('attention', 'chunkedVariant', { useF16 });
-  const pagedVariant = selectKernelRuleValue('attention', 'pagedVariant', { useF16 });
-  const optimizedVariant = selectKernelRuleValue('attention', 'optimizedVariant', { useF16 });
-  const variant = selectKernelRuleValue(
-    'attention',
-    'variant',
-    {
-      tier,
-      useF16KV,
-      canUseChunked,
-      canUseDecodeSubgroup,
-      canUseDecodeOptimized,
-      base,
-      suffix,
-      chunkedVariant,
-      pagedVariant,
-      optimizedVariant,
-      isPaged,
-      isDecode,
-    }
-  );
-  if (variant === chunkedVariant && !loggedChunkedKernel) {
-    trace.attn(0, `Using chunked decode kernel (headDim=${headDim}, numHeads=${numHeads}, f16kv=${!useF16Q})`);
-    loggedChunkedKernel = true;
-  }
-  return variant;
-}
-function calculateAttentionWorkgroups(tier, seqLen, numHeads) {
-  if (tier === 'subgroup') {
-    return numHeads;
-  }
-  if (tier === 'streaming') {
-    return seqLen * numHeads;
-  }
-  if (tier === 'tiled_large') {
-    return Math.ceil(seqLen / TILE_SIZES.ATTENTION_LARGE_BLOCK_SIZE) * numHeads;
-  }
-  return Math.ceil(seqLen / TILE_SIZES.ATTENTION_SMALL_BLOCK_SIZE) * numHeads;
-}
-function inferAttentionTierFromVariant(variant) {
-  if (variant === 'decode_subgroup') return 'subgroup';
-  if (variant.startsWith('decode_online')) return 'subgroup';
-  if (variant.startsWith('decode_paged')) return 'tiled_large';
-  if (variant.startsWith('prefill_streaming') || variant.startsWith('decode_streaming') || variant === 'decode_chunked_f16kv') {
-    return 'streaming';
-  }
-  if (variant.startsWith('prefill_small') || variant.startsWith('decode_small')) return 'tiled_small';
-  return 'tiled_large';
-}
-function validateAttentionVariant(
-  variant,
-  isDecode,
-  useF16KV,
-  useF16Q,
-  caps,
-  headDim,
-  kvLen,
-  sharedLimit
-) {
-  const normalized = variant.trim();
-  let config;
-  try {
-    config = getKernelConfig('attention', normalized);
-  } catch {
-    throw new Error(`Unknown attention kernel variant "${variant}".`);
-  }
-  if (!hasRequiredFeatures(config.requires, caps)) {
-    throw new Error(`Attention kernel "${variant}" requires unsupported GPU features.`);
-  }
-  const expectsF16KV = normalized.includes('_f16kv');
-  const expectsF16 = normalized.includes('_f16') && !expectsF16KV;
-  if (expectsF16) {
-    if (!(useF16KV && useF16Q)) {
-      const kvLabel = selectSharedRuleValue('shared', 'dtype', 'f16OrF32', { useF16: useF16KV });
-      const qLabel = selectSharedRuleValue('shared', 'dtype', 'f16OrF32', { useF16: useF16Q });
-      throw new Error(`Attention kernel "${variant}" requires f16 Q/K/V but got Q=${qLabel}, KV=${kvLabel}.`);
-    }
-  } else if (expectsF16KV) {
-    if (!useF16KV || useF16Q) {
-      const kvLabel = selectSharedRuleValue('shared', 'dtype', 'f16OrF32', { useF16: useF16KV });
-      const qLabel = selectSharedRuleValue('shared', 'dtype', 'f16OrF32', { useF16: useF16Q });
-      throw new Error(`Attention kernel "${variant}" requires f32 Q with f16 KV but got Q=${qLabel}, KV=${kvLabel}.`);
-    }
-  } else {
-    if (useF16KV || useF16Q) {
-      const kvLabel = selectSharedRuleValue('shared', 'dtype', 'f16OrF32', { useF16: useF16KV });
-      const qLabel = selectSharedRuleValue('shared', 'dtype', 'f16OrF32', { useF16: useF16Q });
-      throw new Error(`Attention kernel "${variant}" requires f32 Q/K/V but got Q=${qLabel}, KV=${kvLabel}.`);
-    }
-  }
-  const isDecodeVariant = normalized.startsWith('decode');
-  const isPrefillVariant = normalized.startsWith('prefill');
-  if (isDecode && isPrefillVariant) {
-    throw new Error(`Attention kernel "${variant}" is prefill-only but decode requested.`);
-  }
-  if (!isDecode && isDecodeVariant) {
-    throw new Error(`Attention kernel "${variant}" is decode-only but prefill requested.`);
-  }
-  const thresholds = getKernelThresholds().attention;
-  const chunkedMaxKVLen = getChunkedMaxKVLen();
-  const isChunked = normalized.startsWith('decode_chunked');
-  if (isChunked) {
-    const minHeadDimForChunked = thresholds.minHeadDimForChunked;
-    if (headDim < minHeadDimForChunked) {
-      throw new Error(`Attention kernel "${variant}" requires headDim >= ${minHeadDimForChunked} but got ${headDim}.`);
-    }
-    if (kvLen > chunkedMaxKVLen) {
-      throw new Error(`Attention kernel "${variant}" requires kvLen <= ${chunkedMaxKVLen} but got ${kvLen}.`);
-    }
-  }
-  if (normalized === 'decode_subgroup') {
-    if (!caps.hasSubgroups) {
-      throw new Error(`Attention kernel "${variant}" requires subgroup support.`);
-    }
-    if (headDim > thresholds.subgroupMaxHeadDim) {
-      throw new Error(`Attention kernel "${variant}" requires headDim <= ${thresholds.subgroupMaxHeadDim} but got ${headDim}.`);
-    }
-    if (kvLen > chunkedMaxKVLen) {
-      throw new Error(`Attention kernel "${variant}" requires kvLen <= ${chunkedMaxKVLen} but got ${kvLen}.`);
-    }
-    if (sharedLimit < thresholds.subgroupShared) {
-      throw new Error(`Attention kernel "${variant}" requires shared >= ${thresholds.subgroupShared} but got ${sharedLimit}.`);
-    }
-  }
-  if (normalized.startsWith('decode_online')) {
-    if (!caps.hasSubgroups) {
-      throw new Error(`Attention kernel "${variant}" requires subgroup support.`);
-    }
-    if (headDim > thresholds.subgroupMaxHeadDim) {
-      throw new Error(`Attention kernel "${variant}" requires headDim <= ${thresholds.subgroupMaxHeadDim} but got ${headDim}.`);
-    }
-    if (sharedLimit < thresholds.subgroupShared) {
-      throw new Error(`Attention kernel "${variant}" requires shared >= ${thresholds.subgroupShared} but got ${sharedLimit}.`);
-    }
-  }
-  if (normalized.startsWith('prefill') || normalized.startsWith('decode')) {
-    const isSmall = normalized.includes('_small');
-    const isStreaming = normalized.includes('_streaming');
-    const isTiled = !isStreaming
-      && !normalized.startsWith('decode_subgroup')
-      && !normalized.startsWith('decode_online')
-      && !isChunked;
-    if (isTiled) {
-      const requiredShared = isSmall
-        ? (useF16KV ? thresholds.smallSharedF16 : thresholds.smallSharedF32)
-        : (useF16KV ? thresholds.largeSharedF16 : thresholds.largeSharedF32);
-      const maxHeadDim = isSmall ? thresholds.smallMaxHeadDim : thresholds.largeMaxHeadDim;
-      if (headDim > maxHeadDim) {
-        throw new Error(`Attention kernel "${variant}" requires headDim <= ${maxHeadDim} but got ${headDim}.`);
-      }
-      if (sharedLimit < requiredShared) {
-        throw new Error(`Attention kernel "${variant}" requires shared >= ${requiredShared} but got ${sharedLimit}.`);
-      }
-    }
-  }
-  return normalized;
-}
-function resolveAttentionPlan(
-  seqLen,
-  kvLen,
-  headDim,
-  numHeads,
-  kvDtype,
-  qDtype,
-  sharedLimit,
-  caps,
-  layerIdx,
-  isPaged,
-  kernelPath
-) {
-  const useF16KV = kvDtype === 'f16';
-  const useF16Q = qDtype === 'f16';
-  const isDecode = seqLen === 1;
-  const phase = selectKernelRuleValue('attention', 'phase', { isDecode });
-  const pathVariant = getKernelPathAttentionVariant(phase, layerIdx, kernelPath);
-  const strictPath = getKernelPathStrict();
-  if (pathVariant) {
-    let variantOverride;
-    try {
-      variantOverride = validateAttentionVariant(
-        pathVariant,
-        isDecode,
-        useF16KV,
-        useF16Q,
-        caps,
-        headDim,
-        kvLen,
-        sharedLimit
-      );
-    } catch (error) {
-      if (strictPath) {
-        throw error;
-      }
-      const reason = error instanceof Error ? error.message : String(error);
-      log.warn(
-        'Attention',
-        `Kernel path override "${pathVariant}" rejected; falling back to capability selection: ${reason}`
-      );
-      const adaptiveSelection = selectAttentionTier(headDim, seqLen, useF16KV, null, sharedLimit, caps);
-      const adaptiveVariant = resolveAttentionVariant(
-        adaptiveSelection.tier,
-        isDecode,
-        useF16KV,
-        useF16Q,
-        numHeads,
-        headDim,
-        kvLen,
-        isPaged,
-        caps,
-        sharedLimit
-      );
-      const workgroups = calculateAttentionWorkgroups(adaptiveSelection.tier, seqLen, numHeads);
-      logKernelSelectionOnce('attention', {
-        variant: adaptiveVariant,
-        reason: `path_override_fallback:${adaptiveSelection.tier}`,
-      });
-      return {
-        tier: adaptiveSelection.tier,
-        variant: adaptiveVariant,
-        workgroups,
-        useF16KV,
-        isDecode,
-      };
-    }
-    let selectionReason = 'path_override';
-    if (!isDecode && variantOverride.startsWith('prefill_streaming') && seqLen <= 64) {
-      const adaptivePrefillVariant = variantOverride.endsWith('_f16kv')
-        ? 'prefill_f16kv'
-        : variantOverride.endsWith('_f16')
-          ? 'prefill_f16'
-          : 'prefill';
-      try {
-        const validatedAdaptive = validateAttentionVariant(
-          adaptivePrefillVariant,
-          isDecode,
-          useF16KV,
-          useF16Q,
-          caps,
-          headDim,
-          kvLen,
-          sharedLimit
-        );
-        if (validatedAdaptive !== variantOverride) {
-          variantOverride = validatedAdaptive;
-          selectionReason = 'path_override_adaptive_prefill';
-        }
-      } catch {
-        // Keep original strict-path variant when adaptive fallback is not valid.
-      }
-    }
-    const tier = inferAttentionTierFromVariant(variantOverride);
-    const workgroups = calculateAttentionWorkgroups(tier, seqLen, numHeads);
-    logKernelSelectionOnce('attention', {
-      variant: variantOverride,
-      reason: `${selectionReason}:${tier}`,
-    });
-    return { tier, variant: variantOverride, workgroups, useF16KV, isDecode };
-  }
-  const selection = selectAttentionTier(headDim, seqLen, useF16KV, null, sharedLimit, caps);
-  const tier = selection.tier;
-  const variant = resolveAttentionVariant(
-    tier,
-    isDecode,
-    useF16KV,
-    useF16Q,
-    numHeads,
-    headDim,
-    kvLen,
-    isPaged,
-    caps,
-    sharedLimit
-  );
-  const validatedVariant = validateAttentionVariant(
-    variant,
-    isDecode,
-    useF16KV,
-    useF16Q,
-    caps,
-    headDim,
-    kvLen,
-    sharedLimit
-  );
-  const workgroups = calculateAttentionWorkgroups(tier, seqLen, numHeads);
-  logKernelSelectionOnce('attention', {
-    variant: validatedVariant,
-    reason: selection.reason,
-  });
-  return { tier, variant: validatedVariant, workgroups, useF16KV, isDecode };
-}
-export function resolveAttentionPlanForTest(
-  seqLen,
-  kvLen,
-  headDim,
-  numHeads,
-  kvDtype,
-  qDtype,
-  sharedLimit,
-  caps,
-  layerIdx,
-  isPaged = false,
-  kernelPath = null
-) {
-  return resolveAttentionPlan(
-    seqLen,
-    kvLen,
-    headDim,
-    numHeads,
-    kvDtype,
-    qDtype,
-    sharedLimit,
-    caps,
-    layerIdx,
-    isPaged,
-    kernelPath
-  );
-}
-function createAttentionUniformBuffer(
-  device,
-  recorder,
-  params
-) {
-  return createUniformBufferWithView(
-    'attention_uniforms',
-    64, // 60 bytes used + 4 padding for 16-byte alignment
-    (view) => {
-      view.setUint32(0, params.numHeads, true);
-      view.setUint32(4, params.numKVHeads, true);
-      view.setUint32(8, params.headDim, true);
-      view.setUint32(12, params.kvLen, true);
-      view.setUint32(16, params.seqLen, true);
-      view.setFloat32(20, params.scale, true);
-      view.setUint32(24, params.causal ? 1 : 0, true);
-      view.setUint32(28, params.startPos, true);
-      view.setFloat32(32, params.attnSoftcap, true); // Gemma 2: 50.0, 0 = disabled
-      view.setUint32(36, params.slidingWindow, true); // Sliding window size, 0 = disabled
-      view.setUint32(40, params.kvLenSource, true); // 0 = uniform kvLen, 1 = buffer
-      view.setUint32(44, params.kvStart ?? 0, true);
-      view.setUint32(48, params.pageSize ?? 0, true);
-      view.setUint32(52, params.kvLayout ?? 0, true);
-      view.setUint32(56, 0, true);
-    },
-    recorder,
-    device
-  );
-}
-function createTieredAttentionUniformBuffer(
-  device,
-  recorder,
-  params
-) {
-  return createUniformBufferWithView(
-    'attention_tiered_uniforms',
-    80,
-    (view) => {
-      view.setUint32(0, params.numHeads, true);
-      view.setUint32(4, params.numKVHeads, true);
-      view.setUint32(8, params.headDim, true);
-      view.setUint32(12, params.coldLen, true);
-      view.setUint32(16, params.hotLen, true);
-      view.setUint32(20, params.seqLen, true);
-      view.setFloat32(24, params.scale, true);
-      view.setUint32(28, params.causal ? 1 : 0, true);
-      view.setUint32(32, params.startPos, true);
-      view.setFloat32(36, params.attnSoftcap, true);
-      view.setUint32(40, params.slidingWindow, true);
-      view.setUint32(44, params.hotWindow, true);
-      view.setUint32(48, params.hotStart, true);
-      view.setUint32(52, params.coldPageSize, true);
-      view.setUint32(56, params.coldLayout ?? 0, true);
-      view.setUint32(60, params.hotLayout ?? 1, true);
-      view.setUint32(64, 0, true);
-    },
-    recorder,
-    device
-  );
-}
-function createTieredQuantAttentionUniformBuffer(
-  device,
-  recorder,
-  params
-) {
-  return createUniformBufferWithView(
-    'attention_tiered_quant_uniforms',
-    64,
-    (view) => {
-      view.setUint32(0, params.numHeads, true);
-      view.setUint32(4, params.numKVHeads, true);
-      view.setUint32(8, params.headDim, true);
-      view.setUint32(12, params.coldLen, true);
-      view.setUint32(16, params.hotLen, true);
-      view.setUint32(20, params.seqLen, true);
-      view.setFloat32(24, params.scale, true);
-      view.setUint32(28, params.causal ? 1 : 0, true);
-      view.setUint32(32, params.startPos, true);
-      view.setFloat32(36, params.attnSoftcap, true);
-      view.setUint32(40, params.slidingWindow, true);
-      view.setUint32(44, params.hotWindow, true);
-      view.setUint32(48, params.hotStart, true);
-      view.setUint32(52, params.packedStride, true);
-      view.setUint32(56, 0, true);
-    },
-    recorder,
-    device
-  );
-}
-function createBDPAAttentionUniformBuffer(
-  device,
-  recorder,
-  params
-) {
-  return createUniformBufferWithView(
-    'attention_bdpa_uniforms',
-    64,
-    (view) => {
-      view.setUint32(0, params.numHeads, true);
-      view.setUint32(4, params.numKVHeads, true);
-      view.setUint32(8, params.headDim, true);
-      view.setUint32(12, params.kvLen, true);
-      view.setUint32(16, params.seqLen, true);
-      view.setFloat32(20, params.scale, true);
-      view.setUint32(24, params.causal ? 1 : 0, true);
-      view.setUint32(28, params.startPos, true);
-      view.setFloat32(32, params.attnSoftcap, true);
-      view.setUint32(36, params.slidingWindow, true);
-      view.setUint32(40, 0, true); // padding
-      view.setUint32(44, 0, true); // padding
-      view.setUint32(48, 0, true); // padding
-      view.setUint32(52, 0, true); // padding
-      view.setUint32(56, 0, true); // padding
-      view.setUint32(60, 0, true); // padding
-    },
-    recorder,
-    device
-  );
-}
-function resolveAttentionExecution(recorder) {
-  return {
-    recorder: recorder || null,
-    device: recorder?.device || getDevice(),
-  };
-}
-function assertAttentionBindGroupBuffer(kernelName, variant, bindingIndex, bindingLabel, buffer, details = []) {
-  const isGpuBuffer = buffer && (
-    typeof GPUBuffer === 'undefined'
-      ? true
-      : buffer instanceof GPUBuffer
-  );
-  if (isGpuBuffer) {
-    return;
-  }
-  const detailText = details.filter(Boolean).join(', ');
-  throw new Error(
-    `[${kernelName}] variant="${variant}" binding ${bindingIndex} "${bindingLabel}" requires a GPUBuffer` +
-    (detailText ? ` (${detailText})` : '') +
-    '.'
-  );
-}
-function releaseAttentionUniform(execution, uniformBuffer) {
-  if (!execution.recorder) {
-    releaseUniformBuffer(uniformBuffer);
-  }
-}
-function dispatchAttentionKernel(execution, kernel, pipeline, bindGroup, workgroups) {
-  if (execution.recorder) {
-    kernel.record(execution.recorder, pipeline, bindGroup, workgroups);
-    return;
-  }
-  kernel.dispatch(pipeline, bindGroup, workgroups);
-}
-async function executeAttentionBDPA(
-  recorder,
-  Q,
-  basisK,
-  basisV,
-  pagedK,
-  pagedV,
-  index,
-  numHeads,
-  headDim,
-  options = {}
-) {
-  const execution = resolveAttentionExecution(recorder);
-  const {
-    seqLen = 1,
-    kvLen = seqLen,
-    numKVHeads = numHeads,
-    scale = 1.0 / Math.sqrt(headDim),
-    causal = true,
-    startPos = 0,
-    outputBuffer = null,
-    attnSoftcap = 0,
-    slidingWindow = 0,
-    ropeCos = null,
-    ropeSin = null,
-  } = options;
-  if (seqLen !== 1) {
-    throw new Error(`BDPA attention currently supports decode only (seqLen=1), got seqLen=${seqLen}.`);
-  }
-  if (Q.dtype !== 'f16' || basisK.dtype !== 'f16' || basisV.dtype !== 'f16') {
-    throw new Error(`BDPA attention requires f16 Q/basis tensors; got Q=${Q.dtype}, basisK=${basisK.dtype}, basisV=${basisV.dtype}.`);
-  }
-  if (!(ropeCos instanceof GPUBuffer) || !(ropeSin instanceof GPUBuffer)) {
-    throw new Error('BDPA attention requires GPU ropeCos/ropeSin buffers.');
-  }
-  const variant = 'decode_bdpa_f16';
-  const caps = getKernelCapabilities();
-  const config = getKernelConfig('attention_bdpa', variant);
-  if (!hasRequiredFeatures(config.requires, caps)) {
-    throw new Error(`BDPA attention kernel "${variant}" requires unsupported GPU features.`);
-  }
-  const maxKVLen = config.variantMetadata?.maxKVLen;
-  if (Number.isFinite(maxKVLen) && kvLen > maxKVLen) {
-    throw new Error(`BDPA attention requires kvLen <= ${maxKVLen} but got ${kvLen}.`);
-  }
-  const kernel = new AttentionBDPAKernel(execution.device);
-  const pipeline = await kernel.getPipeline(variant);
-  const outputDtype = config.outputDtype;
-  if (!outputDtype) {
-    throw new Error(`Kernel config missing outputDtype for attention_bdpa variant "${variant}".`);
-  }
-  const bytesPerElement = outputDtype === 'f16' ? 2 : 4;
-  const paddedHiddenSize = padToQ4KBlock(numHeads * headDim);
-  const outputSize = seqLen * paddedHiddenSize * bytesPerElement;
-  const outputBuf = outputBuffer || acquireBuffer(outputSize, undefined, 'attention_bdpa_output');
-  const uniformBuffer = createBDPAAttentionUniformBuffer(execution.device, execution.recorder, {
-    numHeads,
-    numKVHeads,
-    headDim,
-    kvLen,
-    seqLen,
-    scale,
-    causal,
-    startPos,
-    attnSoftcap,
-    slidingWindow,
-  });
-  assertAttentionBindGroupBuffer('attention_bdpa', variant, 0, 'uniforms', uniformBuffer);
-  assertAttentionBindGroupBuffer('attention_bdpa', variant, 1, 'Q', Q?.buffer, [
-    `QLabel=${Q?.label ?? 'unknown'}`,
-    `QDtype=${Q?.dtype ?? 'unknown'}`,
-  ]);
-  assertAttentionBindGroupBuffer('attention_bdpa', variant, 2, 'basisK', basisK?.buffer, [
-    `basisKLabel=${basisK?.label ?? 'unknown'}`,
-    `basisKDtype=${basisK?.dtype ?? 'unknown'}`,
-  ]);
-  assertAttentionBindGroupBuffer('attention_bdpa', variant, 3, 'basisV', basisV?.buffer, [
-    `basisVLabel=${basisV?.label ?? 'unknown'}`,
-    `basisVDtype=${basisV?.dtype ?? 'unknown'}`,
-  ]);
-  assertAttentionBindGroupBuffer('attention_bdpa', variant, 4, 'pagedK', pagedK);
-  assertAttentionBindGroupBuffer('attention_bdpa', variant, 5, 'pagedV', pagedV);
-  assertAttentionBindGroupBuffer('attention_bdpa', variant, 6, 'index', index);
-  assertAttentionBindGroupBuffer('attention_bdpa', variant, 7, 'ropeCos', ropeCos);
-  assertAttentionBindGroupBuffer('attention_bdpa', variant, 8, 'ropeSin', ropeSin);
-  assertAttentionBindGroupBuffer('attention_bdpa', variant, 9, 'output', outputBuf);
-  const bindGroup = execution.device.createBindGroup({
-    label: 'attention_bdpa_bind_group',
-    layout: pipeline.getBindGroupLayout(0),
-    entries: [
-      { binding: 0, resource: { buffer: uniformBuffer } },
-      { binding: 1, resource: { buffer: Q.buffer } },
-      { binding: 2, resource: { buffer: basisK.buffer } },
-      { binding: 3, resource: { buffer: basisV.buffer } },
-      { binding: 4, resource: { buffer: pagedK } },
-      { binding: 5, resource: { buffer: pagedV } },
-      { binding: 6, resource: { buffer: index } },
-      { binding: 7, resource: { buffer: ropeCos } },
-      { binding: 8, resource: { buffer: ropeSin } },
-      { binding: 9, resource: { buffer: outputBuf } },
-    ],
-  });
-  dispatchAttentionKernel(execution, kernel, pipeline, bindGroup, numHeads);
-  releaseAttentionUniform(execution, uniformBuffer);
-  return createTensor(outputBuf, outputDtype, [seqLen, numHeads, headDim], 'attention_bdpa_output');
-}
-async function executeAttention(
-  recorder,
-  Q,
-  K,
-  V,
-  mask,
-  numHeads,
-  headDim,
-  options = {}
-) {
-  const execution = resolveAttentionExecution(recorder);
-  const {
-    seqLen = 1,
-    kvLen = seqLen,
-    numKVHeads = numHeads,
-    scale = 1.0 / Math.sqrt(headDim),
-    causal = true,
-    startPos = 0,
-    layerIdx,
-    outputBuffer = null,
-    attnSoftcap = 0,
-    slidingWindow = 0,
-    kvLenBuffer = null,
-    indirectBuffer = null,
-    indirectOffset = 0,
-    kvStart = 0,
-    kvLayout = 'contiguous',
-    kvPageTable = null,
-    kvPageSize = 0,
-    kernelPath = null,
-  } = options;
-  const limits = getDeviceLimits();
-  const sharedLimit = limits?.maxComputeWorkgroupStorageSize ?? Infinity;
-  const caps = getKernelCapabilities();
-  const kvDtype = K.dtype;
-  const qDtype = Q.dtype;
-  const isPaged = kvLayout === 'paged';
-  const plan = resolveAttentionPlan(
-    seqLen,
-    kvLen,
-    headDim,
-    numHeads,
-    kvDtype,
-    qDtype,
-    sharedLimit,
-    caps,
-    layerIdx,
-    isPaged,
-    kernelPath
-  );
-  if (execution.recorder) {
-    trace.attn(0, `recordAttention: isDecode=${plan.isDecode}, tier=${plan.tier}, variant=${plan.variant}, seqLen=${seqLen}, kvLen=${kvLen}, numHeads=${numHeads}, headDim=${headDim}, useF16KV=${plan.useF16KV}`);
-  }
-  const kernel = new AttentionKernel(execution.device);
-  const pipeline = await kernel.getPipeline(plan.variant);
-  const outputConfig = getKernelConfig('attention', plan.variant);
-  const outputDtype = outputConfig.outputDtype;
-  if (!outputDtype) {
-    if (execution.recorder) {
-      throw new Error(`Kernel config missing outputDtype for attention variant "${plan.variant}".`);
-    }
-    throw new Error(`[Attention] outputDtype is required for variant "${plan.variant}".`);
-  }
-  const bytesPerElement = outputDtype === 'f16' ? 2 : 4;
-  const paddedHiddenSize = padToQ4KBlock(numHeads * headDim);
-  const outputSize = seqLen * paddedHiddenSize * bytesPerElement;
-  const outputBuf = outputBuffer || acquireBuffer(outputSize, undefined, 'attention_output');
-  const uniformBuffer = createAttentionUniformBuffer(execution.device, execution.recorder, {
-    numHeads,
-    numKVHeads,
-    headDim,
-    kvLen,
-    seqLen,
-    scale,
-    causal,
-    startPos,
-    attnSoftcap,
-    slidingWindow,
-    kvLenSource: kvLenBuffer ? 1 : 0,
-    kvStart,
-    pageSize: kvPageSize,
-    kvLayout: kvLayout === 'paged' ? 2 : (kvLayout === 'ring' ? 1 : 0),
-  });
-  const kvLenBinding = kvLenBuffer || getKvLenFallbackBuffer(execution.device);
-  const pageTableBinding = kvPageTable || getPageTableFallbackBuffer(execution.device);
-  assertAttentionBindGroupBuffer('attention', plan.variant, 0, 'uniforms', uniformBuffer);
-  assertAttentionBindGroupBuffer('attention', plan.variant, 1, 'Q', Q?.buffer, [
-    `QLabel=${Q?.label ?? 'unknown'}`,
-    `QDtype=${Q?.dtype ?? 'unknown'}`,
-  ]);
-  assertAttentionBindGroupBuffer('attention', plan.variant, 2, 'K', K?.buffer, [
-    `KLabel=${K?.label ?? 'unknown'}`,
-    `KDtype=${K?.dtype ?? 'unknown'}`,
-  ]);
-  assertAttentionBindGroupBuffer('attention', plan.variant, 3, 'V', V?.buffer, [
-    `VLabel=${V?.label ?? 'unknown'}`,
-    `VDtype=${V?.dtype ?? 'unknown'}`,
-  ]);
-  assertAttentionBindGroupBuffer('attention', plan.variant, 4, 'output', outputBuf);
-  assertAttentionBindGroupBuffer('attention', plan.variant, 5, 'kvLen', kvLenBinding);
-  assertAttentionBindGroupBuffer('attention', plan.variant, 6, 'pageTable', pageTableBinding, [
-    `kvLayout=${kvLayout}`,
-  ]);
-  const bindGroup = execution.device.createBindGroup({
-    label: 'attention_bind_group',
-    layout: pipeline.getBindGroupLayout(0),
-    entries: [
-      { binding: 0, resource: { buffer: uniformBuffer } },
-      { binding: 1, resource: { buffer: Q.buffer } },
-      { binding: 2, resource: { buffer: K.buffer } },
-      { binding: 3, resource: { buffer: V.buffer } },
-      { binding: 4, resource: { buffer: outputBuf } },
-      { binding: 5, resource: { buffer: kvLenBinding } },
-      { binding: 6, resource: { buffer: pageTableBinding } },
-    ],
-  });
-  if (!indirectBuffer && limits && plan.workgroups > limits.maxComputeWorkgroupsPerDimension) {
-    throw new Error(
-      `Attention dispatch requires ${plan.workgroups} workgroups but device limit is ` +
-      `${limits.maxComputeWorkgroupsPerDimension}. Reduce prompt length or use streaming attention.`
-    );
-  }
-  if (indirectBuffer) {
-    if (execution.recorder) {
-      recordDispatchIndirect(execution.recorder, pipeline, bindGroup, indirectBuffer, indirectOffset, 'attention');
-    } else {
-      dispatchIndirect(execution.device, pipeline, bindGroup, indirectBuffer, indirectOffset, 'attention');
-    }
-  } else {
-    dispatchAttentionKernel(execution, kernel, pipeline, bindGroup, plan.workgroups);
-  }
-  releaseAttentionUniform(execution, uniformBuffer);
-  return createTensor(outputBuf, outputDtype, [seqLen, numHeads, headDim], 'attention_output');
-}
-async function executeAttentionTiered(
-  recorder,
-  Q,
-  hotK,
-  hotV,
-  coldK,
-  coldV,
-  numHeads,
-  headDim,
-  options = {}
-) {
-  const execution = resolveAttentionExecution(recorder);
-  const {
-    seqLen = 1,
-    coldLen = 0,
-    hotLen = 0,
-    numKVHeads = numHeads,
-    scale = 1.0 / Math.sqrt(headDim),
-    causal = true,
-    startPos = 0,
-    outputBuffer = null,
-    attnSoftcap = 0,
-    slidingWindow = 0,
-    hotWindow = hotLen,
-    hotStart = 0,
-    coldPageTable = null,
-    coldPageSize = 0,
-    coldLayout = 2,
-    hotLayout = 1,
-  } = options;
-  const totalLen = coldLen + hotLen;
-  const maxKVLen = getTieredMaxKVLen();
-  if (totalLen > maxKVLen) {
-    throw new Error(`Tiered attention requires total KV len <= ${maxKVLen} but got ${totalLen}.`);
-  }
-  const useF16 = Q.dtype === 'f16' && hotK.dtype === 'f16' && coldK.dtype === 'f16';
-  const useF16KV = hotK.dtype === 'f16' && coldK.dtype === 'f16';
-  const variant = selectKernelRuleValue('attention', 'tieredVariant', { useF16 });
-  const caps = getKernelCapabilities();
-  const config = getKernelConfig('attention_tiered', variant);
-  if (!hasRequiredFeatures(config.requires, caps)) {
-    throw new Error(`Tiered attention kernel "${variant}" requires unsupported GPU features.`);
-  }
-  if (!useF16KV) {
-    throw new Error('Tiered attention requires f16 KV buffers.');
-  }
-  const kernel = new AttentionTieredKernel(execution.device);
-  const pipeline = await kernel.getPipeline(variant);
-  const outputDtype = config.outputDtype;
-  if (!outputDtype) {
-    throw new Error(`Kernel config missing outputDtype for attention_tiered variant "${variant}".`);
-  }
-  const bytesPerElement = outputDtype === 'f16' ? 2 : 4;
-  const paddedHiddenSize = padToQ4KBlock(numHeads * headDim);
-  const outputSize = seqLen * paddedHiddenSize * bytesPerElement;
-  const outputBuf = outputBuffer || acquireBuffer(outputSize, undefined, 'attention_tiered_output');
-  const uniformBuffer = createTieredAttentionUniformBuffer(execution.device, execution.recorder, {
-    numHeads,
-    numKVHeads,
-    headDim,
-    coldLen,
-    hotLen,
-    seqLen,
-    scale,
-    causal,
-    startPos,
-    attnSoftcap,
-    slidingWindow,
-    hotWindow,
-    hotStart,
-    coldPageSize,
-    coldLayout,
-    hotLayout,
-  });
-  const pageTableBinding = coldPageTable || getPageTableFallbackBuffer(execution.device);
-  assertAttentionBindGroupBuffer('attention_tiered', variant, 0, 'uniforms', uniformBuffer);
-  assertAttentionBindGroupBuffer('attention_tiered', variant, 1, 'Q', Q?.buffer, [
-    `QLabel=${Q?.label ?? 'unknown'}`,
-    `QDtype=${Q?.dtype ?? 'unknown'}`,
-  ]);
-  assertAttentionBindGroupBuffer('attention_tiered', variant, 2, 'hotK', hotK?.buffer, [
-    `hotKLabel=${hotK?.label ?? 'unknown'}`,
-    `hotKDtype=${hotK?.dtype ?? 'unknown'}`,
-  ]);
-  assertAttentionBindGroupBuffer('attention_tiered', variant, 3, 'hotV', hotV?.buffer, [
-    `hotVLabel=${hotV?.label ?? 'unknown'}`,
-    `hotVDtype=${hotV?.dtype ?? 'unknown'}`,
-  ]);
-  assertAttentionBindGroupBuffer('attention_tiered', variant, 4, 'coldK', coldK?.buffer, [
-    `coldKLabel=${coldK?.label ?? 'unknown'}`,
-    `coldKDtype=${coldK?.dtype ?? 'unknown'}`,
-  ]);
-  assertAttentionBindGroupBuffer('attention_tiered', variant, 5, 'coldV', coldV?.buffer, [
-    `coldVLabel=${coldV?.label ?? 'unknown'}`,
-    `coldVDtype=${coldV?.dtype ?? 'unknown'}`,
-  ]);
-  assertAttentionBindGroupBuffer('attention_tiered', variant, 6, 'output', outputBuf);
-  assertAttentionBindGroupBuffer('attention_tiered', variant, 7, 'pageTable', pageTableBinding, [
-    `coldLayout=${coldLayout}`,
-  ]);
-  const bindGroup = execution.device.createBindGroup({
-    label: 'attention_tiered_bind_group',
-    layout: pipeline.getBindGroupLayout(0),
-    entries: [
-      { binding: 0, resource: { buffer: uniformBuffer } },
-      { binding: 1, resource: { buffer: Q.buffer } },
-      { binding: 2, resource: { buffer: hotK.buffer } },
-      { binding: 3, resource: { buffer: hotV.buffer } },
-      { binding: 4, resource: { buffer: coldK.buffer } },
-      { binding: 5, resource: { buffer: coldV.buffer } },
-      { binding: 6, resource: { buffer: outputBuf } },
-      { binding: 7, resource: { buffer: pageTableBinding } },
-    ],
-  });
-  dispatchAttentionKernel(execution, kernel, pipeline, bindGroup, numHeads);
-  releaseAttentionUniform(execution, uniformBuffer);
-  return createTensor(outputBuf, outputDtype, [seqLen, numHeads, headDim], 'attention_tiered_output');
-}
-async function executeAttentionTieredQuant(
-  recorder,
-  Q,
-  hotK,
-  hotV,
-  coldPackedK,
-  coldPackedV,
-  coldScalesK,
-  coldScalesV,
-  numHeads,
-  headDim,
-  options = {}
-) {
-  const execution = resolveAttentionExecution(recorder);
-  const {
-    seqLen = 1,
-    coldLen = 0,
-    hotLen = 0,
-    numKVHeads = numHeads,
-    scale = 1.0 / Math.sqrt(headDim),
-    causal = true,
-    startPos = 0,
-    outputBuffer = null,
-    attnSoftcap = 0,
-    slidingWindow = 0,
-    hotWindow = hotLen,
-    hotStart = 0,
-    packedStride = 0,
-    mode = 'int8',
-  } = options;
-  const totalLen = coldLen + hotLen;
-  const maxKVLen = getTieredQuantMaxKVLen();
-  if (totalLen > maxKVLen) {
-    throw new Error(`Tiered quant attention requires total KV len <= ${maxKVLen} but got ${totalLen}.`);
-  }
-  if (!Number.isFinite(packedStride) || packedStride <= 0) {
-    throw new Error('Tiered quant attention requires packedStride > 0.');
-  }
-  if (Q.dtype !== 'f32') {
-    throw new Error('Tiered quant attention requires f32 Q.');
-  }
-  const variant = selectKernelRuleValue('attention', 'tieredQuantVariant', { mode });
-  const caps = getKernelCapabilities();
-  const config = getKernelConfig('attention_tiered_quant', variant);
-  if (!hasRequiredFeatures(config.requires, caps)) {
-    throw new Error(`Tiered quant attention kernel "${variant}" requires unsupported GPU features.`);
-  }
-  const kernel = new AttentionTieredQuantKernel(execution.device);
-  const pipeline = await kernel.getPipeline(variant);
-  const outputDtype = config.outputDtype;
-  if (!outputDtype) {
-    throw new Error(`Kernel config missing outputDtype for attention_tiered_quant variant "${variant}".`);
-  }
-  const bytesPerElement = outputDtype === 'f16' ? 2 : 4;
-  const paddedHiddenSize = padToQ4KBlock(numHeads * headDim);
-  const outputSize = seqLen * paddedHiddenSize * bytesPerElement;
-  const outputBuf = outputBuffer || acquireBuffer(outputSize, undefined, 'attention_tiered_quant_output');
-  const uniformBuffer = createTieredQuantAttentionUniformBuffer(execution.device, execution.recorder, {
-    numHeads,
-    numKVHeads,
-    headDim,
-    coldLen,
-    hotLen,
-    seqLen,
-    scale,
-    causal,
-    startPos,
-    attnSoftcap,
-    slidingWindow,
-    hotWindow,
-    hotStart,
-    packedStride,
-  });
-  assertAttentionBindGroupBuffer('attention_tiered_quant', variant, 0, 'uniforms', uniformBuffer);
-  assertAttentionBindGroupBuffer('attention_tiered_quant', variant, 1, 'Q', Q?.buffer, [
-    `QLabel=${Q?.label ?? 'unknown'}`,
-    `QDtype=${Q?.dtype ?? 'unknown'}`,
-  ]);
-  assertAttentionBindGroupBuffer('attention_tiered_quant', variant, 2, 'hotK', hotK?.buffer, [
-    `hotKLabel=${hotK?.label ?? 'unknown'}`,
-    `hotKDtype=${hotK?.dtype ?? 'unknown'}`,
-  ]);
-  assertAttentionBindGroupBuffer('attention_tiered_quant', variant, 3, 'hotV', hotV?.buffer, [
-    `hotVLabel=${hotV?.label ?? 'unknown'}`,
-    `hotVDtype=${hotV?.dtype ?? 'unknown'}`,
-  ]);
-  assertAttentionBindGroupBuffer('attention_tiered_quant', variant, 4, 'coldPackedK', coldPackedK);
-  assertAttentionBindGroupBuffer('attention_tiered_quant', variant, 5, 'coldPackedV', coldPackedV);
-  assertAttentionBindGroupBuffer('attention_tiered_quant', variant, 6, 'coldScalesK', coldScalesK);
-  assertAttentionBindGroupBuffer('attention_tiered_quant', variant, 7, 'coldScalesV', coldScalesV);
-  assertAttentionBindGroupBuffer('attention_tiered_quant', variant, 8, 'output', outputBuf);
-  const bindGroup = execution.device.createBindGroup({
-    label: 'attention_tiered_quant_bind_group',
-    layout: pipeline.getBindGroupLayout(0),
-    entries: [
-      { binding: 0, resource: { buffer: uniformBuffer } },
-      { binding: 1, resource: { buffer: Q.buffer } },
-      { binding: 2, resource: { buffer: hotK.buffer } },
-      { binding: 3, resource: { buffer: hotV.buffer } },
-      { binding: 4, resource: { buffer: coldPackedK } },
-      { binding: 5, resource: { buffer: coldPackedV } },
-      { binding: 6, resource: { buffer: coldScalesK } },
-      { binding: 7, resource: { buffer: coldScalesV } },
-      { binding: 8, resource: { buffer: outputBuf } },
-    ],
-  });
-  dispatchAttentionKernel(execution, kernel, pipeline, bindGroup, numHeads);
-  releaseAttentionUniform(execution, uniformBuffer);
-  return createTensor(outputBuf, outputDtype, [seqLen, numHeads, headDim], 'attention_tiered_quant_output');
-}
-export async function runAttentionBDPA(
-  Q,
-  basisK,
-  basisV,
-  pagedK,
-  pagedV,
-  index,
-  numHeads,
-  headDim,
-  options = {}
-) {
-  return executeAttentionBDPA(null, Q, basisK, basisV, pagedK, pagedV, index, numHeads, headDim, options);
-}
-export async function recordAttentionBDPA(
-  recorder,
-  Q,
-  basisK,
-  basisV,
-  pagedK,
-  pagedV,
-  index,
-  numHeads,
-  headDim,
-  options = {}
-) {
-  return executeAttentionBDPA(recorder, Q, basisK, basisV, pagedK, pagedV, index, numHeads, headDim, options);
-}
-export async function runAttention(
-  Q,
-  K,
-  V,
-  mask,
-  numHeads,
-  headDim,
-  options = {}
-) {
-  return executeAttention(null, Q, K, V, mask, numHeads, headDim, options);
-}
-export async function recordAttention(
-  recorder,
-  Q,
-  K,
-  V,
-  mask,
-  numHeads,
-  headDim,
-  options = {}
-) {
-  return executeAttention(recorder, Q, K, V, mask, numHeads, headDim, options);
-}
-export async function runAttentionTiered(
-  Q,
-  hotK,
-  hotV,
-  coldK,
-  coldV,
-  numHeads,
-  headDim,
-  options = {}
-) {
-  return executeAttentionTiered(null, Q, hotK, hotV, coldK, coldV, numHeads, headDim, options);
-}
-export async function recordAttentionTiered(
-  recorder,
-  Q,
-  hotK,
-  hotV,
-  coldK,
-  coldV,
-  numHeads,
-  headDim,
-  options = {}
-) {
-  return executeAttentionTiered(recorder, Q, hotK, hotV, coldK, coldV, numHeads, headDim, options);
-}
-export async function runAttentionTieredQuant(
-  Q,
-  hotK,
-  hotV,
-  coldPackedK,
-  coldPackedV,
-  coldScalesK,
-  coldScalesV,
-  numHeads,
-  headDim,
-  options = {}
-) {
-  return executeAttentionTieredQuant(
-    null,
-    Q,
-    hotK,
-    hotV,
-    coldPackedK,
-    coldPackedV,
-    coldScalesK,
-    coldScalesV,
-    numHeads,
-    headDim,
-    options
-  );
-}
-export async function recordAttentionTieredQuant(
-  recorder,
-  Q,
-  hotK,
-  hotV,
-  coldPackedK,
-  coldPackedV,
-  coldScalesK,
-  coldScalesV,
-  numHeads,
-  headDim,
-  options = {}
-) {
-  return executeAttentionTieredQuant(
-    recorder,
-    Q,
-    hotK,
-    hotV,
-    coldPackedK,
-    coldPackedV,
-    coldScalesK,
-    coldScalesV,
-    numHeads,
-    headDim,
-    options
-  );
-}