npm - @simulatte/doppler - Versions diffs - 0.1.6 → 0.1.8 - Mend

@simulatte/doppler 0.1.6 → 0.1.8

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (355) hide show

package/CHANGELOG.md +145 -0
package/README.md +16 -23
package/package.json +30 -32
package/src/adapters/adapter-registry.js +12 -1
package/src/adapters/lora-loader.js +23 -6
package/src/bridge/extension-client.d.ts +5 -0
package/src/bridge/extension-client.js +40 -0
package/src/bridge/index.d.ts +2 -1
package/src/bridge/index.js +6 -4
package/src/browser/browser-converter.js +31 -1
package/src/browser/file-picker.js +6 -0
package/src/browser/safetensors-parser-browser.js +84 -1
package/src/browser/shard-io-browser.js +2 -2
package/src/browser/tensor-source-download.js +8 -2
package/src/browser/tensor-source-http.d.ts +1 -0
package/src/browser/tensor-source-http.js +5 -1
package/src/client/doppler-api.browser.js +20 -4
package/src/client/doppler-api.js +19 -3
package/src/client/doppler-provider/generation.js +12 -0
package/src/client/doppler-provider/model-manager.d.ts +10 -0
package/src/client/doppler-provider/model-manager.js +91 -19
package/src/client/doppler-provider/source-runtime.d.ts +2 -1
package/src/client/doppler-provider/source-runtime.js +132 -13
package/src/client/doppler-registry.json +5 -20
package/src/config/backward-registry-loader.js +17 -2
package/src/config/execution-v0-contract-check.js +113 -15
package/src/config/kernel-path-contract-check.js +57 -29
package/src/config/kernel-path-loader.d.ts +5 -0
package/src/config/kernel-path-loader.js +18 -36
package/src/config/kernels/kernel-ref-digests.js +1 -1
package/src/config/kernels/registry.js +14 -1
package/src/config/kernels/registry.json +81 -5
package/src/config/loader.d.ts +1 -1
package/src/config/loader.js +15 -2
package/src/config/merge-contract-check.js +66 -4
package/src/config/merge-helpers.js +128 -7
package/src/config/merge.d.ts +1 -0
package/src/config/merge.js +10 -0
package/src/config/param-validator.js +47 -2
package/src/config/presets/kernel-paths/{gemma2-q4k-dequant-f32a.json → gemma2-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/gemma3-f16-fused-f32a-online-streamingprefill.json +223 -0
package/src/config/presets/kernel-paths/{gemma3-q4k-dequant-f32a.json → gemma3-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32w-f32a-online.json +56 -0
package/src/config/presets/kernel-paths/lfm2-q4k-dequant-f32a-nosubgroups.json +61 -0
package/src/config/presets/kernel-paths/registry.json +43 -8
package/src/config/presets/models/gemma2.json +3 -2
package/src/config/presets/models/gemma3.json +2 -0
package/src/config/presets/models/qwen3.json +4 -3
package/src/config/presets/models/qwen3_5.json +16 -0
package/src/config/presets/runtime/experiments/bench/gemma3-bench-q4k.json +1 -1
package/src/config/presets/runtime/experiments/debug/gemma3-debug-q4k.json +1 -1
package/src/config/presets/runtime/experiments/verify/gemma3-verify.json +1 -1
package/src/config/presets/runtime/kernels/dequant-f16-q4k.json +6 -13
package/src/config/presets/runtime/kernels/dequant-f32-q4k.json +6 -13
package/src/config/presets/runtime/kernels/embeddinggemma-q4k-dequant-f32a.json +37 -0
package/src/config/presets/runtime/kernels/fused-q4k.json +6 -13
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f16a.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f32a-nosubgroups.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-fused-f32a.json +33 -0
package/src/config/presets/runtime/kernels/safe-q4k.json +6 -13
package/src/config/presets/runtime/model/qwen3-5-layer-probe.json +52 -0
package/src/config/presets/runtime/model/qwen3-5-linear-attn-debug.json +90 -0
package/src/config/presets/runtime/platform/metal-apple-q4k.json +1 -1
package/src/config/runtime.js +6 -1
package/src/config/schema/conversion.schema.d.ts +1 -0
package/src/config/schema/debug.schema.d.ts +5 -0
package/src/config/schema/doppler.schema.js +16 -21
package/src/config/schema/inference-defaults.schema.js +3 -3
package/src/config/schema/kernel-path.schema.d.ts +5 -1
package/src/config/schema/kernel-thresholds.schema.js +12 -4
package/src/config/schema/manifest.schema.d.ts +3 -2
package/src/config/schema/manifest.schema.js +17 -4
package/src/config/schema/storage.schema.js +1 -1
package/src/config/training-defaults.js +30 -22
package/src/converter/conversion-plan.js +104 -11
package/src/converter/core.d.ts +7 -0
package/src/converter/core.js +16 -9
package/src/converter/execution-v0-manifest.js +4 -1
package/src/converter/index.d.ts +1 -0
package/src/converter/index.js +1 -0
package/src/converter/manifest-inference.js +50 -29
package/src/converter/parsers/diffusion.js +0 -3
package/src/converter/parsers/transformer.js +4 -0
package/src/converter/quantization-info.js +40 -16
package/src/converter/quantizer.js +19 -12
package/src/converter/rope-config.js +8 -6
package/src/converter/shard-packer.d.ts +1 -1
package/src/converter/shard-packer.js +4 -1
package/src/converter/tokenizer-utils.d.ts +1 -0
package/src/converter/tokenizer-utils.js +4 -1
package/src/debug/config.js +123 -11
package/src/debug/reference/hf_qwen35_linear_attn_debug.py +268 -0
package/src/debug/signals.js +7 -1
package/src/debug/tensor.d.ts +2 -0
package/src/debug/tensor.js +13 -2
package/src/distribution/p2p-control-plane.js +52 -12
package/src/distribution/p2p-observability.js +43 -7
package/src/distribution/p2p-webrtc-browser.js +20 -0
package/src/distribution/shard-delivery.js +83 -27
package/src/formats/gguf/types.js +33 -16
package/src/formats/rdrr/groups.d.ts +12 -4
package/src/formats/rdrr/groups.js +3 -6
package/src/formats/rdrr/parsing.d.ts +4 -0
package/src/formats/rdrr/parsing.js +53 -3
package/src/formats/rdrr/types.d.ts +2 -1
package/src/gpu/command-recorder.js +86 -61
package/src/gpu/device.d.ts +1 -0
package/src/gpu/device.js +73 -19
package/src/gpu/kernel-tuner/benchmarks.js +326 -316
package/src/gpu/kernel-tuner/cache.js +71 -4
package/src/gpu/kernel-tuner/tuner.js +22 -4
package/src/gpu/kernels/attention.js +15 -34
package/src/gpu/kernels/backward/adam.js +62 -58
package/src/gpu/kernels/backward/attention_backward.js +257 -169
package/src/gpu/kernels/backward/conv2d_backward.js +14 -1
package/src/gpu/kernels/cast.js +191 -149
package/src/gpu/kernels/check-stop.js +33 -44
package/src/gpu/kernels/conv2d.js +27 -17
package/src/gpu/kernels/cross_entropy_loss.js +21 -15
package/src/gpu/kernels/depthwise_conv2d.js +36 -26
package/src/gpu/kernels/dequant.js +178 -126
package/src/gpu/kernels/energy.d.ts +3 -21
package/src/gpu/kernels/energy.js +111 -88
package/src/gpu/kernels/feature-check.js +1 -1
package/src/gpu/kernels/fused_ffn.js +84 -65
package/src/gpu/kernels/fused_matmul_residual.js +56 -33
package/src/gpu/kernels/fused_matmul_rmsnorm.js +62 -45
package/src/gpu/kernels/gather.js +33 -15
package/src/gpu/kernels/gelu.js +19 -11
package/src/gpu/kernels/grouped_pointwise_conv2d.js +33 -23
package/src/gpu/kernels/groupnorm.js +34 -23
package/src/gpu/kernels/index.d.ts +8 -0
package/src/gpu/kernels/index.js +6 -0
package/src/gpu/kernels/kv-quantize.js +5 -2
package/src/gpu/kernels/layernorm.js +35 -19
package/src/gpu/kernels/logit-merge.js +5 -3
package/src/gpu/kernels/matmul-selection.js +47 -4
package/src/gpu/kernels/matmul.d.ts +2 -0
package/src/gpu/kernels/matmul.js +59 -40
package/src/gpu/kernels/modulate.js +23 -15
package/src/gpu/kernels/moe.js +221 -175
package/src/gpu/kernels/pixel_shuffle.js +22 -14
package/src/gpu/kernels/relu.js +18 -10
package/src/gpu/kernels/repeat_channels.js +25 -17
package/src/gpu/kernels/residual.js +37 -27
package/src/gpu/kernels/rmsnorm.js +66 -43
package/src/gpu/kernels/rope.js +3 -0
package/src/gpu/kernels/sample.js +27 -38
package/src/gpu/kernels/sana_linear_attention.js +18 -10
package/src/gpu/kernels/scale.js +18 -11
package/src/gpu/kernels/shader-cache.js +4 -2
package/src/gpu/kernels/silu.js +120 -72
package/src/gpu/kernels/softmax.js +44 -25
package/src/gpu/kernels/split_qg.d.ts +50 -0
package/src/gpu/kernels/split_qg.js +46 -0
package/src/gpu/kernels/split_qg.wgsl +58 -0
package/src/gpu/kernels/split_qg_f16.wgsl +62 -0
package/src/gpu/kernels/split_qkv.js +23 -13
package/src/gpu/kernels/transpose.js +18 -10
package/src/gpu/kernels/transpose.wgsl +5 -3
package/src/gpu/kernels/upsample2d.js +21 -13
package/src/gpu/kernels/utils.js +20 -13
package/src/gpu/partitioned-buffer-pool.js +10 -2
package/src/gpu/perf-guards.js +2 -9
package/src/gpu/profiler.js +27 -22
package/src/gpu/readback-utils.d.ts +16 -0
package/src/gpu/readback-utils.js +41 -0
package/src/gpu/submit-tracker.js +13 -0
package/src/gpu/uniform-cache.d.ts +1 -0
package/src/gpu/uniform-cache.js +30 -9
package/src/gpu/weight-buffer.d.ts +1 -1
package/src/gpu/weight-buffer.js +1 -1
package/src/hotswap/intent-bundle.js +6 -0
package/src/hotswap/manifest.d.ts +10 -1
package/src/hotswap/manifest.js +12 -2
package/src/hotswap/runtime.js +30 -8
package/src/index-browser.d.ts +44 -0
package/src/index-browser.js +14 -0
package/src/inference/browser-harness-contract-helpers.d.ts +5 -0
package/src/inference/browser-harness-contract-helpers.js +28 -0
package/src/inference/browser-harness-diffusion-energy-suites.d.ts +2 -0
package/src/inference/browser-harness-diffusion-energy-suites.js +269 -0
package/src/inference/browser-harness-model-helpers.d.ts +16 -0
package/src/inference/browser-harness-model-helpers.js +217 -0
package/src/inference/browser-harness-report-helpers.d.ts +7 -0
package/src/inference/browser-harness-report-helpers.js +42 -0
package/src/inference/browser-harness-runtime-helpers.d.ts +61 -0
package/src/inference/browser-harness-runtime-helpers.js +415 -0
package/src/inference/browser-harness-suite-helpers.d.ts +28 -0
package/src/inference/browser-harness-suite-helpers.js +268 -0
package/src/inference/browser-harness-text-helpers.d.ts +27 -0
package/src/inference/browser-harness-text-helpers.js +788 -0
package/src/inference/browser-harness.d.ts +8 -0
package/src/inference/browser-harness.js +149 -1996
package/src/inference/kv-cache/base.js +140 -94
package/src/inference/kv-cache/tiered.js +5 -3
package/src/inference/moe-router.js +88 -56
package/src/inference/multi-model-network.js +5 -3
package/src/inference/network-evolution.d.ts +11 -2
package/src/inference/network-evolution.js +20 -21
package/src/inference/pipelines/context.d.ts +3 -0
package/src/inference/pipelines/context.js +142 -2
package/src/inference/pipelines/diffusion/helpers.js +10 -2
package/src/inference/pipelines/diffusion/pipeline.js +2 -1
package/src/inference/pipelines/diffusion/sd3-transformer.js +10 -10
package/src/inference/pipelines/diffusion/text-encoder-gpu.js +8 -2
package/src/inference/pipelines/diffusion/vae.js +3 -7
package/src/inference/pipelines/energy/pipeline.js +27 -21
package/src/inference/pipelines/energy/quintel.d.ts +5 -0
package/src/inference/pipelines/energy/quintel.js +11 -0
package/src/inference/pipelines/energy-head/row-head-pipeline.js +17 -13
package/src/inference/pipelines/structured/json-head-pipeline.js +26 -11
package/src/inference/pipelines/text/attention/output-projection.d.ts +12 -0
package/src/inference/pipelines/text/attention/output-projection.js +8 -0
package/src/inference/pipelines/text/attention/projections.d.ts +10 -1
package/src/inference/pipelines/text/attention/projections.js +192 -112
package/src/inference/pipelines/text/attention/record.js +77 -14
package/src/inference/pipelines/text/attention/run.js +112 -14
package/src/inference/pipelines/text/config.js +17 -4
package/src/inference/pipelines/text/embed.js +2 -8
package/src/inference/pipelines/text/execution-plan.js +46 -23
package/src/inference/pipelines/text/execution-v0-contract-helpers.d.ts +59 -0
package/src/inference/pipelines/text/execution-v0-contract-helpers.js +937 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.d.ts +15 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.js +279 -0
package/src/inference/pipelines/text/execution-v0.js +62 -1013
package/src/inference/pipelines/text/generator-runtime.js +5 -0
package/src/inference/pipelines/text/generator-steps.d.ts +52 -0
package/src/inference/pipelines/text/generator-steps.js +340 -221
package/src/inference/pipelines/text/generator.js +56 -40
package/src/inference/pipelines/text/init.d.ts +13 -0
package/src/inference/pipelines/text/init.js +94 -25
package/src/inference/pipelines/text/kernel-path-auto-select.js +2 -0
package/src/inference/pipelines/text/kernel-trace.d.ts +2 -0
package/src/inference/pipelines/text/kernel-trace.js +6 -0
package/src/inference/pipelines/text/layer.js +4 -9
package/src/inference/pipelines/text/linear-attention.d.ts +15 -0
package/src/inference/pipelines/text/linear-attention.js +113 -9
package/src/inference/pipelines/text/logits/gpu.js +12 -7
package/src/inference/pipelines/text/logits/index.d.ts +6 -1
package/src/inference/pipelines/text/logits/index.js +13 -12
package/src/inference/pipelines/text/logits/utils.d.ts +7 -0
package/src/inference/pipelines/text/logits/utils.js +9 -0
package/src/inference/pipelines/text/lora-apply.js +50 -32
package/src/inference/pipelines/text/model-load.js +282 -104
package/src/inference/pipelines/text/moe-cache.js +5 -4
package/src/inference/pipelines/text/moe-cpu-gptoss.js +74 -69
package/src/inference/pipelines/text/moe-cpu.js +42 -38
package/src/inference/pipelines/text/moe-gpu.js +110 -86
package/src/inference/pipelines/text/ops.js +90 -90
package/src/inference/pipelines/text/probes.js +9 -9
package/src/inference/pipelines/text/sampling.js +52 -6
package/src/inference/pipelines/text/weights.js +17 -7
package/src/inference/pipelines/text.js +13 -1
package/src/inference/speculative.d.ts +2 -2
package/src/inference/speculative.js +4 -18
package/src/inference/test-harness.d.ts +1 -1
package/src/inference/test-harness.js +17 -7
package/src/inference/tokenizer.d.ts +0 -5
package/src/inference/tokenizer.js +4 -23
package/src/inference/tokenizers/bpe.js +9 -0
package/src/inference/tokenizers/bundled.js +20 -0
package/src/inference/tokenizers/sentencepiece.js +12 -0
package/src/loader/doppler-loader.js +38 -22
package/src/loader/dtype-utils.js +3 -44
package/src/loader/embedding-loader.js +7 -3
package/src/loader/experts/expert-cache.js +13 -6
package/src/loader/experts/expert-loader.js +10 -6
package/src/loader/final-weights-loader.js +10 -4
package/src/loader/layer-loader.js +2 -1
package/src/loader/loader-state.js +2 -2
package/src/loader/memory-monitor.js +8 -0
package/src/loader/multi-model-loader.d.ts +14 -0
package/src/loader/multi-model-loader.js +70 -24
package/src/loader/shard-cache.js +84 -14
package/src/loader/shard-resolver.js +25 -3
package/src/loader/tensors/tensor-loader.js +214 -144
package/src/loader/tensors/tensor-reader.js +76 -19
package/src/loader/weight-downcast.js +1 -1
package/src/memory/buffer-pool.d.ts +9 -1
package/src/memory/buffer-pool.js +109 -44
package/src/memory/unified-detect.js +1 -1
package/src/rules/inference/dtype.rules.json +5 -0
package/src/rules/inference/kernel-path.rules.json +24 -8
package/src/rules/kernels/split-qg.rules.json +6 -0
package/src/rules/rule-registry.js +27 -1
package/src/storage/backends/opfs-store.js +68 -24
package/src/storage/downloader.js +365 -83
package/src/storage/index.d.ts +3 -0
package/src/storage/index.js +3 -0
package/src/storage/preflight.d.ts +2 -2
package/src/storage/preflight.js +24 -2
package/src/storage/quickstart-downloader.js +11 -5
package/src/storage/registry.js +10 -4
package/src/storage/reports.js +1 -1
package/src/storage/shard-manager.d.ts +15 -1
package/src/storage/shard-manager.js +55 -6
package/src/storage/source-artifact-store.d.ts +52 -0
package/src/storage/source-artifact-store.js +234 -0
package/src/tooling/command-api-constants.d.ts +9 -0
package/src/tooling/command-api-constants.js +9 -0
package/src/tooling/command-api-family-normalizers.d.ts +9 -0
package/src/tooling/command-api-family-normalizers.js +343 -0
package/src/tooling/command-api-helpers.d.ts +25 -0
package/src/tooling/command-api-helpers.js +262 -0
package/src/tooling/command-api.js +16 -602
package/src/tooling/command-envelope.js +4 -1
package/src/tooling/command-runner-shared.js +52 -18
package/src/tooling/conversion-config-materializer.js +3 -5
package/src/tooling/lean-execution-contract.js +150 -3
package/src/tooling/node-browser-command-runner.js +161 -271
package/src/tooling/node-command-runner.js +29 -3
package/src/tooling/node-converter.js +30 -1
package/src/tooling/node-source-runtime.d.ts +1 -1
package/src/tooling/node-source-runtime.js +120 -3
package/src/tooling/node-webgpu.js +24 -21
package/src/tooling/opfs-cache.js +21 -4
package/src/tooling/runtime-input-composition.d.ts +38 -0
package/src/tooling/runtime-input-composition.js +86 -0
package/src/tooling/source-runtime-bundle.d.ts +40 -5
package/src/tooling/source-runtime-bundle.js +261 -34
package/src/tooling/source-runtime-materializer.d.ts +6 -0
package/src/tooling/source-runtime-materializer.js +93 -0
package/src/training/attention-backward.js +32 -17
package/src/training/autograd.js +80 -52
package/src/training/checkpoint-watch.d.ts +2 -1
package/src/training/checkpoint-watch.js +39 -6
package/src/training/checkpoint.js +40 -11
package/src/training/clip.js +2 -1
package/src/training/datasets/token-batch.js +20 -8
package/src/training/distillation/checkpoint-watch.js +1 -0
package/src/training/distillation/student-fixture.d.ts +22 -0
package/src/training/distillation/student-fixture.js +846 -0
package/src/training/distillation/suite-data.d.ts +45 -0
package/src/training/distillation/suite-data.js +189 -0
package/src/training/lora-pipeline.js +4 -7
package/src/training/lora.js +26 -12
package/src/training/loss.js +5 -6
package/src/training/objectives/cross_entropy.js +2 -5
package/src/training/objectives/distill_kd.js +4 -8
package/src/training/objectives/distill_triplet.js +4 -8
package/src/training/objectives/ul_stage2_base.js +4 -8
package/src/training/operator-command.js +2 -0
package/src/training/optimizer.js +19 -7
package/src/training/runner.js +2 -1
package/src/training/suite.js +18 -978
package/src/training/tensor-factory.d.ts +9 -0
package/src/training/tensor-factory.js +13 -0
package/src/training/trainer.js +3 -5
package/src/training/ul_dataset.js +3 -5
package/src/training/workloads.js +70 -79
package/src/types/model.d.ts +5 -0
package/src/version.js +1 -1
package/tools/convert-safetensors-node.js +22 -16
package/tools/doppler-cli.js +50 -26

package/src/gpu/kernels/energy.js CHANGED Viewed

@@ -1,5 +1,5 @@
 import { getDevice } from '../device.js';
-import { acquireBuffer } from '../../memory/buffer-pool.js';
+import { acquireBuffer, releaseBuffer } from '../../memory/buffer-pool.js';
 import { createTensor, dtypeBytes } from '../tensor.js';
 import { WORKGROUP_SIZES } from './constants.js';
 import { dispatch, recordDispatch } from './dispatch.js';
@@ -61,15 +61,14 @@ function resolveQuintelSize(state, sizeOverride) {
   return null;
 }
-function buildQuintelFlags(rules, binarizeWeight) {
-  let flags = 0;
-  if (rules?.mirrorX) flags |= 1;
-  if (rules?.mirrorY) flags |= 2;
-  if (rules?.diagonal) flags |= 4;
-  if (rules?.count) flags |= 8;
-  if (rules?.center) flags |= 16;
-  if (Number.isFinite(binarizeWeight) && binarizeWeight !== 0) flags |= 32;
-  return flags >>> 0;
+function resolveQuintelFlags(options, op) {
+  if (options.rules !== undefined) {
+    throw new Error(`${op}: quintel kernel flags must be resolved before dispatch.`);
+  }
+  if (!Number.isFinite(options.flags)) {
+    throw new Error(`${op}: flags is required for quintel kernels.`);
+  }
+  return options.flags >>> 0;
 }
 function resolveExecution(recorder) {
@@ -103,6 +102,12 @@ function releaseUniformBuffer(execution, uniformBuffer) {
   }
 }
+function releaseOwnedBuffer(ownedBuffer) {
+  if (ownedBuffer) {
+    releaseBuffer(ownedBuffer);
+  }
+}
 function writeQuintelUpdateUniform(view, params) {
   view.setUint32(0, params.elementCount, true);
   view.setUint32(4, params.boardSize, true);
@@ -149,6 +154,7 @@ async function executeEnergyEval(recorder, state, target, options = {}, op) {
   const outputSize = elementCount * 4;
   const output = outputBuffer || acquireBuffer(outputSize, undefined, 'energy_eval_output');
+  const ownedOutput = outputBuffer ? null : output;
   const variant = selectEnergyEvalVariant(state.dtype);
   const pipeline = await getPipelineFast('energy_eval', variant);
@@ -157,23 +163,27 @@ async function executeEnergyEval(recorder, state, target, options = {}, op) {
     view.setUint32(0, elementCount, true);
     view.setFloat32(4, scale, true);
   });
+  try {
+    const bindGroup = execution.device.createBindGroup({
+      label: 'energy_eval_bind_group',
+      layout: pipeline.getBindGroupLayout(0),
+      entries: [
+        { binding: 0, resource: { buffer: uniformBuffer } },
+        { binding: 1, resource: { buffer: state.buffer } },
+        { binding: 2, resource: { buffer: target.buffer } },
+        { binding: 3, resource: { buffer: output } },
+      ],
+    });
-  const bindGroup = execution.device.createBindGroup({
-    label: 'energy_eval_bind_group',
-    layout: pipeline.getBindGroupLayout(0),
-    entries: [
-      { binding: 0, resource: { buffer: uniformBuffer } },
-      { binding: 1, resource: { buffer: state.buffer } },
-      { binding: 2, resource: { buffer: target.buffer } },
-      { binding: 3, resource: { buffer: output } },
-    ],
-  });
-  const workgroups = Math.ceil(elementCount / WORKGROUP_SIZES.DEFAULT);
-  dispatchEnergy(execution, pipeline, bindGroup, workgroups, 'energy_eval');
-  releaseUniformBuffer(execution, uniformBuffer);
-  return createTensor(output, 'f32', [elementCount], 'energy_eval_output');
+    const workgroups = Math.ceil(elementCount / WORKGROUP_SIZES.DEFAULT);
+    dispatchEnergy(execution, pipeline, bindGroup, workgroups, 'energy_eval');
+    return createTensor(output, 'f32', [elementCount], 'energy_eval_output');
+  } catch (error) {
+    releaseOwnedBuffer(ownedOutput);
+    throw error;
+  } finally {
+    releaseUniformBuffer(execution, uniformBuffer);
+  }
 }
 async function executeEnergyUpdate(recorder, state, target, options = {}, op) {
@@ -191,21 +201,23 @@ async function executeEnergyUpdate(recorder, state, target, options = {}, op) {
     view.setFloat32(8, gradientScale, true);
   });
-  const bindGroup = execution.device.createBindGroup({
-    label: 'energy_update_bind_group',
-    layout: pipeline.getBindGroupLayout(0),
-    entries: [
-      { binding: 0, resource: { buffer: uniformBuffer } },
-      { binding: 1, resource: { buffer: state.buffer } },
-      { binding: 2, resource: { buffer: target.buffer } },
-    ],
-  });
-  const workgroups = Math.ceil(elementCount / WORKGROUP_SIZES.DEFAULT);
-  dispatchEnergy(execution, pipeline, bindGroup, workgroups, 'energy_update');
-  releaseUniformBuffer(execution, uniformBuffer);
+  try {
+    const bindGroup = execution.device.createBindGroup({
+      label: 'energy_update_bind_group',
+      layout: pipeline.getBindGroupLayout(0),
+      entries: [
+        { binding: 0, resource: { buffer: uniformBuffer } },
+        { binding: 1, resource: { buffer: state.buffer } },
+        { binding: 2, resource: { buffer: target.buffer } },
+      ],
+    });
-  return state;
+    const workgroups = Math.ceil(elementCount / WORKGROUP_SIZES.DEFAULT);
+    dispatchEnergy(execution, pipeline, bindGroup, workgroups, 'energy_update');
+    return state;
+  } finally {
+    releaseUniformBuffer(execution, uniformBuffer);
+  }
 }
 async function executeEnergyQuintelUpdate(recorder, state, options = {}, op) {
@@ -224,7 +236,6 @@ async function executeEnergyQuintelUpdate(recorder, state, options = {}, op) {
     centerTarget = 1.0,
     clampMin = 0.0,
     clampMax = 1.0,
-    rules = {},
   } = options;
   const elementCount = inferCount(state, count);
   const boardSize = resolveQuintelSize(state, size);
@@ -234,7 +245,7 @@ async function executeEnergyQuintelUpdate(recorder, state, options = {}, op) {
   const variant = selectEnergyQuintelUpdateVariant(state.dtype);
   const pipeline = await getPipelineFast('energy_quintel_update', variant);
-  const flags = buildQuintelFlags(rules, binarizeWeight);
+  const flags = resolveQuintelFlags(options, op);
   const uniformBuffer = createUniformBuffer(execution, 'energy_quintel_uniforms', 64, (view) => {
     writeQuintelUpdateUniform(view, {
@@ -254,20 +265,22 @@ async function executeEnergyQuintelUpdate(recorder, state, options = {}, op) {
     });
   });
-  const bindGroup = execution.device.createBindGroup({
-    label: 'energy_quintel_update_bind_group',
-    layout: pipeline.getBindGroupLayout(0),
-    entries: [
-      { binding: 0, resource: { buffer: uniformBuffer } },
-      { binding: 1, resource: { buffer: state.buffer } },
-    ],
-  });
-  const workgroups = Math.ceil(elementCount / WORKGROUP_SIZES.DEFAULT);
-  dispatchEnergy(execution, pipeline, bindGroup, workgroups, 'energy_quintel_update');
-  releaseUniformBuffer(execution, uniformBuffer);
+  try {
+    const bindGroup = execution.device.createBindGroup({
+      label: 'energy_quintel_update_bind_group',
+      layout: pipeline.getBindGroupLayout(0),
+      entries: [
+        { binding: 0, resource: { buffer: uniformBuffer } },
+        { binding: 1, resource: { buffer: state.buffer } },
+      ],
+    });
-  return state;
+    const workgroups = Math.ceil(elementCount / WORKGROUP_SIZES.DEFAULT);
+    dispatchEnergy(execution, pipeline, bindGroup, workgroups, 'energy_quintel_update');
+    return state;
+  } finally {
+    releaseUniformBuffer(execution, uniformBuffer);
+  }
 }
 async function executeEnergyQuintelReduce(recorder, state, options = {}, op) {
@@ -280,7 +293,6 @@ async function executeEnergyQuintelReduce(recorder, state, options = {}, op) {
     centerWeight = 1.0,
     binarizeWeight = 0.0,
     centerTarget = 1.0,
-    rules = {},
     outputBuffer = null,
   } = options;
   const elementCount = inferCount(state, count);
@@ -291,7 +303,7 @@ async function executeEnergyQuintelReduce(recorder, state, options = {}, op) {
   const variant = selectEnergyQuintelReduceVariant(state.dtype);
   const pipeline = await getPipelineFast('energy_quintel_reduce', variant);
-  const flags = buildQuintelFlags(rules, binarizeWeight);
+  const flags = resolveQuintelFlags(options, op);
   const uniformBuffer = createUniformBuffer(execution, 'energy_quintel_reduce_uniforms', 48, (view) => {
     writeQuintelReduceUniform(view, {
@@ -308,21 +320,27 @@ async function executeEnergyQuintelReduce(recorder, state, options = {}, op) {
   const workgroups = Math.ceil(elementCount / WORKGROUP_SIZES.DEFAULT);
   const outputSize = workgroups * 16;
   const output = outputBuffer || acquireBuffer(outputSize, undefined, 'energy_quintel_reduce_output');
+  const ownedOutput = outputBuffer ? null : output;
+  try {
+    const bindGroup = execution.device.createBindGroup({
+      label: 'energy_quintel_reduce_bind_group',
+      layout: pipeline.getBindGroupLayout(0),
+      entries: [
+        { binding: 0, resource: { buffer: uniformBuffer } },
+        { binding: 1, resource: { buffer: state.buffer } },
+        { binding: 2, resource: { buffer: output } },
+      ],
+    });
-  const bindGroup = execution.device.createBindGroup({
-    label: 'energy_quintel_reduce_bind_group',
-    layout: pipeline.getBindGroupLayout(0),
-    entries: [
-      { binding: 0, resource: { buffer: uniformBuffer } },
-      { binding: 1, resource: { buffer: state.buffer } },
-      { binding: 2, resource: { buffer: output } },
-    ],
-  });
-  dispatchEnergy(execution, pipeline, bindGroup, workgroups, 'energy_quintel_reduce');
-  releaseUniformBuffer(execution, uniformBuffer);
-  return createTensor(output, 'f32', [workgroups, 4], 'energy_quintel_reduce_output');
+    dispatchEnergy(execution, pipeline, bindGroup, workgroups, 'energy_quintel_reduce');
+    return createTensor(output, 'f32', [workgroups, 4], 'energy_quintel_reduce_output');
+  } catch (error) {
+    releaseOwnedBuffer(ownedOutput);
+    throw error;
+  } finally {
+    releaseUniformBuffer(execution, uniformBuffer);
+  }
 }
 async function executeEnergyQuintelGrad(recorder, state, options = {}, op) {
@@ -337,7 +355,6 @@ async function executeEnergyQuintelGrad(recorder, state, options = {}, op) {
     centerWeight = 1.0,
     binarizeWeight = 0.0,
     centerTarget = 1.0,
-    rules = {},
     outputBuffer = null,
   } = options;
   const elementCount = inferCount(state, count);
@@ -348,7 +365,7 @@ async function executeEnergyQuintelGrad(recorder, state, options = {}, op) {
   const variant = selectEnergyQuintelGradVariant(state.dtype);
   const pipeline = await getPipelineFast('energy_quintel_grad', variant);
-  const flags = buildQuintelFlags(rules, binarizeWeight);
+  const flags = resolveQuintelFlags(options, op);
   const uniformBuffer = createUniformBuffer(execution, 'energy_quintel_grad_uniforms', 64, (view) => {
     writeQuintelGradUniform(view, {
@@ -366,22 +383,28 @@ async function executeEnergyQuintelGrad(recorder, state, options = {}, op) {
   const outputSize = elementCount * 4;
   const output = outputBuffer || acquireBuffer(outputSize, undefined, 'energy_quintel_grad_output');
+  const ownedOutput = outputBuffer ? null : output;
+  try {
+    const bindGroup = execution.device.createBindGroup({
+      label: 'energy_quintel_grad_bind_group',
+      layout: pipeline.getBindGroupLayout(0),
+      entries: [
+        { binding: 0, resource: { buffer: uniformBuffer } },
+        { binding: 1, resource: { buffer: state.buffer } },
+        { binding: 2, resource: { buffer: output } },
+      ],
+    });
-  const bindGroup = execution.device.createBindGroup({
-    label: 'energy_quintel_grad_bind_group',
-    layout: pipeline.getBindGroupLayout(0),
-    entries: [
-      { binding: 0, resource: { buffer: uniformBuffer } },
-      { binding: 1, resource: { buffer: state.buffer } },
-      { binding: 2, resource: { buffer: output } },
-    ],
-  });
-  const workgroups = Math.ceil(elementCount / WORKGROUP_SIZES.DEFAULT);
-  dispatchEnergy(execution, pipeline, bindGroup, workgroups, 'energy_quintel_grad');
-  releaseUniformBuffer(execution, uniformBuffer);
-  return createTensor(output, 'f32', [elementCount], 'energy_quintel_grad_output');
+    const workgroups = Math.ceil(elementCount / WORKGROUP_SIZES.DEFAULT);
+    dispatchEnergy(execution, pipeline, bindGroup, workgroups, 'energy_quintel_grad');
+    return createTensor(output, 'f32', [elementCount], 'energy_quintel_grad_output');
+  } catch (error) {
+    releaseOwnedBuffer(ownedOutput);
+    throw error;
+  } finally {
+    releaseUniformBuffer(execution, uniformBuffer);
+  }
 }
 export async function runEnergyEval(state, target, options = {}) {

package/src/gpu/kernels/feature-check.js CHANGED Viewed

@@ -16,7 +16,7 @@ export function hasRequiredFeatures(
   for (const feature of required) {
     if (feature === 'shader-f16' && !capabilities.hasF16) return false;
     if (feature === 'subgroups' && !capabilities.hasSubgroups) return false;
-    if (feature === 'subgroups-f16' && !capabilities.hasSubgroups) return false;
+    if (feature === 'subgroups-f16' && !capabilities.hasSubgroupsF16) return false;
   }
   return true;
 }

package/src/gpu/kernels/fused_ffn.js CHANGED Viewed

@@ -1,7 +1,7 @@
 import { getDevice, getKernelCapabilities } from '../device.js';
-import { acquireBuffer } from '../../memory/buffer-pool.js';
+import { acquireBuffer, releaseBuffer } from '../../memory/buffer-pool.js';
 import { createTensor } from '../tensor.js';
 import { KernelBase } from './kernel-base.js';
 import { createUniformBufferWithView } from './utils.js';
@@ -77,6 +77,17 @@ function resolveSwigluLimit(value, context) {
   return value;
 }
+function releaseRunResources(uniformBuffer, ownedBuffers) {
+  if (uniformBuffer) {
+    uniformBuffer.destroy();
+  }
+  for (const buffer of ownedBuffers) {
+    if (buffer) {
+      releaseBuffer(buffer);
+    }
+  }
+}
 export async function runFusedFFN(
   input,
@@ -132,7 +143,8 @@ export async function runFusedFFN(
   const outputBytesPerElement = isF16Native ? 2 : 4;
   const outputDtype = isF16Native ? 'f16' : 'f32';
   const outputSize = batchSize * intermediateSize * outputBytesPerElement;
-  const output = outputBuffer || acquireBuffer(outputSize, undefined, 'fused_ffn_output');
+  const ownedOutput = outputBuffer ? null : acquireBuffer(outputSize, undefined, 'fused_ffn_output');
+  const output = outputBuffer || ownedOutput;
   // Create uniform buffer
   const uniformBuffer = createFFNUniformBuffer(device, null, {
@@ -145,41 +157,42 @@ export async function runFusedFFN(
     swigluLimit: activation === 'silu' ? swigluLimit : null,
   });
-  // Create bind group
-  const bindGroup = device.createBindGroup({
-    label: 'fused_ffn_bind_group',
-    layout: pipeline.getBindGroupLayout(0),
-    entries: [
-      { binding: 0, resource: { buffer: uniformBuffer } },
-      { binding: 1, resource: { buffer: input.buffer } },
-      { binding: 2, resource: { buffer: getBuffer(W_gate) } },
-      { binding: 3, resource: { buffer: getBuffer(W_up) } },
-      { binding: 4, resource: { buffer: output } },
-    ],
-  });
+  try {
+    const bindGroup = device.createBindGroup({
+      label: 'fused_ffn_bind_group',
+      layout: pipeline.getBindGroupLayout(0),
+      entries: [
+        { binding: 0, resource: { buffer: uniformBuffer } },
+        { binding: 1, resource: { buffer: input.buffer } },
+        { binding: 2, resource: { buffer: getBuffer(W_gate) } },
+        { binding: 3, resource: { buffer: getBuffer(W_up) } },
+        { binding: 4, resource: { buffer: output } },
+      ],
+    });
+    let workgroupsX;
+    let workgroupsY = 1;
+    if (variant === 'multi') {
+      const outputsPerWg = 4;
+      workgroupsX = Math.ceil(intermediateSize / outputsPerWg);
+    } else if (variant === 'q4k' || variant === 'q4k_batched') {
+      const colsPerWg = 32;
+      workgroupsX = Math.ceil(intermediateSize / colsPerWg);
+      workgroupsY = variant === 'q4k_batched' ? batchSize : 1;
+    } else if (variant === 'batched' || variant === 'f16_native_batched') {
+      workgroupsX = intermediateSize;
+      workgroupsY = batchSize;
+    } else {
+      workgroupsX = intermediateSize;
+    }
-  // Calculate workgroups
-  let workgroupsX;
-  let workgroupsY = 1;
-  if (variant === 'multi') {
-    const outputsPerWg = 4;
-    workgroupsX = Math.ceil(intermediateSize / outputsPerWg);
-  } else if (variant === 'q4k' || variant === 'q4k_batched') {
-    // Q4K uses multi-column: 32 columns per workgroup
-    const colsPerWg = 32;
-    workgroupsX = Math.ceil(intermediateSize / colsPerWg);
-    workgroupsY = variant === 'q4k_batched' ? batchSize : 1;
-  } else if (variant === 'batched' || variant === 'f16_native_batched') {
-    workgroupsX = intermediateSize;
-    workgroupsY = batchSize;
-  } else {
-    workgroupsX = intermediateSize;
+    kernel.dispatch(pipeline, bindGroup, workgroupsX, workgroupsY);
+  } catch (error) {
+    releaseRunResources(uniformBuffer, [ownedOutput]);
+    throw error;
   }
-  kernel.dispatch(pipeline, bindGroup, workgroupsX, workgroupsY);
   uniformBuffer.destroy();
   return createTensor(output, outputDtype, [batchSize, intermediateSize], 'fused_ffn_output');
@@ -240,7 +253,8 @@ export async function recordFusedFFN(
   const outputBytesPerElement = isF16Native ? 2 : 4;
   const outputDtype = isF16Native ? 'f16' : 'f32';
   const outputSize = batchSize * intermediateSize * outputBytesPerElement;
-  const output = outputBuffer || acquireBuffer(outputSize, undefined, 'fused_ffn_output');
+  const ownedOutput = outputBuffer ? null : acquireBuffer(outputSize, undefined, 'fused_ffn_output');
+  const output = outputBuffer || ownedOutput;
   const uniformBuffer = createFFNUniformBuffer(device, recorder, {
     M: batchSize,
@@ -252,39 +266,44 @@ export async function recordFusedFFN(
     swigluLimit: activation === 'silu' ? swigluLimit : null,
   });
-  const bindGroup = device.createBindGroup({
-    label: 'fused_ffn_bind_group',
-    layout: pipeline.getBindGroupLayout(0),
-    entries: [
-      { binding: 0, resource: { buffer: uniformBuffer } },
-      { binding: 1, resource: { buffer: input.buffer } },
-      { binding: 2, resource: { buffer: getBuffer(W_gate) } },
-      { binding: 3, resource: { buffer: getBuffer(W_up) } },
-      { binding: 4, resource: { buffer: output } },
-    ],
-  });
+  try {
+    const bindGroup = device.createBindGroup({
+      label: 'fused_ffn_bind_group',
+      layout: pipeline.getBindGroupLayout(0),
+      entries: [
+        { binding: 0, resource: { buffer: uniformBuffer } },
+        { binding: 1, resource: { buffer: input.buffer } },
+        { binding: 2, resource: { buffer: getBuffer(W_gate) } },
+        { binding: 3, resource: { buffer: getBuffer(W_up) } },
+        { binding: 4, resource: { buffer: output } },
+      ],
+    });
+    let workgroupsX;
+    let workgroupsY = 1;
+    if (variant === 'multi') {
+      const outputsPerWg = 4;
+      workgroupsX = Math.ceil(intermediateSize / outputsPerWg);
+    } else if (variant === 'q4k' || variant === 'q4k_batched') {
+      const colsPerWg = 32;
+      workgroupsX = Math.ceil(intermediateSize / colsPerWg);
+      workgroupsY = variant === 'q4k_batched' ? batchSize : 1;
+    } else if (variant === 'batched' || variant === 'f16_native_batched') {
+      workgroupsX = intermediateSize;
+      workgroupsY = batchSize;
+    } else {
+      workgroupsX = intermediateSize;
+    }
-  let workgroupsX;
-  let workgroupsY = 1;
-  if (variant === 'multi') {
-    const outputsPerWg = 4;
-    workgroupsX = Math.ceil(intermediateSize / outputsPerWg);
-  } else if (variant === 'q4k' || variant === 'q4k_batched') {
-    // Q4K uses multi-column: 32 columns per workgroup
-    const colsPerWg = 32;
-    workgroupsX = Math.ceil(intermediateSize / colsPerWg);
-    workgroupsY = variant === 'q4k_batched' ? batchSize : 1;
-  } else if (variant === 'batched' || variant === 'f16_native_batched') {
-    workgroupsX = intermediateSize;
-    workgroupsY = batchSize;
-  } else {
-    workgroupsX = intermediateSize;
+    kernel.record(recorder, pipeline, bindGroup, workgroupsX, workgroupsY);
+  } catch (error) {
+    if (ownedOutput) {
+      releaseBuffer(ownedOutput);
+    }
+    throw error;
   }
-  kernel.record(recorder, pipeline, bindGroup, workgroupsX, workgroupsY);
   return createTensor(output, outputDtype, [batchSize, intermediateSize], 'fused_ffn_output');
 }

package/src/gpu/kernels/fused_matmul_residual.js CHANGED Viewed

@@ -1,7 +1,7 @@
 import { getDevice } from '../device.js';
-import { acquireBuffer } from '../../memory/buffer-pool.js';
+import { acquireBuffer, releaseBuffer } from '../../memory/buffer-pool.js';
 import { createTensor, dtypeBytes } from '../tensor.js';
 import { getBuffer } from '../weight-buffer.js';
 import { dispatch, recordDispatch } from './dispatch.js';
@@ -47,7 +47,12 @@ export async function runMatmulResidualFused(
   const pipelineVariant = resolveFusedResidualVariant(input, residual);
   const pipeline = await getPipelineFast('fused_matmul_residual', pipelineVariant);
-  const output = outputBuffer || acquireBuffer(N * dtypeBytes(outputDtype), undefined, 'matmul_residual_output');
+  const ownedOutput = outputBuffer ? null : acquireBuffer(
+    N * dtypeBytes(outputDtype),
+    undefined,
+    'matmul_residual_output'
+  );
+  const output = outputBuffer || ownedOutput;
   // Create uniform buffer (same layout as matmul_gemv)
   const uniformBuffer = createUniformBufferWithView(
@@ -68,21 +73,28 @@ export async function runMatmulResidualFused(
   );
   // Create bind group
-  const bindGroup = device.createBindGroup({
-    label: 'matmul_residual_bind_group',
-    layout: pipeline.getBindGroupLayout(0),
-    entries: [
-      { binding: 0, resource: { buffer: uniformBuffer } },
-      { binding: 1, resource: { buffer: input.buffer } },
-      { binding: 2, resource: { buffer: weightBuffer } },
-      { binding: 3, resource: { buffer: output } },
-      { binding: 4, resource: { buffer: residual.buffer } },
-    ],
-  });
-  // One workgroup per output element
-  const workgroups = N;
-  dispatch(device, pipeline, bindGroup, workgroups, 'matmul_residual_fused');
+  try {
+    const bindGroup = device.createBindGroup({
+      label: 'matmul_residual_bind_group',
+      layout: pipeline.getBindGroupLayout(0),
+      entries: [
+        { binding: 0, resource: { buffer: uniformBuffer } },
+        { binding: 1, resource: { buffer: input.buffer } },
+        { binding: 2, resource: { buffer: weightBuffer } },
+        { binding: 3, resource: { buffer: output } },
+        { binding: 4, resource: { buffer: residual.buffer } },
+      ],
+    });
+    const workgroups = N;
+    dispatch(device, pipeline, bindGroup, workgroups, 'matmul_residual_fused');
+  } catch (error) {
+    uniformBuffer.destroy();
+    if (ownedOutput) {
+      releaseBuffer(ownedOutput);
+    }
+    throw error;
+  }
   uniformBuffer.destroy();
@@ -112,7 +124,12 @@ export async function recordMatmulResidualFused(
   const pipelineVariant = resolveFusedResidualVariant(input, residual);
   const pipeline = await getPipelineFast('fused_matmul_residual', pipelineVariant);
-  const output = outputBuffer || acquireBuffer(N * dtypeBytes(outputDtype), undefined, 'matmul_residual_output');
+  const ownedOutput = outputBuffer ? null : acquireBuffer(
+    N * dtypeBytes(outputDtype),
+    undefined,
+    'matmul_residual_output'
+  );
+  const output = outputBuffer || ownedOutput;
   // Create uniform buffer
   const uniformBuffer = createUniformBufferWithView(
@@ -132,21 +149,27 @@ export async function recordMatmulResidualFused(
   );
   // Create bind group
-  const bindGroup = device.createBindGroup({
-    label: 'matmul_residual_bind_group',
-    layout: pipeline.getBindGroupLayout(0),
-    entries: [
-      { binding: 0, resource: { buffer: uniformBuffer } },
-      { binding: 1, resource: { buffer: input.buffer } },
-      { binding: 2, resource: { buffer: weightBuffer } },
-      { binding: 3, resource: { buffer: output } },
-      { binding: 4, resource: { buffer: residual.buffer } },
-    ],
-  });
-  // One workgroup per output element
-  const workgroups = N;
-  recordDispatch(recorder, pipeline, bindGroup, workgroups, 'matmul_residual_fused');
+  try {
+    const bindGroup = device.createBindGroup({
+      label: 'matmul_residual_bind_group',
+      layout: pipeline.getBindGroupLayout(0),
+      entries: [
+        { binding: 0, resource: { buffer: uniformBuffer } },
+        { binding: 1, resource: { buffer: input.buffer } },
+        { binding: 2, resource: { buffer: weightBuffer } },
+        { binding: 3, resource: { buffer: output } },
+        { binding: 4, resource: { buffer: residual.buffer } },
+      ],
+    });
+    const workgroups = N;
+    recordDispatch(recorder, pipeline, bindGroup, workgroups, 'matmul_residual_fused');
+  } catch (error) {
+    if (ownedOutput) {
+      releaseBuffer(ownedOutput);
+    }
+    throw error;
+  }
   return createTensor(output, outputDtype, [1, N], 'matmul_residual_output');
 }