npm - @simulatte/doppler - Versions diffs - 0.1.6 → 0.1.7 - Mend

@simulatte/doppler 0.1.6 → 0.1.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (316) hide show

package/CHANGELOG.md +126 -0
package/README.md +16 -23
package/package.json +14 -1
package/src/adapters/adapter-registry.js +12 -1
package/src/adapters/lora-loader.js +23 -6
package/src/bridge/extension-client.d.ts +5 -0
package/src/bridge/extension-client.js +40 -0
package/src/bridge/index.d.ts +2 -1
package/src/bridge/index.js +6 -4
package/src/browser/browser-converter.js +26 -1
package/src/browser/file-picker.js +6 -0
package/src/browser/safetensors-parser-browser.js +84 -1
package/src/browser/shard-io-browser.js +2 -2
package/src/browser/tensor-source-download.js +8 -2
package/src/browser/tensor-source-http.d.ts +1 -0
package/src/browser/tensor-source-http.js +5 -1
package/src/client/doppler-api.browser.js +20 -4
package/src/client/doppler-api.js +19 -3
package/src/client/doppler-provider/generation.js +12 -0
package/src/client/doppler-provider/model-manager.d.ts +10 -0
package/src/client/doppler-provider/model-manager.js +91 -19
package/src/client/doppler-provider/source-runtime.d.ts +2 -1
package/src/client/doppler-provider/source-runtime.js +132 -13
package/src/client/doppler-registry.json +8 -7
package/src/config/backward-registry-loader.js +17 -2
package/src/config/execution-v0-contract-check.js +113 -15
package/src/config/kernel-path-contract-check.js +57 -29
package/src/config/kernel-path-loader.js +5 -36
package/src/config/kernels/kernel-ref-digests.js +1 -1
package/src/config/kernels/registry.js +14 -1
package/src/config/kernels/registry.json +7 -5
package/src/config/loader.d.ts +1 -1
package/src/config/loader.js +12 -2
package/src/config/merge-contract-check.js +59 -4
package/src/config/merge-helpers.js +128 -7
package/src/config/merge.d.ts +1 -0
package/src/config/merge.js +10 -0
package/src/config/param-validator.js +47 -2
package/src/config/presets/kernel-paths/{gemma2-q4k-dequant-f32a.json → gemma2-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/gemma3-f16-fused-f32a-online-streamingprefill.json +223 -0
package/src/config/presets/kernel-paths/{gemma3-q4k-dequant-f32a.json → gemma3-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/registry.json +29 -8
package/src/config/presets/models/gemma2.json +2 -2
package/src/config/presets/runtime/experiments/bench/gemma3-bench-q4k.json +1 -1
package/src/config/presets/runtime/experiments/debug/gemma3-debug-q4k.json +1 -1
package/src/config/presets/runtime/experiments/verify/gemma3-verify.json +1 -1
package/src/config/presets/runtime/kernels/dequant-f16-q4k.json +6 -13
package/src/config/presets/runtime/kernels/dequant-f32-q4k.json +6 -13
package/src/config/presets/runtime/kernels/embeddinggemma-q4k-dequant-f32a.json +37 -0
package/src/config/presets/runtime/kernels/fused-q4k.json +6 -13
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f16a.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f32a-nosubgroups.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-fused-f32a.json +33 -0
package/src/config/presets/runtime/kernels/safe-q4k.json +6 -13
package/src/config/presets/runtime/platform/metal-apple-q4k.json +1 -1
package/src/config/runtime.js +6 -1
package/src/config/schema/debug.schema.d.ts +5 -0
package/src/config/schema/doppler.schema.js +16 -21
package/src/config/schema/inference-defaults.schema.js +3 -3
package/src/config/schema/kernel-path.schema.d.ts +5 -1
package/src/config/schema/kernel-thresholds.schema.js +12 -4
package/src/config/schema/manifest.schema.d.ts +2 -1
package/src/config/schema/manifest.schema.js +16 -3
package/src/config/training-defaults.js +30 -22
package/src/converter/conversion-plan.js +94 -9
package/src/converter/core.d.ts +7 -0
package/src/converter/core.js +14 -9
package/src/converter/execution-v0-manifest.js +4 -1
package/src/converter/index.d.ts +1 -0
package/src/converter/index.js +1 -0
package/src/converter/manifest-inference.js +43 -12
package/src/converter/parsers/diffusion.js +0 -3
package/src/converter/quantization-info.js +35 -15
package/src/converter/shard-packer.d.ts +1 -1
package/src/converter/shard-packer.js +4 -1
package/src/debug/config.js +123 -11
package/src/debug/signals.js +7 -1
package/src/debug/tensor.d.ts +2 -0
package/src/debug/tensor.js +13 -2
package/src/distribution/p2p-control-plane.js +52 -12
package/src/distribution/p2p-observability.js +43 -7
package/src/distribution/p2p-webrtc-browser.js +20 -0
package/src/distribution/shard-delivery.js +77 -26
package/src/formats/gguf/types.js +33 -16
package/src/formats/rdrr/groups.d.ts +12 -4
package/src/formats/rdrr/groups.js +3 -6
package/src/formats/rdrr/parsing.js +39 -2
package/src/formats/rdrr/types.d.ts +2 -1
package/src/gpu/command-recorder.js +86 -61
package/src/gpu/device.d.ts +1 -0
package/src/gpu/device.js +73 -19
package/src/gpu/kernel-tuner/benchmarks.js +326 -316
package/src/gpu/kernel-tuner/cache.js +71 -4
package/src/gpu/kernel-tuner/tuner.js +22 -4
package/src/gpu/kernels/attention.js +15 -34
package/src/gpu/kernels/backward/adam.js +62 -58
package/src/gpu/kernels/backward/attention_backward.js +257 -169
package/src/gpu/kernels/backward/conv2d_backward.js +14 -1
package/src/gpu/kernels/cast.js +191 -149
package/src/gpu/kernels/check-stop.js +33 -44
package/src/gpu/kernels/conv2d.js +27 -17
package/src/gpu/kernels/cross_entropy_loss.js +21 -15
package/src/gpu/kernels/depthwise_conv2d.js +36 -26
package/src/gpu/kernels/dequant.js +178 -126
package/src/gpu/kernels/energy.d.ts +3 -21
package/src/gpu/kernels/energy.js +111 -88
package/src/gpu/kernels/feature-check.js +1 -1
package/src/gpu/kernels/fused_ffn.js +84 -65
package/src/gpu/kernels/fused_matmul_residual.js +56 -33
package/src/gpu/kernels/fused_matmul_rmsnorm.js +62 -45
package/src/gpu/kernels/gather.js +33 -15
package/src/gpu/kernels/gelu.js +19 -11
package/src/gpu/kernels/grouped_pointwise_conv2d.js +33 -23
package/src/gpu/kernels/groupnorm.js +34 -23
package/src/gpu/kernels/kv-quantize.js +5 -2
package/src/gpu/kernels/layernorm.js +35 -19
package/src/gpu/kernels/logit-merge.js +5 -3
package/src/gpu/kernels/matmul.js +58 -39
package/src/gpu/kernels/modulate.js +23 -15
package/src/gpu/kernels/moe.js +221 -175
package/src/gpu/kernels/pixel_shuffle.js +22 -14
package/src/gpu/kernels/relu.js +18 -10
package/src/gpu/kernels/repeat_channels.js +25 -17
package/src/gpu/kernels/residual.js +37 -27
package/src/gpu/kernels/rmsnorm.js +57 -41
package/src/gpu/kernels/rope.js +3 -0
package/src/gpu/kernels/sample.js +27 -38
package/src/gpu/kernels/sana_linear_attention.js +18 -10
package/src/gpu/kernels/scale.js +18 -11
package/src/gpu/kernels/shader-cache.js +4 -2
package/src/gpu/kernels/silu.js +120 -72
package/src/gpu/kernels/softmax.js +44 -25
package/src/gpu/kernels/split_qkv.js +23 -13
package/src/gpu/kernels/transpose.js +18 -10
package/src/gpu/kernels/transpose.wgsl +5 -3
package/src/gpu/kernels/upsample2d.js +21 -13
package/src/gpu/kernels/utils.js +20 -13
package/src/gpu/partitioned-buffer-pool.js +10 -2
package/src/gpu/perf-guards.js +2 -9
package/src/gpu/profiler.js +27 -22
package/src/gpu/readback-utils.d.ts +16 -0
package/src/gpu/readback-utils.js +41 -0
package/src/gpu/submit-tracker.js +13 -0
package/src/gpu/uniform-cache.d.ts +1 -0
package/src/gpu/uniform-cache.js +30 -9
package/src/hotswap/intent-bundle.js +6 -0
package/src/hotswap/manifest.d.ts +10 -1
package/src/hotswap/manifest.js +12 -2
package/src/hotswap/runtime.js +30 -8
package/src/index-browser.d.ts +44 -0
package/src/index-browser.js +14 -0
package/src/inference/browser-harness-contract-helpers.d.ts +5 -0
package/src/inference/browser-harness-contract-helpers.js +28 -0
package/src/inference/browser-harness-diffusion-energy-suites.d.ts +2 -0
package/src/inference/browser-harness-diffusion-energy-suites.js +269 -0
package/src/inference/browser-harness-model-helpers.d.ts +16 -0
package/src/inference/browser-harness-model-helpers.js +217 -0
package/src/inference/browser-harness-report-helpers.d.ts +7 -0
package/src/inference/browser-harness-report-helpers.js +42 -0
package/src/inference/browser-harness-runtime-helpers.d.ts +61 -0
package/src/inference/browser-harness-runtime-helpers.js +415 -0
package/src/inference/browser-harness-suite-helpers.d.ts +28 -0
package/src/inference/browser-harness-suite-helpers.js +268 -0
package/src/inference/browser-harness-text-helpers.d.ts +27 -0
package/src/inference/browser-harness-text-helpers.js +788 -0
package/src/inference/browser-harness.d.ts +6 -0
package/src/inference/browser-harness.js +130 -1996
package/src/inference/kv-cache/base.js +140 -94
package/src/inference/kv-cache/tiered.js +5 -3
package/src/inference/moe-router.js +88 -56
package/src/inference/multi-model-network.js +5 -3
package/src/inference/network-evolution.d.ts +11 -2
package/src/inference/network-evolution.js +20 -21
package/src/inference/pipelines/context.d.ts +3 -0
package/src/inference/pipelines/context.js +142 -2
package/src/inference/pipelines/diffusion/helpers.js +7 -2
package/src/inference/pipelines/diffusion/pipeline.js +2 -1
package/src/inference/pipelines/diffusion/sd3-transformer.js +10 -10
package/src/inference/pipelines/diffusion/vae.js +3 -7
package/src/inference/pipelines/energy/pipeline.js +27 -21
package/src/inference/pipelines/energy/quintel.d.ts +5 -0
package/src/inference/pipelines/energy/quintel.js +11 -0
package/src/inference/pipelines/energy-head/row-head-pipeline.js +17 -13
package/src/inference/pipelines/structured/json-head-pipeline.js +26 -11
package/src/inference/pipelines/text/attention/projections.js +151 -101
package/src/inference/pipelines/text/attention/record.js +62 -8
package/src/inference/pipelines/text/attention/run.js +62 -8
package/src/inference/pipelines/text/config.js +3 -4
package/src/inference/pipelines/text/embed.js +2 -8
package/src/inference/pipelines/text/execution-plan.js +41 -19
package/src/inference/pipelines/text/execution-v0-contract-helpers.d.ts +59 -0
package/src/inference/pipelines/text/execution-v0-contract-helpers.js +937 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.d.ts +15 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.js +279 -0
package/src/inference/pipelines/text/execution-v0.js +62 -1013
package/src/inference/pipelines/text/generator-steps.d.ts +46 -0
package/src/inference/pipelines/text/generator-steps.js +298 -207
package/src/inference/pipelines/text/generator.js +6 -23
package/src/inference/pipelines/text/init.js +78 -20
package/src/inference/pipelines/text/kernel-path-auto-select.js +2 -0
package/src/inference/pipelines/text/kernel-trace.d.ts +2 -0
package/src/inference/pipelines/text/kernel-trace.js +6 -0
package/src/inference/pipelines/text/layer.js +3 -9
package/src/inference/pipelines/text/linear-attention.d.ts +10 -0
package/src/inference/pipelines/text/linear-attention.js +80 -6
package/src/inference/pipelines/text/logits/gpu.js +10 -5
package/src/inference/pipelines/text/logits/index.js +10 -11
package/src/inference/pipelines/text/logits/utils.d.ts +7 -0
package/src/inference/pipelines/text/logits/utils.js +9 -0
package/src/inference/pipelines/text/lora-apply.js +50 -32
package/src/inference/pipelines/text/model-load.js +279 -104
package/src/inference/pipelines/text/moe-cache.js +5 -4
package/src/inference/pipelines/text/moe-cpu-gptoss.js +74 -69
package/src/inference/pipelines/text/moe-cpu.js +42 -38
package/src/inference/pipelines/text/moe-gpu.js +110 -86
package/src/inference/pipelines/text/ops.js +90 -90
package/src/inference/pipelines/text/probes.js +9 -9
package/src/inference/pipelines/text/weights.js +17 -7
package/src/inference/pipelines/text.js +13 -1
package/src/inference/speculative.d.ts +2 -2
package/src/inference/speculative.js +4 -18
package/src/inference/test-harness.d.ts +1 -1
package/src/inference/test-harness.js +15 -5
package/src/inference/tokenizer.d.ts +0 -5
package/src/inference/tokenizer.js +4 -23
package/src/inference/tokenizers/bpe.js +9 -0
package/src/inference/tokenizers/bundled.js +20 -0
package/src/inference/tokenizers/sentencepiece.js +12 -0
package/src/loader/doppler-loader.js +38 -22
package/src/loader/dtype-utils.js +3 -44
package/src/loader/embedding-loader.js +7 -3
package/src/loader/experts/expert-cache.js +13 -6
package/src/loader/experts/expert-loader.js +10 -6
package/src/loader/final-weights-loader.js +8 -4
package/src/loader/layer-loader.js +2 -1
package/src/loader/loader-state.js +2 -2
package/src/loader/memory-monitor.js +8 -0
package/src/loader/multi-model-loader.d.ts +14 -0
package/src/loader/multi-model-loader.js +70 -24
package/src/loader/shard-cache.js +81 -12
package/src/loader/shard-resolver.js +25 -3
package/src/loader/tensors/tensor-loader.js +209 -144
package/src/loader/tensors/tensor-reader.js +76 -19
package/src/loader/weight-downcast.js +1 -1
package/src/memory/buffer-pool.d.ts +9 -1
package/src/memory/buffer-pool.js +109 -44
package/src/memory/unified-detect.js +1 -1
package/src/rules/inference/kernel-path.rules.json +24 -8
package/src/rules/rule-registry.js +25 -1
package/src/storage/backends/opfs-store.js +68 -24
package/src/storage/downloader.js +364 -83
package/src/storage/index.d.ts +3 -0
package/src/storage/index.js +3 -0
package/src/storage/preflight.d.ts +2 -2
package/src/storage/preflight.js +24 -2
package/src/storage/quickstart-downloader.js +11 -5
package/src/storage/registry.js +10 -4
package/src/storage/reports.js +1 -1
package/src/storage/shard-manager.d.ts +15 -1
package/src/storage/shard-manager.js +51 -3
package/src/storage/source-artifact-store.d.ts +52 -0
package/src/storage/source-artifact-store.js +234 -0
package/src/tooling/command-api-constants.d.ts +9 -0
package/src/tooling/command-api-constants.js +9 -0
package/src/tooling/command-api-family-normalizers.d.ts +9 -0
package/src/tooling/command-api-family-normalizers.js +343 -0
package/src/tooling/command-api-helpers.d.ts +25 -0
package/src/tooling/command-api-helpers.js +262 -0
package/src/tooling/command-api.js +16 -602
package/src/tooling/command-envelope.js +4 -1
package/src/tooling/command-runner-shared.js +52 -18
package/src/tooling/lean-execution-contract.js +150 -3
package/src/tooling/node-browser-command-runner.js +161 -271
package/src/tooling/node-command-runner.js +29 -3
package/src/tooling/node-converter.js +27 -1
package/src/tooling/node-source-runtime.d.ts +1 -1
package/src/tooling/node-source-runtime.js +84 -3
package/src/tooling/node-webgpu.js +24 -21
package/src/tooling/opfs-cache.js +21 -4
package/src/tooling/runtime-input-composition.d.ts +38 -0
package/src/tooling/runtime-input-composition.js +86 -0
package/src/tooling/source-runtime-bundle.d.ts +40 -5
package/src/tooling/source-runtime-bundle.js +261 -34
package/src/tooling/source-runtime-materializer.d.ts +6 -0
package/src/tooling/source-runtime-materializer.js +93 -0
package/src/training/attention-backward.js +32 -17
package/src/training/autograd.js +80 -52
package/src/training/checkpoint-watch.d.ts +2 -1
package/src/training/checkpoint-watch.js +39 -6
package/src/training/checkpoint.js +40 -11
package/src/training/clip.js +2 -1
package/src/training/datasets/token-batch.js +20 -8
package/src/training/distillation/checkpoint-watch.js +1 -0
package/src/training/distillation/student-fixture.d.ts +22 -0
package/src/training/distillation/student-fixture.js +846 -0
package/src/training/distillation/suite-data.d.ts +45 -0
package/src/training/distillation/suite-data.js +189 -0
package/src/training/lora-pipeline.js +4 -7
package/src/training/lora.js +26 -12
package/src/training/loss.js +5 -6
package/src/training/objectives/cross_entropy.js +2 -5
package/src/training/objectives/distill_kd.js +4 -8
package/src/training/objectives/distill_triplet.js +4 -8
package/src/training/objectives/ul_stage2_base.js +4 -8
package/src/training/operator-command.js +2 -0
package/src/training/optimizer.js +19 -7
package/src/training/runner.js +2 -1
package/src/training/suite.js +18 -978
package/src/training/tensor-factory.d.ts +9 -0
package/src/training/tensor-factory.js +13 -0
package/src/training/trainer.js +3 -5
package/src/training/ul_dataset.js +3 -5
package/src/training/workloads.js +70 -79
package/src/version.js +1 -1
package/tools/convert-safetensors-node.js +22 -16
package/tools/doppler-cli.js +44 -25

package/src/gpu/kernels/depthwise_conv2d.js CHANGED Viewed

@@ -58,36 +58,46 @@ async function _depthwiseConv2D(target, input, weight, bias, options = {}) {
     device.queue.writeBuffer(biasBuffer, 0, new Uint8Array(paddedSize));
   }
-  await unifiedKernelWrapper(
-    'depthwise_conv2d',
-    target,
-    variant,
-    [input, weightBuffer, biasBuffer, output],
-    {
-      channels,
-      height,
-      width,
-      out_height: outHeight,
-      out_width: outWidth,
-      kernel_h: kernelH,
-      kernel_w: kernelW,
-      stride,
-      pad,
-      _pad0: 0,
-      _pad1: 0,
-    },
-    [Math.ceil(outSpatial / WORKGROUP_SIZES.DEFAULT), channels, 1]
-  );
+  try {
+    await unifiedKernelWrapper(
+      'depthwise_conv2d',
+      target,
+      variant,
+      [input, weightBuffer, biasBuffer, output],
+      {
+        channels,
+        height,
+        width,
+        out_height: outHeight,
+        out_width: outWidth,
+        kernel_h: kernelH,
+        kernel_w: kernelW,
+        stride,
+        pad,
+        _pad0: 0,
+        _pad1: 0,
+      },
+      [Math.ceil(outSpatial / WORKGROUP_SIZES.DEFAULT), channels, 1]
+    );
-  if (tempBias) {
-    if (recorder) {
-      recorder.trackTemporaryBuffer(tempBias);
-    } else {
+    if (tempBias) {
+      if (recorder) {
+        recorder.trackTemporaryBuffer(tempBias);
+      } else {
+        releaseBuffer(tempBias);
+      }
+    }
+    return createTensor(output, input.dtype, [channels, outHeight, outWidth], 'depthwise_conv2d_output');
+  } catch (error) {
+    if (tempBias) {
       releaseBuffer(tempBias);
     }
+    if (!outputBuffer) {
+      releaseBuffer(output);
+    }
+    throw error;
   }
-  return createTensor(output, input.dtype, [channels, outHeight, outWidth], 'depthwise_conv2d_output');
 }
 export async function runDepthwiseConv2D(input, weight, bias, options = {}) {

package/src/gpu/kernels/dequant.js CHANGED Viewed

@@ -1,7 +1,7 @@
 import { getDevice, getKernelCapabilities } from '../device.js';
-import { acquireBuffer } from '../../memory/buffer-pool.js';
+import { acquireBuffer, releaseBuffer } from '../../memory/buffer-pool.js';
 import { createTensor } from '../tensor.js';
 import { GPU_LIMITS, TILE_SIZES, WORKGROUP_SIZES } from './constants.js';
 import { Q6K_BLOCK_BYTES, Q8_0_BLOCK_BYTES, Q8_0_BLOCK_SIZE } from '../../loader/quantization-constants.js';
@@ -69,6 +69,17 @@ export function createDequantBindGroupLayout() {
   ]);
 }
+function cleanupDequantResources(uniformBuffer, ownedBuffers) {
+  if (uniformBuffer) {
+    releaseUniformBuffer(uniformBuffer);
+  }
+  for (const buffer of ownedBuffers) {
+    if (buffer) {
+      releaseBuffer(buffer);
+    }
+  }
+}
 export async function dequantize(
   quantized,
@@ -76,12 +87,17 @@ export async function dequantize(
   options = {}
 ) {
   const device = getDevice();
+  const capabilities = getKernelCapabilities();
   const {
     outputOffset = 0,
     outputBuffer = null,
     outputDtype = 'f32',
   } = options;
+  if (outputDtype === 'f16' && capabilities?.hasF16 !== true) {
+    throw new Error('[dequantize] f16 output requires shader-f16 support.');
+  }
   // Select kernel
   const variant = selectDequantKernel({ ...options, outputDtype });
   const pipeline = await getPipelineFast('dequant', variant);
@@ -92,7 +108,8 @@ export async function dequantize(
   const outputSize = numBlocks * QK_K * bytesPerElem;
   // Create output buffer if not provided
-  const output = outputBuffer || acquireBuffer(outputSize, undefined, 'dequant_output');
+  const ownedOutput = outputBuffer ? null : acquireBuffer(outputSize, undefined, 'dequant_output');
+  const output = outputBuffer || ownedOutput;
   // Create uniform buffer
   const uniformBuffer = createUniformBufferWithView(
@@ -108,21 +125,24 @@ export async function dequantize(
     device
   );
-  // Create bind group
-  const bindGroup = device.createBindGroup({
-    label: 'dequant_bind_group',
-    layout: pipeline.getBindGroupLayout(0),
-    entries: [
-      { binding: 0, resource: { buffer: uniformBuffer } },
-      { binding: 1, resource: { buffer: quantized } },
-      { binding: 2, resource: { buffer: output } },
-    ],
-  });
-  const workgroups = calculateDequantWorkgroups(variant, numBlocks);
-  dispatch(device, pipeline, bindGroup, workgroups, 'dequant');
+  try {
+    const bindGroup = device.createBindGroup({
+      label: 'dequant_bind_group',
+      layout: pipeline.getBindGroupLayout(0),
+      entries: [
+        { binding: 0, resource: { buffer: uniformBuffer } },
+        { binding: 1, resource: { buffer: quantized } },
+        { binding: 2, resource: { buffer: output } },
+      ],
+    });
+    const workgroups = calculateDequantWorkgroups(variant, numBlocks);
+    dispatch(device, pipeline, bindGroup, workgroups, 'dequant');
+  } catch (error) {
+    cleanupDequantResources(uniformBuffer, [ownedOutput]);
+    throw error;
+  }
-  // Release uniform buffer back to cache (or destroy if not cached)
   releaseUniformBuffer(uniformBuffer);
@@ -140,7 +160,11 @@ export async function dequantizeRowwise(
   options = {}
 ) {
   const device = getDevice();
+  const capabilities = getKernelCapabilities();
   const { outputBuffer = null, outputDtype = 'f16' } = options;
+  if (outputDtype === 'f16' && capabilities?.hasF16 !== true) {
+    throw new Error('[dequantizeRowwise] f16 output requires shader-f16 support.');
+  }
   const finalOutputDtype = selectSharedRuleValue('shared', 'dtype', 'f16OrF32FromDtype', { dtype: outputDtype });
   const pipelineVariant = selectKernelRuleValue(
     'dequant',
@@ -157,7 +181,8 @@ export async function dequantizeRowwise(
   const bytesPerElem = finalOutputDtype === 'f16' ? 2 : 4;
   const outputSize = rows * K * bytesPerElem;
-  const output = outputBuffer || acquireBuffer(outputSize, undefined, 'dequant_rowwise_output');
+  const ownedOutput = outputBuffer ? null : acquireBuffer(outputSize, undefined, 'dequant_rowwise_output');
+  const output = outputBuffer || ownedOutput;
   const uniformBuffer = createUniformBufferWithView(
     'dequant_rowwise_uniforms',
@@ -172,18 +197,23 @@ export async function dequantizeRowwise(
     device
   );
-  const bindGroup = device.createBindGroup({
-    label: 'dequant_rowwise_bind_group',
-    layout: pipeline.getBindGroupLayout(0),
-    entries: [
-      { binding: 0, resource: { buffer: uniformBuffer } },
-      { binding: 1, resource: { buffer: quantized } },
-      { binding: 2, resource: { buffer: output } },
-    ],
-  });
-  const workgroups = [numBlocks, 1, 1];
-  dispatch(device, pipeline, bindGroup, workgroups, 'dequant_rowwise');
+  try {
+    const bindGroup = device.createBindGroup({
+      label: 'dequant_rowwise_bind_group',
+      layout: pipeline.getBindGroupLayout(0),
+      entries: [
+        { binding: 0, resource: { buffer: uniformBuffer } },
+        { binding: 1, resource: { buffer: quantized } },
+        { binding: 2, resource: { buffer: output } },
+      ],
+    });
+    const workgroups = [numBlocks, 1, 1];
+    dispatch(device, pipeline, bindGroup, workgroups, 'dequant_rowwise');
+  } catch (error) {
+    cleanupDequantResources(uniformBuffer, [ownedOutput]);
+    throw error;
+  }
   releaseUniformBuffer(uniformBuffer);
@@ -208,7 +238,8 @@ export async function dequantizeMXFP4(
   const pipeline = await getPipelineFast('dequant', 'mxfp4');
   const outputSize = totalElements * 4; // F32 output
-  const output = outputBuffer || acquireBuffer(outputSize, undefined, 'mxfp4_dequant_output');
+  const ownedOutput = outputBuffer ? null : acquireBuffer(outputSize, undefined, 'mxfp4_dequant_output');
+  const output = outputBuffer || ownedOutput;
   // Create uniform buffer
   const uniformBuffer = createUniformBufferWithView(
@@ -224,26 +255,29 @@ export async function dequantizeMXFP4(
     device
   );
-  // Create bind group
-  const bindGroup = device.createBindGroup({
-    label: 'mxfp4_dequant_bind_group',
-    layout: pipeline.getBindGroupLayout(0),
-    entries: [
-      { binding: 0, resource: { buffer: uniformBuffer } },
-      { binding: 1, resource: { buffer: blocks } },
-      { binding: 2, resource: { buffer: scales } },
-      { binding: 3, resource: { buffer: output } },
-    ],
-  });
-  const workgroups = Math.ceil(totalElements / WORKGROUP_SIZES.DEFAULT);
-  const dispatchSize = [
-    Math.min(workgroups, GPU_LIMITS.MAX_WORKGROUPS),
-    Math.max(1, Math.ceil(workgroups / GPU_LIMITS.MAX_WORKGROUPS)),
-    1,
-  ];
-  dispatch(device, pipeline, bindGroup, dispatchSize, 'mxfp4_dequant');
+  try {
+    const bindGroup = device.createBindGroup({
+      label: 'mxfp4_dequant_bind_group',
+      layout: pipeline.getBindGroupLayout(0),
+      entries: [
+        { binding: 0, resource: { buffer: uniformBuffer } },
+        { binding: 1, resource: { buffer: blocks } },
+        { binding: 2, resource: { buffer: scales } },
+        { binding: 3, resource: { buffer: output } },
+      ],
+    });
+    const workgroups = Math.ceil(totalElements / WORKGROUP_SIZES.DEFAULT);
+    const dispatchSize = [
+      Math.min(workgroups, GPU_LIMITS.MAX_WORKGROUPS),
+      Math.max(1, Math.ceil(workgroups / GPU_LIMITS.MAX_WORKGROUPS)),
+      1,
+    ];
+    dispatch(device, pipeline, bindGroup, dispatchSize, 'mxfp4_dequant');
+  } catch (error) {
+    cleanupDequantResources(uniformBuffer, [ownedOutput]);
+    throw error;
+  }
   releaseUniformBuffer(uniformBuffer);
@@ -284,7 +318,8 @@ export async function dequantizeMXFP4Expert(
   const totalOutput = outDim * numGroups * 32;
   const bytesPerElement = outputDtype === 'f16' ? 2 : 4;
   const outputSize = totalOutput * bytesPerElement;
-  const output = outputBuffer || acquireBuffer(outputSize, undefined, 'mxfp4_expert_output');
+  const ownedOutput = outputBuffer ? null : acquireBuffer(outputSize, undefined, 'mxfp4_expert_output');
+  const output = outputBuffer || ownedOutput;
   // Create uniform buffer
   const uniformBuffer = createUniformBufferWithView(
@@ -301,26 +336,29 @@ export async function dequantizeMXFP4Expert(
     device
   );
-  // Create bind group
-  const bindGroup = device.createBindGroup({
-    label: 'mxfp4_expert_bind_group',
-    layout: pipeline.getBindGroupLayout(0),
-    entries: [
-      { binding: 0, resource: { buffer: uniformBuffer } },
-      { binding: 1, resource: { buffer: blocks } },
-      { binding: 2, resource: { buffer: scales } },
-      { binding: 3, resource: { buffer: output } },
-    ],
-  });
-  const workgroups = Math.ceil(totalOutput / WORKGROUP_SIZES.DEFAULT);
-  const dispatchSize = [
-    Math.min(workgroups, GPU_LIMITS.MAX_WORKGROUPS),
-    Math.max(1, Math.ceil(workgroups / GPU_LIMITS.MAX_WORKGROUPS)),
-    1,
-  ];
-  dispatch(device, pipeline, bindGroup, dispatchSize, 'mxfp4_expert');
+  try {
+    const bindGroup = device.createBindGroup({
+      label: 'mxfp4_expert_bind_group',
+      layout: pipeline.getBindGroupLayout(0),
+      entries: [
+        { binding: 0, resource: { buffer: uniformBuffer } },
+        { binding: 1, resource: { buffer: blocks } },
+        { binding: 2, resource: { buffer: scales } },
+        { binding: 3, resource: { buffer: output } },
+      ],
+    });
+    const workgroups = Math.ceil(totalOutput / WORKGROUP_SIZES.DEFAULT);
+    const dispatchSize = [
+      Math.min(workgroups, GPU_LIMITS.MAX_WORKGROUPS),
+      Math.max(1, Math.ceil(workgroups / GPU_LIMITS.MAX_WORKGROUPS)),
+      1,
+    ];
+    dispatch(device, pipeline, bindGroup, dispatchSize, 'mxfp4_expert');
+  } catch (error) {
+    cleanupDequantResources(uniformBuffer, [ownedOutput]);
+    throw error;
+  }
   releaseUniformBuffer(uniformBuffer);
@@ -350,7 +388,8 @@ export async function dequantizeQ6K(
   const outputSize = numBlocks * QK_K * bytesPerElem;
   // Create output buffer if not provided
-  const output = outputBuffer || acquireBuffer(outputSize, undefined, 'q6k_dequant_output');
+  const ownedOutput = outputBuffer ? null : acquireBuffer(outputSize, undefined, 'q6k_dequant_output');
+  const output = outputBuffer || ownedOutput;
   // Calculate workgroups for 2D dispatch
   const maxWorkgroups = GPU_LIMITS.MAX_WORKGROUPS;
@@ -370,26 +409,28 @@ export async function dequantizeQ6K(
     device
   );
-  // Create bind group
-  const bindGroup = device.createBindGroup({
-    label: 'q6k_dequant_bind_group',
-    layout: pipeline.getBindGroupLayout(0),
-    entries: [
-      { binding: 0, resource: { buffer: uniformBuffer } },
-      { binding: 1, resource: { buffer: quantized } },
-      { binding: 2, resource: { buffer: output } },
-    ],
-  });
-  // One workgroup per block, handle 2D dispatch for large counts
-  const workgroups = [
-    workgroupsX,
-    numBlocks > maxWorkgroups ? Math.ceil(numBlocks / maxWorkgroups) : 1,
-    1
-  ];
-  dispatch(device, pipeline, bindGroup, workgroups, 'q6k_dequant');
+  try {
+    const bindGroup = device.createBindGroup({
+      label: 'q6k_dequant_bind_group',
+      layout: pipeline.getBindGroupLayout(0),
+      entries: [
+        { binding: 0, resource: { buffer: uniformBuffer } },
+        { binding: 1, resource: { buffer: quantized } },
+        { binding: 2, resource: { buffer: output } },
+      ],
+    });
+    const workgroups = [
+      workgroupsX,
+      numBlocks > maxWorkgroups ? Math.ceil(numBlocks / maxWorkgroups) : 1,
+      1
+    ];
+    dispatch(device, pipeline, bindGroup, workgroups, 'q6k_dequant');
+  } catch (error) {
+    cleanupDequantResources(uniformBuffer, [ownedOutput]);
+    throw error;
+  }
   releaseUniformBuffer(uniformBuffer);
@@ -419,7 +460,8 @@ export async function dequantizeQ8_0(
   const outputSize = numBlocks * Q8_0_BLOCK_SIZE * bytesPerElem;
   // Create output buffer if not provided
-  const output = outputBuffer || acquireBuffer(outputSize, undefined, 'q8_0_dequant_output');
+  const ownedOutput = outputBuffer ? null : acquireBuffer(outputSize, undefined, 'q8_0_dequant_output');
+  const output = outputBuffer || ownedOutput;
   // Calculate workgroups for 2D dispatch
   const maxWorkgroups = GPU_LIMITS.MAX_WORKGROUPS;
@@ -439,26 +481,28 @@ export async function dequantizeQ8_0(
     device
   );
-  // Create bind group
-  const bindGroup = device.createBindGroup({
-    label: 'q8_0_dequant_bind_group',
-    layout: pipeline.getBindGroupLayout(0),
-    entries: [
-      { binding: 0, resource: { buffer: uniformBuffer } },
-      { binding: 1, resource: { buffer: quantized } },
-      { binding: 2, resource: { buffer: output } },
-    ],
-  });
-  // One workgroup per block, handle 2D dispatch for large counts
-  const workgroups = [
-    workgroupsX,
-    numBlocks > maxWorkgroups ? Math.ceil(numBlocks / maxWorkgroups) : 1,
-    1
-  ];
-  dispatch(device, pipeline, bindGroup, workgroups, 'q8_0_dequant');
+  try {
+    const bindGroup = device.createBindGroup({
+      label: 'q8_0_dequant_bind_group',
+      layout: pipeline.getBindGroupLayout(0),
+      entries: [
+        { binding: 0, resource: { buffer: uniformBuffer } },
+        { binding: 1, resource: { buffer: quantized } },
+        { binding: 2, resource: { buffer: output } },
+      ],
+    });
+    const workgroups = [
+      workgroupsX,
+      numBlocks > maxWorkgroups ? Math.ceil(numBlocks / maxWorkgroups) : 1,
+      1
+    ];
+    dispatch(device, pipeline, bindGroup, workgroups, 'q8_0_dequant');
+  } catch (error) {
+    cleanupDequantResources(uniformBuffer, [ownedOutput]);
+    throw error;
+  }
   releaseUniformBuffer(uniformBuffer);
@@ -491,7 +535,8 @@ export async function recordDequantize(
   const outputSize = numBlocks * QK_K * bytesPerElem;
   // Output buffer
-  const output = outputBuffer || acquireBuffer(outputSize, undefined, 'dequant_output');
+  const ownedOutput = outputBuffer ? null : acquireBuffer(outputSize, undefined, 'dequant_output');
+  const output = outputBuffer || ownedOutput;
   // Uniform buffer
   const uniformBuffer = createUniformBufferWithView(
@@ -505,18 +550,25 @@ export async function recordDequantize(
   );
   // Bind group
-  const bindGroup = device.createBindGroup({
-    label: 'dequant_bind_group',
-    layout: pipeline.getBindGroupLayout(0),
-    entries: [
-      { binding: 0, resource: { buffer: uniformBuffer } },
-      { binding: 1, resource: { buffer: quantized } },
-      { binding: 2, resource: { buffer: output } },
-    ],
-  });
-  const workgroups = calculateDequantWorkgroups(variant, numBlocks);
-  recordDispatch(recorder, pipeline, bindGroup, workgroups, 'dequant');
+  try {
+    const bindGroup = device.createBindGroup({
+      label: 'dequant_bind_group',
+      layout: pipeline.getBindGroupLayout(0),
+      entries: [
+        { binding: 0, resource: { buffer: uniformBuffer } },
+        { binding: 1, resource: { buffer: quantized } },
+        { binding: 2, resource: { buffer: output } },
+      ],
+    });
+    const workgroups = calculateDequantWorkgroups(variant, numBlocks);
+    recordDispatch(recorder, pipeline, bindGroup, workgroups, 'dequant');
+  } catch (error) {
+    if (ownedOutput) {
+      releaseBuffer(ownedOutput);
+    }
+    throw error;
+  }
   const dtype = selectSharedRuleValue('shared', 'dtype', 'f16OrF32FromDtype', { dtype: outputDtype });

package/src/gpu/kernels/energy.d.ts CHANGED Viewed

@@ -16,6 +16,7 @@ export interface EnergyUpdateOptions {
 export interface EnergyQuintelUpdateOptions {
   count?: number;
   size?: number;
+  flags?: number;
   stepSize?: number;
   gradientScale?: number;
   countDiff?: number;
@@ -26,48 +27,29 @@ export interface EnergyQuintelUpdateOptions {
   centerTarget?: number;
   clampMin?: number;
   clampMax?: number;
-  rules?: {
-    mirrorX?: boolean;
-    mirrorY?: boolean;
-    diagonal?: boolean;
-    count?: boolean;
-    center?: boolean;
-  };
 }
 export interface EnergyQuintelReduceOptions {
   count?: number;
   size?: number;
+  flags?: number;
   symmetryWeight?: number;
   centerWeight?: number;
   binarizeWeight?: number;
   centerTarget?: number;
-  rules?: {
-    mirrorX?: boolean;
-    mirrorY?: boolean;
-    diagonal?: boolean;
-    count?: boolean;
-    center?: boolean;
-  };
   outputBuffer?: GPUBuffer | null;
 }
 export interface EnergyQuintelGradOptions {
   count?: number;
   size?: number;
+  flags?: number;
   countDiff?: number;
   symmetryWeight?: number;
   countWeight?: number;
   centerWeight?: number;
   binarizeWeight?: number;
   centerTarget?: number;
-  rules?: {
-    mirrorX?: boolean;
-    mirrorY?: boolean;
-    diagonal?: boolean;
-    count?: boolean;
-    center?: boolean;
-  };
   outputBuffer?: GPUBuffer | null;
 }