npm - @simulatte/doppler - Versions diffs - 0.1.6 → 0.1.8 - Mend

@simulatte/doppler 0.1.6 → 0.1.8

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (355) hide show

package/CHANGELOG.md +145 -0
package/README.md +16 -23
package/package.json +30 -32
package/src/adapters/adapter-registry.js +12 -1
package/src/adapters/lora-loader.js +23 -6
package/src/bridge/extension-client.d.ts +5 -0
package/src/bridge/extension-client.js +40 -0
package/src/bridge/index.d.ts +2 -1
package/src/bridge/index.js +6 -4
package/src/browser/browser-converter.js +31 -1
package/src/browser/file-picker.js +6 -0
package/src/browser/safetensors-parser-browser.js +84 -1
package/src/browser/shard-io-browser.js +2 -2
package/src/browser/tensor-source-download.js +8 -2
package/src/browser/tensor-source-http.d.ts +1 -0
package/src/browser/tensor-source-http.js +5 -1
package/src/client/doppler-api.browser.js +20 -4
package/src/client/doppler-api.js +19 -3
package/src/client/doppler-provider/generation.js +12 -0
package/src/client/doppler-provider/model-manager.d.ts +10 -0
package/src/client/doppler-provider/model-manager.js +91 -19
package/src/client/doppler-provider/source-runtime.d.ts +2 -1
package/src/client/doppler-provider/source-runtime.js +132 -13
package/src/client/doppler-registry.json +5 -20
package/src/config/backward-registry-loader.js +17 -2
package/src/config/execution-v0-contract-check.js +113 -15
package/src/config/kernel-path-contract-check.js +57 -29
package/src/config/kernel-path-loader.d.ts +5 -0
package/src/config/kernel-path-loader.js +18 -36
package/src/config/kernels/kernel-ref-digests.js +1 -1
package/src/config/kernels/registry.js +14 -1
package/src/config/kernels/registry.json +81 -5
package/src/config/loader.d.ts +1 -1
package/src/config/loader.js +15 -2
package/src/config/merge-contract-check.js +66 -4
package/src/config/merge-helpers.js +128 -7
package/src/config/merge.d.ts +1 -0
package/src/config/merge.js +10 -0
package/src/config/param-validator.js +47 -2
package/src/config/presets/kernel-paths/{gemma2-q4k-dequant-f32a.json → gemma2-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/gemma3-f16-fused-f32a-online-streamingprefill.json +223 -0
package/src/config/presets/kernel-paths/{gemma3-q4k-dequant-f32a.json → gemma3-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32w-f32a-online.json +56 -0
package/src/config/presets/kernel-paths/lfm2-q4k-dequant-f32a-nosubgroups.json +61 -0
package/src/config/presets/kernel-paths/registry.json +43 -8
package/src/config/presets/models/gemma2.json +3 -2
package/src/config/presets/models/gemma3.json +2 -0
package/src/config/presets/models/qwen3.json +4 -3
package/src/config/presets/models/qwen3_5.json +16 -0
package/src/config/presets/runtime/experiments/bench/gemma3-bench-q4k.json +1 -1
package/src/config/presets/runtime/experiments/debug/gemma3-debug-q4k.json +1 -1
package/src/config/presets/runtime/experiments/verify/gemma3-verify.json +1 -1
package/src/config/presets/runtime/kernels/dequant-f16-q4k.json +6 -13
package/src/config/presets/runtime/kernels/dequant-f32-q4k.json +6 -13
package/src/config/presets/runtime/kernels/embeddinggemma-q4k-dequant-f32a.json +37 -0
package/src/config/presets/runtime/kernels/fused-q4k.json +6 -13
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f16a.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f32a-nosubgroups.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-fused-f32a.json +33 -0
package/src/config/presets/runtime/kernels/safe-q4k.json +6 -13
package/src/config/presets/runtime/model/qwen3-5-layer-probe.json +52 -0
package/src/config/presets/runtime/model/qwen3-5-linear-attn-debug.json +90 -0
package/src/config/presets/runtime/platform/metal-apple-q4k.json +1 -1
package/src/config/runtime.js +6 -1
package/src/config/schema/conversion.schema.d.ts +1 -0
package/src/config/schema/debug.schema.d.ts +5 -0
package/src/config/schema/doppler.schema.js +16 -21
package/src/config/schema/inference-defaults.schema.js +3 -3
package/src/config/schema/kernel-path.schema.d.ts +5 -1
package/src/config/schema/kernel-thresholds.schema.js +12 -4
package/src/config/schema/manifest.schema.d.ts +3 -2
package/src/config/schema/manifest.schema.js +17 -4
package/src/config/schema/storage.schema.js +1 -1
package/src/config/training-defaults.js +30 -22
package/src/converter/conversion-plan.js +104 -11
package/src/converter/core.d.ts +7 -0
package/src/converter/core.js +16 -9
package/src/converter/execution-v0-manifest.js +4 -1
package/src/converter/index.d.ts +1 -0
package/src/converter/index.js +1 -0
package/src/converter/manifest-inference.js +50 -29
package/src/converter/parsers/diffusion.js +0 -3
package/src/converter/parsers/transformer.js +4 -0
package/src/converter/quantization-info.js +40 -16
package/src/converter/quantizer.js +19 -12
package/src/converter/rope-config.js +8 -6
package/src/converter/shard-packer.d.ts +1 -1
package/src/converter/shard-packer.js +4 -1
package/src/converter/tokenizer-utils.d.ts +1 -0
package/src/converter/tokenizer-utils.js +4 -1
package/src/debug/config.js +123 -11
package/src/debug/reference/hf_qwen35_linear_attn_debug.py +268 -0
package/src/debug/signals.js +7 -1
package/src/debug/tensor.d.ts +2 -0
package/src/debug/tensor.js +13 -2
package/src/distribution/p2p-control-plane.js +52 -12
package/src/distribution/p2p-observability.js +43 -7
package/src/distribution/p2p-webrtc-browser.js +20 -0
package/src/distribution/shard-delivery.js +83 -27
package/src/formats/gguf/types.js +33 -16
package/src/formats/rdrr/groups.d.ts +12 -4
package/src/formats/rdrr/groups.js +3 -6
package/src/formats/rdrr/parsing.d.ts +4 -0
package/src/formats/rdrr/parsing.js +53 -3
package/src/formats/rdrr/types.d.ts +2 -1
package/src/gpu/command-recorder.js +86 -61
package/src/gpu/device.d.ts +1 -0
package/src/gpu/device.js +73 -19
package/src/gpu/kernel-tuner/benchmarks.js +326 -316
package/src/gpu/kernel-tuner/cache.js +71 -4
package/src/gpu/kernel-tuner/tuner.js +22 -4
package/src/gpu/kernels/attention.js +15 -34
package/src/gpu/kernels/backward/adam.js +62 -58
package/src/gpu/kernels/backward/attention_backward.js +257 -169
package/src/gpu/kernels/backward/conv2d_backward.js +14 -1
package/src/gpu/kernels/cast.js +191 -149
package/src/gpu/kernels/check-stop.js +33 -44
package/src/gpu/kernels/conv2d.js +27 -17
package/src/gpu/kernels/cross_entropy_loss.js +21 -15
package/src/gpu/kernels/depthwise_conv2d.js +36 -26
package/src/gpu/kernels/dequant.js +178 -126
package/src/gpu/kernels/energy.d.ts +3 -21
package/src/gpu/kernels/energy.js +111 -88
package/src/gpu/kernels/feature-check.js +1 -1
package/src/gpu/kernels/fused_ffn.js +84 -65
package/src/gpu/kernels/fused_matmul_residual.js +56 -33
package/src/gpu/kernels/fused_matmul_rmsnorm.js +62 -45
package/src/gpu/kernels/gather.js +33 -15
package/src/gpu/kernels/gelu.js +19 -11
package/src/gpu/kernels/grouped_pointwise_conv2d.js +33 -23
package/src/gpu/kernels/groupnorm.js +34 -23
package/src/gpu/kernels/index.d.ts +8 -0
package/src/gpu/kernels/index.js +6 -0
package/src/gpu/kernels/kv-quantize.js +5 -2
package/src/gpu/kernels/layernorm.js +35 -19
package/src/gpu/kernels/logit-merge.js +5 -3
package/src/gpu/kernels/matmul-selection.js +47 -4
package/src/gpu/kernels/matmul.d.ts +2 -0
package/src/gpu/kernels/matmul.js +59 -40
package/src/gpu/kernels/modulate.js +23 -15
package/src/gpu/kernels/moe.js +221 -175
package/src/gpu/kernels/pixel_shuffle.js +22 -14
package/src/gpu/kernels/relu.js +18 -10
package/src/gpu/kernels/repeat_channels.js +25 -17
package/src/gpu/kernels/residual.js +37 -27
package/src/gpu/kernels/rmsnorm.js +66 -43
package/src/gpu/kernels/rope.js +3 -0
package/src/gpu/kernels/sample.js +27 -38
package/src/gpu/kernels/sana_linear_attention.js +18 -10
package/src/gpu/kernels/scale.js +18 -11
package/src/gpu/kernels/shader-cache.js +4 -2
package/src/gpu/kernels/silu.js +120 -72
package/src/gpu/kernels/softmax.js +44 -25
package/src/gpu/kernels/split_qg.d.ts +50 -0
package/src/gpu/kernels/split_qg.js +46 -0
package/src/gpu/kernels/split_qg.wgsl +58 -0
package/src/gpu/kernels/split_qg_f16.wgsl +62 -0
package/src/gpu/kernels/split_qkv.js +23 -13
package/src/gpu/kernels/transpose.js +18 -10
package/src/gpu/kernels/transpose.wgsl +5 -3
package/src/gpu/kernels/upsample2d.js +21 -13
package/src/gpu/kernels/utils.js +20 -13
package/src/gpu/partitioned-buffer-pool.js +10 -2
package/src/gpu/perf-guards.js +2 -9
package/src/gpu/profiler.js +27 -22
package/src/gpu/readback-utils.d.ts +16 -0
package/src/gpu/readback-utils.js +41 -0
package/src/gpu/submit-tracker.js +13 -0
package/src/gpu/uniform-cache.d.ts +1 -0
package/src/gpu/uniform-cache.js +30 -9
package/src/gpu/weight-buffer.d.ts +1 -1
package/src/gpu/weight-buffer.js +1 -1
package/src/hotswap/intent-bundle.js +6 -0
package/src/hotswap/manifest.d.ts +10 -1
package/src/hotswap/manifest.js +12 -2
package/src/hotswap/runtime.js +30 -8
package/src/index-browser.d.ts +44 -0
package/src/index-browser.js +14 -0
package/src/inference/browser-harness-contract-helpers.d.ts +5 -0
package/src/inference/browser-harness-contract-helpers.js +28 -0
package/src/inference/browser-harness-diffusion-energy-suites.d.ts +2 -0
package/src/inference/browser-harness-diffusion-energy-suites.js +269 -0
package/src/inference/browser-harness-model-helpers.d.ts +16 -0
package/src/inference/browser-harness-model-helpers.js +217 -0
package/src/inference/browser-harness-report-helpers.d.ts +7 -0
package/src/inference/browser-harness-report-helpers.js +42 -0
package/src/inference/browser-harness-runtime-helpers.d.ts +61 -0
package/src/inference/browser-harness-runtime-helpers.js +415 -0
package/src/inference/browser-harness-suite-helpers.d.ts +28 -0
package/src/inference/browser-harness-suite-helpers.js +268 -0
package/src/inference/browser-harness-text-helpers.d.ts +27 -0
package/src/inference/browser-harness-text-helpers.js +788 -0
package/src/inference/browser-harness.d.ts +8 -0
package/src/inference/browser-harness.js +149 -1996
package/src/inference/kv-cache/base.js +140 -94
package/src/inference/kv-cache/tiered.js +5 -3
package/src/inference/moe-router.js +88 -56
package/src/inference/multi-model-network.js +5 -3
package/src/inference/network-evolution.d.ts +11 -2
package/src/inference/network-evolution.js +20 -21
package/src/inference/pipelines/context.d.ts +3 -0
package/src/inference/pipelines/context.js +142 -2
package/src/inference/pipelines/diffusion/helpers.js +10 -2
package/src/inference/pipelines/diffusion/pipeline.js +2 -1
package/src/inference/pipelines/diffusion/sd3-transformer.js +10 -10
package/src/inference/pipelines/diffusion/text-encoder-gpu.js +8 -2
package/src/inference/pipelines/diffusion/vae.js +3 -7
package/src/inference/pipelines/energy/pipeline.js +27 -21
package/src/inference/pipelines/energy/quintel.d.ts +5 -0
package/src/inference/pipelines/energy/quintel.js +11 -0
package/src/inference/pipelines/energy-head/row-head-pipeline.js +17 -13
package/src/inference/pipelines/structured/json-head-pipeline.js +26 -11
package/src/inference/pipelines/text/attention/output-projection.d.ts +12 -0
package/src/inference/pipelines/text/attention/output-projection.js +8 -0
package/src/inference/pipelines/text/attention/projections.d.ts +10 -1
package/src/inference/pipelines/text/attention/projections.js +192 -112
package/src/inference/pipelines/text/attention/record.js +77 -14
package/src/inference/pipelines/text/attention/run.js +112 -14
package/src/inference/pipelines/text/config.js +17 -4
package/src/inference/pipelines/text/embed.js +2 -8
package/src/inference/pipelines/text/execution-plan.js +46 -23
package/src/inference/pipelines/text/execution-v0-contract-helpers.d.ts +59 -0
package/src/inference/pipelines/text/execution-v0-contract-helpers.js +937 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.d.ts +15 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.js +279 -0
package/src/inference/pipelines/text/execution-v0.js +62 -1013
package/src/inference/pipelines/text/generator-runtime.js +5 -0
package/src/inference/pipelines/text/generator-steps.d.ts +52 -0
package/src/inference/pipelines/text/generator-steps.js +340 -221
package/src/inference/pipelines/text/generator.js +56 -40
package/src/inference/pipelines/text/init.d.ts +13 -0
package/src/inference/pipelines/text/init.js +94 -25
package/src/inference/pipelines/text/kernel-path-auto-select.js +2 -0
package/src/inference/pipelines/text/kernel-trace.d.ts +2 -0
package/src/inference/pipelines/text/kernel-trace.js +6 -0
package/src/inference/pipelines/text/layer.js +4 -9
package/src/inference/pipelines/text/linear-attention.d.ts +15 -0
package/src/inference/pipelines/text/linear-attention.js +113 -9
package/src/inference/pipelines/text/logits/gpu.js +12 -7
package/src/inference/pipelines/text/logits/index.d.ts +6 -1
package/src/inference/pipelines/text/logits/index.js +13 -12
package/src/inference/pipelines/text/logits/utils.d.ts +7 -0
package/src/inference/pipelines/text/logits/utils.js +9 -0
package/src/inference/pipelines/text/lora-apply.js +50 -32
package/src/inference/pipelines/text/model-load.js +282 -104
package/src/inference/pipelines/text/moe-cache.js +5 -4
package/src/inference/pipelines/text/moe-cpu-gptoss.js +74 -69
package/src/inference/pipelines/text/moe-cpu.js +42 -38
package/src/inference/pipelines/text/moe-gpu.js +110 -86
package/src/inference/pipelines/text/ops.js +90 -90
package/src/inference/pipelines/text/probes.js +9 -9
package/src/inference/pipelines/text/sampling.js +52 -6
package/src/inference/pipelines/text/weights.js +17 -7
package/src/inference/pipelines/text.js +13 -1
package/src/inference/speculative.d.ts +2 -2
package/src/inference/speculative.js +4 -18
package/src/inference/test-harness.d.ts +1 -1
package/src/inference/test-harness.js +17 -7
package/src/inference/tokenizer.d.ts +0 -5
package/src/inference/tokenizer.js +4 -23
package/src/inference/tokenizers/bpe.js +9 -0
package/src/inference/tokenizers/bundled.js +20 -0
package/src/inference/tokenizers/sentencepiece.js +12 -0
package/src/loader/doppler-loader.js +38 -22
package/src/loader/dtype-utils.js +3 -44
package/src/loader/embedding-loader.js +7 -3
package/src/loader/experts/expert-cache.js +13 -6
package/src/loader/experts/expert-loader.js +10 -6
package/src/loader/final-weights-loader.js +10 -4
package/src/loader/layer-loader.js +2 -1
package/src/loader/loader-state.js +2 -2
package/src/loader/memory-monitor.js +8 -0
package/src/loader/multi-model-loader.d.ts +14 -0
package/src/loader/multi-model-loader.js +70 -24
package/src/loader/shard-cache.js +84 -14
package/src/loader/shard-resolver.js +25 -3
package/src/loader/tensors/tensor-loader.js +214 -144
package/src/loader/tensors/tensor-reader.js +76 -19
package/src/loader/weight-downcast.js +1 -1
package/src/memory/buffer-pool.d.ts +9 -1
package/src/memory/buffer-pool.js +109 -44
package/src/memory/unified-detect.js +1 -1
package/src/rules/inference/dtype.rules.json +5 -0
package/src/rules/inference/kernel-path.rules.json +24 -8
package/src/rules/kernels/split-qg.rules.json +6 -0
package/src/rules/rule-registry.js +27 -1
package/src/storage/backends/opfs-store.js +68 -24
package/src/storage/downloader.js +365 -83
package/src/storage/index.d.ts +3 -0
package/src/storage/index.js +3 -0
package/src/storage/preflight.d.ts +2 -2
package/src/storage/preflight.js +24 -2
package/src/storage/quickstart-downloader.js +11 -5
package/src/storage/registry.js +10 -4
package/src/storage/reports.js +1 -1
package/src/storage/shard-manager.d.ts +15 -1
package/src/storage/shard-manager.js +55 -6
package/src/storage/source-artifact-store.d.ts +52 -0
package/src/storage/source-artifact-store.js +234 -0
package/src/tooling/command-api-constants.d.ts +9 -0
package/src/tooling/command-api-constants.js +9 -0
package/src/tooling/command-api-family-normalizers.d.ts +9 -0
package/src/tooling/command-api-family-normalizers.js +343 -0
package/src/tooling/command-api-helpers.d.ts +25 -0
package/src/tooling/command-api-helpers.js +262 -0
package/src/tooling/command-api.js +16 -602
package/src/tooling/command-envelope.js +4 -1
package/src/tooling/command-runner-shared.js +52 -18
package/src/tooling/conversion-config-materializer.js +3 -5
package/src/tooling/lean-execution-contract.js +150 -3
package/src/tooling/node-browser-command-runner.js +161 -271
package/src/tooling/node-command-runner.js +29 -3
package/src/tooling/node-converter.js +30 -1
package/src/tooling/node-source-runtime.d.ts +1 -1
package/src/tooling/node-source-runtime.js +120 -3
package/src/tooling/node-webgpu.js +24 -21
package/src/tooling/opfs-cache.js +21 -4
package/src/tooling/runtime-input-composition.d.ts +38 -0
package/src/tooling/runtime-input-composition.js +86 -0
package/src/tooling/source-runtime-bundle.d.ts +40 -5
package/src/tooling/source-runtime-bundle.js +261 -34
package/src/tooling/source-runtime-materializer.d.ts +6 -0
package/src/tooling/source-runtime-materializer.js +93 -0
package/src/training/attention-backward.js +32 -17
package/src/training/autograd.js +80 -52
package/src/training/checkpoint-watch.d.ts +2 -1
package/src/training/checkpoint-watch.js +39 -6
package/src/training/checkpoint.js +40 -11
package/src/training/clip.js +2 -1
package/src/training/datasets/token-batch.js +20 -8
package/src/training/distillation/checkpoint-watch.js +1 -0
package/src/training/distillation/student-fixture.d.ts +22 -0
package/src/training/distillation/student-fixture.js +846 -0
package/src/training/distillation/suite-data.d.ts +45 -0
package/src/training/distillation/suite-data.js +189 -0
package/src/training/lora-pipeline.js +4 -7
package/src/training/lora.js +26 -12
package/src/training/loss.js +5 -6
package/src/training/objectives/cross_entropy.js +2 -5
package/src/training/objectives/distill_kd.js +4 -8
package/src/training/objectives/distill_triplet.js +4 -8
package/src/training/objectives/ul_stage2_base.js +4 -8
package/src/training/operator-command.js +2 -0
package/src/training/optimizer.js +19 -7
package/src/training/runner.js +2 -1
package/src/training/suite.js +18 -978
package/src/training/tensor-factory.d.ts +9 -0
package/src/training/tensor-factory.js +13 -0
package/src/training/trainer.js +3 -5
package/src/training/ul_dataset.js +3 -5
package/src/training/workloads.js +70 -79
package/src/types/model.d.ts +5 -0
package/src/version.js +1 -1
package/tools/convert-safetensors-node.js +22 -16
package/tools/doppler-cli.js +50 -26

package/src/inference/pipelines/text/ops.js CHANGED Viewed

@@ -175,103 +175,103 @@ export async function doConv(
   }
   // Use the first 2x hidden projection channels as a gated conv-state projection.
-  const inProj = await doMatmul(
-    inputTensor,
-    convInProj,
-    numTokens,
-    hiddenSize * 2,
-    hiddenSize,
-    {
-      transposeB: 'auto',
-      label: `${label}.in_proj`,
-      layerIdx,
-      kernelPath,
-      role: 'conv_in_proj',
-    },
-    recorder
-  );
-  const activated = await doSiLURowSplit(inProj, {
-    numTokens,
-    dim: hiddenSize,
-    activation: 'silu',
-    swigluLimit: options.swigluLimit ?? null,
-    label: `${label}.activation`,
-    layerIdx,
-  }, recorder);
-  if (recorder) {
-    recorder.trackTemporaryBuffer(inProj.buffer);
-  } else {
-    releaseBuffer(inProj.buffer);
-  }
-  // Optional generic conv2d stage when explicit shape metadata is provided.
-  // LFM2 depthwise conv kernels use model-specific packing, so this path is best-effort only.
-  let convInput = activated;
-  if (convKernel && options.conv2d && options.conv2d.enabled === true) {
-    const convTensorInput = createTensor(activated.buffer, activated.dtype, [
-      options.conv2d.inChannels,
-      options.conv2d.height,
-      options.conv2d.width,
-    ], `${label}.conv_input`);
-    const convOptions = {
-      inChannels: options.conv2d.inChannels,
-      outChannels: options.conv2d.outChannels,
-      height: options.conv2d.height,
-      width: options.conv2d.width,
-      kernelH: options.conv2d.kernelH,
-      kernelW: options.conv2d.kernelW,
-      stride: options.conv2d.stride ?? 1,
-      pad: options.conv2d.pad ?? 0,
-    };
-    const convResult = recorder
-      ? await recordConv2D(recorder, convTensorInput, convKernel, null, convOptions)
-      : await runConv2D(convTensorInput, convKernel, null, convOptions);
-    convInput = createTensor(
-      convResult.buffer,
-      convResult.dtype,
-      [numTokens, hiddenSize],
-      `${label}.conv_output`
+  let inProj = null;
+  let activated = null;
+  let convInput = null;
+  let outProj = null;
+  try {
+    inProj = await doMatmul(
+      inputTensor,
+      convInProj,
+      numTokens,
+      hiddenSize * 2,
+      hiddenSize,
+      {
+        transposeB: 'auto',
+        label: `${label}.in_proj`,
+        layerIdx,
+        kernelPath,
+        role: 'conv_in_proj',
+      },
+      recorder
     );
-    if (recorder) {
-      recorder.trackTemporaryBuffer(activated.buffer);
-    } else {
-      releaseBuffer(activated.buffer);
+    activated = await doSiLURowSplit(inProj, {
+      numTokens,
+      dim: hiddenSize,
+      activation: 'silu',
+      swigluLimit: options.swigluLimit ?? null,
+      label: `${label}.activation`,
+      layerIdx,
+    }, recorder);
+    releaseOrTrack(recorder, inProj.buffer);
+    inProj = null;
+    convInput = activated;
+    if (convKernel && options.conv2d && options.conv2d.enabled === true) {
+      const convTensorInput = createTensor(activated.buffer, activated.dtype, [
+        options.conv2d.inChannels,
+        options.conv2d.height,
+        options.conv2d.width,
+      ], `${label}.conv_input`);
+      const convOptions = {
+        inChannels: options.conv2d.inChannels,
+        outChannels: options.conv2d.outChannels,
+        height: options.conv2d.height,
+        width: options.conv2d.width,
+        kernelH: options.conv2d.kernelH,
+        kernelW: options.conv2d.kernelW,
+        stride: options.conv2d.stride ?? 1,
+        pad: options.conv2d.pad ?? 0,
+      };
+      const convResult = recorder
+        ? await recordConv2D(recorder, convTensorInput, convKernel, null, convOptions)
+        : await runConv2D(convTensorInput, convKernel, null, convOptions);
+      convInput = createTensor(
+        convResult.buffer,
+        convResult.dtype,
+        [numTokens, hiddenSize],
+        `${label}.conv_output`
+      );
+      releaseOrTrack(recorder, activated.buffer);
+      activated = null;
     }
-  }
-  const outProj = await doMatmul(
-    convInput,
-    convOutProj,
-    numTokens,
-    hiddenSize,
-    hiddenSize,
-    {
-      transposeB: 'auto',
-      label: `${label}.out_proj`,
-      layerIdx,
-      kernelPath,
-      role: 'conv_out_proj',
-    },
-    recorder
-  );
+    outProj = await doMatmul(
+      convInput,
+      convOutProj,
+      numTokens,
+      hiddenSize,
+      hiddenSize,
+      {
+        transposeB: 'auto',
+        label: `${label}.out_proj`,
+        layerIdx,
+        kernelPath,
+        role: 'conv_out_proj',
+      },
+      recorder
+    );
-  if (convInput.buffer !== activated.buffer) {
-    if (recorder) {
-      recorder.trackTemporaryBuffer(convInput.buffer);
-    } else {
-      releaseBuffer(convInput.buffer);
+    if (convInput && (!activated || convInput.buffer !== activated.buffer)) {
+      releaseOrTrack(recorder, convInput.buffer);
+      convInput = null;
+    } else if (activated) {
+      releaseOrTrack(recorder, activated.buffer);
+      activated = null;
     }
-  } else if (recorder) {
-    recorder.trackTemporaryBuffer(activated.buffer);
-  } else {
-    releaseBuffer(activated.buffer);
-  }
-  if (kernelTrace.enabled && !recorder) {
-    await traceStep('conv', label, layerIdx, outProj.buffer, [numTokens, hiddenSize]);
+    if (kernelTrace.enabled && !recorder) {
+      await traceStep('conv', label, layerIdx, outProj.buffer, [numTokens, hiddenSize]);
+    }
+    return outProj;
+  } catch (error) {
+    if (outProj) releaseOrTrack(recorder, outProj.buffer);
+    if (convInput && (!activated || convInput.buffer !== activated.buffer)) releaseOrTrack(recorder, convInput.buffer);
+    if (activated) releaseOrTrack(recorder, activated.buffer);
+    if (inProj) releaseOrTrack(recorder, inProj.buffer);
+    throw error;
   }
-  return outProj;
 }
 export async function doCast(input, toDtype, recorder) {

package/src/inference/pipelines/text/probes.js CHANGED Viewed

@@ -4,6 +4,7 @@ import { trace } from '../../../debug/index.js';
 import { getDevice } from '../../../gpu/device.js';
 import { allowReadback } from '../../../gpu/perf-guards.js';
 import { f16ToF32 } from '../../../loader/dtype-utils.js';
+import { readBufferSlice } from '../../../memory/buffer-pool.js';
 const STAGE_DEFAULT_CATEGORY = {
@@ -11,6 +12,11 @@ const STAGE_DEFAULT_CATEGORY = {
   // Attention stages (per-layer)
   attn_input: 'attn',
   attn_normed: 'attn',
+  linear_qkv_proj: 'attn',
+  linear_z_proj: 'attn',
+  linear_a_proj: 'attn',
+  linear_b_proj: 'attn',
+  linear_core_out: 'attn',
   q_proj: 'attn',
   k_proj: 'attn',
   v_proj: 'attn',
@@ -139,22 +145,16 @@ export async function runProbes(stage, buffer, options) {
         const alignedOffset = Math.floor(byteOffset / 4) * 4;
         const offsetWithinRead = byteOffset - alignedOffset;
         const readSize = 4; // Always read 4 bytes (aligned)
-        const staging =  (device).createBuffer({ size: readSize, usage: GPUBufferUsage.COPY_DST | GPUBufferUsage.MAP_READ });
-        const enc =  (device).createCommandEncoder();
-        enc.copyBufferToBuffer( (buffer), alignedOffset, staging, 0, readSize);
-         (device).queue.submit([enc.finish()]);
-        await staging.mapAsync(GPUMapMode.READ);
+        const readback = await readBufferSlice(buffer, alignedOffset, readSize);
         let value;
         if (dtype === 'f16') {
           // offsetWithinRead is 0 or 2 for F16 - extract correct u16
-          const u16Array = new Uint16Array(staging.getMappedRange().slice(0));
+          const u16Array = new Uint16Array(readback);
           const u16Index = offsetWithinRead / 2;
           value = f16ToF32(u16Array[u16Index]);
         } else {
-          value = new Float32Array(staging.getMappedRange().slice(0))[0];
+          value = new Float32Array(readback)[0];
         }
-        staging.unmap();
-        staging.destroy();
         values.push(`${dimIdx}=${value.toFixed(4)}`);
       }

package/src/inference/pipelines/text/sampling.js CHANGED Viewed

@@ -58,6 +58,30 @@ export function softmax(logits) {
   return exps;
 }
+function countFiniteCandidates(logits, padTokenId) {
+  let finiteCandidateCount = 0;
+  for (let i = 0; i < logits.length; i++) {
+    if (padTokenId != null && i === padTokenId) {
+      continue;
+    }
+    if (Number.isFinite(logits[i])) {
+      finiteCandidateCount += 1;
+    }
+  }
+  return finiteCandidateCount;
+}
+function assertFiniteSamplingCandidates(logits, padTokenId, label) {
+  const finiteCandidateCount = countFiniteCandidates(logits, padTokenId);
+  if (finiteCandidateCount > 0) {
+    return;
+  }
+  throw new Error(
+    `[Sampling] ${label} has no finite candidate logits after masking the pad token. ` +
+    'Upstream decode likely produced NaN/Inf or an all-masked distribution.'
+  );
+}
 export function sample(logits, opts) {
   const { temperature, topP, topK, decode, debug = false, padTokenId, seed } = opts;
@@ -66,16 +90,28 @@ export function sample(logits, opts) {
     logits[padTokenId] = -Infinity;
   }
+  assertFiniteSamplingCandidates(logits, padTokenId, 'Logits');
   // Greedy (argmax) when temperature = 0
   if (temperature === 0) {
-    let maxIdx = 0;
-    let maxVal = logits[0];
-    for (let i = 1; i < logits.length; i++) {
-      if (logits[i] > maxVal) {
-        maxVal = logits[i];
+    let maxIdx = -1;
+    let maxVal = -Infinity;
+    for (let i = 0; i < logits.length; i++) {
+      const value = logits[i];
+      if (!Number.isFinite(value)) {
+        continue;
+      }
+      if (value > maxVal) {
+        maxVal = value;
         maxIdx = i;
       }
     }
+    if (maxIdx < 0) {
+      throw new Error(
+        '[Sampling] Greedy sampling could not find a finite candidate logit. ' +
+        'Upstream decode likely produced NaN/Inf.'
+      );
+    }
     if (debug) {
       const text = decode?.([maxIdx]) ?? '?';
       trace.sample(`Greedy: id=${maxIdx} "${text}" logit=${maxVal.toFixed(4)}`);
@@ -96,7 +132,17 @@ export function sample(logits, opts) {
   let candidates = [];
   for (let i = 0; i < probs.length; i++) {
-    candidates.push({ token: i, prob: probs[i] });
+    const probability = probs[i];
+    if (!Number.isFinite(probability) || probability <= 0) {
+      continue;
+    }
+    candidates.push({ token: i, prob: probability });
+  }
+  if (candidates.length === 0) {
+    throw new Error(
+      '[Sampling] Softmax produced no finite candidate probabilities. ' +
+      'Upstream decode likely produced NaN/Inf logits.'
+    );
   }
   candidates.sort((a, b) => b.prob - a.prob);

package/src/inference/pipelines/text/weights.js CHANGED Viewed

@@ -1,7 +1,7 @@
 import { getDevice } from '../../../gpu/device.js';
-import { acquireBuffer } from '../../../memory/buffer-pool.js';
+import { acquireBuffer, releaseBuffer } from '../../../memory/buffer-pool.js';
 import { log } from '../../../debug/index.js';
 import { isWeightBuffer, isCpuWeightBuffer, tagBufferDtype } from '../../../gpu/weight-buffer.js';
@@ -53,9 +53,14 @@ export function getWeightBuffer(weight, label) {
   }
   const buf = acquireBuffer(data.byteLength, undefined, label);
-  device.queue.writeBuffer(buf, 0,  ( (data)));
-  tagBufferDtype(buf, bufferDtype);
-  return buf;
+  try {
+    device.queue.writeBuffer(buf, 0,  ( (data)));
+    tagBufferDtype(buf, bufferDtype);
+    return buf;
+  } catch (error) {
+    releaseBuffer(buf);
+    throw error;
+  }
 }
@@ -92,9 +97,14 @@ export function getNormWeightBuffer(weight, label, config, debugFlags) {
   }
   const buf = acquireBuffer(data.byteLength, undefined, label);
-  device.queue.writeBuffer(buf, 0,  ( (data)));
-  tagBufferDtype(buf, 'f32');
-  return buf;
+  try {
+    device.queue.writeBuffer(buf, 0,  ( (data)));
+    tagBufferDtype(buf, 'f32');
+    return buf;
+  } catch (error) {
+    releaseBuffer(buf);
+    throw error;
+  }
 }

package/src/inference/pipelines/text.js CHANGED Viewed

@@ -6,7 +6,7 @@ import { configurePerfGuards } from '../../gpu/perf-guards.js';
 import { MoERouter } from '../moe-router.js';
 import { DecodeBufferManager } from '../decode-buffers.js';
 import { DecodeRing } from '../decode-ring.js';
-import { applyPipelineContexts } from './context.js';
+import { applyPipelineContexts, restorePipelineContexts } from './context.js';
 import { createInitializedPipeline } from './factory.js';
 // Pipeline sub-modules
@@ -44,6 +44,11 @@ import { getDopplerLoader } from '../../loader/doppler-loader.js';
 import { registerPipeline, getPipelineFactory } from './registry.js';
 import { selectRuleValue } from '../../rules/rule-registry.js';
+function destroyMoERouter(router) {
+  if (router && typeof router.destroy === 'function') {
+    router.destroy();
+  }
+}
 // ============================================================================
@@ -102,6 +107,8 @@ export class InferencePipeline extends PipelineState {
     this.manifest = manifest;
     this.decodeRing?.release();
     this.linearAttentionRuntime = resetLinearAttentionRuntime(this.linearAttentionRuntime);
+    destroyMoERouter(this.moeRouter);
+    this.moeRouter = null;
     const executionV0Runtime = applyExecutionV0RuntimeConfig({
       runtimeConfig: this.runtimeConfig,
@@ -490,12 +497,15 @@ export class InferencePipeline extends PipelineState {
     this.expertWeights.clear();
     this.linearAttentionRuntime = resetLinearAttentionRuntime(this.linearAttentionRuntime);
     this.lora = null;
+    destroyMoERouter(this.moeRouter);
+    this.moeRouter = null;
     if (this.finitenessBuffer) {
       this.finitenessBuffer.destroy();
       this.finitenessBuffer = null;
     }
     this.isLoaded = false;
     this.currentSeqLen = 0;
+    restorePipelineContexts(this);
     log.info('Pipeline', 'Unloaded');
   }
@@ -533,6 +543,8 @@ export class InferencePipeline extends PipelineState {
   releaseGPUResources() {
     this.decodeBuffers?.release();
     this.decodeRing?.release();
+    destroyMoERouter(this.moeRouter);
+    this.moeRouter = null;
     if (this.finitenessBuffer) {
       this.finitenessBuffer.destroy();
       this.finitenessBuffer = null;

package/src/inference/speculative.d.ts CHANGED Viewed

@@ -66,8 +66,8 @@ export interface SpeculativeConfig {
   enableTreeDraft: boolean;
   /** Temperature for draft sampling */
   temperature: number;
-  /** Optional deterministic seed for speculative sampling */
-  randomSeed?: number | null;
+  /** Deterministic seed for speculative sampling */
+  randomSeed: number;
 }
 /**

package/src/inference/speculative.js CHANGED Viewed

@@ -10,22 +10,6 @@ function createRng(seed) {
   };
 }
-function createUnseededRng() {
-  let fallbackState = ((Date.now() >>> 0) ^ 0xa341316c) >>> 0;
-  return () => {
-    const cryptoApi = typeof globalThis !== 'undefined' ? globalThis.crypto : null;
-    if (cryptoApi && typeof cryptoApi.getRandomValues === 'function') {
-      const random = new Uint32Array(1);
-      cryptoApi.getRandomValues(random);
-      return random[0] / 4294967296;
-    }
-    fallbackState = (fallbackState + 0x6d2b79f5) | 0;
-    let t = Math.imul(fallbackState ^ (fallbackState >>> 15), 1 | fallbackState);
-    t = (t + Math.imul(t ^ (t >>> 7), 61 | t)) ^ t;
-    return ((t ^ (t >>> 14)) >>> 0) / 4294967296;
-  };
-}
 function coerceLogitsVector(value, label) {
   if (value instanceof Float32Array) {
     if (value.length === 0) {
@@ -110,6 +94,9 @@ export class SpeculativeDecoder {
     if (config.temperature == null) {
       throw new Error('SpeculativeDecoder requires temperature.');
     }
+    if (!Number.isFinite(config.randomSeed)) {
+      throw new Error('SpeculativeDecoder requires randomSeed.');
+    }
     assertTemperature(config.temperature, 'temperature');
     this.numDraftTokens = config.numDraftTokens;
@@ -117,8 +104,7 @@ export class SpeculativeDecoder {
     this.enableTreeDraft = config.enableTreeDraft;
     this.temperature = config.temperature;
-    const seed = Number.isFinite(config.randomSeed) ? Math.floor(config.randomSeed) : null;
-    this.random = seed === null ? createUnseededRng() : createRng(seed);
+    this.random = createRng(Math.floor(config.randomSeed));
   }
   setDraftModel(model) {

package/src/inference/test-harness.d.ts CHANGED Viewed

@@ -74,7 +74,7 @@ export interface InitializeResult {
 /**
  * Discover available models from the catalog.json endpoint.
  *
- * @param fallbackModels - Models to return if catalog fails
+ * @param fallbackModels - Explicit fallback models to use when catalog fetch is unavailable
  * @returns Array of model info objects
  */
 export declare function discoverModels(

package/src/inference/test-harness.js CHANGED Viewed

@@ -1,7 +1,7 @@
 import { initDevice, getDevice, getKernelCapabilities } from '../gpu/device.js';
-import { parseManifest } from '../formats/rdrr/index.js';
+import { parseManifest, getExpectedShardHash } from '../formats/rdrr/index.js';
 import { createPipeline } from './pipelines/text.js';
 import { log as debugLog } from '../debug/index.js';
 import { getRuntimeConfig, setRuntimeConfig } from '../config/runtime.js';
@@ -25,7 +25,7 @@ import {
 export async function discoverModels(
-  fallbackModels = ['gemma3-1b-q4', 'mistral-7b-q4', 'llama3-8b-q4']
+  fallbackModels
 ) {
   try {
     const resp = await fetch('/models/catalog.json');
@@ -40,10 +40,13 @@ export async function discoverModels(
         }));
       }
     }
-  } catch (e) {
-    // Catalog not available, use fallback
+  } catch (e) {}
+  if (Array.isArray(fallbackModels) && fallbackModels.length > 0) {
+    return fallbackModels.map((id) => ({ id, name: id }));
   }
-  return fallbackModels.map((id) => ({ id, name: id }));
+  throw new Error('discoverModels: failed to fetch /models/catalog.json and no explicit fallback model list was provided.');
 }
 // ============================================================================
@@ -165,7 +168,7 @@ export function createHttpShardLoader(baseUrl, manifest, log) {
           distributionConfig,
           algorithm,
           requiredEncoding,
-          expectedHash: shard.hash ?? null,
+          expectedHash: getExpectedShardHash(shard, algorithm) || null,
           expectedSize: Number.isFinite(shard.size) ? Math.floor(shard.size) : null,
           expectedManifestVersionSet: manifestVersionSet,
           writeToStore: false,
@@ -238,7 +241,13 @@ export async function initializeInference(modelUrl, options = {}) {
       onProgress('hotswap', 0.05, 'Loading hot-swap manifest...');
       log(`Hot-swap: loading manifest ${hotSwapConfig.manifestUrl}`);
       const hotSwapManifest = await fetchHotSwapManifest(hotSwapConfig.manifestUrl);
-      const verification = await verifyHotSwapManifest(hotSwapManifest, hotSwapConfig);
+      const verification = await verifyHotSwapManifest(hotSwapManifest, hotSwapConfig, {
+        source: {
+          kind: 'remote',
+          isLocal: false,
+          url: hotSwapConfig.manifestUrl,
+        },
+      });
       if (!verification.ok) {
         throw new Error(`Hot-swap manifest rejected: ${verification.reason}`);
       }
@@ -309,6 +318,7 @@ export async function initializeInference(modelUrl, options = {}) {
   const pipeline = await createPipeline( ( (manifest)), {
     storage: { loadShard },
     gpu: { device },
+    runtime,
     baseUrl: modelUrl,
     onProgress: ( progress) => {
       const pct = 0.2 + progress.percent * 0.8;

package/src/inference/tokenizer.d.ts CHANGED Viewed

@@ -46,11 +46,6 @@ export declare class Tokenizer {
    */
   initialize(manifest: ModelManifest, options?: TokenizerInitOptions): Promise<void>;
-  /**
-   * Infer HuggingFace model ID from manifest architecture
-   */
-  private _inferHuggingFaceModel(manifest: ModelManifest): string | null;
   /**
    * Encode text to token IDs
    */

package/src/inference/tokenizer.js CHANGED Viewed

@@ -130,14 +130,12 @@ export class Tokenizer {
       );
     }
-    let hfModel = tokenizerConfig.hfModel;
+    let hfModel = tokenizerConfig.hfModel ?? tokenizerConfig.modelId ?? null;
     const allowArchFallback = tokenizerConfig.allowArchFallback === true;
     if (allowArchFallback && !hfModel) {
-      const inferred = this._inferHuggingFaceModel(manifest);
-      if (inferred) {
-        hfModel = inferred;
-        log.warn('Tokenizer', `Using inferred HuggingFace model: ${inferred}`);
-      }
+      throw new Error(
+        `[Tokenizer] tokenizer.allowArchFallback requires explicit tokenizer.hfModel or tokenizer.modelId for model "${modelId}".`
+      );
     }
     if (hfModel) {
@@ -212,23 +210,6 @@ export class Tokenizer {
     this.config = tokenizerConfig;
   }
-  _inferHuggingFaceModel(manifest) {
-    const tokenizer = manifest?.tokenizer ?? {};
-    if (typeof tokenizer.modelId === 'string' && tokenizer.modelId.length > 0) {
-      return tokenizer.modelId;
-    }
-    if (typeof tokenizer.hfModel === 'string' && tokenizer.hfModel.length > 0) {
-      return tokenizer.hfModel;
-    }
-    if (typeof manifest?.modelId === 'string' && manifest.modelId.length > 0) {
-      return manifest.modelId;
-    }
-    return null;
-  }
   encode(text) {
     if (!this.backend) {
       throw new Error('Tokenizer not initialized');

package/src/inference/tokenizers/bpe.js CHANGED Viewed

@@ -21,8 +21,17 @@ export class BPETokenizer extends BaseTokenizer {
     });
   }
+  #resetState() {
+    this.#vocab.clear();
+    this.#reverseVocab.clear();
+    this.#merges = [];
+    this.#mergeRanks.clear();
+    this.vocabSize = 0;
+  }
   load(vocab, merges) {
+    this.#resetState();
     // Build vocab maps
     for (const [token, id] of Object.entries(vocab)) {
       this.#vocab.set(token, id);

package/src/inference/tokenizers/bundled.js CHANGED Viewed

@@ -230,6 +230,25 @@ export class BundledTokenizer extends BaseTokenizer {
     });
   }
+  #resetState() {
+    this.#vocab.clear();
+    this.#reverseVocab.clear();
+    this.#merges = [];
+    this.#mergeRanks.clear();
+    this.#scores = [];
+    this.#tokenTypes = [];
+    this.#type = null;
+    this.#byteTokens.clear();
+    this.#specialTokenPatterns = [];
+    this.#specialTokenIds = new Set();
+    this.#addSpacePrefix = true;
+    this.#spacePrefixChar = '▁';
+    this.#byteDecoder = null;
+    this.#byteEncoder = null;
+    this.#useByteLevelEncoding = false;
+    this.vocabSize = 0;
+  }
   isSpecialToken(tokenId) {
     if (this.#specialTokenIds.size > 0) {
@@ -283,6 +302,7 @@ export class BundledTokenizer extends BaseTokenizer {
   load(tokenizerJson) {
+    this.#resetState();
     // Detect format: HuggingFace has model.vocab, bundled has top-level vocab
     const isHuggingFace = 'model' in tokenizerJson && tokenizerJson.model?.vocab !== undefined;