npm - @simulatte/doppler - Versions diffs - 0.1.6 → 0.1.7 - Mend

@simulatte/doppler 0.1.6 → 0.1.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (316) hide show

package/CHANGELOG.md +126 -0
package/README.md +16 -23
package/package.json +14 -1
package/src/adapters/adapter-registry.js +12 -1
package/src/adapters/lora-loader.js +23 -6
package/src/bridge/extension-client.d.ts +5 -0
package/src/bridge/extension-client.js +40 -0
package/src/bridge/index.d.ts +2 -1
package/src/bridge/index.js +6 -4
package/src/browser/browser-converter.js +26 -1
package/src/browser/file-picker.js +6 -0
package/src/browser/safetensors-parser-browser.js +84 -1
package/src/browser/shard-io-browser.js +2 -2
package/src/browser/tensor-source-download.js +8 -2
package/src/browser/tensor-source-http.d.ts +1 -0
package/src/browser/tensor-source-http.js +5 -1
package/src/client/doppler-api.browser.js +20 -4
package/src/client/doppler-api.js +19 -3
package/src/client/doppler-provider/generation.js +12 -0
package/src/client/doppler-provider/model-manager.d.ts +10 -0
package/src/client/doppler-provider/model-manager.js +91 -19
package/src/client/doppler-provider/source-runtime.d.ts +2 -1
package/src/client/doppler-provider/source-runtime.js +132 -13
package/src/client/doppler-registry.json +8 -7
package/src/config/backward-registry-loader.js +17 -2
package/src/config/execution-v0-contract-check.js +113 -15
package/src/config/kernel-path-contract-check.js +57 -29
package/src/config/kernel-path-loader.js +5 -36
package/src/config/kernels/kernel-ref-digests.js +1 -1
package/src/config/kernels/registry.js +14 -1
package/src/config/kernels/registry.json +7 -5
package/src/config/loader.d.ts +1 -1
package/src/config/loader.js +12 -2
package/src/config/merge-contract-check.js +59 -4
package/src/config/merge-helpers.js +128 -7
package/src/config/merge.d.ts +1 -0
package/src/config/merge.js +10 -0
package/src/config/param-validator.js +47 -2
package/src/config/presets/kernel-paths/{gemma2-q4k-dequant-f32a.json → gemma2-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/gemma3-f16-fused-f32a-online-streamingprefill.json +223 -0
package/src/config/presets/kernel-paths/{gemma3-q4k-dequant-f32a.json → gemma3-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/registry.json +29 -8
package/src/config/presets/models/gemma2.json +2 -2
package/src/config/presets/runtime/experiments/bench/gemma3-bench-q4k.json +1 -1
package/src/config/presets/runtime/experiments/debug/gemma3-debug-q4k.json +1 -1
package/src/config/presets/runtime/experiments/verify/gemma3-verify.json +1 -1
package/src/config/presets/runtime/kernels/dequant-f16-q4k.json +6 -13
package/src/config/presets/runtime/kernels/dequant-f32-q4k.json +6 -13
package/src/config/presets/runtime/kernels/embeddinggemma-q4k-dequant-f32a.json +37 -0
package/src/config/presets/runtime/kernels/fused-q4k.json +6 -13
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f16a.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f32a-nosubgroups.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-fused-f32a.json +33 -0
package/src/config/presets/runtime/kernels/safe-q4k.json +6 -13
package/src/config/presets/runtime/platform/metal-apple-q4k.json +1 -1
package/src/config/runtime.js +6 -1
package/src/config/schema/debug.schema.d.ts +5 -0
package/src/config/schema/doppler.schema.js +16 -21
package/src/config/schema/inference-defaults.schema.js +3 -3
package/src/config/schema/kernel-path.schema.d.ts +5 -1
package/src/config/schema/kernel-thresholds.schema.js +12 -4
package/src/config/schema/manifest.schema.d.ts +2 -1
package/src/config/schema/manifest.schema.js +16 -3
package/src/config/training-defaults.js +30 -22
package/src/converter/conversion-plan.js +94 -9
package/src/converter/core.d.ts +7 -0
package/src/converter/core.js +14 -9
package/src/converter/execution-v0-manifest.js +4 -1
package/src/converter/index.d.ts +1 -0
package/src/converter/index.js +1 -0
package/src/converter/manifest-inference.js +43 -12
package/src/converter/parsers/diffusion.js +0 -3
package/src/converter/quantization-info.js +35 -15
package/src/converter/shard-packer.d.ts +1 -1
package/src/converter/shard-packer.js +4 -1
package/src/debug/config.js +123 -11
package/src/debug/signals.js +7 -1
package/src/debug/tensor.d.ts +2 -0
package/src/debug/tensor.js +13 -2
package/src/distribution/p2p-control-plane.js +52 -12
package/src/distribution/p2p-observability.js +43 -7
package/src/distribution/p2p-webrtc-browser.js +20 -0
package/src/distribution/shard-delivery.js +77 -26
package/src/formats/gguf/types.js +33 -16
package/src/formats/rdrr/groups.d.ts +12 -4
package/src/formats/rdrr/groups.js +3 -6
package/src/formats/rdrr/parsing.js +39 -2
package/src/formats/rdrr/types.d.ts +2 -1
package/src/gpu/command-recorder.js +86 -61
package/src/gpu/device.d.ts +1 -0
package/src/gpu/device.js +73 -19
package/src/gpu/kernel-tuner/benchmarks.js +326 -316
package/src/gpu/kernel-tuner/cache.js +71 -4
package/src/gpu/kernel-tuner/tuner.js +22 -4
package/src/gpu/kernels/attention.js +15 -34
package/src/gpu/kernels/backward/adam.js +62 -58
package/src/gpu/kernels/backward/attention_backward.js +257 -169
package/src/gpu/kernels/backward/conv2d_backward.js +14 -1
package/src/gpu/kernels/cast.js +191 -149
package/src/gpu/kernels/check-stop.js +33 -44
package/src/gpu/kernels/conv2d.js +27 -17
package/src/gpu/kernels/cross_entropy_loss.js +21 -15
package/src/gpu/kernels/depthwise_conv2d.js +36 -26
package/src/gpu/kernels/dequant.js +178 -126
package/src/gpu/kernels/energy.d.ts +3 -21
package/src/gpu/kernels/energy.js +111 -88
package/src/gpu/kernels/feature-check.js +1 -1
package/src/gpu/kernels/fused_ffn.js +84 -65
package/src/gpu/kernels/fused_matmul_residual.js +56 -33
package/src/gpu/kernels/fused_matmul_rmsnorm.js +62 -45
package/src/gpu/kernels/gather.js +33 -15
package/src/gpu/kernels/gelu.js +19 -11
package/src/gpu/kernels/grouped_pointwise_conv2d.js +33 -23
package/src/gpu/kernels/groupnorm.js +34 -23
package/src/gpu/kernels/kv-quantize.js +5 -2
package/src/gpu/kernels/layernorm.js +35 -19
package/src/gpu/kernels/logit-merge.js +5 -3
package/src/gpu/kernels/matmul.js +58 -39
package/src/gpu/kernels/modulate.js +23 -15
package/src/gpu/kernels/moe.js +221 -175
package/src/gpu/kernels/pixel_shuffle.js +22 -14
package/src/gpu/kernels/relu.js +18 -10
package/src/gpu/kernels/repeat_channels.js +25 -17
package/src/gpu/kernels/residual.js +37 -27
package/src/gpu/kernels/rmsnorm.js +57 -41
package/src/gpu/kernels/rope.js +3 -0
package/src/gpu/kernels/sample.js +27 -38
package/src/gpu/kernels/sana_linear_attention.js +18 -10
package/src/gpu/kernels/scale.js +18 -11
package/src/gpu/kernels/shader-cache.js +4 -2
package/src/gpu/kernels/silu.js +120 -72
package/src/gpu/kernels/softmax.js +44 -25
package/src/gpu/kernels/split_qkv.js +23 -13
package/src/gpu/kernels/transpose.js +18 -10
package/src/gpu/kernels/transpose.wgsl +5 -3
package/src/gpu/kernels/upsample2d.js +21 -13
package/src/gpu/kernels/utils.js +20 -13
package/src/gpu/partitioned-buffer-pool.js +10 -2
package/src/gpu/perf-guards.js +2 -9
package/src/gpu/profiler.js +27 -22
package/src/gpu/readback-utils.d.ts +16 -0
package/src/gpu/readback-utils.js +41 -0
package/src/gpu/submit-tracker.js +13 -0
package/src/gpu/uniform-cache.d.ts +1 -0
package/src/gpu/uniform-cache.js +30 -9
package/src/hotswap/intent-bundle.js +6 -0
package/src/hotswap/manifest.d.ts +10 -1
package/src/hotswap/manifest.js +12 -2
package/src/hotswap/runtime.js +30 -8
package/src/index-browser.d.ts +44 -0
package/src/index-browser.js +14 -0
package/src/inference/browser-harness-contract-helpers.d.ts +5 -0
package/src/inference/browser-harness-contract-helpers.js +28 -0
package/src/inference/browser-harness-diffusion-energy-suites.d.ts +2 -0
package/src/inference/browser-harness-diffusion-energy-suites.js +269 -0
package/src/inference/browser-harness-model-helpers.d.ts +16 -0
package/src/inference/browser-harness-model-helpers.js +217 -0
package/src/inference/browser-harness-report-helpers.d.ts +7 -0
package/src/inference/browser-harness-report-helpers.js +42 -0
package/src/inference/browser-harness-runtime-helpers.d.ts +61 -0
package/src/inference/browser-harness-runtime-helpers.js +415 -0
package/src/inference/browser-harness-suite-helpers.d.ts +28 -0
package/src/inference/browser-harness-suite-helpers.js +268 -0
package/src/inference/browser-harness-text-helpers.d.ts +27 -0
package/src/inference/browser-harness-text-helpers.js +788 -0
package/src/inference/browser-harness.d.ts +6 -0
package/src/inference/browser-harness.js +130 -1996
package/src/inference/kv-cache/base.js +140 -94
package/src/inference/kv-cache/tiered.js +5 -3
package/src/inference/moe-router.js +88 -56
package/src/inference/multi-model-network.js +5 -3
package/src/inference/network-evolution.d.ts +11 -2
package/src/inference/network-evolution.js +20 -21
package/src/inference/pipelines/context.d.ts +3 -0
package/src/inference/pipelines/context.js +142 -2
package/src/inference/pipelines/diffusion/helpers.js +7 -2
package/src/inference/pipelines/diffusion/pipeline.js +2 -1
package/src/inference/pipelines/diffusion/sd3-transformer.js +10 -10
package/src/inference/pipelines/diffusion/vae.js +3 -7
package/src/inference/pipelines/energy/pipeline.js +27 -21
package/src/inference/pipelines/energy/quintel.d.ts +5 -0
package/src/inference/pipelines/energy/quintel.js +11 -0
package/src/inference/pipelines/energy-head/row-head-pipeline.js +17 -13
package/src/inference/pipelines/structured/json-head-pipeline.js +26 -11
package/src/inference/pipelines/text/attention/projections.js +151 -101
package/src/inference/pipelines/text/attention/record.js +62 -8
package/src/inference/pipelines/text/attention/run.js +62 -8
package/src/inference/pipelines/text/config.js +3 -4
package/src/inference/pipelines/text/embed.js +2 -8
package/src/inference/pipelines/text/execution-plan.js +41 -19
package/src/inference/pipelines/text/execution-v0-contract-helpers.d.ts +59 -0
package/src/inference/pipelines/text/execution-v0-contract-helpers.js +937 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.d.ts +15 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.js +279 -0
package/src/inference/pipelines/text/execution-v0.js +62 -1013
package/src/inference/pipelines/text/generator-steps.d.ts +46 -0
package/src/inference/pipelines/text/generator-steps.js +298 -207
package/src/inference/pipelines/text/generator.js +6 -23
package/src/inference/pipelines/text/init.js +78 -20
package/src/inference/pipelines/text/kernel-path-auto-select.js +2 -0
package/src/inference/pipelines/text/kernel-trace.d.ts +2 -0
package/src/inference/pipelines/text/kernel-trace.js +6 -0
package/src/inference/pipelines/text/layer.js +3 -9
package/src/inference/pipelines/text/linear-attention.d.ts +10 -0
package/src/inference/pipelines/text/linear-attention.js +80 -6
package/src/inference/pipelines/text/logits/gpu.js +10 -5
package/src/inference/pipelines/text/logits/index.js +10 -11
package/src/inference/pipelines/text/logits/utils.d.ts +7 -0
package/src/inference/pipelines/text/logits/utils.js +9 -0
package/src/inference/pipelines/text/lora-apply.js +50 -32
package/src/inference/pipelines/text/model-load.js +279 -104
package/src/inference/pipelines/text/moe-cache.js +5 -4
package/src/inference/pipelines/text/moe-cpu-gptoss.js +74 -69
package/src/inference/pipelines/text/moe-cpu.js +42 -38
package/src/inference/pipelines/text/moe-gpu.js +110 -86
package/src/inference/pipelines/text/ops.js +90 -90
package/src/inference/pipelines/text/probes.js +9 -9
package/src/inference/pipelines/text/weights.js +17 -7
package/src/inference/pipelines/text.js +13 -1
package/src/inference/speculative.d.ts +2 -2
package/src/inference/speculative.js +4 -18
package/src/inference/test-harness.d.ts +1 -1
package/src/inference/test-harness.js +15 -5
package/src/inference/tokenizer.d.ts +0 -5
package/src/inference/tokenizer.js +4 -23
package/src/inference/tokenizers/bpe.js +9 -0
package/src/inference/tokenizers/bundled.js +20 -0
package/src/inference/tokenizers/sentencepiece.js +12 -0
package/src/loader/doppler-loader.js +38 -22
package/src/loader/dtype-utils.js +3 -44
package/src/loader/embedding-loader.js +7 -3
package/src/loader/experts/expert-cache.js +13 -6
package/src/loader/experts/expert-loader.js +10 -6
package/src/loader/final-weights-loader.js +8 -4
package/src/loader/layer-loader.js +2 -1
package/src/loader/loader-state.js +2 -2
package/src/loader/memory-monitor.js +8 -0
package/src/loader/multi-model-loader.d.ts +14 -0
package/src/loader/multi-model-loader.js +70 -24
package/src/loader/shard-cache.js +81 -12
package/src/loader/shard-resolver.js +25 -3
package/src/loader/tensors/tensor-loader.js +209 -144
package/src/loader/tensors/tensor-reader.js +76 -19
package/src/loader/weight-downcast.js +1 -1
package/src/memory/buffer-pool.d.ts +9 -1
package/src/memory/buffer-pool.js +109 -44
package/src/memory/unified-detect.js +1 -1
package/src/rules/inference/kernel-path.rules.json +24 -8
package/src/rules/rule-registry.js +25 -1
package/src/storage/backends/opfs-store.js +68 -24
package/src/storage/downloader.js +364 -83
package/src/storage/index.d.ts +3 -0
package/src/storage/index.js +3 -0
package/src/storage/preflight.d.ts +2 -2
package/src/storage/preflight.js +24 -2
package/src/storage/quickstart-downloader.js +11 -5
package/src/storage/registry.js +10 -4
package/src/storage/reports.js +1 -1
package/src/storage/shard-manager.d.ts +15 -1
package/src/storage/shard-manager.js +51 -3
package/src/storage/source-artifact-store.d.ts +52 -0
package/src/storage/source-artifact-store.js +234 -0
package/src/tooling/command-api-constants.d.ts +9 -0
package/src/tooling/command-api-constants.js +9 -0
package/src/tooling/command-api-family-normalizers.d.ts +9 -0
package/src/tooling/command-api-family-normalizers.js +343 -0
package/src/tooling/command-api-helpers.d.ts +25 -0
package/src/tooling/command-api-helpers.js +262 -0
package/src/tooling/command-api.js +16 -602
package/src/tooling/command-envelope.js +4 -1
package/src/tooling/command-runner-shared.js +52 -18
package/src/tooling/lean-execution-contract.js +150 -3
package/src/tooling/node-browser-command-runner.js +161 -271
package/src/tooling/node-command-runner.js +29 -3
package/src/tooling/node-converter.js +27 -1
package/src/tooling/node-source-runtime.d.ts +1 -1
package/src/tooling/node-source-runtime.js +84 -3
package/src/tooling/node-webgpu.js +24 -21
package/src/tooling/opfs-cache.js +21 -4
package/src/tooling/runtime-input-composition.d.ts +38 -0
package/src/tooling/runtime-input-composition.js +86 -0
package/src/tooling/source-runtime-bundle.d.ts +40 -5
package/src/tooling/source-runtime-bundle.js +261 -34
package/src/tooling/source-runtime-materializer.d.ts +6 -0
package/src/tooling/source-runtime-materializer.js +93 -0
package/src/training/attention-backward.js +32 -17
package/src/training/autograd.js +80 -52
package/src/training/checkpoint-watch.d.ts +2 -1
package/src/training/checkpoint-watch.js +39 -6
package/src/training/checkpoint.js +40 -11
package/src/training/clip.js +2 -1
package/src/training/datasets/token-batch.js +20 -8
package/src/training/distillation/checkpoint-watch.js +1 -0
package/src/training/distillation/student-fixture.d.ts +22 -0
package/src/training/distillation/student-fixture.js +846 -0
package/src/training/distillation/suite-data.d.ts +45 -0
package/src/training/distillation/suite-data.js +189 -0
package/src/training/lora-pipeline.js +4 -7
package/src/training/lora.js +26 -12
package/src/training/loss.js +5 -6
package/src/training/objectives/cross_entropy.js +2 -5
package/src/training/objectives/distill_kd.js +4 -8
package/src/training/objectives/distill_triplet.js +4 -8
package/src/training/objectives/ul_stage2_base.js +4 -8
package/src/training/operator-command.js +2 -0
package/src/training/optimizer.js +19 -7
package/src/training/runner.js +2 -1
package/src/training/suite.js +18 -978
package/src/training/tensor-factory.d.ts +9 -0
package/src/training/tensor-factory.js +13 -0
package/src/training/trainer.js +3 -5
package/src/training/ul_dataset.js +3 -5
package/src/training/workloads.js +70 -79
package/src/version.js +1 -1
package/tools/convert-safetensors-node.js +22 -16
package/tools/doppler-cli.js +44 -25

package/src/loader/doppler-loader.js CHANGED Viewed

@@ -9,7 +9,7 @@ import {
   verifyIntegrity,
   loadManifestFromStore,
 } from '../storage/shard-manager.js';
-import { parseManifest } from '../formats/rdrr/index.js';
+import { clearManifest, parseManifest, setManifest as setCurrentManifest } from '../formats/rdrr/index.js';
 import { initDevice, getDevice, getKernelCapabilities } from '../gpu/device.js';
 import { acquireBuffer, releaseBuffer, forceBufferPoolReclaim } from '../memory/buffer-pool.js';
 import { getExpertCache } from './experts/expert-cache.js';
@@ -50,6 +50,10 @@ function hasExpertGroups(manifest) {
   return Object.keys(manifest.groups).some((groupId) => groupId.includes('.expert.'));
 }
+function isGpuBufferInstance(value) {
+  return typeof GPUBuffer !== 'undefined' && value instanceof GPUBuffer;
+}
 // Re-export types for backward compatibility
 export {
   // Types are in .d.ts file
@@ -252,6 +256,7 @@ export class DopplerLoader {
   setManifest(manifest) {
     this.manifest = manifest;
+    setCurrentManifest(manifest);
     const moeConfig = manifest.moeConfig;
     this.isMoE = moeConfig != null && (moeConfig.numExperts ?? 0) > 1;
     if (!this.isMoE && hasExpertGroups(manifest)) {
@@ -259,6 +264,7 @@ export class DopplerLoader {
         `Manifest "${manifest.modelId ?? 'unknown'}" missing moeConfig for MoE model. Re-convert with moeConfig.`
       );
     }
+    this.shardCache.setManifest(this.manifest);
     this.shardCache.configureForModel(this.manifest, this.shardCache.hasCustomLoader);
     debugTrace.loader('Manifest set externally');
   }
@@ -679,7 +685,7 @@ export class DopplerLoader {
       const device = getDevice();
       if (!device) {
         log.warn('Loader', 'GPU device not available; falling back to CPU');
-        if (shardData instanceof GPUBuffer) {
+        if (isGpuBufferInstance(shardData)) {
           releaseBuffer(shardData);
           shardData = await this.#assembleShardData(location, name);
         }
@@ -708,7 +714,7 @@ export class DopplerLoader {
       return result.data;
     }
-    if (shardData instanceof GPUBuffer) {
+    if (isGpuBufferInstance(shardData)) {
       // Shouldn't happen (streaming is only used for toGPU), but keep this leak-proof.
       releaseBuffer(shardData);
       shardData = await this.#assembleShardData(location, name);
@@ -751,31 +757,40 @@ export class DopplerLoader {
     // queue.writeBuffer requires 4-byte aligned sizes; we pad the buffer.
     const alignedSize = Math.ceil(location.size / 4) * 4;
     const raw = acquireBuffer(alignedSize, undefined, `raw_${name}`);
+    let complete = false;
-    let dstOffset = 0;
-    const uploadChunk = (bytes) => {
-      device.queue.writeBuffer(raw, dstOffset, bytes, bytes.byteOffset, bytes.byteLength);
-      dstOffset += bytes.byteLength;
-    };
-    const streamRange = (idx, offset, length) => this.shardCache.streamRange(idx, offset, length, { chunkBytes });
+    try {
+      let dstOffset = 0;
+      const uploadChunk = (bytes) => {
+        device.queue.writeBuffer(raw, dstOffset, bytes, bytes.byteOffset, bytes.byteLength);
+        dstOffset += bytes.byteLength;
+      };
+      const streamRange = (idx, offset, length) => this.shardCache.streamRange(idx, offset, length, { chunkBytes });
-    if (location.spans) {
-      for (const span of location.spans) {
-        for await (const chunk of streamRange(span.shardIndex, span.offset, span.size)) {
+      if (location.spans) {
+        for (const span of location.spans) {
+          for await (const chunk of streamRange(span.shardIndex, span.offset, span.size)) {
+            uploadChunk(chunk);
+          }
+        }
+      } else {
+        for await (const chunk of streamRange(location.shardIndex, location.offset, location.size)) {
           uploadChunk(chunk);
         }
       }
-    } else {
-      for await (const chunk of streamRange(location.shardIndex, location.offset, location.size)) {
-        uploadChunk(chunk);
-      }
-    }
-    if (dstOffset < location.size) {
-      log.warn('Loader', `Stream upload short read for "${name}": got=${dstOffset}, expected=${location.size}`);
+      if (dstOffset !== location.size) {
+        throw new Error(
+          `Stream upload short read for "${name}": got=${dstOffset}, expected=${location.size}.`
+        );
+      }
+      complete = true;
+      return raw;
+    } finally {
+      if (!complete) {
+        releaseBuffer(raw);
+      }
     }
-    return raw;
   }
@@ -950,7 +965,7 @@ export class DopplerLoader {
       if (!value) return;
       const gpuBuffer = isWeightBuffer(value)
         ? value.buffer
-        : (value instanceof GPUBuffer ? value : null);
+        : (isGpuBufferInstance(value) ? value : null);
       if (!gpuBuffer) return;
       try {
         releaseBuffer(gpuBuffer);
@@ -990,6 +1005,7 @@ export class DopplerLoader {
     this.lmHead = null;
     this.finalNorm = null;
     this.manifest = null;
+    clearManifest();
     this.modelId = null;
     this.loadedShards.clear();
     this.isLoaded = false;

package/src/loader/dtype-utils.js CHANGED Viewed

@@ -1,7 +1,4 @@
-import { getDevice } from '../gpu/device.js';
-import { isTraceEnabled, log, trace as debugTrace } from '../debug/index.js';
 import { selectRuleValue } from '../rules/rule-registry.js';
 import { tagBufferDtype } from '../gpu/weight-buffer.js';
@@ -26,46 +23,8 @@ export function f16ToF32(h) {
 export async function convertBF16ToF32GPU(srcBuffer, numElements, name) {
-  debugTrace.loader(`[BF16->F32] Importing cast.js...`);
-  const castModule = await import('../gpu/kernels/cast.js');
-  debugTrace.loader(`[BF16->F32] castModule keys:`, Object.keys(castModule));
-  const { runBF16ToF32 } = castModule;
-  debugTrace.loader(`[BF16->F32] runBF16ToF32 type: ${typeof runBF16ToF32}`);
+  const { runBF16ToF32 } = await import('../gpu/kernels/cast.js');
   const resultTensor = await runBF16ToF32(srcBuffer, [numElements], name);
-  debugTrace.loader(`[BF16->F32] runBF16ToF32 returned, result.size=${resultTensor.buffer?.size}`);
-  // Debug: Verify conversion produced non-zero values
-  const shouldCheckEmbed = isTraceEnabled('loader') &&
-    name.includes('embed') &&
-    name.includes('embed_tokens');
-  if (shouldCheckEmbed) {
-    try {
-      debugTrace.loader(`[BF16->F32] Checking embed buffer for non-zeros...`);
-      const device = getDevice();
-      const sampleSize = Math.min(1024, resultTensor.buffer.size);
-      debugTrace.loader(`[BF16->F32] Creating staging buffer size=${sampleSize}`);
-      const stagingBuffer = device.createBuffer({
-        size: sampleSize,
-        usage: GPUBufferUsage.COPY_DST | GPUBufferUsage.MAP_READ,
-      });
-      debugTrace.loader(`[BF16->F32] Copying to staging buffer...`);
-      const encoder = device.createCommandEncoder();
-      encoder.copyBufferToBuffer(resultTensor.buffer, 0, stagingBuffer, 0, sampleSize);
-      device.queue.submit([encoder.finish()]);
-      debugTrace.loader(`[BF16->F32] Mapping staging buffer...`);
-      await stagingBuffer.mapAsync(GPUMapMode.READ);
-      debugTrace.loader(`[BF16->F32] Reading data...`);
-      const data = new Float32Array(stagingBuffer.getMappedRange().slice(0));
-      stagingBuffer.unmap();
-      stagingBuffer.destroy();
-      const nonZero = Array.from(data).filter(x => x !== 0);
-      const nanCount = data.filter(x => !Number.isFinite(x)).length;
-      debugTrace.loader(`[BF16->F32] nonZero=${nonZero.length}/${data.length}, nan=${nanCount}, sample=[${nonZero.slice(0, 5).map(x => x.toFixed(4)).join(', ')}]`);
-    } catch (err) {
-      log.error('Loader', 'BF16->F32 embed buffer check error:',  (err).message);
-    }
-  }
   return resultTensor.buffer;
 }
@@ -84,11 +43,11 @@ function normalizeBufferDtype(locationDtype, outputDtype) {
   if (explicit) {
     return explicit;
   }
-  const location = typeof locationDtype === 'string' ? locationDtype.toLowerCase() : null;
+  const location = typeof locationDtype === 'string' ? locationDtype.toUpperCase() : null;
   if (!location) {
     return null;
   }
-  return selectRuleValue('loader', 'weights', 'floatLocationDtype', { locationDtype: locationDtype });
+  return selectRuleValue('loader', 'weights', 'floatLocationDtype', { locationDtype: location });
 }
 export function applyBufferLayout(buffer, location, outputDtype = null) {

package/src/loader/embedding-loader.js CHANGED Viewed

@@ -23,6 +23,10 @@ import { releaseBuffer } from '../memory/buffer-pool.js';
 const EMBEDDING_ROLE = 'embedding';
 const EMBEDDING_GROUP = 'embed';
+function isGpuBufferInstance(value) {
+  return typeof GPUBuffer !== 'undefined' && value instanceof GPUBuffer;
+}
 // ============================================================================
 // Main Function
 // ============================================================================
@@ -59,7 +63,7 @@ export async function loadEmbeddings(ctx) {
     }
     // Handle valid tensor types
-    if (tensor instanceof GPUBuffer || isWeightBuffer(tensor) || tensor instanceof Float32Array) {
+    if (isGpuBufferInstance(tensor) || isWeightBuffer(tensor) || tensor instanceof Float32Array) {
       const result = await processEmbeddingTensor(ctx, tensor, name, loc, shouldStream);
       if (result) {
         return result;
@@ -107,7 +111,7 @@ async function processEmbeddingTensor(ctx, tensor, name, loc, shouldStream) {
   }
   // Raw GPUBuffer - wrap with dtype/layout metadata
-  if (promoted instanceof GPUBuffer && loc?.shape && loc.shape.length === 2) {
+  if (isGpuBufferInstance(promoted) && loc?.shape && loc.shape.length === 2) {
     const layout = ctx.resolveWeightLayout(loc);
     const dtype = selectRuleValue('loader', 'weights', 'floatLocationDtype', {
@@ -140,7 +144,7 @@ async function maybePromoteEmbeddingsToF32(ctx, current, name, loc) {
     return wrapped;
   }
-  if (!(current instanceof GPUBuffer)) return current;
+  if (!isGpuBufferInstance(current)) return current;
   const sourceDtype = selectRuleValue('loader', 'weights', 'floatLocationDtype', {
     locationDtype: loc?.dtype,

package/src/loader/experts/expert-cache.js CHANGED Viewed

@@ -3,6 +3,11 @@
 import { releaseBuffer } from '../../memory/buffer-pool.js';
 import { log, trace } from '../../debug/index.js';
 import { getRuntimeConfig } from '../../config/runtime.js';
+import { isWeightBuffer } from '../../gpu/weight-buffer.js';
+function isGpuBufferInstance(value) {
+  return typeof GPUBuffer !== 'undefined' && value instanceof GPUBuffer;
+}
@@ -256,12 +261,14 @@ export class ExpertCache {
     ];
     for (const buf of buffers) {
-      if (buf instanceof GPUBuffer) {
-        try {
-          releaseBuffer(buf);
-        } catch (e) {
-          // Buffer may already be released
-        }
+      const gpuBuffer = isWeightBuffer(buf)
+        ? buf.buffer
+        : (isGpuBufferInstance(buf) ? buf : null);
+      if (!gpuBuffer) continue;
+      try {
+        releaseBuffer(gpuBuffer);
+      } catch (e) {
+        // Buffer may already be released
       }
     }
   }

package/src/loader/experts/expert-loader.js CHANGED Viewed

@@ -18,7 +18,7 @@ import { releaseBuffer } from '../../memory/buffer-pool.js';
 export async function preloadShardsForExpert(ctx, layerIdx, expertIdx, options) {
   // Get required shards from manifest mapping
-  const shardIndices = getShardsForExpert(layerIdx, expertIdx);
+  const shardIndices = getShardsForExpert(layerIdx, expertIdx, ctx.manifest);
   if (shardIndices.length === 0) {
     // No mapping available, fall back to loading all shards on demand
     return;
@@ -69,6 +69,10 @@ export function predictNextLayerExperts(currentExperts) {
   return currentExperts;
 }
+function isGpuBufferInstance(value) {
+  return typeof GPUBuffer !== 'undefined' && value instanceof GPUBuffer;
+}
 // ============================================================================
 // Expert Loading
 // ============================================================================
@@ -95,7 +99,7 @@ export async function loadExpert(ctx, layerIdx, expertIdx) {
   await preloadShardsForExpert(ctx, layerIdx, expertIdx);
   // Get tensor names from manifest if available (for logging/debugging)
-  const tensorNames = getTensorsForExpert(layerIdx, expertIdx);
+  const tensorNames = getTensorsForExpert(layerIdx, expertIdx, ctx.manifest);
   if (tensorNames.length > 0) {
     debugTrace.loader(`Expert ${layerIdx}_${expertIdx} tensors: ${tensorNames.length}`);
   }
@@ -260,7 +264,7 @@ function getGpuBuffer(value) {
   if (isWeightBuffer(value)) {
     return value.buffer;
   }
-  if (value instanceof GPUBuffer) {
+  if (isGpuBufferInstance(value)) {
     return value;
   }
   return null;
@@ -342,7 +346,7 @@ async function downcastExpertWeights(ctx, weights) {
     if (!buf) continue;
     // Only downcast GPUBuffer or WeightBuffer (not Float32Array)
-    if (!(buf instanceof GPUBuffer) && !isWeightBuffer(buf)) {
+    if (!isGpuBufferInstance(buf) && !isWeightBuffer(buf)) {
       continue;
     }
@@ -369,13 +373,13 @@ function calculateExpertSize(weights) {
     const buf = weights[k];
     if (isWeightBuffer(buf)) {
       sizeBytes += buf.buffer.size;
-    } else if (buf instanceof GPUBuffer) {
+    } else if (isGpuBufferInstance(buf)) {
       sizeBytes += buf.size;
     }
   }
   // Use manifest-provided expert size if available, otherwise use calculated
-  const manifestBytes = getExpertBytes();
+  const manifestBytes = getExpertBytes(ctx.manifest);
   if (manifestBytes > 0) {
     sizeBytes = manifestBytes;
   }

package/src/loader/final-weights-loader.js CHANGED Viewed

@@ -20,6 +20,10 @@ const HEAD_GROUP = 'head';
 const FINAL_NORM_ROLE = 'norm';
 const LM_HEAD_ROLE = 'lm_head';
+function isGpuBufferInstance(value) {
+  return typeof GPUBuffer !== 'undefined' && value instanceof GPUBuffer;
+}
 function isLikelyFinalNormName(name) {
   const lower = String(name || '').toLowerCase();
   if (!lower) return false;
@@ -148,7 +152,7 @@ async function loadLmHead(ctx) {
       );
     }
-    if (tensor && (tensor instanceof GPUBuffer || isWeightBuffer(tensor) || tensor instanceof Float32Array)) {
+    if (tensor && (isGpuBufferInstance(tensor) || isWeightBuffer(tensor) || tensor instanceof Float32Array)) {
       lmHeadName = name;
       lmHeadLoc = loc;
       lmHead = processLmHeadTensor(ctx, tensor, name, loc, shouldStream);
@@ -189,7 +193,7 @@ function processLmHeadTensor(ctx, tensor, name, loc, shouldStream) {
   }
   // Raw GPUBuffer - wrap with dtype/layout metadata
-  if (tensor instanceof GPUBuffer && loc.shape && loc.shape.length === 2) {
+  if (isGpuBufferInstance(tensor) && loc.shape && loc.shape.length === 2) {
     const layout = ctx.resolveWeightLayout(loc);
     const dtype = selectRuleValue('loader', 'weights', 'floatLocationDtype', {
@@ -209,7 +213,7 @@ async function maybeDowncastLmHead(ctx, lmHead, lmHeadName, lmHeadLoc) {
   const tiedToEmbeddings =
     lmHead === ctx.embeddings ||
     (isWeightBuffer(lmHead) && isWeightBuffer(ctx.embeddings) && lmHead.buffer === ctx.embeddings.buffer) ||
-    (lmHead instanceof GPUBuffer && isWeightBuffer(ctx.embeddings) && lmHead === ctx.embeddings.buffer);
+    (isGpuBufferInstance(lmHead) && isWeightBuffer(ctx.embeddings) && lmHead === ctx.embeddings.buffer);
   if (tiedToEmbeddings) {
     return lmHead;
@@ -234,7 +238,7 @@ async function maybeDowncastLmHead(ctx, lmHead, lmHeadName, lmHeadLoc) {
   // Get buffer for downcast
   const buffer = isWeightBuffer(lmHead) ? lmHead.buffer : lmHead;
-  if (!(buffer instanceof GPUBuffer)) {
+  if (!isGpuBufferInstance(buffer)) {
     return lmHead;
   }

package/src/loader/layer-loader.js CHANGED Viewed

@@ -224,7 +224,8 @@ function createTryLoad(ctx, prefixes) {
     for (const prefix of prefixes) {
       for (const suffix of suffixes) {
         const tensor = await ctx.loadTensor(`${prefix}.${suffix}`, true, true);
-        if (tensor && (tensor instanceof GPUBuffer || tensor instanceof Float32Array || isWeightBuffer(tensor))) {
+        const isGpuBuffer = typeof GPUBuffer !== 'undefined' && tensor instanceof GPUBuffer;
+        if (tensor && (isGpuBuffer || tensor instanceof Float32Array || isWeightBuffer(tensor))) {
           return tensor;
         }
       }

package/src/loader/loader-state.js CHANGED Viewed

@@ -122,14 +122,14 @@ export class LoaderState {
   static getGPUBuffer(weight) {
     if (!weight) return null;
-    if (weight instanceof GPUBuffer) return weight;
+    if (typeof GPUBuffer !== 'undefined' && weight instanceof GPUBuffer) return weight;
     if (isWeightBuffer(weight)) return weight.buffer;
     return null;
   }
   static isGPUBacked(weight) {
     if (!weight) return false;
-    if (weight instanceof GPUBuffer) return true;
+    if (typeof GPUBuffer !== 'undefined' && weight instanceof GPUBuffer) return true;
     if (isWeightBuffer(weight)) return true;
     if (isCpuWeightBuffer(weight)) return false;
     if (weight instanceof Float32Array) return false;

package/src/loader/memory-monitor.js CHANGED Viewed

@@ -105,6 +105,10 @@ export class MemoryMonitor {
   start(getState) {
+    if (this.#interval) {
+      clearInterval(this.#interval);
+      this.#interval = null;
+    }
     this.#startTime = performance.now();
     this.#snapshots = [];
     this.#log('start', getState());
@@ -209,6 +213,10 @@ export class MemoryTimeSeries {
   start() {
+    if (this.#interval) {
+      clearInterval(this.#interval);
+      this.#interval = null;
+    }
     this.#startTime = performance.now();
     this.#samples = [];
     this.#capture('start');

package/src/loader/multi-model-loader.d.ts CHANGED Viewed

@@ -22,6 +22,20 @@ export declare class MultiModelLoader {
   baseWeights: WeightLoadResult | null;
   adapters: Map<string, LoRAAdapter>;
+  _loadBaseWeights(
+    manifest: Manifest,
+    options: { storageContext?: { loadShard?: (index: number) => Promise<ArrayBuffer | Uint8Array> } },
+    runtimeConfig: unknown
+  ): Promise<WeightLoadResult>;
+  _resolveAdapterSource(source: AdapterSource): Promise<LoRAAdapter>;
+  _createPipeline(): InferencePipeline;
+  _getBaseLoader(): { unload(): Promise<void> };
+  unload(): Promise<void>;
   loadBase(
     manifest: Manifest,
     options?: { storageContext?: { loadShard?: (index: number) => Promise<ArrayBuffer | Uint8Array> } }

package/src/loader/multi-model-loader.js CHANGED Viewed

@@ -17,37 +17,68 @@ export class MultiModelLoader {
   adapters = new Map();
-  async loadBase(manifest, options = {}) {
-    // Get runtime model overrides to merge with manifest inference config
-    const runtimeConfig = getRuntimeConfig();
+  #pipelines = new Set();
+  async _loadBaseWeights(manifest, options, runtimeConfig) {
     const modelOverrides =  (runtimeConfig.inference.modelOverrides);
     const config = parseModelConfig(manifest, modelOverrides);
-    this.baseManifest = manifest;
-    this.baseWeights = await loadWeights(manifest, config, {
+    return loadWeights(manifest, config, {
       storageContext: options.storageContext,
       keepF32Weights: runtimeConfig.inference.compute.keepF32Weights === true,
     });
-    return this.baseWeights;
   }
-  async loadAdapter(name, source) {
-    let adapter;
+  async _resolveAdapterSource(source) {
     if (typeof source === 'string') {
-      adapter = await loadLoRAFromUrl(source);
-    } else if (this.#isRDRRManifest(source)) {
+      return loadLoRAFromUrl(source);
+    }
+    if (this.#isRDRRManifest(source)) {
       const loader = getDopplerLoader();
       await loader.init();
-      adapter = await loader.loadLoRAWeights(source);
-    } else if (this.#isLoRAManifest(source)) {
-      adapter = await loadLoRAFromManifest(source);
-    } else {
-      adapter = source;
+      return loader.loadLoRAWeights(source);
+    }
+    if (this.#isLoRAManifest(source)) {
+      return loadLoRAFromManifest(source);
+    }
+    return source;
+  }
+  _createPipeline() {
+    return new InferencePipeline();
+  }
+  _getBaseLoader() {
+    return getDopplerLoader();
+  }
+  async unload() {
+    const pipelines = Array.from(this.#pipelines);
+    this.#pipelines.clear();
+    await Promise.all(pipelines.map(async (pipeline) => pipeline.unload()));
+    if (this.baseWeights) {
+      const loader = this._getBaseLoader();
+      await loader.unload();
     }
+    this.baseManifest = null;
+    this.baseWeights = null;
+    this.adapters.clear();
+  }
+  async loadBase(manifest, options = {}) {
+    await this.unload();
+    const runtimeConfig = getRuntimeConfig();
+    const weights = await this._loadBaseWeights(manifest, options, runtimeConfig);
+    this.baseManifest = manifest;
+    this.baseWeights = weights;
+    return weights;
+  }
+  async loadAdapter(name, source) {
+    const adapter = await this._resolveAdapterSource(source);
     const adapterName = name || adapter.name;
     this.adapters.set(adapterName, adapter);
     return adapter;
@@ -68,11 +99,26 @@ export class MultiModelLoader {
     if (!this.baseManifest || !this.baseWeights) {
       throw new Error('Base model not loaded');
     }
-    const pipeline = new InferencePipeline();
-    await pipeline.initialize(contexts);
-    pipeline.setPreloadedWeights(this.baseWeights);
-    await pipeline.loadModel(this.baseManifest);
-    return pipeline;
+    const pipeline = this._createPipeline();
+    const unloadPipeline = pipeline.unload.bind(pipeline);
+    pipeline.unload = async () => {
+      try {
+        await unloadPipeline();
+      } finally {
+        this.#pipelines.delete(pipeline);
+      }
+    };
+    try {
+      await pipeline.initialize(contexts);
+      pipeline.setPreloadedWeights(this.baseWeights);
+      await pipeline.loadModel(this.baseManifest);
+      this.#pipelines.add(pipeline);
+      return pipeline;
+    } catch (error) {
+      await pipeline.unload().catch(() => {});
+      throw error;
+    }
   }