npm - @simulatte/doppler - Versions diffs - 0.1.5 → 0.1.7 - Mend

@simulatte/doppler 0.1.5 → 0.1.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (392) hide show

package/CHANGELOG.md +126 -0
package/README.md +25 -17
package/package.json +20 -4
package/src/adapters/adapter-registry.js +12 -1
package/src/adapters/lora-loader.js +23 -6
package/src/bridge/extension-client.d.ts +5 -0
package/src/bridge/extension-client.js +40 -0
package/src/bridge/index.d.ts +2 -1
package/src/bridge/index.js +6 -4
package/src/browser/browser-converter.js +26 -1
package/src/browser/file-picker.js +6 -0
package/src/browser/safetensors-parser-browser.js +84 -1
package/src/browser/shard-io-browser.js +2 -2
package/src/browser/tensor-source-download.js +8 -2
package/src/browser/tensor-source-http.d.ts +1 -0
package/src/browser/tensor-source-http.js +5 -1
package/src/client/doppler-api.browser.js +20 -4
package/src/client/doppler-api.js +19 -3
package/src/client/doppler-provider/generation.js +12 -0
package/src/client/doppler-provider/model-manager.d.ts +10 -0
package/src/client/doppler-provider/model-manager.js +91 -19
package/src/client/doppler-provider/source-runtime.d.ts +2 -1
package/src/client/doppler-provider/source-runtime.js +132 -13
package/src/client/doppler-registry.json +8 -7
package/src/config/backward-registry-loader.js +17 -2
package/src/config/execution-v0-contract-check.js +113 -15
package/src/config/kernel-path-contract-check.js +57 -29
package/src/config/kernel-path-loader.js +5 -36
package/src/config/kernels/kernel-ref-digests.js +39 -39
package/src/config/kernels/registry.js +14 -1
package/src/config/kernels/registry.json +49 -7
package/src/config/loader.d.ts +1 -1
package/src/config/loader.js +43 -4
package/src/config/merge-contract-check.js +59 -4
package/src/config/merge-helpers.js +128 -7
package/src/config/merge.d.ts +1 -0
package/src/config/merge.js +28 -0
package/src/config/param-validator.js +47 -2
package/src/config/presets/kernel-paths/{gemma2-q4k-dequant-f32a.json → gemma2-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/gemma3-f16-fused-f32a-online-streamingprefill.json +223 -0
package/src/config/presets/kernel-paths/{gemma3-q4k-dequant-f32a.json → gemma3-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/registry.json +29 -8
package/src/config/presets/models/gemma2.json +2 -2
package/src/config/presets/models/qwen3.json +9 -2
package/src/config/presets/models/transformer.json +5 -0
package/src/config/presets/runtime/experiments/bench/gemma3-bench-q4k.json +1 -1
package/src/config/presets/runtime/experiments/debug/gemma3-debug-q4k.json +1 -1
package/src/config/presets/runtime/experiments/verify/gemma3-verify.json +1 -1
package/src/config/presets/runtime/kernels/dequant-f16-q4k.json +6 -13
package/src/config/presets/runtime/kernels/dequant-f32-q4k.json +6 -13
package/src/config/presets/runtime/kernels/embeddinggemma-q4k-dequant-f32a.json +37 -0
package/src/config/presets/runtime/kernels/fused-q4k.json +6 -13
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f16a.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f32a-nosubgroups.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-fused-f32a.json +33 -0
package/src/config/presets/runtime/kernels/safe-q4k.json +6 -13
package/src/config/presets/runtime/platform/metal-apple-q4k.json +1 -1
package/src/config/required-inference-fields-contract-check.js +6 -0
package/src/config/runtime.js +6 -1
package/src/config/schema/debug.schema.d.ts +5 -0
package/src/config/schema/doppler.schema.js +16 -21
package/src/config/schema/inference-defaults.schema.js +6 -3
package/src/config/schema/inference.schema.d.ts +9 -0
package/src/config/schema/kernel-path.schema.d.ts +11 -1
package/src/config/schema/kernel-thresholds.schema.js +12 -4
package/src/config/schema/manifest.schema.d.ts +8 -1
package/src/config/schema/manifest.schema.js +19 -3
package/src/config/training-defaults.js +30 -22
package/src/converter/conversion-plan.js +94 -9
package/src/converter/core.d.ts +7 -0
package/src/converter/core.js +14 -9
package/src/converter/execution-v0-manifest.js +4 -1
package/src/converter/index.d.ts +1 -0
package/src/converter/index.js +1 -0
package/src/converter/manifest-inference.js +43 -12
package/src/converter/parsers/diffusion.js +0 -3
package/src/converter/quantization-info.js +35 -15
package/src/converter/rope-config.js +42 -0
package/src/converter/shard-packer.d.ts +1 -1
package/src/converter/shard-packer.js +4 -1
package/src/debug/config.js +123 -11
package/src/debug/signals.js +7 -1
package/src/debug/tensor.d.ts +2 -0
package/src/debug/tensor.js +13 -2
package/src/distribution/p2p-control-plane.js +52 -12
package/src/distribution/p2p-observability.js +43 -7
package/src/distribution/p2p-webrtc-browser.js +20 -0
package/src/distribution/shard-delivery.js +77 -26
package/src/formats/gguf/types.js +33 -16
package/src/formats/rdrr/groups.d.ts +12 -4
package/src/formats/rdrr/groups.js +3 -6
package/src/formats/rdrr/parsing.js +39 -2
package/src/formats/rdrr/types.d.ts +2 -1
package/src/gpu/command-recorder.js +86 -61
package/src/gpu/device.d.ts +1 -0
package/src/gpu/device.js +131 -19
package/src/gpu/kernel-tuner/benchmarks.js +326 -316
package/src/gpu/kernel-tuner/cache.js +71 -4
package/src/gpu/kernel-tuner/tuner.js +22 -4
package/src/gpu/kernels/attention.js +113 -34
package/src/gpu/kernels/backward/adam.js +62 -58
package/src/gpu/kernels/backward/attention_backward.js +257 -169
package/src/gpu/kernels/backward/conv2d_backward.js +14 -1
package/src/gpu/kernels/bias_add.wgsl +8 -6
package/src/gpu/kernels/bias_add_f16.wgsl +8 -5
package/src/gpu/kernels/cast.js +191 -149
package/src/gpu/kernels/check-stop.js +33 -44
package/src/gpu/kernels/conv2d.js +27 -17
package/src/gpu/kernels/conv2d.wgsl +7 -8
package/src/gpu/kernels/conv2d_f16.wgsl +7 -8
package/src/gpu/kernels/cross_entropy_loss.js +21 -15
package/src/gpu/kernels/depthwise_conv2d.js +37 -26
package/src/gpu/kernels/depthwise_conv2d.wgsl +6 -9
package/src/gpu/kernels/depthwise_conv2d_f16.wgsl +6 -9
package/src/gpu/kernels/dequant.js +178 -126
package/src/gpu/kernels/energy.d.ts +3 -21
package/src/gpu/kernels/energy.js +111 -88
package/src/gpu/kernels/feature-check.js +1 -1
package/src/gpu/kernels/fused_ffn.js +84 -65
package/src/gpu/kernels/fused_matmul_residual.js +56 -33
package/src/gpu/kernels/fused_matmul_rmsnorm.js +62 -45
package/src/gpu/kernels/gather.js +33 -15
package/src/gpu/kernels/gelu.js +19 -11
package/src/gpu/kernels/grouped_pointwise_conv2d.js +34 -23
package/src/gpu/kernels/grouped_pointwise_conv2d.wgsl +6 -9
package/src/gpu/kernels/grouped_pointwise_conv2d_f16.wgsl +6 -9
package/src/gpu/kernels/groupnorm.js +34 -23
package/src/gpu/kernels/kv-quantize.js +5 -2
package/src/gpu/kernels/layernorm.js +35 -19
package/src/gpu/kernels/logit-merge.js +5 -3
package/src/gpu/kernels/matmul.js +83 -39
package/src/gpu/kernels/modulate.js +23 -15
package/src/gpu/kernels/moe.js +221 -175
package/src/gpu/kernels/pixel_shuffle.js +22 -14
package/src/gpu/kernels/pixel_shuffle.wgsl +4 -5
package/src/gpu/kernels/pixel_shuffle_f16.wgsl +4 -5
package/src/gpu/kernels/relu.js +31 -10
package/src/gpu/kernels/relu.wgsl +2 -1
package/src/gpu/kernels/relu_f16.wgsl +2 -1
package/src/gpu/kernels/repeat_channels.js +25 -17
package/src/gpu/kernels/repeat_channels.wgsl +4 -5
package/src/gpu/kernels/repeat_channels_f16.wgsl +4 -5
package/src/gpu/kernels/residual.js +69 -23
package/src/gpu/kernels/residual.wgsl +6 -3
package/src/gpu/kernels/residual_f16.wgsl +2 -1
package/src/gpu/kernels/residual_f16_vec4.wgsl +2 -1
package/src/gpu/kernels/residual_vec4.wgsl +2 -1
package/src/gpu/kernels/rmsnorm.js +96 -28
package/src/gpu/kernels/rmsnorm.wgsl +14 -6
package/src/gpu/kernels/rmsnorm_f16.wgsl +10 -2
package/src/gpu/kernels/rope.d.ts +2 -0
package/src/gpu/kernels/rope.js +14 -1
package/src/gpu/kernels/rope.wgsl +56 -40
package/src/gpu/kernels/sample.js +27 -38
package/src/gpu/kernels/sana_linear_attention.js +19 -12
package/src/gpu/kernels/sana_linear_attention_apply.wgsl +4 -5
package/src/gpu/kernels/sana_linear_attention_apply_f16.wgsl +4 -5
package/src/gpu/kernels/sana_linear_attention_summary.wgsl +4 -0
package/src/gpu/kernels/sana_linear_attention_summary_f16.wgsl +4 -0
package/src/gpu/kernels/scale.js +18 -11
package/src/gpu/kernels/shader-cache.js +4 -2
package/src/gpu/kernels/silu.d.ts +1 -0
package/src/gpu/kernels/silu.js +148 -82
package/src/gpu/kernels/silu.wgsl +19 -9
package/src/gpu/kernels/silu_f16.wgsl +19 -9
package/src/gpu/kernels/softmax.js +44 -25
package/src/gpu/kernels/split_qkv.js +23 -13
package/src/gpu/kernels/transpose.js +31 -10
package/src/gpu/kernels/transpose.wgsl +6 -5
package/src/gpu/kernels/upsample2d.js +22 -13
package/src/gpu/kernels/upsample2d.wgsl +6 -9
package/src/gpu/kernels/upsample2d_f16.wgsl +6 -9
package/src/gpu/kernels/utils.js +35 -13
package/src/gpu/partitioned-buffer-pool.js +10 -2
package/src/gpu/perf-guards.js +2 -9
package/src/gpu/profiler.js +27 -22
package/src/gpu/readback-utils.d.ts +16 -0
package/src/gpu/readback-utils.js +41 -0
package/src/gpu/submit-tracker.js +13 -0
package/src/gpu/uniform-cache.d.ts +1 -0
package/src/gpu/uniform-cache.js +30 -9
package/src/hotswap/intent-bundle.js +6 -0
package/src/hotswap/manifest.d.ts +10 -1
package/src/hotswap/manifest.js +12 -2
package/src/hotswap/runtime.js +30 -8
package/src/index-browser.d.ts +44 -0
package/src/index-browser.js +14 -0
package/src/inference/browser-harness-contract-helpers.d.ts +5 -0
package/src/inference/browser-harness-contract-helpers.js +28 -0
package/src/inference/browser-harness-diffusion-energy-suites.d.ts +2 -0
package/src/inference/browser-harness-diffusion-energy-suites.js +269 -0
package/src/inference/browser-harness-model-helpers.d.ts +16 -0
package/src/inference/browser-harness-model-helpers.js +217 -0
package/src/inference/browser-harness-report-helpers.d.ts +7 -0
package/src/inference/browser-harness-report-helpers.js +42 -0
package/src/inference/browser-harness-runtime-helpers.d.ts +61 -0
package/src/inference/browser-harness-runtime-helpers.js +415 -0
package/src/inference/browser-harness-suite-helpers.d.ts +28 -0
package/src/inference/browser-harness-suite-helpers.js +268 -0
package/src/inference/browser-harness-text-helpers.d.ts +27 -0
package/src/inference/browser-harness-text-helpers.js +788 -0
package/src/inference/browser-harness.d.ts +6 -0
package/src/inference/browser-harness.js +130 -1950
package/src/inference/kv-cache/base.js +140 -94
package/src/inference/kv-cache/tiered.js +5 -3
package/src/inference/moe-router.js +88 -56
package/src/inference/multi-model-network.js +5 -3
package/src/inference/network-evolution.d.ts +11 -2
package/src/inference/network-evolution.js +20 -21
package/src/inference/pipelines/context.d.ts +3 -0
package/src/inference/pipelines/context.js +142 -2
package/src/inference/pipelines/diffusion/helpers.js +7 -2
package/src/inference/pipelines/diffusion/pipeline.js +17 -7
package/src/inference/pipelines/diffusion/sd3-transformer.js +10 -10
package/src/inference/pipelines/diffusion/text-encoder-gpu.d.ts +5 -0
package/src/inference/pipelines/diffusion/text-encoder-gpu.js +27 -15
package/src/inference/pipelines/diffusion/vae.js +3 -7
package/src/inference/pipelines/energy/pipeline.js +27 -21
package/src/inference/pipelines/energy/quintel.d.ts +5 -0
package/src/inference/pipelines/energy/quintel.js +11 -0
package/src/inference/pipelines/energy-head/row-head-pipeline.js +17 -13
package/src/inference/pipelines/structured/json-head-pipeline.js +26 -11
package/src/inference/pipelines/text/attention/projections.js +151 -101
package/src/inference/pipelines/text/attention/record.js +73 -10
package/src/inference/pipelines/text/attention/run.js +73 -10
package/src/inference/pipelines/text/chat-format.js +25 -1
package/src/inference/pipelines/text/config.d.ts +4 -0
package/src/inference/pipelines/text/config.js +71 -5
package/src/inference/pipelines/text/embed.js +2 -8
package/src/inference/pipelines/text/execution-plan.js +64 -50
package/src/inference/pipelines/text/execution-v0-contract-helpers.d.ts +59 -0
package/src/inference/pipelines/text/execution-v0-contract-helpers.js +937 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.d.ts +15 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.js +279 -0
package/src/inference/pipelines/text/execution-v0.js +78 -1002
package/src/inference/pipelines/text/ffn/standard.js +3 -0
package/src/inference/pipelines/text/generator-steps.d.ts +46 -0
package/src/inference/pipelines/text/generator-steps.js +298 -207
package/src/inference/pipelines/text/generator.js +6 -23
package/src/inference/pipelines/text/init.d.ts +4 -0
package/src/inference/pipelines/text/init.js +134 -29
package/src/inference/pipelines/text/kernel-path-auto-select.js +2 -0
package/src/inference/pipelines/text/kernel-trace.d.ts +2 -0
package/src/inference/pipelines/text/kernel-trace.js +6 -0
package/src/inference/pipelines/text/layer.js +14 -9
package/src/inference/pipelines/text/linear-attention.d.ts +10 -0
package/src/inference/pipelines/text/linear-attention.js +80 -6
package/src/inference/pipelines/text/logits/gpu.js +10 -5
package/src/inference/pipelines/text/logits/index.js +10 -11
package/src/inference/pipelines/text/logits/utils.d.ts +7 -0
package/src/inference/pipelines/text/logits/utils.js +9 -0
package/src/inference/pipelines/text/lora-apply.js +50 -32
package/src/inference/pipelines/text/model-load.js +279 -104
package/src/inference/pipelines/text/moe-cache.js +5 -4
package/src/inference/pipelines/text/moe-cpu-gptoss.js +74 -69
package/src/inference/pipelines/text/moe-cpu.js +42 -38
package/src/inference/pipelines/text/moe-gpu.js +110 -86
package/src/inference/pipelines/text/ops.js +90 -90
package/src/inference/pipelines/text/probes.js +9 -9
package/src/inference/pipelines/text/weights.js +17 -7
package/src/inference/pipelines/text.js +17 -1
package/src/inference/speculative.d.ts +2 -2
package/src/inference/speculative.js +4 -18
package/src/inference/test-harness.d.ts +1 -1
package/src/inference/test-harness.js +15 -5
package/src/inference/tokenizer.d.ts +0 -5
package/src/inference/tokenizer.js +4 -23
package/src/inference/tokenizers/bpe.js +9 -0
package/src/inference/tokenizers/bundled.js +176 -33
package/src/inference/tokenizers/sentencepiece.js +12 -0
package/src/loader/doppler-loader.js +38 -22
package/src/loader/dtype-utils.js +3 -44
package/src/loader/embedding-loader.js +7 -3
package/src/loader/experts/expert-cache.js +13 -6
package/src/loader/experts/expert-loader.js +10 -6
package/src/loader/final-weights-loader.js +8 -4
package/src/loader/layer-loader.js +2 -1
package/src/loader/loader-state.js +2 -2
package/src/loader/memory-monitor.js +8 -0
package/src/loader/multi-model-loader.d.ts +14 -0
package/src/loader/multi-model-loader.js +70 -24
package/src/loader/shard-cache.js +81 -12
package/src/loader/shard-resolver.js +25 -3
package/src/loader/tensors/tensor-loader.js +209 -144
package/src/loader/tensors/tensor-reader.js +76 -19
package/src/loader/weight-downcast.js +1 -1
package/src/memory/buffer-pool.d.ts +9 -1
package/src/memory/buffer-pool.js +109 -44
package/src/memory/unified-detect.js +1 -1
package/src/rules/inference/kernel-path.rules.json +24 -8
package/src/rules/rule-registry.js +25 -1
package/src/rules/tooling/command-runtime.rules.json +18 -0
package/src/storage/backends/opfs-store.js +68 -24
package/src/storage/downloader.js +364 -83
package/src/storage/index.d.ts +3 -0
package/src/storage/index.js +3 -0
package/src/storage/preflight.d.ts +2 -2
package/src/storage/preflight.js +24 -2
package/src/storage/quickstart-downloader.js +11 -5
package/src/storage/registry.js +10 -4
package/src/storage/reports.js +1 -1
package/src/storage/shard-manager.d.ts +15 -1
package/src/storage/shard-manager.js +51 -3
package/src/storage/source-artifact-store.d.ts +52 -0
package/src/storage/source-artifact-store.js +234 -0
package/src/tooling/command-api-constants.d.ts +9 -0
package/src/tooling/command-api-constants.js +9 -0
package/src/tooling/command-api-family-normalizers.d.ts +9 -0
package/src/tooling/command-api-family-normalizers.js +343 -0
package/src/tooling/command-api-helpers.d.ts +25 -0
package/src/tooling/command-api-helpers.js +262 -0
package/src/tooling/command-api.d.ts +27 -1
package/src/tooling/command-api.js +26 -473
package/src/tooling/command-envelope.js +4 -1
package/src/tooling/command-runner-shared.js +52 -18
package/src/tooling/lean-execution-contract.js +150 -3
package/src/tooling/node-browser-command-runner.d.ts +4 -0
package/src/tooling/node-browser-command-runner.js +218 -273
package/src/tooling/node-command-runner.js +44 -3
package/src/tooling/node-converter.js +27 -1
package/src/tooling/node-source-runtime.d.ts +1 -1
package/src/tooling/node-source-runtime.js +84 -3
package/src/tooling/node-webgpu.js +30 -105
package/src/tooling/opfs-cache.js +21 -4
package/src/tooling/runtime-input-composition.d.ts +38 -0
package/src/tooling/runtime-input-composition.js +86 -0
package/src/tooling/source-runtime-bundle.d.ts +40 -5
package/src/tooling/source-runtime-bundle.js +261 -34
package/src/tooling/source-runtime-materializer.d.ts +6 -0
package/src/tooling/source-runtime-materializer.js +93 -0
package/src/training/attention-backward.js +32 -17
package/src/training/autograd.js +80 -52
package/src/training/checkpoint-watch.d.ts +8 -0
package/src/training/checkpoint-watch.js +139 -0
package/src/training/checkpoint.d.ts +6 -1
package/src/training/checkpoint.js +46 -7
package/src/training/clip.js +2 -1
package/src/training/datasets/token-batch.js +20 -8
package/src/training/distillation/artifacts.d.ts +71 -0
package/src/training/distillation/artifacts.js +132 -0
package/src/training/distillation/checkpoint-watch.d.ts +10 -0
package/src/training/distillation/checkpoint-watch.js +58 -0
package/src/training/distillation/dataset.d.ts +59 -0
package/src/training/distillation/dataset.js +337 -0
package/src/training/distillation/eval.d.ts +34 -0
package/src/training/distillation/eval.js +310 -0
package/src/training/distillation/index.d.ts +29 -0
package/src/training/distillation/index.js +29 -0
package/src/training/distillation/runtime.d.ts +20 -0
package/src/training/distillation/runtime.js +121 -0
package/src/training/distillation/scoreboard.d.ts +6 -0
package/src/training/distillation/scoreboard.js +8 -0
package/src/training/distillation/stage-a.d.ts +45 -0
package/src/training/distillation/stage-a.js +338 -0
package/src/training/distillation/stage-b.d.ts +24 -0
package/src/training/distillation/stage-b.js +20 -0
package/src/training/distillation/student-fixture.d.ts +22 -0
package/src/training/distillation/student-fixture.js +846 -0
package/src/training/distillation/suite-data.d.ts +45 -0
package/src/training/distillation/suite-data.js +189 -0
package/src/training/index.d.ts +10 -0
package/src/training/index.js +10 -0
package/src/training/lora-pipeline.d.ts +40 -0
package/src/training/lora-pipeline.js +793 -0
package/src/training/lora.js +26 -12
package/src/training/loss.js +5 -6
package/src/training/objectives/cross_entropy.js +2 -5
package/src/training/objectives/distill_kd.js +4 -8
package/src/training/objectives/distill_triplet.js +4 -8
package/src/training/objectives/ul_stage2_base.js +4 -8
package/src/training/operator-artifacts.d.ts +62 -0
package/src/training/operator-artifacts.js +140 -0
package/src/training/operator-command.d.ts +5 -0
package/src/training/operator-command.js +455 -0
package/src/training/operator-eval.d.ts +48 -0
package/src/training/operator-eval.js +230 -0
package/src/training/operator-scoreboard.d.ts +5 -0
package/src/training/operator-scoreboard.js +44 -0
package/src/training/optimizer.js +19 -7
package/src/training/runner.d.ts +52 -0
package/src/training/runner.js +31 -5
package/src/training/suite.d.ts +112 -0
package/src/training/suite.js +24 -984
package/src/training/tensor-factory.d.ts +9 -0
package/src/training/tensor-factory.js +13 -0
package/src/training/trainer.js +3 -5
package/src/training/ul_dataset.js +3 -5
package/src/training/workloads.d.ts +164 -0
package/src/training/workloads.js +530 -0
package/src/version.js +1 -1
package/tools/convert-safetensors-node.js +22 -16
package/tools/doppler-cli.js +179 -63

package/src/inference/tokenizers/bundled.js CHANGED Viewed

@@ -64,6 +64,68 @@ function resolveSpecialTokens(specialTokensRaw, fallbackTokens, vocab) {
   return resolved;
 }
+function resolveByteLevelPretokenizerConfig(preTokenizer) {
+  if (!preTokenizer || typeof preTokenizer !== 'object') {
+    return {
+      useByteLevel: false,
+      addPrefixSpace: null,
+    };
+  }
+  if (preTokenizer.type === 'ByteLevel') {
+    return {
+      useByteLevel: true,
+      addPrefixSpace: preTokenizer.add_prefix_space === true,
+    };
+  }
+  if (preTokenizer.type === 'Sequence' && Array.isArray(preTokenizer.pretokenizers)) {
+    for (const entry of preTokenizer.pretokenizers) {
+      const resolved = resolveByteLevelPretokenizerConfig(entry);
+      if (resolved.useByteLevel) {
+        return resolved;
+      }
+    }
+  }
+  return {
+    useByteLevel: false,
+    addPrefixSpace: null,
+  };
+}
+function registerAddedTokens(addedTokens, vocab, reverseVocab, patterns, specialTokenIds, derivedSpecialTokens = null) {
+  let maxId = -1;
+  for (const token of addedTokens) {
+    const content = token?.content;
+    const id = typeof token?.id === 'number' ? token.id : parseInt(token?.id, 10);
+    if (!Number.isFinite(id) || !content) continue;
+    if (!vocab.has(content)) {
+      vocab.set(content, id);
+      reverseVocab.set(id, content);
+    }
+    if (id > maxId) maxId = id;
+    if (content.length > 1) {
+      patterns.push({ content, id });
+    }
+    if (token.special) {
+      specialTokenIds.add(id);
+      if (derivedSpecialTokens) {
+        if (derivedSpecialTokens.bos == null && (content === '<bos>' || content === '<s>' || content.includes('bos'))) {
+          derivedSpecialTokens.bos = id;
+        } else if (derivedSpecialTokens.eos == null && (content === '<eos>' || content === '</s>' || content.includes('eos'))) {
+          derivedSpecialTokens.eos = id;
+        } else if (derivedSpecialTokens.pad == null && (content === '<pad>' || content.includes('pad'))) {
+          derivedSpecialTokens.pad = id;
+        } else if (derivedSpecialTokens.unk == null && (content === '<unk>' || content.includes('unk'))) {
+          derivedSpecialTokens.unk = id;
+        }
+      }
+    }
+  }
+  return maxId;
+}
 export class TransformersTokenizer extends BaseTokenizer {
@@ -156,6 +218,10 @@ export class BundledTokenizer extends BaseTokenizer {
   #byteDecoder = null;
+  #byteEncoder = null;
+  #useByteLevelEncoding = false;
   constructor(config = {}) {
     // BundledTokenizer gets vocabSize from load(), so defer validation
@@ -164,6 +230,25 @@ export class BundledTokenizer extends BaseTokenizer {
     });
   }
+  #resetState() {
+    this.#vocab.clear();
+    this.#reverseVocab.clear();
+    this.#merges = [];
+    this.#mergeRanks.clear();
+    this.#scores = [];
+    this.#tokenTypes = [];
+    this.#type = null;
+    this.#byteTokens.clear();
+    this.#specialTokenPatterns = [];
+    this.#specialTokenIds = new Set();
+    this.#addSpacePrefix = true;
+    this.#spacePrefixChar = '▁';
+    this.#byteDecoder = null;
+    this.#byteEncoder = null;
+    this.#useByteLevelEncoding = false;
+    this.vocabSize = 0;
+  }
   isSpecialToken(tokenId) {
     if (this.#specialTokenIds.size > 0) {
@@ -199,13 +284,25 @@ export class BundledTokenizer extends BaseTokenizer {
     }
     this.#byteDecoder = new Map();
+    this.#byteEncoder = new Map();
     for (let i = 0; i < base.length; i++) {
       this.#byteDecoder.set(String.fromCodePoint(chars[i]), base[i]);
+      this.#byteEncoder.set(base[i], String.fromCodePoint(chars[i]));
     }
   }
+  #encodeByteLevelText(text) {
+    const bytes = new TextEncoder().encode(text);
+    let out = '';
+    for (const byte of bytes) {
+      out += this.#byteEncoder?.get(byte) ?? String.fromCharCode(byte);
+    }
+    return out;
+  }
   load(tokenizerJson) {
+    this.#resetState();
     // Detect format: HuggingFace has model.vocab, bundled has top-level vocab
     const isHuggingFace = 'model' in tokenizerJson && tokenizerJson.model?.vocab !== undefined;
@@ -290,30 +387,16 @@ export class BundledTokenizer extends BaseTokenizer {
       eos: null,
       unk: null,
     };
-    for (const token of addedTokens) {
-      const content = token.content;
-      const id = typeof token.id === 'number' ? token.id : parseInt( (token.id), 10);
-      if (!Number.isFinite(id) || !content) continue;
-      if (!this.#vocab.has(content)) {
-        this.#vocab.set(content, id);
-        this.#reverseVocab.set(id, content);
-      }
-      if (id > maxId) maxId = id;
-      if (token.special) {
-        specialTokenIds.add(id);
-        if (content.length > 1) {
-          specialTokenPatterns.push({ content, id });
-        }
-        if (derivedSpecialTokens.bos == null && (content === '<bos>' || content === '<s>' || content.includes('bos'))) {
-          derivedSpecialTokens.bos = id;
-        } else if (derivedSpecialTokens.eos == null && (content === '<eos>' || content === '</s>' || content.includes('eos'))) {
-          derivedSpecialTokens.eos = id;
-        } else if (derivedSpecialTokens.pad == null && (content === '<pad>' || content.includes('pad'))) {
-          derivedSpecialTokens.pad = id;
-        } else if (derivedSpecialTokens.unk == null && (content === '<unk>' || content.includes('unk'))) {
-          derivedSpecialTokens.unk = id;
-        }
-      }
+    const addedMaxId = registerAddedTokens(
+      addedTokens,
+      this.#vocab,
+      this.#reverseVocab,
+      specialTokenPatterns,
+      specialTokenIds,
+      derivedSpecialTokens
+    );
+    if (addedMaxId > maxId) {
+      maxId = addedMaxId;
     }
     const specialTokensRaw = hf.special_tokens_map || hf.specialTokens || hf.special_tokens || null;
@@ -351,6 +434,7 @@ export class BundledTokenizer extends BaseTokenizer {
     // Handle behavior flags (use HF config if present, else runtime defaults)
     const runtimeDefaults = getRuntimeConfig().inference.tokenizer;
+    const byteLevelPretokenizer = resolveByteLevelPretokenizerConfig(hf.pre_tokenizer);
     const configuredAddBosToken = this.addBosToken;
     const configuredAddEosToken = this.addEosToken;
     this.addBosToken =
@@ -378,9 +462,16 @@ export class BundledTokenizer extends BaseTokenizer {
     // - runtime config addSpacePrefix (user override or null for auto-detect)
     const decoderPrepend = hf.decoder?.prepend_scheme === 'always' || hf.decoder?.add_prefix_space === true;
     const normalizerPrepend = hf.normalizer?.prepend_scheme === 'always' || hf.normalizer?.add_prefix_space === true;
+    this.#useByteLevelEncoding = byteLevelPretokenizer.useByteLevel;
     const runtimeSpacePrefix = runtimeDefaults.addSpacePrefix;
     // Use explicit runtime config if set (non-null), otherwise auto-detect from tokenizer.json
-    this.#addSpacePrefix = runtimeSpacePrefix ?? model.add_prefix_space ?? model.add_dummy_prefix ?? decoderPrepend ?? normalizerPrepend ?? false;
+    this.#addSpacePrefix = runtimeSpacePrefix
+      ?? byteLevelPretokenizer.addPrefixSpace
+      ?? model.add_prefix_space
+      ?? model.add_dummy_prefix
+      ?? decoderPrepend
+      ?? normalizerPrepend
+      ?? false;
     log.debug('Tokenizer', `addSpacePrefix=${this.#addSpacePrefix} (runtime=${runtimeSpacePrefix}, model=${model.add_prefix_space ?? model.add_dummy_prefix}, decoder=${decoderPrepend}, normalizer=${normalizerPrepend})`);
     // Detect space prefix style by checking which WORD tokens exist in vocab
@@ -469,11 +560,47 @@ export class BundledTokenizer extends BaseTokenizer {
       this.#tokenTypes = tokenizerJson.tokenTypes;
     }
+    let maxId = -1;
+    for (const id of this.#vocab.values()) {
+      if (Number.isFinite(id) && id > maxId) {
+        maxId = id;
+      }
+    }
+    const addedTokens = Array.isArray(tokenizerJson.added_tokens) ? tokenizerJson.added_tokens : [];
+    const tokenPatterns = [];
+    const specialTokenIds = new Set();
+    const derivedSpecialTokens = {
+      pad: null,
+      bos: null,
+      eos: null,
+      unk: null,
+    };
+    const addedMaxId = registerAddedTokens(
+      addedTokens,
+      this.#vocab,
+      this.#reverseVocab,
+      tokenPatterns,
+      specialTokenIds,
+      derivedSpecialTokens
+    );
+    if (addedMaxId > maxId) {
+      maxId = addedMaxId;
+    }
     // Set special tokens - support both camelCase and snake_case formats
     const specialTokensRaw =  (tokenizerJson.specialTokens ||  (tokenizerJson).special_tokens);
-    this.specialTokens = resolveSpecialTokens(specialTokensRaw, this.specialTokens, this.#vocab);
+    this.specialTokens = resolveSpecialTokens(
+      specialTokensRaw,
+      {
+        ...derivedSpecialTokens,
+        ...this.specialTokens,
+      },
+      this.#vocab
+    );
     log.debug('Tokenizer', `Special tokens: BOS=${this.specialTokens.bos}, EOS=${this.specialTokens.eos}`);
-    this.#specialTokenIds = new Set();
+    this.#specialTokenIds = specialTokenIds;
+    this.#specialTokenPatterns = tokenPatterns;
     const builtinSpecials = [
       this.specialTokens.pad,
       this.specialTokens.bos,
@@ -485,8 +612,13 @@ export class BundledTokenizer extends BaseTokenizer {
         this.#specialTokenIds.add(id);
       }
     }
+    this.#specialTokenPatterns.sort((a, b) => b.content.length - a.content.length);
+    if (maxId >= 0) {
+      this.vocabSize = Math.max(this.vocabSize, maxId + 1);
+    }
     const runtimeDefaults = getRuntimeConfig().inference.tokenizer;
+    const byteLevelPretokenizer = resolveByteLevelPretokenizerConfig(tokenizerJson.pre_tokenizer);
     const configuredAddBosToken = this.addBosToken;
     const configuredAddEosToken = this.addEosToken;
     this.addBosToken =
@@ -505,9 +637,11 @@ export class BundledTokenizer extends BaseTokenizer {
     if (this.addEosToken && this.specialTokens.eos == null) {
       throw new Error('[Tokenizer] addEosToken is enabled but eos token is missing.');
     }
+    this.#useByteLevelEncoding = byteLevelPretokenizer.useByteLevel;
     // NOTE: Default to FALSE - first word shouldn't get space prefix
     // Space prefixes are only for words that follow a space in original text
-    this.#addSpacePrefix = tokenizerJson.addSpacePrefix === true;
+    this.#addSpacePrefix = tokenizerJson.addSpacePrefix === true
+      || byteLevelPretokenizer.addPrefixSpace === true;
     // Detect space prefix style based on vocab tokens
     // GPT-style uses 'Ġ' (U+0120), SentencePiece uses '▁' (U+2581)
@@ -548,7 +682,8 @@ export class BundledTokenizer extends BaseTokenizer {
       ids.push(this.specialTokens.bos);
     }
-    // Split text around special tokens and tokenize each segment
+    // Split text around literal added tokens and special tokens, then tokenize
+    // the remaining plain-text segments normally.
     const segments = this.#splitOnSpecialTokens(text);
     for (const seg of segments) {
       if (seg.isSpecial && seg.id !== undefined) {
@@ -690,11 +825,19 @@ export class BundledTokenizer extends BaseTokenizer {
     if (text.length === 0) return [];
     let normalized = text;
-    if (this.#addSpacePrefix && !normalized.startsWith(' ')) {
-      normalized = ` ${normalized}`;
+    let prefixed;
+    if (this.#useByteLevelEncoding) {
+      if (this.#addSpacePrefix && !normalized.startsWith(' ')) {
+        normalized = ` ${normalized}`;
+      }
+      prefixed = this.#encodeByteLevelText(normalized);
+    } else {
+      if (this.#addSpacePrefix && !normalized.startsWith(' ')) {
+        normalized = ` ${normalized}`;
+      }
+      const sp = this.#spacePrefixChar;
+      prefixed = normalized.replace(/ /g, sp);
     }
-    const sp = this.#spacePrefixChar;
-    const prefixed = normalized.replace(/ /g, sp);
     if (this.#mergeRanks.size === 0) {
       return this.#encodeBPEGreedy(prefixed);

package/src/inference/tokenizers/sentencepiece.js CHANGED Viewed

@@ -31,8 +31,18 @@ export class SentencePieceTokenizer extends BaseTokenizer {
     });
   }
+  #resetState() {
+    this.#modelData = null;
+    this.#pieces.clear();
+    this.#reverseVocab.clear();
+    this.#algorithm = 'unigram';
+    this.#byteTokens.clear();
+    this.vocabSize = 0;
+  }
   async load(modelData) {
+    this.#resetState();
     this.#modelData = modelData;
     try {
@@ -42,6 +52,8 @@ export class SentencePieceTokenizer extends BaseTokenizer {
     } catch (err) {
       const message = err instanceof Error ? err.message : String(err);
       log.warn('Tokenizer', `Failed to parse model, using byte fallback: ${message}`);
+      this.#resetState();
+      this.#modelData = modelData;
       this.#initByteFallback();
     }
   }

package/src/loader/doppler-loader.js CHANGED Viewed

@@ -9,7 +9,7 @@ import {
   verifyIntegrity,
   loadManifestFromStore,
 } from '../storage/shard-manager.js';
-import { parseManifest } from '../formats/rdrr/index.js';
+import { clearManifest, parseManifest, setManifest as setCurrentManifest } from '../formats/rdrr/index.js';
 import { initDevice, getDevice, getKernelCapabilities } from '../gpu/device.js';
 import { acquireBuffer, releaseBuffer, forceBufferPoolReclaim } from '../memory/buffer-pool.js';
 import { getExpertCache } from './experts/expert-cache.js';
@@ -50,6 +50,10 @@ function hasExpertGroups(manifest) {
   return Object.keys(manifest.groups).some((groupId) => groupId.includes('.expert.'));
 }
+function isGpuBufferInstance(value) {
+  return typeof GPUBuffer !== 'undefined' && value instanceof GPUBuffer;
+}
 // Re-export types for backward compatibility
 export {
   // Types are in .d.ts file
@@ -252,6 +256,7 @@ export class DopplerLoader {
   setManifest(manifest) {
     this.manifest = manifest;
+    setCurrentManifest(manifest);
     const moeConfig = manifest.moeConfig;
     this.isMoE = moeConfig != null && (moeConfig.numExperts ?? 0) > 1;
     if (!this.isMoE && hasExpertGroups(manifest)) {
@@ -259,6 +264,7 @@ export class DopplerLoader {
         `Manifest "${manifest.modelId ?? 'unknown'}" missing moeConfig for MoE model. Re-convert with moeConfig.`
       );
     }
+    this.shardCache.setManifest(this.manifest);
     this.shardCache.configureForModel(this.manifest, this.shardCache.hasCustomLoader);
     debugTrace.loader('Manifest set externally');
   }
@@ -679,7 +685,7 @@ export class DopplerLoader {
       const device = getDevice();
       if (!device) {
         log.warn('Loader', 'GPU device not available; falling back to CPU');
-        if (shardData instanceof GPUBuffer) {
+        if (isGpuBufferInstance(shardData)) {
           releaseBuffer(shardData);
           shardData = await this.#assembleShardData(location, name);
         }
@@ -708,7 +714,7 @@ export class DopplerLoader {
       return result.data;
     }
-    if (shardData instanceof GPUBuffer) {
+    if (isGpuBufferInstance(shardData)) {
       // Shouldn't happen (streaming is only used for toGPU), but keep this leak-proof.
       releaseBuffer(shardData);
       shardData = await this.#assembleShardData(location, name);
@@ -751,31 +757,40 @@ export class DopplerLoader {
     // queue.writeBuffer requires 4-byte aligned sizes; we pad the buffer.
     const alignedSize = Math.ceil(location.size / 4) * 4;
     const raw = acquireBuffer(alignedSize, undefined, `raw_${name}`);
+    let complete = false;
-    let dstOffset = 0;
-    const uploadChunk = (bytes) => {
-      device.queue.writeBuffer(raw, dstOffset, bytes, bytes.byteOffset, bytes.byteLength);
-      dstOffset += bytes.byteLength;
-    };
-    const streamRange = (idx, offset, length) => this.shardCache.streamRange(idx, offset, length, { chunkBytes });
+    try {
+      let dstOffset = 0;
+      const uploadChunk = (bytes) => {
+        device.queue.writeBuffer(raw, dstOffset, bytes, bytes.byteOffset, bytes.byteLength);
+        dstOffset += bytes.byteLength;
+      };
+      const streamRange = (idx, offset, length) => this.shardCache.streamRange(idx, offset, length, { chunkBytes });
-    if (location.spans) {
-      for (const span of location.spans) {
-        for await (const chunk of streamRange(span.shardIndex, span.offset, span.size)) {
+      if (location.spans) {
+        for (const span of location.spans) {
+          for await (const chunk of streamRange(span.shardIndex, span.offset, span.size)) {
+            uploadChunk(chunk);
+          }
+        }
+      } else {
+        for await (const chunk of streamRange(location.shardIndex, location.offset, location.size)) {
           uploadChunk(chunk);
         }
       }
-    } else {
-      for await (const chunk of streamRange(location.shardIndex, location.offset, location.size)) {
-        uploadChunk(chunk);
-      }
-    }
-    if (dstOffset < location.size) {
-      log.warn('Loader', `Stream upload short read for "${name}": got=${dstOffset}, expected=${location.size}`);
+      if (dstOffset !== location.size) {
+        throw new Error(
+          `Stream upload short read for "${name}": got=${dstOffset}, expected=${location.size}.`
+        );
+      }
+      complete = true;
+      return raw;
+    } finally {
+      if (!complete) {
+        releaseBuffer(raw);
+      }
     }
-    return raw;
   }
@@ -950,7 +965,7 @@ export class DopplerLoader {
       if (!value) return;
       const gpuBuffer = isWeightBuffer(value)
         ? value.buffer
-        : (value instanceof GPUBuffer ? value : null);
+        : (isGpuBufferInstance(value) ? value : null);
       if (!gpuBuffer) return;
       try {
         releaseBuffer(gpuBuffer);
@@ -990,6 +1005,7 @@ export class DopplerLoader {
     this.lmHead = null;
     this.finalNorm = null;
     this.manifest = null;
+    clearManifest();
     this.modelId = null;
     this.loadedShards.clear();
     this.isLoaded = false;

package/src/loader/dtype-utils.js CHANGED Viewed

@@ -1,7 +1,4 @@
-import { getDevice } from '../gpu/device.js';
-import { isTraceEnabled, log, trace as debugTrace } from '../debug/index.js';
 import { selectRuleValue } from '../rules/rule-registry.js';
 import { tagBufferDtype } from '../gpu/weight-buffer.js';
@@ -26,46 +23,8 @@ export function f16ToF32(h) {
 export async function convertBF16ToF32GPU(srcBuffer, numElements, name) {
-  debugTrace.loader(`[BF16->F32] Importing cast.js...`);
-  const castModule = await import('../gpu/kernels/cast.js');
-  debugTrace.loader(`[BF16->F32] castModule keys:`, Object.keys(castModule));
-  const { runBF16ToF32 } = castModule;
-  debugTrace.loader(`[BF16->F32] runBF16ToF32 type: ${typeof runBF16ToF32}`);
+  const { runBF16ToF32 } = await import('../gpu/kernels/cast.js');
   const resultTensor = await runBF16ToF32(srcBuffer, [numElements], name);
-  debugTrace.loader(`[BF16->F32] runBF16ToF32 returned, result.size=${resultTensor.buffer?.size}`);
-  // Debug: Verify conversion produced non-zero values
-  const shouldCheckEmbed = isTraceEnabled('loader') &&
-    name.includes('embed') &&
-    name.includes('embed_tokens');
-  if (shouldCheckEmbed) {
-    try {
-      debugTrace.loader(`[BF16->F32] Checking embed buffer for non-zeros...`);
-      const device = getDevice();
-      const sampleSize = Math.min(1024, resultTensor.buffer.size);
-      debugTrace.loader(`[BF16->F32] Creating staging buffer size=${sampleSize}`);
-      const stagingBuffer = device.createBuffer({
-        size: sampleSize,
-        usage: GPUBufferUsage.COPY_DST | GPUBufferUsage.MAP_READ,
-      });
-      debugTrace.loader(`[BF16->F32] Copying to staging buffer...`);
-      const encoder = device.createCommandEncoder();
-      encoder.copyBufferToBuffer(resultTensor.buffer, 0, stagingBuffer, 0, sampleSize);
-      device.queue.submit([encoder.finish()]);
-      debugTrace.loader(`[BF16->F32] Mapping staging buffer...`);
-      await stagingBuffer.mapAsync(GPUMapMode.READ);
-      debugTrace.loader(`[BF16->F32] Reading data...`);
-      const data = new Float32Array(stagingBuffer.getMappedRange().slice(0));
-      stagingBuffer.unmap();
-      stagingBuffer.destroy();
-      const nonZero = Array.from(data).filter(x => x !== 0);
-      const nanCount = data.filter(x => !Number.isFinite(x)).length;
-      debugTrace.loader(`[BF16->F32] nonZero=${nonZero.length}/${data.length}, nan=${nanCount}, sample=[${nonZero.slice(0, 5).map(x => x.toFixed(4)).join(', ')}]`);
-    } catch (err) {
-      log.error('Loader', 'BF16->F32 embed buffer check error:',  (err).message);
-    }
-  }
   return resultTensor.buffer;
 }
@@ -84,11 +43,11 @@ function normalizeBufferDtype(locationDtype, outputDtype) {
   if (explicit) {
     return explicit;
   }
-  const location = typeof locationDtype === 'string' ? locationDtype.toLowerCase() : null;
+  const location = typeof locationDtype === 'string' ? locationDtype.toUpperCase() : null;
   if (!location) {
     return null;
   }
-  return selectRuleValue('loader', 'weights', 'floatLocationDtype', { locationDtype: locationDtype });
+  return selectRuleValue('loader', 'weights', 'floatLocationDtype', { locationDtype: location });
 }
 export function applyBufferLayout(buffer, location, outputDtype = null) {

package/src/loader/embedding-loader.js CHANGED Viewed

@@ -23,6 +23,10 @@ import { releaseBuffer } from '../memory/buffer-pool.js';
 const EMBEDDING_ROLE = 'embedding';
 const EMBEDDING_GROUP = 'embed';
+function isGpuBufferInstance(value) {
+  return typeof GPUBuffer !== 'undefined' && value instanceof GPUBuffer;
+}
 // ============================================================================
 // Main Function
 // ============================================================================
@@ -59,7 +63,7 @@ export async function loadEmbeddings(ctx) {
     }
     // Handle valid tensor types
-    if (tensor instanceof GPUBuffer || isWeightBuffer(tensor) || tensor instanceof Float32Array) {
+    if (isGpuBufferInstance(tensor) || isWeightBuffer(tensor) || tensor instanceof Float32Array) {
       const result = await processEmbeddingTensor(ctx, tensor, name, loc, shouldStream);
       if (result) {
         return result;
@@ -107,7 +111,7 @@ async function processEmbeddingTensor(ctx, tensor, name, loc, shouldStream) {
   }
   // Raw GPUBuffer - wrap with dtype/layout metadata
-  if (promoted instanceof GPUBuffer && loc?.shape && loc.shape.length === 2) {
+  if (isGpuBufferInstance(promoted) && loc?.shape && loc.shape.length === 2) {
     const layout = ctx.resolveWeightLayout(loc);
     const dtype = selectRuleValue('loader', 'weights', 'floatLocationDtype', {
@@ -140,7 +144,7 @@ async function maybePromoteEmbeddingsToF32(ctx, current, name, loc) {
     return wrapped;
   }
-  if (!(current instanceof GPUBuffer)) return current;
+  if (!isGpuBufferInstance(current)) return current;
   const sourceDtype = selectRuleValue('loader', 'weights', 'floatLocationDtype', {
     locationDtype: loc?.dtype,

package/src/loader/experts/expert-cache.js CHANGED Viewed

@@ -3,6 +3,11 @@
 import { releaseBuffer } from '../../memory/buffer-pool.js';
 import { log, trace } from '../../debug/index.js';
 import { getRuntimeConfig } from '../../config/runtime.js';
+import { isWeightBuffer } from '../../gpu/weight-buffer.js';
+function isGpuBufferInstance(value) {
+  return typeof GPUBuffer !== 'undefined' && value instanceof GPUBuffer;
+}
@@ -256,12 +261,14 @@ export class ExpertCache {
     ];
     for (const buf of buffers) {
-      if (buf instanceof GPUBuffer) {
-        try {
-          releaseBuffer(buf);
-        } catch (e) {
-          // Buffer may already be released
-        }
+      const gpuBuffer = isWeightBuffer(buf)
+        ? buf.buffer
+        : (isGpuBufferInstance(buf) ? buf : null);
+      if (!gpuBuffer) continue;
+      try {
+        releaseBuffer(gpuBuffer);
+      } catch (e) {
+        // Buffer may already be released
       }
     }
   }

package/src/loader/experts/expert-loader.js CHANGED Viewed

@@ -18,7 +18,7 @@ import { releaseBuffer } from '../../memory/buffer-pool.js';
 export async function preloadShardsForExpert(ctx, layerIdx, expertIdx, options) {
   // Get required shards from manifest mapping
-  const shardIndices = getShardsForExpert(layerIdx, expertIdx);
+  const shardIndices = getShardsForExpert(layerIdx, expertIdx, ctx.manifest);
   if (shardIndices.length === 0) {
     // No mapping available, fall back to loading all shards on demand
     return;
@@ -69,6 +69,10 @@ export function predictNextLayerExperts(currentExperts) {
   return currentExperts;
 }
+function isGpuBufferInstance(value) {
+  return typeof GPUBuffer !== 'undefined' && value instanceof GPUBuffer;
+}
 // ============================================================================
 // Expert Loading
 // ============================================================================
@@ -95,7 +99,7 @@ export async function loadExpert(ctx, layerIdx, expertIdx) {
   await preloadShardsForExpert(ctx, layerIdx, expertIdx);
   // Get tensor names from manifest if available (for logging/debugging)
-  const tensorNames = getTensorsForExpert(layerIdx, expertIdx);
+  const tensorNames = getTensorsForExpert(layerIdx, expertIdx, ctx.manifest);
   if (tensorNames.length > 0) {
     debugTrace.loader(`Expert ${layerIdx}_${expertIdx} tensors: ${tensorNames.length}`);
   }
@@ -260,7 +264,7 @@ function getGpuBuffer(value) {
   if (isWeightBuffer(value)) {
     return value.buffer;
   }
-  if (value instanceof GPUBuffer) {
+  if (isGpuBufferInstance(value)) {
     return value;
   }
   return null;
@@ -342,7 +346,7 @@ async function downcastExpertWeights(ctx, weights) {
     if (!buf) continue;
     // Only downcast GPUBuffer or WeightBuffer (not Float32Array)
-    if (!(buf instanceof GPUBuffer) && !isWeightBuffer(buf)) {
+    if (!isGpuBufferInstance(buf) && !isWeightBuffer(buf)) {
       continue;
     }
@@ -369,13 +373,13 @@ function calculateExpertSize(weights) {
     const buf = weights[k];
     if (isWeightBuffer(buf)) {
       sizeBytes += buf.buffer.size;
-    } else if (buf instanceof GPUBuffer) {
+    } else if (isGpuBufferInstance(buf)) {
       sizeBytes += buf.size;
     }
   }
   // Use manifest-provided expert size if available, otherwise use calculated
-  const manifestBytes = getExpertBytes();
+  const manifestBytes = getExpertBytes(ctx.manifest);
   if (manifestBytes > 0) {
     sizeBytes = manifestBytes;
   }