npm - @simulatte/doppler - Versions diffs - 0.1.6 → 0.1.8 - Mend

@simulatte/doppler 0.1.6 → 0.1.8

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (355) hide show

package/CHANGELOG.md +145 -0
package/README.md +16 -23
package/package.json +30 -32
package/src/adapters/adapter-registry.js +12 -1
package/src/adapters/lora-loader.js +23 -6
package/src/bridge/extension-client.d.ts +5 -0
package/src/bridge/extension-client.js +40 -0
package/src/bridge/index.d.ts +2 -1
package/src/bridge/index.js +6 -4
package/src/browser/browser-converter.js +31 -1
package/src/browser/file-picker.js +6 -0
package/src/browser/safetensors-parser-browser.js +84 -1
package/src/browser/shard-io-browser.js +2 -2
package/src/browser/tensor-source-download.js +8 -2
package/src/browser/tensor-source-http.d.ts +1 -0
package/src/browser/tensor-source-http.js +5 -1
package/src/client/doppler-api.browser.js +20 -4
package/src/client/doppler-api.js +19 -3
package/src/client/doppler-provider/generation.js +12 -0
package/src/client/doppler-provider/model-manager.d.ts +10 -0
package/src/client/doppler-provider/model-manager.js +91 -19
package/src/client/doppler-provider/source-runtime.d.ts +2 -1
package/src/client/doppler-provider/source-runtime.js +132 -13
package/src/client/doppler-registry.json +5 -20
package/src/config/backward-registry-loader.js +17 -2
package/src/config/execution-v0-contract-check.js +113 -15
package/src/config/kernel-path-contract-check.js +57 -29
package/src/config/kernel-path-loader.d.ts +5 -0
package/src/config/kernel-path-loader.js +18 -36
package/src/config/kernels/kernel-ref-digests.js +1 -1
package/src/config/kernels/registry.js +14 -1
package/src/config/kernels/registry.json +81 -5
package/src/config/loader.d.ts +1 -1
package/src/config/loader.js +15 -2
package/src/config/merge-contract-check.js +66 -4
package/src/config/merge-helpers.js +128 -7
package/src/config/merge.d.ts +1 -0
package/src/config/merge.js +10 -0
package/src/config/param-validator.js +47 -2
package/src/config/presets/kernel-paths/{gemma2-q4k-dequant-f32a.json → gemma2-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/gemma3-f16-fused-f32a-online-streamingprefill.json +223 -0
package/src/config/presets/kernel-paths/{gemma3-q4k-dequant-f32a.json → gemma3-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32w-f32a-online.json +56 -0
package/src/config/presets/kernel-paths/lfm2-q4k-dequant-f32a-nosubgroups.json +61 -0
package/src/config/presets/kernel-paths/registry.json +43 -8
package/src/config/presets/models/gemma2.json +3 -2
package/src/config/presets/models/gemma3.json +2 -0
package/src/config/presets/models/qwen3.json +4 -3
package/src/config/presets/models/qwen3_5.json +16 -0
package/src/config/presets/runtime/experiments/bench/gemma3-bench-q4k.json +1 -1
package/src/config/presets/runtime/experiments/debug/gemma3-debug-q4k.json +1 -1
package/src/config/presets/runtime/experiments/verify/gemma3-verify.json +1 -1
package/src/config/presets/runtime/kernels/dequant-f16-q4k.json +6 -13
package/src/config/presets/runtime/kernels/dequant-f32-q4k.json +6 -13
package/src/config/presets/runtime/kernels/embeddinggemma-q4k-dequant-f32a.json +37 -0
package/src/config/presets/runtime/kernels/fused-q4k.json +6 -13
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f16a.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f32a-nosubgroups.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-fused-f32a.json +33 -0
package/src/config/presets/runtime/kernels/safe-q4k.json +6 -13
package/src/config/presets/runtime/model/qwen3-5-layer-probe.json +52 -0
package/src/config/presets/runtime/model/qwen3-5-linear-attn-debug.json +90 -0
package/src/config/presets/runtime/platform/metal-apple-q4k.json +1 -1
package/src/config/runtime.js +6 -1
package/src/config/schema/conversion.schema.d.ts +1 -0
package/src/config/schema/debug.schema.d.ts +5 -0
package/src/config/schema/doppler.schema.js +16 -21
package/src/config/schema/inference-defaults.schema.js +3 -3
package/src/config/schema/kernel-path.schema.d.ts +5 -1
package/src/config/schema/kernel-thresholds.schema.js +12 -4
package/src/config/schema/manifest.schema.d.ts +3 -2
package/src/config/schema/manifest.schema.js +17 -4
package/src/config/schema/storage.schema.js +1 -1
package/src/config/training-defaults.js +30 -22
package/src/converter/conversion-plan.js +104 -11
package/src/converter/core.d.ts +7 -0
package/src/converter/core.js +16 -9
package/src/converter/execution-v0-manifest.js +4 -1
package/src/converter/index.d.ts +1 -0
package/src/converter/index.js +1 -0
package/src/converter/manifest-inference.js +50 -29
package/src/converter/parsers/diffusion.js +0 -3
package/src/converter/parsers/transformer.js +4 -0
package/src/converter/quantization-info.js +40 -16
package/src/converter/quantizer.js +19 -12
package/src/converter/rope-config.js +8 -6
package/src/converter/shard-packer.d.ts +1 -1
package/src/converter/shard-packer.js +4 -1
package/src/converter/tokenizer-utils.d.ts +1 -0
package/src/converter/tokenizer-utils.js +4 -1
package/src/debug/config.js +123 -11
package/src/debug/reference/hf_qwen35_linear_attn_debug.py +268 -0
package/src/debug/signals.js +7 -1
package/src/debug/tensor.d.ts +2 -0
package/src/debug/tensor.js +13 -2
package/src/distribution/p2p-control-plane.js +52 -12
package/src/distribution/p2p-observability.js +43 -7
package/src/distribution/p2p-webrtc-browser.js +20 -0
package/src/distribution/shard-delivery.js +83 -27
package/src/formats/gguf/types.js +33 -16
package/src/formats/rdrr/groups.d.ts +12 -4
package/src/formats/rdrr/groups.js +3 -6
package/src/formats/rdrr/parsing.d.ts +4 -0
package/src/formats/rdrr/parsing.js +53 -3
package/src/formats/rdrr/types.d.ts +2 -1
package/src/gpu/command-recorder.js +86 -61
package/src/gpu/device.d.ts +1 -0
package/src/gpu/device.js +73 -19
package/src/gpu/kernel-tuner/benchmarks.js +326 -316
package/src/gpu/kernel-tuner/cache.js +71 -4
package/src/gpu/kernel-tuner/tuner.js +22 -4
package/src/gpu/kernels/attention.js +15 -34
package/src/gpu/kernels/backward/adam.js +62 -58
package/src/gpu/kernels/backward/attention_backward.js +257 -169
package/src/gpu/kernels/backward/conv2d_backward.js +14 -1
package/src/gpu/kernels/cast.js +191 -149
package/src/gpu/kernels/check-stop.js +33 -44
package/src/gpu/kernels/conv2d.js +27 -17
package/src/gpu/kernels/cross_entropy_loss.js +21 -15
package/src/gpu/kernels/depthwise_conv2d.js +36 -26
package/src/gpu/kernels/dequant.js +178 -126
package/src/gpu/kernels/energy.d.ts +3 -21
package/src/gpu/kernels/energy.js +111 -88
package/src/gpu/kernels/feature-check.js +1 -1
package/src/gpu/kernels/fused_ffn.js +84 -65
package/src/gpu/kernels/fused_matmul_residual.js +56 -33
package/src/gpu/kernels/fused_matmul_rmsnorm.js +62 -45
package/src/gpu/kernels/gather.js +33 -15
package/src/gpu/kernels/gelu.js +19 -11
package/src/gpu/kernels/grouped_pointwise_conv2d.js +33 -23
package/src/gpu/kernels/groupnorm.js +34 -23
package/src/gpu/kernels/index.d.ts +8 -0
package/src/gpu/kernels/index.js +6 -0
package/src/gpu/kernels/kv-quantize.js +5 -2
package/src/gpu/kernels/layernorm.js +35 -19
package/src/gpu/kernels/logit-merge.js +5 -3
package/src/gpu/kernels/matmul-selection.js +47 -4
package/src/gpu/kernels/matmul.d.ts +2 -0
package/src/gpu/kernels/matmul.js +59 -40
package/src/gpu/kernels/modulate.js +23 -15
package/src/gpu/kernels/moe.js +221 -175
package/src/gpu/kernels/pixel_shuffle.js +22 -14
package/src/gpu/kernels/relu.js +18 -10
package/src/gpu/kernels/repeat_channels.js +25 -17
package/src/gpu/kernels/residual.js +37 -27
package/src/gpu/kernels/rmsnorm.js +66 -43
package/src/gpu/kernels/rope.js +3 -0
package/src/gpu/kernels/sample.js +27 -38
package/src/gpu/kernels/sana_linear_attention.js +18 -10
package/src/gpu/kernels/scale.js +18 -11
package/src/gpu/kernels/shader-cache.js +4 -2
package/src/gpu/kernels/silu.js +120 -72
package/src/gpu/kernels/softmax.js +44 -25
package/src/gpu/kernels/split_qg.d.ts +50 -0
package/src/gpu/kernels/split_qg.js +46 -0
package/src/gpu/kernels/split_qg.wgsl +58 -0
package/src/gpu/kernels/split_qg_f16.wgsl +62 -0
package/src/gpu/kernels/split_qkv.js +23 -13
package/src/gpu/kernels/transpose.js +18 -10
package/src/gpu/kernels/transpose.wgsl +5 -3
package/src/gpu/kernels/upsample2d.js +21 -13
package/src/gpu/kernels/utils.js +20 -13
package/src/gpu/partitioned-buffer-pool.js +10 -2
package/src/gpu/perf-guards.js +2 -9
package/src/gpu/profiler.js +27 -22
package/src/gpu/readback-utils.d.ts +16 -0
package/src/gpu/readback-utils.js +41 -0
package/src/gpu/submit-tracker.js +13 -0
package/src/gpu/uniform-cache.d.ts +1 -0
package/src/gpu/uniform-cache.js +30 -9
package/src/gpu/weight-buffer.d.ts +1 -1
package/src/gpu/weight-buffer.js +1 -1
package/src/hotswap/intent-bundle.js +6 -0
package/src/hotswap/manifest.d.ts +10 -1
package/src/hotswap/manifest.js +12 -2
package/src/hotswap/runtime.js +30 -8
package/src/index-browser.d.ts +44 -0
package/src/index-browser.js +14 -0
package/src/inference/browser-harness-contract-helpers.d.ts +5 -0
package/src/inference/browser-harness-contract-helpers.js +28 -0
package/src/inference/browser-harness-diffusion-energy-suites.d.ts +2 -0
package/src/inference/browser-harness-diffusion-energy-suites.js +269 -0
package/src/inference/browser-harness-model-helpers.d.ts +16 -0
package/src/inference/browser-harness-model-helpers.js +217 -0
package/src/inference/browser-harness-report-helpers.d.ts +7 -0
package/src/inference/browser-harness-report-helpers.js +42 -0
package/src/inference/browser-harness-runtime-helpers.d.ts +61 -0
package/src/inference/browser-harness-runtime-helpers.js +415 -0
package/src/inference/browser-harness-suite-helpers.d.ts +28 -0
package/src/inference/browser-harness-suite-helpers.js +268 -0
package/src/inference/browser-harness-text-helpers.d.ts +27 -0
package/src/inference/browser-harness-text-helpers.js +788 -0
package/src/inference/browser-harness.d.ts +8 -0
package/src/inference/browser-harness.js +149 -1996
package/src/inference/kv-cache/base.js +140 -94
package/src/inference/kv-cache/tiered.js +5 -3
package/src/inference/moe-router.js +88 -56
package/src/inference/multi-model-network.js +5 -3
package/src/inference/network-evolution.d.ts +11 -2
package/src/inference/network-evolution.js +20 -21
package/src/inference/pipelines/context.d.ts +3 -0
package/src/inference/pipelines/context.js +142 -2
package/src/inference/pipelines/diffusion/helpers.js +10 -2
package/src/inference/pipelines/diffusion/pipeline.js +2 -1
package/src/inference/pipelines/diffusion/sd3-transformer.js +10 -10
package/src/inference/pipelines/diffusion/text-encoder-gpu.js +8 -2
package/src/inference/pipelines/diffusion/vae.js +3 -7
package/src/inference/pipelines/energy/pipeline.js +27 -21
package/src/inference/pipelines/energy/quintel.d.ts +5 -0
package/src/inference/pipelines/energy/quintel.js +11 -0
package/src/inference/pipelines/energy-head/row-head-pipeline.js +17 -13
package/src/inference/pipelines/structured/json-head-pipeline.js +26 -11
package/src/inference/pipelines/text/attention/output-projection.d.ts +12 -0
package/src/inference/pipelines/text/attention/output-projection.js +8 -0
package/src/inference/pipelines/text/attention/projections.d.ts +10 -1
package/src/inference/pipelines/text/attention/projections.js +192 -112
package/src/inference/pipelines/text/attention/record.js +77 -14
package/src/inference/pipelines/text/attention/run.js +112 -14
package/src/inference/pipelines/text/config.js +17 -4
package/src/inference/pipelines/text/embed.js +2 -8
package/src/inference/pipelines/text/execution-plan.js +46 -23
package/src/inference/pipelines/text/execution-v0-contract-helpers.d.ts +59 -0
package/src/inference/pipelines/text/execution-v0-contract-helpers.js +937 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.d.ts +15 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.js +279 -0
package/src/inference/pipelines/text/execution-v0.js +62 -1013
package/src/inference/pipelines/text/generator-runtime.js +5 -0
package/src/inference/pipelines/text/generator-steps.d.ts +52 -0
package/src/inference/pipelines/text/generator-steps.js +340 -221
package/src/inference/pipelines/text/generator.js +56 -40
package/src/inference/pipelines/text/init.d.ts +13 -0
package/src/inference/pipelines/text/init.js +94 -25
package/src/inference/pipelines/text/kernel-path-auto-select.js +2 -0
package/src/inference/pipelines/text/kernel-trace.d.ts +2 -0
package/src/inference/pipelines/text/kernel-trace.js +6 -0
package/src/inference/pipelines/text/layer.js +4 -9
package/src/inference/pipelines/text/linear-attention.d.ts +15 -0
package/src/inference/pipelines/text/linear-attention.js +113 -9
package/src/inference/pipelines/text/logits/gpu.js +12 -7
package/src/inference/pipelines/text/logits/index.d.ts +6 -1
package/src/inference/pipelines/text/logits/index.js +13 -12
package/src/inference/pipelines/text/logits/utils.d.ts +7 -0
package/src/inference/pipelines/text/logits/utils.js +9 -0
package/src/inference/pipelines/text/lora-apply.js +50 -32
package/src/inference/pipelines/text/model-load.js +282 -104
package/src/inference/pipelines/text/moe-cache.js +5 -4
package/src/inference/pipelines/text/moe-cpu-gptoss.js +74 -69
package/src/inference/pipelines/text/moe-cpu.js +42 -38
package/src/inference/pipelines/text/moe-gpu.js +110 -86
package/src/inference/pipelines/text/ops.js +90 -90
package/src/inference/pipelines/text/probes.js +9 -9
package/src/inference/pipelines/text/sampling.js +52 -6
package/src/inference/pipelines/text/weights.js +17 -7
package/src/inference/pipelines/text.js +13 -1
package/src/inference/speculative.d.ts +2 -2
package/src/inference/speculative.js +4 -18
package/src/inference/test-harness.d.ts +1 -1
package/src/inference/test-harness.js +17 -7
package/src/inference/tokenizer.d.ts +0 -5
package/src/inference/tokenizer.js +4 -23
package/src/inference/tokenizers/bpe.js +9 -0
package/src/inference/tokenizers/bundled.js +20 -0
package/src/inference/tokenizers/sentencepiece.js +12 -0
package/src/loader/doppler-loader.js +38 -22
package/src/loader/dtype-utils.js +3 -44
package/src/loader/embedding-loader.js +7 -3
package/src/loader/experts/expert-cache.js +13 -6
package/src/loader/experts/expert-loader.js +10 -6
package/src/loader/final-weights-loader.js +10 -4
package/src/loader/layer-loader.js +2 -1
package/src/loader/loader-state.js +2 -2
package/src/loader/memory-monitor.js +8 -0
package/src/loader/multi-model-loader.d.ts +14 -0
package/src/loader/multi-model-loader.js +70 -24
package/src/loader/shard-cache.js +84 -14
package/src/loader/shard-resolver.js +25 -3
package/src/loader/tensors/tensor-loader.js +214 -144
package/src/loader/tensors/tensor-reader.js +76 -19
package/src/loader/weight-downcast.js +1 -1
package/src/memory/buffer-pool.d.ts +9 -1
package/src/memory/buffer-pool.js +109 -44
package/src/memory/unified-detect.js +1 -1
package/src/rules/inference/dtype.rules.json +5 -0
package/src/rules/inference/kernel-path.rules.json +24 -8
package/src/rules/kernels/split-qg.rules.json +6 -0
package/src/rules/rule-registry.js +27 -1
package/src/storage/backends/opfs-store.js +68 -24
package/src/storage/downloader.js +365 -83
package/src/storage/index.d.ts +3 -0
package/src/storage/index.js +3 -0
package/src/storage/preflight.d.ts +2 -2
package/src/storage/preflight.js +24 -2
package/src/storage/quickstart-downloader.js +11 -5
package/src/storage/registry.js +10 -4
package/src/storage/reports.js +1 -1
package/src/storage/shard-manager.d.ts +15 -1
package/src/storage/shard-manager.js +55 -6
package/src/storage/source-artifact-store.d.ts +52 -0
package/src/storage/source-artifact-store.js +234 -0
package/src/tooling/command-api-constants.d.ts +9 -0
package/src/tooling/command-api-constants.js +9 -0
package/src/tooling/command-api-family-normalizers.d.ts +9 -0
package/src/tooling/command-api-family-normalizers.js +343 -0
package/src/tooling/command-api-helpers.d.ts +25 -0
package/src/tooling/command-api-helpers.js +262 -0
package/src/tooling/command-api.js +16 -602
package/src/tooling/command-envelope.js +4 -1
package/src/tooling/command-runner-shared.js +52 -18
package/src/tooling/conversion-config-materializer.js +3 -5
package/src/tooling/lean-execution-contract.js +150 -3
package/src/tooling/node-browser-command-runner.js +161 -271
package/src/tooling/node-command-runner.js +29 -3
package/src/tooling/node-converter.js +30 -1
package/src/tooling/node-source-runtime.d.ts +1 -1
package/src/tooling/node-source-runtime.js +120 -3
package/src/tooling/node-webgpu.js +24 -21
package/src/tooling/opfs-cache.js +21 -4
package/src/tooling/runtime-input-composition.d.ts +38 -0
package/src/tooling/runtime-input-composition.js +86 -0
package/src/tooling/source-runtime-bundle.d.ts +40 -5
package/src/tooling/source-runtime-bundle.js +261 -34
package/src/tooling/source-runtime-materializer.d.ts +6 -0
package/src/tooling/source-runtime-materializer.js +93 -0
package/src/training/attention-backward.js +32 -17
package/src/training/autograd.js +80 -52
package/src/training/checkpoint-watch.d.ts +2 -1
package/src/training/checkpoint-watch.js +39 -6
package/src/training/checkpoint.js +40 -11
package/src/training/clip.js +2 -1
package/src/training/datasets/token-batch.js +20 -8
package/src/training/distillation/checkpoint-watch.js +1 -0
package/src/training/distillation/student-fixture.d.ts +22 -0
package/src/training/distillation/student-fixture.js +846 -0
package/src/training/distillation/suite-data.d.ts +45 -0
package/src/training/distillation/suite-data.js +189 -0
package/src/training/lora-pipeline.js +4 -7
package/src/training/lora.js +26 -12
package/src/training/loss.js +5 -6
package/src/training/objectives/cross_entropy.js +2 -5
package/src/training/objectives/distill_kd.js +4 -8
package/src/training/objectives/distill_triplet.js +4 -8
package/src/training/objectives/ul_stage2_base.js +4 -8
package/src/training/operator-command.js +2 -0
package/src/training/optimizer.js +19 -7
package/src/training/runner.js +2 -1
package/src/training/suite.js +18 -978
package/src/training/tensor-factory.d.ts +9 -0
package/src/training/tensor-factory.js +13 -0
package/src/training/trainer.js +3 -5
package/src/training/ul_dataset.js +3 -5
package/src/training/workloads.js +70 -79
package/src/types/model.d.ts +5 -0
package/src/version.js +1 -1
package/tools/convert-safetensors-node.js +22 -16
package/tools/doppler-cli.js +50 -26

package/src/inference/network-evolution.js CHANGED Viewed

@@ -1,33 +1,29 @@
-let fallbackRandomState = (Date.now() >>> 0) || 0x6d2b79f5;
-function unseededRandom() {
-  if (typeof crypto !== 'undefined' && typeof crypto.getRandomValues === 'function') {
-    const values = new Uint32Array(1);
-    crypto.getRandomValues(values);
-    return values[0] / 4294967296;
+function requireRandomSource(random) {
+  if (typeof random !== 'function') {
+    throw new Error('network evolution requires an explicit random() source.');
   }
-  fallbackRandomState = (fallbackRandomState + 0x6d2b79f5) >>> 0;
-  return fallbackRandomState / 4294967296;
+  return random;
 }
-export const mutateGenome = (genome, mutationRate = 0.1) => {
+export const mutateGenome = (genome, mutationRate = 0.1, random = null) => {
+  const sample = requireRandomSource(random);
   const mutated = JSON.parse(JSON.stringify(genome));
-  if (unseededRandom() < mutationRate) {
+  if (sample() < mutationRate) {
     const types = ['chain', 'tree', 'mesh', 'dag'];
-    mutated.topology.type = types[Math.floor(unseededRandom() * types.length)];
+    mutated.topology.type = types[Math.floor(sample() * types.length)];
   }
   for (const node of mutated.nodes) {
-    if (unseededRandom() < mutationRate && typeof node.temperature === 'number') {
-      node.temperature = Math.min(1, Math.max(0, node.temperature + (unseededRandom() - 0.5) * 0.2));
+    if (sample() < mutationRate && typeof node.temperature === 'number') {
+      node.temperature = Math.min(1, Math.max(0, node.temperature + (sample() - 0.5) * 0.2));
     }
   }
   for (const edge of mutated.edges) {
-    if (unseededRandom() < mutationRate) {
-      edge.weight = Math.min(1, Math.max(0, edge.weight + (unseededRandom() - 0.5) * 0.4));
+    if (sample() < mutationRate) {
+      edge.weight = Math.min(1, Math.max(0, edge.weight + (sample() - 0.5) * 0.4));
     }
   }
@@ -35,8 +31,9 @@ export const mutateGenome = (genome, mutationRate = 0.1) => {
 };
-export const crossoverGenome = (a, b) => {
-  return unseededRandom() < 0.5 ? JSON.parse(JSON.stringify(a)) : JSON.parse(JSON.stringify(b));
+export const crossoverGenome = (a, b, random = null) => {
+  const sample = requireRandomSource(random);
+  return sample() < 0.5 ? JSON.parse(JSON.stringify(a)) : JSON.parse(JSON.stringify(b));
 };
@@ -48,7 +45,9 @@ export async function evolveNetwork(config) {
     mutationRate = 0.1,
     evaluate,
     randomGenome,
+    random,
   } = config;
+  const sample = requireRandomSource(random);
   let population = Array.from({ length: populationSize }, () => randomGenome());
@@ -63,9 +62,9 @@ export async function evolveNetwork(config) {
     const offspring = [];
     while (offspring.length < populationSize - eliteCount) {
-      const parentA = scored[Math.floor(unseededRandom() * scored.length)].genome;
-      const parentB = scored[Math.floor(unseededRandom() * scored.length)].genome;
-      const child = mutateGenome(crossoverGenome(parentA, parentB), mutationRate);
+      const parentA = scored[Math.floor(sample() * scored.length)].genome;
+      const parentB = scored[Math.floor(sample() * scored.length)].genome;
+      const child = mutateGenome(crossoverGenome(parentA, parentB, sample), mutationRate, sample);
       offspring.push(child);
     }

package/src/inference/pipelines/context.d.ts CHANGED Viewed

@@ -8,6 +8,8 @@ export type PipelineContextOptions = {
   assignProgress?: boolean;
 };
+export declare function restorePipelineContexts(target: Record<string, unknown>): boolean;
 export declare function applyPipelineContexts(
   target: Record<string, unknown>,
   contexts?: Record<string, unknown>,
@@ -15,4 +17,5 @@ export declare function applyPipelineContexts(
 ): {
   runtimeConfig: Record<string, unknown>;
   sharedDebug: Record<string, unknown> | null | undefined;
+  restore: () => void;
 };

package/src/inference/pipelines/context.js CHANGED Viewed

@@ -1,8 +1,115 @@
-import { getDevice, setDevice } from '../../gpu/device.js';
+import {
+  getDevice,
+  getKernelCapabilities,
+  getPlatformConfig,
+  setDevice,
+} from '../../gpu/device.js';
 import { applyDebugConfig, setGPUDevice } from '../../debug/index.js';
 import { getRuntimeConfig, setRuntimeConfig } from '../../config/runtime.js';
+import {
+  getLogLevel,
+  getTrace,
+  isSilentMode,
+  setLogLevel,
+  setSilentMode,
+  setTrace,
+} from '../../debug/config.js';
+import {
+  gpuDevice as debugGpuDevice,
+  traceBreakOnAnomaly,
+  traceLayerFilter,
+  traceMaxDecodeSteps,
+} from '../../debug/config.js';
+const RESTORE_PIPELINE_CONTEXTS = Symbol('restorePipelineContexts');
+function captureTargetField(target, key) {
+  return {
+    present: Object.prototype.hasOwnProperty.call(target, key),
+    value: target[key],
+  };
+}
+function restoreTargetField(target, key, snapshot) {
+  if (snapshot.present) {
+    target[key] = snapshot.value;
+    return;
+  }
+  delete target[key];
+}
+function captureDebugState() {
+  return {
+    logLevel: getLogLevel(),
+    traceCategories: getTrace(),
+    traceLayers: [...traceLayerFilter],
+    traceMaxDecodeSteps,
+    traceBreakOnAnomaly,
+    silentMode: isSilentMode(),
+    gpuDevice: debugGpuDevice,
+  };
+}
+function restoreDebugState(snapshot) {
+  if (snapshot.silentMode !== isSilentMode()) {
+    setSilentMode(snapshot.silentMode);
+  }
+  if (getLogLevel() !== snapshot.logLevel) {
+    setLogLevel(snapshot.logLevel);
+  }
+  const traceCategories = getTrace();
+  const traceChanged = traceCategories.length !== snapshot.traceCategories.length
+    || traceCategories.some((category, idx) => category !== snapshot.traceCategories[idx])
+    || traceLayerFilter.length !== snapshot.traceLayers.length
+    || traceLayerFilter.some((layer, idx) => layer !== snapshot.traceLayers[idx])
+    || traceMaxDecodeSteps !== snapshot.traceMaxDecodeSteps
+    || traceBreakOnAnomaly !== snapshot.traceBreakOnAnomaly;
+  if (traceChanged) {
+    if (snapshot.traceCategories.length > 0) {
+      setTrace(snapshot.traceCategories.join(','), {
+        layers: snapshot.traceLayers.length > 0 ? snapshot.traceLayers : undefined,
+        maxDecodeSteps: snapshot.traceMaxDecodeSteps > 0 ? snapshot.traceMaxDecodeSteps : undefined,
+        breakOnAnomaly: snapshot.traceBreakOnAnomaly,
+      });
+    } else {
+      setTrace(false);
+    }
+  }
+  setGPUDevice(snapshot.gpuDevice ?? null);
+}
+export function restorePipelineContexts(target) {
+  const restore = target?.[RESTORE_PIPELINE_CONTEXTS];
+  if (typeof restore !== 'function') {
+    return false;
+  }
+  delete target[RESTORE_PIPELINE_CONTEXTS];
+  restore();
+  return true;
+}
 export function applyPipelineContexts(target, contexts = {}, options = {}) {
+  restorePipelineContexts(target);
+  const previousRuntimeConfig = getRuntimeConfig();
+  const previousDevice = getDevice();
+  const previousPlatformConfig = getPlatformConfig();
+  const previousAdapterInfo = previousDevice
+    ? (getKernelCapabilities().adapterInfo ?? null)
+    : null;
+  const previousDebugState = captureDebugState();
+  const targetSnapshot = {
+    gpuContext: captureTargetField(target, 'gpuContext'),
+    useGPU: captureTargetField(target, 'useGPU'),
+    memoryContext: captureTargetField(target, 'memoryContext'),
+    storageContext: captureTargetField(target, 'storageContext'),
+    baseUrl: captureTargetField(target, 'baseUrl'),
+    _onProgress: captureTargetField(target, '_onProgress'),
+  };
   const runtimeConfig = contexts.runtimeConfig
     ? setRuntimeConfig(contexts.runtimeConfig)
     : getRuntimeConfig();
@@ -40,5 +147,38 @@ export function applyPipelineContexts(target, contexts = {}, options = {}) {
     target._onProgress = contexts.onProgress;
   }
-  return { runtimeConfig, sharedDebug };
+  let restored = false;
+  const restore = () => {
+    if (restored) {
+      return;
+    }
+    restored = true;
+    delete target[RESTORE_PIPELINE_CONTEXTS];
+    setRuntimeConfig(previousRuntimeConfig);
+    if (previousDevice) {
+      setDevice(previousDevice, {
+        platformConfig: previousPlatformConfig,
+        adapterInfo: previousAdapterInfo,
+      });
+    } else {
+      setDevice(null);
+    }
+    restoreDebugState(previousDebugState);
+    restoreTargetField(target, 'gpuContext', targetSnapshot.gpuContext);
+    restoreTargetField(target, 'useGPU', targetSnapshot.useGPU);
+    restoreTargetField(target, 'memoryContext', targetSnapshot.memoryContext);
+    restoreTargetField(target, 'storageContext', targetSnapshot.storageContext);
+    restoreTargetField(target, 'baseUrl', targetSnapshot.baseUrl);
+    restoreTargetField(target, '_onProgress', targetSnapshot._onProgress);
+  };
+  Object.defineProperty(target, RESTORE_PIPELINE_CONTEXTS, {
+    value: restore,
+    configurable: true,
+    enumerable: false,
+    writable: false,
+  });
+  return { runtimeConfig, sharedDebug, restore };
 }

package/src/inference/pipelines/diffusion/helpers.js CHANGED Viewed

@@ -54,8 +54,13 @@ export function createDiffusionIndexBuffer(device, indices, label) {
     size: indices.byteLength,
     usage: GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_DST,
   });
-  device.queue.writeBuffer(buffer, 0, indices);
-  return buffer;
+  try {
+    device.queue.writeBuffer(buffer, 0, indices);
+    return buffer;
+  } catch (error) {
+    buffer.destroy();
+    throw error;
+  }
 }
 export function expectDiffusionWeight(weight, label) {
@@ -84,6 +89,9 @@ export function normalizeDiffusionMatmulLocationDtype(dtype) {
   return normalized;
 }
+// Artifact-derived dtype inference: determines actual storage dtype from buffer byte size.
+// This is NOT a config-bypass — it reads physical buffer dimensions (artifact-derived config),
+// which is a valid merge layer per the config merge contract.
 export function inferDiffusionMatmulDtypeFromBuffer(weight, N, K, preferred) {
   const buffer = getBuffer(weight);
   if (!buffer || !Number.isFinite(N) || !Number.isFinite(K)) return preferred;

package/src/inference/pipelines/diffusion/pipeline.js CHANGED Viewed

@@ -1,7 +1,7 @@
 import { getDevice, getKernelCapabilities } from '../../../gpu/device.js';
 import { log, trace } from '../../../debug/index.js';
 import { registerPipeline } from '../registry.js';
-import { applyPipelineContexts } from '../context.js';
+import { applyPipelineContexts, restorePipelineContexts } from '../context.js';
 import { createInitializedPipeline } from '../factory.js';
 import { createRng, sampleNormal } from '../rng.js';
 import { initializeDiffusion } from './init.js';
@@ -319,6 +319,7 @@ export class DiffusionPipeline {
     this.vaeWeights = null;
     this.textEncoderWeights = null;
     this.transformerWeights = null;
+    restorePipelineContexts(this);
   }
   async ensureVaeWeights() {

package/src/inference/pipelines/diffusion/sd3-transformer.js CHANGED Viewed

@@ -299,26 +299,26 @@ function resolveModulationSegments(weight, hiddenSize, fallbackSegments, resolve
     if (Number.isInteger(segments) && segments > 0) {
       return segments;
     }
-    log.warn(
-      'Diffusion',
-      `Modulation segments mismatch for ${name || 'unknown'}: rows=${rows}, hidden=${hiddenSize}, fallback=${fallbackSegments}`
+    throw new Error(
+      `Modulation segments mismatch for ${name || 'unknown'}: rows=${rows}, hidden=${hiddenSize}, ` +
+      `expected an integer multiple instead of falling back to ${fallbackSegments}.`
     );
   }
-  return fallbackSegments;
+  throw new Error(
+    `Modulation tensor "${name || 'unknown'}" is missing shape metadata. ` +
+    `Runtime cannot fall back to ${fallbackSegments} segments.`
+  );
 }
 function resolveModulationOffsets(segments, hiddenSize) {
-  if (segments >= 9) {
+  if (segments === 9) {
     return {
       attn: { scale: 0, shift: hiddenSize, gate: hiddenSize * 2 },
       attn2: { scale: hiddenSize * 3, shift: hiddenSize * 4, gate: hiddenSize * 5 },
       ff: { scale: hiddenSize * 6, shift: hiddenSize * 7, gate: hiddenSize * 8 },
     };
   }
-  if (segments >= 6) {
-    if (segments !== 6) {
-      log.warn('Diffusion', `Unexpected modulation segment count=${segments}; using 6-segment layout.`);
-    }
+  if (segments === 6) {
     const attn = { scale: 0, shift: hiddenSize, gate: hiddenSize * 2 };
     return {
       attn,
@@ -326,7 +326,7 @@ function resolveModulationOffsets(segments, hiddenSize) {
       ff: { scale: hiddenSize * 3, shift: hiddenSize * 4, gate: hiddenSize * 5 },
     };
   }
-  throw new Error(`Unsupported modulation segments=${segments} (expected >= 6).`);
+  throw new Error(`Unsupported modulation segments=${segments} (expected 6 or 9).`);
 }
 async function buildModulation(timeText, weight, bias, hiddenSize, segments, runtime, matmul, weightName, ops) {

package/src/inference/pipelines/diffusion/text-encoder-gpu.js CHANGED Viewed

@@ -45,6 +45,8 @@ import { processLayerGPU } from '../text/layer.js';
 const QUICK_GELU_ALPHA = 1.702;
 const SUPPORTED_CLIP_HIDDEN_ACTIVATIONS = new Set(['gelu', 'quick_gelu']);
+// Standard CLIP hidden activation per OpenAI CLIP specification.
+const DEFAULT_CLIP_HIDDEN_ACT = 'gelu';
 function padTokens(tokens, maxLength, padTokenId) {
   if (!Number.isFinite(maxLength) || maxLength <= 0) {
@@ -100,11 +102,15 @@ function createVectorTensor(device, data, dtype, label) {
   return createTensor(buffer, dtype, [1, length], label);
 }
+// Conservative fallback dtype for diffusion bias tensors when no dtype
+// metadata is available. F32 avoids precision loss in bias additions.
+const DEFAULT_BIAS_DTYPE = 'f32';
 function resolveBiasDtype(weight, weightsEntry, key) {
   if (weight && weight.dtype) return weight.dtype;
   const locationDtype = weightsEntry?.dtypes?.get(key);
   const mapped = normalizeDiffusionLocationDtype(locationDtype);
-  return mapped || 'f32';
+  return mapped || DEFAULT_BIAS_DTYPE;
 }
 function createBiasTensorWithDtype(weight, weightsEntry, key, size, label) {
@@ -145,7 +151,7 @@ function createKernelOps(recorder) {
 }
 function resolveClipHiddenActivation(config) {
-  const hiddenAct = config?.hidden_act ?? 'gelu';
+  const hiddenAct = config?.hidden_act ?? DEFAULT_CLIP_HIDDEN_ACT;
   if (!SUPPORTED_CLIP_HIDDEN_ACTIVATIONS.has(hiddenAct)) {
     throw new Error(
       `Unsupported CLIP hidden_act "${hiddenAct}". ` +

package/src/inference/pipelines/diffusion/vae.js CHANGED Viewed

@@ -118,13 +118,9 @@ function resolveAttentionHeadShape(channels, config) {
       headDim: channels / configuredNumHeads,
     };
   }
-  const fallbackHeadDims = [64, 40, 32, 24, 20, 16, 12, 10, 8, 6, 5, 4, 3, 2, 1];
-  const headDim = fallbackHeadDims.find((candidate) => candidate <= channels && channels % candidate === 0) || 1;
-  return {
-    numHeads: Math.max(1, channels / headDim),
-    headDim,
-  };
+  throw new Error(
+    `VAE attention requires explicit compatible attention_head_dim or num_attention_heads for channels=${channels}.`
+  );
 }
 function createBiasTensor(weight, label, fallbackDtype = 'f16') {

package/src/inference/pipelines/energy/pipeline.js CHANGED Viewed

@@ -16,10 +16,10 @@ import { log, trace } from '../../../debug/index.js';
 import { DEFAULT_ENERGY_CONFIG } from '../../../config/schema/energy.schema.js';
 import { f32ToF16Array, f16ToF32Array } from '../../kv-cache/types.js';
 import { registerPipeline } from '../registry.js';
-import { applyPipelineContexts } from '../context.js';
+import { applyPipelineContexts, restorePipelineContexts } from '../context.js';
 import { createInitializedPipeline } from '../factory.js';
 import { createRng, sampleNormal } from '../rng.js';
-import { mergeQuintelConfig, runQuintelEnergyLoop } from './quintel.js';
+import { buildQuintelKernelFlags, mergeQuintelConfig, runQuintelEnergyLoop } from './quintel.js';
 function generateRandomArray(count, mode, seed, scale) {
@@ -140,24 +140,28 @@ async function createEnergyTensor(device, data, dtype, shape, label) {
   const byteLength = data.byteLength;
   const alignedSize = Math.ceil(byteLength / 4) * 4;
   const buffer = acquireBuffer(alignedSize, undefined, label);
+  try {
+    let payload = data;
+    if (alignedSize !== byteLength) {
+      const padded = new Uint8Array(alignedSize);
+      const view = data instanceof ArrayBuffer
+        ? new Uint8Array(data)
+        : new Uint8Array(data.buffer, data.byteOffset, data.byteLength);
+      padded.set(view);
+      payload = padded;
+    }
-  let payload = data;
-  if (alignedSize !== byteLength) {
-    const padded = new Uint8Array(alignedSize);
-    const view = data instanceof ArrayBuffer
-      ? new Uint8Array(data)
-      : new Uint8Array(data.buffer, data.byteOffset, data.byteLength);
-    padded.set(view);
-    payload = padded;
-  }
-  device.queue.writeBuffer(buffer, 0, payload);
-  const tensor = createTensor(buffer, dtype, shape, label);
-  const expectedBytes = tensorBytes(shape, dtype);
-  if (expectedBytes !== byteLength) {
-    log.warn('Energy', `${label} byte length mismatch: expected ${expectedBytes}, got ${byteLength}`);
+    device.queue.writeBuffer(buffer, 0, payload);
+    const tensor = createTensor(buffer, dtype, shape, label);
+    const expectedBytes = tensorBytes(shape, dtype);
+    if (expectedBytes !== byteLength) {
+      log.warn('Energy', `${label} byte length mismatch: expected ${expectedBytes}, got ${byteLength}`);
+    }
+    return tensor;
+  } catch (error) {
+    releaseBuffer(buffer);
+    throw error;
   }
-  return tensor;
 }
 async function readTensorToFloat32(tensor) {
@@ -202,6 +206,7 @@ export class EnergyPipeline {
   async unload() {
     this.manifest = null;
+    restorePipelineContexts(this);
   }
   async generate(request = {}) {
@@ -336,6 +341,7 @@ export class EnergyPipeline {
         const centerWeight = Number.isFinite(weights.center) ? weights.center : 1.0;
         const binarizeWeight = Number.isFinite(weights.binarize) ? weights.binarize : 0.0;
         const centerTarget = Number.isFinite(quintelConfig.centerTarget) ? quintelConfig.centerTarget : 1.0;
+        const flags = buildQuintelKernelFlags(rules, binarizeWeight);
         const energyHistory = [];
         const stepTimesMs = [];
         let lastEnergy = null;
@@ -387,11 +393,11 @@ export class EnergyPipeline {
             await runEnergyQuintelReduce(stateTensor, {
               count: elementCount,
               size,
+              flags,
               symmetryWeight,
               centerWeight,
               binarizeWeight,
               centerTarget,
-              rules,
               outputBuffer: reduceBuffer,
             });
@@ -447,13 +453,13 @@ export class EnergyPipeline {
             await runEnergyQuintelGrad(stateTensor, {
               count: elementCount,
               size,
+              flags,
               countDiff: safeCountDiff,
               symmetryWeight,
               countWeight,
               centerWeight,
               binarizeWeight,
               centerTarget,
-              rules,
               outputBuffer: gradBuffer,
             });
@@ -471,6 +477,7 @@ export class EnergyPipeline {
             await runEnergyQuintelUpdate(stateTensor, {
               count: elementCount,
               size,
+              flags,
               stepSize,
               gradientScale,
               countDiff: safeCountDiff,
@@ -481,7 +488,6 @@ export class EnergyPipeline {
               centerTarget,
               clampMin,
               clampMax,
-              rules,
             });
           }

package/src/inference/pipelines/energy/quintel.d.ts CHANGED Viewed

@@ -84,4 +84,9 @@ export function mergeQuintelConfig(
   override?: Partial<QuintelEnergyConfig> | null
 ): QuintelEnergyConfig;
+export function buildQuintelKernelFlags(
+  rules: Partial<QuintelRuleConfig> | null | undefined,
+  binarizeWeight?: number
+): number;
 export function runQuintelEnergyLoop(options: QuintelEnergyLoopOptions): QuintelEnergyLoopResult;

package/src/inference/pipelines/energy/quintel.js CHANGED Viewed

@@ -22,6 +22,17 @@ export function mergeQuintelConfig(base, override) {
   };
 }
+export function buildQuintelKernelFlags(rules, binarizeWeight) {
+  let flags = 0;
+  if (rules?.mirrorX) flags |= 1;
+  if (rules?.mirrorY) flags |= 2;
+  if (rules?.diagonal) flags |= 4;
+  if (rules?.count) flags |= 8;
+  if (rules?.center) flags |= 16;
+  if (Number.isFinite(binarizeWeight) && binarizeWeight !== 0) flags |= 32;
+  return flags >>> 0;
+}
 function applyPairEnergy(state, gradients, indexA, indexB, weight) {
   const diff = state[indexA] - state[indexB];
   const energy = weight * diff * diff;

package/src/inference/pipelines/energy-head/row-head-pipeline.js CHANGED Viewed

@@ -5,7 +5,7 @@ import { runEnergyEval, runEnergyUpdate } from '../../../gpu/kernels/index.js';
 import { log } from '../../../debug/index.js';
 import { f16ToF32Array, f32ToF16Array } from '../../kv-cache/types.js';
 import { registerPipeline } from '../registry.js';
-import { applyPipelineContexts } from '../context.js';
+import { applyPipelineContexts, restorePipelineContexts } from '../context.js';
 import { createInitializedPipeline } from '../factory.js';
 import { selectRuleValue } from '../../../rules/rule-registry.js';
@@ -165,19 +165,22 @@ async function createFeatureTensor(device, values, dtype, label) {
   const byteLength = payload.byteLength;
   const alignedSize = Math.ceil(byteLength / 4) * 4;
   const buffer = acquireBuffer(alignedSize, undefined, label);
-  if (alignedSize === byteLength) {
-    device.queue.writeBuffer(buffer, 0, payload);
-  } else {
-    const bytes = payload instanceof Uint16Array
-      ? new Uint8Array(payload.buffer, payload.byteOffset, payload.byteLength)
-      : new Uint8Array(payload.buffer, payload.byteOffset, payload.byteLength);
-    const padded = new Uint8Array(alignedSize);
-    padded.set(bytes);
-    device.queue.writeBuffer(buffer, 0, padded);
+  try {
+    if (alignedSize === byteLength) {
+      device.queue.writeBuffer(buffer, 0, payload);
+    } else {
+      const bytes = payload instanceof Uint16Array
+        ? new Uint8Array(payload.buffer, payload.byteOffset, payload.byteLength)
+        : new Uint8Array(payload.buffer, payload.byteOffset, payload.byteLength);
+      const padded = new Uint8Array(alignedSize);
+      padded.set(bytes);
+      device.queue.writeBuffer(buffer, 0, padded);
+    }
+    return createTensor(buffer, dtype, [values.length], label);
+  } catch (error) {
+    releaseBuffer(buffer);
+    throw error;
   }
-  return createTensor(buffer, dtype, [values.length], label);
 }
 async function readTensorF32(tensor) {
@@ -307,6 +310,7 @@ export class EnergyRowHeadPipeline {
     this.manifest = null;
     this.model = null;
     this.stats = {};
+    restorePipelineContexts(this);
   }
   async scoreRows(request = {}) {

package/src/inference/pipelines/structured/json-head-pipeline.js CHANGED Viewed

@@ -84,20 +84,35 @@ function parseStructuredJSONObject(rawText) {
 function resolveStructuredRuntime(manifest, runtimeConfig) {
   const modelCfg = isObj(manifest?.inference?.structuredJsonHead)
     ? manifest.inference.structuredJsonHead
-    : (isObj(manifest?.inference?.dream) ? manifest.inference.dream : {});
+    : null;
+  if (!modelCfg) {
+    throw new Error('StructuredJsonHeadPipeline: manifest.inference.structuredJsonHead is required.');
+  }
   const runtimeCfg = isObj(runtimeConfig?.inference?.structuredJsonHead)
     ? runtimeConfig.inference.structuredJsonHead
-    : (isObj(runtimeConfig?.inference?.dream) ? runtimeConfig.inference.dream : {});
+    : {};
+  const resolvedMaxTokens = Number.isFinite(runtimeCfg.maxTokens)
+    ? Math.max(1, Math.floor(runtimeCfg.maxTokens))
+    : (Number.isFinite(modelCfg.maxTokens) ? Math.max(1, Math.floor(modelCfg.maxTokens)) : null);
+  const resolvedTemperature = Number.isFinite(runtimeCfg.temperature)
+    ? Number(runtimeCfg.temperature)
+    : (Number.isFinite(modelCfg.temperature) ? Number(modelCfg.temperature) : null);
+  const resolvedMaxOutputChars = Number.isFinite(runtimeCfg.maxOutputChars)
+    ? Math.max(4096, Math.floor(runtimeCfg.maxOutputChars))
+    : (Number.isFinite(modelCfg.maxOutputChars) ? Math.max(4096, Math.floor(modelCfg.maxOutputChars)) : null);
+  if (!Number.isFinite(resolvedMaxTokens)) {
+    throw new Error('StructuredJsonHeadPipeline: structuredJsonHead.maxTokens is required.');
+  }
+  if (!Number.isFinite(resolvedTemperature)) {
+    throw new Error('StructuredJsonHeadPipeline: structuredJsonHead.temperature is required.');
+  }
+  if (!Number.isFinite(resolvedMaxOutputChars)) {
+    throw new Error('StructuredJsonHeadPipeline: structuredJsonHead.maxOutputChars is required.');
+  }
   return {
-    maxTokens: Number.isFinite(runtimeCfg.maxTokens)
-      ? Math.max(1, Math.floor(runtimeCfg.maxTokens))
-      : (Number.isFinite(modelCfg.maxTokens) ? Math.max(1, Math.floor(modelCfg.maxTokens)) : 768),
-    temperature: Number.isFinite(runtimeCfg.temperature)
-      ? Number(runtimeCfg.temperature)
-      : (Number.isFinite(modelCfg.temperature) ? Number(modelCfg.temperature) : 0),
-    maxOutputChars: Number.isFinite(runtimeCfg.maxOutputChars)
-      ? Math.max(4096, Math.floor(runtimeCfg.maxOutputChars))
-      : (Number.isFinite(modelCfg.maxOutputChars) ? Math.max(4096, Math.floor(modelCfg.maxOutputChars)) : 262144),
+    maxTokens: resolvedMaxTokens,
+    temperature: resolvedTemperature,
+    maxOutputChars: resolvedMaxOutputChars,
   };
 }

package/src/inference/pipelines/text/attention/output-projection.d.ts ADDED Viewed

@@ -0,0 +1,12 @@
+import type { Tensor } from '../../../../gpu/tensor.js';
+export interface AttentionProjectionInputResult {
+  oProjInput: Tensor;
+  oProjInputTemp: Tensor | null;
+}
+export function prepareAttentionProjectionInput(
+  attnForProjection: Tensor,
+  matmulOutputDtype: string,
+  castToF16: (tensor: Tensor) => Promise<Tensor>
+): Promise<AttentionProjectionInputResult>;

package/src/inference/pipelines/text/attention/output-projection.js ADDED Viewed

@@ -0,0 +1,8 @@
+export async function prepareAttentionProjectionInput(attnForProjection, matmulOutputDtype, castToF16) {
+  if (matmulOutputDtype === 'f16' && attnForProjection.dtype !== 'f16') {
+    const casted = await castToF16(attnForProjection);
+    return { oProjInput: casted, oProjInputTemp: casted };
+  }
+  return { oProjInput: attnForProjection, oProjInputTemp: null };
+}