npm - @simulatte/doppler - Versions diffs - 0.1.6 → 0.1.8 - Mend

@simulatte/doppler 0.1.6 → 0.1.8

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (355) hide show

package/CHANGELOG.md +145 -0
package/README.md +16 -23
package/package.json +30 -32
package/src/adapters/adapter-registry.js +12 -1
package/src/adapters/lora-loader.js +23 -6
package/src/bridge/extension-client.d.ts +5 -0
package/src/bridge/extension-client.js +40 -0
package/src/bridge/index.d.ts +2 -1
package/src/bridge/index.js +6 -4
package/src/browser/browser-converter.js +31 -1
package/src/browser/file-picker.js +6 -0
package/src/browser/safetensors-parser-browser.js +84 -1
package/src/browser/shard-io-browser.js +2 -2
package/src/browser/tensor-source-download.js +8 -2
package/src/browser/tensor-source-http.d.ts +1 -0
package/src/browser/tensor-source-http.js +5 -1
package/src/client/doppler-api.browser.js +20 -4
package/src/client/doppler-api.js +19 -3
package/src/client/doppler-provider/generation.js +12 -0
package/src/client/doppler-provider/model-manager.d.ts +10 -0
package/src/client/doppler-provider/model-manager.js +91 -19
package/src/client/doppler-provider/source-runtime.d.ts +2 -1
package/src/client/doppler-provider/source-runtime.js +132 -13
package/src/client/doppler-registry.json +5 -20
package/src/config/backward-registry-loader.js +17 -2
package/src/config/execution-v0-contract-check.js +113 -15
package/src/config/kernel-path-contract-check.js +57 -29
package/src/config/kernel-path-loader.d.ts +5 -0
package/src/config/kernel-path-loader.js +18 -36
package/src/config/kernels/kernel-ref-digests.js +1 -1
package/src/config/kernels/registry.js +14 -1
package/src/config/kernels/registry.json +81 -5
package/src/config/loader.d.ts +1 -1
package/src/config/loader.js +15 -2
package/src/config/merge-contract-check.js +66 -4
package/src/config/merge-helpers.js +128 -7
package/src/config/merge.d.ts +1 -0
package/src/config/merge.js +10 -0
package/src/config/param-validator.js +47 -2
package/src/config/presets/kernel-paths/{gemma2-q4k-dequant-f32a.json → gemma2-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/gemma3-f16-fused-f32a-online-streamingprefill.json +223 -0
package/src/config/presets/kernel-paths/{gemma3-q4k-dequant-f32a.json → gemma3-q4k-dequant-f32a-nosubgroups.json} +3 -3
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32w-f32a-online.json +56 -0
package/src/config/presets/kernel-paths/lfm2-q4k-dequant-f32a-nosubgroups.json +61 -0
package/src/config/presets/kernel-paths/registry.json +43 -8
package/src/config/presets/models/gemma2.json +3 -2
package/src/config/presets/models/gemma3.json +2 -0
package/src/config/presets/models/qwen3.json +4 -3
package/src/config/presets/models/qwen3_5.json +16 -0
package/src/config/presets/runtime/experiments/bench/gemma3-bench-q4k.json +1 -1
package/src/config/presets/runtime/experiments/debug/gemma3-debug-q4k.json +1 -1
package/src/config/presets/runtime/experiments/verify/gemma3-verify.json +1 -1
package/src/config/presets/runtime/kernels/dequant-f16-q4k.json +6 -13
package/src/config/presets/runtime/kernels/dequant-f32-q4k.json +6 -13
package/src/config/presets/runtime/kernels/embeddinggemma-q4k-dequant-f32a.json +37 -0
package/src/config/presets/runtime/kernels/fused-q4k.json +6 -13
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f16a.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-dequant-f32a-nosubgroups.json +33 -0
package/src/config/presets/runtime/kernels/gemma2-q4k-fused-f32a.json +33 -0
package/src/config/presets/runtime/kernels/safe-q4k.json +6 -13
package/src/config/presets/runtime/model/qwen3-5-layer-probe.json +52 -0
package/src/config/presets/runtime/model/qwen3-5-linear-attn-debug.json +90 -0
package/src/config/presets/runtime/platform/metal-apple-q4k.json +1 -1
package/src/config/runtime.js +6 -1
package/src/config/schema/conversion.schema.d.ts +1 -0
package/src/config/schema/debug.schema.d.ts +5 -0
package/src/config/schema/doppler.schema.js +16 -21
package/src/config/schema/inference-defaults.schema.js +3 -3
package/src/config/schema/kernel-path.schema.d.ts +5 -1
package/src/config/schema/kernel-thresholds.schema.js +12 -4
package/src/config/schema/manifest.schema.d.ts +3 -2
package/src/config/schema/manifest.schema.js +17 -4
package/src/config/schema/storage.schema.js +1 -1
package/src/config/training-defaults.js +30 -22
package/src/converter/conversion-plan.js +104 -11
package/src/converter/core.d.ts +7 -0
package/src/converter/core.js +16 -9
package/src/converter/execution-v0-manifest.js +4 -1
package/src/converter/index.d.ts +1 -0
package/src/converter/index.js +1 -0
package/src/converter/manifest-inference.js +50 -29
package/src/converter/parsers/diffusion.js +0 -3
package/src/converter/parsers/transformer.js +4 -0
package/src/converter/quantization-info.js +40 -16
package/src/converter/quantizer.js +19 -12
package/src/converter/rope-config.js +8 -6
package/src/converter/shard-packer.d.ts +1 -1
package/src/converter/shard-packer.js +4 -1
package/src/converter/tokenizer-utils.d.ts +1 -0
package/src/converter/tokenizer-utils.js +4 -1
package/src/debug/config.js +123 -11
package/src/debug/reference/hf_qwen35_linear_attn_debug.py +268 -0
package/src/debug/signals.js +7 -1
package/src/debug/tensor.d.ts +2 -0
package/src/debug/tensor.js +13 -2
package/src/distribution/p2p-control-plane.js +52 -12
package/src/distribution/p2p-observability.js +43 -7
package/src/distribution/p2p-webrtc-browser.js +20 -0
package/src/distribution/shard-delivery.js +83 -27
package/src/formats/gguf/types.js +33 -16
package/src/formats/rdrr/groups.d.ts +12 -4
package/src/formats/rdrr/groups.js +3 -6
package/src/formats/rdrr/parsing.d.ts +4 -0
package/src/formats/rdrr/parsing.js +53 -3
package/src/formats/rdrr/types.d.ts +2 -1
package/src/gpu/command-recorder.js +86 -61
package/src/gpu/device.d.ts +1 -0
package/src/gpu/device.js +73 -19
package/src/gpu/kernel-tuner/benchmarks.js +326 -316
package/src/gpu/kernel-tuner/cache.js +71 -4
package/src/gpu/kernel-tuner/tuner.js +22 -4
package/src/gpu/kernels/attention.js +15 -34
package/src/gpu/kernels/backward/adam.js +62 -58
package/src/gpu/kernels/backward/attention_backward.js +257 -169
package/src/gpu/kernels/backward/conv2d_backward.js +14 -1
package/src/gpu/kernels/cast.js +191 -149
package/src/gpu/kernels/check-stop.js +33 -44
package/src/gpu/kernels/conv2d.js +27 -17
package/src/gpu/kernels/cross_entropy_loss.js +21 -15
package/src/gpu/kernels/depthwise_conv2d.js +36 -26
package/src/gpu/kernels/dequant.js +178 -126
package/src/gpu/kernels/energy.d.ts +3 -21
package/src/gpu/kernels/energy.js +111 -88
package/src/gpu/kernels/feature-check.js +1 -1
package/src/gpu/kernels/fused_ffn.js +84 -65
package/src/gpu/kernels/fused_matmul_residual.js +56 -33
package/src/gpu/kernels/fused_matmul_rmsnorm.js +62 -45
package/src/gpu/kernels/gather.js +33 -15
package/src/gpu/kernels/gelu.js +19 -11
package/src/gpu/kernels/grouped_pointwise_conv2d.js +33 -23
package/src/gpu/kernels/groupnorm.js +34 -23
package/src/gpu/kernels/index.d.ts +8 -0
package/src/gpu/kernels/index.js +6 -0
package/src/gpu/kernels/kv-quantize.js +5 -2
package/src/gpu/kernels/layernorm.js +35 -19
package/src/gpu/kernels/logit-merge.js +5 -3
package/src/gpu/kernels/matmul-selection.js +47 -4
package/src/gpu/kernels/matmul.d.ts +2 -0
package/src/gpu/kernels/matmul.js +59 -40
package/src/gpu/kernels/modulate.js +23 -15
package/src/gpu/kernels/moe.js +221 -175
package/src/gpu/kernels/pixel_shuffle.js +22 -14
package/src/gpu/kernels/relu.js +18 -10
package/src/gpu/kernels/repeat_channels.js +25 -17
package/src/gpu/kernels/residual.js +37 -27
package/src/gpu/kernels/rmsnorm.js +66 -43
package/src/gpu/kernels/rope.js +3 -0
package/src/gpu/kernels/sample.js +27 -38
package/src/gpu/kernels/sana_linear_attention.js +18 -10
package/src/gpu/kernels/scale.js +18 -11
package/src/gpu/kernels/shader-cache.js +4 -2
package/src/gpu/kernels/silu.js +120 -72
package/src/gpu/kernels/softmax.js +44 -25
package/src/gpu/kernels/split_qg.d.ts +50 -0
package/src/gpu/kernels/split_qg.js +46 -0
package/src/gpu/kernels/split_qg.wgsl +58 -0
package/src/gpu/kernels/split_qg_f16.wgsl +62 -0
package/src/gpu/kernels/split_qkv.js +23 -13
package/src/gpu/kernels/transpose.js +18 -10
package/src/gpu/kernels/transpose.wgsl +5 -3
package/src/gpu/kernels/upsample2d.js +21 -13
package/src/gpu/kernels/utils.js +20 -13
package/src/gpu/partitioned-buffer-pool.js +10 -2
package/src/gpu/perf-guards.js +2 -9
package/src/gpu/profiler.js +27 -22
package/src/gpu/readback-utils.d.ts +16 -0
package/src/gpu/readback-utils.js +41 -0
package/src/gpu/submit-tracker.js +13 -0
package/src/gpu/uniform-cache.d.ts +1 -0
package/src/gpu/uniform-cache.js +30 -9
package/src/gpu/weight-buffer.d.ts +1 -1
package/src/gpu/weight-buffer.js +1 -1
package/src/hotswap/intent-bundle.js +6 -0
package/src/hotswap/manifest.d.ts +10 -1
package/src/hotswap/manifest.js +12 -2
package/src/hotswap/runtime.js +30 -8
package/src/index-browser.d.ts +44 -0
package/src/index-browser.js +14 -0
package/src/inference/browser-harness-contract-helpers.d.ts +5 -0
package/src/inference/browser-harness-contract-helpers.js +28 -0
package/src/inference/browser-harness-diffusion-energy-suites.d.ts +2 -0
package/src/inference/browser-harness-diffusion-energy-suites.js +269 -0
package/src/inference/browser-harness-model-helpers.d.ts +16 -0
package/src/inference/browser-harness-model-helpers.js +217 -0
package/src/inference/browser-harness-report-helpers.d.ts +7 -0
package/src/inference/browser-harness-report-helpers.js +42 -0
package/src/inference/browser-harness-runtime-helpers.d.ts +61 -0
package/src/inference/browser-harness-runtime-helpers.js +415 -0
package/src/inference/browser-harness-suite-helpers.d.ts +28 -0
package/src/inference/browser-harness-suite-helpers.js +268 -0
package/src/inference/browser-harness-text-helpers.d.ts +27 -0
package/src/inference/browser-harness-text-helpers.js +788 -0
package/src/inference/browser-harness.d.ts +8 -0
package/src/inference/browser-harness.js +149 -1996
package/src/inference/kv-cache/base.js +140 -94
package/src/inference/kv-cache/tiered.js +5 -3
package/src/inference/moe-router.js +88 -56
package/src/inference/multi-model-network.js +5 -3
package/src/inference/network-evolution.d.ts +11 -2
package/src/inference/network-evolution.js +20 -21
package/src/inference/pipelines/context.d.ts +3 -0
package/src/inference/pipelines/context.js +142 -2
package/src/inference/pipelines/diffusion/helpers.js +10 -2
package/src/inference/pipelines/diffusion/pipeline.js +2 -1
package/src/inference/pipelines/diffusion/sd3-transformer.js +10 -10
package/src/inference/pipelines/diffusion/text-encoder-gpu.js +8 -2
package/src/inference/pipelines/diffusion/vae.js +3 -7
package/src/inference/pipelines/energy/pipeline.js +27 -21
package/src/inference/pipelines/energy/quintel.d.ts +5 -0
package/src/inference/pipelines/energy/quintel.js +11 -0
package/src/inference/pipelines/energy-head/row-head-pipeline.js +17 -13
package/src/inference/pipelines/structured/json-head-pipeline.js +26 -11
package/src/inference/pipelines/text/attention/output-projection.d.ts +12 -0
package/src/inference/pipelines/text/attention/output-projection.js +8 -0
package/src/inference/pipelines/text/attention/projections.d.ts +10 -1
package/src/inference/pipelines/text/attention/projections.js +192 -112
package/src/inference/pipelines/text/attention/record.js +77 -14
package/src/inference/pipelines/text/attention/run.js +112 -14
package/src/inference/pipelines/text/config.js +17 -4
package/src/inference/pipelines/text/embed.js +2 -8
package/src/inference/pipelines/text/execution-plan.js +46 -23
package/src/inference/pipelines/text/execution-v0-contract-helpers.d.ts +59 -0
package/src/inference/pipelines/text/execution-v0-contract-helpers.js +937 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.d.ts +15 -0
package/src/inference/pipelines/text/execution-v0-runtime-builders.js +279 -0
package/src/inference/pipelines/text/execution-v0.js +62 -1013
package/src/inference/pipelines/text/generator-runtime.js +5 -0
package/src/inference/pipelines/text/generator-steps.d.ts +52 -0
package/src/inference/pipelines/text/generator-steps.js +340 -221
package/src/inference/pipelines/text/generator.js +56 -40
package/src/inference/pipelines/text/init.d.ts +13 -0
package/src/inference/pipelines/text/init.js +94 -25
package/src/inference/pipelines/text/kernel-path-auto-select.js +2 -0
package/src/inference/pipelines/text/kernel-trace.d.ts +2 -0
package/src/inference/pipelines/text/kernel-trace.js +6 -0
package/src/inference/pipelines/text/layer.js +4 -9
package/src/inference/pipelines/text/linear-attention.d.ts +15 -0
package/src/inference/pipelines/text/linear-attention.js +113 -9
package/src/inference/pipelines/text/logits/gpu.js +12 -7
package/src/inference/pipelines/text/logits/index.d.ts +6 -1
package/src/inference/pipelines/text/logits/index.js +13 -12
package/src/inference/pipelines/text/logits/utils.d.ts +7 -0
package/src/inference/pipelines/text/logits/utils.js +9 -0
package/src/inference/pipelines/text/lora-apply.js +50 -32
package/src/inference/pipelines/text/model-load.js +282 -104
package/src/inference/pipelines/text/moe-cache.js +5 -4
package/src/inference/pipelines/text/moe-cpu-gptoss.js +74 -69
package/src/inference/pipelines/text/moe-cpu.js +42 -38
package/src/inference/pipelines/text/moe-gpu.js +110 -86
package/src/inference/pipelines/text/ops.js +90 -90
package/src/inference/pipelines/text/probes.js +9 -9
package/src/inference/pipelines/text/sampling.js +52 -6
package/src/inference/pipelines/text/weights.js +17 -7
package/src/inference/pipelines/text.js +13 -1
package/src/inference/speculative.d.ts +2 -2
package/src/inference/speculative.js +4 -18
package/src/inference/test-harness.d.ts +1 -1
package/src/inference/test-harness.js +17 -7
package/src/inference/tokenizer.d.ts +0 -5
package/src/inference/tokenizer.js +4 -23
package/src/inference/tokenizers/bpe.js +9 -0
package/src/inference/tokenizers/bundled.js +20 -0
package/src/inference/tokenizers/sentencepiece.js +12 -0
package/src/loader/doppler-loader.js +38 -22
package/src/loader/dtype-utils.js +3 -44
package/src/loader/embedding-loader.js +7 -3
package/src/loader/experts/expert-cache.js +13 -6
package/src/loader/experts/expert-loader.js +10 -6
package/src/loader/final-weights-loader.js +10 -4
package/src/loader/layer-loader.js +2 -1
package/src/loader/loader-state.js +2 -2
package/src/loader/memory-monitor.js +8 -0
package/src/loader/multi-model-loader.d.ts +14 -0
package/src/loader/multi-model-loader.js +70 -24
package/src/loader/shard-cache.js +84 -14
package/src/loader/shard-resolver.js +25 -3
package/src/loader/tensors/tensor-loader.js +214 -144
package/src/loader/tensors/tensor-reader.js +76 -19
package/src/loader/weight-downcast.js +1 -1
package/src/memory/buffer-pool.d.ts +9 -1
package/src/memory/buffer-pool.js +109 -44
package/src/memory/unified-detect.js +1 -1
package/src/rules/inference/dtype.rules.json +5 -0
package/src/rules/inference/kernel-path.rules.json +24 -8
package/src/rules/kernels/split-qg.rules.json +6 -0
package/src/rules/rule-registry.js +27 -1
package/src/storage/backends/opfs-store.js +68 -24
package/src/storage/downloader.js +365 -83
package/src/storage/index.d.ts +3 -0
package/src/storage/index.js +3 -0
package/src/storage/preflight.d.ts +2 -2
package/src/storage/preflight.js +24 -2
package/src/storage/quickstart-downloader.js +11 -5
package/src/storage/registry.js +10 -4
package/src/storage/reports.js +1 -1
package/src/storage/shard-manager.d.ts +15 -1
package/src/storage/shard-manager.js +55 -6
package/src/storage/source-artifact-store.d.ts +52 -0
package/src/storage/source-artifact-store.js +234 -0
package/src/tooling/command-api-constants.d.ts +9 -0
package/src/tooling/command-api-constants.js +9 -0
package/src/tooling/command-api-family-normalizers.d.ts +9 -0
package/src/tooling/command-api-family-normalizers.js +343 -0
package/src/tooling/command-api-helpers.d.ts +25 -0
package/src/tooling/command-api-helpers.js +262 -0
package/src/tooling/command-api.js +16 -602
package/src/tooling/command-envelope.js +4 -1
package/src/tooling/command-runner-shared.js +52 -18
package/src/tooling/conversion-config-materializer.js +3 -5
package/src/tooling/lean-execution-contract.js +150 -3
package/src/tooling/node-browser-command-runner.js +161 -271
package/src/tooling/node-command-runner.js +29 -3
package/src/tooling/node-converter.js +30 -1
package/src/tooling/node-source-runtime.d.ts +1 -1
package/src/tooling/node-source-runtime.js +120 -3
package/src/tooling/node-webgpu.js +24 -21
package/src/tooling/opfs-cache.js +21 -4
package/src/tooling/runtime-input-composition.d.ts +38 -0
package/src/tooling/runtime-input-composition.js +86 -0
package/src/tooling/source-runtime-bundle.d.ts +40 -5
package/src/tooling/source-runtime-bundle.js +261 -34
package/src/tooling/source-runtime-materializer.d.ts +6 -0
package/src/tooling/source-runtime-materializer.js +93 -0
package/src/training/attention-backward.js +32 -17
package/src/training/autograd.js +80 -52
package/src/training/checkpoint-watch.d.ts +2 -1
package/src/training/checkpoint-watch.js +39 -6
package/src/training/checkpoint.js +40 -11
package/src/training/clip.js +2 -1
package/src/training/datasets/token-batch.js +20 -8
package/src/training/distillation/checkpoint-watch.js +1 -0
package/src/training/distillation/student-fixture.d.ts +22 -0
package/src/training/distillation/student-fixture.js +846 -0
package/src/training/distillation/suite-data.d.ts +45 -0
package/src/training/distillation/suite-data.js +189 -0
package/src/training/lora-pipeline.js +4 -7
package/src/training/lora.js +26 -12
package/src/training/loss.js +5 -6
package/src/training/objectives/cross_entropy.js +2 -5
package/src/training/objectives/distill_kd.js +4 -8
package/src/training/objectives/distill_triplet.js +4 -8
package/src/training/objectives/ul_stage2_base.js +4 -8
package/src/training/operator-command.js +2 -0
package/src/training/optimizer.js +19 -7
package/src/training/runner.js +2 -1
package/src/training/suite.js +18 -978
package/src/training/tensor-factory.d.ts +9 -0
package/src/training/tensor-factory.js +13 -0
package/src/training/trainer.js +3 -5
package/src/training/ul_dataset.js +3 -5
package/src/training/workloads.js +70 -79
package/src/types/model.d.ts +5 -0
package/src/version.js +1 -1
package/tools/convert-safetensors-node.js +22 -16
package/tools/doppler-cli.js +50 -26

package/src/config/schema/manifest.schema.js CHANGED Viewed

@@ -1,4 +1,5 @@
 import { MB } from './units.schema.js';
+import { validateRequiredInferenceFields } from '../../inference/pipelines/text/config.js';
 // =============================================================================
 // Hash & Versioning
@@ -39,7 +40,7 @@ export const DEFAULT_MANIFEST_INFERENCE = {
   schema: null,
   presetId: null,
   attention: {
-    queryPreAttnScalar: 8,  // sqrt(64) for standard 64-dim heads
+    queryPreAttnScalar: 64, // headDim for standard 64-dim heads; attnScale = 1/sqrt(scalar)
     attnLogitSoftcapping: null,  // No softcapping (null = disabled)
     slidingWindow: null,  // Full attention (null = no sliding window)
     queryKeyNorm: false,
@@ -70,9 +71,9 @@ export const DEFAULT_MANIFEST_INFERENCE = {
     ropeLocalScalingType: null,  // Local scaling policy (null = no scaling)
     ropeLocalScalingFactor: 1.0,
     // YARN parameters - only relevant when ropeScalingType='yarn'
-    yarnBetaFast: 32,
-    yarnBetaSlow: 1,
-    yarnOriginalMaxPos: 4096,
+    yarnBetaFast: null,
+    yarnBetaSlow: null,
+    yarnOriginalMaxPos: null,
     // Local YARN parameters - only relevant when ropeLocalScalingType='yarn'
     ropeLocalYarnBetaFast: null,
     ropeLocalYarnBetaSlow: null,
@@ -124,6 +125,18 @@ export function validateManifestInference(
       `Please re-convert the model using the latest converter.`
     );
   }
+  if (manifest.modelType === 'diffusion' || manifest.modelType === 'energy') {
+    return;
+  }
+  const inference = typeof structuredClone === 'function'
+    ? structuredClone(manifest.inference)
+    : JSON.parse(JSON.stringify(manifest.inference));
+  validateRequiredInferenceFields(
+    inference,
+    manifest.modelId ?? 'unknown'
+  );
 }
 export function hasInferenceConfig(

package/src/config/schema/storage.schema.js CHANGED Viewed

@@ -35,7 +35,7 @@ export const DEFAULT_STORAGE_ALIGNMENT_CONFIG = {
 export const DEFAULT_STORAGE_BACKEND_CONFIG = {
   backend: 'auto', // auto | opfs | indexeddb | memory
   opfs: {
-    useSyncAccessHandle: true,
+    useSyncAccessHandle: false,
     maxConcurrentHandles: 2,
   },
   indexeddb: {

package/src/config/training-defaults.js CHANGED Viewed

@@ -2,9 +2,17 @@ import { createDopplerConfig, DEFAULT_TRAINING_SETTINGS } from './schema/index.j
 import { validateDistillTrainingConfig } from './schema/distill-training.schema.js';
 import { validateUlTrainingConfig } from './schema/ul-training.schema.js';
+function cloneConfigTree(value) {
+  if (typeof structuredClone === 'function') {
+    return structuredClone(value);
+  }
+  return JSON.parse(JSON.stringify(value));
+}
 function mergeTrainingSettings(base, overrides) {
+  const baseConfig = cloneConfigTree(base);
   if (!overrides) {
-    const merged = { ...base };
+    const merged = baseConfig;
     validateDistillTrainingConfig(merged.distill);
     validateUlTrainingConfig(merged.ul);
     if (merged.distill.enabled === true && merged.ul.enabled === true) {
@@ -14,42 +22,42 @@ function mergeTrainingSettings(base, overrides) {
   }
   const merged = {
-    enabled: overrides.enabled ?? base.enabled,
-    lora: { ...base.lora, ...overrides.lora },
+    enabled: overrides.enabled ?? baseConfig.enabled,
+    lora: { ...baseConfig.lora, ...overrides.lora },
     optimizer: {
-      ...base.optimizer,
+      ...baseConfig.optimizer,
       ...overrides.optimizer,
-      scheduler: { ...base.optimizer.scheduler, ...overrides.optimizer?.scheduler },
+      scheduler: { ...baseConfig.optimizer.scheduler, ...overrides.optimizer?.scheduler },
     },
-    gradient: { ...base.gradient, ...overrides.gradient },
-    precision: { ...base.precision, ...overrides.precision },
-    attention: { ...base.attention, ...overrides.attention },
+    gradient: { ...baseConfig.gradient, ...overrides.gradient },
+    precision: { ...baseConfig.precision, ...overrides.precision },
+    attention: { ...baseConfig.attention, ...overrides.attention },
     telemetry: {
-      ...base.telemetry,
+      ...baseConfig.telemetry,
       ...overrides.telemetry,
       alerts: {
-        ...base.telemetry.alerts,
+        ...baseConfig.telemetry.alerts,
         ...overrides.telemetry?.alerts,
         thresholds: {
-          ...base.telemetry.alerts.thresholds,
+          ...baseConfig.telemetry.alerts.thresholds,
           ...overrides.telemetry?.alerts?.thresholds,
         },
       },
     },
-    lossScaling: { ...base.lossScaling, ...overrides.lossScaling },
+    lossScaling: { ...baseConfig.lossScaling, ...overrides.lossScaling },
     distill: {
-      ...base.distill,
+      ...baseConfig.distill,
       ...overrides.distill,
-      freeze: { ...base.distill.freeze, ...overrides.distill?.freeze },
+      freeze: { ...baseConfig.distill.freeze, ...overrides.distill?.freeze },
     },
     ul: {
-      ...base.ul,
+      ...baseConfig.ul,
       ...overrides.ul,
-      noiseSchedule: { ...base.ul.noiseSchedule, ...overrides.ul?.noiseSchedule },
-      priorAlignment: { ...base.ul.priorAlignment, ...overrides.ul?.priorAlignment },
-      decoderSigmoidWeight: { ...base.ul.decoderSigmoidWeight, ...overrides.ul?.decoderSigmoidWeight },
-      lossWeights: { ...base.ul.lossWeights, ...overrides.ul?.lossWeights },
-      freeze: { ...base.ul.freeze, ...overrides.ul?.freeze },
+      noiseSchedule: { ...baseConfig.ul.noiseSchedule, ...overrides.ul?.noiseSchedule },
+      priorAlignment: { ...baseConfig.ul.priorAlignment, ...overrides.ul?.priorAlignment },
+      decoderSigmoidWeight: { ...baseConfig.ul.decoderSigmoidWeight, ...overrides.ul?.decoderSigmoidWeight },
+      lossWeights: { ...baseConfig.ul.lossWeights, ...overrides.ul?.lossWeights },
+      freeze: { ...baseConfig.ul.freeze, ...overrides.ul?.freeze },
     },
   };
   validateDistillTrainingConfig(merged.distill);
@@ -74,7 +82,7 @@ export function createTrainingConfig(overrides = {}) {
 export const DEFAULT_TRAINING_CONFIG = createTrainingConfig();
-let trainingConfig = DEFAULT_TRAINING_CONFIG;
+let trainingConfig = createTrainingConfig();
 export function getTrainingConfig() {
   return trainingConfig;
@@ -86,6 +94,6 @@ export function setTrainingConfig(overrides) {
 }
 export function resetTrainingConfig() {
-  trainingConfig = DEFAULT_TRAINING_CONFIG;
+  trainingConfig = createTrainingConfig();
   return trainingConfig;
 }

package/src/converter/conversion-plan.js CHANGED Viewed

@@ -17,6 +17,8 @@ import { sanitizeModelId } from './core.js';
 import { classifyTensorRole } from '../formats/rdrr/index.js';
 import { selectRuleValue } from '../rules/rule-registry.js';
 import { buildKernelRefFromKernelEntry, isKernelRefBoundToKernel } from '../config/kernels/kernel-ref.js';
+import { mergeLayeredShallowObjects } from '../config/merge-helpers.js';
+import { buildExecutionV0ContractArtifact } from '../config/execution-v0-contract-check.js';
 const KNOWN_MODEL_PRESETS = new Set(listPresets());
 const CONVERSION_SUPPORTED_PRESETS = [...KNOWN_MODEL_PRESETS]
@@ -115,7 +117,10 @@ function isLikelyEmbeddingGemma(rawConfig, architectureHint) {
 export function inferSourceWeightQuantization(tensors) {
   if (!Array.isArray(tensors) || tensors.length === 0) {
-    return 'f16';
+    throw new Error(
+      'Cannot infer source weight quantization: no tensors provided. ' +
+      'Set converterConfig.quantization.weights explicitly.'
+    );
   }
   const weightTensors = [];
   for (const tensor of tensors) {
@@ -126,7 +131,12 @@ export function inferSourceWeightQuantization(tensors) {
     weightTensors.push({ name, dtype });
   }
   const dtypes = new Set(weightTensors.map((tensor) => tensor.dtype));
-  if (dtypes.size === 0) return 'f16';
+  if (dtypes.size === 0) {
+    throw new Error(
+      'Cannot infer source weight quantization: no recognizable weight dtypes found. ' +
+      'Set converterConfig.quantization.weights explicitly.'
+    );
+  }
   if (dtypes.size > 1) {
     const detail = Array.from(dtypes)
       .sort()
@@ -179,9 +189,6 @@ export function validateDefaultKernelPath(inference, context = {}) {
     && expectedComputeDtype !== kernelActivationDtype
   ) {
     const presetId = context?.presetId ?? 'unknown';
-    if (presetId === 'lfm2' && expectedComputeDtype === 'f32' && kernelActivationDtype === 'f16') {
-      return;
-    }
     throw new Error(
       `Invalid defaultKernelPath "${inference.defaultKernelPath}" for preset "${presetId}" ` +
       `(weights=${quantizationInfo?.weights ?? 'unknown'}, compute=${expectedComputeDtype}, ` +
@@ -208,6 +215,61 @@ function cloneJson(value) {
   return JSON.parse(JSON.stringify(value));
 }
+function mergeExecutionV0SessionDefaults(baseSessionDefaults, overrideSessionDefaults) {
+  if (!overrideSessionDefaults) {
+    return cloneJson(baseSessionDefaults);
+  }
+  const base = cloneJson(baseSessionDefaults ?? {});
+  const override = cloneJson(overrideSessionDefaults);
+  const baseCompute = base.compute ?? {};
+  const overrideCompute = override.compute ?? {};
+  return {
+    ...base,
+    ...override,
+    compute: {
+      ...baseCompute,
+      ...overrideCompute,
+      defaults: mergeLayeredShallowObjects(
+        baseCompute.defaults ?? {},
+        overrideCompute.defaults ?? {}
+      ),
+      kernelProfiles: Object.prototype.hasOwnProperty.call(overrideCompute, 'kernelProfiles')
+        ? overrideCompute.kernelProfiles
+        : baseCompute.kernelProfiles,
+    },
+    kvcache: Object.prototype.hasOwnProperty.call(override, 'kvcache')
+      ? (
+          override.kvcache === null
+            ? null
+            : mergeLayeredShallowObjects(base.kvcache ?? {}, override.kvcache ?? {})
+        )
+      : base.kvcache,
+    decodeLoop: Object.prototype.hasOwnProperty.call(override, 'decodeLoop')
+      ? (
+          override.decodeLoop === null
+            ? null
+            : mergeLayeredShallowObjects(base.decodeLoop ?? {}, override.decodeLoop ?? {})
+        )
+      : base.decodeLoop,
+  };
+}
+function assertExecutionV0ConversionContract(manifestInference, modelId) {
+  if (!manifestInference?.execution) {
+    return;
+  }
+  const artifact = buildExecutionV0ContractArtifact(manifestInference, {
+    modelId: modelId ?? 'converted-model',
+  });
+  if (!artifact?.ok) {
+    const detail = artifact?.errors?.join(' ') ?? 'unknown execution-v0 contract error';
+    throw new Error(
+      `converterConfig.inference produced an invalid execution-v0 contract: ${detail}`
+    );
+  }
+}
 function readConverterSessionDefaultsOverride(converterConfig) {
   const raw = converterConfig?.inference?.sessionDefaults;
   if (raw == null) return null;
@@ -219,6 +281,26 @@ function readConverterSessionDefaultsOverride(converterConfig) {
   return cloneJson(raw);
 }
+function assertNonExecutionSessionDefaults(manifestInference) {
+  const sessionDefaults = manifestInference?.sessionDefaults;
+  if (sessionDefaults == null) {
+    return;
+  }
+  if (typeof sessionDefaults !== 'object' || Array.isArray(sessionDefaults)) {
+    throw new Error(
+      'converterConfig.inference.sessionDefaults must resolve to an object for non-execution manifests.'
+    );
+  }
+  const keys = Object.keys(sessionDefaults);
+  const invalidKeys = keys.filter((key) => key !== 'decodeLoop');
+  if (invalidKeys.length > 0) {
+    throw new Error(
+      'converterConfig.inference.sessionDefaults may only set decodeLoop unless ' +
+      'converterConfig.inference.execution is present.'
+    );
+  }
+}
 function readConverterExecutionOverride(converterConfig) {
   const raw = converterConfig?.inference?.execution;
   if (raw == null) return null;
@@ -331,10 +413,10 @@ function applyConverterInferenceOverrides(manifestInference, converterConfig, co
     manifestInference.defaultKernelPath = overrideKernelPath;
   }
   const sessionDefaults = readConverterSessionDefaultsOverride(converterConfig);
+  const execution = readConverterExecutionOverride(converterConfig);
   if (sessionDefaults) {
     manifestInference.sessionDefaults = sessionDefaults;
   }
-  const execution = readConverterExecutionOverride(converterConfig);
   if (execution) {
     manifestInference.execution = execution;
   }
@@ -351,17 +433,28 @@ function applyConverterInferenceOverrides(manifestInference, converterConfig, co
     const generatedExecution = buildExecutionV0FromKernelPath(manifestInference.defaultKernelPath);
     if (generatedExecution) {
       manifestInference.execution = generatedExecution.execution;
-      if (!manifestInference.sessionDefaults) {
-        manifestInference.sessionDefaults = generatedExecution.sessionDefaults;
-      }
+      manifestInference.sessionDefaults = mergeExecutionV0SessionDefaults(
+        generatedExecution.sessionDefaults,
+        manifestInference.sessionDefaults
+      );
       manifestInference.schema = generatedExecution.schema;
     }
   }
-  if (manifestInference.execution || sessionDefaults || execution) {
+  if (execution && !manifestInference.sessionDefaults) {
+    throw new Error(
+      'converterConfig.inference.execution requires converterConfig.inference.sessionDefaults.'
+    );
+  }
+  if (manifestInference.execution) {
     manifestInference.schema = EXECUTION_V0_SCHEMA_ID;
+  } else {
+    assertNonExecutionSessionDefaults(manifestInference);
+    manifestInference.schema = null;
   }
   validateDefaultKernelPath(manifestInference, context);
+  assertExecutionV0ConversionContract(manifestInference, context?.modelId ?? context?.presetId);
 }
 export function resolveConversionPlan(options) {
@@ -418,7 +511,7 @@ export function resolveConversionPlan(options) {
   if (!presetOverride && isLikelyEmbeddingGemma(rawConfig, architectureHint)) {
     presetId = 'embeddinggemma';
   }
-  if (presetId === 'transformer') {
+  if (!presetId) {
     throw buildUnknownFamilyError(architectureHint, rawConfig, options?.includePresetOverrideHint === true);
   }
   const preset = resolvePreset(presetId);

package/src/converter/core.d.ts CHANGED Viewed

@@ -168,6 +168,13 @@ export declare const RDRR_VERSION: number;
  */
 export declare function sanitizeModelId(name: string): string | null;
+/**
+ * Resolve bundled tokenizer vocab size from Hugging Face tokenizer.json payloads.
+ */
+export declare function resolveBundledTokenizerVocabSize(
+  tokenizerJson: Record<string, unknown> | null | undefined
+): number;
 /**
  * Format bytes for human-readable display
  */

package/src/converter/core.js CHANGED Viewed

@@ -26,6 +26,7 @@ import { buildManifestRequiredInferenceFieldsArtifact } from '../config/required
 import { buildManifestInference, inferEmbeddingOutputConfig } from './manifest-inference.js';
 import { resolveEosTokenId } from './tokenizer-utils.js';
 import {
+  normalizeQ4KLayout,
   resolveManifestQuantization,
   resolveEffectiveQuantizationInfo,
 } from './quantization-info.js';
@@ -122,11 +123,6 @@ function bf16ToFloat32(value) {
   return view.getFloat32(0, true);
 }
-function normalizeQ4KLayout(value) {
-  const normalized = String(value || '').trim().toLowerCase();
-  return normalized === 'col' ? 'col' : 'row';
-}
 function normalizeTensorName(tensor) {
   const name = tensor?.name;
   return typeof name === 'string' ? name : '';
@@ -495,6 +491,17 @@ function buildSentencepieceTokenizer(tokenizerConfig, rawConfig, architecture, m
   return tokenizer;
 }
+export function resolveBundledTokenizerVocabSize(tokenizerJson) {
+  const vocab = tokenizerJson?.model?.vocab;
+  if (Array.isArray(vocab)) {
+    return vocab.length;
+  }
+  if (vocab && typeof vocab === 'object') {
+    return Object.keys(vocab).length;
+  }
+  return 0;
+}
 export function sanitizeModelId(name) {
   const sanitized = name
@@ -976,6 +983,7 @@ export function createManifest(
     isDiffusion ? 'diffusion' : extractArchitecture(model.config, model.ggufConfig)
   );
   const rawConfig = model.config || {};
+  const generationConfig = model.generationConfig ?? null;
   const resolvedArchitecture = isDiffusion
     ? architecture
     : resolveIntermediateSizeFromTensors(architecture, model, tensorLocations, rawConfig, modelId);
@@ -988,7 +996,7 @@ export function createManifest(
       inference = { ...DEFAULT_MANIFEST_INFERENCE, presetId: 'diffusion' };
     } else {
       const presetId = detectPreset(rawConfig, model.architecture);
-      if (presetId === 'transformer') {
+      if (!presetId) {
         const modelType = rawConfig.model_type ?? 'unknown';
         throw new Error(
           `Unknown model family: architecture="${model.architecture || 'unknown'}", model_type="${modelType}"\n\n` +
@@ -1030,6 +1038,7 @@ export function createManifest(
       ? null
       : resolveEosTokenId({
           config: rawConfig,
+          generationConfig,
           tokenizer: model.tokenizer ?? model.tokenizerConfig ?? null,
           tokenizerJson: model.tokenizerJson ?? null,
         });
@@ -1070,9 +1079,7 @@ export function createManifest(
   // Include tokenizer if available
   if (model.tokenizerJson) {
     const tokenizer = model.tokenizerJson;
-    const vocabSize =
-      tokenizer.model?.vocab?.length ||
-      Object.keys(tokenizer.model?.vocab || {}).length;
+    const vocabSize = resolveBundledTokenizerVocabSize(tokenizer);
     if (!vocabSize) {
       throw new Error('Tokenizer vocab is missing or empty');
     }

package/src/converter/execution-v0-manifest.js CHANGED Viewed

@@ -104,7 +104,10 @@ function buildKernelProfiles(steps) {
 }
 function buildSessionDefaults(kernelPath) {
-  const activationDtype = normalizeKernelDtype(getKernelPathActivationDtype(kernelPath)) ?? 'f16';
+  const activationDtype = normalizeKernelDtype(getKernelPathActivationDtype(kernelPath));
+  if (!activationDtype) {
+    throw new Error('execution-v0 manifest: kernel path is missing activationDtype.');
+  }
   const outputDtype = normalizeKernelDtype(getKernelPathOutputDtype(kernelPath)) ?? activationDtype;
   const kvDtype = normalizeKernelDtype(getKernelPathKVDtype(kernelPath)) ?? activationDtype;
   return {

package/src/converter/index.d.ts CHANGED Viewed

@@ -28,6 +28,7 @@ export {
   RDRR_VERSION,
   ConvertStage,
   sanitizeModelId,
+  resolveBundledTokenizerVocabSize,
   formatBytes,
   shouldQuantize,
   normalizeStorageQuant,

package/src/converter/index.js CHANGED Viewed

@@ -6,6 +6,7 @@ export {
   RDRR_VERSION,
   ConvertStage,
   sanitizeModelId,
+  resolveBundledTokenizerVocabSize,
   formatBytes,
   shouldQuantize,
   normalizeStorageQuant,

package/src/converter/manifest-inference.js CHANGED Viewed

@@ -240,16 +240,6 @@ function detectAttentionOutputGate(presetInference, modelConfig, defaults) {
     return modelConfig.attn_output_gate;
   }
-  const modelType = normalizeLayerTypeName(modelConfig?.model_type);
-  const hasLinearAttentionLayers = Array.isArray(modelConfig?.layer_types)
-    && modelConfig.layer_types.some((entry) => normalizeCustomLayerType(entry) === 'linear_attention');
-  if (
-    hasLinearAttentionLayers
-    && (modelType === 'qwen2' || modelType === 'qwen3_5' || modelType === 'qwen3_5_text')
-  ) {
-    return true;
-  }
   return defaults.attention.attentionOutputGate;
 }
@@ -259,13 +249,23 @@ function resolveQueryPreAttnScalar(preset, modelConfig, headDim) {
     return explicit;
   }
-  const modelType = normalizeLayerTypeName(modelConfig?.model_type);
-  const presetId = normalizeLayerTypeName(preset?.id);
-  if (modelType.startsWith('qwen') || presetId === 'qwen3') {
-    return headDim;
+  // Standard attention scaling: attnScale = 1/sqrt(queryPreAttnScalar).
+  // For standard transformers queryPreAttnScalar = headDim, giving 1/sqrt(headDim).
+  // Preset may override for non-standard models.
+  const presetScalar = Number(preset?.inference?.attention?.queryPreAttnScalar);
+  if (Number.isFinite(presetScalar) && presetScalar > 0) {
+    return presetScalar;
+  }
+  return headDim;
+}
+function detectRmsNormWeightOffset(presetInference, modelConfig, defaults) {
+  if (typeof presetInference?.normalization?.rmsNormWeightOffset === 'boolean') {
+    return presetInference.normalization.rmsNormWeightOffset;
   }
-  return Math.sqrt(headDim);
+  return defaults.normalization.rmsNormWeightOffset;
 }
 // Build normalization config with auto-detection from tensor names.
@@ -278,7 +278,7 @@ function buildNormalizationConfig(presetInference, modelConfig, defaults, tensor
       modelConfig.rms_norm_eps ??
       modelConfig.attentionLayerNormRMSEpsilon ??
       defaults.normalization.rmsNormEps,
-    rmsNormWeightOffset: presetInference.normalization?.rmsNormWeightOffset ?? defaults.normalization.rmsNormWeightOffset,
+    rmsNormWeightOffset: detectRmsNormWeightOffset(presetInference, modelConfig, defaults),
     // For norm flags: auto-detected > preset > default
     postAttentionNorm: detected.postAttentionNorm ?? presetInference.normalization?.postAttentionNorm ?? defaults.normalization.postAttentionNorm,
     preFeedforwardNorm: detected.preFeedforwardNorm ?? presetInference.normalization?.preFeedforwardNorm ?? defaults.normalization.preFeedforwardNorm,
@@ -303,26 +303,44 @@ function resolveKernelPathFromPreset(presetInference, quantizationInfo, q4kLayou
   }
   const weightKey = normalizeKernelDtype(quantizationInfo?.weights);
-  const computeKey = normalizeKernelDtype(quantizationInfo?.compute) ?? (quantizationInfo ? 'f16' : null);
-  const entry = (weightKey && kernelPaths[weightKey]) || kernelPaths.default;
+  const computeKey = normalizeKernelDtype(quantizationInfo?.compute);
+  const hasWeightEntry = weightKey != null && Object.prototype.hasOwnProperty.call(kernelPaths, weightKey);
+  const entry = hasWeightEntry ? kernelPaths[weightKey] : kernelPaths.default;
+  const weightLabel = weightKey ? `.${weightKey}` : '';
   let resolved = null;
+  if (entry == null) {
+    return presetInference?.kernelPath ?? null;
+  }
   if (typeof entry === 'string') {
     resolved = entry;
-  } else if (entry && computeKey && entry[computeKey]) {
+  } else if (entry && computeKey && Object.prototype.hasOwnProperty.call(entry, computeKey)) {
     resolved = entry[computeKey];
-  } else if (entry && entry.default) {
+  } else if (entry && typeof entry === 'object' && !Array.isArray(entry) && Object.prototype.hasOwnProperty.call(entry, 'default')) {
     resolved = entry.default;
+  } else if (entry && typeof entry === 'object' && !Array.isArray(entry) && !computeKey) {
+    throw new Error(
+      `Preset kernelPaths${weightLabel} requires quantizationInfo.compute ` +
+      'to resolve a compute-specific defaultKernelPath.'
+    );
+  } else if (entry && typeof entry === 'object' && !Array.isArray(entry)) {
+    throw new Error(
+      `Preset kernelPaths${weightLabel} is missing compute "${computeKey}". ` +
+      'Add an explicit compute-specific mapping or default instead of relying on JS fallbacks.'
+    );
   } else {
-    resolved = presetInference?.kernelPath ?? null;
+    throw new Error(
+      `Preset kernelPaths${weightLabel} must resolve to a string or object.`
+    );
   }
-  // When q4kLayout is 'col' (column-wise), fused Q4K kernels cannot be used.
-  // Try to find a corresponding dequant kernel path.
+  // Column-wise Q4K must be mapped explicitly in preset JSON; JS must not
+  // rewrite kernel-path ids to infer policy.
   if (resolved && q4kLayout === 'col' && resolved.includes('-fused-')) {
-    const dequantPath = resolved.replace('-fused-', '-dequant-');
-    // Return dequant variant (caller should verify it exists)
-    return dequantPath;
+    throw new Error(
+      `Preset kernelPaths${weightKey ? `.${weightKey}` : ''} resolved fused kernel path "${resolved}" ` +
+      'for q4k layout "col". Add an explicit dequant kernel path mapping to the preset instead of relying on JS rewrites.'
+    );
   }
   return resolved;
@@ -354,8 +372,8 @@ export function buildManifestInference(preset, config, headDim = 64, quantizatio
       queryPreAttnScalar: resolveQueryPreAttnScalar(preset, modelConfig, headDim),
       attnLogitSoftcapping: presetInference.attention?.attnLogitSoftcapping ??
         modelConfig.attn_logit_softcapping ?? defaults.attention.attnLogitSoftcapping,
-      slidingWindow: presetInference.attention?.slidingWindow ??
-        modelConfig.sliding_window ?? defaults.attention.slidingWindow,
+      slidingWindow: modelConfig.sliding_window ??
+        presetInference.attention?.slidingWindow ?? defaults.attention.slidingWindow,
       queryKeyNorm: presetInference.attention?.queryKeyNorm ?? defaults.attention.queryKeyNorm,
       attentionOutputGate: detectAttentionOutputGate(presetInference, modelConfig, defaults),
       causal: detectedCausalAttention ?? presetInference.attention?.causal ?? defaults.attention.causal,
@@ -428,6 +446,9 @@ export function buildManifestInference(preset, config, headDim = 64, quantizatio
         );
       }
       globalPattern = null;
+      // Default offset 0 means first global layer at index 0 (most common pattern).
+      // This is the every_n pattern default, distinct from layerPattern.offset=null
+      // which means "not applicable" in the schema.
       offset = (
         detectEveryNOffsetFromLayerTypes(modelConfig.layer_types, period)
         ?? normalizeEveryNOffset(presetPattern.offset, period)

package/src/converter/parsers/diffusion.js CHANGED Viewed

@@ -261,9 +261,6 @@ export async function parseDiffusionModel(adapter) {
     }
     const configSuffix = defaultConfigPath(componentId);
     const config = await readJson(configSuffix, `${componentId} config`);
-    if (componentId === 'transformer' && config && !config.weight_format) {
-      config.weight_format = 'diffusers';
-    }
     diffusionConfig.components[componentId] = {
       ...(diffusionConfig.components[componentId] || {}),
       config,

package/src/converter/parsers/transformer.js CHANGED Viewed

@@ -7,6 +7,9 @@ export async function parseTransformerModel(adapter) {
   } = adapter;
   const config = await readJson('config.json', 'config.json');
+  const generationConfig = await fileExists('generation_config.json')
+    ? await readJson('generation_config.json', 'generation_config.json')
+    : null;
   const architectureHint = config.architectures?.[0] ?? config.model_type ?? '';
   let tensors = null;
@@ -19,6 +22,7 @@ export async function parseTransformerModel(adapter) {
   return {
     config,
+    generationConfig,
     tensors,
     architectureHint,
   };