npm - @simulatte/doppler - Versions diffs - 0.1.7 → 0.1.9 - Mend

@simulatte/doppler 0.1.7 → 0.1.9

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (172) hide show

package/CHANGELOG.md +32 -0
package/README.md +25 -6
package/package.json +25 -38
package/src/browser/browser-converter.js +5 -0
package/src/client/doppler-api.browser.js +6 -0
package/src/client/doppler-api.d.ts +3 -0
package/src/client/doppler-api.js +11 -2
package/src/client/doppler-registry.js +3 -5
package/src/client/doppler-registry.json +2 -2
package/src/config/kernel-path-loader.d.ts +5 -0
package/src/config/kernel-path-loader.js +13 -0
package/src/config/kernels/kernel-ref-digests.js +23 -21
package/src/config/kernels/moe/mixtral.paths.json +46 -0
package/src/config/kernels/registry.json +74 -0
package/src/config/loader.js +9 -0
package/src/config/merge-contract-check.js +7 -0
package/src/config/platforms/loader.js +3 -1
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32a-nosubgroups.json +16 -16
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32a-online.json +8 -8
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32a-small-attn.json +61 -0
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32w-f32a-online.json +56 -0
package/src/config/presets/kernel-paths/lfm2-q4k-dequant-f32a-nosubgroups.json +61 -0
package/src/config/presets/kernel-paths/registry.json +21 -0
package/src/config/presets/models/gemma2.json +2 -1
package/src/config/presets/models/gemma3.json +4 -1
package/src/config/presets/models/gemma4.json +61 -0
package/src/config/presets/models/granite-docling.json +70 -0
package/src/config/presets/models/lfm2.json +6 -1
package/src/config/presets/models/qwen3.json +4 -3
package/src/config/presets/models/qwen3_5.json +16 -0
package/src/config/presets/models/qwen3_vl.json +40 -0
package/src/config/presets/runtime/experiments/bench/gemma3-bench-q4k.json +2 -1
package/src/config/presets/runtime/experiments/verify/lfm2-verify.json +46 -0
package/src/config/presets/runtime/experiments/verify/translategemma-verify.json +39 -0
package/src/config/presets/runtime/model/qwen3-5-layer-probe.json +52 -0
package/src/config/presets/runtime/model/qwen3-5-linear-attn-debug.json +90 -0
package/src/config/presets/runtime/modes/trace-layers.json +1 -0
package/src/config/presets/runtime/tiers/gemma4-16gb.json +69 -0
package/src/config/presets/runtime/tiers/gemma4-24gb.json +66 -0
package/src/config/presets/runtime/tiers/gemma4-32gb.json +66 -0
package/src/config/runtime.js +3 -0
package/src/config/schema/conversion.schema.d.ts +1 -0
package/src/config/schema/debug.schema.d.ts +40 -0
package/src/config/schema/debug.schema.js +28 -0
package/src/config/schema/index.js +2 -0
package/src/config/schema/inference-defaults.schema.js +1 -1
package/src/config/schema/kernel-path.schema.d.ts +1 -0
package/src/config/schema/manifest.schema.d.ts +1 -1
package/src/config/schema/manifest.schema.js +1 -1
package/src/config/schema/memory-limits.schema.js +2 -2
package/src/config/schema/storage.schema.js +2 -2
package/src/converter/conversion-plan.js +11 -3
package/src/converter/core.js +19 -8
package/src/converter/manifest-inference.js +12 -22
package/src/converter/parsers/transformer.js +4 -0
package/src/converter/quantization-info.js +5 -1
package/src/converter/quantizer.d.ts +5 -0
package/src/converter/quantizer.js +34 -12
package/src/converter/rope-config.js +8 -6
package/src/converter/tokenizer-utils.d.ts +1 -0
package/src/converter/tokenizer-utils.js +4 -1
package/src/debug/reference/hf_qwen35_linear_attn_debug.py +268 -0
package/src/distribution/shard-delivery.js +40 -1
package/src/formats/rdrr/classification.js +32 -0
package/src/formats/rdrr/parsing.d.ts +4 -0
package/src/formats/rdrr/parsing.js +14 -1
package/src/gpu/kernel-runtime.js +4 -2
package/src/gpu/kernels/attention.js +2 -1
package/src/gpu/kernels/dequant_f16_out.wgsl +4 -2
package/src/gpu/kernels/dequant_f16_out_vec4.wgsl +5 -2
package/src/gpu/kernels/dequant_shared.wgsl +4 -2
package/src/gpu/kernels/dequant_shared_vec4.wgsl +4 -2
package/src/gpu/kernels/dequant_subgroup.wgsl +6 -2
package/src/gpu/kernels/gated-short-conv.d.ts +63 -0
package/src/gpu/kernels/gated-short-conv.js +284 -0
package/src/gpu/kernels/index.d.ts +8 -0
package/src/gpu/kernels/index.js +6 -0
package/src/gpu/kernels/linear-attention-core.js +37 -17
package/src/gpu/kernels/matmul-selection.js +48 -4
package/src/gpu/kernels/matmul.d.ts +5 -0
package/src/gpu/kernels/matmul.js +71 -2
package/src/gpu/kernels/matmul_gemv_subgroup.wgsl +77 -79
package/src/gpu/kernels/rmsnorm.js +9 -2
package/src/gpu/kernels/sample.js +1 -3
package/src/gpu/kernels/sample.wgsl +39 -9
package/src/gpu/kernels/sample_f16.wgsl +38 -8
package/src/gpu/kernels/shader-cache.js +9 -4
package/src/gpu/kernels/split_qg.d.ts +50 -0
package/src/gpu/kernels/split_qg.js +46 -0
package/src/gpu/kernels/split_qg.wgsl +58 -0
package/src/gpu/kernels/split_qg_f16.wgsl +62 -0
package/src/gpu/weight-buffer.d.ts +1 -1
package/src/gpu/weight-buffer.js +1 -1
package/src/inference/browser-harness.d.ts +2 -0
package/src/inference/browser-harness.js +20 -1
package/src/inference/kv-cache/base.js +3 -10
package/src/inference/pipelines/diffusion/helpers.js +3 -0
package/src/inference/pipelines/diffusion/pipeline.js +2 -1
package/src/inference/pipelines/diffusion/text-encoder-gpu.js +10 -3
package/src/inference/pipelines/text/attention/output-projection.d.ts +12 -0
package/src/inference/pipelines/text/attention/output-projection.js +8 -0
package/src/inference/pipelines/text/attention/projections.d.ts +13 -1
package/src/inference/pipelines/text/attention/projections.js +54 -13
package/src/inference/pipelines/text/attention/record.js +16 -6
package/src/inference/pipelines/text/attention/run.js +59 -6
package/src/inference/pipelines/text/config.d.ts +1 -0
package/src/inference/pipelines/text/config.js +46 -4
package/src/inference/pipelines/text/embed.js +26 -7
package/src/inference/pipelines/text/execution-plan.js +5 -4
package/src/inference/pipelines/text/execution-v0-runtime-builders.js +10 -3
package/src/inference/pipelines/text/execution-v0.js +12 -1
package/src/inference/pipelines/text/generator-helpers.js +1 -0
package/src/inference/pipelines/text/generator-runtime.js +19 -0
package/src/inference/pipelines/text/generator-steps.d.ts +15 -0
package/src/inference/pipelines/text/generator-steps.js +71 -26
package/src/inference/pipelines/text/generator.d.ts +5 -0
package/src/inference/pipelines/text/generator.js +353 -166
package/src/inference/pipelines/text/init.d.ts +15 -0
package/src/inference/pipelines/text/init.js +35 -10
package/src/inference/pipelines/text/layer.js +38 -8
package/src/inference/pipelines/text/linear-attention.d.ts +5 -0
package/src/inference/pipelines/text/linear-attention.js +33 -3
package/src/inference/pipelines/text/logits/gpu.js +2 -2
package/src/inference/pipelines/text/logits/index.d.ts +6 -1
package/src/inference/pipelines/text/logits/index.js +3 -1
package/src/inference/pipelines/text/model-load.js +3 -0
package/src/inference/pipelines/text/moe-gpu.js +21 -3
package/src/inference/pipelines/text/moe-shape-validator.d.ts +9 -0
package/src/inference/pipelines/text/moe-shape-validator.js +31 -11
package/src/inference/pipelines/text/ops.js +123 -53
package/src/inference/pipelines/text/probes.js +1 -0
package/src/inference/pipelines/text/sampling.js +52 -6
package/src/inference/pipelines/text/state.js +2 -0
package/src/inference/pipelines/text.d.ts +5 -0
package/src/inference/pipelines/text.js +59 -1
package/src/inference/pipelines/vision/encoder.js +386 -0
package/src/inference/pipelines/vision/image-preprocess.js +151 -0
package/src/inference/pipelines/vision/index.js +173 -0
package/src/inference/pipelines/vision/ops.js +78 -0
package/src/inference/pipelines/vision/patch-embed.js +151 -0
package/src/inference/test-harness.js +11 -9
package/src/loader/doppler-loader.d.ts +3 -0
package/src/loader/doppler-loader.js +20 -3
package/src/loader/experts/expert-cache.js +6 -2
package/src/loader/experts/expert-loader.js +6 -2
package/src/loader/final-weights-loader.js +2 -0
package/src/loader/layer-loader.js +42 -3
package/src/loader/manifest-config.js +3 -1
package/src/loader/shard-cache.js +3 -2
package/src/loader/tensors/tensor-loader.d.ts +3 -0
package/src/loader/tensors/tensor-loader.js +130 -4
package/src/rules/inference/dtype.rules.json +5 -0
package/src/rules/inference/kernel-path.rules.json +2 -2
package/src/rules/kernels/moe.rules.mixtral.json +75 -0
package/src/rules/kernels/softmax.rules.json +2 -0
package/src/rules/kernels/split-qg.rules.json +6 -0
package/src/rules/rule-registry.d.ts +1 -0
package/src/rules/rule-registry.js +4 -0
package/src/storage/downloader.js +2 -1
package/src/storage/quickstart-downloader.d.ts +3 -0
package/src/storage/quickstart-downloader.js +27 -30
package/src/storage/shard-manager.js +4 -3
package/src/tooling/conversion-config-materializer.js +3 -5
package/src/tooling/node-converter.js +28 -7
package/src/tooling/node-source-runtime.js +65 -5
package/src/tooling/node-webgpu.js +24 -7
package/src/types/model.d.ts +5 -0
package/src/utils/hf-resolve-url.d.ts +16 -0
package/src/utils/hf-resolve-url.js +17 -0
package/src/version.js +1 -1
package/tools/doppler-cli.js +6 -1
package/src/tooling/node-convert.d.ts +0 -54

package/src/config/presets/runtime/experiments/bench/gemma3-bench-q4k.json CHANGED Viewed

@@ -1,7 +1,8 @@
 {
   "id": "experiments/bench/gemma3-bench-q4k",
   "name": "gemma3-bench-q4k",
-  "intent": "investigate",
+  "description": "Benchmark run for Gemma 3 1B Q4K — calibration-mode throughput measurement.",
+  "intent": "calibrate",
   "stability": "experimental",
   "owner": "doppler-core",
   "createdAtUtc": "2026-02-25T00:00:00Z",

package/src/config/presets/runtime/experiments/verify/lfm2-verify.json ADDED Viewed

@@ -0,0 +1,46 @@
+{
+  "id": "experiments/verify/lfm2-verify",
+  "name": "lfm2-verify",
+  "intent": "verify",
+  "stability": "experimental",
+  "owner": "doppler-core",
+  "createdAtUtc": "2026-03-16T00:00:00Z",
+  "extends": "modes/bench",
+  "model": "lfm2-5-1-2b-instruct-q4k-ehf16-af32",
+  "runtime": {
+    "shared": {
+      "tooling": {
+        "intent": "verify"
+      },
+      "debug": {
+        "logLevel": {
+          "defaultLogLevel": "warn"
+        },
+        "trace": {
+          "enabled": false
+        },
+        "profiler": {
+          "enabled": false
+        }
+      }
+    },
+    "inference": {
+      "prompt": {
+        "messages": [
+          {
+            "role": "user",
+            "content": "What color is the sky on a clear day?"
+          }
+        ]
+      },
+      "batching": {
+        "maxTokens": 32
+      },
+      "sampling": {
+        "temperature": 0,
+        "topK": 1,
+        "topP": 1
+      }
+    }
+  }
+}

package/src/config/presets/runtime/experiments/verify/translategemma-verify.json ADDED Viewed

@@ -0,0 +1,39 @@
+{
+  "id": "experiments/verify/translategemma-verify",
+  "name": "translategemma-verify",
+  "intent": "verify",
+  "stability": "experimental",
+  "owner": "doppler-core",
+  "createdAtUtc": "2026-03-16T00:00:00Z",
+  "extends": "modes/bench",
+  "model": "translategemma-4b-it-q4k-ehf16-af32",
+  "runtime": {
+    "shared": {
+      "tooling": {
+        "intent": "verify"
+      },
+      "debug": {
+        "logLevel": {
+          "defaultLogLevel": "warn"
+        },
+        "trace": {
+          "enabled": false
+        },
+        "profiler": {
+          "enabled": false
+        }
+      }
+    },
+    "inference": {
+      "prompt": "Hello from Doppler.",
+      "batching": {
+        "maxTokens": 32
+      },
+      "sampling": {
+        "temperature": 0,
+        "topK": 1,
+        "topP": 1
+      }
+    }
+  }
+}

package/src/config/presets/runtime/model/qwen3-5-layer-probe.json ADDED Viewed

@@ -0,0 +1,52 @@
+{
+  "id": "model/qwen3-5-layer-probe",
+  "name": "qwen3-5-layer-probe",
+  "description": "Probe all 24 layer outputs in Qwen 3.5 to isolate where the hidden state distribution collapses.",
+  "intent": "investigate",
+  "stability": "canonical",
+  "owner": "doppler-core",
+  "createdAtUtc": "2026-03-13T00:00:00Z",
+  "extends": "modes/debug",
+  "runtime": {
+    "inference": {
+      "prompt": "What color is the sky on a clear day? Answer in one word.",
+      "batching": {
+        "maxTokens": 1
+      },
+      "sampling": {
+        "temperature": 0
+      }
+    },
+    "shared": {
+      "debug": {
+        "trace": {
+          "enabled": true,
+          "categories": ["attn", "ffn", "logits"],
+          "layers": null,
+          "maxDecodeSteps": 1
+        },
+        "probes": [
+          {
+            "id": "embed",
+            "stage": "embed_out",
+            "tokens": [-1],
+            "dims": [0, 1, 2, 3, 512, 513]
+          },
+          {
+            "id": "layer_out",
+            "stage": "layer_out",
+            "layers": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23],
+            "tokens": [-1],
+            "dims": [0, 1, 2, 3]
+          },
+          {
+            "id": "logits",
+            "stage": "logits_final",
+            "tokens": [-1],
+            "dims": [271, 0, 1, 2, 3, 496, 138]
+          }
+        ]
+      }
+    }
+  }
+}

package/src/config/presets/runtime/model/qwen3-5-linear-attn-debug.json ADDED Viewed

@@ -0,0 +1,90 @@
+{
+  "id": "model/qwen3-5-linear-attn-debug",
+  "name": "qwen3-5-linear-attn-debug",
+  "description": "Probe linear attention intermediates in Qwen 3.5 layer 0 for comparison with HF reference.",
+  "intent": "investigate",
+  "stability": "canonical",
+  "owner": "doppler-core",
+  "createdAtUtc": "2026-03-13T00:00:00Z",
+  "extends": "modes/debug",
+  "runtime": {
+    "inference": {
+      "prompt": "Hello",
+      "batching": {
+        "maxTokens": 1
+      },
+      "sampling": {
+        "temperature": 0
+      },
+      "chatTemplate": {
+        "enabled": false
+      }
+    },
+    "shared": {
+      "debug": {
+        "trace": {
+          "enabled": true,
+          "categories": ["attn", "logits"],
+          "layers": null,
+          "maxDecodeSteps": 1
+        },
+        "probes": [
+          {
+            "id": "embed",
+            "stage": "embed_out",
+            "tokens": [-1],
+            "dims": [0, 1, 2, 3, 4, 5, 6, 7]
+          },
+          {
+            "id": "qkv",
+            "stage": "linear_qkv_proj",
+            "layers": [0],
+            "tokens": [-1],
+            "dims": [0, 1, 2, 3, 4, 5, 6, 7]
+          },
+          {
+            "id": "z",
+            "stage": "linear_z_proj",
+            "layers": [0],
+            "tokens": [-1],
+            "dims": [0, 1, 2, 3, 4, 5, 6, 7]
+          },
+          {
+            "id": "a",
+            "stage": "linear_a_proj",
+            "layers": [0],
+            "tokens": [-1],
+            "dims": [0, 1, 2, 3, 4, 5, 6, 7]
+          },
+          {
+            "id": "b",
+            "stage": "linear_b_proj",
+            "layers": [0],
+            "tokens": [-1],
+            "dims": [0, 1, 2, 3, 4, 5, 6, 7]
+          },
+          {
+            "id": "core",
+            "stage": "linear_core_out",
+            "layers": [0],
+            "tokens": [-1],
+            "dims": [0, 1, 2, 3, 4, 5, 6, 7]
+          },
+          {
+            "id": "layer0",
+            "stage": "layer_out",
+            "layers": [0],
+            "tokens": [-1],
+            "dims": [0, 1, 2, 3, 4, 5, 6, 7]
+          },
+          {
+            "id": "logits",
+            "stage": "logits_final",
+            "tokens": [-1],
+            "dims": [0, 1, 2, 3]
+          }
+        ]
+      }
+    }
+  }
+}

package/src/config/presets/runtime/modes/trace-layers.json CHANGED Viewed

@@ -6,6 +6,7 @@
   "stability": "canonical",
   "owner": "doppler-core",
   "createdAtUtc": "2026-02-25T00:00:00Z",
+  "extends": "default",
   "runtime": {
     "shared": {
       "tooling": {

package/src/config/presets/runtime/tiers/gemma4-16gb.json ADDED Viewed

@@ -0,0 +1,69 @@
+{
+  "id": "tiers/gemma4-16gb",
+  "name": "Gemma 4 — 16 GB tier (constrained)",
+  "description": "Gemma 4 MoE runtime tier for 16 GB GPU memory. Aggressively constrained: short context, minimal expert cache, hard budget enforcement. Fail-closed if budget is not met.",
+  "intent": "investigate",
+  "stability": "experimental",
+  "owner": "doppler-core",
+  "createdAtUtc": "2026-03-17T00:00:00Z",
+  "extends": "default",
+  "runtime": {
+    "shared": {
+      "bufferPool": {
+        "budget": {
+          "maxTotalBytes": 13958643712,
+          "highWatermarkRatio": 0.85,
+          "emergencyTrimTargetRatio": 0.7,
+          "hardFailOnBudgetExceeded": true
+        }
+      }
+    },
+    "loading": {
+      "expertCache": {
+        "defaultSizeBytes": 1073741824,
+        "maxBufferPercentage": 0.15,
+        "evictionHighWatermark": 0.8,
+        "emergencyTrimToRatio": 0.65
+      },
+      "prefetch": {
+        "enabled": true,
+        "layersAhead": 1,
+        "maxShards": 4
+      },
+      "memoryManagement": {
+        "flushIntervalLayers": 1,
+        "flushThresholdBytes": 134217728
+      }
+    },
+    "inference": {
+      "kvcache": {
+        "layout": "contiguous",
+        "maxSeqLen": 2048,
+        "kvDtype": "f16",
+        "pageSize": 128,
+        "tiering": {
+          "mode": "off"
+        }
+      },
+      "moe": {
+        "routing": {
+          "routerDtype": "f32"
+        },
+        "cache": {
+          "dequantCacheMaxEntries": 2
+        }
+      },
+      "compute": {
+        "activationDtype": "f32"
+      },
+      "batching": {
+        "maxTokens": 512
+      },
+      "session": {
+        "kvcache": {
+          "kvDtype": "f16"
+        }
+      }
+    }
+  }
+}

package/src/config/presets/runtime/tiers/gemma4-24gb.json ADDED Viewed

@@ -0,0 +1,66 @@
+{
+  "id": "tiers/gemma4-24gb",
+  "name": "Gemma 4 — 24 GB tier",
+  "description": "Gemma 4 MoE runtime tier for 24 GB GPU memory. Moderate expert cache, contiguous KV, reduced context length.",
+  "intent": "investigate",
+  "stability": "experimental",
+  "owner": "doppler-core",
+  "createdAtUtc": "2026-03-17T00:00:00Z",
+  "extends": "default",
+  "runtime": {
+    "shared": {
+      "bufferPool": {
+        "budget": {
+          "maxTotalBytes": 21474836480,
+          "highWatermarkRatio": 0.9,
+          "emergencyTrimTargetRatio": 0.75,
+          "hardFailOnBudgetExceeded": true
+        }
+      }
+    },
+    "loading": {
+      "expertCache": {
+        "defaultSizeBytes": 3221225472,
+        "maxBufferPercentage": 0.2,
+        "evictionHighWatermark": 0.85,
+        "emergencyTrimToRatio": 0.7
+      },
+      "prefetch": {
+        "enabled": true,
+        "layersAhead": 1,
+        "maxShards": 8
+      },
+      "memoryManagement": {
+        "flushIntervalLayers": 2,
+        "flushThresholdBytes": 268435456
+      }
+    },
+    "inference": {
+      "kvcache": {
+        "layout": "contiguous",
+        "maxSeqLen": 4096,
+        "kvDtype": "f16",
+        "pageSize": 256,
+        "tiering": {
+          "mode": "off"
+        }
+      },
+      "moe": {
+        "routing": {
+          "routerDtype": "f32"
+        },
+        "cache": {
+          "dequantCacheMaxEntries": 64
+        }
+      },
+      "compute": {
+        "activationDtype": "f32"
+      },
+      "session": {
+        "kvcache": {
+          "kvDtype": "f16"
+        }
+      }
+    }
+  }
+}

package/src/config/presets/runtime/tiers/gemma4-32gb.json ADDED Viewed

@@ -0,0 +1,66 @@
+{
+  "id": "tiers/gemma4-32gb",
+  "name": "Gemma 4 — 32 GB tier",
+  "description": "Gemma 4 MoE runtime tier for 32 GB GPU memory. Generous expert cache, contiguous KV, full-length context.",
+  "intent": "investigate",
+  "stability": "experimental",
+  "owner": "doppler-core",
+  "createdAtUtc": "2026-03-17T00:00:00Z",
+  "extends": "default",
+  "runtime": {
+    "shared": {
+      "bufferPool": {
+        "budget": {
+          "maxTotalBytes": 30064771072,
+          "highWatermarkRatio": 0.9,
+          "emergencyTrimTargetRatio": 0.75,
+          "hardFailOnBudgetExceeded": true
+        }
+      }
+    },
+    "loading": {
+      "expertCache": {
+        "defaultSizeBytes": 6442450944,
+        "maxBufferPercentage": 0.25,
+        "evictionHighWatermark": 0.9,
+        "emergencyTrimToRatio": 0.75
+      },
+      "prefetch": {
+        "enabled": true,
+        "layersAhead": 2,
+        "maxShards": 16
+      },
+      "memoryManagement": {
+        "flushIntervalLayers": 4,
+        "flushThresholdBytes": 536870912
+      }
+    },
+    "inference": {
+      "kvcache": {
+        "layout": "contiguous",
+        "maxSeqLen": 8192,
+        "kvDtype": "f16",
+        "pageSize": 256,
+        "tiering": {
+          "mode": "off"
+        }
+      },
+      "moe": {
+        "routing": {
+          "routerDtype": "f32"
+        },
+        "cache": {
+          "dequantCacheMaxEntries": 128
+        }
+      },
+      "compute": {
+        "activationDtype": "f32"
+      },
+      "session": {
+        "kvcache": {
+          "kvDtype": "f16"
+        }
+      }
+    }
+  }
+}

package/src/config/runtime.js CHANGED Viewed

@@ -58,4 +58,7 @@ function assertNoDeprecatedRuntimeKeys(overrides) {
   if (inference?.sampling?.maxTokens !== undefined) {
     throw new Error('sampling.maxTokens is removed; use inference.batching.maxTokens');
   }
+  if (inference?.session?.maxNewTokens !== undefined) {
+    throw new Error('inference.session.maxNewTokens is not a supported runtime config key; use inference.batching.maxTokens');
+  }
 }

package/src/config/schema/conversion.schema.d.ts CHANGED Viewed

@@ -32,6 +32,7 @@ export interface ParsedModelSchema {
   config: RawModelConfigSchema;
   architecture?: string;
   quantization?: string;
+  generationConfig?: unknown;
   tokenizerJson?: unknown;
   tokenizerConfig?: unknown;
   tokenizerModel?: unknown;

package/src/config/schema/debug.schema.d.ts CHANGED Viewed

@@ -131,6 +131,44 @@ export interface PipelineDebugConfigSchema {
 /** Default pipeline debug configuration */
 export declare const DEFAULT_PIPELINE_DEBUG_CONFIG: PipelineDebugConfigSchema;
+/** Loader debug configuration (Q4K dequant and related probes). */
+export interface LoaderDebugConfigSchema {
+  /** Enable loader debug behavior (default: false) */
+  enabled: boolean;
+  /** Force GPU dequant for Q4K tensors even when CPU fallback is eligible. */
+  forceGpuDequant: boolean;
+  /** Prefer CPU dequant for F32 output when eligible (default: false, GPU is preferred). */
+  preferCpuDequant: boolean;
+  /** Throw when CPU dequant fallback is taken. */
+  failOnCpuDequantPath: boolean;
+  /** Enable dtype-aware GPU-vs-CPU parity checks during Q4K dequant. */
+  runQ4KDequantParity: boolean;
+  /** Number of values to read back for parity checks. */
+  q4kDequantParitySamples: number;
+}
+/** Default loader debug configuration. */
+export declare const DEFAULT_LOADER_DEBUG_CONFIG: LoaderDebugConfigSchema;
+/** Matmul debug configuration (attention split/shape diagnostics). */
+export interface MatmulDebugConfigSchema {
+  /** Enable matmul debug behavior (default: false) */
+  enabled: boolean;
+  /** Force split (non-fused) Q/K/V projection path for diagnostics. */
+  forceSplitQKV: boolean;
+  /** Validate B tensor layout/buffer bytes for attention projection roles. */
+  validateAttentionWeightBuffer: boolean;
+  /** Throw if validation fails due small B tensor. */
+  failOnSmallAttentionWeightBuffer: boolean;
+  /** Emit attention B-buffer diagnostics. */
+  logAttentionWeightBuffer: boolean;
+  /** Log first-8 projection output values for layer 0 decode (diagnostic). */
+  logProjectionValues: boolean;
+}
+/** Default matmul debug configuration. */
+export declare const DEFAULT_MATMUL_DEBUG_CONFIG: MatmulDebugConfigSchema;
 /**
  * Profiler configuration.
  */
@@ -241,6 +279,8 @@ export interface DebugConfigSchema {
   logLevel: LogLevelConfigSchema;
   trace: TraceConfigSchema;
   pipeline: PipelineDebugConfigSchema;
+  loader: LoaderDebugConfigSchema;
+  matmul: MatmulDebugConfigSchema;
   probes: ProbeConfigSchema[];
   profiler: ProfilerConfigSchema;
   perfGuards: PerfGuardsConfigSchema;

package/src/config/schema/debug.schema.js CHANGED Viewed

@@ -38,6 +38,32 @@ export const DEFAULT_TRACE_CONFIG = {
   file: null,
 };
+// =============================================================================
+// Loader Debug Config
+// =============================================================================
+export const DEFAULT_LOADER_DEBUG_CONFIG = {
+  enabled: false,
+  forceGpuDequant: false,
+  preferCpuDequant: false,
+  failOnCpuDequantPath: false,
+  runQ4KDequantParity: false,
+  q4kDequantParitySamples: 256,
+};
+// =============================================================================
+// Kernel Debug Config
+// =============================================================================
+export const DEFAULT_MATMUL_DEBUG_CONFIG = {
+  enabled: false,
+  forceSplitQKV: false,
+  validateAttentionWeightBuffer: false,
+  failOnSmallAttentionWeightBuffer: false,
+  logAttentionWeightBuffer: false,
+  logProjectionValues: false,
+};
 // =============================================================================
 // Kernel Trace Config (kernel-trace.js anomaly detection)
 // =============================================================================
@@ -100,6 +126,8 @@ export const DEFAULT_DEBUG_CONFIG = {
   logLevel: DEFAULT_LOG_LEVEL_CONFIG,
   trace: DEFAULT_TRACE_CONFIG,
   pipeline: DEFAULT_PIPELINE_DEBUG_CONFIG,
+  loader: DEFAULT_LOADER_DEBUG_CONFIG,
+  matmul: DEFAULT_MATMUL_DEBUG_CONFIG,
   probes: [],
   profiler: DEFAULT_PROFILER_CONFIG,
   perfGuards: DEFAULT_PERF_GUARDS_CONFIG,

package/src/config/schema/index.js CHANGED Viewed

@@ -217,6 +217,8 @@ export {
   DEFAULT_LOG_HISTORY_CONFIG,
   DEFAULT_LOG_LEVEL_CONFIG,
   DEFAULT_TRACE_CONFIG,
+  DEFAULT_LOADER_DEBUG_CONFIG,
+  DEFAULT_MATMUL_DEBUG_CONFIG,
   DEFAULT_KERNEL_TRACE_CONFIG,
   DEFAULT_PIPELINE_DEBUG_CONFIG,
   DEFAULT_PROFILER_CONFIG,

package/src/config/schema/inference-defaults.schema.js CHANGED Viewed

@@ -93,7 +93,7 @@ export const DEFAULT_TOKENIZER_DEFAULTS = {
 // =============================================================================
 export const DEFAULT_CHAT_TEMPLATE_CONFIG = {
-  enabled: false,
+  enabled: undefined,
 };
 export const DEFAULT_KERNEL_PATH_POLICY = {

package/src/config/schema/kernel-path.schema.d.ts CHANGED Viewed

@@ -160,6 +160,7 @@ export type BuiltinKernelPathId =
   | 'gemma3-f16-fused-f32a-online-streamingprefill' // Gemma 3 F16 fused FFN online path with streaming prefill attention
   | 'gemma3-q4k-dequant-f16a-online' // Gemma 3 Q4K dequant online path (F16 activations)
   | 'gemma3-q4k-dequant-f32a-online' // Gemma 3 Q4K dequant online path with F32 activations
+  | 'gemma3-q4k-dequant-f32w-f32a-online' // Gemma 3 Q4K path with F32 projection weights and F32 activations
   | 'gemma3-q4k-dequant-f32a-nosubgroups' // Gemma 3 Q4K dequant path with no subgroup requirement
   | 'gemma3-q4k-dequant-f32a' // Legacy alias for gemma3-q4k-dequant-f32a-nosubgroups
   | 'lfm2-q4k-dequant-f32a-online' // LFM2 Q4K path with F32 activations and fast prefill

package/src/config/schema/manifest.schema.d.ts CHANGED Viewed

@@ -163,7 +163,7 @@ export interface ArchitectureSchema {
  * Use `null` to indicate "not applicable" (e.g., no softcapping).
  */
 export interface ManifestAttentionSchema {
-  /** Query pre-attention scalar (Gemma 2: 256, standard: sqrt(headDim)) */
+  /** Query pre-attention scalar: attnScale = 1/sqrt(scalar). Standard = headDim. */
   queryPreAttnScalar: number;
   /** Attention logit softcapping (Gemma 2: 50, null = disabled) */
   attnLogitSoftcapping: number | null;

package/src/config/schema/manifest.schema.js CHANGED Viewed

@@ -40,7 +40,7 @@ export const DEFAULT_MANIFEST_INFERENCE = {
   schema: null,
   presetId: null,
   attention: {
-    queryPreAttnScalar: 8,  // sqrt(64) for standard 64-dim heads
+    queryPreAttnScalar: 64, // headDim for standard 64-dim heads; attnScale = 1/sqrt(scalar)
     attnLogitSoftcapping: null,  // No softcapping (null = disabled)
     slidingWindow: null,  // Full attention (null = no sliding window)
     queryKeyNorm: false,

package/src/config/schema/memory-limits.schema.js CHANGED Viewed

@@ -40,8 +40,8 @@ export const DEFAULT_SEGMENT_ALLOCATION_CONFIG = {
 // =============================================================================
 export const DEFAULT_EMULATED_STORAGE_CONFIG = {
-  vramBudgetBytes: 2 * GB,
-  ramBudgetBytes: 8 * GB,
+  vramBudgetBytes: 4 * GB,
+  ramBudgetBytes: 16 * GB,
 };
 // =============================================================================

package/src/config/schema/storage.schema.js CHANGED Viewed

@@ -16,7 +16,7 @@ export const DEFAULT_QUOTA_CONFIG = {
 export const DEFAULT_VRAM_ESTIMATION_CONFIG = {
   unifiedMemoryRatio: 0.5, // 50% of system RAM
-  fallbackVramBytes: 2 * GB,
+  fallbackVramBytes: 4 * GB,
   lowVramHeadroomBytes: 500 * MB,
 };
@@ -35,7 +35,7 @@ export const DEFAULT_STORAGE_ALIGNMENT_CONFIG = {
 export const DEFAULT_STORAGE_BACKEND_CONFIG = {
   backend: 'auto', // auto | opfs | indexeddb | memory
   opfs: {
-    useSyncAccessHandle: true,
+    useSyncAccessHandle: false,
     maxConcurrentHandles: 2,
   },
   indexeddb: {