npm - @simulatte/doppler - Versions diffs - 0.1.8 → 0.1.9 - Mend

@simulatte/doppler 0.1.8 → 0.1.9

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (116) hide show

package/CHANGELOG.md +14 -1
package/README.md +25 -6
package/package.json +5 -3
package/src/client/doppler-api.browser.js +6 -0
package/src/client/doppler-api.d.ts +3 -0
package/src/client/doppler-api.js +11 -2
package/src/client/doppler-registry.js +3 -5
package/src/client/doppler-registry.json +16 -0
package/src/config/kernels/kernel-ref-digests.js +23 -21
package/src/config/kernels/moe/mixtral.paths.json +46 -0
package/src/config/loader.js +6 -0
package/src/config/platforms/loader.js +3 -1
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32a-nosubgroups.json +16 -16
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32a-online.json +8 -8
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32a-small-attn.json +61 -0
package/src/config/presets/kernel-paths/registry.json +7 -0
package/src/config/presets/models/gemma3.json +2 -1
package/src/config/presets/models/gemma4.json +61 -0
package/src/config/presets/models/granite-docling.json +70 -0
package/src/config/presets/models/lfm2.json +6 -1
package/src/config/presets/models/qwen3_vl.json +40 -0
package/src/config/presets/runtime/experiments/bench/gemma3-bench-q4k.json +2 -1
package/src/config/presets/runtime/experiments/verify/lfm2-verify.json +46 -0
package/src/config/presets/runtime/experiments/verify/translategemma-verify.json +39 -0
package/src/config/presets/runtime/modes/trace-layers.json +1 -0
package/src/config/presets/runtime/tiers/gemma4-16gb.json +69 -0
package/src/config/presets/runtime/tiers/gemma4-24gb.json +66 -0
package/src/config/presets/runtime/tiers/gemma4-32gb.json +66 -0
package/src/config/runtime.js +3 -0
package/src/config/schema/debug.schema.d.ts +40 -0
package/src/config/schema/debug.schema.js +28 -0
package/src/config/schema/index.js +2 -0
package/src/config/schema/inference-defaults.schema.js +1 -1
package/src/config/schema/kernel-path.schema.d.ts +1 -0
package/src/config/schema/memory-limits.schema.js +2 -2
package/src/config/schema/storage.schema.js +1 -1
package/src/converter/conversion-plan.js +1 -1
package/src/converter/core.js +17 -8
package/src/converter/quantizer.d.ts +5 -0
package/src/converter/quantizer.js +15 -0
package/src/distribution/shard-delivery.js +34 -0
package/src/formats/rdrr/classification.js +32 -0
package/src/gpu/kernel-runtime.js +4 -2
package/src/gpu/kernels/attention.js +2 -1
package/src/gpu/kernels/dequant_f16_out.wgsl +4 -2
package/src/gpu/kernels/dequant_f16_out_vec4.wgsl +5 -2
package/src/gpu/kernels/dequant_shared.wgsl +4 -2
package/src/gpu/kernels/dequant_shared_vec4.wgsl +4 -2
package/src/gpu/kernels/dequant_subgroup.wgsl +6 -2
package/src/gpu/kernels/gated-short-conv.d.ts +63 -0
package/src/gpu/kernels/gated-short-conv.js +284 -0
package/src/gpu/kernels/linear-attention-core.js +37 -17
package/src/gpu/kernels/matmul-selection.js +1 -0
package/src/gpu/kernels/matmul.d.ts +3 -0
package/src/gpu/kernels/matmul.js +70 -1
package/src/gpu/kernels/matmul_gemv_subgroup.wgsl +77 -79
package/src/gpu/kernels/sample.js +1 -3
package/src/gpu/kernels/sample.wgsl +39 -9
package/src/gpu/kernels/sample_f16.wgsl +38 -8
package/src/gpu/kernels/shader-cache.js +9 -4
package/src/inference/kv-cache/base.js +3 -10
package/src/inference/pipelines/diffusion/pipeline.js +2 -1
package/src/inference/pipelines/diffusion/text-encoder-gpu.js +2 -1
package/src/inference/pipelines/text/attention/projections.d.ts +3 -0
package/src/inference/pipelines/text/attention/projections.js +13 -2
package/src/inference/pipelines/text/attention/record.js +1 -0
package/src/inference/pipelines/text/attention/run.js +9 -0
package/src/inference/pipelines/text/config.d.ts +1 -0
package/src/inference/pipelines/text/config.js +32 -4
package/src/inference/pipelines/text/embed.js +26 -7
package/src/inference/pipelines/text/execution-v0-runtime-builders.js +10 -3
package/src/inference/pipelines/text/execution-v0.js +12 -1
package/src/inference/pipelines/text/generator-helpers.js +1 -0
package/src/inference/pipelines/text/generator-runtime.js +14 -0
package/src/inference/pipelines/text/generator-steps.d.ts +9 -0
package/src/inference/pipelines/text/generator-steps.js +46 -29
package/src/inference/pipelines/text/generator.d.ts +5 -0
package/src/inference/pipelines/text/generator.js +320 -166
package/src/inference/pipelines/text/init.d.ts +2 -0
package/src/inference/pipelines/text/init.js +19 -5
package/src/inference/pipelines/text/layer.js +37 -8
package/src/inference/pipelines/text/moe-gpu.js +21 -3
package/src/inference/pipelines/text/moe-shape-validator.d.ts +9 -0
package/src/inference/pipelines/text/moe-shape-validator.js +31 -11
package/src/inference/pipelines/text/ops.js +123 -53
package/src/inference/pipelines/text/probes.js +1 -0
package/src/inference/pipelines/text/state.js +2 -0
package/src/inference/pipelines/text.d.ts +5 -0
package/src/inference/pipelines/text.js +59 -1
package/src/inference/pipelines/vision/encoder.js +386 -0
package/src/inference/pipelines/vision/image-preprocess.js +151 -0
package/src/inference/pipelines/vision/index.js +173 -0
package/src/inference/pipelines/vision/ops.js +78 -0
package/src/inference/pipelines/vision/patch-embed.js +151 -0
package/src/inference/test-harness.js +9 -7
package/src/loader/doppler-loader.d.ts +3 -0
package/src/loader/doppler-loader.js +20 -3
package/src/loader/experts/expert-cache.js +6 -2
package/src/loader/experts/expert-loader.js +6 -2
package/src/loader/layer-loader.js +42 -3
package/src/loader/manifest-config.js +3 -1
package/src/loader/tensors/tensor-loader.d.ts +3 -0
package/src/loader/tensors/tensor-loader.js +124 -3
package/src/rules/kernels/moe.rules.mixtral.json +75 -0
package/src/rules/kernels/softmax.rules.json +2 -0
package/src/rules/rule-registry.d.ts +1 -0
package/src/rules/rule-registry.js +2 -0
package/src/storage/quickstart-downloader.d.ts +3 -0
package/src/storage/quickstart-downloader.js +27 -30
package/src/tooling/node-converter.js +25 -7
package/src/tooling/node-source-runtime.js +29 -5
package/src/tooling/node-webgpu.js +24 -7
package/src/utils/hf-resolve-url.d.ts +16 -0
package/src/utils/hf-resolve-url.js +17 -0
package/src/version.js +1 -1
package/src/tooling/node-convert.d.ts +0 -54

package/CHANGELOG.md CHANGED Viewed

@@ -6,22 +6,35 @@ This changelog is package-facing and release-oriented. Entries before `0.1.7`
 were retrofitted from package version history, release commits, and release
 docs so the `0.1.x` line has one conventional npm-visible history surface.
-## [0.1.8] - 2026-03-13
+## [0.1.8] - 2026-03-18
 ### Changed
 - Simplified demo to show only verified Q4K models (Gemma 3 270M, Gemma 3 1B).
   Hidden Translate, Diffusion, and Embedding tabs until models are ready.
+- Split demo monolith (6,680 lines) into focused modules: core, generation,
+  storage, translate, diagnostics, routing, utils.
 - Trimmed hosted HF registry and quickstart registry to the two verified models.
 - Aligned catalog, HF registry, and quickstart registry to the canonical
   external support registry as single source of truth for HF revisions.
+- Renamed all `.mjs` tool scripts to `.js` to match `"type": "module"` convention.
+- Switched WebGPU optional dependency from `@simulatte/webgpu` to `webgpu ^0.3.8`.
+- Pruned unused `verify:*` npm scripts for models no longer in the active set.
+- Updated release-claim policy with newly verified models (LFM2, Qwen 3.5,
+  TranslateGemma variants).
 ### Fixed
 - Fixed Qwen 3.5 conversion configs using wrong model preset (`qwen3` instead
   of `qwen3_5`), which caused support matrix check failures.
+- Fixed Qwen mRoPE conflation: `ropeInterleaved` was incorrectly set from
+  `mropeInterleaved`, forcing adjacent-pair RoPE rotation on Qwen models.
 - Fixed catalog lifecycle metadata inconsistencies: corrected `local`, `hf`,
   `curated`, and `demo` fields to match actual artifact availability.
+- Fixed GPU-dependent unit tests failing in non-GPU environments by adding
+  proper GPU readiness probes with clear skip reasons.
+- Fixed kernel-ref digest registry drift (222 vs 224 entries).
+- Fixed stale vendor benchmark fixture hashes after compare-engines config update.
 - Removed failing and unverified models from demo visibility (TranslateGemma 4B,
   EmbeddingGemma 300M with broken HF manifest, Qwen 3.5 0.8B/2B, F16 variant).

package/README.md CHANGED Viewed

@@ -2,6 +2,8 @@
 Inference and training on raw WebGPU. Pure JS + WGSL.
+**[Try the live demo](https://d4da.com)** | **[npm](https://www.npmjs.com/package/@simulatte/doppler)** | **[docs](https://github.com/clocksmith/doppler/blob/main/docs/INDEX.md)**
 ![Phase-latency comparison on one workload across models](https://raw.githubusercontent.com/clocksmith/doppler/main/benchmarks/vendors/results/compare_1b_multi-workload_favorable_phases.svg)
 ## Quick start
@@ -28,8 +30,6 @@ Registry IDs resolve to hosted RDRR artifacts from `Clocksmith/rdrr` by default.
 npm install @simulatte/doppler
 ```
-**[Live Demo](https://d4da.com)** · **[npm](https://www.npmjs.com/package/@simulatte/doppler)** · **[docs](https://github.com/clocksmith/doppler/blob/main/docs/INDEX.md)** · **[Project site](https://simulatte.world)**
 ## Why Doppler
 **JS → WGSL → WebGPU.** Direct JavaScript orchestration into native WebGPU kernels, avoiding ONNX runtimes, WASM blobs, and bridge layers.
@@ -46,6 +46,28 @@ Snapshot artifacts:
 - [g3-1b-p064-d064-t0-k1.compare.json](https://github.com/clocksmith/doppler/blob/main/benchmarks/vendors/fixtures/g3-1b-p064-d064-t0-k1.compare.json)
 - [lfm2-5-1-2b-p064-d064-t0-k1.compare.json](https://github.com/clocksmith/doppler/blob/main/benchmarks/vendors/fixtures/lfm2-5-1-2b-p064-d064-t0-k1.compare.json)
+## Supported models
+All models below are verified with deterministic greedy decoding on WebGPU hardware.
+Registry IDs resolve to hosted RDRR artifacts automatically.
+| Model | Registry ID | Quant | Params |
+| --- | --- | --- | --- |
+| Gemma 3 270M IT | `gemma3-270m` | Q4K | 270M |
+| Gemma 3 1B IT | `gemma3-1b` | Q4K | 1B |
+| Gemma 3 1B IT (F16) | `gemma-3-1b-it-f16-af32` | F16 | 1B |
+| TranslateGemma 4B IT | `translategemma-4b-it-q4k-ehf16-af32` | Q4K | 4B |
+| TranslateGemma 4B 1B EN-ES | `translategemma-4b-1b-enes-q4k-ehf16-af32` | Q4K | 1B |
+| EmbeddingGemma 300M | `google-embeddinggemma-300m-q4k-ehf16-af32` | Q4K | 300M |
+| Qwen 3.5 0.8B | `qwen-3-5-0-8b-q4k-ehaf16` | Q4K | 0.8B |
+| Qwen 3.5 2B | `qwen-3-5-2b-q4k-ehaf16` | Q4K | 2B |
+| LFM2.5 1.2B Instruct | `lfm2-5-1-2b-instruct-q4k-ehf16-af32` | Q4K | 1.2B |
+Additional model families (Llama 3, DeepSeek, Gemma 4 MoE, Mixtral, and others) have conversion
+configs ready but are not yet cataloged. See the full
+[model support matrix](https://github.com/clocksmith/doppler/blob/main/docs/model-support-matrix.md)
+for details.
 ## Under the hood
 - Sharded weight loading via OPFS moves multi-GB weights into VRAM without blocking the main thread.
@@ -85,10 +107,7 @@ for await (const token of doppler('Hello', { model: 'gemma3-270m' })) {
 - First-run workflow: [docs/getting-started.md](https://github.com/clocksmith/doppler/blob/main/docs/getting-started.md)
 - Runtime config contract: [docs/config.md](https://github.com/clocksmith/doppler/blob/main/docs/config.md)
 - Architecture: [docs/architecture.md](https://github.com/clocksmith/doppler/blob/main/docs/architecture.md)
-- Generated model support table: [docs/model-support-matrix.md](https://github.com/clocksmith/doppler/blob/main/docs/model-support-matrix.md)
-Current model support is generated from the catalog and conversion registry.
-See [docs/model-support-matrix.md](https://github.com/clocksmith/doppler/blob/main/docs/model-support-matrix.md) for the canonical verified, failing, and unverified status table.
+- Model support matrix: [docs/model-support-matrix.md](https://github.com/clocksmith/doppler/blob/main/docs/model-support-matrix.md)
 ## Environment requirements

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@simulatte/doppler",
-  "version": "0.1.8",
+  "version": "0.1.9",
   "description": "Browser-native WebGPU inference engine for local intent and inference loops",
   "main": "src/index.js",
   "types": "src/index.d.ts",
@@ -75,6 +75,7 @@
     "external:rdrr:index": "node tools/sync-external-rdrr-index.js",
     "external:rdrr:index:check": "node tools/sync-external-rdrr-index.js --check",
     "external:support:sync": "node tools/sync-external-support-registry.js",
+    "external:support:promote": "node tools/sync-external-support-registry.js --source-support-file models/catalog.json",
     "external:support:check": "node tools/sync-external-support-registry.js --check",
     "catalog:sync:external": "node tools/sync-catalog-from-external-support.js",
     "catalog:sync:external:check": "node tools/sync-catalog-from-external-support.js --check",
@@ -155,12 +156,13 @@
     "tools/convert-safetensors-node.js"
   ],
   "devDependencies": {
-    "@huggingface/transformers": "^3.8.1",
+    "@huggingface/transformers": "4.0.0-next.8",
     "jest": "^30.2.0",
     "onnxruntime-web": "^1.24.1",
     "playwright": "^1.58.2"
   },
   "optionalDependencies": {
-    "@simulatte/webgpu": "0.1.x"
+    "@simulatte/webgpu": "0.x.x",
+    "webgpu": "^0.3.8"
   }
 }

package/src/client/doppler-api.browser.js CHANGED Viewed

@@ -165,6 +165,12 @@ function createModelHandle(pipeline, resolved) {
       prefillKV(prompt, options = {}) {
         return pipeline.prefillKVOnly(prompt, options);
       },
+      prefillWithLogits(prompt, options = {}) {
+        return pipeline.prefillWithLogits(prompt, options);
+      },
+      decodeStepLogits(currentIds, options = {}) {
+        return pipeline.decodeStepLogits(currentIds, options);
+      },
       generateWithPrefixKV(prefix, prompt, options = {}) {
         return pipeline.generateWithPrefixKV(prefix, prompt, options);
       },

package/src/client/doppler-api.d.ts CHANGED Viewed

@@ -2,6 +2,7 @@ import type { RDRRManifest } from '../formats/rdrr/index.js';
 import type { GenerateOptions, KVCacheSnapshot } from '../generation/index.js';
 import type { ChatMessage } from '../inference/pipelines/text/chat-format.js';
 import type { LoRAManifest } from '../adapters/lora-loader.js';
+import type { LogitsStepResult, PrefillResult } from '../inference/pipelines/text/types.d.ts';
 export interface DopplerLoadProgress {
   phase: 'resolve' | 'manifest' | 'load' | 'ready';
@@ -43,6 +44,8 @@ export interface DopplerModel {
   readonly deviceInfo: Record<string, unknown> | null;
   readonly advanced: {
     prefillKV(prompt: string, options?: GenerateOptions): Promise<KVCacheSnapshot>;
+    prefillWithLogits(prompt: string | ChatMessage[] | { messages: ChatMessage[] }, options?: GenerateOptions): Promise<PrefillResult>;
+    decodeStepLogits(currentIds: number[], options?: GenerateOptions): Promise<LogitsStepResult>;
     generateWithPrefixKV(
       prefix: KVCacheSnapshot,
       prompt: string,

package/src/client/doppler-api.js CHANGED Viewed

@@ -199,6 +199,12 @@ function createModelHandle(pipeline, resolved) {
       prefillKV(prompt, options = {}) {
         return pipeline.prefillKVOnly(prompt, options);
       },
+      prefillWithLogits(prompt, options = {}) {
+        return pipeline.prefillWithLogits(prompt, options);
+      },
+      decodeStepLogits(currentIds, options = {}) {
+        return pipeline.decodeStepLogits(currentIds, options);
+      },
       generateWithPrefixKV(prefix, prompt, options = {}) {
         return pipeline.generateWithPrefixKV(prefix, prompt, options);
       },
@@ -272,6 +278,9 @@ export function doppler(prompt, options) {
 doppler.load = load;
 doppler.text = async function text(prompt, options) {
+  if (!options || typeof options !== 'object' || options.model == null) {
+    throw new Error('doppler.text() requires options.model.');
+  }
   assertNoLoadAffectingOptions('doppler.text()', options);
   return collectText(doppler(prompt, options));
 };
@@ -299,14 +308,14 @@ doppler.evict = async function evict(model) {
   if (!cached) {
     return false;
   }
-  convenienceModelCache.delete(resolved.modelId);
   await cached.unload();
+  convenienceModelCache.delete(resolved.modelId);
   return true;
 };
 doppler.evictAll = async function evictAll() {
   const cached = [...convenienceModelCache.values()];
   convenienceModelCache.clear();
-  await Promise.all(cached.map((entry) => entry.unload()));
+  await Promise.allSettled(cached.map((entry) => entry.unload()));
 };
 doppler.listModels = async function listModels() {
   const models = await listQuickstartModels();

package/src/client/doppler-registry.js CHANGED Viewed

@@ -1,4 +1,5 @@
 import { getCdnBasePath } from '../storage/download-types.js';
+import { buildHfResolveBaseUrl } from '../utils/hf-resolve-url.js';
 import { loadJson } from '../utils/load-json.js';
 let registryPromise = null;
@@ -80,9 +81,6 @@ export function buildQuickstartModelBaseUrl(entry, options = {}) {
   }
   const cdnBasePath = typeof options.cdnBasePath === 'string' && options.cdnBasePath.length > 0
     ? options.cdnBasePath
-    : (getCdnBasePath() || 'https://huggingface.co');
-  const revision = entry.hf.revision || 'main';
-  const base = cdnBasePath.replace(/\/$/, '');
-  const path = entry.hf.path.replace(/^\/+/, '');
-  return `${base}/${entry.hf.repoId}/resolve/${revision}/${path}`;
+    : getCdnBasePath();
+  return buildHfResolveBaseUrl(entry.hf, { cdnBasePath });
 }

package/src/client/doppler-registry.json CHANGED Viewed

@@ -19,6 +19,22 @@
         "revision": "ca6f0dbdf3882d3893a65cf48f2bb6f1520df162",
         "path": "models/gemma-3-270m-it-q4k-ehf16-af32"
       }
+    },
+    {
+      "modelId": "google-embeddinggemma-300m-q4k-ehf16-af32",
+      "aliases": [
+        "embeddinggemma-300m",
+        "google/embeddinggemma-300m",
+        "google-embeddinggemma-300m-wq4k-ef16"
+      ],
+      "modes": [
+        "embedding"
+      ],
+      "hf": {
+        "repoId": "Clocksmith/rdrr",
+        "revision": "7e79c466d54455bd370c81685956ea9abae0fd30",
+        "path": "models/google-embeddinggemma-300m-q4k-ehf16-af32"
+      }
     }
   ]
 }

package/src/config/kernels/kernel-ref-digests.js CHANGED Viewed

@@ -59,8 +59,8 @@ export const KERNEL_REF_CONTENT_DIGESTS = Object.freeze({
   "cross_entropy_loss.wgsl#main": "5a48087bdec94184432c90ce5b345e1eadbdfcb13b9793ecee8052bc7392239c",
   "depthwise_conv2d_f16.wgsl#main": "f7f093a7e6623ed17a675bac729149e94718aece916416966eaf03c1d6939f2a",
   "depthwise_conv2d.wgsl#main": "cf14cb40d282ad4d4fab160109b97eaeaf12aab62579b73324ac485ac75155b0",
-  "dequant_f16_out_vec4.wgsl#main_vec4": "61c20e6c71c1c8421b4ec202dbd26292a6300587bd44c314f2a6c6d9d9442c3a",
-  "dequant_f16_out.wgsl#main": "94d61843d56f9a3bbc6b7c2b95dc6ecbba3f6a262b2c4086a076f69a8c38ccae",
+  "dequant_f16_out_vec4.wgsl#main_vec4": "ff729cc220ba5425e17c4c537a9993f25b6541046b6c2553d2a43a8b40ed2ce9",
+  "dequant_f16_out.wgsl#main": "caed21e420cbace78d3203548962a5ec3fc36980f153ae775f6a91a31af97d3a",
   "dequant_f16_rowwise.wgsl#main": "f5bf7cef950b52d65cee6121dbaa176244d3221045b3b6386b3be47f23ce17dc",
   "dequant_f32_rowwise.wgsl#main": "e73606e1b47e1191203a210bececa8a597bcab8bcc535146718afa6a021cab0d",
   "dequant_mxfp4_expert_f16.wgsl#main_expert": "96af52551ac40e1b86121a528a3ffaba835c5d0419e06407fed80353d46b17e1",
@@ -69,10 +69,10 @@ export const KERNEL_REF_CONTENT_DIGESTS = Object.freeze({
   "dequant_mxfp4.wgsl#main": "885a5f752b684c6ca0bb10e3a1846a396eef14d2158e8c8ad31bd1dd4c74b9ef",
   "dequant_q6k.wgsl#main": "be0aed027932d8b7dd1e92d0090ced39e4df8be724acf290f52db0004be9a35e",
   "dequant_q8_0.wgsl#main": "ff5f800da963b0502a9ffab723cbcac0bbb5eb9a02898afc2aba2db215a58da7",
-  "dequant_shared_vec4.wgsl#main_vec4": "aaf330e814cbd4c2838f07639025e414542ec2d0ddbb34913d7f10d28253baf2",
-  "dequant_shared.wgsl#main": "d83d83a5d2bbcd29a06f67fb41496edaa45216438ff0dd177e7ec33af08104a4",
-  "dequant_subgroup.wgsl#main": "6b6296d8b060a9b16e7b3c2bee99dbbcbbf9cc3d557f1e2b000f7f9bfc020309",
-  "dequant_subgroup.wgsl#main_vec4": "d9de6ea645f558bcdf6db622fe146710e143fc4c2bb56f130342d62858eb456c",
+  "dequant_shared_vec4.wgsl#main_vec4": "24820dae36f6669a33f22b428df03791d9c700944c5ae33bd8c88e8cbeffd103",
+  "dequant_shared.wgsl#main": "e21284b5b70d4ac88d7c151760e451c2006705f1ea617b3db7f89994af4cc7df",
+  "dequant_subgroup.wgsl#main": "cbc2d86a5a2234b4c1691d5df02279263be7a66a1d4a2ad4aec1845a26baa9c9",
+  "dequant_subgroup.wgsl#main_vec4": "9e044bd0f44e73872dd8d8aa467e802c5471de86a2044de2cf8efc726e5a1182",
   "energy_eval_f16.wgsl#main": "09223ae193593f3555866a3acfe76ca35442ef4f3967cae376bdcc211f3054b3",
   "energy_eval.wgsl#main": "e10d9572397ebece5275aecd907cba5970f6a5c3744dd8b982677efb8982bdd2",
   "energy_quintel_grad_f16.wgsl#main": "eb87ed8592b46b0a4d866c245b664cadb2bca016f72419e763402a6a721c4951",
@@ -142,9 +142,9 @@ export const KERNEL_REF_CONTENT_DIGESTS = Object.freeze({
   "matmul_gemv_subgroup_f16a.wgsl#main_multicol": "c8e86ecbbefa27a3b7366af676d89a992c2e951329cdf19abb57b9c90144379e",
   "matmul_gemv_subgroup_f16a.wgsl#main_vec4": "f227a403cdf9717dd68224c9ea55708ffe14c618d8146f5d48b42af0f253df29",
   "matmul_gemv_subgroup_f16a.wgsl#main_vec4_cols8": "9e7aba97a6cf199b3f574166e295ea051ebd59e308b5f6f2ce5a4de2d04963ce",
-  "matmul_gemv_subgroup.wgsl#main": "ff526a7e70d6933f5c7a59aee476cc9c5cf123903222ed2e74f555e86e1ac757",
-  "matmul_gemv_subgroup.wgsl#main_multicol": "96c38c15e6fed0d7efdc5cd094db5843a8e8ddfe01eee3bc7322fa555dacf3d0",
-  "matmul_gemv_subgroup.wgsl#main_vec4": "3cee3bed453b40c5564a751d2a917649e10ad52f5268e77cbfecfcee34780457",
+  "matmul_gemv_subgroup.wgsl#main": "ac84b6dc88fe077dc885d8547e55526bec2f792074dd8746f907ce4a7c342028",
+  "matmul_gemv_subgroup.wgsl#main_multicol": "6631ed8936b6316499e1e1493915dc02a2e137d4f4d2650b62ce63e8805067f1",
+  "matmul_gemv_subgroup.wgsl#main_vec4": "de04e5670494401dd975915e77a603e07144aa1c928c47270afe7a806428cbfd",
   "matmul_gemv.wgsl#main": "dc892efc87edc6d5ddaf191b86c1cc41a603352a332023aa0b1fe55d166673d0",
   "modulate_f16.wgsl#main": "44a98cda1cc7a3575788f865173b9890be792c94e852ac8311b6b8ffbdc1438d",
   "modulate.wgsl#main": "dfe88a35b94752573199c16b3d8aecd4e8e7da57dc88d7b342aa61e0122e71ec",
@@ -182,18 +182,18 @@ export const KERNEL_REF_CONTENT_DIGESTS = Object.freeze({
   "rope.wgsl#rope_ntk_scaled": "818f89865a3d1d6f2d49f671ac882d0fde9709702160a1ae8d9a8ef113afb511",
   "rope.wgsl#rope_qk": "3d773c8b8c400142edc8a4111afb04a2bf75bdb109b2d41cbe5afdb72a959772",
   "rope.wgsl#rope_yarn": "cb00e1cf87fac198dcf0fb0d4e2d5f6f99d2fed6dff0a089a96bb459917851d2",
-  "sample_f16.wgsl#argmax": "30b9f199b49352e5aff91b7aa8016edb423ce33f77481c3a7bc184251856fb27",
-  "sample_f16.wgsl#argmax_reduce": "a3ca27fc50b10c36c1676bdd5dbfe5edc67850cdd5c1af7a1d3ad70f830dd8a7",
-  "sample_f16.wgsl#find_topk_phase1": "24e47e5ced28af802959e350ff0a6eec6b9a26f89fb38e222990eeaffb16bd36",
-  "sample_f16.wgsl#find_topk_phase2": "f40b76d7e1e5606ff6a1e369cf285cb3e802047cfd81377458d4ed0248fcb6a5",
-  "sample_f16.wgsl#sample_single_pass": "f3551288786f0a47f5222e07ab7f54a646e422c2493a62b8074202601eb06ddb",
-  "sample_f16.wgsl#softmax_and_sample": "f1201f01af94c5536463be6439fbe7ed166fcb9494ea081f7d393be3125a7efd",
-  "sample.wgsl#argmax": "bde072faa1ce26e19b6fa1f4ba24c4cd2465909c77a60b175bde1d250113a3b4",
-  "sample.wgsl#argmax_reduce": "b7fa3aea69d9888b9385b380dc70416350d375564b95688592768cd81560b214",
-  "sample.wgsl#find_topk_phase1": "d5fbe00d9ad0c89bd3af72a06f7c964c1b6c2634974ed9a76397fd441422827c",
-  "sample.wgsl#find_topk_phase2": "940b216e605d22096da5aca65950a8030866fc5a39e7fdf484d69a832de1b63a",
-  "sample.wgsl#sample_single_pass": "4412357e84113ee2f1bc0dc8bf89e314c2ab482c89c14ca016ea9949d16a9d0c",
-  "sample.wgsl#softmax_and_sample": "7172c60e76430fbe130e530e3564b569b45eccf193987b32d6f52bd6bbcc9f08",
+  "sample_f16.wgsl#argmax": "7d7188081953a79b6d71bdf783d75df97a78401e2fe62e6d356cc44756a42c41",
+  "sample_f16.wgsl#argmax_reduce": "c0284bc9a50d25e215b21cb8c70e24dae3cb32b578691c2b6df5f3ede68a67c7",
+  "sample_f16.wgsl#find_topk_phase1": "8abd0a978d87adb7cce7337bb1b045a151768724f57802ad060df1dad735cff6",
+  "sample_f16.wgsl#find_topk_phase2": "ea7684cf0cc6014d39ac821edf9c89e140552b5009a72e6e91b00f8816678568",
+  "sample_f16.wgsl#sample_single_pass": "1cd8f0babc5c824b455080d30028109adfe52ce6f79009fbb986fde0d377fcb5",
+  "sample_f16.wgsl#softmax_and_sample": "c1d58cb952b704596d7ab6a2aa32b911a6e869e05b42adac3e4a19d898aa17ae",
+  "sample.wgsl#argmax": "f68b9cfdd3265a5cc52b216e549b629f1f8209e5aaa2f788142fa03db4c2d538",
+  "sample.wgsl#argmax_reduce": "96f8dd75a13db82e1928914e1f40ff1b9e03563eb5f8e3708b230f453b1fc160",
+  "sample.wgsl#find_topk_phase1": "736222d54f805b2791ebb803e9574fca93ab2b25fad0a64245f782499ce2d10c",
+  "sample.wgsl#find_topk_phase2": "a590107f0b7603b4b9624140dea1b436362062f63d64ed6d77e1628578796e77",
+  "sample.wgsl#sample_single_pass": "91c5c30bbc3e034457c1521c1ad576ce798c0868a1fe16e02be5f92706614096",
+  "sample.wgsl#softmax_and_sample": "132d67a1393702c81ee896975447f14f9a6a2589b25125d28401bc8ca47a253d",
   "sana_linear_attention_apply_f16.wgsl#main": "4a7426ce67eccfb70956feeae84275f4d3cc586c50e8442c07eb69993b378ab5",
   "sana_linear_attention_apply.wgsl#main": "5f69e0bc1d9e2df5a61e13bd819313c8f7ff5dfc4b7d78e71d5152dc23b6a86c",
   "sana_linear_attention_summary_f16.wgsl#main": "3abb736ead999485b5dac9c6b534143b464cfd0b5300c5e03c56cec03c8fa48e",
@@ -213,6 +213,8 @@ export const KERNEL_REF_CONTENT_DIGESTS = Object.freeze({
   "softmax.wgsl#main": "45c5876806b442222d7e190e595f55a0079bae82e07d37586996c1a63790bb7a",
   "softmax.wgsl#softmax_online": "6c62601ba2f88f7de9dacf026cc2357168df47d009fd108736655b645217cd0a",
   "softmax.wgsl#softmax_small": "ad75f10e0a3caadd278130504e7d0e4e1b2f0621f8bd390abae5d973e301e47b",
+  "split_qg_f16.wgsl#main": "1d19e9d9900a270a3a1bd407347908f891ba98a1cdcee35ae932257a9a1c72cb",
+  "split_qg.wgsl#main": "64a8aa855c6246675bebdeab0258dc0e649e3986ef2bba4572d2d7dc1af902f4",
   "split_qkv_f16.wgsl#main": "bd1a92fcd9382bdcdf00bcc59248a12489444904a4f10845a381f177b6ad649f",
   "split_qkv.wgsl#main": "bc7c95a47322edc11fec19105efd3774c2adfed151530c849909d03af7503e4c",
   "topk_f16_weights.wgsl#softmax_topk": "863559c28eb46a2b4dc16f21a19aca2424a5d68fc3430b29461bebdd7ec8f625",

package/src/config/kernels/moe/mixtral.paths.json ADDED Viewed

@@ -0,0 +1,46 @@
+{
+  "id": "mixtral-moe-v1",
+  "description": "Deterministic Mixtral-style MoE kernel routing profile for Q4K/F16 expert weights with standard gate/up/down FFN.",
+  "router": {
+    "topk": [
+      {
+        "match": { "hasF16": true, "hasSubgroups": true, "routerDtype": "f32" },
+        "value": "softmax_topk_f32_subgroup"
+      },
+      {
+        "match": { "hasF16": true, "routerDtype": "f32" },
+        "value": "softmax_topk_f32"
+      },
+      {
+        "match": {},
+        "value": "softmax_topk_f32"
+      }
+    ]
+  },
+  "dequant": {
+    "q4kExpert": [
+      {
+        "match": { "hasF16": true, "hasSubgroups": true, "outputDtype": "f32" },
+        "value": "q4k_expert_dequant_f32_subgroup"
+      },
+      {
+        "match": { "hasF16": true, "outputDtype": "f16" },
+        "value": "q4k_expert_dequant_f16"
+      },
+      {
+        "match": {},
+        "value": "q4k_expert_dequant_f32"
+      }
+    ],
+    "f16Expert": [
+      {
+        "match": { "hasF16": true, "outputDtype": "f16" },
+        "value": "f16_expert_passthrough"
+      },
+      {
+        "match": {},
+        "value": "f16_expert_upcast_f32"
+      }
+    ]
+  }
+}

package/src/config/loader.js CHANGED Viewed

@@ -12,6 +12,7 @@ const transformerPreset = await loadJson('./presets/models/transformer.json', im
 const diffusionPreset = await loadJson('./presets/models/diffusion.json', import.meta.url, 'Failed to load preset');
 const gemma2Preset = await loadJson('./presets/models/gemma2.json', import.meta.url, 'Failed to load preset');
 const gemma3Preset = await loadJson('./presets/models/gemma3.json', import.meta.url, 'Failed to load preset');
+const gemma4Preset = await loadJson('./presets/models/gemma4.json', import.meta.url, 'Failed to load preset');
 const translateGemmaPreset = await loadJson('./presets/models/translategemma.json', import.meta.url, 'Failed to load preset');
 const embeddingGemmaPreset = await loadJson('./presets/models/embeddinggemma.json', import.meta.url, 'Failed to load preset');
 const functiongemmaPreset = await loadJson('./presets/models/functiongemma.json', import.meta.url, 'Failed to load preset');
@@ -24,6 +25,7 @@ const modernbertPreset = await loadJson('./presets/models/modernbert.json', impo
 const lfm2Preset = await loadJson('./presets/models/lfm2.json', import.meta.url, 'Failed to load preset');
 const qwen3Preset = await loadJson('./presets/models/qwen3.json', import.meta.url, 'Failed to load preset');
 const qwen35Preset = await loadJson('./presets/models/qwen3_5.json', import.meta.url, 'Failed to load preset');
+const qwen3VlPreset = await loadJson('./presets/models/qwen3_vl.json', import.meta.url, 'Failed to load preset');
 const kimiK2Preset = await loadJson('./presets/models/kimi-k2.json', import.meta.url, 'Failed to load preset');
 const gptOssPreset = await loadJson('./presets/models/gpt-oss.json', import.meta.url, 'Failed to load preset');
@@ -36,6 +38,7 @@ export const PRESET_REGISTRY = {
   transformer: transformerPreset,
   gemma2: gemma2Preset,
   gemma3: gemma3Preset,
+  gemma4: gemma4Preset,
   translategemma: translateGemmaPreset,
   embeddinggemma: embeddingGemmaPreset,
   functiongemma: functiongemmaPreset,
@@ -48,6 +51,7 @@ export const PRESET_REGISTRY = {
   lfm2: lfm2Preset,
   qwen3: qwen3Preset,
   qwen3_5: qwen35Preset,
+  qwen3_vl: qwen3VlPreset,
   kimi_k2: kimiK2Preset,
   gpt_oss: gptOssPreset,
 };
@@ -95,10 +99,12 @@ export const PRESET_DETECTION_ORDER = [
   'diffusion',
   // Model families (check more specific patterns first)
   'gemma2',
+  'gemma4',
   'translategemma',
   'gemma3',
   'llama3',
   'lfm2',
+  'qwen3_vl',
   'qwen3_5',
   'qwen3',
   'kimi_k2',

package/src/config/platforms/loader.js CHANGED Viewed

@@ -9,6 +9,8 @@ const platformCache = new Map();
 let platformsBaseUrl = null;
+const DEFAULT_PREFER_UNIFIED_MEMORY = false;
 const PLATFORM_FILES = [
   'apple-m3',
   'apple-m2',
@@ -131,7 +133,7 @@ export function getMemoryHints() {
 }
 export function prefersUnifiedMemory() {
-  return getMemoryHints()?.preferUnifiedMemory ?? false;
+  return getMemoryHints()?.preferUnifiedMemory ?? DEFAULT_PREFER_UNIFIED_MEMORY;
 }
 export function getBufferAlignment() {

package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32a-nosubgroups.json CHANGED Viewed

@@ -8,19 +8,19 @@
   "decode": {
     "steps": [
       { "op": "input_norm",   "kernel": "rmsnorm.wgsl",         "entry": "main" },
-      { "op": "q_proj",       "kernel": "matmul_f16w_f32a.wgsl", "entry": "main",  "weights": "layer.{L}.self_attn.q_proj" },
-      { "op": "k_proj",       "kernel": "matmul_f16w_f32a.wgsl", "entry": "main",  "weights": "layer.{L}.self_attn.k_proj" },
-      { "op": "v_proj",       "kernel": "matmul_f16w_f32a.wgsl", "entry": "main",  "weights": "layer.{L}.self_attn.v_proj" },
+      { "op": "q_proj",       "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.self_attn.q_proj" },
+      { "op": "k_proj",       "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.self_attn.k_proj" },
+      { "op": "v_proj",       "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.self_attn.v_proj" },
       { "op": "rope_q",       "kernel": "rope.wgsl",            "entry": "main" },
       { "op": "rope_k",       "kernel": "rope.wgsl",            "entry": "main" },
       { "op": "attention",    "kernel": "attention_decode_chunked_f16kv.wgsl", "entry": "main" },
-      { "op": "o_proj",       "kernel": "matmul_f16w_f32a.wgsl", "entry": "main",  "weights": "layer.{L}.self_attn.o_proj" },
+      { "op": "o_proj",       "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.self_attn.o_proj" },
       { "op": "attn_residual","kernel": "residual.wgsl",        "entry": "main" },
       { "op": "post_attn_norm","kernel": "rmsnorm.wgsl",        "entry": "main" },
-      { "op": "gate_proj",    "kernel": "matmul_f16w_f32a.wgsl", "entry": "main",  "weights": "layer.{L}.mlp.gate_proj" },
-      { "op": "up_proj",      "kernel": "matmul_f16w_f32a.wgsl", "entry": "main",  "weights": "layer.{L}.mlp.up_proj" },
+      { "op": "gate_proj",    "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.mlp.gate_proj" },
+      { "op": "up_proj",      "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.mlp.up_proj" },
       { "op": "activation",   "kernel": "gelu.wgsl",            "entry": "main", "constants": { "HAS_GATE": true } },
-      { "op": "down_proj",    "kernel": "matmul_f16w_f32a.wgsl", "entry": "main",  "weights": "layer.{L}.mlp.down_proj" },
+      { "op": "down_proj",    "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.mlp.down_proj" },
       { "op": "ffn_residual", "kernel": "residual.wgsl",        "entry": "main" }
     ]
   },
@@ -28,19 +28,19 @@
   "prefill": {
     "steps": [
       { "op": "input_norm",   "kernel": "rmsnorm.wgsl",         "entry": "main" },
-      { "op": "q_proj",       "kernel": "matmul_f16w_f32a.wgsl", "entry": "main",  "weights": "layer.{L}.self_attn.q_proj" },
-      { "op": "k_proj",       "kernel": "matmul_f16w_f32a.wgsl", "entry": "main",  "weights": "layer.{L}.self_attn.k_proj" },
-      { "op": "v_proj",       "kernel": "matmul_f16w_f32a.wgsl", "entry": "main",  "weights": "layer.{L}.self_attn.v_proj" },
+      { "op": "q_proj",       "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.self_attn.q_proj" },
+      { "op": "k_proj",       "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.self_attn.k_proj" },
+      { "op": "v_proj",       "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.self_attn.v_proj" },
       { "op": "rope_q",       "kernel": "rope.wgsl",            "entry": "main" },
       { "op": "rope_k",       "kernel": "rope.wgsl",            "entry": "main" },
       { "op": "attention",    "kernel": "attention_streaming_f16kv.wgsl", "entry": "main" },
-      { "op": "o_proj",       "kernel": "matmul_f16w_f32a.wgsl", "entry": "main",  "weights": "layer.{L}.self_attn.o_proj" },
+      { "op": "o_proj",       "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.self_attn.o_proj" },
       { "op": "attn_residual","kernel": "residual.wgsl",        "entry": "main" },
       { "op": "post_attn_norm","kernel": "rmsnorm.wgsl",        "entry": "main" },
-      { "op": "gate_proj",    "kernel": "matmul_f16w_f32a.wgsl", "entry": "main",  "weights": "layer.{L}.mlp.gate_proj" },
-      { "op": "up_proj",      "kernel": "matmul_f16w_f32a.wgsl", "entry": "main",  "weights": "layer.{L}.mlp.up_proj" },
+      { "op": "gate_proj",    "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.mlp.gate_proj" },
+      { "op": "up_proj",      "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.mlp.up_proj" },
       { "op": "activation",   "kernel": "gelu.wgsl",            "entry": "main", "constants": { "HAS_GATE": true } },
-      { "op": "down_proj",    "kernel": "matmul_f16w_f32a.wgsl", "entry": "main",  "weights": "layer.{L}.mlp.down_proj" },
+      { "op": "down_proj",    "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.mlp.down_proj" },
       { "op": "ffn_residual", "kernel": "residual.wgsl",        "entry": "main" }
     ]
   },
@@ -51,8 +51,8 @@
   "postLayer": [
     { "op": "final_norm",   "kernel": "rmsnorm.wgsl",          "entry": "main" },
-    { "op": "lm_head",      "kernel": "matmul_f16w_f32a.wgsl", "entry": "main",  "weights": "lm_head" },
-    { "op": "lm_head_prefill", "kernel": "matmul_f16w_f32a.wgsl", "entry": "main",  "weights": "lm_head" }
+    { "op": "lm_head",      "kernel": "matmul_f16w_f32a.wgsl",           "entry": "main",  "weights": "lm_head" },
+    { "op": "lm_head_prefill", "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "lm_head" }
   ],
   "sampling": [

package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32a-online.json CHANGED Viewed

@@ -28,19 +28,19 @@
   "prefill": {
     "steps": [
       { "op": "input_norm",    "kernel": "rmsnorm.wgsl",                        "entry": "main" },
-      { "op": "q_proj",        "kernel": "matmul_f16w_f32a.wgsl",               "entry": "main",  "weights": "layer.{L}.self_attn.q_proj" },
-      { "op": "k_proj",        "kernel": "matmul_f16w_f32a.wgsl",               "entry": "main",  "weights": "layer.{L}.self_attn.k_proj" },
-      { "op": "v_proj",        "kernel": "matmul_f16w_f32a.wgsl",               "entry": "main",  "weights": "layer.{L}.self_attn.v_proj" },
+      { "op": "q_proj",        "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.self_attn.q_proj" },
+      { "op": "k_proj",        "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.self_attn.k_proj" },
+      { "op": "v_proj",        "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.self_attn.v_proj" },
       { "op": "rope_q",        "kernel": "rope.wgsl",                           "entry": "main" },
       { "op": "rope_k",        "kernel": "rope.wgsl",                           "entry": "main" },
       { "op": "attention",     "kernel": "attention_streaming_f16kv.wgsl",      "entry": "main" },
-      { "op": "o_proj",        "kernel": "matmul_f16w_f32a.wgsl",               "entry": "main",  "weights": "layer.{L}.self_attn.o_proj" },
+      { "op": "o_proj",        "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.self_attn.o_proj" },
       { "op": "attn_residual", "kernel": "residual.wgsl",                       "entry": "main" },
       { "op": "post_attn_norm","kernel": "rmsnorm.wgsl",                        "entry": "main" },
-      { "op": "gate_proj",     "kernel": "matmul_f16w_f32a.wgsl",               "entry": "main",  "weights": "layer.{L}.mlp.gate_proj" },
-      { "op": "up_proj",       "kernel": "matmul_f16w_f32a.wgsl",               "entry": "main",  "weights": "layer.{L}.mlp.up_proj" },
+      { "op": "gate_proj",     "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.mlp.gate_proj" },
+      { "op": "up_proj",       "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.mlp.up_proj" },
       { "op": "activation",    "kernel": "gelu.wgsl",                           "entry": "main", "constants": { "HAS_GATE": true } },
-      { "op": "down_proj",     "kernel": "matmul_f16w_f32a.wgsl",               "entry": "main",  "weights": "layer.{L}.mlp.down_proj" },
+      { "op": "down_proj",     "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.mlp.down_proj" },
       { "op": "ffn_residual",  "kernel": "residual.wgsl",                       "entry": "main" }
     ]
   },
@@ -52,7 +52,7 @@
   "postLayer": [
     { "op": "final_norm",      "kernel": "rmsnorm.wgsl",                        "entry": "main" },
     { "op": "lm_head",         "kernel": "matmul_gemv_subgroup.wgsl",           "entry": "main_multicol",  "weights": "lm_head", "constants": { "MULTICOL_COLS_PER_WG": 64, "MULTICOL_THREADS_PER_COL": 4 } },
-    { "op": "lm_head_prefill", "kernel": "matmul_f16w_f32a.wgsl",               "entry": "main",  "weights": "lm_head" }
+    { "op": "lm_head_prefill", "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "lm_head" }
   ],
   "sampling": [

package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32a-small-attn.json ADDED Viewed

@@ -0,0 +1,61 @@
+{
+  "id": "gemma3-q4k-dequant-f32a-small-attn",
+  "name": "Gemma 3 Q4K Dequant (F32 activations, small-attn prefill)",
+  "description": "Q4K dequantized to F16 with F32 activations. Same as gemma3-q4k-dequant-f32a-online but uses attention_small_f16kv.wgsl for prefill (diagnostic variant).",
+  "activationDtype": "f32",
+  "kvDtype": "f16",
+  "decode": {
+    "steps": [
+      { "op": "input_norm",    "kernel": "rmsnorm.wgsl",                       "entry": "main" },
+      { "op": "q_proj",        "kernel": "matmul_gemv_subgroup.wgsl",           "entry": "main_vec4",  "weights": "layer.{L}.self_attn.q_proj" },
+      { "op": "k_proj",        "kernel": "matmul_gemv_subgroup.wgsl",           "entry": "main_vec4",  "weights": "layer.{L}.self_attn.k_proj" },
+      { "op": "v_proj",        "kernel": "matmul_gemv_subgroup.wgsl",           "entry": "main_vec4",  "weights": "layer.{L}.self_attn.v_proj" },
+      { "op": "rope_q",        "kernel": "rope.wgsl",                           "entry": "main" },
+      { "op": "rope_k",        "kernel": "rope.wgsl",                           "entry": "main" },
+      { "op": "attention",     "kernel": "attention_decode_online_f16kv.wgsl",  "entry": "main" },
+      { "op": "o_proj",        "kernel": "matmul_gemv_subgroup.wgsl",           "entry": "main_vec4",  "weights": "layer.{L}.self_attn.o_proj" },
+      { "op": "attn_residual", "kernel": "residual.wgsl",                       "entry": "main" },
+      { "op": "post_attn_norm","kernel": "rmsnorm.wgsl",                        "entry": "main" },
+      { "op": "gate_proj",     "kernel": "matmul_gemv_subgroup.wgsl",           "entry": "main_vec4",  "weights": "layer.{L}.mlp.gate_proj" },
+      { "op": "up_proj",       "kernel": "matmul_gemv_subgroup.wgsl",           "entry": "main_vec4",  "weights": "layer.{L}.mlp.up_proj" },
+      { "op": "activation",    "kernel": "gelu.wgsl",                           "entry": "main", "constants": { "HAS_GATE": true } },
+      { "op": "down_proj",     "kernel": "matmul_gemv_subgroup.wgsl",           "entry": "main_vec4",  "weights": "layer.{L}.mlp.down_proj" },
+      { "op": "ffn_residual",  "kernel": "residual.wgsl",                       "entry": "main" }
+    ]
+  },
+  "prefill": {
+    "steps": [
+      { "op": "input_norm",    "kernel": "rmsnorm.wgsl",                        "entry": "main" },
+      { "op": "q_proj",        "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.self_attn.q_proj" },
+      { "op": "k_proj",        "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.self_attn.k_proj" },
+      { "op": "v_proj",        "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.self_attn.v_proj" },
+      { "op": "rope_q",        "kernel": "rope.wgsl",                           "entry": "main" },
+      { "op": "rope_k",        "kernel": "rope.wgsl",                           "entry": "main" },
+      { "op": "attention",     "kernel": "attention_small_f16kv.wgsl",          "entry": "main" },
+      { "op": "o_proj",        "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.self_attn.o_proj" },
+      { "op": "attn_residual", "kernel": "residual.wgsl",                       "entry": "main" },
+      { "op": "post_attn_norm","kernel": "rmsnorm.wgsl",                        "entry": "main" },
+      { "op": "gate_proj",     "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.mlp.gate_proj" },
+      { "op": "up_proj",       "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.mlp.up_proj" },
+      { "op": "activation",    "kernel": "gelu.wgsl",                           "entry": "main", "constants": { "HAS_GATE": true } },
+      { "op": "down_proj",     "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "layer.{L}.mlp.down_proj" },
+      { "op": "ffn_residual",  "kernel": "residual.wgsl",                       "entry": "main" }
+    ]
+  },
+  "preLayer": [
+    { "op": "embed",           "kernel": "gather_f16.wgsl",                     "entry": "main",  "weights": "embed_tokens" }
+  ],
+  "postLayer": [
+    { "op": "final_norm",      "kernel": "rmsnorm.wgsl",                        "entry": "main" },
+    { "op": "lm_head",         "kernel": "matmul_gemv_subgroup.wgsl",           "entry": "main_multicol",  "weights": "lm_head", "constants": { "MULTICOL_COLS_PER_WG": 64, "MULTICOL_THREADS_PER_COL": 4 } },
+    { "op": "lm_head_prefill", "kernel": "matmul_f16w_f32a_tiled.wgsl",         "entry": "main",  "weights": "lm_head" }
+  ],
+  "sampling": [
+    { "op": "sample",          "kernel": "sample.wgsl",                         "entry": "sample_single_pass" }
+  ]
+}