npm - @simulatte/doppler - Versions diffs - 0.1.4 → 0.1.5 - Mend

@simulatte/doppler 0.1.4 → 0.1.5

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (103) hide show

package/README.md +4 -3
package/package.json +25 -4
package/src/client/doppler-api.browser.d.ts +1 -0
package/src/client/doppler-api.browser.js +288 -0
package/src/client/doppler-api.js +1 -1
package/src/client/doppler-provider/types.js +1 -1
package/src/config/execution-contract-check.d.ts +33 -0
package/src/config/execution-contract-check.js +72 -0
package/src/config/execution-v0-contract-check.d.ts +94 -0
package/src/config/execution-v0-contract-check.js +251 -0
package/src/config/execution-v0-graph-contract-check.d.ts +20 -0
package/src/config/execution-v0-graph-contract-check.js +64 -0
package/src/config/kernel-path-contract-check.d.ts +76 -0
package/src/config/kernel-path-contract-check.js +479 -0
package/src/config/kernel-path-loader.d.ts +16 -0
package/src/config/kernel-path-loader.js +54 -0
package/src/config/kernels/kernel-ref-digests.js +12 -0
package/src/config/kernels/registry.json +556 -0
package/src/config/loader.js +50 -46
package/src/config/merge-contract-check.d.ts +16 -0
package/src/config/merge-contract-check.js +321 -0
package/src/config/merge-helpers.d.ts +58 -0
package/src/config/merge-helpers.js +54 -0
package/src/config/merge.js +3 -6
package/src/config/presets/models/janus-text.json +2 -0
package/src/config/quantization-contract-check.d.ts +12 -0
package/src/config/quantization-contract-check.js +91 -0
package/src/config/required-inference-fields-contract-check.d.ts +24 -0
package/src/config/required-inference-fields-contract-check.js +231 -0
package/src/config/schema/browser-suite-metrics.schema.d.ts +17 -0
package/src/config/schema/browser-suite-metrics.schema.js +46 -0
package/src/config/schema/conversion-report.schema.d.ts +40 -0
package/src/config/schema/conversion-report.schema.js +108 -0
package/src/config/schema/doppler.schema.js +12 -18
package/src/config/schema/index.d.ts +22 -0
package/src/config/schema/index.js +18 -0
package/src/converter/core.d.ts +10 -0
package/src/converter/core.js +27 -2
package/src/converter/parsers/diffusion.js +63 -3
package/src/gpu/kernels/depthwise_conv2d.d.ts +29 -0
package/src/gpu/kernels/depthwise_conv2d.js +98 -0
package/src/gpu/kernels/depthwise_conv2d.wgsl +58 -0
package/src/gpu/kernels/depthwise_conv2d_f16.wgsl +62 -0
package/src/gpu/kernels/grouped_pointwise_conv2d.d.ts +27 -0
package/src/gpu/kernels/grouped_pointwise_conv2d.js +92 -0
package/src/gpu/kernels/grouped_pointwise_conv2d.wgsl +47 -0
package/src/gpu/kernels/grouped_pointwise_conv2d_f16.wgsl +51 -0
package/src/gpu/kernels/index.d.ts +30 -0
package/src/gpu/kernels/index.js +25 -0
package/src/gpu/kernels/relu.d.ts +18 -0
package/src/gpu/kernels/relu.js +45 -0
package/src/gpu/kernels/relu.wgsl +21 -0
package/src/gpu/kernels/relu_f16.wgsl +23 -0
package/src/gpu/kernels/repeat_channels.d.ts +21 -0
package/src/gpu/kernels/repeat_channels.js +60 -0
package/src/gpu/kernels/repeat_channels.wgsl +29 -0
package/src/gpu/kernels/repeat_channels_f16.wgsl +31 -0
package/src/gpu/kernels/sana_linear_attention.d.ts +27 -0
package/src/gpu/kernels/sana_linear_attention.js +122 -0
package/src/gpu/kernels/sana_linear_attention_apply.wgsl +44 -0
package/src/gpu/kernels/sana_linear_attention_apply_f16.wgsl +47 -0
package/src/gpu/kernels/sana_linear_attention_summary.wgsl +47 -0
package/src/gpu/kernels/sana_linear_attention_summary_f16.wgsl +49 -0
package/src/index-browser.d.ts +1 -1
package/src/index-browser.js +2 -2
package/src/index.js +1 -1
package/src/inference/browser-harness.js +62 -22
package/src/inference/pipelines/diffusion/init.js +14 -0
package/src/inference/pipelines/diffusion/pipeline.js +206 -77
package/src/inference/pipelines/diffusion/sana-transformer.d.ts +53 -0
package/src/inference/pipelines/diffusion/sana-transformer.js +738 -0
package/src/inference/pipelines/diffusion/scheduler.d.ts +17 -1
package/src/inference/pipelines/diffusion/scheduler.js +91 -3
package/src/inference/pipelines/diffusion/text-encoder-gpu.d.ts +6 -4
package/src/inference/pipelines/diffusion/text-encoder-gpu.js +270 -0
package/src/inference/pipelines/diffusion/text-encoder.js +18 -1
package/src/inference/pipelines/diffusion/types.d.ts +4 -0
package/src/inference/pipelines/diffusion/vae.js +782 -78
package/src/inference/pipelines/text/config.d.ts +5 -0
package/src/inference/pipelines/text/config.js +1 -1
package/src/inference/pipelines/text/execution-v0.js +14 -93
package/src/rules/execution-rules-contract-check.d.ts +17 -0
package/src/rules/execution-rules-contract-check.js +245 -0
package/src/rules/kernels/depthwise-conv2d.rules.json +6 -0
package/src/rules/kernels/grouped-pointwise-conv2d.rules.json +6 -0
package/src/rules/kernels/relu.rules.json +6 -0
package/src/rules/kernels/repeat-channels.rules.json +6 -0
package/src/rules/kernels/sana-linear-attention.rules.json +6 -0
package/src/rules/layer-pattern-contract-check.d.ts +17 -0
package/src/rules/layer-pattern-contract-check.js +231 -0
package/src/rules/rule-registry.d.ts +28 -0
package/src/rules/rule-registry.js +38 -0
package/src/tooling/conversion-config-materializer.d.ts +24 -0
package/src/tooling/conversion-config-materializer.js +99 -0
package/src/tooling/lean-execution-contract-runner.d.ts +43 -0
package/src/tooling/lean-execution-contract-runner.js +158 -0
package/src/tooling/node-convert.d.ts +10 -0
package/src/tooling/node-converter.js +59 -0
package/src/tooling/node-webgpu.js +9 -9
package/src/version.d.ts +2 -0
package/src/version.js +2 -0
package/tools/convert-safetensors-node.js +47 -0
package/tools/doppler-cli.js +115 -1

package/src/gpu/kernels/relu.js ADDED Viewed

@@ -0,0 +1,45 @@
+import { acquireBuffer } from '../../memory/buffer-pool.js';
+import { createTensor, dtypeBytes } from '../tensor.js';
+import { unifiedKernelWrapper } from './utils.js';
+import { selectRuleValue } from './rule-registry.js';
+import { WORKGROUP_SIZES } from './constants.js';
+function selectReluVariant(dtype) {
+  return selectRuleValue('relu', 'variant', { dtype });
+}
+function resolveCount(input, countOverride) {
+  if (Number.isFinite(countOverride) && countOverride > 0) {
+    return Math.floor(countOverride);
+  }
+  if (Array.isArray(input.shape) && input.shape.length > 0) {
+    return input.shape.reduce((acc, value) => acc * value, 1);
+  }
+  return Math.floor(input.buffer.size / dtypeBytes(input.dtype));
+}
+async function _relu(target, input, options = {}) {
+  const { count = null, outputBuffer = null } = options;
+  const size = resolveCount(input, count);
+  const variant = selectReluVariant(input.dtype);
+  const output = outputBuffer || acquireBuffer(size * dtypeBytes(input.dtype), undefined, 'relu_output');
+  await unifiedKernelWrapper(
+    'relu',
+    target,
+    variant,
+    [input, output],
+    { size, _pad0: 0, _pad1: 0, _pad2: 0 },
+    Math.ceil(size / WORKGROUP_SIZES.DEFAULT)
+  );
+  return createTensor(output, input.dtype, [...input.shape], 'relu_output');
+}
+export async function runReLU(input, options = {}) {
+  return _relu(null, input, options);
+}
+export async function recordReLU(recorder, input, options = {}) {
+  return _relu(recorder, input, options);
+}

package/src/gpu/kernels/relu.wgsl ADDED Viewed

@@ -0,0 +1,21 @@
+override WORKGROUP_SIZE: u32 = 256u;
+struct Uniforms {
+    size: u32,
+    _pad0: u32,
+    _pad1: u32,
+    _pad2: u32,
+}
+@group(0) @binding(0) var<uniform> u: Uniforms;
+@group(0) @binding(1) var<storage, read> input: array<f32>;
+@group(0) @binding(2) var<storage, read_write> output: array<f32>;
+@compute @workgroup_size(WORKGROUP_SIZE, 1, 1)
+fn main(@builtin(global_invocation_id) gid: vec3<u32>) {
+    let idx = gid.x;
+    if (idx >= u.size) {
+        return;
+    }
+    output[idx] = max(input[idx], 0.0);
+}

package/src/gpu/kernels/relu_f16.wgsl ADDED Viewed

@@ -0,0 +1,23 @@
+enable f16;
+override WORKGROUP_SIZE: u32 = 256u;
+struct Uniforms {
+    size: u32,
+    _pad0: u32,
+    _pad1: u32,
+    _pad2: u32,
+}
+@group(0) @binding(0) var<uniform> u: Uniforms;
+@group(0) @binding(1) var<storage, read> input: array<f16>;
+@group(0) @binding(2) var<storage, read_write> output: array<f16>;
+@compute @workgroup_size(WORKGROUP_SIZE, 1, 1)
+fn main(@builtin(global_invocation_id) gid: vec3<u32>) {
+    let idx = gid.x;
+    if (idx >= u.size) {
+        return;
+    }
+    output[idx] = max(input[idx], 0.0h);
+}

package/src/gpu/kernels/repeat_channels.d.ts ADDED Viewed

@@ -0,0 +1,21 @@
+import type { Tensor } from '../tensor.js';
+import type { CommandRecorder } from '../command-recorder.js';
+import type { OutputBufferOptions } from './types.js';
+export interface RepeatChannelsOptions extends OutputBufferOptions {
+  inChannels: number;
+  height: number;
+  width: number;
+  repeats: number;
+}
+export declare function runRepeatChannels(
+  input: Tensor,
+  options: RepeatChannelsOptions
+): Promise<Tensor>;
+export declare function recordRepeatChannels(
+  recorder: CommandRecorder,
+  input: Tensor,
+  options: RepeatChannelsOptions
+): Promise<Tensor>;

package/src/gpu/kernels/repeat_channels.js ADDED Viewed

@@ -0,0 +1,60 @@
+import { acquireBuffer } from '../../memory/buffer-pool.js';
+import { createTensor, dtypeBytes } from '../tensor.js';
+import { unifiedKernelWrapper } from './utils.js';
+import { selectRuleValue } from './rule-registry.js';
+import { WORKGROUP_SIZES } from './constants.js';
+function selectRepeatChannelsVariant(dtype) {
+  return selectRuleValue('repeatChannels', 'variant', { dtype });
+}
+async function _repeatChannels(target, input, options = {}) {
+  const {
+    inChannels,
+    height,
+    width,
+    repeats,
+    outputBuffer = null,
+  } = options;
+  if (
+    !Number.isFinite(inChannels) ||
+    !Number.isFinite(height) ||
+    !Number.isFinite(width) ||
+    !Number.isFinite(repeats) ||
+    repeats < 1
+  ) {
+    throw new Error('RepeatChannels requires inChannels, height, width, and repeats.');
+  }
+  const outChannels = inChannels * repeats;
+  const variant = selectRepeatChannelsVariant(input.dtype);
+  const bytesPerElement = dtypeBytes(input.dtype);
+  const outputSize = outChannels * height * width * bytesPerElement;
+  const output = outputBuffer || acquireBuffer(outputSize, undefined, 'repeat_channels_output');
+  await unifiedKernelWrapper(
+    'repeat_channels',
+    target,
+    variant,
+    [input, output],
+    {
+      in_channels: inChannels,
+      height,
+      width,
+      repeats,
+      _pad0: 0,
+    },
+    Math.ceil((outChannels * height * width) / WORKGROUP_SIZES.DEFAULT)
+  );
+  return createTensor(output, input.dtype, [outChannels, height, width], 'repeat_channels_output');
+}
+export async function runRepeatChannels(input, options = {}) {
+  return _repeatChannels(null, input, options);
+}
+export async function recordRepeatChannels(recorder, input, options = {}) {
+  return _repeatChannels(recorder, input, options);
+}

package/src/gpu/kernels/repeat_channels.wgsl ADDED Viewed

@@ -0,0 +1,29 @@
+override WORKGROUP_SIZE: u32 = 256u;
+struct Uniforms {
+    in_channels: u32,
+    height: u32,
+    width: u32,
+    repeats: u32,
+    _pad0: u32,
+}
+@group(0) @binding(0) var<uniform> u: Uniforms;
+@group(0) @binding(1) var<storage, read> input: array<f32>;
+@group(0) @binding(2) var<storage, read_write> output: array<f32>;
+@compute @workgroup_size(WORKGROUP_SIZE, 1, 1)
+fn main(@builtin(global_invocation_id) gid: vec3<u32>) {
+    let idx = gid.x;
+    let spatial = u.height * u.width;
+    let out_channels = u.in_channels * u.repeats;
+    let total = out_channels * spatial;
+    if (idx >= total) {
+        return;
+    }
+    let out_channel = idx / spatial;
+    let channel = out_channel / u.repeats;
+    let spatial_idx = idx - out_channel * spatial;
+    output[idx] = input[channel * spatial + spatial_idx];
+}

package/src/gpu/kernels/repeat_channels_f16.wgsl ADDED Viewed

@@ -0,0 +1,31 @@
+enable f16;
+override WORKGROUP_SIZE: u32 = 256u;
+struct Uniforms {
+    in_channels: u32,
+    height: u32,
+    width: u32,
+    repeats: u32,
+    _pad0: u32,
+}
+@group(0) @binding(0) var<uniform> u: Uniforms;
+@group(0) @binding(1) var<storage, read> input: array<f16>;
+@group(0) @binding(2) var<storage, read_write> output: array<f16>;
+@compute @workgroup_size(WORKGROUP_SIZE, 1, 1)
+fn main(@builtin(global_invocation_id) gid: vec3<u32>) {
+    let idx = gid.x;
+    let spatial = u.height * u.width;
+    let out_channels = u.in_channels * u.repeats;
+    let total = out_channels * spatial;
+    if (idx >= total) {
+        return;
+    }
+    let out_channel = idx / spatial;
+    let channel = out_channel / u.repeats;
+    let spatial_idx = idx - out_channel * spatial;
+    output[idx] = input[channel * spatial + spatial_idx];
+}

package/src/gpu/kernels/sana_linear_attention.d.ts ADDED Viewed

@@ -0,0 +1,27 @@
+import type { Tensor } from '../tensor.js';
+import type { CommandRecorder } from '../command-recorder.js';
+import type { OutputBufferOptions } from './types.js';
+export interface SanaLinearAttentionOptions extends OutputBufferOptions {
+  numHeads: number;
+  headDim: number;
+  numTokens?: number;
+  hiddenSize?: number;
+  eps?: number;
+  summaryBuffer?: GPUBuffer | null;
+}
+export declare function runSanaLinearAttention(
+  query: Tensor,
+  key: Tensor,
+  value: Tensor,
+  options: SanaLinearAttentionOptions
+): Promise<Tensor>;
+export declare function recordSanaLinearAttention(
+  recorder: CommandRecorder,
+  query: Tensor,
+  key: Tensor,
+  value: Tensor,
+  options: SanaLinearAttentionOptions
+): Promise<Tensor>;

package/src/gpu/kernels/sana_linear_attention.js ADDED Viewed

@@ -0,0 +1,122 @@
+import { getDevice } from '../device.js';
+import { acquireBuffer, releaseBuffer } from '../../memory/buffer-pool.js';
+import { createTensor, dtypeBytes } from '../tensor.js';
+import { unifiedKernelWrapper } from './utils.js';
+import { selectRuleValue } from './rule-registry.js';
+import { WORKGROUP_SIZES } from './constants.js';
+function selectSanaLinearAttentionVariant(isF16) {
+  return selectRuleValue('sanaLinearAttention', 'variant', { isF16 });
+}
+async function runSummary(target, query, key, value, summaryBuffer, uniforms, variant) {
+  const summarySize = uniforms.num_heads * (uniforms.head_dim + 1) * uniforms.head_dim;
+  await unifiedKernelWrapper(
+    'sana_linear_attention_summary',
+    target,
+    variant,
+    [query, key, value, summaryBuffer],
+    {
+      num_heads: uniforms.num_heads,
+      head_dim: uniforms.head_dim,
+      num_tokens: uniforms.num_tokens,
+      hidden_size: uniforms.hidden_size,
+      _pad0: 0,
+      _pad1: 0,
+    },
+    Math.ceil(summarySize / WORKGROUP_SIZES.DEFAULT)
+  );
+}
+async function runApply(target, query, summaryBuffer, outputBuffer, uniforms, variant) {
+  const outputSize = uniforms.num_tokens * uniforms.hidden_size;
+  await unifiedKernelWrapper(
+    'sana_linear_attention_apply',
+    target,
+    variant,
+    [query, summaryBuffer, outputBuffer],
+    {
+      num_heads: uniforms.num_heads,
+      head_dim: uniforms.head_dim,
+      num_tokens: uniforms.num_tokens,
+      hidden_size: uniforms.hidden_size,
+      eps: uniforms.eps,
+      _pad0: 0,
+      _pad1: 0,
+      _pad2: 0,
+    },
+    Math.ceil(outputSize / WORKGROUP_SIZES.DEFAULT)
+  );
+}
+async function _sanaLinearAttention(target, query, key, value, options = {}) {
+  const recorder = target && typeof target.beginComputePass === 'function' ? target : null;
+  const device = target?.device || getDevice();
+  if (!device) {
+    throw new Error('SanaLinearAttention requires a WebGPU device.');
+  }
+  const {
+    numHeads,
+    headDim,
+    numTokens = query.shape?.[0],
+    hiddenSize = query.shape?.[1],
+    eps = 1e-15,
+    outputBuffer = null,
+    summaryBuffer = null,
+  } = options;
+  if (
+    !Number.isFinite(numHeads) ||
+    !Number.isFinite(headDim) ||
+    !Number.isFinite(numTokens) ||
+    !Number.isFinite(hiddenSize)
+  ) {
+    throw new Error('SanaLinearAttention requires numHeads, headDim, numTokens, and hiddenSize.');
+  }
+  if (hiddenSize !== numHeads * headDim) {
+    throw new Error(`SanaLinearAttention hiddenSize mismatch: ${hiddenSize} != ${numHeads} * ${headDim}`);
+  }
+  const isF16 = query.dtype === 'f16';
+  const variant = selectSanaLinearAttentionVariant(isF16);
+  const temporarySummary = summaryBuffer || acquireBuffer(
+    numHeads * (headDim + 1) * headDim * Float32Array.BYTES_PER_ELEMENT,
+    undefined,
+    'sana_linear_attention_summary'
+  );
+  const output = outputBuffer || acquireBuffer(
+    numTokens * hiddenSize * dtypeBytes(query.dtype),
+    undefined,
+    'sana_linear_attention_output'
+  );
+  const uniforms = {
+    num_heads: numHeads,
+    head_dim: headDim,
+    num_tokens: numTokens,
+    hidden_size: hiddenSize,
+    eps,
+  };
+  await runSummary(target, query, key, value, temporarySummary, uniforms, variant);
+  await runApply(target, query, temporarySummary, output, uniforms, variant);
+  if (!summaryBuffer) {
+    if (recorder) {
+      recorder.trackTemporaryBuffer(temporarySummary);
+    } else {
+      releaseBuffer(temporarySummary);
+    }
+  }
+  return createTensor(output, query.dtype, [numTokens, hiddenSize], 'sana_linear_attention_output');
+}
+export async function runSanaLinearAttention(query, key, value, options = {}) {
+  return _sanaLinearAttention(null, query, key, value, options);
+}
+export async function recordSanaLinearAttention(recorder, query, key, value, options = {}) {
+  return _sanaLinearAttention(recorder, query, key, value, options);
+}

package/src/gpu/kernels/sana_linear_attention_apply.wgsl ADDED Viewed

@@ -0,0 +1,44 @@
+override WORKGROUP_SIZE: u32 = 256u;
+struct Uniforms {
+    num_heads: u32,
+    head_dim: u32,
+    num_tokens: u32,
+    hidden_size: u32,
+    eps: f32,
+    _pad0: u32,
+    _pad1: u32,
+    _pad2: u32,
+}
+@group(0) @binding(0) var<uniform> u: Uniforms;
+@group(0) @binding(1) var<storage, read> query: array<f32>;
+@group(0) @binding(2) var<storage, read> summary: array<f32>;
+@group(0) @binding(3) var<storage, read_write> output: array<f32>;
+@compute @workgroup_size(WORKGROUP_SIZE, 1, 1)
+fn main(@builtin(global_invocation_id) gid: vec3<u32>) {
+    let idx = gid.x;
+    let total = u.num_tokens * u.hidden_size;
+    if (idx >= total) {
+        return;
+    }
+    let token = idx / u.hidden_size;
+    let hidden = idx - token * u.hidden_size;
+    let head = hidden / u.head_dim;
+    let dim = hidden - head * u.head_dim;
+    let rows_per_head = u.head_dim + 1u;
+    let head_offset = head * rows_per_head * u.head_dim;
+    let hidden_base = head * u.head_dim;
+    var numerator: f32 = 0.0;
+    var denominator: f32 = 0.0;
+    for (var i: u32 = 0u; i < u.head_dim; i = i + 1u) {
+        let q_value = max(query[token * u.hidden_size + hidden_base + i], 0.0);
+        numerator = numerator + summary[head_offset + dim * u.head_dim + i] * q_value;
+        denominator = denominator + summary[head_offset + u.head_dim * u.head_dim + i] * q_value;
+    }
+    output[idx] = numerator / (denominator + u.eps);
+}

package/src/gpu/kernels/sana_linear_attention_apply_f16.wgsl ADDED Viewed

@@ -0,0 +1,47 @@
+enable f16;
+override WORKGROUP_SIZE: u32 = 256u;
+struct Uniforms {
+    num_heads: u32,
+    head_dim: u32,
+    num_tokens: u32,
+    hidden_size: u32,
+    eps: f32,
+    _pad0: u32,
+    _pad1: u32,
+    _pad2: u32,
+}
+@group(0) @binding(0) var<uniform> u: Uniforms;
+@group(0) @binding(1) var<storage, read> query: array<f16>;
+@group(0) @binding(2) var<storage, read> summary: array<f32>;
+@group(0) @binding(3) var<storage, read_write> output: array<f16>;
+@compute @workgroup_size(WORKGROUP_SIZE, 1, 1)
+fn main(@builtin(global_invocation_id) gid: vec3<u32>) {
+    let idx = gid.x;
+    let total = u.num_tokens * u.hidden_size;
+    if (idx >= total) {
+        return;
+    }
+    let token = idx / u.hidden_size;
+    let hidden = idx - token * u.hidden_size;
+    let head = hidden / u.head_dim;
+    let dim = hidden - head * u.head_dim;
+    let rows_per_head = u.head_dim + 1u;
+    let head_offset = head * rows_per_head * u.head_dim;
+    let hidden_base = head * u.head_dim;
+    var numerator: f32 = 0.0;
+    var denominator: f32 = 0.0;
+    for (var i: u32 = 0u; i < u.head_dim; i = i + 1u) {
+        let q_value = max(f32(query[token * u.hidden_size + hidden_base + i]), 0.0);
+        numerator = numerator + summary[head_offset + dim * u.head_dim + i] * q_value;
+        denominator = denominator + summary[head_offset + u.head_dim * u.head_dim + i] * q_value;
+    }
+    let result = numerator / (denominator + u.eps);
+    output[idx] = f16(clamp(result, -65504.0, 65504.0));
+}

package/src/gpu/kernels/sana_linear_attention_summary.wgsl ADDED Viewed

@@ -0,0 +1,47 @@
+override WORKGROUP_SIZE: u32 = 256u;
+struct Uniforms {
+    num_heads: u32,
+    head_dim: u32,
+    num_tokens: u32,
+    hidden_size: u32,
+    _pad0: u32,
+    _pad1: u32,
+}
+@group(0) @binding(0) var<uniform> u: Uniforms;
+@group(0) @binding(1) var<storage, read> query: array<f32>;
+@group(0) @binding(2) var<storage, read> key: array<f32>;
+@group(0) @binding(3) var<storage, read> value: array<f32>;
+@group(0) @binding(4) var<storage, read_write> summary: array<f32>;
+@compute @workgroup_size(WORKGROUP_SIZE, 1, 1)
+fn main(@builtin(global_invocation_id) gid: vec3<u32>) {
+    let idx = gid.x;
+    let rows_per_head = u.head_dim + 1u;
+    let head_span = rows_per_head * u.head_dim;
+    let total = u.num_heads * head_span;
+    if (idx >= total) {
+        return;
+    }
+    let head = idx / head_span;
+    let rem = idx - head * head_span;
+    let row = rem / u.head_dim;
+    let col = rem - row * u.head_dim;
+    let hidden_base = head * u.head_dim;
+    var acc: f32 = 0.0;
+    for (var token: u32 = 0u; token < u.num_tokens; token = token + 1u) {
+        let key_idx = token * u.hidden_size + hidden_base + col;
+        let key_value = max(key[key_idx], 0.0);
+        let value_value = select(
+            value[token * u.hidden_size + hidden_base + row],
+            1.0,
+            row == u.head_dim
+        );
+        acc = acc + value_value * key_value;
+    }
+    summary[idx] = acc;
+}

package/src/gpu/kernels/sana_linear_attention_summary_f16.wgsl ADDED Viewed

@@ -0,0 +1,49 @@
+enable f16;
+override WORKGROUP_SIZE: u32 = 256u;
+struct Uniforms {
+    num_heads: u32,
+    head_dim: u32,
+    num_tokens: u32,
+    hidden_size: u32,
+    _pad0: u32,
+    _pad1: u32,
+}
+@group(0) @binding(0) var<uniform> u: Uniforms;
+@group(0) @binding(1) var<storage, read> query: array<f16>;
+@group(0) @binding(2) var<storage, read> key: array<f16>;
+@group(0) @binding(3) var<storage, read> value: array<f16>;
+@group(0) @binding(4) var<storage, read_write> summary: array<f32>;
+@compute @workgroup_size(WORKGROUP_SIZE, 1, 1)
+fn main(@builtin(global_invocation_id) gid: vec3<u32>) {
+    let idx = gid.x;
+    let rows_per_head = u.head_dim + 1u;
+    let head_span = rows_per_head * u.head_dim;
+    let total = u.num_heads * head_span;
+    if (idx >= total) {
+        return;
+    }
+    let head = idx / head_span;
+    let rem = idx - head * head_span;
+    let row = rem / u.head_dim;
+    let col = rem - row * u.head_dim;
+    let hidden_base = head * u.head_dim;
+    var acc: f32 = 0.0;
+    for (var token: u32 = 0u; token < u.num_tokens; token = token + 1u) {
+        let key_idx = token * u.hidden_size + hidden_base + col;
+        let key_value = max(f32(key[key_idx]), 0.0);
+        let value_value = select(
+            f32(value[token * u.hidden_size + hidden_base + row]),
+            1.0,
+            row == u.head_dim
+        );
+        acc = acc + value_value * key_value;
+    }
+    summary[idx] = acc;
+}

package/src/index-browser.d.ts CHANGED Viewed

@@ -1,5 +1,5 @@
 export declare const DOPPLER_VERSION: string;
-export { doppler } from './client/doppler-api.js';
+export { doppler } from './client/doppler-api.browser.js';
 export {
   DopplerLoader,

package/src/index-browser.js CHANGED Viewed

@@ -1,5 +1,5 @@
-export const DOPPLER_VERSION = '0.1.0';
-export { doppler } from './client/doppler-api.js';
+export { DOPPLER_VERSION } from './version.js';
+export { doppler } from './client/doppler-api.browser.js';
 // Core loaders
 export {

package/src/index.js CHANGED Viewed

@@ -1,4 +1,4 @@
-export const DOPPLER_VERSION = '0.1.0';
+export { DOPPLER_VERSION } from './version.js';
 export { doppler } from './client/doppler-api.js';
 // Core loaders