npm - @simulatte/doppler - Versions diffs - 0.1.8 → 0.1.9 - Mend

@simulatte/doppler 0.1.8 → 0.1.9

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (116) hide show

package/CHANGELOG.md +14 -1
package/README.md +25 -6
package/package.json +5 -3
package/src/client/doppler-api.browser.js +6 -0
package/src/client/doppler-api.d.ts +3 -0
package/src/client/doppler-api.js +11 -2
package/src/client/doppler-registry.js +3 -5
package/src/client/doppler-registry.json +16 -0
package/src/config/kernels/kernel-ref-digests.js +23 -21
package/src/config/kernels/moe/mixtral.paths.json +46 -0
package/src/config/loader.js +6 -0
package/src/config/platforms/loader.js +3 -1
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32a-nosubgroups.json +16 -16
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32a-online.json +8 -8
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32a-small-attn.json +61 -0
package/src/config/presets/kernel-paths/registry.json +7 -0
package/src/config/presets/models/gemma3.json +2 -1
package/src/config/presets/models/gemma4.json +61 -0
package/src/config/presets/models/granite-docling.json +70 -0
package/src/config/presets/models/lfm2.json +6 -1
package/src/config/presets/models/qwen3_vl.json +40 -0
package/src/config/presets/runtime/experiments/bench/gemma3-bench-q4k.json +2 -1
package/src/config/presets/runtime/experiments/verify/lfm2-verify.json +46 -0
package/src/config/presets/runtime/experiments/verify/translategemma-verify.json +39 -0
package/src/config/presets/runtime/modes/trace-layers.json +1 -0
package/src/config/presets/runtime/tiers/gemma4-16gb.json +69 -0
package/src/config/presets/runtime/tiers/gemma4-24gb.json +66 -0
package/src/config/presets/runtime/tiers/gemma4-32gb.json +66 -0
package/src/config/runtime.js +3 -0
package/src/config/schema/debug.schema.d.ts +40 -0
package/src/config/schema/debug.schema.js +28 -0
package/src/config/schema/index.js +2 -0
package/src/config/schema/inference-defaults.schema.js +1 -1
package/src/config/schema/kernel-path.schema.d.ts +1 -0
package/src/config/schema/memory-limits.schema.js +2 -2
package/src/config/schema/storage.schema.js +1 -1
package/src/converter/conversion-plan.js +1 -1
package/src/converter/core.js +17 -8
package/src/converter/quantizer.d.ts +5 -0
package/src/converter/quantizer.js +15 -0
package/src/distribution/shard-delivery.js +34 -0
package/src/formats/rdrr/classification.js +32 -0
package/src/gpu/kernel-runtime.js +4 -2
package/src/gpu/kernels/attention.js +2 -1
package/src/gpu/kernels/dequant_f16_out.wgsl +4 -2
package/src/gpu/kernels/dequant_f16_out_vec4.wgsl +5 -2
package/src/gpu/kernels/dequant_shared.wgsl +4 -2
package/src/gpu/kernels/dequant_shared_vec4.wgsl +4 -2
package/src/gpu/kernels/dequant_subgroup.wgsl +6 -2
package/src/gpu/kernels/gated-short-conv.d.ts +63 -0
package/src/gpu/kernels/gated-short-conv.js +284 -0
package/src/gpu/kernels/linear-attention-core.js +37 -17
package/src/gpu/kernels/matmul-selection.js +1 -0
package/src/gpu/kernels/matmul.d.ts +3 -0
package/src/gpu/kernels/matmul.js +70 -1
package/src/gpu/kernels/matmul_gemv_subgroup.wgsl +77 -79
package/src/gpu/kernels/sample.js +1 -3
package/src/gpu/kernels/sample.wgsl +39 -9
package/src/gpu/kernels/sample_f16.wgsl +38 -8
package/src/gpu/kernels/shader-cache.js +9 -4
package/src/inference/kv-cache/base.js +3 -10
package/src/inference/pipelines/diffusion/pipeline.js +2 -1
package/src/inference/pipelines/diffusion/text-encoder-gpu.js +2 -1
package/src/inference/pipelines/text/attention/projections.d.ts +3 -0
package/src/inference/pipelines/text/attention/projections.js +13 -2
package/src/inference/pipelines/text/attention/record.js +1 -0
package/src/inference/pipelines/text/attention/run.js +9 -0
package/src/inference/pipelines/text/config.d.ts +1 -0
package/src/inference/pipelines/text/config.js +32 -4
package/src/inference/pipelines/text/embed.js +26 -7
package/src/inference/pipelines/text/execution-v0-runtime-builders.js +10 -3
package/src/inference/pipelines/text/execution-v0.js +12 -1
package/src/inference/pipelines/text/generator-helpers.js +1 -0
package/src/inference/pipelines/text/generator-runtime.js +14 -0
package/src/inference/pipelines/text/generator-steps.d.ts +9 -0
package/src/inference/pipelines/text/generator-steps.js +46 -29
package/src/inference/pipelines/text/generator.d.ts +5 -0
package/src/inference/pipelines/text/generator.js +320 -166
package/src/inference/pipelines/text/init.d.ts +2 -0
package/src/inference/pipelines/text/init.js +19 -5
package/src/inference/pipelines/text/layer.js +37 -8
package/src/inference/pipelines/text/moe-gpu.js +21 -3
package/src/inference/pipelines/text/moe-shape-validator.d.ts +9 -0
package/src/inference/pipelines/text/moe-shape-validator.js +31 -11
package/src/inference/pipelines/text/ops.js +123 -53
package/src/inference/pipelines/text/probes.js +1 -0
package/src/inference/pipelines/text/state.js +2 -0
package/src/inference/pipelines/text.d.ts +5 -0
package/src/inference/pipelines/text.js +59 -1
package/src/inference/pipelines/vision/encoder.js +386 -0
package/src/inference/pipelines/vision/image-preprocess.js +151 -0
package/src/inference/pipelines/vision/index.js +173 -0
package/src/inference/pipelines/vision/ops.js +78 -0
package/src/inference/pipelines/vision/patch-embed.js +151 -0
package/src/inference/test-harness.js +9 -7
package/src/loader/doppler-loader.d.ts +3 -0
package/src/loader/doppler-loader.js +20 -3
package/src/loader/experts/expert-cache.js +6 -2
package/src/loader/experts/expert-loader.js +6 -2
package/src/loader/layer-loader.js +42 -3
package/src/loader/manifest-config.js +3 -1
package/src/loader/tensors/tensor-loader.d.ts +3 -0
package/src/loader/tensors/tensor-loader.js +124 -3
package/src/rules/kernels/moe.rules.mixtral.json +75 -0
package/src/rules/kernels/softmax.rules.json +2 -0
package/src/rules/rule-registry.d.ts +1 -0
package/src/rules/rule-registry.js +2 -0
package/src/storage/quickstart-downloader.d.ts +3 -0
package/src/storage/quickstart-downloader.js +27 -30
package/src/tooling/node-converter.js +25 -7
package/src/tooling/node-source-runtime.js +29 -5
package/src/tooling/node-webgpu.js +24 -7
package/src/utils/hf-resolve-url.d.ts +16 -0
package/src/utils/hf-resolve-url.js +17 -0
package/src/version.js +1 -1
package/src/tooling/node-convert.d.ts +0 -54

package/src/inference/pipelines/text/generator-steps.js CHANGED Viewed

@@ -1,6 +1,6 @@
 import { getDevice, setTrackSubmits } from '../../../gpu/device.js';
 import { releaseBuffer, readBuffer } from '../../../memory/buffer-pool.js';
-import { runArgmax, runGPUSample, recordArgmax, recordGPUSample, isGPUSamplingAvailable } from '../../../gpu/kernels/sample.js';
+import { recordArgmax, recordGPUSample, isGPUSamplingAvailable } from '../../../gpu/kernels/sample.js';
 import { recordCheckStop } from '../../../gpu/kernels/check-stop.js';
 import { resetSubmitStats, logSubmitStats } from '../../../gpu/submit-tracker.js';
 import { createCommandRecorder, createProfilingRecorder, CommandRecorder } from '../../../gpu/command-recorder.js';
@@ -20,6 +20,7 @@ import { decodeReadback } from './debug-utils/index.js';
 import { getFinalNormWeights, extractEmbeddingFromHidden } from './generator-runtime.js';
 import { parseFinitenessStatusWords } from './finiteness-guard-status.js';
 import { hasLinearAttentionLayers } from './linear-attention.js';
+import { hasConvLayers } from './layer.js';
 const UNKNOWN_TOKEN_TEXT = '<unknown>';
@@ -91,6 +92,13 @@ export function shouldUseBatchDecode(config) {
   return isBatchDecodeEnabled(config);
 }
+export function shouldUseFusedDecodeSampling(config) {
+  return config.recorderEnabled === true
+    && config.gpuSamplingEnabled === true
+    && config.fusedDecodeDisabled !== true
+    && !hasConvLayers(config.layerTypes ?? []);
+}
 export function resolveBatchStop(tokens, stopFlags, stopTokenIds, eosTokenId) {
   let actualCount = tokens.length;
   if (stopFlags) {
@@ -403,7 +411,12 @@ export async function decodeStep(state, currentIds, opts, helpers) {
   const padTokenId = state.tokenizer?.getSpecialTokens?.()?.pad ?? null;
   const lmHeadIsCpu = isCpuWeightBuffer(state.weights.get('lm_head'));
   const useGPUSampling = state.useGPU && isGPUSamplingAvailable() && !lmHeadIsCpu;
-  const useFusedDecode = recorder && useGPUSampling && !state.disableFusedDecode;
+  const useFusedDecode = shouldUseFusedDecodeSampling({
+    recorderEnabled: Boolean(recorder),
+    gpuSamplingEnabled: useGPUSampling,
+    fusedDecodeDisabled: state.disableFusedDecode,
+    layerTypes: config.layerTypes,
+  });
   if (useFusedDecode) {
     const ring = state.decodeRing;
@@ -631,36 +644,35 @@ export async function decodeStep(state, currentIds, opts, helpers) {
     );
     if (logitsResult) {
       const { logitsBuffer, vocabSize, logitsDtype } = logitsResult;
+      const logitsBytes = selectRuleValue('shared', 'dtype', 'bytesFromDtype', { dtype: logitsDtype });
+      const logitsData = await readBuffer(logitsBuffer, numTokens * vocabSize * logitsBytes);
+      releaseBuffer(logitsBuffer);
-      const nextToken = opts.temperature < samplingDefaults.greedyThreshold
-        ? await runArgmax(logitsBuffer, vocabSize, { padTokenId, logitSoftcap, logitsDtype, outputIndex: 0 })
-        : await runGPUSample(logitsBuffer, vocabSize, {
-          temperature: opts.temperature,
-          topK: opts.topK,
-          padTokenId,
-          logitSoftcap,
-          logitsDtype,
-          outputIndex: 0,
-          greedyThreshold: samplingDefaults.greedyThreshold,
-          randomSeed: opts.seed,
-        });
+      const rawLogits = decodeReadback(logitsData, logitsDtype);
+      const finalizedLogits = await finalizeLogits(
+        rawLogits,
+        numTokens,
+        vocabSize,
+        config.vocabSize,
+        config,
+        state.runtimeConfig.shared.debug.probes
+      );
+      const sampledLogits = extractLastPositionLogits(finalizedLogits, numTokens, config.vocabSize);
-      releaseBuffer(logitsBuffer);
-      const invalidGpuToken = nextToken >= config.vocabSize
-        || (padTokenId != null && nextToken === padTokenId)
-        || (padTokenId == null && nextToken === 0);
-      if (!invalidGpuToken) {
-        if (!context.decodeBuffers?.ownsBuffer(hiddenStates)) {
-          releaseBuffer(hiddenStates);
-        }
-        state.currentSeqLen++;
-        return nextToken;
+      applyRepetitionPenalty(sampledLogits, currentIds, opts.repetitionPenalty);
+      const nextToken = sample(sampledLogits, {
+        temperature: opts.temperature,
+        topP: opts.topP,
+        topK: opts.topK,
+        padTokenId,
+        seed: opts.seed,
+      });
+      if (!context.decodeBuffers?.ownsBuffer(hiddenStates)) {
+        releaseBuffer(hiddenStates);
       }
-      state.disableFusedDecode = true;
-      log.warn(
-        'Decode',
-        `GPU sampling produced invalid token ${nextToken} (vocabSize=${config.vocabSize}, step=${state.decodeStepCount}); falling back to CPU sampling.`
-      );
+      state.currentSeqLen++;
+      return nextToken;
     }
   }
@@ -887,6 +899,11 @@ export async function generateNTokensGPU(state, startToken, N, currentIds, opts,
       '[Pipeline] Batch decode path is disabled for linear_attention models; use single-token decode.'
     );
   }
+  if (hasConvLayers(config.layerTypes)) {
+    throw new Error(
+      '[Pipeline] Batch decode path is disabled for conv models; use single-token decode.'
+    );
+  }
   const samplingDefaults = state.runtimeConfig.inference.sampling;
   const executionPlan = opts.executionPlan;
   const batchSize = executionPlan?.batchSize ?? opts.batchSize ?? state.runtimeConfig.inference.batching.batchSize;

package/src/inference/pipelines/text/generator.d.ts CHANGED Viewed

@@ -27,6 +27,11 @@ export declare class PipelineGenerator {
    * Batching and readback cadence are controlled by runtime.inference.batching.
    */
   generate(prompt: PromptInput, options?: GenerateOptions): AsyncGenerator<string, void, void>;
+  generateTokens(prompt: PromptInput, options?: GenerateOptions): AsyncGenerator<number, void, void>;
+  generateTokenIds(
+    prompt: PromptInput,
+    options?: GenerateOptions
+  ): Promise<{ tokenIds: number[]; stats: import('./types.js').PipelineStats }>;
   prefillKVOnly(prompt: PromptInput, options?: GenerateOptions): Promise<KVCacheSnapshot>;
   prefillWithEmbedding(prompt: PromptInput, options?: GenerateOptions): Promise<PrefillEmbeddingResult>;
   prefillWithLogits(prompt: PromptInput, options?: GenerateOptions): Promise<PrefillResult>;