npm - @simulatte/doppler - Versions diffs - 0.1.7 → 0.1.9 - Mend

@simulatte/doppler 0.1.7 → 0.1.9

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (172) hide show

package/CHANGELOG.md +32 -0
package/README.md +25 -6
package/package.json +25 -38
package/src/browser/browser-converter.js +5 -0
package/src/client/doppler-api.browser.js +6 -0
package/src/client/doppler-api.d.ts +3 -0
package/src/client/doppler-api.js +11 -2
package/src/client/doppler-registry.js +3 -5
package/src/client/doppler-registry.json +2 -2
package/src/config/kernel-path-loader.d.ts +5 -0
package/src/config/kernel-path-loader.js +13 -0
package/src/config/kernels/kernel-ref-digests.js +23 -21
package/src/config/kernels/moe/mixtral.paths.json +46 -0
package/src/config/kernels/registry.json +74 -0
package/src/config/loader.js +9 -0
package/src/config/merge-contract-check.js +7 -0
package/src/config/platforms/loader.js +3 -1
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32a-nosubgroups.json +16 -16
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32a-online.json +8 -8
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32a-small-attn.json +61 -0
package/src/config/presets/kernel-paths/gemma3-q4k-dequant-f32w-f32a-online.json +56 -0
package/src/config/presets/kernel-paths/lfm2-q4k-dequant-f32a-nosubgroups.json +61 -0
package/src/config/presets/kernel-paths/registry.json +21 -0
package/src/config/presets/models/gemma2.json +2 -1
package/src/config/presets/models/gemma3.json +4 -1
package/src/config/presets/models/gemma4.json +61 -0
package/src/config/presets/models/granite-docling.json +70 -0
package/src/config/presets/models/lfm2.json +6 -1
package/src/config/presets/models/qwen3.json +4 -3
package/src/config/presets/models/qwen3_5.json +16 -0
package/src/config/presets/models/qwen3_vl.json +40 -0
package/src/config/presets/runtime/experiments/bench/gemma3-bench-q4k.json +2 -1
package/src/config/presets/runtime/experiments/verify/lfm2-verify.json +46 -0
package/src/config/presets/runtime/experiments/verify/translategemma-verify.json +39 -0
package/src/config/presets/runtime/model/qwen3-5-layer-probe.json +52 -0
package/src/config/presets/runtime/model/qwen3-5-linear-attn-debug.json +90 -0
package/src/config/presets/runtime/modes/trace-layers.json +1 -0
package/src/config/presets/runtime/tiers/gemma4-16gb.json +69 -0
package/src/config/presets/runtime/tiers/gemma4-24gb.json +66 -0
package/src/config/presets/runtime/tiers/gemma4-32gb.json +66 -0
package/src/config/runtime.js +3 -0
package/src/config/schema/conversion.schema.d.ts +1 -0
package/src/config/schema/debug.schema.d.ts +40 -0
package/src/config/schema/debug.schema.js +28 -0
package/src/config/schema/index.js +2 -0
package/src/config/schema/inference-defaults.schema.js +1 -1
package/src/config/schema/kernel-path.schema.d.ts +1 -0
package/src/config/schema/manifest.schema.d.ts +1 -1
package/src/config/schema/manifest.schema.js +1 -1
package/src/config/schema/memory-limits.schema.js +2 -2
package/src/config/schema/storage.schema.js +2 -2
package/src/converter/conversion-plan.js +11 -3
package/src/converter/core.js +19 -8
package/src/converter/manifest-inference.js +12 -22
package/src/converter/parsers/transformer.js +4 -0
package/src/converter/quantization-info.js +5 -1
package/src/converter/quantizer.d.ts +5 -0
package/src/converter/quantizer.js +34 -12
package/src/converter/rope-config.js +8 -6
package/src/converter/tokenizer-utils.d.ts +1 -0
package/src/converter/tokenizer-utils.js +4 -1
package/src/debug/reference/hf_qwen35_linear_attn_debug.py +268 -0
package/src/distribution/shard-delivery.js +40 -1
package/src/formats/rdrr/classification.js +32 -0
package/src/formats/rdrr/parsing.d.ts +4 -0
package/src/formats/rdrr/parsing.js +14 -1
package/src/gpu/kernel-runtime.js +4 -2
package/src/gpu/kernels/attention.js +2 -1
package/src/gpu/kernels/dequant_f16_out.wgsl +4 -2
package/src/gpu/kernels/dequant_f16_out_vec4.wgsl +5 -2
package/src/gpu/kernels/dequant_shared.wgsl +4 -2
package/src/gpu/kernels/dequant_shared_vec4.wgsl +4 -2
package/src/gpu/kernels/dequant_subgroup.wgsl +6 -2
package/src/gpu/kernels/gated-short-conv.d.ts +63 -0
package/src/gpu/kernels/gated-short-conv.js +284 -0
package/src/gpu/kernels/index.d.ts +8 -0
package/src/gpu/kernels/index.js +6 -0
package/src/gpu/kernels/linear-attention-core.js +37 -17
package/src/gpu/kernels/matmul-selection.js +48 -4
package/src/gpu/kernels/matmul.d.ts +5 -0
package/src/gpu/kernels/matmul.js +71 -2
package/src/gpu/kernels/matmul_gemv_subgroup.wgsl +77 -79
package/src/gpu/kernels/rmsnorm.js +9 -2
package/src/gpu/kernels/sample.js +1 -3
package/src/gpu/kernels/sample.wgsl +39 -9
package/src/gpu/kernels/sample_f16.wgsl +38 -8
package/src/gpu/kernels/shader-cache.js +9 -4
package/src/gpu/kernels/split_qg.d.ts +50 -0
package/src/gpu/kernels/split_qg.js +46 -0
package/src/gpu/kernels/split_qg.wgsl +58 -0
package/src/gpu/kernels/split_qg_f16.wgsl +62 -0
package/src/gpu/weight-buffer.d.ts +1 -1
package/src/gpu/weight-buffer.js +1 -1
package/src/inference/browser-harness.d.ts +2 -0
package/src/inference/browser-harness.js +20 -1
package/src/inference/kv-cache/base.js +3 -10
package/src/inference/pipelines/diffusion/helpers.js +3 -0
package/src/inference/pipelines/diffusion/pipeline.js +2 -1
package/src/inference/pipelines/diffusion/text-encoder-gpu.js +10 -3
package/src/inference/pipelines/text/attention/output-projection.d.ts +12 -0
package/src/inference/pipelines/text/attention/output-projection.js +8 -0
package/src/inference/pipelines/text/attention/projections.d.ts +13 -1
package/src/inference/pipelines/text/attention/projections.js +54 -13
package/src/inference/pipelines/text/attention/record.js +16 -6
package/src/inference/pipelines/text/attention/run.js +59 -6
package/src/inference/pipelines/text/config.d.ts +1 -0
package/src/inference/pipelines/text/config.js +46 -4
package/src/inference/pipelines/text/embed.js +26 -7
package/src/inference/pipelines/text/execution-plan.js +5 -4
package/src/inference/pipelines/text/execution-v0-runtime-builders.js +10 -3
package/src/inference/pipelines/text/execution-v0.js +12 -1
package/src/inference/pipelines/text/generator-helpers.js +1 -0
package/src/inference/pipelines/text/generator-runtime.js +19 -0
package/src/inference/pipelines/text/generator-steps.d.ts +15 -0
package/src/inference/pipelines/text/generator-steps.js +71 -26
package/src/inference/pipelines/text/generator.d.ts +5 -0
package/src/inference/pipelines/text/generator.js +353 -166
package/src/inference/pipelines/text/init.d.ts +15 -0
package/src/inference/pipelines/text/init.js +35 -10
package/src/inference/pipelines/text/layer.js +38 -8
package/src/inference/pipelines/text/linear-attention.d.ts +5 -0
package/src/inference/pipelines/text/linear-attention.js +33 -3
package/src/inference/pipelines/text/logits/gpu.js +2 -2
package/src/inference/pipelines/text/logits/index.d.ts +6 -1
package/src/inference/pipelines/text/logits/index.js +3 -1
package/src/inference/pipelines/text/model-load.js +3 -0
package/src/inference/pipelines/text/moe-gpu.js +21 -3
package/src/inference/pipelines/text/moe-shape-validator.d.ts +9 -0
package/src/inference/pipelines/text/moe-shape-validator.js +31 -11
package/src/inference/pipelines/text/ops.js +123 -53
package/src/inference/pipelines/text/probes.js +1 -0
package/src/inference/pipelines/text/sampling.js +52 -6
package/src/inference/pipelines/text/state.js +2 -0
package/src/inference/pipelines/text.d.ts +5 -0
package/src/inference/pipelines/text.js +59 -1
package/src/inference/pipelines/vision/encoder.js +386 -0
package/src/inference/pipelines/vision/image-preprocess.js +151 -0
package/src/inference/pipelines/vision/index.js +173 -0
package/src/inference/pipelines/vision/ops.js +78 -0
package/src/inference/pipelines/vision/patch-embed.js +151 -0
package/src/inference/test-harness.js +11 -9
package/src/loader/doppler-loader.d.ts +3 -0
package/src/loader/doppler-loader.js +20 -3
package/src/loader/experts/expert-cache.js +6 -2
package/src/loader/experts/expert-loader.js +6 -2
package/src/loader/final-weights-loader.js +2 -0
package/src/loader/layer-loader.js +42 -3
package/src/loader/manifest-config.js +3 -1
package/src/loader/shard-cache.js +3 -2
package/src/loader/tensors/tensor-loader.d.ts +3 -0
package/src/loader/tensors/tensor-loader.js +130 -4
package/src/rules/inference/dtype.rules.json +5 -0
package/src/rules/inference/kernel-path.rules.json +2 -2
package/src/rules/kernels/moe.rules.mixtral.json +75 -0
package/src/rules/kernels/softmax.rules.json +2 -0
package/src/rules/kernels/split-qg.rules.json +6 -0
package/src/rules/rule-registry.d.ts +1 -0
package/src/rules/rule-registry.js +4 -0
package/src/storage/downloader.js +2 -1
package/src/storage/quickstart-downloader.d.ts +3 -0
package/src/storage/quickstart-downloader.js +27 -30
package/src/storage/shard-manager.js +4 -3
package/src/tooling/conversion-config-materializer.js +3 -5
package/src/tooling/node-converter.js +28 -7
package/src/tooling/node-source-runtime.js +65 -5
package/src/tooling/node-webgpu.js +24 -7
package/src/types/model.d.ts +5 -0
package/src/utils/hf-resolve-url.d.ts +16 -0
package/src/utils/hf-resolve-url.js +17 -0
package/src/version.js +1 -1
package/tools/doppler-cli.js +6 -1
package/src/tooling/node-convert.d.ts +0 -54

package/src/tooling/node-source-runtime.js CHANGED Viewed

@@ -1,4 +1,6 @@
+import { createReadStream } from 'node:fs';
 import fs from 'node:fs/promises';
+import { createHash } from 'node:crypto';
 import path from 'node:path';
 import {
   HEADER_READ_SIZE,
@@ -16,7 +18,6 @@ import { parseTransformerModel } from '../converter/parsers/transformer.js';
 import { parseGGUFHeader } from '../formats/gguf/types.js';
 import { parseSafetensorsHeader } from '../formats/safetensors/types.js';
 import { log } from '../debug/index.js';
-import { computeHash } from '../storage/shard-manager.js';
 import {
   buildSourceRuntimeBundle,
   createSourceStorageContext,
@@ -137,7 +138,12 @@ async function readRange(filePath, offset, length) {
       return new ArrayBuffer(0);
     }
     const out = Buffer.allocUnsafe(end - start);
-    await handle.read(out, 0, out.length, start);
+    let pos = 0;
+    while (pos < out.length) {
+      const { bytesRead } = await handle.read(out, pos, out.length - pos, start + pos);
+      if (bytesRead === 0) break;
+      pos += bytesRead;
+    }
     return out.buffer.slice(out.byteOffset, out.byteOffset + out.byteLength);
   } finally {
     await handle.close();
@@ -411,23 +417,74 @@ function buildNodeFileReaders() {
   };
 }
+// Source dtype → compute precision mapping for source-runtime inference.
+// BF16/F32 sources require f32 compute (BF16 has no native WebGPU support).
+// Quantized formats require f32 compute for dequantization accuracy.
+// F16 sources can use f16 compute directly.
+const SOURCE_QUANT_COMPUTE_MAP = {
+  'F16': 'f16',
+  'BF16': 'f32',
+  'F32': 'f32',
+  'Q4_K': 'f32',
+  'Q4_K_M': 'f32',
+  'Q6_K': 'f32',
+};
+const SOURCE_COMPUTE_DEFAULT = 'f16';
+function resolveSourceRuntimeComputePrecision(tensors, sourceQuantization) {
+  const dtypes = new Set();
+  for (const tensor of Array.isArray(tensors) ? tensors : []) {
+    const dtype = String(tensor?.dtype || '').trim().toUpperCase();
+    if (dtype) {
+      dtypes.add(dtype);
+    }
+  }
+  // If any tensor requires f32 compute, use f32 for all.
+  for (const dtype of dtypes) {
+    if (SOURCE_QUANT_COMPUTE_MAP[dtype] === 'f32') {
+      return 'f32';
+    }
+  }
+  const normalized = String(sourceQuantization || '').trim().toUpperCase();
+  return SOURCE_QUANT_COMPUTE_MAP[normalized] ?? SOURCE_COMPUTE_DEFAULT;
+}
 async function addHashesToFileEntries(entries, hashAlgorithm) {
   const normalized = [];
   for (const entry of Array.isArray(entries) ? entries : []) {
     const filePath = normalizePath(entry?.path);
     if (!filePath) continue;
-    const bytes = await readFileBytes(filePath, `source asset (${filePath})`);
+    const stats = await getPathStats(filePath, `source asset (${filePath})`);
     normalized.push({
       ...entry,
       path: filePath,
-      size: Number.isFinite(entry?.size) ? Math.max(0, Math.floor(Number(entry.size))) : bytes.byteLength,
-      hash: await computeHash(new Uint8Array(bytes), hashAlgorithm),
+      size: Number.isFinite(entry?.size) ? Math.max(0, Math.floor(Number(entry.size))) : Number(stats.size),
+      hash: await computeFileHash(filePath, hashAlgorithm),
       hashAlgorithm,
     });
   }
   return normalized;
 }
+async function computeFileHash(filePath, hashAlgorithm) {
+  return new Promise((resolve, reject) => {
+    const hash = createHash(hashAlgorithm);
+    const stream = createReadStream(filePath);
+    stream.on('data', (chunk) => {
+      hash.update(chunk);
+    });
+    stream.on('end', () => {
+      resolve(hash.digest('hex'));
+    });
+    stream.on('error', (error) => {
+      const message = error instanceof Error ? error.message : String(error);
+      reject(new Error(`Failed to stream source asset "${filePath}" for hashing: ${message}`));
+    });
+  });
+}
 export async function resolveNodeSourceRuntimeBundle(options = {}) {
   const inputPath = normalizePath(options.inputPath);
   if (!inputPath) {
@@ -473,6 +530,9 @@ export async function resolveNodeSourceRuntimeBundle(options = {}) {
   assertSupportedSourceDtypes(parsed.tensors, parsed.sourceKind);
   const converterConfig = createConverterConfig({
+    quantization: {
+      computePrecision: resolveSourceRuntimeComputePrecision(parsed.tensors, parsed.sourceQuantization),
+    },
     output: {
       modelBaseId: options.modelId || null,
     },

package/src/tooling/node-webgpu.js CHANGED Viewed

@@ -51,7 +51,7 @@ function resolveCandidateModuleSpecifier(candidate) {
 }
 function resolveDefaultWebgpuModuleSpecifiers() {
-  return ['@simulatte/webgpu', 'webgpu'];
+  return ['webgpu', '@simulatte/webgpu'];
 }
 function resolveExplicitWebgpuModuleSpecifier() {
@@ -189,18 +189,35 @@ function resolveGpuFromModule(mod) {
     return fromModule;
   }
-  const factory = mod.create || mod.default?.create;
-  if (typeof factory === 'function') {
-    let created = null;
+  const tryCreateFactory = (factory) => {
+    if (typeof factory !== 'function') {
+      return null;
+    }
     try {
-      created = factory([]);
+      return factory([]);
     } catch {
       try {
-        created = factory();
+        return factory();
       } catch {
-        created = null;
+        return null;
       }
     }
+  };
+  const instanceFactory = mod.createInstance || mod.default?.createInstance;
+  const createdFromInstanceFactory = tryCreateFactory(instanceFactory);
+  if (createdFromInstanceFactory) {
+    if (typeof createdFromInstanceFactory.requestAdapter === 'function') {
+      return createdFromInstanceFactory;
+    }
+    if (createdFromInstanceFactory.gpu && typeof createdFromInstanceFactory.gpu.requestAdapter === 'function') {
+      return createdFromInstanceFactory.gpu;
+    }
+  }
+  const factory = mod.create || mod.default?.create;
+  if (typeof factory === 'function') {
+    const created = tryCreateFactory(factory);
     if (created) {
       if (typeof created.requestAdapter === 'function') {
         return created;

package/src/types/model.d.ts CHANGED Viewed

@@ -9,7 +9,11 @@ export type ModelArchitecture =
   | 'gemma'
   | 'gemma2'
   | 'gemma3'
+  | 'embeddinggemma'
   | 'functiongemma'
+  | 'janus_text'
+  | 'lfm2'
+  | 'modernbert'
   | 'qwen2'
   | 'qwen3'
   | 'phi3'
@@ -19,6 +23,7 @@ export type ModelArchitecture =
   | 'deepseek'
   | 'mamba'
   | 'kimi_k2'
+  | 'translategemma'
   | 'transformer';
 /** Attention type variants */

package/src/utils/hf-resolve-url.d.ts ADDED Viewed

@@ -0,0 +1,16 @@
+export interface HfResolveConfig {
+  repoId: string;
+  revision?: string | null;
+  path: string;
+}
+export interface HfResolveUrlOptions {
+  cdnBasePath?: string;
+}
+export declare const DEFAULT_HF_CDN_BASE_URL: string;
+export declare function buildHfResolveBaseUrl(
+  hfConfig: HfResolveConfig | null | undefined,
+  options?: HfResolveUrlOptions
+): string;

package/src/utils/hf-resolve-url.js ADDED Viewed

@@ -0,0 +1,17 @@
+export const DEFAULT_HF_CDN_BASE_URL = 'https://huggingface.co';
+export function buildHfResolveBaseUrl(hfConfig, options = {}) {
+  const repoId = typeof hfConfig?.repoId === 'string' ? hfConfig.repoId.trim() : '';
+  const repoPath = typeof hfConfig?.path === 'string' ? hfConfig.path.trim().replace(/^\/+/, '') : '';
+  if (!repoId || !repoPath) {
+    throw new Error('Hosted Hugging Face source requires repoId and path.');
+  }
+  const revision = typeof hfConfig?.revision === 'string' && hfConfig.revision.trim().length > 0
+    ? hfConfig.revision.trim()
+    : 'main';
+  const cdnBasePath = typeof options?.cdnBasePath === 'string' && options.cdnBasePath.trim().length > 0
+    ? options.cdnBasePath.trim()
+    : DEFAULT_HF_CDN_BASE_URL;
+  return `${cdnBasePath.replace(/\/$/, '')}/${repoId}/resolve/${revision}/${repoPath}`;
+}

package/src/version.js CHANGED Viewed

@@ -1,2 +1,2 @@
-export const DOPPLER_VERSION = '0.1.7';
+export const DOPPLER_VERSION = '0.1.9';
 export const DOPPLER_PROVIDER_VERSION = DOPPLER_VERSION;

package/tools/doppler-cli.js CHANGED Viewed

@@ -1,5 +1,6 @@
 #!/usr/bin/env node
+import { existsSync } from 'node:fs';
 import fs from 'node:fs/promises';
 import path from 'node:path';
 import { fileURLToPath, pathToFileURL } from 'node:url';
@@ -13,7 +14,8 @@ import { createToolingErrorEnvelope } from '../src/tooling/command-envelope.js';
 const NODE_WEBGPU_INCOMPLETE_MESSAGE = 'node command: WebGPU runtime is incomplete in Node';
 const CLI_POLICY_PATH = fileURLToPath(new URL('./configs/cli/doppler-cli-policy.json', import.meta.url));
-const DEFAULT_EXTERNAL_MODELS_ROOT = process.env.DOPPLER_EXTERNAL_MODELS_ROOT || '/media/x/models';
+const DEFAULT_EXTERNAL_MODELS_ROOT = process.env.DOPPLER_EXTERNAL_MODELS_ROOT
+  || (existsSync('/Volumes/models') ? '/Volumes/models' : '/media/x/models');
 const DEFAULT_EXTERNAL_RDRR_ROOT = path.join(DEFAULT_EXTERNAL_MODELS_ROOT, 'rdrr');
 const DEFAULT_CLI_POLICY = {
   defaults: {
@@ -1260,6 +1262,9 @@ function printMetricsSummary(result) {
       `prefill=${formatNumber(metrics.prefillTokensPerSec)} ` +
       `decode=${formatNumber(metrics.decodeTokensPerSec)}`
     );
+    if (typeof result.output === 'string' && result.output.length > 0) {
+      console.log(`[output] ${quoteOneLine(result.output)}`);
+    }
     printExecutionContractSummary(result);
     printExecutionV0GraphSummary(metrics.executionV0GraphContractArtifact);
     return;

package/src/tooling/node-convert.d.ts DELETED Viewed

@@ -1,54 +0,0 @@
-import type { ConverterConfigSchema } from '../config/schema/converter.schema.js';
-import type { ExecutionContractArtifact } from '../config/execution-contract-check.js';
-import type { ExecutionV0GraphContractArtifact } from '../config/execution-v0-graph-contract-check.js';
-import type { ManifestRequiredInferenceFieldsArtifact } from '../config/required-inference-fields-contract-check.js';
-import type { SavedReportInfo } from '../storage/reports.js';
-export interface NodeConvertProgress {
-  stage: string | null;
-  current: number | null;
-  total: number | null;
-  message: string | null;
-  tensorName?: string | null;
-  tensorBytesCurrent?: number | null;
-  tensorBytesTotal?: number | null;
-}
-export interface NodeConvertExecutionConfig {
-  workers?: number | null;
-  workerCountPolicy?: 'cap' | 'error' | null;
-  maxInFlightJobs?: number | null;
-  rowChunkRows?: number | null;
-  rowChunkMinTensorBytes?: number | null;
-  useGpuCast?: boolean | null;
-  gpuCastMinTensorBytes?: number | null;
-}
-export interface ConvertSafetensorsDirectoryOptions {
-  /** Directory with safetensors/diffusion assets, or a direct .gguf file path. */
-  inputDir: string;
-  outputDir?: string | null;
-  modelId?: string | null;
-  converterConfig?: Partial<ConverterConfigSchema> | null;
-  execution?: NodeConvertExecutionConfig | null;
-  onProgress?: (progress: NodeConvertProgress) => void;
-}
-export interface ConvertSafetensorsDirectoryResult {
-  manifest: Record<string, unknown>;
-  shardCount: number;
-  tensorCount: number;
-  executionContractArtifact: ExecutionContractArtifact | null;
-  executionV0GraphContractArtifact: ExecutionV0GraphContractArtifact | null;
-  layerPatternContractArtifact: Record<string, unknown> | null;
-  requiredInferenceFieldsArtifact: ManifestRequiredInferenceFieldsArtifact | null;
-  report: Record<string, unknown>;
-  reportInfo: SavedReportInfo;
-  presetId: string;
-  modelType: string;
-  outputDir: string;
-}
-export declare function convertSafetensorsDirectory(
-  options: ConvertSafetensorsDirectoryOptions
-): Promise<ConvertSafetensorsDirectoryResult>;