npm - react-native-sherpa-onnx - Versions diffs - 0.2.0 → 0.3.0 - Mend

react-native-sherpa-onnx 0.2.0 → 0.3.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (175) hide show

package/README.md +232 -236
package/SherpaOnnx.podspec +68 -64
package/android/build.gradle +182 -192
package/android/codegen.gradle +57 -0
package/android/prebuilt-download.gradle +428 -0
package/android/prebuilt-versions.gradle +43 -0
package/android/proguard-rules.pro +10 -0
package/android/src/main/assets/testModels/add_mul_add.onnx +28 -0
package/android/src/main/assets/testModels/nnapi_internal_uint8_support.onnx +0 -0
package/android/src/main/assets/testModels/qnn_multi_ctx_embed.onnx +0 -0
package/android/src/main/cpp/CMakeLists.txt +166 -129
package/android/src/main/cpp/CMakePresets.json +54 -0
package/android/src/main/cpp/crypto/sha256.cpp +174 -0
package/android/src/main/cpp/crypto/sha256.h +16 -0
package/android/src/main/cpp/jni/archive/sherpa-onnx-archive-helper.cpp +404 -0
package/android/src/main/cpp/jni/archive/sherpa-onnx-archive-helper.h +56 -0
package/android/src/main/cpp/jni/archive/sherpa-onnx-archive-jni.cpp +181 -0
package/android/src/main/cpp/jni/audio/sherpa-onnx-audio-convert-jni.cpp +888 -0
package/{ios → android/src/main/cpp/jni/model_detect}/sherpa-onnx-common.h +18 -18
package/android/src/main/cpp/jni/model_detect/sherpa-onnx-detect-jni-common.cpp +86 -0
package/android/src/main/cpp/jni/model_detect/sherpa-onnx-detect-jni-common.h +20 -0
package/android/src/main/cpp/jni/model_detect/sherpa-onnx-model-detect-helper.cpp +423 -0
package/android/src/main/cpp/jni/model_detect/sherpa-onnx-model-detect-helper.h +55 -0
package/android/src/main/cpp/jni/model_detect/sherpa-onnx-model-detect-stt.cpp +399 -0
package/android/src/main/cpp/jni/model_detect/sherpa-onnx-model-detect-tts.cpp +238 -0
package/{ios → android/src/main/cpp/jni/model_detect}/sherpa-onnx-model-detect.h +122 -89
package/android/src/main/cpp/jni/model_detect/sherpa-onnx-stt-wrapper.cpp +99 -0
package/android/src/main/cpp/jni/model_detect/sherpa-onnx-stt-wrapper.h +16 -0
package/android/src/main/cpp/jni/model_detect/sherpa-onnx-tts-wrapper.cpp +78 -0
package/android/src/main/cpp/jni/model_detect/sherpa-onnx-tts-wrapper.h +16 -0
package/android/src/main/cpp/jni/module/sherpa-onnx-module-jni.cpp +190 -0
package/android/src/main/cpp/jni/tts/sherpa-onnx-tts-zipvoice-jni.cpp +301 -0
package/android/src/main/java/com/sherpaonnx/SherpaOnnxArchiveHelper.kt +94 -0
package/android/src/main/java/com/sherpaonnx/{SherpaOnnxCoreHelper.kt → SherpaOnnxAssetHelper.kt} +350 -236
package/android/src/main/java/com/sherpaonnx/SherpaOnnxModule.kt +791 -483
package/android/src/main/java/com/sherpaonnx/SherpaOnnxSttHelper.kt +699 -109
package/android/src/main/java/com/sherpaonnx/SherpaOnnxTtsHelper.kt +1123 -668
package/android/src/main/java/com/sherpaonnx/ZipvoiceTtsWrapper.kt +187 -0
package/ios/SherpaOnnx+Assets.h +11 -0
package/ios/SherpaOnnx+Assets.mm +325 -0
package/ios/SherpaOnnx+STT.mm +455 -118
package/ios/SherpaOnnx+TTS.mm +1101 -712
package/ios/SherpaOnnx.h +17 -6
package/ios/SherpaOnnx.mm +206 -311
package/ios/SherpaOnnx.xcconfig +19 -19
package/ios/SherpaOnnxCoreMLHelper.swift +24 -0
package/ios/archive/sherpa-onnx-archive-helper.h +21 -0
package/ios/archive/sherpa-onnx-archive-helper.mm +296 -0
package/ios/libarchive_darwin_config.h +153 -0
package/{android/src/main/cpp/jni → ios/model_detect}/sherpa-onnx-common.h +18 -18
package/ios/model_detect/sherpa-onnx-model-detect-helper.h +49 -0
package/ios/model_detect/sherpa-onnx-model-detect-helper.mm +210 -0
package/ios/model_detect/sherpa-onnx-model-detect-stt.mm +344 -0
package/ios/model_detect/sherpa-onnx-model-detect-tts.mm +201 -0
package/{android/src/main/cpp/jni → ios/model_detect}/sherpa-onnx-model-detect.h +117 -89
package/ios/scripts/patch-libarchive-includes.sh +61 -0
package/ios/scripts/setup-ios-libarchive.sh +98 -0
package/ios/stt/sherpa-onnx-stt-wrapper.h +129 -0
package/ios/stt/sherpa-onnx-stt-wrapper.mm +523 -0
package/ios/{sherpa-onnx-tts-wrapper.h → tts/sherpa-onnx-tts-wrapper.h} +90 -85
package/ios/{sherpa-onnx-tts-wrapper.mm → tts/sherpa-onnx-tts-wrapper.mm} +376 -345
package/lib/module/NativeSherpaOnnx.js +3 -0
package/lib/module/NativeSherpaOnnx.js.map +1 -1
package/lib/module/audio/index.js +22 -0
package/lib/module/audio/index.js.map +1 -0
package/lib/module/diarization/index.js +1 -1
package/lib/module/diarization/index.js.map +1 -1
package/lib/module/download/ModelDownloadManager.js +918 -0
package/lib/module/download/ModelDownloadManager.js.map +1 -0
package/lib/module/download/extractTarBz2.js +53 -0
package/lib/module/download/extractTarBz2.js.map +1 -0
package/lib/module/download/index.js +6 -0
package/lib/module/download/index.js.map +1 -0
package/lib/module/download/validation.js +178 -0
package/lib/module/download/validation.js.map +1 -0
package/lib/module/enhancement/index.js +1 -1
package/lib/module/enhancement/index.js.map +1 -1
package/lib/module/index.js +41 -3
package/lib/module/index.js.map +1 -1
package/lib/module/separation/index.js +1 -1
package/lib/module/separation/index.js.map +1 -1
package/lib/module/stt/index.js +127 -60
package/lib/module/stt/index.js.map +1 -1
package/lib/module/stt/sttModelLanguages.js +512 -0
package/lib/module/stt/sttModelLanguages.js.map +1 -0
package/lib/module/stt/types.js +53 -1
package/lib/module/stt/types.js.map +1 -1
package/lib/module/tts/index.js +216 -289
package/lib/module/tts/index.js.map +1 -1
package/lib/module/tts/types.js +86 -1
package/lib/module/tts/types.js.map +1 -1
package/lib/module/types.js.map +1 -1
package/lib/module/utils.js +86 -73
package/lib/module/utils.js.map +1 -1
package/lib/module/vad/index.js +1 -1
package/lib/module/vad/index.js.map +1 -1
package/lib/typescript/src/NativeSherpaOnnx.d.ts +192 -38
package/lib/typescript/src/NativeSherpaOnnx.d.ts.map +1 -1
package/lib/typescript/src/audio/index.d.ts +13 -0
package/lib/typescript/src/audio/index.d.ts.map +1 -0
package/lib/typescript/src/diarization/index.d.ts +3 -2
package/lib/typescript/src/diarization/index.d.ts.map +1 -1
package/lib/typescript/src/download/ModelDownloadManager.d.ts +108 -0
package/lib/typescript/src/download/ModelDownloadManager.d.ts.map +1 -0
package/lib/typescript/src/download/extractTarBz2.d.ts +14 -0
package/lib/typescript/src/download/extractTarBz2.d.ts.map +1 -0
package/lib/typescript/src/download/index.d.ts +7 -0
package/lib/typescript/src/download/index.d.ts.map +1 -0
package/lib/typescript/src/download/validation.d.ts +57 -0
package/lib/typescript/src/download/validation.d.ts.map +1 -0
package/lib/typescript/src/enhancement/index.d.ts +3 -2
package/lib/typescript/src/enhancement/index.d.ts.map +1 -1
package/lib/typescript/src/index.d.ts +26 -2
package/lib/typescript/src/index.d.ts.map +1 -1
package/lib/typescript/src/separation/index.d.ts +3 -2
package/lib/typescript/src/separation/index.d.ts.map +1 -1
package/lib/typescript/src/stt/index.d.ts +31 -43
package/lib/typescript/src/stt/index.d.ts.map +1 -1
package/lib/typescript/src/stt/sttModelLanguages.d.ts +52 -0
package/lib/typescript/src/stt/sttModelLanguages.d.ts.map +1 -0
package/lib/typescript/src/stt/types.d.ts +196 -9
package/lib/typescript/src/stt/types.d.ts.map +1 -1
package/lib/typescript/src/tts/index.d.ts +25 -211
package/lib/typescript/src/tts/index.d.ts.map +1 -1
package/lib/typescript/src/tts/types.d.ts +148 -25
package/lib/typescript/src/tts/types.d.ts.map +1 -1
package/lib/typescript/src/types.d.ts +0 -32
package/lib/typescript/src/types.d.ts.map +1 -1
package/lib/typescript/src/utils.d.ts +28 -13
package/lib/typescript/src/utils.d.ts.map +1 -1
package/lib/typescript/src/vad/index.d.ts +3 -2
package/lib/typescript/src/vad/index.d.ts.map +1 -1
package/package.json +250 -222
package/scripts/check-qnn-support.sh +78 -0
package/scripts/setup-ios-framework.sh +379 -282
package/src/NativeSherpaOnnx.ts +474 -251
package/src/audio/index.ts +32 -0
package/src/diarization/index.ts +4 -2
package/src/download/ModelDownloadManager.ts +1325 -0
package/src/download/extractTarBz2.ts +78 -0
package/src/download/index.ts +43 -0
package/src/download/validation.ts +279 -0
package/src/enhancement/index.ts +4 -2
package/src/index.tsx +78 -27
package/src/separation/index.ts +4 -2
package/src/stt/index.ts +249 -89
package/src/stt/sttModelLanguages.ts +237 -0
package/src/stt/types.ts +263 -9
package/src/tts/index.ts +470 -458
package/src/tts/types.ts +373 -218
package/src/types.ts +0 -44
package/src/utils.ts +145 -131
package/src/vad/index.ts +4 -2
package/third_party/ffmpeg_prebuilt/ANDROID_RELEASE_TAG +1 -0
package/third_party/libarchive_prebuilt/ANDROID_RELEASE_TAG +1 -0
package/third_party/libarchive_prebuilt/IOS_RELEASE_TAG +1 -0
package/third_party/sherpa-onnx-prebuilt/ANDROID_RELEASE_TAG +1 -0
package/third_party/sherpa-onnx-prebuilt/IOS_RELEASE_TAG +1 -0
package/android/src/main/cpp/include/sherpa-onnx/c-api/c-api.h +0 -1918
package/android/src/main/cpp/include/sherpa-onnx/c-api/cxx-api.h +0 -841
package/android/src/main/cpp/jni/sherpa-onnx-model-detect.cpp +0 -541
package/android/src/main/cpp/jni/sherpa-onnx-stt-jni.cpp +0 -336
package/android/src/main/cpp/jni/sherpa-onnx-stt-wrapper.cpp +0 -222
package/android/src/main/cpp/jni/sherpa-onnx-stt-wrapper.h +0 -68
package/android/src/main/cpp/jni/sherpa-onnx-tts-jni.cpp +0 -823
package/android/src/main/cpp/jni/sherpa-onnx-tts-wrapper.cpp +0 -387
package/android/src/main/cpp/jni/sherpa-onnx-tts-wrapper.h +0 -147
package/ios/Frameworks/sherpa_onnx.xcframework.zip +0 -0
package/ios/include/sherpa-onnx/c-api/c-api.h +0 -1918
package/ios/include/sherpa-onnx/c-api/cxx-api.h +0 -841
package/ios/sherpa-onnx-model-detect.mm +0 -441
package/ios/sherpa-onnx-stt-wrapper.h +0 -48
package/ios/sherpa-onnx-stt-wrapper.mm +0 -201
package/scripts/copy-headers.js +0 -184
package/scripts/setup-assets.js +0 -323

package/src/stt/types.ts CHANGED Viewed

@@ -1,4 +1,139 @@
-import type { InitializeOptions, ModelType } from '../types';
+import type { ModelPathConfig } from '../types';
+/**
+ * Supported STT model types.
+ * Must match ParseSttModelType() in android/.../sherpa-onnx-model-detect-stt.cpp.
+ */
+export type STTModelType =
+  | 'transducer'
+  | 'nemo_transducer'
+  | 'paraformer'
+  | 'nemo_ctc'
+  | 'wenet_ctc'
+  | 'sense_voice'
+  | 'zipformer_ctc'
+  | 'ctc'
+  | 'whisper'
+  | 'funasr_nano'
+  | 'fire_red_asr'
+  | 'moonshine'
+  | 'dolphin'
+  | 'canary'
+  | 'omnilingual'
+  | 'medasr'
+  | 'telespeech_ctc'
+  | 'auto';
+/** Model types that support hotwords (contextual biasing). Transducer and NeMo transducer support hotwords in sherpa-onnx (NeMo: see k2-fsa/sherpa-onnx#3077). */
+export const STT_HOTWORDS_MODEL_TYPES: readonly STTModelType[] = [
+  'transducer',
+  'nemo_transducer',
+] as const;
+/**
+ * Returns true only for model types that support hotwords (transducer, nemo_transducer).
+ * Use this to show/hide hotword options in the UI or to validate before init/setSttConfig.
+ */
+export function sttSupportsHotwords(modelType: STTModelType | string): boolean {
+  return modelType === 'transducer' || modelType === 'nemo_transducer';
+}
+/** Runtime list of supported STT model types (must match ParseSttModelType in native). */
+export const STT_MODEL_TYPES: readonly STTModelType[] = [
+  'transducer',
+  'nemo_transducer',
+  'paraformer',
+  'nemo_ctc',
+  'wenet_ctc',
+  'sense_voice',
+  'zipformer_ctc',
+  'ctc',
+  'whisper',
+  'funasr_nano',
+  'fire_red_asr',
+  'moonshine',
+  'dolphin',
+  'canary',
+  'omnilingual',
+  'medasr',
+  'telespeech_ctc',
+  'auto',
+] as const;
+/** Result of initializeSTT(). decodingMethod is set when init succeeds (e.g. "greedy_search" or "modified_beam_search"; auto-set when hotwords are used). */
+export interface SttInitResult {
+  success: boolean;
+  detectedModels: Array<{ type: string; modelDir: string }>;
+  modelType?: string;
+  decodingMethod?: string;
+}
+// ========== Model-specific options (only applied when that model type is loaded) ==========
+/** Options for Whisper models. Applied only when modelType is 'whisper'. */
+export interface SttWhisperModelOptions {
+  /** Language code (e.g. "en", "de"). Used with multilingual models. Default: "en". */
+  language?: string;
+  /** "transcribe" or "translate". Default: "transcribe". With "translate", result text is English. */
+  task?: 'transcribe' | 'translate';
+  /** Padding at end of samples. Kotlin default 1000; C++ default -1. */
+  tailPaddings?: number;
+  /** Token-level timestamps. Android only; ignored on iOS. */
+  enableTokenTimestamps?: boolean;
+  /** Segment-level timestamps. Android only; ignored on iOS. */
+  enableSegmentTimestamps?: boolean;
+}
+/** Options for SenseVoice models. Applied only when modelType is 'sense_voice'. */
+export interface SttSenseVoiceModelOptions {
+  /** Language hint. */
+  language?: string;
+  /** Inverse text normalization. Default: true (Kotlin), false (C++). */
+  useItn?: boolean;
+}
+/** Options for Canary models. Applied only when modelType is 'canary'. */
+export interface SttCanaryModelOptions {
+  /** Source language code. Default: "en". */
+  srcLang?: string;
+  /** Target language code. Default: "en". */
+  tgtLang?: string;
+  /** Use punctuation. Default: true. */
+  usePnc?: boolean;
+}
+/** Options for FunASR Nano models. Applied only when modelType is 'funasr_nano'. */
+export interface SttFunAsrNanoModelOptions {
+  /** System prompt. Default: "You are a helpful assistant." */
+  systemPrompt?: string;
+  /** User prompt prefix. Default: "语音转写：" */
+  userPrompt?: string;
+  /** Max new tokens. Default: 512. */
+  maxNewTokens?: number;
+  /** Temperature. Default: 1e-6. */
+  temperature?: number;
+  /** Top-p. Default: 0.8. */
+  topP?: number;
+  /** Random seed. Default: 42. */
+  seed?: number;
+  /** Language hint. */
+  language?: string;
+  /** Inverse text normalization. Default: true. */
+  itn?: boolean;
+  /** Hotwords string. */
+  hotwords?: string;
+}
+/**
+ * Model-specific STT options. Only the block for the actually loaded model type is applied;
+ * others are ignored (e.g. whisper options have no effect when a paraformer model is loaded).
+ */
+export interface SttModelOptions {
+  whisper?: SttWhisperModelOptions;
+  senseVoice?: SttSenseVoiceModelOptions;
+  canary?: SttCanaryModelOptions;
+  funasrNano?: SttFunAsrNanoModelOptions;
+}
 /**
  * STT-specific initialization options
@@ -7,7 +142,7 @@ export interface STTInitializeOptions {
   /**
    * Model directory path configuration
    */
-  modelPath: InitializeOptions['modelPath'];
+  modelPath: ModelPathConfig;
   /**
    * Model quantization preference
@@ -19,24 +154,143 @@ export interface STTInitializeOptions {
   /**
    * Explicit model type specification for STT models
-   * - 'transducer': Force detection as Zipformer/Transducer model
+   * - 'transducer': Force detection as Transducer model
+   * - 'zipformer_ctc' | 'ctc': Force detection as Zipformer CTC model
    * - 'paraformer': Force detection as Paraformer model
    * - 'nemo_ctc': Force detection as NeMo CTC model
    * - 'whisper': Force detection as Whisper model
    * - 'wenet_ctc': Force detection as WeNet CTC model
    * - 'sense_voice': Force detection as SenseVoice model
    * - 'funasr_nano': Force detection as FunASR Nano model
+   * - 'fire_red_asr': FireRed ASR (encoder/decoder)
+   * - 'moonshine': Moonshine (preprocess, encode, uncached_decode, cached_decode)
+   * - 'dolphin': Dolphin (single model)
+   * - 'canary': Canary (encoder/decoder)
+   * - 'omnilingual': Omnilingual CTC (single model)
+   * - 'medasr': MedASR CTC (single model)
+   * - 'telespeech_ctc': TeleSpeech CTC (single model)
    * - 'auto': Automatic detection based on files (default)
    */
-  modelType?: ModelType;
+  modelType?: STTModelType;
+  /**
+   * Enable debug logging in native layer and sherpa-onnx (config.model_config.debug).
+   * When true, wrapper and JNI emit verbose logs (config dumps, file checks, init/transcribe flow).
+   * Default: false.
+   */
+  debug?: boolean;
+  /**
+   * Path to hotwords file for keyword boosting (Kotlin OfflineRecognizerConfig.hotwordsFile).
+   */
+  hotwordsFile?: string;
+  /**
+   * Hotwords score/weight (Kotlin OfflineRecognizerConfig.hotwordsScore).
+   * Default in Kotlin: 1.5.
+   */
+  hotwordsScore?: number;
+  /**
+   * Modeling unit for hotwords tokenization (Kotlin OfflineModelConfig.modelingUnit).
+   * Only used when hotwords are set and model is transducer/nemo_transducer.
+   * Must match how the model was trained: 'bpe' (e.g. English zipformer), 'cjkchar' (e.g. Chinese conformer), 'cjkchar+bpe' (bilingual zh-en).
+   * See docs/stt.md "When to use which modelingUnit" and sherpa-onnx hotwords docs.
+   */
+  modelingUnit?: 'cjkchar' | 'bpe' | 'cjkchar+bpe';
+  /**
+   * Path to BPE vocabulary file for hotwords (Kotlin OfflineModelConfig.bpeVocab).
+   * Required when modelingUnit is 'bpe' or 'cjkchar+bpe'. Sentencepiece .vocab export (bpe.vocab), not the hotwords file.
+   */
+  bpeVocab?: string;
+  /**
+   * Number of threads for inference (Kotlin OfflineModelConfig.numThreads).
+   * Default in Kotlin: 1.
+   */
+  numThreads?: number;
+  /**
+   * Provider string (e.g. "cpu"). Stored in config only; no special logic on change.
+   * Kotlin OfflineModelConfig.provider.
+   */
+  provider?: string;
+  /**
+   * Path to rule FSTs (Kotlin OfflineRecognizerConfig.ruleFsts).
+   */
+  ruleFsts?: string;
+  /**
+   * Path to rule FARs (Kotlin OfflineRecognizerConfig.ruleFars).
+   */
+  ruleFars?: string;
+  /**
+   * Dither for feature extraction (Kotlin FeatureConfig.dither). Default 0.
+   */
+  dither?: number;
+  /**
+   * Model-specific options. Only options for the loaded model type are applied.
+   * E.g. when modelType is 'whisper', only modelOptions.whisper is used.
+   */
+  modelOptions?: SttModelOptions;
 }
 /**
- * Transcription result
+ * Full recognition result from offline STT (maps to Kotlin OfflineRecognizerResult).
  */
-export interface TranscriptionResult {
-  /**
-   * Transcribed text
-   */
+export interface SttRecognitionResult {
+  /** Transcribed text. */
   text: string;
+  /** Token strings. */
+  tokens: string[];
+  /** Timestamps per token (model-dependent). */
+  timestamps: number[];
+  /** Detected or specified language (model-dependent). */
+  lang: string;
+  /** Emotion label (model-dependent, e.g. SenseVoice). */
+  emotion: string;
+  /** Event label (model-dependent). */
+  event: string;
+  /** Durations (valid for TDT models). */
+  durations: number[];
+}
+/**
+ * Instance-based STT engine returned by createSTT().
+ * Call destroy() when done to free native resources.
+ */
+export interface SttEngine {
+  readonly instanceId: string;
+  transcribeFile(filePath: string): Promise<SttRecognitionResult>;
+  transcribeSamples(
+    samples: number[],
+    sampleRate: number
+  ): Promise<SttRecognitionResult>;
+  setConfig(options: SttRuntimeConfig): Promise<void>;
+  destroy(): Promise<void>;
+}
+/**
+ * Runtime config for the offline recognizer (Kotlin OfflineRecognizerConfig).
+ * Only fields that can be updated via setConfig are included.
+ */
+export interface SttRuntimeConfig {
+  /** Decoding method (e.g. greedy_search). */
+  decodingMethod?: string;
+  /** Max active paths (beam search). */
+  maxActivePaths?: number;
+  /** Path to hotwords file. */
+  hotwordsFile?: string;
+  /** Hotwords score. */
+  hotwordsScore?: number;
+  /** Blank penalty. */
+  blankPenalty?: number;
+  /** Path to rule FSTs. */
+  ruleFsts?: string;
+  /** Path to rule FARs. */
+  ruleFars?: string;
 }