npm - whisper.rn - Versions diffs - 0.4.0-rc.1 → 0.4.0-rc.10 - Mend

whisper.rn 0.4.0-rc.1 → 0.4.0-rc.10

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (75) hide show

package/README.md +6 -6
package/android/build.gradle +4 -0
package/android/src/main/CMakeLists.txt +14 -0
package/android/src/main/java/com/rnwhisper/AudioUtils.java +27 -92
package/android/src/main/java/com/rnwhisper/RNWhisper.java +86 -40
package/android/src/main/java/com/rnwhisper/WhisperContext.java +85 -131
package/android/src/main/jni-utils.h +76 -0
package/android/src/main/jni.cpp +226 -109
package/android/src/newarch/java/com/rnwhisper/RNWhisperModule.java +10 -0
package/android/src/oldarch/java/com/rnwhisper/RNWhisperModule.java +10 -0
package/cpp/README.md +1 -1
package/cpp/coreml/whisper-encoder-impl.h +1 -1
package/cpp/coreml/whisper-encoder.h +4 -0
package/cpp/coreml/whisper-encoder.mm +5 -3
package/cpp/ggml-aarch64.c +129 -0
package/cpp/ggml-aarch64.h +19 -0
package/cpp/ggml-alloc.c +805 -400
package/cpp/ggml-alloc.h +60 -10
package/cpp/ggml-backend-impl.h +216 -0
package/cpp/ggml-backend-reg.cpp +204 -0
package/cpp/ggml-backend.cpp +1996 -0
package/cpp/ggml-backend.cpp.rej +12 -0
package/cpp/ggml-backend.h +336 -0
package/cpp/ggml-common.h +1853 -0
package/cpp/ggml-cpp.h +38 -0
package/cpp/ggml-cpu-aarch64.c +3560 -0
package/cpp/ggml-cpu-aarch64.h +30 -0
package/cpp/ggml-cpu-impl.h +371 -0
package/cpp/ggml-cpu-quants.c +10822 -0
package/cpp/ggml-cpu-quants.h +63 -0
package/cpp/ggml-cpu.c +13970 -0
package/cpp/ggml-cpu.cpp +663 -0
package/cpp/ggml-cpu.h +177 -0
package/cpp/ggml-impl.h +551 -0
package/cpp/ggml-metal-impl.h +249 -0
package/cpp/ggml-metal.h +24 -43
package/cpp/ggml-metal.m +4190 -1075
package/cpp/ggml-quants.c +5247 -0
package/cpp/ggml-quants.h +100 -0
package/cpp/ggml-threading.cpp +12 -0
package/cpp/ggml-threading.h +12 -0
package/cpp/ggml-whisper.metallib +0 -0
package/cpp/ggml.c +5474 -18763
package/cpp/ggml.h +833 -628
package/cpp/rn-audioutils.cpp +68 -0
package/cpp/rn-audioutils.h +14 -0
package/cpp/rn-whisper-log.h +11 -0
package/cpp/rn-whisper.cpp +221 -52
package/cpp/rn-whisper.h +50 -15
package/cpp/whisper.cpp +2872 -1371
package/cpp/whisper.h +170 -41
package/ios/RNWhisper.mm +139 -46
package/ios/RNWhisperAudioUtils.h +1 -2
package/ios/RNWhisperAudioUtils.m +18 -67
package/ios/RNWhisperContext.h +11 -8
package/ios/RNWhisperContext.mm +195 -150
package/jest/mock.js +15 -2
package/lib/commonjs/NativeRNWhisper.js.map +1 -1
package/lib/commonjs/index.js +76 -28
package/lib/commonjs/index.js.map +1 -1
package/lib/commonjs/version.json +1 -1
package/lib/module/NativeRNWhisper.js.map +1 -1
package/lib/module/index.js +76 -28
package/lib/module/index.js.map +1 -1
package/lib/module/version.json +1 -1
package/lib/typescript/NativeRNWhisper.d.ts +13 -4
package/lib/typescript/NativeRNWhisper.d.ts.map +1 -1
package/lib/typescript/index.d.ts +37 -5
package/lib/typescript/index.d.ts.map +1 -1
package/package.json +9 -7
package/src/NativeRNWhisper.ts +20 -4
package/src/index.ts +98 -42
package/src/version.json +1 -1
package/whisper-rn.podspec +11 -18
package/cpp/ggml-metal.metal +0 -2353

package/ios/RNWhisperAudioUtils.m CHANGED Viewed

@@ -3,60 +3,23 @@
 @implementation RNWhisperAudioUtils
-+ (NSData *)concatShortBuffers:(NSMutableArray<NSValue *> *)buffers sliceNSamples:(NSMutableArray<NSNumber *> *)sliceNSamples {
-    NSMutableData *outputData = [NSMutableData data];
-    for (int i = 0; i < buffers.count; i++) {
-        int size = [sliceNSamples objectAtIndex:i].intValue;
-        NSValue *buffer = [buffers objectAtIndex:i];
-        short *bufferPtr = buffer.pointerValue;
-        [outputData appendBytes:bufferPtr length:size * sizeof(short)];
-    }
-    return outputData;
-}
-+ (void)saveWavFile:(NSData *)rawData audioOutputFile:(NSString *)audioOutputFile {
-    NSMutableData *outputData = [NSMutableData data];
-    // WAVE header
-    [outputData appendData:[@"RIFF" dataUsingEncoding:NSUTF8StringEncoding]]; // chunk id
-    int chunkSize = CFSwapInt32HostToLittle(36 + rawData.length);
-    [outputData appendBytes:&chunkSize length:sizeof(chunkSize)];
-    [outputData appendData:[@"WAVE" dataUsingEncoding:NSUTF8StringEncoding]]; // format
-    [outputData appendData:[@"fmt " dataUsingEncoding:NSUTF8StringEncoding]]; // subchunk 1 id
-    int subchunk1Size = CFSwapInt32HostToLittle(16);
-    [outputData appendBytes:&subchunk1Size length:sizeof(subchunk1Size)];
-    short audioFormat = CFSwapInt16HostToLittle(1); // PCM
-    [outputData appendBytes:&audioFormat length:sizeof(audioFormat)];
-    short numChannels = CFSwapInt16HostToLittle(1); // mono
-    [outputData appendBytes:&numChannels length:sizeof(numChannels)];
-    int sampleRate = CFSwapInt32HostToLittle(WHISPER_SAMPLE_RATE);
-    [outputData appendBytes:&sampleRate length:sizeof(sampleRate)];
-    // (bitDepth * sampleRate * channels) >> 3
-    int byteRate = CFSwapInt32HostToLittle(WHISPER_SAMPLE_RATE * 1 * 16 / 8);
-    [outputData appendBytes:&byteRate length:sizeof(byteRate)];
-    // (bitDepth * channels) >> 3
-    short blockAlign = CFSwapInt16HostToLittle(16 / 8);
-    [outputData appendBytes:&blockAlign length:sizeof(blockAlign)];
-    // bitDepth
-    short bitsPerSample = CFSwapInt16HostToLittle(16);
-    [outputData appendBytes:&bitsPerSample length:sizeof(bitsPerSample)];
-    [outputData appendData:[@"data" dataUsingEncoding:NSUTF8StringEncoding]]; // subchunk 2 id
-    int subchunk2Size = CFSwapInt32HostToLittle((int)rawData.length);
-    [outputData appendBytes:&subchunk2Size length:sizeof(subchunk2Size)];
-    // Audio data
-    [outputData appendData:rawData];
-    // Save to file
-    [outputData writeToFile:audioOutputFile atomically:YES];
++ (float *)decodeWaveData:(NSData*)data count:(int *)count cutHeader:(BOOL)cutHeader {
+  NSData *waveData = data;
+  if (cutHeader) {
+    // just cut 44 bytes from the beginning
+    waveData = [data subdataWithRange:NSMakeRange(44, [data length]-44)];
+  }
+  const short *shortArray = (const short *)[waveData bytes];
+  int shortCount = (int) ([waveData length] / sizeof(short));
+  float *floatArray = (float *) malloc(shortCount * sizeof(float));
+  for (NSInteger i = 0; i < shortCount; i++) {
+      float floatValue = ((float)shortArray[i]) / 32767.0;
+      floatValue = MAX(floatValue, -1.0);
+      floatValue = MIN(floatValue, 1.0);
+      floatArray[i] = floatValue;
+  }
+  *count = shortCount;
+  return floatArray;
 }
 + (float *)decodeWaveFile:(NSString*)filePath count:(int *)count {
@@ -65,19 +28,7 @@
     if (fileData == nil) {
         return nil;
     }
-    NSMutableData *waveData = [[NSMutableData alloc] init];
-    [waveData appendData:[fileData subdataWithRange:NSMakeRange(44, [fileData length]-44)]];
-    const short *shortArray = (const short *)[waveData bytes];
-    int shortCount = (int) ([waveData length] / sizeof(short));
-    float *floatArray = (float *) malloc(shortCount * sizeof(float));
-    for (NSInteger i = 0; i < shortCount; i++) {
-        float floatValue = ((float)shortArray[i]) / 32767.0;
-        floatValue = MAX(floatValue, -1.0);
-        floatValue = MIN(floatValue, 1.0);
-        floatArray[i] = floatValue;
-    }
-    *count = shortCount;
-    return floatArray;
+    return [RNWhisperAudioUtils decodeWaveData:fileData count:count cutHeader:YES];
 }
 @end

package/ios/RNWhisperContext.h CHANGED Viewed

@@ -11,22 +11,20 @@
 typedef struct {
     __unsafe_unretained id mSelf;
-    int jobId;
     NSDictionary* options;
+    struct rnwhisper::job * job;
     bool isTranscribing;
     bool isRealtime;
     bool isCapturing;
     bool isStoppedByAction;
-    int maxAudioSec;
     int nSamplesTranscribing;
-    NSMutableArray<NSValue *> *shortBufferSlices;
-    NSMutableArray<NSNumber *> *sliceNSamples;
+    std::vector<int> sliceNSamples;
     bool isUseSlices;
     int sliceIndex;
     int transcribeSliceIndex;
-    int audioSliceSec;
+    NSString* audioOutputPath;
     AudioQueueRef queue;
     AudioStreamBasicDescription dataFormat;
@@ -40,15 +38,19 @@ typedef struct {
     dispatch_queue_t dQueue;
     struct whisper_context * ctx;
     RNWhisperContextRecordState recordState;
+    NSString * reasonNoMetal;
+    bool isMetalEnabled;
 }
-+ (instancetype)initWithModelPath:(NSString *)modelPath contextId:(int)contextId noCoreML:(BOOL)noCoreML;
++ (instancetype)initWithModelPath:(NSString *)modelPath contextId:(int)contextId noCoreML:(BOOL)noCoreML noMetal:(BOOL)noMetal useFlashAttn:(BOOL)useFlashAttn;
+- (bool)isMetalEnabled;
+- (NSString *)reasonNoMetal;
 - (struct whisper_context *)getContext;
 - (dispatch_queue_t)getDispatchQueue;
 - (OSStatus)transcribeRealtime:(int)jobId
     options:(NSDictionary *)options
     onTranscribe:(void (^)(int, NSString *, NSDictionary *))onTranscribe;
-- (void)transcribeFile:(int)jobId
+- (void)transcribeData:(int)jobId
     audioData:(float *)audioData
     audioDataCount:(int)audioDataCount
     options:(NSDictionary *)options
@@ -61,6 +63,7 @@ typedef struct {
 - (bool)isTranscribing;
 - (bool)isStoppedByAction;
 - (NSMutableDictionary *)getTextSegments;
+- (NSString *)bench:(int)maxThreads;
 - (void)invalidate;
 @end