npm - @gmessier/nitro-speech - Versions diffs - 0.3.3 → 0.4.1 - Mend

@gmessier/nitro-speech 0.3.3 → 0.4.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (123) hide show

package/LICENSE +21 -0
package/README.md +176 -148
package/android/build.gradle +0 -1
package/android/src/main/cpp/cpp-adapter.cpp +5 -1
package/android/src/main/java/com/margelo/nitro/nitrospeech/HybridNitroSpeech.kt +2 -0
package/android/src/main/java/com/margelo/nitro/nitrospeech/recognizer/AutoStopper.kt +82 -18
package/android/src/main/java/com/margelo/nitro/nitrospeech/recognizer/HybridRecognizer.kt +118 -30
package/android/src/main/java/com/margelo/nitro/nitrospeech/recognizer/Logger.kt +16 -0
package/android/src/main/java/com/margelo/nitro/nitrospeech/recognizer/RecognitionListenerSession.kt +35 -24
package/ios/{BufferUtil.swift → Audio/AudioBufferConverter.swift} +3 -34
package/ios/Audio/AudioLevelTracker.swift +60 -0
package/ios/Coordinator.swift +105 -0
package/ios/Engines/AnalyzerEngine.swift +241 -0
package/ios/Engines/DictationRuntime.swift +67 -0
package/ios/Engines/RecognizerEngine.swift +315 -0
package/ios/Engines/SFSpeechEngine.swift +119 -0
package/ios/Engines/SpeechRuntime.swift +58 -0
package/ios/Engines/TranscriberRuntimeProtocol.swift +21 -0
package/ios/HybridNitroSpeech.swift +1 -10
package/ios/HybridRecognizer.swift +142 -191
package/ios/LocaleManager.swift +73 -0
package/ios/{AppStateObserver.swift → Shared/AppStateObserver.swift} +1 -2
package/ios/Shared/AutoStopper.swift +147 -0
package/ios/Shared/HapticImpact.swift +24 -0
package/ios/Shared/Log.swift +41 -0
package/ios/Shared/Permissions.swift +59 -0
package/ios/Shared/Utils.swift +58 -0
package/lib/NitroSpeech.d.ts +2 -0
package/lib/NitroSpeech.js +2 -0
package/lib/Recognizer/RecognizerRef.d.ts +7 -0
package/lib/Recognizer/RecognizerRef.js +16 -0
package/lib/Recognizer/SpeechRecognizer.d.ts +8 -0
package/lib/Recognizer/SpeechRecognizer.js +9 -0
package/lib/Recognizer/methods.d.ts +9 -0
package/lib/Recognizer/methods.js +33 -0
package/lib/Recognizer/types.d.ts +6 -0
package/lib/Recognizer/types.js +1 -0
package/lib/Recognizer/useRecognizer.d.ts +16 -0
package/lib/Recognizer/useRecognizer.js +71 -0
package/lib/Recognizer/useRecognizerIsActive.d.ts +25 -0
package/lib/Recognizer/useRecognizerIsActive.js +40 -0
package/lib/Recognizer/useVoiceInputVolume.d.ts +25 -0
package/lib/Recognizer/useVoiceInputVolume.js +52 -0
package/lib/index.d.ts +7 -0
package/lib/index.js +7 -0
package/lib/specs/NitroSpeech.nitro.d.ts +8 -0
package/lib/specs/NitroSpeech.nitro.js +1 -0
package/lib/specs/Recognizer.nitro.d.ts +97 -0
package/lib/specs/Recognizer.nitro.js +1 -0
package/lib/specs/SpeechRecognitionConfig.d.ts +162 -0
package/lib/specs/SpeechRecognitionConfig.js +1 -0
package/lib/specs/VolumeChangeEvent.d.ts +31 -0
package/lib/specs/VolumeChangeEvent.js +1 -0
package/nitro.json +0 -4
package/nitrogen/generated/android/NitroSpeech+autolinking.cmake +2 -2
package/nitrogen/generated/android/NitroSpeechOnLoad.cpp +4 -2
package/nitrogen/generated/android/c++/JFunc_void_VolumeChangeEvent.hpp +78 -0
package/nitrogen/generated/android/c++/JFunc_void_std__vector_std__string_.hpp +14 -14
package/nitrogen/generated/android/c++/JHybridRecognizerSpec.cpp +73 -19
package/nitrogen/generated/android/c++/JHybridRecognizerSpec.hpp +8 -4
package/nitrogen/generated/android/c++/JIosPreset.hpp +58 -0
package/nitrogen/generated/android/c++/JMutableSpeechRecognitionConfig.hpp +79 -0
package/nitrogen/generated/android/c++/{JSpeechToTextParams.hpp → JSpeechRecognitionConfig.hpp} +48 -30
package/nitrogen/generated/android/c++/JVolumeChangeEvent.hpp +65 -0
package/nitrogen/generated/android/kotlin/com/margelo/nitro/nitrospeech/Func_void_VolumeChangeEvent.kt +80 -0
package/nitrogen/generated/android/kotlin/com/margelo/nitro/nitrospeech/HybridRecognizerSpec.kt +22 -5
package/nitrogen/generated/android/kotlin/com/margelo/nitro/nitrospeech/IosPreset.kt +23 -0
package/nitrogen/generated/android/kotlin/com/margelo/nitro/nitrospeech/MutableSpeechRecognitionConfig.kt +76 -0
package/nitrogen/generated/android/kotlin/com/margelo/nitro/nitrospeech/SpeechRecognitionConfig.kt +121 -0
package/nitrogen/generated/android/kotlin/com/margelo/nitro/nitrospeech/VolumeChangeEvent.kt +61 -0
package/nitrogen/generated/ios/NitroSpeech-Swift-Cxx-Bridge.cpp +46 -30
package/nitrogen/generated/ios/NitroSpeech-Swift-Cxx-Bridge.hpp +211 -69
package/nitrogen/generated/ios/NitroSpeech-Swift-Cxx-Umbrella.hpp +13 -3
package/nitrogen/generated/ios/c++/HybridRecognizerSpecSwift.hpp +49 -9
package/nitrogen/generated/ios/swift/Func_void_VolumeChangeEvent.swift +46 -0
package/nitrogen/generated/ios/swift/Func_void_std__exception_ptr.swift +46 -0
package/nitrogen/generated/ios/swift/HybridRecognizerSpec.swift +7 -3
package/nitrogen/generated/ios/swift/HybridRecognizerSpec_cxx.swift +78 -18
package/nitrogen/generated/ios/swift/IosPreset.swift +40 -0
package/nitrogen/generated/ios/swift/MutableSpeechRecognitionConfig.swift +118 -0
package/nitrogen/generated/ios/swift/{SpeechToTextParams.swift → SpeechRecognitionConfig.swift} +108 -43
package/nitrogen/generated/ios/swift/VolumeChangeEvent.swift +52 -0
package/nitrogen/generated/shared/c++/HybridRecognizerSpec.cpp +5 -1
package/nitrogen/generated/shared/c++/HybridRecognizerSpec.hpp +18 -7
package/nitrogen/generated/shared/c++/IosPreset.hpp +76 -0
package/nitrogen/generated/shared/c++/MutableSpeechRecognitionConfig.hpp +105 -0
package/nitrogen/generated/shared/c++/{SpeechToTextParams.hpp → SpeechRecognitionConfig.hpp} +39 -20
package/nitrogen/generated/shared/c++/VolumeChangeEvent.hpp +91 -0
package/package.json +15 -16
package/src/NitroSpeech.ts +5 -0
package/src/Recognizer/RecognizerRef.ts +27 -0
package/src/Recognizer/SpeechRecognizer.ts +10 -0
package/src/Recognizer/methods.ts +45 -0
package/src/Recognizer/types.ts +34 -0
package/src/Recognizer/useRecognizer.ts +87 -0
package/src/Recognizer/useRecognizerIsActive.ts +49 -0
package/src/Recognizer/useVoiceInputVolume.ts +65 -0
package/src/index.ts +13 -182
package/src/specs/NitroSpeech.nitro.ts +2 -163
package/src/specs/Recognizer.nitro.ts +113 -0
package/src/specs/SpeechRecognitionConfig.ts +167 -0
package/src/specs/VolumeChangeEvent.ts +31 -0
package/android/proguard-rules.pro +0 -1
package/ios/AnylyzerTranscriber.swift +0 -331
package/ios/AutoStopper.swift +0 -69
package/ios/HapticImpact.swift +0 -32
package/ios/LegacySpeechRecognizer.swift +0 -161
package/lib/commonjs/index.js +0 -145
package/lib/commonjs/index.js.map +0 -1
package/lib/commonjs/package.json +0 -1
package/lib/commonjs/specs/NitroSpeech.nitro.js +0 -6
package/lib/commonjs/specs/NitroSpeech.nitro.js.map +0 -1
package/lib/module/index.js +0 -138
package/lib/module/index.js.map +0 -1
package/lib/module/package.json +0 -1
package/lib/module/specs/NitroSpeech.nitro.js +0 -4
package/lib/module/specs/NitroSpeech.nitro.js.map +0 -1
package/lib/tsconfig.tsbuildinfo +0 -1
package/lib/typescript/index.d.ts +0 -50
package/lib/typescript/index.d.ts.map +0 -1
package/lib/typescript/specs/NitroSpeech.nitro.d.ts +0 -162
package/lib/typescript/specs/NitroSpeech.nitro.d.ts.map +0 -1
package/nitrogen/generated/android/kotlin/com/margelo/nitro/nitrospeech/SpeechToTextParams.kt +0 -68

package/android/src/main/java/com/margelo/nitro/nitrospeech/recognizer/AutoStopper.kt CHANGED Viewed

@@ -2,38 +2,102 @@ package com.margelo.nitro.nitrospeech.recognizer
 import android.os.Handler
 import android.os.Looper
-import android.util.Log
+import kotlin.math.max
-class AutoStopper (
-    private var silenceThreshold: Long,
-    val forceStopRecording: () -> Unit,
+class AutoStopper(
+    silenceThresholdMs: Double?,
+    progressIntervalMs: Double?,
+    private val onProgress: (Double) -> Unit,
+    val onTimeout: () -> Unit,
 ) {
     companion object {
-        private const val TAG = "HybridRecognizer"
+        private const val DEFAULT_SILENCE_THRESHOLD_MS = 8000.0
+        private const val DEFAULT_PROGRESS_INTERVAL_MS = 1000.0
+        private const val MIN_PROGRESS_INTERVAL_MS = 50.0
     }
+    private val logger = Logger(disable = false)
+    private var silenceThresholdMs: Double = clampMs(silenceThresholdMs ?: DEFAULT_SILENCE_THRESHOLD_MS)
+    private var progressIntervalMs: Double = clampMs(progressIntervalMs ?: DEFAULT_PROGRESS_INTERVAL_MS)
+    private var timeLeftMs: Double = this.silenceThresholdMs
     private var isStopped = false
+    private var didTimeout = false
+    private var isTimerScheduled = false
     private val handler = Handler(Looper.getMainLooper())
-    private val autoStopRecording = Runnable {
-        if (isStopped) return@Runnable
-        Log.d(TAG, "forceStopRecording, ms: ${System.currentTimeMillis()}")
-        forceStopRecording()
-    }
+    private val tickRunnable = Runnable { tick() }
-    fun indicateRecordingActivity() {
-        Log.d(TAG, "indicateRecordingActivity | isStopped: $isStopped | ms: ${System.currentTimeMillis()}")
-        handler.removeCallbacks(autoStopRecording)
+    fun resetTimer() {
+        logger.log("resetTimer | isStopped: $isStopped | ms: ${System.currentTimeMillis()}")
+        handler.removeCallbacks(tickRunnable)
+        isTimerScheduled = false
         if (isStopped) return
-        handler.postDelayed(autoStopRecording, silenceThreshold)
+        didTimeout = false
+        timeLeftMs = silenceThresholdMs
+        if (timeLeftMs > 0) {
+            onProgress(timeLeftMs)
+        }
+        scheduleNextTickLocked()
     }
     fun stop() {
         isStopped = true
-        handler.removeCallbacks(autoStopRecording)
+        handler.removeCallbacks(tickRunnable)
+        isTimerScheduled = false
+    }
+    fun updateSilenceThreshold(newThresholdMs: Double) {
+        silenceThresholdMs = clampMs(newThresholdMs)
+    }
+    fun addMsOnce(extraMs: Double) {
+        if (isStopped || !extraMs.isFinite()) return
+        logger.log("addMsOnce | extraMs: $extraMs")
+        timeLeftMs += extraMs
+        didTimeout = false
+        if (timeLeftMs > 0 && isTimerScheduled) {
+            onProgress(timeLeftMs)
+        }
+    }
+    fun updateProgressInterval(newIntervalMs: Double) {
+        if (isStopped) return
+        logger.log("updateProgressInterval | newIntervalMs: $newIntervalMs")
+        progressIntervalMs = clampMs(newIntervalMs)
+        if (isTimerScheduled) {
+            scheduleNextTickLocked()
+        }
+    }
+    private fun scheduleNextTickLocked() {
+        handler.removeCallbacks(tickRunnable)
+        val delayMs = progressIntervalMs.toLong().coerceAtLeast(MIN_PROGRESS_INTERVAL_MS.toLong())
+        handler.postDelayed(tickRunnable, delayMs)
+        isTimerScheduled = true
+    }
+    private fun tick() {
+        if (isStopped || didTimeout) return
+        timeLeftMs -= progressIntervalMs
+        if (timeLeftMs > 0) {
+            logger.log("onProgress | timeLeftMs: $timeLeftMs")
+            onProgress(timeLeftMs)
+            scheduleNextTickLocked()
+            return
+        }
+        timeLeftMs = 0.0
+        didTimeout = true
+        handler.removeCallbacks(tickRunnable)
+        isTimerScheduled = false
+        logger.log("onTimeout | ms: ${System.currentTimeMillis()}")
+        onTimeout()
     }
-    fun updateSilenceThreshold(newThreshold: Long) {
-        silenceThreshold = newThreshold
+    private fun clampMs(value: Double): Double {
+        if (!value.isFinite()) return MIN_PROGRESS_INTERVAL_MS
+        return max(MIN_PROGRESS_INTERVAL_MS, value)
     }
-}
+}

package/android/src/main/java/com/margelo/nitro/nitrospeech/recognizer/HybridRecognizer.kt CHANGED Viewed

@@ -7,21 +7,27 @@ import android.os.Handler
 import android.os.Looper
 import android.speech.RecognizerIntent
 import android.speech.SpeechRecognizer
-import android.util.Log
 import androidx.annotation.Keep
 import com.facebook.proguard.annotations.DoNotStrip
 import com.margelo.nitro.NitroModules
+import com.margelo.nitro.core.Promise
+import com.margelo.nitro.nitrospeech.MutableSpeechRecognitionConfig
 import com.margelo.nitro.nitrospeech.HybridRecognizerSpec
-import com.margelo.nitro.nitrospeech.SpeechToTextParams
+import com.margelo.nitro.nitrospeech.SpeechRecognitionConfig
+import com.margelo.nitro.nitrospeech.VolumeChangeEvent
+@DoNotStrip
+@Keep
 class HybridRecognizer: HybridRecognizerSpec() {
   companion object {
-    private const val TAG = "HybridRecognizer"
     private const val POST_RECOGNITION_DELAY = 250L
   }
+  private val logger = Logger(disable = false)
   private var isActive: Boolean = false
-  private var config: SpeechToTextParams? = null
+  private var config: SpeechRecognitionConfig? = null
+  private var volumeChangeEvent: VolumeChangeEvent = VolumeChangeEvent(0.0,0.0,null)
   private var autoStopper: AutoStopper? = null
   private var speechRecognizer: SpeechRecognizer? = null
   private val mainHandler = Handler(Looper.getMainLooper())
@@ -33,16 +39,20 @@ class HybridRecognizer: HybridRecognizerSpec() {
   override var onAutoFinishProgress: ((timeLeftMs: Double) -> Unit)? = null
   override var onError: ((error: String) -> Unit)? = null
   override var onPermissionDenied: (() -> Unit)? = null
-  override var onVolumeChange: ((normVolume: Double) -> Unit)? = null
+  override var onVolumeChange: ((event: VolumeChangeEvent) -> Unit)? = null
-  override fun getIsActive(): Boolean {
-    return isActive
+  @DoNotStrip
+  @Keep
+  override fun prewarm(defaultParams: SpeechRecognitionConfig?): Promise<Unit> {
+    // no-op
+    // nothing to prewarm
+    return Promise()
   }
   @DoNotStrip
   @Keep
-  override fun startListening(params: SpeechToTextParams) {
-    Log.d(TAG, "startListening: $params")
+  override fun startListening(params: SpeechRecognitionConfig?) {
+    logger.log("startListening: $params")
     if (isActive) {
       onFinishRecognition(
         null,
@@ -85,7 +95,7 @@ class HybridRecognizer: HybridRecognizerSpec() {
   @DoNotStrip
   @Keep
   override fun stopListening() {
-    Log.d(TAG, "stopListening called")
+    logger.log("stopListening called")
     if (!isActive) return
     onFinishRecognition(null, null, true)
     mainHandler.postDelayed({
@@ -98,25 +108,90 @@ class HybridRecognizer: HybridRecognizerSpec() {
     }, POST_RECOGNITION_DELAY)
   }
+  @DoNotStrip
+  @Keep
+  override fun resetAutoFinishTime() {
+    if (!isActive) return
+    autoStopper?.resetTimer()
+  }
   @DoNotStrip
   @Keep
   override fun addAutoFinishTime(additionalTimeMs: Double?) {
-    Log.d(TAG, "stopListening called")
+    logger.log("addAutoFinishTime")
     if (!isActive) return
-    autoStopper?.indicateRecordingActivity()
+    if (additionalTimeMs != null) {
+      autoStopper?.addMsOnce(additionalTimeMs)
+    } else {
+      // Reset timer to original baseline.
+      autoStopper?.resetTimer()
+    }
   }
   @DoNotStrip
   @Keep
-  override fun updateAutoFinishTime(newTimeMs: Double, withRefresh: Boolean?) {
-    Log.d(TAG, "updateAutoFinishTime: $newTimeMs")
+  override fun updateConfig(
+    newConfig: MutableSpeechRecognitionConfig?,
+    resetAutoFinishTime: Boolean?
+  ) {
+    logger.log("updateConfig $newConfig",)
     if (!isActive) return
-    autoStopper?.updateSilenceThreshold(newTimeMs.toLong())
-    if (withRefresh == true) {
-      autoStopper?.indicateRecordingActivity()
+    val newTimeMs = if (newConfig?.autoFinishRecognitionMs != null) newConfig.autoFinishRecognitionMs else config?.autoFinishRecognitionMs
+    if (newTimeMs != null && newTimeMs != config?.autoFinishRecognitionMs) {
+      autoStopper?.updateSilenceThreshold(newTimeMs)
+    }
+    val newInterval = if (newConfig?.autoFinishProgressIntervalMs != null) newConfig.autoFinishProgressIntervalMs else config?.autoFinishProgressIntervalMs
+    if (newInterval != null && newInterval != config?.autoFinishProgressIntervalMs) {
+      autoStopper?.updateProgressInterval(newInterval)
+    }
+    if (resetAutoFinishTime == true) {
+      autoStopper?.resetTimer()
     }
+    if (newConfig != null) {
+      config = SpeechRecognitionConfig(
+        locale = config?.locale,
+        contextualStrings = config?.contextualStrings,
+        maskOffensiveWords = config?.maskOffensiveWords,
+        autoFinishRecognitionMs = newConfig.autoFinishRecognitionMs ?: config?.autoFinishRecognitionMs,
+        autoFinishProgressIntervalMs = newConfig.autoFinishProgressIntervalMs ?: config?.autoFinishProgressIntervalMs,
+        resetAutoFinishVoiceSensitivity = newConfig.resetAutoFinishVoiceSensitivity ?: config?.resetAutoFinishVoiceSensitivity,
+        disableRepeatingFilter = newConfig.disableRepeatingFilter ?: config?.disableRepeatingFilter,
+        startHapticFeedbackStyle = newConfig.startHapticFeedbackStyle ?: config?.startHapticFeedbackStyle,
+        stopHapticFeedbackStyle = newConfig.stopHapticFeedbackStyle ?: config?.stopHapticFeedbackStyle,
+        androidFormattingPreferQuality = config?.androidFormattingPreferQuality,
+        androidUseWebSearchModel = config?.androidUseWebSearchModel,
+        androidDisableBatchHandling = config?.androidDisableBatchHandling,
+        iosAddPunctuation = config?.iosAddPunctuation,
+        iosPreset = config?.iosPreset,
+        iosAtypicalSpeech = config?.iosAtypicalSpeech
+      )
+    }
+  }
+  @DoNotStrip
+  @Keep
+  override fun getIsActive(): Boolean {
+    return isActive
   }
+  @DoNotStrip
+  @Keep
+  override fun getVoiceInputVolume(): VolumeChangeEvent {
+    return volumeChangeEvent
+  }
+  @DoNotStrip
+  @Keep
+  override fun getSupportedLocalesIOS(): Array<String> {
+    return emptyArray()
+  }
+  @DoNotStrip
+  @Keep
   override fun dispose() {
     stopListening()
   }
@@ -125,19 +200,25 @@ class HybridRecognizer: HybridRecognizerSpec() {
     mainHandler.post {
       try {
         speechRecognizer = SpeechRecognizer.createSpeechRecognizer(context)
-        val silenceThreshold = config?.autoFinishRecognitionMs?.toLong() ?: 8000
         autoStopper = AutoStopper(
-            silenceThreshold,
-        ) {
-            stopListening()
-        }
+            silenceThresholdMs = config?.autoFinishRecognitionMs,
+            progressIntervalMs = config?.autoFinishProgressIntervalMs,
+            onProgress = { timeLeftMs ->
+              onAutoFinishProgress?.invoke(timeLeftMs)
+            },
+            onTimeout = {
+              stopListening()
+            }
+        )
         val recognitionListenerSession = RecognitionListenerSession(
-          autoStopper,
-          config,
-          onVolumeChange
-        ) { result: ArrayList<String>?, errorMessage: String?, recordingStopped: Boolean ->
-          onFinishRecognition(result, errorMessage, recordingStopped)
-        }
+            autoStopper,
+            config,
+            fireVolumeChangeEvent = { event -> fireVolumeChangeEvent(event) },
+            onFinishRecognition = { result, errorMessage, recordingStopped ->
+              onFinishRecognition(result, errorMessage, recordingStopped)
+            }
+        )
         speechRecognizer?.setRecognitionListener(recognitionListenerSession.createRecognitionListener())
         val languageModel = if (config?.androidUseWebSearchModel == true) RecognizerIntent.LANGUAGE_MODEL_WEB_SEARCH else RecognizerIntent.LANGUAGE_MODEL_FREE_FORM
@@ -175,6 +256,7 @@ class HybridRecognizer: HybridRecognizerSpec() {
           if (isActive) {
             onReadyForSpeech?.invoke()
             onFinishRecognition(arrayListOf(), null, false)
+            autoStopper?.resetTimer()
           }
         }, 500)
       } catch (e: Exception) {
@@ -189,7 +271,7 @@ class HybridRecognizer: HybridRecognizerSpec() {
   private fun cleanup() {
     try {
-      Log.d(TAG, "stopListening called")
+      logger.log("cleanup called")
       autoStopper?.stop()
       autoStopper = null
       speechRecognizer?.stopListening()
@@ -197,7 +279,7 @@ class HybridRecognizer: HybridRecognizerSpec() {
       speechRecognizer = null
       isActive = false
       // Reset voice meter in JS consumers after stop/error cleanup.
-      onVolumeChange?.invoke(0.0)
+      fireVolumeChangeEvent(VolumeChangeEvent(0.0,0.0,null))
     } catch (e: Exception) {
       onFinishRecognition(
         null,
@@ -218,4 +300,10 @@ class HybridRecognizer: HybridRecognizerSpec() {
       onResult?.invoke(result.toTypedArray())
     }
   }
+  private fun fireVolumeChangeEvent(event: VolumeChangeEvent) {
+    logger.log("fireVolumeChangeEvent ${event}")
+    volumeChangeEvent = event
+    onVolumeChange?.invoke(event)
+  }
 }

package/android/src/main/java/com/margelo/nitro/nitrospeech/recognizer/Logger.kt ADDED Viewed

@@ -0,0 +1,16 @@
+package com.margelo.nitro.nitrospeech.recognizer
+import android.util.Log
+class Logger (
+  private val disable: Boolean
+) {
+  private val isLogging = false
+  companion object {
+    private const val TAG = "HybridRecognizer"
+  }
+  fun log(message: String) {
+    if (disable || !isLogging) return
+    Log.d(TAG, message)
+  }
+}

package/android/src/main/java/com/margelo/nitro/nitrospeech/recognizer/RecognitionListenerSession.kt CHANGED Viewed

@@ -3,20 +3,20 @@ package com.margelo.nitro.nitrospeech.recognizer
 import android.os.Bundle
 import android.speech.RecognitionListener
 import android.speech.SpeechRecognizer
-import android.util.Log
-import com.margelo.nitro.nitrospeech.SpeechToTextParams
+import com.margelo.nitro.nitrospeech.SpeechRecognitionConfig
+import com.margelo.nitro.nitrospeech.VolumeChangeEvent
 import kotlin.math.max
 import kotlin.math.roundToInt
 class RecognitionListenerSession (
     private val autoStopper: AutoStopper?,
-    private val config: SpeechToTextParams?,
-    private val onVolumeChange: ((normVolume: Double) -> Unit)?,
+    private val config: SpeechRecognitionConfig?,
+    private val fireVolumeChangeEvent: (event: VolumeChangeEvent) -> Unit,
     private val onFinishRecognition: (result: ArrayList<String>?, errorMessage: String?, recordingStopped: Boolean) -> Unit,
 ) {
+    private val logger = Logger(disable = false)
     companion object {
-        private const val TAG = "HybridRecognizer"
-        private const val SPEECH_LEVEL_THRESHOLD = 0.08f
+        private const val SPEECH_LEVEL_THRESHOLD = 0.35
         private const val FLOOR_RISE_ALPHA = 0.01f
         private const val FLOOR_FALL_ALPHA = 0.20f
         private const val PEAK_ATTACK_ALPHA = 0.25f
@@ -38,10 +38,14 @@ class RecognitionListenerSession (
             override fun onReadyForSpeech(params: Bundle?) {}
             override fun onBeginningOfSpeech() {}
             override fun onRmsChanged(rmsdB: Float) {
-                val normLevel = normalizeRmsDb(rmsdB)
-                onVolumeChange?.invoke(normLevel.toDouble())
-                if (normLevel > SPEECH_LEVEL_THRESHOLD) {
-                    autoStopper?.indicateRecordingActivity()
+                val volumeEvent = getVolume(rmsdB)
+                fireVolumeChangeEvent(volumeEvent)
+                val threshold =
+                    config?.resetAutoFinishVoiceSensitivity?.coerceIn(0.0, 1.0)
+                        ?: SPEECH_LEVEL_THRESHOLD.toDouble()
+                // logger.log("onRmsChanged: ${volumeEvent}")
+                if (volumeEvent.rawVolume > threshold) {
+                    autoStopper?.resetTimer()
                 }
             }
             override fun onBufferReceived(buffer: ByteArray?) {}
@@ -66,40 +70,40 @@ class RecognitionListenerSession (
                     true
                 )
                 autoStopper?.stop()
-                autoStopper?.forceStopRecording()
+                autoStopper?.onTimeout()
             }
             override fun onResults(results: Bundle?) {
-                Log.d(TAG, "onResults: $resultBatches")
+                logger.log("onResults: $resultBatches")
                 onFinishRecognition(resultBatches, null, true)
                 autoStopper?.stop()
-                autoStopper?.forceStopRecording()
+                autoStopper?.onTimeout()
             }
             override fun onPartialResults(partialResults: Bundle?) {
-                autoStopper?.indicateRecordingActivity()
                 val matches = partialResults?.getStringArrayList(SpeechRecognizer.RESULTS_RECOGNITION)
                 if (matches.isNullOrEmpty() || matches[0] == "") {
-                    Log.d(TAG, "onPartialResults[0], skip, NO RECOGNIZE")
+                    logger.log("onPartialResults[0], skip, NO RECOGNIZE")
                     return
                 }
-                Log.d(TAG, "onPartialResults[0], add ${matches[0]}")
+                autoStopper?.resetTimer()
+                logger.log("onPartialResults[0], add ${matches[0]}")
                 var currentBatches = resultBatches
                 if (currentBatches.isNullOrEmpty()) {
-                    Log.d(TAG, "onPartialResults[1], NO BATCHES YET | add first")
+                    logger.log("onPartialResults[1], NO BATCHES YET | add first")
                     currentBatches = arrayListOf(matches[0])
                 } else {
-                    Log.d(TAG, "onPartialResults[1], current batches $currentBatches")
+                    logger.log("onPartialResults[1], current batches $currentBatches")
                     val prevBatchLength = currentBatches[currentBatches.lastIndex].length
                     val match = if (config?.disableRepeatingFilter == true) matches[0] else repeatingFilter(matches[0])
                     val matchLength = match.length
                     if (config?.androidDisableBatchHandling == true || matchLength + 3 < prevBatchLength) {
-                        Log.d(TAG, "onPartialResults[2], append new batch")
+                        logger.log("onPartialResults[2], append new batch")
                         currentBatches.add(match)
                     } else {
-                        Log.d(TAG, "onPartialResults[2], update batch, replace #${currentBatches.lastIndex}")
+                        logger.log("onPartialResults[2], update batch, replace #${currentBatches.lastIndex}")
                         currentBatches[currentBatches.lastIndex] = match
                     }
                 }
@@ -144,9 +148,9 @@ class RecognitionListenerSession (
         return joiner.toString()
     }
-    private fun normalizeRmsDb(rmsdB: Float): Double {
+    private fun getVolume(rmsdB: Float): VolumeChangeEvent {
         if (!rmsdB.isFinite()) {
-            return 0.0
+            return VolumeChangeEvent(0.0,0.0,null)
         }
         if (noiseFloorDb.isNaN()) {
@@ -166,7 +170,14 @@ class RecognitionListenerSession (
         val raw = ((rmsdB - noiseFloorDb) / span).coerceIn(0f, 1f)
         val smoothingCoeff = if (raw > levelSmoothed) METER_ATTACK else METER_RELEASE
         levelSmoothed += smoothingCoeff * (raw - levelSmoothed)
-        return ((levelSmoothed * PRECISION_SCALE).roundToInt() / PRECISION_SCALE).toDouble()
+        val roundedSmoothed = ((levelSmoothed * PRECISION_SCALE).roundToInt() / PRECISION_SCALE).toDouble()
+        val roundedRaw = ((raw * PRECISION_SCALE).roundToInt() / PRECISION_SCALE).toDouble()
+        val db = (rmsdB * 1000).roundToInt() / 1000.0
+        return VolumeChangeEvent(
+            smoothedVolume = roundedSmoothed,
+            rawVolume = roundedRaw,
+            db = db
+        )
     }
   }

package/ios/{BufferUtil.swift → Audio/AudioBufferConverter.swift} RENAMED Viewed

@@ -1,6 +1,5 @@
 import Foundation
 import AVFoundation
-import Accelerate
 private final class SendablePCMBufferBox: @unchecked Sendable {
     let buffer: AVAudioPCMBuffer
@@ -10,42 +9,12 @@ private final class SendablePCMBufferBox: @unchecked Sendable {
     }
 }
-class BufferUtil {
-    private static let meterMinDb: Float = -70   // silence floor
-    private static let meterMaxDb: Float = -10   // loud speech ceiling
-    private static let meterAttack: Float = 0.35 // rise speed
-    private static let meterRelease: Float = 0.08 // fall speed
-    func calcRmsVolume(
-        levelSmoothed: Float,
-        buffer: AVAudioPCMBuffer
-    ) -> (Float, Float)? {
-        guard let samples = buffer.floatChannelData?[0] else { return nil }
-        let frameL = Int(buffer.frameLength)
-        var rms: Float = 0
-        vDSP_rmsqv(samples, 1, &rms, vDSP_Length(frameL))
-        // 2) RMS -> dBFS
-        let db = 20 * log10(rms + 0.00001)
-        // 3) Normalize dB to 0...1
-        let raw = (db - Self.meterMinDb) / (Self.meterMaxDb - Self.meterMinDb)
-        let normalized = max(0, min(1, raw))
-        // 4) Smooth (fast attack, slow release)
-        let coeff = normalized > levelSmoothed ? Self.meterAttack : Self.meterRelease
-        let nextLevelSmoothed = levelSmoothed + coeff * (normalized - levelSmoothed)
-        return (rms, nextLevelSmoothed)
-    }
-    func convertBuffer(
+enum AudioBufferConverter {
+    static func convertBuffer(
         converter: AVAudioConverter,
         audioFormat: AVAudioFormat,
         pcmBuffer: AVAudioPCMBuffer
-    ) throws -> AVAudioPCMBuffer?  {
+    ) throws -> AVAudioPCMBuffer? {
         let resampledCapacity = AVAudioFrameCount(
             (Double(pcmBuffer.frameLength) * (audioFormat.sampleRate / pcmBuffer.format.sampleRate)).rounded(.up)
         )

package/ios/Audio/AudioLevelTracker.swift ADDED Viewed

@@ -0,0 +1,60 @@
+import Foundation
+import AVFoundation
+import Accelerate
+struct AudioLevelSample {
+    let smoothed: Double
+    let raw: Double
+    let db: Double
+    let resetTimer: Bool
+}
+final class AudioLevelTracker {
+    private static let meterMinDb: Float = -70
+    private static let meterMaxDb: Float = -10
+    private static let meterAttack: Float = 0.35
+    private static let meterRelease: Float = 0.08
+    private static let defaultAutoStopResetThreshold: Double = 0.4
+    private var smoothedLevel: Float = 0
+    var currentSample: AudioLevelSample?
+    private let lg = Lg(prefix: "RecognizerEngine")
+    func reset() {
+        smoothedLevel = 0
+        currentSample = nil
+    }
+    func process(_ buffer: AVAudioPCMBuffer,_ autoStopResetThreshold: Double? = nil) -> AudioLevelSample? {
+        guard let samples = buffer.floatChannelData?[0] else { return nil }
+        let frameCount = Int(buffer.frameLength)
+        var rms: Float = 0
+        vDSP_rmsqv(samples, 1, &rms, vDSP_Length(frameCount))
+        let db = 20 * log10(rms + 0.00001)
+        let raw = (db - Self.meterMinDb) / (Self.meterMaxDb - Self.meterMinDb)
+        let normalized = max(0, min(1, raw))
+        let coeff = normalized > smoothedLevel ? Self.meterAttack : Self.meterRelease
+        smoothedLevel += coeff * (normalized - smoothedLevel)
+        var threshold = Self.defaultAutoStopResetThreshold
+        if let autoStopResetThreshold {
+            threshold = max(0, min(1, autoStopResetThreshold))
+        }
+        currentSample = AudioLevelSample(
+            smoothed: Double(smoothedLevel * 1_000_000).rounded() / 1_000_000,
+            raw: Double(normalized * 1_000_000).rounded() / 1_000_000,
+            db: Double(db * 1_000).rounded() / 1_000,
+            resetTimer: Double(normalized) >= threshold
+        )
+        lg.log("[AudioLevelTracker.process] autoStopResetThreshold: \(threshold)")
+        return currentSample
+    }
+}