npm - @absolutejs/voice - Versions diffs - 0.0.22-beta.596 → 0.0.22-beta.598 - Mend

@absolutejs/voice 0.0.22-beta.596 → 0.0.22-beta.598

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (4) hide show

package/dist/core/semanticTurn.d.ts +11 -1
package/dist/index.js +37 -2
package/dist/testing/index.js +37 -2
package/package.json +1 -1

package/dist/core/semanticTurn.d.ts CHANGED Viewed

@@ -1,10 +1,20 @@
-import type { Transcript } from "./types";
+import type { AudioFormat, Transcript } from "./types";
 export type VoiceSemanticTurnInput = {
     audioLevel?: number;
     lastFinalTranscript?: Transcript;
     partialText: string;
     silenceMs: number;
     transcripts: Transcript[];
+    /**
+     * The current turn's buffered user audio (PCM chunks, oldest→newest) and its
+     * format. Lets an AUDIO-based end-of-turn detector (e.g. a smart-turn / Whisper
+     * EOT model) judge completion from prosody — pitch, pace, trailing intonation —
+     * which a transcript-only judge fundamentally cannot see. Undefined when no
+     * audio was buffered for the turn (the runtime only stores chunks above the
+     * speech threshold).
+     */
+    turnAudio?: ReadonlyArray<Uint8Array>;
+    turnAudioFormat?: AudioFormat;
 };
 export type VoiceSemanticTurnVerdict = {
     confidence?: number;

package/dist/index.js CHANGED Viewed

@@ -3757,6 +3757,8 @@ var getBufferedAudioDurationMs = (chunks) => chunks.reduce((total, chunk) => tot
 var STREAM_SENTENCE_BOUNDARY = /[.!?\u2026]['")\]]*\s/;
 var STREAM_CLAUSE_BOUNDARY = /[,;:]\s/g;
 var MAX_TTS_CHUNK_CHARS = 320;
+var STREAM_SENTENCE_END = /[.!?\u2026]['")\]]*$/;
+var STREAM_IDLE_FLUSH_MS = 350;
 var nextSpeakableBoundary = (buffer) => {
   const match = STREAM_SENTENCE_BOUNDARY.exec(buffer);
   return match ? match.index + match[0].length : -1;
@@ -4135,6 +4137,17 @@ var createVoiceSession = (options) => {
     pruneTurnAudio();
     return currentTurnAudio.map((audio) => audio.chunk);
   };
+  const turnAudioInputFormat = recordingConfig?.userInputFormat ?? options.realtimeInputFormat ?? DEFAULT_REALTIME_FORMAT;
+  const getTurnAudioForDetector = () => {
+    if (!options.semanticTurnDetector || currentTurnAudio.length === 0) {
+      return { turnAudio: undefined, turnAudioFormat: undefined };
+    }
+    const turnAudio = currentTurnAudio.map((audio) => {
+      const c = audio.chunk;
+      return c instanceof ArrayBuffer ? new Uint8Array(c) : new Uint8Array(c.buffer, c.byteOffset, c.byteLength);
+    });
+    return { turnAudio, turnAudioFormat: turnAudioInputFormat };
+  };
   const clearSilenceTimer = () => {
     if (!silenceTimer) {
       return;
@@ -4474,7 +4487,8 @@ var createVoiceSession = (options) => {
         lastFinalTranscript: transcripts.at(-1),
         partialText,
         silenceMs,
-        transcripts
+        transcripts,
+        ...getTurnAudioForDetector()
       }));
       endOfTurn = verdict.endOfTurn;
     } catch {
@@ -5259,7 +5273,8 @@ var createVoiceSession = (options) => {
         lastFinalTranscript: transcript,
         partialText: session.currentTurn.partialText,
         silenceMs: session.currentTurn.silenceStartedAt !== undefined ? Date.now() - session.currentTurn.silenceStartedAt : 0,
-        transcripts: session.currentTurn.transcripts
+        transcripts: session.currentTurn.transcripts,
+        ...getTurnAudioForDetector()
       }));
       if (verdict.endOfTurn) {
         clearSilenceTimer();
@@ -5448,6 +5463,7 @@ var createVoiceSession = (options) => {
     let charsSent = 0;
     let started = false;
     let streamed = false;
+    let idleFlushTimer = null;
     let sendChain = Promise.resolve();
     let ttsSessionRequest = null;
     const ttsStartedAt = Date.now();
@@ -5507,8 +5523,23 @@ var createVoiceSession = (options) => {
         }
       })();
     };
+    const clearIdleFlush = () => {
+      if (idleFlushTimer) {
+        clearTimeout(idleFlushTimer);
+        idleFlushTimer = null;
+      }
+    };
+    const flushOnIdle = () => {
+      idleFlushTimer = null;
+      const pending = buffer.trim();
+      if (pending && STREAM_SENTENCE_END.test(pending)) {
+        flush(buffer);
+        buffer = "";
+      }
+    };
     return {
       finish: async () => {
+        clearIdleFlush();
         if (buffer.trim()) {
           flush(buffer);
         }
@@ -5554,6 +5585,10 @@ var createVoiceSession = (options) => {
           flush(buffer.slice(0, cut));
           buffer = buffer.slice(cut);
         }
+        clearIdleFlush();
+        if (buffer.trim()) {
+          idleFlushTimer = setTimeout(flushOnIdle, STREAM_IDLE_FLUSH_MS);
+        }
       }
     };
   };

package/dist/testing/index.js CHANGED Viewed

@@ -5984,6 +5984,8 @@ var getBufferedAudioDurationMs = (chunks) => chunks.reduce((total, chunk) => tot
 var STREAM_SENTENCE_BOUNDARY = /[.!?\u2026]['")\]]*\s/;
 var STREAM_CLAUSE_BOUNDARY = /[,;:]\s/g;
 var MAX_TTS_CHUNK_CHARS = 320;
+var STREAM_SENTENCE_END = /[.!?\u2026]['")\]]*$/;
+var STREAM_IDLE_FLUSH_MS = 350;
 var nextSpeakableBoundary = (buffer) => {
   const match = STREAM_SENTENCE_BOUNDARY.exec(buffer);
   return match ? match.index + match[0].length : -1;
@@ -6362,6 +6364,17 @@ var createVoiceSession = (options) => {
     pruneTurnAudio();
     return currentTurnAudio.map((audio) => audio.chunk);
   };
+  const turnAudioInputFormat = recordingConfig?.userInputFormat ?? options.realtimeInputFormat ?? DEFAULT_REALTIME_FORMAT;
+  const getTurnAudioForDetector = () => {
+    if (!options.semanticTurnDetector || currentTurnAudio.length === 0) {
+      return { turnAudio: undefined, turnAudioFormat: undefined };
+    }
+    const turnAudio = currentTurnAudio.map((audio) => {
+      const c = audio.chunk;
+      return c instanceof ArrayBuffer ? new Uint8Array(c) : new Uint8Array(c.buffer, c.byteOffset, c.byteLength);
+    });
+    return { turnAudio, turnAudioFormat: turnAudioInputFormat };
+  };
   const clearSilenceTimer = () => {
     if (!silenceTimer) {
       return;
@@ -6701,7 +6714,8 @@ var createVoiceSession = (options) => {
         lastFinalTranscript: transcripts.at(-1),
         partialText,
         silenceMs,
-        transcripts
+        transcripts,
+        ...getTurnAudioForDetector()
       }));
       endOfTurn = verdict.endOfTurn;
     } catch {
@@ -7486,7 +7500,8 @@ var createVoiceSession = (options) => {
         lastFinalTranscript: transcript,
         partialText: session.currentTurn.partialText,
         silenceMs: session.currentTurn.silenceStartedAt !== undefined ? Date.now() - session.currentTurn.silenceStartedAt : 0,
-        transcripts: session.currentTurn.transcripts
+        transcripts: session.currentTurn.transcripts,
+        ...getTurnAudioForDetector()
       }));
       if (verdict.endOfTurn) {
         clearSilenceTimer();
@@ -7675,6 +7690,7 @@ var createVoiceSession = (options) => {
     let charsSent = 0;
     let started = false;
     let streamed = false;
+    let idleFlushTimer = null;
     let sendChain = Promise.resolve();
     let ttsSessionRequest = null;
     const ttsStartedAt = Date.now();
@@ -7734,8 +7750,23 @@ var createVoiceSession = (options) => {
         }
       })();
     };
+    const clearIdleFlush = () => {
+      if (idleFlushTimer) {
+        clearTimeout(idleFlushTimer);
+        idleFlushTimer = null;
+      }
+    };
+    const flushOnIdle = () => {
+      idleFlushTimer = null;
+      const pending = buffer.trim();
+      if (pending && STREAM_SENTENCE_END.test(pending)) {
+        flush(buffer);
+        buffer = "";
+      }
+    };
     return {
       finish: async () => {
+        clearIdleFlush();
         if (buffer.trim()) {
           flush(buffer);
         }
@@ -7781,6 +7812,10 @@ var createVoiceSession = (options) => {
           flush(buffer.slice(0, cut));
           buffer = buffer.slice(cut);
         }
+        clearIdleFlush();
+        if (buffer.trim()) {
+          idleFlushTimer = setTimeout(flushOnIdle, STREAM_IDLE_FLUSH_MS);
+        }
       }
     };
   };

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@absolutejs/voice",
-  "version": "0.0.22-beta.596",
+  "version": "0.0.22-beta.598",
   "description": "Voice primitives and Elysia plugin for AbsoluteJS",
   "repository": {
     "type": "git",