npm - @absolutejs/voice - Versions diffs - 0.0.22-beta.597 → 0.0.22-beta.598 - Mend

@absolutejs/voice 0.0.22-beta.597 → 0.0.22-beta.598

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (4) hide show

package/dist/core/semanticTurn.d.ts +11 -1
package/dist/index.js +15 -2
package/dist/testing/index.js +15 -2
package/package.json +1 -1

package/dist/core/semanticTurn.d.ts CHANGED Viewed

@@ -1,10 +1,20 @@
-import type { Transcript } from "./types";
+import type { AudioFormat, Transcript } from "./types";
 export type VoiceSemanticTurnInput = {
     audioLevel?: number;
     lastFinalTranscript?: Transcript;
     partialText: string;
     silenceMs: number;
     transcripts: Transcript[];
+    /**
+     * The current turn's buffered user audio (PCM chunks, oldest→newest) and its
+     * format. Lets an AUDIO-based end-of-turn detector (e.g. a smart-turn / Whisper
+     * EOT model) judge completion from prosody — pitch, pace, trailing intonation —
+     * which a transcript-only judge fundamentally cannot see. Undefined when no
+     * audio was buffered for the turn (the runtime only stores chunks above the
+     * speech threshold).
+     */
+    turnAudio?: ReadonlyArray<Uint8Array>;
+    turnAudioFormat?: AudioFormat;
 };
 export type VoiceSemanticTurnVerdict = {
     confidence?: number;

package/dist/index.js CHANGED Viewed

@@ -4137,6 +4137,17 @@ var createVoiceSession = (options) => {
     pruneTurnAudio();
     return currentTurnAudio.map((audio) => audio.chunk);
   };
+  const turnAudioInputFormat = recordingConfig?.userInputFormat ?? options.realtimeInputFormat ?? DEFAULT_REALTIME_FORMAT;
+  const getTurnAudioForDetector = () => {
+    if (!options.semanticTurnDetector || currentTurnAudio.length === 0) {
+      return { turnAudio: undefined, turnAudioFormat: undefined };
+    }
+    const turnAudio = currentTurnAudio.map((audio) => {
+      const c = audio.chunk;
+      return c instanceof ArrayBuffer ? new Uint8Array(c) : new Uint8Array(c.buffer, c.byteOffset, c.byteLength);
+    });
+    return { turnAudio, turnAudioFormat: turnAudioInputFormat };
+  };
   const clearSilenceTimer = () => {
     if (!silenceTimer) {
       return;
@@ -4476,7 +4487,8 @@ var createVoiceSession = (options) => {
         lastFinalTranscript: transcripts.at(-1),
         partialText,
         silenceMs,
-        transcripts
+        transcripts,
+        ...getTurnAudioForDetector()
       }));
       endOfTurn = verdict.endOfTurn;
     } catch {
@@ -5261,7 +5273,8 @@ var createVoiceSession = (options) => {
         lastFinalTranscript: transcript,
         partialText: session.currentTurn.partialText,
         silenceMs: session.currentTurn.silenceStartedAt !== undefined ? Date.now() - session.currentTurn.silenceStartedAt : 0,
-        transcripts: session.currentTurn.transcripts
+        transcripts: session.currentTurn.transcripts,
+        ...getTurnAudioForDetector()
       }));
       if (verdict.endOfTurn) {
         clearSilenceTimer();

package/dist/testing/index.js CHANGED Viewed

@@ -6364,6 +6364,17 @@ var createVoiceSession = (options) => {
     pruneTurnAudio();
     return currentTurnAudio.map((audio) => audio.chunk);
   };
+  const turnAudioInputFormat = recordingConfig?.userInputFormat ?? options.realtimeInputFormat ?? DEFAULT_REALTIME_FORMAT;
+  const getTurnAudioForDetector = () => {
+    if (!options.semanticTurnDetector || currentTurnAudio.length === 0) {
+      return { turnAudio: undefined, turnAudioFormat: undefined };
+    }
+    const turnAudio = currentTurnAudio.map((audio) => {
+      const c = audio.chunk;
+      return c instanceof ArrayBuffer ? new Uint8Array(c) : new Uint8Array(c.buffer, c.byteOffset, c.byteLength);
+    });
+    return { turnAudio, turnAudioFormat: turnAudioInputFormat };
+  };
   const clearSilenceTimer = () => {
     if (!silenceTimer) {
       return;
@@ -6703,7 +6714,8 @@ var createVoiceSession = (options) => {
         lastFinalTranscript: transcripts.at(-1),
         partialText,
         silenceMs,
-        transcripts
+        transcripts,
+        ...getTurnAudioForDetector()
       }));
       endOfTurn = verdict.endOfTurn;
     } catch {
@@ -7488,7 +7500,8 @@ var createVoiceSession = (options) => {
         lastFinalTranscript: transcript,
         partialText: session.currentTurn.partialText,
         silenceMs: session.currentTurn.silenceStartedAt !== undefined ? Date.now() - session.currentTurn.silenceStartedAt : 0,
-        transcripts: session.currentTurn.transcripts
+        transcripts: session.currentTurn.transcripts,
+        ...getTurnAudioForDetector()
       }));
       if (verdict.endOfTurn) {
         clearSilenceTimer();

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@absolutejs/voice",
-  "version": "0.0.22-beta.597",
+  "version": "0.0.22-beta.598",
   "description": "Voice primitives and Elysia plugin for AbsoluteJS",
   "repository": {
     "type": "git",