npm - @absolutejs/voice - Versions diffs - 0.0.14 → 0.0.16 - Mend

@absolutejs/voice 0.0.14 → 0.0.16

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

package/dist/angular/index.js CHANGED Viewed

@@ -379,7 +379,7 @@ var createVoiceStreamStore = () => {
       case "final":
         state = {
           ...state,
-          partial: "",
+          partial: action.transcript.text,
           turns: state.turns.map((turn) => turn)
         };
         break;

package/dist/client/index.js CHANGED Viewed

@@ -375,7 +375,7 @@ var createVoiceStreamStore = () => {
       case "final":
         state = {
           ...state,
-          partial: "",
+          partial: action.transcript.text,
           turns: state.turns.map((turn) => turn)
         };
         break;

package/dist/index.js CHANGED Viewed

@@ -236,12 +236,59 @@ var toVoiceSessionSummary = (session) => ({
 // src/turnDetection.ts
 var DEFAULT_SILENCE_MS = 700;
+var DEFAULT_SPEECH_THRESHOLD = 0.015;
+var toUint8Array = (audio) => {
+  if (audio instanceof ArrayBuffer) {
+    return new Uint8Array(audio);
+  }
+  return new Uint8Array(audio.buffer, audio.byteOffset, audio.byteLength);
+};
+var measureAudioLevel = (audio) => {
+  const bytes = toUint8Array(audio);
+  if (bytes.byteLength < 2) {
+    return 0;
+  }
+  const samples = new Int16Array(bytes.buffer, bytes.byteOffset, Math.floor(bytes.byteLength / 2));
+  if (samples.length === 0) {
+    return 0;
+  }
+  let sumSquares = 0;
+  for (const sample of samples) {
+    const normalized = sample / 32768;
+    sumSquares += normalized * normalized;
+  }
+  return Math.sqrt(sumSquares / samples.length);
+};
+var normalizeText = (value) => value.trim().replace(/\s+/g, " ");
+var mergeTranscriptTexts = (transcripts) => {
+  const merged = [];
+  for (const transcript of transcripts) {
+    const nextText = normalizeText(transcript.text);
+    if (!nextText) {
+      continue;
+    }
+    const previous = merged.at(-1);
+    if (!previous) {
+      merged.push(nextText);
+      continue;
+    }
+    if (nextText === previous || previous.includes(nextText)) {
+      continue;
+    }
+    if (nextText.includes(previous)) {
+      merged[merged.length - 1] = nextText;
+      continue;
+    }
+    merged.push(nextText);
+  }
+  return merged.join(" ").trim();
+};
 var buildTurnText = (transcripts, partialText) => {
-  const finalText = transcripts.map((transcript) => transcript.text.trim()).filter(Boolean).join(" ").trim();
+  const finalText = mergeTranscriptTexts(transcripts);
   if (finalText) {
     return finalText;
   }
-  return partialText.trim();
+  return normalizeText(partialText);
 };
 // src/session.ts
@@ -269,11 +316,13 @@ var createVoiceSession = (options) => {
     timeout: options.reconnect.timeout ?? DEFAULT_RECONNECT_TIMEOUT
   };
   const turnDetection = {
-    silenceMs: options.turnDetection.silenceMs ?? DEFAULT_SILENCE_MS
+    silenceMs: options.turnDetection.silenceMs ?? DEFAULT_SILENCE_MS,
+    speechThreshold: options.turnDetection.speechThreshold ?? DEFAULT_SPEECH_THRESHOLD
   };
   let socket = options.socket;
   let sttSession = null;
   let silenceTimer = null;
+  let speechDetected = false;
   const clearSilenceTimer = () => {
     if (!silenceTimer) {
       return;
@@ -315,7 +364,9 @@ var createVoiceSession = (options) => {
     }
   };
   const scheduleSilenceCommit = () => {
-    clearSilenceTimer();
+    if (silenceTimer) {
+      return;
+    }
     silenceTimer = setTimeout(() => {
       api.commitTurn("silence");
     }, turnDetection.silenceMs);
@@ -338,7 +389,7 @@ var createVoiceSession = (options) => {
   const handlePartial = async (transcript) => {
     await writeSession((session) => {
       session.currentTurn.lastAudioAt = Date.now();
-      session.currentTurn.partialText = transcript.text;
+      session.currentTurn.partialText = buildTurnText(session.currentTurn.transcripts, transcript.text);
       session.lastActivityAt = Date.now();
       session.status = "active";
     });
@@ -346,7 +397,6 @@ var createVoiceSession = (options) => {
       transcript,
       type: "partial"
     });
-    scheduleSilenceCommit();
   };
   const handleFinal = async (transcript) => {
     await writeSession((session) => {
@@ -370,7 +420,6 @@ var createVoiceSession = (options) => {
       transcript,
       type: "final"
     });
-    scheduleSilenceCommit();
   };
   const ensureAdapter = async () => {
     if (sttSession) {
@@ -472,6 +521,7 @@ var createVoiceSession = (options) => {
         currentSession.status = "active";
         currentSession.turns = [...currentSession.turns, turn];
       });
+      speechDetected = false;
       logger.info("voice turn committed", {
         reason,
         sessionId: options.id,
@@ -505,6 +555,7 @@ var createVoiceSession = (options) => {
         type: "complete"
       });
       await closeAdapter("complete");
+      speechDetected = false;
       await options.route.onComplete({
         api,
         context: options.context,
@@ -575,6 +626,7 @@ var createVoiceSession = (options) => {
         session.reconnect.lastDisconnectAt = Date.now();
         session.status = "reconnecting";
       });
+      speechDetected = false;
     },
     fail: async (error) => {
       clearSilenceTimer();
@@ -589,6 +641,7 @@ var createVoiceSession = (options) => {
         type: "error"
       });
       await closeAdapter("failed");
+      speechDetected = false;
       await options.route.onError?.({
         api,
         context: options.context,
@@ -603,11 +656,22 @@ var createVoiceSession = (options) => {
         return;
       }
       const adapter = await ensureAdapter();
+      const audioLevel = measureAudioLevel(audio);
       await writeSession((currentSession) => {
         currentSession.currentTurn.lastAudioAt = Date.now();
         currentSession.lastActivityAt = Date.now();
         currentSession.status = "active";
       });
+      if (audioLevel >= turnDetection.speechThreshold) {
+        speechDetected = true;
+        clearSilenceTimer();
+      } else if (speechDetected) {
+        const currentSession = await readSession();
+        const hasTurnText = Boolean(buildTurnText(currentSession.currentTurn.transcripts, currentSession.currentTurn.partialText));
+        if (hasTurnText) {
+          scheduleSilenceCommit();
+        }
+      }
       await adapter.send(audio);
     },
     snapshot: async () => readSession()
@@ -776,7 +840,8 @@ var voice = (config) => {
         store: config.session,
         stt: config.stt,
         turnDetection: {
-          silenceMs: config.turnDetection?.silenceMs ?? 700
+          silenceMs: config.turnDetection?.silenceMs ?? 700,
+          speechThreshold: config.turnDetection?.speechThreshold ?? 0.015
         }
       });
       if (!current) {
@@ -811,7 +876,8 @@ var voice = (config) => {
         store: config.session,
         stt: config.stt,
         turnDetection: {
-          silenceMs: config.turnDetection?.silenceMs ?? 700
+          silenceMs: config.turnDetection?.silenceMs ?? 700,
+          speechThreshold: config.turnDetection?.speechThreshold ?? 0.015
         }
       });
       runtime.activeSessions.set(sessionId, session);

package/dist/react/index.js CHANGED Viewed

@@ -379,7 +379,7 @@ var createVoiceStreamStore = () => {
       case "final":
         state = {
           ...state,
-          partial: "",
+          partial: action.transcript.text,
           turns: state.turns.map((turn) => turn)
         };
         break;

package/dist/svelte/index.js CHANGED Viewed

@@ -376,7 +376,7 @@ var createVoiceStreamStore = () => {
       case "final":
         state = {
           ...state,
-          partial: "",
+          partial: action.transcript.text,
           turns: state.turns.map((turn) => turn)
         };
         break;

package/dist/turnDetection.d.ts CHANGED Viewed

@@ -1,3 +1,5 @@
-import type { Transcript } from './types';
+import type { AudioChunk, Transcript } from './types';
 export declare const DEFAULT_SILENCE_MS = 700;
+export declare const DEFAULT_SPEECH_THRESHOLD = 0.015;
+export declare const measureAudioLevel: (audio: AudioChunk) => number;
 export declare const buildTurnText: (transcripts: Transcript[], partialText: string) => string;

package/dist/types.d.ts CHANGED Viewed

@@ -211,6 +211,7 @@ export type VoicePluginConfig<TContext = unknown, TSession extends VoiceSessionR
     reconnect?: VoiceReconnectConfig;
     turnDetection?: {
         silenceMs?: number;
+        speechThreshold?: number;
     };
     logger?: VoiceLogger;
     htmx?: boolean | VoiceHTMXConfig<TSession, NoInfer<TResult>>;
@@ -224,6 +225,7 @@ export type CreateVoiceSessionOptions<TContext = unknown, TSession extends Voice
     reconnect: Required<VoiceReconnectConfig>;
     turnDetection: {
         silenceMs: number;
+        speechThreshold: number;
     };
     route: VoiceNormalizedRouteConfig<TContext, TSession, TResult>;
     logger?: VoiceLogger;

package/dist/vue/index.js CHANGED Viewed

@@ -379,7 +379,7 @@ var createVoiceStreamStore = () => {
       case "final":
         state = {
           ...state,
-          partial: "",
+          partial: action.transcript.text,
           turns: state.turns.map((turn) => turn)
         };
         break;

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
 	"name": "@absolutejs/voice",
-	"version": "0.0.14",
+	"version": "0.0.16",
 	"description": "Voice primitives and Elysia plugin for AbsoluteJS",
 	"repository": {
 		"type": "git",