npm - @absolutejs/voice - Versions diffs - 0.0.22-beta.580 → 0.0.22-beta.581 - Mend

@absolutejs/voice 0.0.22-beta.580 → 0.0.22-beta.581

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (3) hide show

package/dist/index.js CHANGED Viewed

@@ -3936,6 +3936,8 @@ var createVoiceSession = (options) => {
   let activeAdapterGeneration = 0;
   let activeTTSTurnId;
   let assistantSpeechEndsAt = 0;
+  let lastAssistantAudioAt = 0;
+  let lastTtsSendAt = 0;
   let fillerTimer = null;
   let fillerActive = false;
   let fillerToken = 0;
@@ -4209,6 +4211,15 @@ var createVoiceSession = (options) => {
     });
     return result;
   };
+  let assistantAudioQueue = Promise.resolve();
+  const runAudioSerial = (operation) => {
+    const next = assistantAudioQueue.then(operation);
+    assistantAudioQueue = next.then(() => {
+      return;
+    }, () => {
+      return;
+    });
+  };
   const closeAdapter = async (reason) => {
     if (!sttSession) {
       return;
@@ -4377,6 +4388,7 @@ var createVoiceSession = (options) => {
       const chunkMs = normalizedChunk.byteLength / bytesPerSecond * 1000;
       assistantSpeechEndsAt = Math.max(assistantSpeechEndsAt, Date.now()) + chunkMs;
     }
+    lastAssistantAudioAt = Date.now();
     if (activeTTSTurnId) {
       await appendTurnLatencyStage({
         at: input.receivedAt,
@@ -4486,18 +4498,28 @@ var createVoiceSession = (options) => {
       session
     });
   };
-  const DRAIN_POLL_MS = 200;
+  const DRAIN_POLL_MS = 100;
   const DRAIN_TAIL_BUFFER_MS = 300;
-  const DRAIN_MAX_MS = 12000;
-  const drainAssistantSpeech = async () => {
+  const DRAIN_QUIET_MS = 600;
+  const DRAIN_RENDER_START_MS = 4000;
+  const DRAIN_MAX_MS = 20000;
+  const drainAssistantSpeech = async (renderPendingSince) => {
     const startedAt = Date.now();
+    const sleep3 = (delayMs) => new Promise((resolve) => {
+      setTimeout(resolve, delayMs);
+    });
     while (Date.now() - startedAt < DRAIN_MAX_MS) {
-      const remaining = assistantSpeechEndsAt + DRAIN_TAIL_BUFFER_MS - Date.now();
-      if (remaining <= 0)
+      const now = Date.now();
+      const renderStarted = lastAssistantAudioAt >= renderPendingSince || now - renderPendingSince >= DRAIN_RENDER_START_MS;
+      if (!renderStarted) {
+        await sleep3(DRAIN_POLL_MS);
+        continue;
+      }
+      const streamQuiet = now - lastAssistantAudioAt >= DRAIN_QUIET_MS;
+      const playbackDrained = assistantSpeechEndsAt + DRAIN_TAIL_BUFFER_MS <= now;
+      if (streamQuiet && playbackDrained)
         return;
-      await new Promise((resolve) => {
-        setTimeout(resolve, Math.min(remaining, DRAIN_POLL_MS));
-      });
+      await sleep3(DRAIN_POLL_MS);
     }
   };
   const completeInternal = async (result, input = {}) => {
@@ -4534,7 +4556,8 @@ var createVoiceSession = (options) => {
       return;
     }
     if (disposition === "completed") {
-      await drainAssistantSpeech();
+      await drainAssistantSpeech(lastTtsSendAt);
+      await assistantAudioQueue;
     }
     await appendTrace({
       payload: {
@@ -5204,7 +5227,10 @@ var createVoiceSession = (options) => {
     });
     if (options.realtime) {
       openedSession.on("audio", ({ chunk, format, receivedAt }) => {
-        runAdapterEvent("adapter.audio", async () => {
+        runAudioSerial(async () => {
+          if (activeAdapterGeneration !== generation) {
+            return;
+          }
           await sendAssistantAudio(chunk, {
             format,
             receivedAt
@@ -5233,7 +5259,7 @@ var createVoiceSession = (options) => {
       });
       ttsSession = openedSession;
       openedSession.on("audio", ({ chunk, format, receivedAt }) => {
-        runSerial("tts.audio", async () => {
+        runAudioSerial(async () => {
           if (ttsSession !== openedSession) {
             return;
           }
@@ -5361,6 +5387,7 @@ var createVoiceSession = (options) => {
         try {
           await ttsSession2.send(text);
           charsSent += text.length;
+          lastTtsSendAt = Date.now();
         } catch (error) {
           logger.warn("voice assistant audio send failed", {
             error: toError(error).message,
@@ -5643,6 +5670,7 @@ var createVoiceSession = (options) => {
             turnId: turn.id
           });
           await activeTTSSession.send(output.assistantText);
+          lastTtsSendAt = Date.now();
           if (options.costAccountant) {
             options.costAccountant.recordTTS({
               characters: output.assistantText.length
@@ -6067,10 +6095,12 @@ var createVoiceSession = (options) => {
         if (greetingTTSSession) {
           activeTTSTurnId = greetingTurnId;
           await greetingTTSSession.send(greetingText);
+          lastTtsSendAt = Date.now();
         } else if (options.realtime) {
           const greetingRealtimeSession = await ensureAdapter();
           activeTTSTurnId = greetingTurnId;
           await greetingRealtimeSession.send(greetingText);
+          lastTtsSendAt = Date.now();
         }
       } catch {}
     }

package/dist/testing/index.js CHANGED Viewed

@@ -6053,6 +6053,8 @@ var createVoiceSession = (options) => {
   let activeAdapterGeneration = 0;
   let activeTTSTurnId;
   let assistantSpeechEndsAt = 0;
+  let lastAssistantAudioAt = 0;
+  let lastTtsSendAt = 0;
   let fillerTimer = null;
   let fillerActive = false;
   let fillerToken = 0;
@@ -6326,6 +6328,15 @@ var createVoiceSession = (options) => {
     });
     return result;
   };
+  let assistantAudioQueue = Promise.resolve();
+  const runAudioSerial = (operation) => {
+    const next = assistantAudioQueue.then(operation);
+    assistantAudioQueue = next.then(() => {
+      return;
+    }, () => {
+      return;
+    });
+  };
   const closeAdapter = async (reason) => {
     if (!sttSession) {
       return;
@@ -6494,6 +6505,7 @@ var createVoiceSession = (options) => {
       const chunkMs = normalizedChunk.byteLength / bytesPerSecond * 1000;
       assistantSpeechEndsAt = Math.max(assistantSpeechEndsAt, Date.now()) + chunkMs;
     }
+    lastAssistantAudioAt = Date.now();
     if (activeTTSTurnId) {
       await appendTurnLatencyStage({
         at: input.receivedAt,
@@ -6603,18 +6615,28 @@ var createVoiceSession = (options) => {
       session
     });
   };
-  const DRAIN_POLL_MS = 200;
+  const DRAIN_POLL_MS = 100;
   const DRAIN_TAIL_BUFFER_MS = 300;
-  const DRAIN_MAX_MS = 12000;
-  const drainAssistantSpeech = async () => {
+  const DRAIN_QUIET_MS = 600;
+  const DRAIN_RENDER_START_MS = 4000;
+  const DRAIN_MAX_MS = 20000;
+  const drainAssistantSpeech = async (renderPendingSince) => {
     const startedAt = Date.now();
+    const sleep2 = (delayMs) => new Promise((resolve2) => {
+      setTimeout(resolve2, delayMs);
+    });
     while (Date.now() - startedAt < DRAIN_MAX_MS) {
-      const remaining = assistantSpeechEndsAt + DRAIN_TAIL_BUFFER_MS - Date.now();
-      if (remaining <= 0)
+      const now = Date.now();
+      const renderStarted = lastAssistantAudioAt >= renderPendingSince || now - renderPendingSince >= DRAIN_RENDER_START_MS;
+      if (!renderStarted) {
+        await sleep2(DRAIN_POLL_MS);
+        continue;
+      }
+      const streamQuiet = now - lastAssistantAudioAt >= DRAIN_QUIET_MS;
+      const playbackDrained = assistantSpeechEndsAt + DRAIN_TAIL_BUFFER_MS <= now;
+      if (streamQuiet && playbackDrained)
         return;
-      await new Promise((resolve2) => {
-        setTimeout(resolve2, Math.min(remaining, DRAIN_POLL_MS));
-      });
+      await sleep2(DRAIN_POLL_MS);
     }
   };
   const completeInternal = async (result, input = {}) => {
@@ -6651,7 +6673,8 @@ var createVoiceSession = (options) => {
       return;
     }
     if (disposition === "completed") {
-      await drainAssistantSpeech();
+      await drainAssistantSpeech(lastTtsSendAt);
+      await assistantAudioQueue;
     }
     await appendTrace({
       payload: {
@@ -7321,7 +7344,10 @@ var createVoiceSession = (options) => {
     });
     if (options.realtime) {
       openedSession.on("audio", ({ chunk, format, receivedAt }) => {
-        runAdapterEvent("adapter.audio", async () => {
+        runAudioSerial(async () => {
+          if (activeAdapterGeneration !== generation) {
+            return;
+          }
           await sendAssistantAudio(chunk, {
             format,
             receivedAt
@@ -7350,7 +7376,7 @@ var createVoiceSession = (options) => {
       });
       ttsSession = openedSession;
       openedSession.on("audio", ({ chunk, format, receivedAt }) => {
-        runSerial("tts.audio", async () => {
+        runAudioSerial(async () => {
           if (ttsSession !== openedSession) {
             return;
           }
@@ -7478,6 +7504,7 @@ var createVoiceSession = (options) => {
         try {
           await ttsSession2.send(text);
           charsSent += text.length;
+          lastTtsSendAt = Date.now();
         } catch (error) {
           logger.warn("voice assistant audio send failed", {
             error: toError(error).message,
@@ -7760,6 +7787,7 @@ var createVoiceSession = (options) => {
             turnId: turn.id
           });
           await activeTTSSession.send(output.assistantText);
+          lastTtsSendAt = Date.now();
           if (options.costAccountant) {
             options.costAccountant.recordTTS({
               characters: output.assistantText.length
@@ -8184,10 +8212,12 @@ var createVoiceSession = (options) => {
         if (greetingTTSSession) {
           activeTTSTurnId = greetingTurnId;
           await greetingTTSSession.send(greetingText);
+          lastTtsSendAt = Date.now();
         } else if (options.realtime) {
           const greetingRealtimeSession = await ensureAdapter();
           activeTTSTurnId = greetingTurnId;
           await greetingRealtimeSession.send(greetingText);
+          lastTtsSendAt = Date.now();
         }
       } catch {}
     }

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@absolutejs/voice",
-  "version": "0.0.22-beta.580",
+  "version": "0.0.22-beta.581",
   "description": "Voice primitives and Elysia plugin for AbsoluteJS",
   "repository": {
     "type": "git",