npm - @livekit/agents - Versions diffs - 1.0.24 → 1.0.27 - Mend

@livekit/agents 1.0.24 → 1.0.27

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (184) hide show

package/dist/inference/llm.cjs +1 -2
package/dist/inference/llm.cjs.map +1 -1
package/dist/inference/llm.d.ts.map +1 -1
package/dist/inference/llm.js +1 -2
package/dist/inference/llm.js.map +1 -1
package/dist/inference/stt.cjs +1 -1
package/dist/inference/stt.cjs.map +1 -1
package/dist/inference/stt.d.ts.map +1 -1
package/dist/inference/stt.js +1 -1
package/dist/inference/stt.js.map +1 -1
package/dist/inference/tts.cjs +4 -4
package/dist/inference/tts.cjs.map +1 -1
package/dist/inference/tts.d.cts +0 -1
package/dist/inference/tts.d.ts +0 -1
package/dist/inference/tts.d.ts.map +1 -1
package/dist/inference/tts.js +4 -4
package/dist/inference/tts.js.map +1 -1
package/dist/ipc/job_proc_lazy_main.cjs +1 -1
package/dist/ipc/job_proc_lazy_main.cjs.map +1 -1
package/dist/ipc/job_proc_lazy_main.js +1 -1
package/dist/ipc/job_proc_lazy_main.js.map +1 -1
package/dist/job.cjs +29 -2
package/dist/job.cjs.map +1 -1
package/dist/job.d.cts +6 -0
package/dist/job.d.ts +6 -0
package/dist/job.d.ts.map +1 -1
package/dist/job.js +19 -2
package/dist/job.js.map +1 -1
package/dist/llm/llm.cjs +2 -1
package/dist/llm/llm.cjs.map +1 -1
package/dist/llm/llm.d.cts +1 -1
package/dist/llm/llm.d.ts +1 -1
package/dist/llm/llm.d.ts.map +1 -1
package/dist/llm/llm.js +2 -1
package/dist/llm/llm.js.map +1 -1
package/dist/stream/deferred_stream.cjs +12 -4
package/dist/stream/deferred_stream.cjs.map +1 -1
package/dist/stream/deferred_stream.d.cts +6 -1
package/dist/stream/deferred_stream.d.ts +6 -1
package/dist/stream/deferred_stream.d.ts.map +1 -1
package/dist/stream/deferred_stream.js +12 -4
package/dist/stream/deferred_stream.js.map +1 -1
package/dist/stream/deferred_stream.test.cjs +2 -2
package/dist/stream/deferred_stream.test.cjs.map +1 -1
package/dist/stream/deferred_stream.test.js +2 -2
package/dist/stream/deferred_stream.test.js.map +1 -1
package/dist/stt/stream_adapter.cjs +15 -8
package/dist/stt/stream_adapter.cjs.map +1 -1
package/dist/stt/stream_adapter.d.cts +7 -3
package/dist/stt/stream_adapter.d.ts +7 -3
package/dist/stt/stream_adapter.d.ts.map +1 -1
package/dist/stt/stream_adapter.js +15 -8
package/dist/stt/stream_adapter.js.map +1 -1
package/dist/stt/stt.cjs +8 -3
package/dist/stt/stt.cjs.map +1 -1
package/dist/stt/stt.d.cts +9 -3
package/dist/stt/stt.d.ts +9 -3
package/dist/stt/stt.d.ts.map +1 -1
package/dist/stt/stt.js +9 -4
package/dist/stt/stt.js.map +1 -1
package/dist/telemetry/traces.cjs +23 -2
package/dist/telemetry/traces.cjs.map +1 -1
package/dist/telemetry/traces.d.ts.map +1 -1
package/dist/telemetry/traces.js +23 -2
package/dist/telemetry/traces.js.map +1 -1
package/dist/tts/stream_adapter.cjs +10 -7
package/dist/tts/stream_adapter.cjs.map +1 -1
package/dist/tts/stream_adapter.d.cts +6 -3
package/dist/tts/stream_adapter.d.ts +6 -3
package/dist/tts/stream_adapter.d.ts.map +1 -1
package/dist/tts/stream_adapter.js +10 -7
package/dist/tts/stream_adapter.js.map +1 -1
package/dist/tts/tts.cjs +27 -16
package/dist/tts/tts.cjs.map +1 -1
package/dist/tts/tts.d.cts +12 -5
package/dist/tts/tts.d.ts +12 -5
package/dist/tts/tts.d.ts.map +1 -1
package/dist/tts/tts.js +28 -17
package/dist/tts/tts.js.map +1 -1
package/dist/types.cjs +21 -32
package/dist/types.cjs.map +1 -1
package/dist/types.d.cts +41 -10
package/dist/types.d.ts +41 -10
package/dist/types.d.ts.map +1 -1
package/dist/types.js +18 -30
package/dist/types.js.map +1 -1
package/dist/voice/agent.cjs +54 -19
package/dist/voice/agent.cjs.map +1 -1
package/dist/voice/agent.d.ts.map +1 -1
package/dist/voice/agent.js +54 -19
package/dist/voice/agent.js.map +1 -1
package/dist/voice/agent_activity.cjs +0 -3
package/dist/voice/agent_activity.cjs.map +1 -1
package/dist/voice/agent_activity.d.ts.map +1 -1
package/dist/voice/agent_activity.js +0 -3
package/dist/voice/agent_activity.js.map +1 -1
package/dist/voice/agent_session.cjs +107 -27
package/dist/voice/agent_session.cjs.map +1 -1
package/dist/voice/agent_session.d.cts +16 -2
package/dist/voice/agent_session.d.ts +16 -2
package/dist/voice/agent_session.d.ts.map +1 -1
package/dist/voice/agent_session.js +110 -27
package/dist/voice/agent_session.js.map +1 -1
package/dist/voice/events.cjs.map +1 -1
package/dist/voice/events.d.cts +4 -4
package/dist/voice/events.d.ts +4 -4
package/dist/voice/events.d.ts.map +1 -1
package/dist/voice/events.js.map +1 -1
package/dist/voice/generation.cjs +6 -7
package/dist/voice/generation.cjs.map +1 -1
package/dist/voice/generation.d.ts.map +1 -1
package/dist/voice/generation.js +7 -8
package/dist/voice/generation.js.map +1 -1
package/dist/voice/io.cjs +16 -0
package/dist/voice/io.cjs.map +1 -1
package/dist/voice/io.d.cts +8 -0
package/dist/voice/io.d.ts +8 -0
package/dist/voice/io.d.ts.map +1 -1
package/dist/voice/io.js +16 -0
package/dist/voice/io.js.map +1 -1
package/dist/voice/recorder_io/index.cjs +23 -0
package/dist/voice/recorder_io/index.cjs.map +1 -0
package/dist/voice/recorder_io/index.d.cts +2 -0
package/dist/voice/recorder_io/index.d.ts +2 -0
package/dist/voice/recorder_io/index.d.ts.map +1 -0
package/dist/voice/recorder_io/index.js +2 -0
package/dist/voice/recorder_io/index.js.map +1 -0
package/dist/voice/recorder_io/recorder_io.cjs +542 -0
package/dist/voice/recorder_io/recorder_io.cjs.map +1 -0
package/dist/voice/recorder_io/recorder_io.d.cts +100 -0
package/dist/voice/recorder_io/recorder_io.d.ts +100 -0
package/dist/voice/recorder_io/recorder_io.d.ts.map +1 -0
package/dist/voice/recorder_io/recorder_io.js +508 -0
package/dist/voice/recorder_io/recorder_io.js.map +1 -0
package/dist/voice/report.cjs +7 -2
package/dist/voice/report.cjs.map +1 -1
package/dist/voice/report.d.cts +11 -1
package/dist/voice/report.d.ts +11 -1
package/dist/voice/report.d.ts.map +1 -1
package/dist/voice/report.js +7 -2
package/dist/voice/report.js.map +1 -1
package/dist/voice/room_io/_input.cjs +2 -1
package/dist/voice/room_io/_input.cjs.map +1 -1
package/dist/voice/room_io/_input.d.ts.map +1 -1
package/dist/voice/room_io/_input.js +2 -1
package/dist/voice/room_io/_input.js.map +1 -1
package/dist/voice/room_io/_output.cjs +8 -7
package/dist/voice/room_io/_output.cjs.map +1 -1
package/dist/voice/room_io/_output.d.cts +2 -1
package/dist/voice/room_io/_output.d.ts +2 -1
package/dist/voice/room_io/_output.d.ts.map +1 -1
package/dist/voice/room_io/_output.js +8 -7
package/dist/voice/room_io/_output.js.map +1 -1
package/dist/worker.cjs +4 -3
package/dist/worker.cjs.map +1 -1
package/dist/worker.js +4 -3
package/dist/worker.js.map +1 -1
package/package.json +1 -1
package/src/inference/llm.ts +0 -1
package/src/inference/stt.ts +1 -2
package/src/inference/tts.ts +5 -4
package/src/ipc/job_proc_lazy_main.ts +1 -1
package/src/job.ts +21 -2
package/src/llm/llm.ts +2 -2
package/src/stream/deferred_stream.test.ts +3 -3
package/src/stream/deferred_stream.ts +22 -5
package/src/stt/stream_adapter.ts +18 -8
package/src/stt/stt.ts +19 -6
package/src/telemetry/traces.ts +25 -3
package/src/tts/stream_adapter.ts +15 -7
package/src/tts/tts.ts +46 -21
package/src/types.ts +57 -33
package/src/voice/agent.ts +59 -19
package/src/voice/agent_activity.ts +0 -3
package/src/voice/agent_session.ts +142 -35
package/src/voice/events.ts +6 -3
package/src/voice/generation.ts +10 -8
package/src/voice/io.ts +19 -0
package/src/voice/recorder_io/index.ts +4 -0
package/src/voice/recorder_io/recorder_io.ts +690 -0
package/src/voice/report.ts +20 -3
package/src/voice/room_io/_input.ts +2 -1
package/src/voice/room_io/_output.ts +10 -7
package/src/worker.ts +1 -1

package/src/voice/agent.ts CHANGED Viewed

@@ -260,27 +260,41 @@ export class Agent<UserData = any> {
       let wrapped_stt = activity.stt;
       if (!wrapped_stt.capabilities.streaming) {
-        if (!agent.vad) {
+        const vad = agent.vad || activity.vad;
+        if (!vad) {
           throw new Error(
             'STT does not support streaming, add a VAD to the AgentTask/VoiceAgent to enable streaming',
           );
         }
-        wrapped_stt = new STTStreamAdapter(wrapped_stt, agent.vad);
+        wrapped_stt = new STTStreamAdapter(wrapped_stt, vad);
       }
-      const stream = wrapped_stt.stream();
+      const connOptions = activity.agentSession.connOptions.sttConnOptions;
+      const stream = wrapped_stt.stream({ connOptions });
       stream.updateInputStream(audio);
+      let cleaned = false;
+      const cleanup = () => {
+        if (cleaned) return;
+        cleaned = true;
+        stream.detachInputStream();
+        stream.close();
+      };
       return new ReadableStream({
         async start(controller) {
-          for await (const event of stream) {
-            controller.enqueue(event);
+          try {
+            for await (const event of stream) {
+              controller.enqueue(event);
+            }
+            controller.close();
+          } finally {
+            // Always clean up the STT stream, whether it ends naturally or is cancelled
+            cleanup();
           }
-          controller.close();
         },
         cancel() {
-          stream.detachInputStream();
-          stream.close();
+          cleanup();
         },
       });
     },
@@ -304,22 +318,36 @@ export class Agent<UserData = any> {
       // TODO(brian): make parallelToolCalls configurable
       const { toolChoice } = modelSettings;
+      const connOptions = activity.agentSession.connOptions.llmConnOptions;
       const stream = activity.llm.chat({
         chatCtx,
         toolCtx,
         toolChoice,
+        connOptions,
         parallelToolCalls: true,
       });
+      let cleaned = false;
+      const cleanup = () => {
+        if (cleaned) return;
+        cleaned = true;
+        stream.close();
+      };
       return new ReadableStream({
         async start(controller) {
-          for await (const chunk of stream) {
-            controller.enqueue(chunk);
+          try {
+            for await (const chunk of stream) {
+              controller.enqueue(chunk);
+            }
+            controller.close();
+          } finally {
+            cleanup();
           }
-          controller.close();
         },
         cancel() {
-          stream.close();
+          cleanup();
         },
       });
     },
@@ -340,21 +368,33 @@ export class Agent<UserData = any> {
         wrapped_tts = new TTSStreamAdapter(wrapped_tts, new BasicSentenceTokenizer());
       }
-      const stream = wrapped_tts.stream();
+      const connOptions = activity.agentSession.connOptions.ttsConnOptions;
+      const stream = wrapped_tts.stream({ connOptions });
       stream.updateInputStream(text);
+      let cleaned = false;
+      const cleanup = () => {
+        if (cleaned) return;
+        cleaned = true;
+        stream.close();
+      };
       return new ReadableStream({
         async start(controller) {
-          for await (const chunk of stream) {
-            if (chunk === SynthesizeStream.END_OF_STREAM) {
-              break;
+          try {
+            for await (const chunk of stream) {
+              if (chunk === SynthesizeStream.END_OF_STREAM) {
+                break;
+              }
+              controller.enqueue(chunk.frame);
             }
-            controller.enqueue(chunk.frame);
+            controller.close();
+          } finally {
+            cleanup();
           }
-          controller.close();
         },
         cancel() {
-          stream.close();
+          cleanup();
         },
       });
     },

package/src/voice/agent_activity.ts CHANGED Viewed

@@ -2259,15 +2259,12 @@ export class AgentActivity implements RecognitionHooks {
       }
       if (this.stt instanceof STT) {
         this.stt.off('metrics_collected', this.onMetricsCollected);
-        await this.stt.close();
       }
       if (this.tts instanceof TTS) {
         this.tts.off('metrics_collected', this.onMetricsCollected);
-        await this.tts.close();
       }
       if (this.vad instanceof VAD) {
         this.vad.off('metrics_collected', this.onMetricsCollected);
-        await this.vad.close();
       }
       this.detachAudioInput();

package/src/voice/agent_session.ts CHANGED Viewed

@@ -15,7 +15,7 @@ import {
   type STTModelString,
   type TTSModelString,
 } from '../inference/index.js';
-import { getJobContext } from '../job.js';
+import { type JobContext, getJobContext } from '../job.js';
 import type { FunctionCall, FunctionCallOutput } from '../llm/chat_context.js';
 import { AgentHandoffItem, ChatContext, ChatMessage } from '../llm/chat_context.js';
 import type { LLM, RealtimeModel, RealtimeModelError, ToolChoice } from '../llm/index.js';
@@ -25,6 +25,12 @@ import type { STT } from '../stt/index.js';
 import type { STTError } from '../stt/stt.js';
 import { traceTypes, tracer } from '../telemetry/index.js';
 import type { TTS, TTSError } from '../tts/tts.js';
+import {
+  DEFAULT_API_CONNECT_OPTIONS,
+  DEFAULT_SESSION_CONNECT_OPTIONS,
+  type ResolvedSessionConnectOptions,
+  type SessionConnectOptions,
+} from '../types.js';
 import type { VAD } from '../vad.js';
 import type { Agent } from './agent.js';
 import { AgentActivity } from './agent_activity.js';
@@ -40,6 +46,7 @@ import {
   type ErrorEvent,
   type FunctionToolsExecutedEvent,
   type MetricsCollectedEvent,
+  type ShutdownReason,
   type SpeechCreatedEvent,
   type UserInputTranscribedEvent,
   type UserState,
@@ -50,6 +57,7 @@ import {
   createUserStateChangedEvent,
 } from './events.js';
 import { AgentInput, AgentOutput } from './io.js';
+import { RecorderIO } from './recorder_io/index.js';
 import { RoomIO, type RoomInputOptions, type RoomOutputOptions } from './room_io/index.js';
 import type { UnknownUserData } from './run_context.js';
 import type { SpeechHandle } from './speech_handle.js';
@@ -100,6 +108,7 @@ export type AgentSessionOptions<UserData = UnknownUserData> = {
   tts?: TTS | TTSModelString;
   userData?: UserData;
   voiceOptions?: Partial<VoiceOptions>;
+  connOptions?: SessionConnectOptions;
 };
 export class AgentSession<
@@ -132,10 +141,20 @@ export class AgentSession<
   private closingTask: Promise<void> | null = null;
   private userAwayTimer: NodeJS.Timeout | null = null;
+  // Connection options for STT, LLM, and TTS
+  private _connOptions: ResolvedSessionConnectOptions;
+  // Unrecoverable error counts, reset after agent speaking
+  private llmErrorCounts = 0;
+  private ttsErrorCounts = 0;
   private sessionSpan?: Span;
   private userSpeakingSpan?: Span;
   private agentSpeakingSpan?: Span;
+  /** @internal */
+  _recorderIO?: RecorderIO;
   /** @internal */
   rootSpanContext?: Context;
@@ -159,8 +178,19 @@ export class AgentSession<
       turnDetection,
       userData,
       voiceOptions = defaultVoiceOptions,
+      connOptions,
     } = opts;
+    // Merge user-provided connOptions with defaults
+    this._connOptions = {
+      sttConnOptions: { ...DEFAULT_API_CONNECT_OPTIONS, ...connOptions?.sttConnOptions },
+      llmConnOptions: { ...DEFAULT_API_CONNECT_OPTIONS, ...connOptions?.llmConnOptions },
+      ttsConnOptions: { ...DEFAULT_API_CONNECT_OPTIONS, ...connOptions?.ttsConnOptions },
+      maxUnrecoverableErrors:
+        connOptions?.maxUnrecoverableErrors ??
+        DEFAULT_SESSION_CONNECT_OPTIONS.maxUnrecoverableErrors,
+    };
     this.vad = vad;
     if (typeof stt === 'string') {
@@ -225,6 +255,11 @@ export class AgentSession<
     return this._chatCtx;
   }
+  /** Connection options for STT, LLM, and TTS. */
+  get connOptions(): ResolvedSessionConnectOptions {
+    return this._connOptions;
+  }
   set userData(value: UserData) {
     this._userData = value;
   }
@@ -234,14 +269,12 @@ export class AgentSession<
     room,
     inputOptions,
     outputOptions,
-    record,
     span,
   }: {
     agent: Agent;
     room: Room;
     inputOptions?: Partial<RoomInputOptions>;
     outputOptions?: Partial<RoomOutputOptions>;
-    record: boolean;
     span: Span;
   }): Promise<void> {
     span.setAttribute(traceTypes.ATTR_AGENT_LABEL, agent.id);
@@ -275,20 +308,39 @@ export class AgentSession<
     });
     this.roomIO.start();
-    const ctx = getJobContext();
-    if (ctx && ctx.room === room && !room.isConnected) {
-      this.logger.debug('Auto-connecting to room via job context');
-      tasks.push(ctx.connect());
+    let ctx: JobContext | undefined = undefined;
+    try {
+      ctx = getJobContext();
+    } catch (error) {
+      // JobContext is not available in evals
+      this.logger.warn('JobContext is not available');
     }
-    if (record) {
+    if (ctx) {
+      if (ctx.room === room && !room.isConnected) {
+        this.logger.debug('Auto-connecting to room via job context');
+        tasks.push(ctx.connect());
+      }
       if (ctx._primaryAgentSession === undefined) {
         ctx._primaryAgentSession = this;
-      } else {
+      } else if (this._enableRecording) {
         throw new Error(
-          'Only one `AgentSession` can be the primary at a time. If you want to ignore primary designation, use session.start(record=False).',
+          'Only one `AgentSession` can be the primary at a time. If you want to ignore primary designation, use `session.start({ record: false })`.',
         );
       }
+      if (this.input.audio && this.output.audio && this._enableRecording) {
+        this._recorderIO = new RecorderIO({ agentSession: this });
+        this.input.audio = this._recorderIO.recordInput(this.input.audio);
+        this.output.audio = this._recorderIO.recordOutput(this.output.audio);
+        // Start recording to session directory
+        const sessionDir = ctx.sessionDirectory;
+        if (sessionDir) {
+          tasks.push(this._recorderIO.start(`${sessionDir}/audio.ogg`));
+        }
+      }
     }
     // TODO(AJS-265): add shutdown callback to job context
@@ -327,29 +379,29 @@ export class AgentSession<
       return;
     }
-    const ctx = getJobContext();
+    let ctx: JobContext | undefined = undefined;
+    try {
+      ctx = getJobContext();
-    this.logger.info(
-      { record, enableRecording: ctx.info.job.enableRecording },
-      'Configuring session recording',
-    );
+      if (record === undefined) {
+        record = ctx.job.enableRecording;
+      }
-    record = record ?? ctx.info.job.enableRecording;
-    this._enableRecording = record;
+      this._enableRecording = record;
-    if (this._enableRecording) {
-      await ctx.initRecording();
+      if (this._enableRecording) {
+        ctx.initRecording();
+      }
+    } catch (error) {
+      // JobContext is not available in evals
+      this.logger.warn('JobContext is not available');
     }
-    // Create agent_session as a ROOT span (new trace) to match Python behavior
-    // This creates a separate trace for better cloud dashboard organization
     this.sessionSpan = tracer.startSpan({
       name: 'agent_session',
       context: ROOT_CONTEXT,
     });
-    // Set the session span as the active span in the context
-    // This ensures all child spans (agent_turn, user_turn, etc.) are parented to it
     this.rootSpanContext = trace.setSpan(ROOT_CONTEXT, this.sessionSpan);
     await this._startImpl({
@@ -357,7 +409,6 @@ export class AgentSession<
       room,
       inputOptions,
       outputOptions,
-      record,
       span: this.sessionSpan,
     });
   }
@@ -397,7 +448,17 @@ export class AgentSession<
       throw new Error('AgentSession is not running');
     }
-    return this.activity.say(text, options);
+    const doSay = (activity: AgentActivity) => {
+      return activity.say(text, options);
+    };
+    // attach to the session span if called outside of the AgentSession
+    const activeSpan = trace.getActiveSpan();
+    if (!activeSpan && this.rootSpanContext) {
+      return otelContext.with(this.rootSpanContext, () => doSay(this.activity!));
+    }
+    return doSay(this.activity);
   }
   interrupt() {
@@ -424,14 +485,25 @@ export class AgentSession<
         })
       : undefined;
-    if (this.activity.draining) {
-      if (!this.nextActivity) {
-        throw new Error('AgentSession is closing, cannot use generateReply()');
+    const doGenerateReply = (activity: AgentActivity, nextActivity?: AgentActivity) => {
+      if (activity.draining) {
+        if (!nextActivity) {
+          throw new Error('AgentSession is closing, cannot use generateReply()');
+        }
+        return nextActivity.generateReply({ userMessage, ...options });
       }
-      return this.nextActivity.generateReply({ userMessage, ...options });
+      return activity.generateReply({ userMessage, ...options });
+    };
+    // attach to the session span if called outside of the AgentSession
+    const activeSpan = trace.getActiveSpan();
+    if (!activeSpan && this.rootSpanContext) {
+      return otelContext.with(this.rootSpanContext, () =>
+        doGenerateReply(this.activity!, this.nextActivity),
+      );
     }
-    return this.activity.generateReply({ userMessage, ...options });
+    return doGenerateReply(this.activity!, this.nextActivity);
   }
   private async updateActivity(agent: Agent): Promise<void> {
@@ -492,13 +564,22 @@ export class AgentSession<
     await this.closeImpl(CloseReason.USER_INITIATED);
   }
+  shutdown(options?: { drain?: boolean; reason?: ShutdownReason }): void {
+    const { drain = true, reason = CloseReason.USER_INITIATED } = options ?? {};
+    this._closeSoon({
+      reason,
+      drain,
+    });
+  }
   /** @internal */
   _closeSoon({
     reason,
     drain = false,
     error = null,
   }: {
-    reason: CloseReason;
+    reason: ShutdownReason;
     drain?: boolean;
     error?: RealtimeModelError | STTError | TTSError | LLMError | null;
   }): void {
@@ -514,6 +595,19 @@ export class AgentSession<
       return;
     }
+    // Track error counts per type to implement max_unrecoverable_errors logic
+    if (error.type === 'llm_error') {
+      this.llmErrorCounts += 1;
+      if (this.llmErrorCounts <= this._connOptions.maxUnrecoverableErrors) {
+        return;
+      }
+    } else if (error.type === 'tts_error') {
+      this.ttsErrorCounts += 1;
+      if (this.ttsErrorCounts <= this._connOptions.maxUnrecoverableErrors) {
+        return;
+      }
+    }
     this.logger.error(error, 'AgentSession is closing due to unrecoverable error');
     this.closingTask = (async () => {
@@ -541,7 +635,9 @@ export class AgentSession<
     }
     if (state === 'speaking') {
-      // TODO(brian): PR4 - Track error counts
+      // Reset error counts when agent starts speaking
+      this.llmErrorCounts = 0;
+      this.ttsErrorCounts = 0;
       if (this.agentSpeakingSpan === undefined) {
         this.agentSpeakingSpan = tracer.startSpan({
@@ -657,7 +753,7 @@ export class AgentSession<
   }
   private async closeImpl(
-    reason: CloseReason,
+    reason: ShutdownReason,
     error: RealtimeModelError | LLMError | TTSError | STTError | null = null,
     drain: boolean = false,
   ): Promise<void> {
@@ -671,7 +767,7 @@ export class AgentSession<
   }
   private async closeImplInner(
-    reason: CloseReason,
+    reason: ShutdownReason,
     error: RealtimeModelError | LLMError | TTSError | STTError | null = null,
     drain: boolean = false,
   ): Promise<void> {
@@ -694,7 +790,16 @@ export class AgentSession<
       await this.activity.drain();
       // wait any uninterruptible speech to finish
       await this.activity.currentSpeech?.waitForPlayout();
-      this.activity.detachAudioInput();
+      try {
+        this.activity.detachAudioInput();
+      } catch (error) {
+        // Ignore detach errors during cleanup - source may not have been set
+      }
+    }
+    // Close recorder before detaching inputs/outputs (keep reference for session report)
+    if (this._recorderIO) {
+      await this._recorderIO.close();
     }
     // detach the inputs and outputs
@@ -730,6 +835,8 @@ export class AgentSession<
     this.userState = 'listening';
     this._agentState = 'initializing';
     this.rootSpanContext = undefined;
+    this.llmErrorCounts = 0;
+    this.ttsErrorCounts = 0;
     this.logger.info({ reason, error }, 'AgentSession closed');
   }

package/src/voice/events.ts CHANGED Viewed

@@ -5,9 +5,10 @@ import type {
   ChatMessage,
   FunctionCall,
   FunctionCallOutput,
+  LLM,
+  RealtimeModel,
   RealtimeModelError,
 } from '../llm/index.js';
-import type { LLM, RealtimeModel } from '../llm/index.js';
 import type { LLMError } from '../llm/llm.js';
 import type { AgentMetrics } from '../metrics/base.js';
 import type { STT } from '../stt/index.js';
@@ -38,6 +39,8 @@ export enum CloseReason {
   USER_INITIATED = 'user_initiated',
 }
+export type ShutdownReason = CloseReason | string;
 export type SpeechSource = 'say' | 'generate_reply' | 'tool_response';
 export type UserStateChangedEvent = {
@@ -231,12 +234,12 @@ export const createErrorEvent = (
 export type CloseEvent = {
   type: 'close';
   error: RealtimeModelError | STTError | TTSError | LLMError | null;
-  reason: CloseReason;
+  reason: ShutdownReason;
   createdAt: number;
 };
 export const createCloseEvent = (
-  reason: CloseReason,
+  reason: ShutdownReason,
   error: RealtimeModelError | STTError | TTSError | LLMError | null = null,
   createdAt: number = Date.now(),
 ): CloseEvent => ({

package/src/voice/generation.ts CHANGED Viewed

@@ -24,7 +24,7 @@ import { isZodSchema, parseZodSchema } from '../llm/zod-utils.js';
 import { log } from '../log.js';
 import { IdentityTransform } from '../stream/identity_transform.js';
 import { traceTypes, tracer } from '../telemetry/index.js';
-import { Future, Task, shortuuid, toError } from '../utils.js';
+import { Future, Task, shortuuid, toError, waitForAbort } from '../utils.js';
 import { type Agent, type ModelSettings, asyncLocalStorage, isStopResponse } from './agent.js';
 import type { AgentSession } from './agent_session.js';
 import type { AudioOutput, LLMNode, TTSNode, TextOutput } from './io.js';
@@ -411,17 +411,19 @@ export function performLLMInference(
         return;
       }
+      const abortPromise = waitForAbort(signal);
       // TODO(brian): add support for dynamic tools
       llmStreamReader = llmStream.getReader();
       while (true) {
-        if (signal.aborted) {
-          break;
-        }
-        const { done, value: chunk } = await llmStreamReader.read();
-        if (done) {
-          break;
-        }
+        if (signal.aborted) break;
+        const result = await Promise.race([llmStreamReader.read(), abortPromise]);
+        if (result === undefined) break;
+        const { done, value: chunk } = result;
+        if (done) break;
         if (typeof chunk === 'string') {
           data.generatedText += chunk;

package/src/voice/io.ts CHANGED Viewed

@@ -28,6 +28,7 @@ export type TTSNode = (
   text: ReadableStream<string>,
   modelSettings: ModelSettings,
 ) => Promise<ReadableStream<AudioFrame> | null>;
 export abstract class AudioInput {
   protected deferredStream: DeferredReadableStream<AudioFrame> =
     new DeferredReadableStream<AudioFrame>();
@@ -128,6 +129,24 @@ export abstract class AudioOutput extends EventEmitter {
       this.nextInChain.onDetached();
     }
   }
+  /**
+   * Pause the audio playback
+   */
+  pause(): void {
+    if (this.nextInChain) {
+      this.nextInChain.pause();
+    }
+  }
+  /**
+   * Resume the audio playback
+   */
+  resume(): void {
+    if (this.nextInChain) {
+      this.nextInChain.resume();
+    }
+  }
 }
 export interface PlaybackFinishedEvent {

package/src/voice/recorder_io/index.ts ADDED Viewed

@@ -0,0 +1,4 @@
+// SPDX-FileCopyrightText: 2025 LiveKit, Inc.
+//
+// SPDX-License-Identifier: Apache-2.0
+export * from './recorder_io.js';