npm - @livekit/agents - Versions diffs - 1.0.18 → 1.0.20 - Mend

@livekit/agents 1.0.18 → 1.0.20

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (174) hide show

package/dist/index.cjs +3 -0
package/dist/index.cjs.map +1 -1
package/dist/index.d.cts +2 -1
package/dist/index.d.ts +2 -1
package/dist/index.d.ts.map +1 -1
package/dist/index.js +2 -0
package/dist/index.js.map +1 -1
package/dist/inference/api_protos.d.cts +12 -12
package/dist/inference/api_protos.d.ts +12 -12
package/dist/inference/tts.cjs +1 -1
package/dist/inference/tts.cjs.map +1 -1
package/dist/inference/tts.js +1 -1
package/dist/inference/tts.js.map +1 -1
package/dist/ipc/job_proc_lazy_main.cjs +6 -2
package/dist/ipc/job_proc_lazy_main.cjs.map +1 -1
package/dist/ipc/job_proc_lazy_main.js +6 -2
package/dist/ipc/job_proc_lazy_main.js.map +1 -1
package/dist/job.cjs +31 -0
package/dist/job.cjs.map +1 -1
package/dist/job.d.cts +6 -0
package/dist/job.d.ts +6 -0
package/dist/job.d.ts.map +1 -1
package/dist/job.js +31 -0
package/dist/job.js.map +1 -1
package/dist/llm/chat_context.cjs +33 -0
package/dist/llm/chat_context.cjs.map +1 -1
package/dist/llm/chat_context.d.cts +22 -2
package/dist/llm/chat_context.d.ts +22 -2
package/dist/llm/chat_context.d.ts.map +1 -1
package/dist/llm/chat_context.js +32 -0
package/dist/llm/chat_context.js.map +1 -1
package/dist/llm/index.cjs +2 -0
package/dist/llm/index.cjs.map +1 -1
package/dist/llm/index.d.cts +1 -1
package/dist/llm/index.d.ts +1 -1
package/dist/llm/index.d.ts.map +1 -1
package/dist/llm/index.js +2 -0
package/dist/llm/index.js.map +1 -1
package/dist/llm/llm.cjs.map +1 -1
package/dist/llm/llm.d.ts.map +1 -1
package/dist/llm/llm.js.map +1 -1
package/dist/llm/provider_format/google.test.cjs +48 -0
package/dist/llm/provider_format/google.test.cjs.map +1 -1
package/dist/llm/provider_format/google.test.js +54 -1
package/dist/llm/provider_format/google.test.js.map +1 -1
package/dist/llm/provider_format/index.d.cts +1 -1
package/dist/llm/provider_format/index.d.ts +1 -1
package/dist/llm/provider_format/openai.cjs +1 -2
package/dist/llm/provider_format/openai.cjs.map +1 -1
package/dist/llm/provider_format/openai.js +1 -2
package/dist/llm/provider_format/openai.js.map +1 -1
package/dist/llm/provider_format/openai.test.cjs +32 -0
package/dist/llm/provider_format/openai.test.cjs.map +1 -1
package/dist/llm/provider_format/openai.test.js +38 -1
package/dist/llm/provider_format/openai.test.js.map +1 -1
package/dist/log.cjs.map +1 -1
package/dist/log.d.ts.map +1 -1
package/dist/log.js.map +1 -1
package/dist/stt/stt.cjs +3 -0
package/dist/stt/stt.cjs.map +1 -1
package/dist/stt/stt.d.cts +1 -0
package/dist/stt/stt.d.ts +1 -0
package/dist/stt/stt.d.ts.map +1 -1
package/dist/stt/stt.js +3 -0
package/dist/stt/stt.js.map +1 -1
package/dist/telemetry/index.cjs +51 -0
package/dist/telemetry/index.cjs.map +1 -0
package/dist/telemetry/index.d.cts +4 -0
package/dist/telemetry/index.d.ts +4 -0
package/dist/telemetry/index.d.ts.map +1 -0
package/dist/telemetry/index.js +12 -0
package/dist/telemetry/index.js.map +1 -0
package/dist/telemetry/trace_types.cjs +191 -0
package/dist/telemetry/trace_types.cjs.map +1 -0
package/dist/telemetry/trace_types.d.cts +56 -0
package/dist/telemetry/trace_types.d.ts +56 -0
package/dist/telemetry/trace_types.d.ts.map +1 -0
package/dist/telemetry/trace_types.js +113 -0
package/dist/telemetry/trace_types.js.map +1 -0
package/dist/telemetry/traces.cjs +196 -0
package/dist/telemetry/traces.cjs.map +1 -0
package/dist/telemetry/traces.d.cts +97 -0
package/dist/telemetry/traces.d.ts +97 -0
package/dist/telemetry/traces.d.ts.map +1 -0
package/dist/telemetry/traces.js +173 -0
package/dist/telemetry/traces.js.map +1 -0
package/dist/telemetry/utils.cjs +86 -0
package/dist/telemetry/utils.cjs.map +1 -0
package/dist/telemetry/utils.d.cts +5 -0
package/dist/telemetry/utils.d.ts +5 -0
package/dist/telemetry/utils.d.ts.map +1 -0
package/dist/telemetry/utils.js +51 -0
package/dist/telemetry/utils.js.map +1 -0
package/dist/tts/tts.cjs +3 -0
package/dist/tts/tts.cjs.map +1 -1
package/dist/tts/tts.d.cts +1 -0
package/dist/tts/tts.d.ts +1 -0
package/dist/tts/tts.d.ts.map +1 -1
package/dist/tts/tts.js +3 -0
package/dist/tts/tts.js.map +1 -1
package/dist/vad.cjs +3 -0
package/dist/vad.cjs.map +1 -1
package/dist/vad.d.cts +1 -0
package/dist/vad.d.ts +1 -0
package/dist/vad.d.ts.map +1 -1
package/dist/vad.js +3 -0
package/dist/vad.js.map +1 -1
package/dist/voice/agent.cjs +15 -0
package/dist/voice/agent.cjs.map +1 -1
package/dist/voice/agent.d.cts +4 -1
package/dist/voice/agent.d.ts +4 -1
package/dist/voice/agent.d.ts.map +1 -1
package/dist/voice/agent.js +15 -0
package/dist/voice/agent.js.map +1 -1
package/dist/voice/agent_activity.cjs +5 -0
package/dist/voice/agent_activity.cjs.map +1 -1
package/dist/voice/agent_activity.d.ts.map +1 -1
package/dist/voice/agent_activity.js +5 -0
package/dist/voice/agent_activity.js.map +1 -1
package/dist/voice/agent_session.cjs +29 -1
package/dist/voice/agent_session.cjs.map +1 -1
package/dist/voice/agent_session.d.cts +6 -2
package/dist/voice/agent_session.d.ts +6 -2
package/dist/voice/agent_session.d.ts.map +1 -1
package/dist/voice/agent_session.js +30 -2
package/dist/voice/agent_session.js.map +1 -1
package/dist/voice/audio_recognition.cjs +1 -1
package/dist/voice/audio_recognition.cjs.map +1 -1
package/dist/voice/audio_recognition.d.ts.map +1 -1
package/dist/voice/audio_recognition.js +1 -1
package/dist/voice/audio_recognition.js.map +1 -1
package/dist/voice/generation.cjs.map +1 -1
package/dist/voice/generation.d.ts.map +1 -1
package/dist/voice/generation.js.map +1 -1
package/dist/voice/index.cjs +2 -0
package/dist/voice/index.cjs.map +1 -1
package/dist/voice/index.d.cts +1 -0
package/dist/voice/index.d.ts +1 -0
package/dist/voice/index.d.ts.map +1 -1
package/dist/voice/index.js +1 -0
package/dist/voice/index.js.map +1 -1
package/dist/voice/report.cjs +69 -0
package/dist/voice/report.cjs.map +1 -0
package/dist/voice/report.d.cts +26 -0
package/dist/voice/report.d.ts +26 -0
package/dist/voice/report.d.ts.map +1 -0
package/dist/voice/report.js +44 -0
package/dist/voice/report.js.map +1 -0
package/package.json +10 -3
package/src/index.ts +2 -1
package/src/inference/tts.ts +1 -1
package/src/ipc/job_proc_lazy_main.ts +10 -2
package/src/job.ts +48 -0
package/src/llm/chat_context.ts +53 -1
package/src/llm/index.ts +1 -0
package/src/llm/llm.ts +2 -0
package/src/llm/provider_format/google.test.ts +72 -1
package/src/llm/provider_format/openai.test.ts +55 -1
package/src/llm/provider_format/openai.ts +3 -2
package/src/log.ts +1 -0
package/src/stt/stt.ts +4 -0
package/src/telemetry/index.ts +10 -0
package/src/telemetry/trace_types.ts +88 -0
package/src/telemetry/traces.ts +266 -0
package/src/telemetry/utils.ts +61 -0
package/src/tts/tts.ts +8 -0
package/src/vad.ts +4 -0
package/src/voice/agent.ts +22 -0
package/src/voice/agent_activity.ts +9 -0
package/src/voice/agent_session.ts +44 -1
package/src/voice/audio_recognition.ts +3 -1
package/src/voice/generation.ts +3 -0
package/src/voice/index.ts +1 -0
package/src/voice/report.ts +77 -0

package/src/voice/agent_session.ts CHANGED Viewed

@@ -14,7 +14,7 @@ import {
   type TTSModelString,
 } from '../inference/index.js';
 import { getJobContext } from '../job.js';
-import { ChatContext, ChatMessage } from '../llm/chat_context.js';
+import { AgentHandoffItem, ChatContext, ChatMessage } from '../llm/chat_context.js';
 import type { LLM, RealtimeModel, RealtimeModelError, ToolChoice } from '../llm/index.js';
 import type { LLMError } from '../llm/llm.js';
 import { log } from '../log.js';
@@ -26,6 +26,7 @@ import type { Agent } from './agent.js';
 import { AgentActivity } from './agent_activity.js';
 import type { _TurnDetector } from './audio_recognition.js';
 import {
+  type AgentEvent,
   AgentSessionEventTypes,
   type AgentState,
   type AgentStateChangedEvent,
@@ -127,6 +128,9 @@ export class AgentSession<
   private closingTask: Promise<void> | null = null;
   private userAwayTimer: NodeJS.Timeout | null = null;
+  /** @internal */
+  _recordedEvents: AgentEvent[] = [];
   constructor(opts: AgentSessionOptions<UserData>) {
     super();
@@ -174,6 +178,15 @@ export class AgentSession<
     this.on(AgentSessionEventTypes.UserInputTranscribed, this._onUserInputTranscribed.bind(this));
   }
+  emit<K extends keyof AgentSessionCallbacks>(
+    event: K,
+    ...args: Parameters<AgentSessionCallbacks[K]>
+  ): boolean {
+    const eventData = args[0] as AgentEvent;
+    this._recordedEvents.push(eventData);
+    return super.emit(event, ...args);
+  }
   get input(): AgentInput {
     return this._input;
   }
@@ -199,15 +212,20 @@ export class AgentSession<
   }
   async start({
+    // TODO(brian): PR2 - Add setupCloudTracer() call if on LiveKit Cloud with recording enabled
+    // TODO(brian): PR3 - Add span: this._sessionSpan = tracer.startSpan('agent_session'), store as instance property
+    // TODO(brian): PR4 - Add setupCloudLogger() call in setupCloudTracer() to setup OTEL logging with Pino bridge
     agent,
     room,
     inputOptions,
     outputOptions,
+    record = true,
   }: {
     agent: Agent;
     room: Room;
     inputOptions?: Partial<RoomInputOptions>;
     outputOptions?: Partial<RoomOutputOptions>;
+    record?: boolean;
   }): Promise<void> {
     if (this.started) {
       return;
@@ -247,6 +265,17 @@ export class AgentSession<
       this.logger.debug('Auto-connecting to room via job context');
       tasks.push(ctx.connect());
     }
+    if (record) {
+      if (ctx._primaryAgentSession === undefined) {
+        ctx._primaryAgentSession = this;
+      } else {
+        throw new Error(
+          'Only one `AgentSession` can be the primary at a time. If you want to ignore primary designation, use session.start(record=False).',
+        );
+      }
+    }
     // TODO(AJS-265): add shutdown callback to job context
     tasks.push(this.updateActivity(this.agent));
@@ -341,6 +370,8 @@ export class AgentSession<
     // TODO(AJS-129): add lock to agent activity core lifecycle
     this.nextActivity = new AgentActivity(agent, this);
+    const previousActivity = this.activity;
     if (this.activity) {
       await this.activity.drain();
       await this.activity.close();
@@ -349,6 +380,14 @@ export class AgentSession<
     this.activity = this.nextActivity;
     this.nextActivity = undefined;
+    this._chatCtx.insert(
+      new AgentHandoffItem({
+        oldAgentId: previousActivity?.agent.id,
+        newAgentId: agent.id,
+      }),
+    );
+    this.logger.debug({ previousActivity, agent }, 'Agent handoff inserted into chat context');
     await this.activity.start();
     if (this._input.audio) {
@@ -419,6 +458,8 @@ export class AgentSession<
       return;
     }
+    // TODO(brian): PR3 - Add span: if state === 'speaking' && !this._agentSpeakingSpan, create tracer.startSpan('agent_speaking') with participant attributes
+    // TODO(brian): PR3 - Add span: if state !== 'speaking' && this._agentSpeakingSpan, end and clear this._agentSpeakingSpan
     const oldState = this._agentState;
     this._agentState = state;
@@ -441,6 +482,8 @@ export class AgentSession<
       return;
     }
+    // TODO(brian): PR3 - Add span: if state === 'speaking' && !this._userSpeakingSpan, create tracer.startSpan('user_speaking') with participant attributes
+    // TODO(brian): PR3 - Add span: if state !== 'speaking' && this._userSpeakingSpan, end and clear this._userSpeakingSpan
     const oldState = this.userState;
     this.userState = state;

package/src/voice/audio_recognition.ts CHANGED Viewed

@@ -57,6 +57,8 @@ export interface AudioRecognitionOptions {
   maxEndpointingDelay: number;
 }
+// TODO(brian): PR3 - Add span: private _userTurnSpan?: Span, create lazily in _ensureUserTurnSpan() method (tracer.startSpan('user_turn') with participant attributes)
+// TODO(brian): PR3 - Add span: 'eou_detection' span when running EOU detection (in runEOUDetection method)
 export class AudioRecognition {
   private hooks: RecognitionHooks;
   private stt?: STTNode;
@@ -356,7 +358,7 @@ export class AudioRecognition {
         if (turnDetector) {
           this.logger.debug('Running turn detector model');
-          if (!turnDetector.supportsLanguage(this.lastLanguage)) {
+          if (!(await turnDetector.supportsLanguage(this.lastLanguage))) {
             this.logger.debug(`Turn detector does not support language ${this.lastLanguage}`);
           } else {
             const endOfTurnProbability = await turnDetector.predictEndOfTurn(chatCtx);

package/src/voice/generation.ts CHANGED Viewed

@@ -377,6 +377,7 @@ export function updateInstructions(options: {
   }
 }
+// TODO(brian): PR3 - Add @tracer.startActiveSpan('llm_node') decorator/wrapper
 export function performLLMInference(
   node: LLMNode,
   chatCtx: ChatContext,
@@ -467,6 +468,7 @@ export function performLLMInference(
   ];
 }
+// TODO(brian): PR3 - Add @tracer.startActiveSpan('tts_node') decorator/wrapper
 export function performTTSInference(
   node: TTSNode,
   text: ReadableStream<string>,
@@ -650,6 +652,7 @@ export function performAudioForwarding(
   ];
 }
+// TODO(brian): PR3 - Add @tracer.startActiveSpan('function_tool') wrapper for each tool execution
 export function performToolExecutions({
   session,
   speechHandle,

package/src/voice/index.ts CHANGED Viewed

@@ -6,5 +6,6 @@ export { AgentSession, type AgentSessionOptions } from './agent_session.js';
 export * from './avatar/index.js';
 export * from './background_audio.js';
 export * from './events.js';
+export * from './report.js';
 export * from './room_io/index.js';
 export { RunContext } from './run_context.js';

package/src/voice/report.ts ADDED Viewed

@@ -0,0 +1,77 @@
+// SPDX-FileCopyrightText: 2025 LiveKit, Inc.
+//
+// SPDX-License-Identifier: Apache-2.0
+import type { ChatContext } from '../llm/chat_context.js';
+import type { VoiceOptions } from './agent_session.js';
+import type { AgentEvent } from './events.js';
+export interface SessionReport {
+  jobId: string;
+  roomId: string;
+  room: string;
+  options: VoiceOptions;
+  events: AgentEvent[];
+  chatHistory: ChatContext;
+  enableUserDataTraining: boolean;
+  timestamp: number;
+}
+export interface SessionReportOptions {
+  jobId: string;
+  roomId: string;
+  room: string;
+  options: VoiceOptions;
+  events: AgentEvent[];
+  chatHistory: ChatContext;
+  enableUserDataTraining?: boolean;
+  timestamp?: number;
+}
+export function createSessionReport(opts: SessionReportOptions): SessionReport {
+  return {
+    jobId: opts.jobId,
+    roomId: opts.roomId,
+    room: opts.room,
+    options: opts.options,
+    events: opts.events,
+    chatHistory: opts.chatHistory,
+    enableUserDataTraining: opts.enableUserDataTraining ?? false,
+    timestamp: opts.timestamp ?? Date.now(),
+  };
+}
+// TODO(brian): PR5 - Add uploadSessionReport() function that creates multipart form with:
+//   - header: protobuf MetricsRecordingHeader (room_id, duration, start_time)
+//   - chat_history: JSON serialized chat history (use sessionReportToJSON)
+//   - audio: audio recording file if available (ogg format)
+//   - Uploads to LiveKit Cloud observability endpoint with JWT auth
+export function sessionReportToJSON(report: SessionReport): Record<string, unknown> {
+  const events: Record<string, unknown>[] = [];
+  for (const event of report.events) {
+    if (event.type === 'metrics_collected') {
+      continue; // metrics are too noisy, Cloud is using the chat_history as the source of truth
+    }
+    events.push({ ...event });
+  }
+  return {
+    job_id: report.jobId,
+    room_id: report.roomId,
+    room: report.room,
+    events,
+    options: {
+      allow_interruptions: report.options.allowInterruptions,
+      discard_audio_if_uninterruptible: report.options.discardAudioIfUninterruptible,
+      min_interruption_duration: report.options.minInterruptionDuration,
+      min_interruption_words: report.options.minInterruptionWords,
+      min_endpointing_delay: report.options.minEndpointingDelay,
+      max_endpointing_delay: report.options.maxEndpointingDelay,
+      max_tool_steps: report.options.maxToolSteps,
+    },
+    chat_history: report.chatHistory.toJSON({ excludeTimestamp: false }),
+    enable_user_data_training: report.enableUserDataTraining,
+    timestamp: report.timestamp,
+  };
+}