npm - @drawdream/livespeech - Versions diffs - 0.1.12 → 0.1.14 - Mend

@drawdream/livespeech 0.1.12 → 0.1.14

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

package/README.md CHANGED Viewed

@@ -32,7 +32,7 @@ const client = new LiveSpeechClient({
 // Handle only 4 essential events!
 client.setAudioHandler((audioData) => {
-  audioPlayer.queue(audioData);  // PCM16 @ 24kHz
+  audioPlayer.queue(audioData);  // PCM16 — use event.sampleRate (24kHz Live, 16kHz Composed)
 });
 client.on('interrupted', () => {
@@ -81,7 +81,7 @@ Everything you need for basic voice conversations.
 | Event | Description | Action Required |
 |-------|-------------|-----------------|
-| `audio` | AI's audio output | Play audio (PCM16 @ 24kHz) |
+| `audio` | AI's audio output | Play audio (PCM16 — check `sampleRate`) |
 | `turnComplete` | AI finished speaking | Ready for next input |
 | `interrupted` | User barged in | **Clear audio buffer!** |
 | `error` | Error occurred | Handle/log error |
@@ -104,7 +104,10 @@ Without this, 2-3 seconds of buffered audio continues playing after the user int
 | Direction | Format | Sample Rate |
 |-----------|--------|-------------|
 | Input (mic) | PCM16 | 16,000 Hz |
-| Output (AI) | PCM16 | 24,000 Hz |
+| Output (AI) — Live mode | PCM16 | 24,000 Hz |
+| Output (AI) — Composed mode | PCM16 | 16,000 Hz |
+> **Important:** The `audio` event includes a `sampleRate` field. Always use it to configure your audio decoder rather than hardcoding a rate.
 ## Configuration
@@ -122,6 +125,37 @@ await client.startSession({
 ---
+# Composed Mode
+Use composed mode for higher accuracy with slightly more latency. It runs a separate STT → LLM → TTS pipeline instead of direct audio-to-audio.
+```typescript
+await client.startSession({
+  prePrompt: 'You are a helpful assistant.',
+  pipelineMode: 'composed',
+  language: 'ko-KR',
+});
+client.audioStart();
+// Send/receive audio the same way as live mode
+```
+### Live vs Composed
+| | Live | Composed |
+|---|---|---|
+| **Latency** | ~300ms | ~1-2s |
+| **Pipeline** | Direct audio-to-audio (Gemini Live) | STT → LLM → TTS |
+| **Accuracy** | Good | Higher |
+| **`aiSpeaksFirst`** | ✅ Supported | ❌ Not supported |
+| **`tools` (function calling)** | ✅ Supported | ❌ Not supported |
+| **Output sample rate** | 24,000 Hz | 16,000 Hz |
+| **Barge-in** | Automatic (Gemini VAD) | Automatic |
+> **Note:** All other SDK methods and events work identically in both modes. The only code change is adding `pipelineMode: 'composed'` to your session config.
+---
 # Advanced API
 Optional features for power users.
@@ -146,7 +180,10 @@ Optional features for power users.
 | `userTranscript` | User's speech transcribed |
 | `response` | AI's response text |
 | `toolCall` | AI wants to call a function |
+| `reconnecting` | Auto-reconnection attempt |
 | `userIdUpdated` | Guest-to-user migration complete |
+| `sessionWarning` | Session nearing duration limit |
+| `sessionGoodbye` | Session about to end |
 ---
@@ -271,6 +308,12 @@ client.audioStart();  // AI speaks immediately
 | `aiSpeaksFirst` | `false` | AI initiates (live mode only) |
 | `allowHarmCategory` | `false` | Disable safety filters |
 | `tools` | `[]` | Function definitions |
+| `sessionDuration` | - | Enables session duration limits when provided |
+**Notes**
+- Duration checks are **disabled by default**. They activate only when `sessionDuration` is provided.
+- If only `sessionDuration.maxSeconds` is provided, `enableWarning`/`enableGoodbye` default to `false` in the SDK.
+- Server limits take precedence in production.
 ---
@@ -308,7 +351,7 @@ import { float32ToInt16, int16ToUint8, wrapPcmInWav } from '@drawdream/livespeec
 const int16 = float32ToInt16(float32Data);
 const bytes = int16ToUint8(int16);
-const wav = wrapPcmInWav(bytes, 16000, 1, 16);
+const wav = wrapPcmInWav(bytes, { sampleRate: 16000, channels: 1, bitDepth: 16 });
 ```
 ---

package/dist/index.d.mts CHANGED Viewed

@@ -39,7 +39,6 @@ type PipelineMode = 'live' | 'composed';
 interface LiveSpeechConfig {
     /**
      * Region for the LiveSpeech service
-     * @example 'ap-northeast-2'
      */
     region: Region;
     /**
@@ -134,6 +133,23 @@ interface Tool {
      */
     parameters?: FunctionParameters;
 }
+/**
+ * Session configuration options
+ */
+interface SessionDurationConfig {
+    /**
+     * Max session duration in seconds (required)
+     */
+    maxSeconds: number;
+    /**
+     * Enable session warning events/messages (default: false)
+     */
+    enableWarning?: boolean;
+    /**
+     * Enable session goodbye events/messages (default: false)
+     */
+    enableGoodbye?: boolean;
+}
 /**
  * Session configuration options
  */
@@ -143,10 +159,29 @@ interface SessionConfig {
      */
     prePrompt?: string;
     /**
-     * Language code for speech recognition (e.g., "en-US", "ko-KR")
+     * Language code (e.g., "en-US", "ko-KR").
+     *
+     * - **Composed mode:** Used for STT speech recognition language AND as fallback
+     *   for TTS voice selection (if `outputLanguage` is not set).
+     * - **Live mode:** Used for TTS voice selection only. Gemini auto-detects
+     *   the input language from the audio stream.
+     *
      * @default "en-US"
      */
     language?: string;
+    /**
+     * Output language for TTS voice selection (Composed mode only).
+     *
+     * Use this when the AI output language differs from the input language
+     * (e.g., input is "ko-KR" but AI responds in English via prePrompt translation).
+     * If not set, defaults to `language`.
+     *
+     * **Note:** This field is only used in Composed mode. In Live mode, voice
+     * selection is driven by `language` since Gemini handles the full pipeline natively.
+     *
+     * @example "en-US"
+     */
+    outputLanguage?: string;
     /**
      * Pipeline mode for audio processing
      * - 'live': Direct audio-to-audio conversation (default, lower latency)
@@ -183,6 +218,10 @@ interface SessionConfig {
      * }]
      */
     tools?: Tool[];
+    /**
+     * Session duration configuration (enables duration limits when set)
+     */
+    sessionDuration?: SessionDurationConfig;
 }
 /**
  * Internal resolved configuration with defaults applied
@@ -201,7 +240,7 @@ interface ResolvedConfig {
 /**
  * Event types emitted by the LiveSpeech client
  */
-type LiveSpeechEventType = 'connected' | 'disconnected' | 'reconnecting' | 'sessionStarted' | 'sessionEnded' | 'ready' | 'userTranscript' | 'response' | 'audio' | 'turnComplete' | 'toolCall' | 'userIdUpdated' | 'interrupted' | 'error';
+type LiveSpeechEventType = 'connected' | 'disconnected' | 'reconnecting' | 'sessionStarted' | 'sessionEnded' | 'sessionWarning' | 'sessionGoodbye' | 'ready' | 'userTranscript' | 'response' | 'audio' | 'turnComplete' | 'toolCall' | 'userIdUpdated' | 'interrupted' | 'error';
 /**
  * Event payload for 'connected' event
  */
@@ -239,6 +278,22 @@ interface SessionEndedEvent {
     sessionId: string;
     timestamp: string;
 }
+/**
+ * Event payload for 'sessionWarning' event
+ */
+interface SessionWarningEvent {
+    type: 'sessionWarning';
+    remainingSeconds: number;
+    timestamp: string;
+}
+/**
+ * Event payload for 'sessionGoodbye' event
+ */
+interface SessionGoodbyeEvent {
+    type: 'sessionGoodbye';
+    remainingSeconds: number;
+    timestamp: string;
+}
 /**
  * Event payload for 'ready' event
  */
@@ -380,7 +435,7 @@ interface InterruptedEvent {
 /**
  * Union type of all event payloads
  */
-type LiveSpeechEvent = ConnectedEvent | DisconnectedEvent | ReconnectingEvent | SessionStartedEvent | SessionEndedEvent | ReadyEvent | UserTranscriptEvent | ResponseEvent | AudioEvent | TurnCompleteEvent | ToolCallEvent | UserIdUpdatedEvent | InterruptedEvent | ErrorEvent;
+type LiveSpeechEvent = ConnectedEvent | DisconnectedEvent | ReconnectingEvent | SessionStartedEvent | SessionEndedEvent | SessionWarningEvent | SessionGoodbyeEvent | ReadyEvent | UserTranscriptEvent | ResponseEvent | AudioEvent | TurnCompleteEvent | ToolCallEvent | UserIdUpdatedEvent | InterruptedEvent | ErrorEvent;
 /**
  * Simplified event handlers for common use cases
  */
@@ -396,7 +451,7 @@ type ClientMessageType = 'startSession' | 'endSession' | 'audioStart' | 'audioCh
 /**
  * WebSocket message types received from server
  */
-type ServerMessageType = 'sessionStarted' | 'sessionEnded' | 'ready' | 'userTranscript' | 'response' | 'audio' | 'turnComplete' | 'toolCall' | 'userIdUpdated' | 'interrupted' | 'error' | 'pong';
+type ServerMessageType = 'sessionStarted' | 'sessionEnded' | 'session_warning' | 'session_goodbye' | 'ready' | 'userTranscript' | 'response' | 'audio' | 'turnComplete' | 'toolCall' | 'userIdUpdated' | 'interrupted' | 'error' | 'pong';
 /**
  * Base interface for client messages
  */
@@ -410,10 +465,14 @@ interface StartSessionMessage extends BaseClientMessage {
     action: 'startSession';
     prePrompt?: string;
     language?: string;
+    outputLanguage?: string;
     pipelineMode?: 'live' | 'composed';
     aiSpeaksFirst?: boolean;
     allowHarmCategory?: boolean;
     tools?: Tool[];
+    sessionMaxDurationSeconds?: number;
+    enableSessionWarning?: boolean;
+    enableSessionGoodbye?: boolean;
 }
 /**
  * End session message
@@ -517,6 +576,20 @@ interface ServerSessionEndedMessage extends BaseServerMessage {
     type: 'sessionEnded';
     sessionId: string;
 }
+/**
+ * Session warning message from server
+ */
+interface ServerSessionWarningMessage extends BaseServerMessage {
+    type: 'session_warning';
+    remainingSeconds: number;
+}
+/**
+ * Session goodbye message from server
+ */
+interface ServerSessionGoodbyeMessage extends BaseServerMessage {
+    type: 'session_goodbye';
+    remainingSeconds: number;
+}
 /**
  * User transcript message from server (user's speech transcription)
  */
@@ -604,7 +677,7 @@ interface ServerInterruptedMessage extends BaseServerMessage {
 /**
  * Union type of all server messages
  */
-type ServerMessage = ServerSessionStartedMessage | ServerSessionEndedMessage | ServerReadyMessage | ServerUserTranscriptMessage | ServerResponseMessage | ServerAudioMessage | ServerTurnCompleteMessage | ServerToolCallMessage | ServerUserIdUpdatedMessage | ServerInterruptedMessage | ServerErrorMessage | ServerPongMessage;
+type ServerMessage = ServerSessionStartedMessage | ServerSessionEndedMessage | ServerSessionWarningMessage | ServerSessionGoodbyeMessage | ServerReadyMessage | ServerUserTranscriptMessage | ServerResponseMessage | ServerAudioMessage | ServerTurnCompleteMessage | ServerToolCallMessage | ServerUserIdUpdatedMessage | ServerInterruptedMessage | ServerErrorMessage | ServerPongMessage;
 /**
  * Connection state
@@ -620,6 +693,8 @@ type LiveSpeechEventMap = {
     reconnecting: ReconnectingEvent;
     sessionStarted: SessionStartedEvent;
     sessionEnded: SessionEndedEvent;
+    sessionWarning: SessionWarningEvent;
+    sessionGoodbye: SessionGoodbyeEvent;
     ready: ReadyEvent;
     userTranscript: UserTranscriptEvent;
     response: ResponseEvent;
@@ -912,4 +987,4 @@ declare class AudioEncoder {
     wrapWav(data: Uint8Array): Uint8Array;
 }
-export { AudioEncoder, type AudioEncoderOptions, type AudioEvent, type AudioHandler, type ClientMessage, type ClientMessageType, type ConnectedEvent, type ConnectionState, type DisconnectReason, type DisconnectedEvent, type ErrorCode, type ErrorEvent, type ErrorHandler, type FunctionParameters, LiveSpeechClient, type LiveSpeechConfig, type LiveSpeechEvent, type LiveSpeechEventMap, type LiveSpeechEventType, type PipelineMode, type ReadyEvent, type ReconnectingEvent, Region, Region as RegionType, type ResolvedConfig, type ResponseEvent, type ResponseHandler, type ServerMessage, type ServerMessageType, type SessionConfig, type SessionEndedEvent, type SessionStartedEvent, type Tool, type ToolCallEvent, type TurnCompleteEvent, type UserTranscriptEvent, type UserTranscriptHandler, createWavHeader, decodeBase64ToAudio, encodeAudioToBase64, extractPcmFromWav, float32ToInt16, getEndpointForRegion, int16ToFloat32, int16ToUint8, isValidRegion, uint8ToInt16, wrapPcmInWav };
+export { AudioEncoder, type AudioEncoderOptions, type AudioEvent, type AudioHandler, type ClientMessage, type ClientMessageType, type ConnectedEvent, type ConnectionState, type DisconnectReason, type DisconnectedEvent, type ErrorCode, type ErrorEvent, type ErrorHandler, type FunctionParameters, LiveSpeechClient, type LiveSpeechConfig, type LiveSpeechEvent, type LiveSpeechEventMap, type LiveSpeechEventType, type PipelineMode, type ReadyEvent, type ReconnectingEvent, Region, Region as RegionType, type ResolvedConfig, type ResponseEvent, type ResponseHandler, type ServerMessage, type ServerMessageType, type SessionConfig, type SessionDurationConfig, type SessionEndedEvent, type SessionStartedEvent, type Tool, type ToolCallEvent, type TurnCompleteEvent, type UserTranscriptEvent, type UserTranscriptHandler, createWavHeader, decodeBase64ToAudio, encodeAudioToBase64, extractPcmFromWav, float32ToInt16, getEndpointForRegion, int16ToFloat32, int16ToUint8, isValidRegion, uint8ToInt16, wrapPcmInWav };

package/dist/index.d.ts CHANGED Viewed

@@ -39,7 +39,6 @@ type PipelineMode = 'live' | 'composed';
 interface LiveSpeechConfig {
     /**
      * Region for the LiveSpeech service
-     * @example 'ap-northeast-2'
      */
     region: Region;
     /**
@@ -134,6 +133,23 @@ interface Tool {
      */
     parameters?: FunctionParameters;
 }
+/**
+ * Session configuration options
+ */
+interface SessionDurationConfig {
+    /**
+     * Max session duration in seconds (required)
+     */
+    maxSeconds: number;
+    /**
+     * Enable session warning events/messages (default: false)
+     */
+    enableWarning?: boolean;
+    /**
+     * Enable session goodbye events/messages (default: false)
+     */
+    enableGoodbye?: boolean;
+}
 /**
  * Session configuration options
  */
@@ -143,10 +159,29 @@ interface SessionConfig {
      */
     prePrompt?: string;
     /**
-     * Language code for speech recognition (e.g., "en-US", "ko-KR")
+     * Language code (e.g., "en-US", "ko-KR").
+     *
+     * - **Composed mode:** Used for STT speech recognition language AND as fallback
+     *   for TTS voice selection (if `outputLanguage` is not set).
+     * - **Live mode:** Used for TTS voice selection only. Gemini auto-detects
+     *   the input language from the audio stream.
+     *
      * @default "en-US"
      */
     language?: string;
+    /**
+     * Output language for TTS voice selection (Composed mode only).
+     *
+     * Use this when the AI output language differs from the input language
+     * (e.g., input is "ko-KR" but AI responds in English via prePrompt translation).
+     * If not set, defaults to `language`.
+     *
+     * **Note:** This field is only used in Composed mode. In Live mode, voice
+     * selection is driven by `language` since Gemini handles the full pipeline natively.
+     *
+     * @example "en-US"
+     */
+    outputLanguage?: string;
     /**
      * Pipeline mode for audio processing
      * - 'live': Direct audio-to-audio conversation (default, lower latency)
@@ -183,6 +218,10 @@ interface SessionConfig {
      * }]
      */
     tools?: Tool[];
+    /**
+     * Session duration configuration (enables duration limits when set)
+     */
+    sessionDuration?: SessionDurationConfig;
 }
 /**
  * Internal resolved configuration with defaults applied
@@ -201,7 +240,7 @@ interface ResolvedConfig {
 /**
  * Event types emitted by the LiveSpeech client
  */
-type LiveSpeechEventType = 'connected' | 'disconnected' | 'reconnecting' | 'sessionStarted' | 'sessionEnded' | 'ready' | 'userTranscript' | 'response' | 'audio' | 'turnComplete' | 'toolCall' | 'userIdUpdated' | 'interrupted' | 'error';
+type LiveSpeechEventType = 'connected' | 'disconnected' | 'reconnecting' | 'sessionStarted' | 'sessionEnded' | 'sessionWarning' | 'sessionGoodbye' | 'ready' | 'userTranscript' | 'response' | 'audio' | 'turnComplete' | 'toolCall' | 'userIdUpdated' | 'interrupted' | 'error';
 /**
  * Event payload for 'connected' event
  */
@@ -239,6 +278,22 @@ interface SessionEndedEvent {
     sessionId: string;
     timestamp: string;
 }
+/**
+ * Event payload for 'sessionWarning' event
+ */
+interface SessionWarningEvent {
+    type: 'sessionWarning';
+    remainingSeconds: number;
+    timestamp: string;
+}
+/**
+ * Event payload for 'sessionGoodbye' event
+ */
+interface SessionGoodbyeEvent {
+    type: 'sessionGoodbye';
+    remainingSeconds: number;
+    timestamp: string;
+}
 /**
  * Event payload for 'ready' event
  */
@@ -380,7 +435,7 @@ interface InterruptedEvent {
 /**
  * Union type of all event payloads
  */
-type LiveSpeechEvent = ConnectedEvent | DisconnectedEvent | ReconnectingEvent | SessionStartedEvent | SessionEndedEvent | ReadyEvent | UserTranscriptEvent | ResponseEvent | AudioEvent | TurnCompleteEvent | ToolCallEvent | UserIdUpdatedEvent | InterruptedEvent | ErrorEvent;
+type LiveSpeechEvent = ConnectedEvent | DisconnectedEvent | ReconnectingEvent | SessionStartedEvent | SessionEndedEvent | SessionWarningEvent | SessionGoodbyeEvent | ReadyEvent | UserTranscriptEvent | ResponseEvent | AudioEvent | TurnCompleteEvent | ToolCallEvent | UserIdUpdatedEvent | InterruptedEvent | ErrorEvent;
 /**
  * Simplified event handlers for common use cases
  */
@@ -396,7 +451,7 @@ type ClientMessageType = 'startSession' | 'endSession' | 'audioStart' | 'audioCh
 /**
  * WebSocket message types received from server
  */
-type ServerMessageType = 'sessionStarted' | 'sessionEnded' | 'ready' | 'userTranscript' | 'response' | 'audio' | 'turnComplete' | 'toolCall' | 'userIdUpdated' | 'interrupted' | 'error' | 'pong';
+type ServerMessageType = 'sessionStarted' | 'sessionEnded' | 'session_warning' | 'session_goodbye' | 'ready' | 'userTranscript' | 'response' | 'audio' | 'turnComplete' | 'toolCall' | 'userIdUpdated' | 'interrupted' | 'error' | 'pong';
 /**
  * Base interface for client messages
  */
@@ -410,10 +465,14 @@ interface StartSessionMessage extends BaseClientMessage {
     action: 'startSession';
     prePrompt?: string;
     language?: string;
+    outputLanguage?: string;
     pipelineMode?: 'live' | 'composed';
     aiSpeaksFirst?: boolean;
     allowHarmCategory?: boolean;
     tools?: Tool[];
+    sessionMaxDurationSeconds?: number;
+    enableSessionWarning?: boolean;
+    enableSessionGoodbye?: boolean;
 }
 /**
  * End session message
@@ -517,6 +576,20 @@ interface ServerSessionEndedMessage extends BaseServerMessage {
     type: 'sessionEnded';
     sessionId: string;
 }
+/**
+ * Session warning message from server
+ */
+interface ServerSessionWarningMessage extends BaseServerMessage {
+    type: 'session_warning';
+    remainingSeconds: number;
+}
+/**
+ * Session goodbye message from server
+ */
+interface ServerSessionGoodbyeMessage extends BaseServerMessage {
+    type: 'session_goodbye';
+    remainingSeconds: number;
+}
 /**
  * User transcript message from server (user's speech transcription)
  */
@@ -604,7 +677,7 @@ interface ServerInterruptedMessage extends BaseServerMessage {
 /**
  * Union type of all server messages
  */
-type ServerMessage = ServerSessionStartedMessage | ServerSessionEndedMessage | ServerReadyMessage | ServerUserTranscriptMessage | ServerResponseMessage | ServerAudioMessage | ServerTurnCompleteMessage | ServerToolCallMessage | ServerUserIdUpdatedMessage | ServerInterruptedMessage | ServerErrorMessage | ServerPongMessage;
+type ServerMessage = ServerSessionStartedMessage | ServerSessionEndedMessage | ServerSessionWarningMessage | ServerSessionGoodbyeMessage | ServerReadyMessage | ServerUserTranscriptMessage | ServerResponseMessage | ServerAudioMessage | ServerTurnCompleteMessage | ServerToolCallMessage | ServerUserIdUpdatedMessage | ServerInterruptedMessage | ServerErrorMessage | ServerPongMessage;
 /**
  * Connection state
@@ -620,6 +693,8 @@ type LiveSpeechEventMap = {
     reconnecting: ReconnectingEvent;
     sessionStarted: SessionStartedEvent;
     sessionEnded: SessionEndedEvent;
+    sessionWarning: SessionWarningEvent;
+    sessionGoodbye: SessionGoodbyeEvent;
     ready: ReadyEvent;
     userTranscript: UserTranscriptEvent;
     response: ResponseEvent;
@@ -912,4 +987,4 @@ declare class AudioEncoder {
     wrapWav(data: Uint8Array): Uint8Array;
 }
-export { AudioEncoder, type AudioEncoderOptions, type AudioEvent, type AudioHandler, type ClientMessage, type ClientMessageType, type ConnectedEvent, type ConnectionState, type DisconnectReason, type DisconnectedEvent, type ErrorCode, type ErrorEvent, type ErrorHandler, type FunctionParameters, LiveSpeechClient, type LiveSpeechConfig, type LiveSpeechEvent, type LiveSpeechEventMap, type LiveSpeechEventType, type PipelineMode, type ReadyEvent, type ReconnectingEvent, Region, Region as RegionType, type ResolvedConfig, type ResponseEvent, type ResponseHandler, type ServerMessage, type ServerMessageType, type SessionConfig, type SessionEndedEvent, type SessionStartedEvent, type Tool, type ToolCallEvent, type TurnCompleteEvent, type UserTranscriptEvent, type UserTranscriptHandler, createWavHeader, decodeBase64ToAudio, encodeAudioToBase64, extractPcmFromWav, float32ToInt16, getEndpointForRegion, int16ToFloat32, int16ToUint8, isValidRegion, uint8ToInt16, wrapPcmInWav };
+export { AudioEncoder, type AudioEncoderOptions, type AudioEvent, type AudioHandler, type ClientMessage, type ClientMessageType, type ConnectedEvent, type ConnectionState, type DisconnectReason, type DisconnectedEvent, type ErrorCode, type ErrorEvent, type ErrorHandler, type FunctionParameters, LiveSpeechClient, type LiveSpeechConfig, type LiveSpeechEvent, type LiveSpeechEventMap, type LiveSpeechEventType, type PipelineMode, type ReadyEvent, type ReconnectingEvent, Region, Region as RegionType, type ResolvedConfig, type ResponseEvent, type ResponseHandler, type ServerMessage, type ServerMessageType, type SessionConfig, type SessionDurationConfig, type SessionEndedEvent, type SessionStartedEvent, type Tool, type ToolCallEvent, type TurnCompleteEvent, type UserTranscriptEvent, type UserTranscriptHandler, createWavHeader, decodeBase64ToAudio, encodeAudioToBase64, extractPcmFromWav, float32ToInt16, getEndpointForRegion, int16ToFloat32, int16ToUint8, isValidRegion, uint8ToInt16, wrapPcmInWav };

package/dist/index.js CHANGED Viewed

@@ -728,14 +728,22 @@ var LiveSpeechClient = class {
       };
       this.on("sessionStarted", onSessionStarted);
       this.on("error", onError);
+      const sessionDuration = config?.sessionDuration;
+      const hasSessionDuration = typeof sessionDuration?.maxSeconds === "number";
       this.connection.send({
         action: "startSession",
         ...config?.prePrompt && { prePrompt: config.prePrompt },
         ...config?.language && { language: config.language },
+        ...config?.outputLanguage && { outputLanguage: config.outputLanguage },
         pipelineMode: config?.pipelineMode ?? "live",
         ...config?.aiSpeaksFirst && { aiSpeaksFirst: config.aiSpeaksFirst },
         allowHarmCategory: config?.allowHarmCategory ?? false,
-        ...config?.tools && config.tools.length > 0 && { tools: config.tools }
+        ...config?.tools && config.tools.length > 0 && { tools: config.tools },
+        ...hasSessionDuration && {
+          sessionMaxDurationSeconds: sessionDuration.maxSeconds,
+          enableSessionWarning: sessionDuration.enableWarning ?? false,
+          enableSessionGoodbye: sessionDuration.enableGoodbye ?? false
+        }
       });
     });
   }
@@ -1075,6 +1083,24 @@ var LiveSpeechClient = class {
           timestamp: message.timestamp
         });
         break;
+      case "session_warning": {
+        const warningEvent = {
+          type: "sessionWarning",
+          remainingSeconds: message.remainingSeconds ?? 0,
+          timestamp: message.timestamp
+        };
+        this.emit("sessionWarning", warningEvent);
+        break;
+      }
+      case "session_goodbye": {
+        const goodbyeEvent = {
+          type: "sessionGoodbye",
+          remainingSeconds: message.remainingSeconds ?? 0,
+          timestamp: message.timestamp
+        };
+        this.emit("sessionGoodbye", goodbyeEvent);
+        break;
+      }
       case "ready": {
         const readyEvent = {
           type: "ready",

package/dist/index.mjs CHANGED Viewed

@@ -689,14 +689,22 @@ var LiveSpeechClient = class {
       };
       this.on("sessionStarted", onSessionStarted);
       this.on("error", onError);
+      const sessionDuration = config?.sessionDuration;
+      const hasSessionDuration = typeof sessionDuration?.maxSeconds === "number";
       this.connection.send({
         action: "startSession",
         ...config?.prePrompt && { prePrompt: config.prePrompt },
         ...config?.language && { language: config.language },
+        ...config?.outputLanguage && { outputLanguage: config.outputLanguage },
         pipelineMode: config?.pipelineMode ?? "live",
         ...config?.aiSpeaksFirst && { aiSpeaksFirst: config.aiSpeaksFirst },
         allowHarmCategory: config?.allowHarmCategory ?? false,
-        ...config?.tools && config.tools.length > 0 && { tools: config.tools }
+        ...config?.tools && config.tools.length > 0 && { tools: config.tools },
+        ...hasSessionDuration && {
+          sessionMaxDurationSeconds: sessionDuration.maxSeconds,
+          enableSessionWarning: sessionDuration.enableWarning ?? false,
+          enableSessionGoodbye: sessionDuration.enableGoodbye ?? false
+        }
       });
     });
   }
@@ -1036,6 +1044,24 @@ var LiveSpeechClient = class {
           timestamp: message.timestamp
         });
         break;
+      case "session_warning": {
+        const warningEvent = {
+          type: "sessionWarning",
+          remainingSeconds: message.remainingSeconds ?? 0,
+          timestamp: message.timestamp
+        };
+        this.emit("sessionWarning", warningEvent);
+        break;
+      }
+      case "session_goodbye": {
+        const goodbyeEvent = {
+          type: "sessionGoodbye",
+          remainingSeconds: message.remainingSeconds ?? 0,
+          timestamp: message.timestamp
+        };
+        this.emit("sessionGoodbye", goodbyeEvent);
+        break;
+      }
       case "ready": {
         const readyEvent = {
           type: "ready",

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@drawdream/livespeech",
-  "version": "0.1.12",
+  "version": "0.1.14",
   "description": "Real-time speech-to-speech AI conversation SDK",
   "main": "dist/index.js",
   "module": "dist/index.mjs",
@@ -56,12 +56,12 @@
   "devDependencies": {
     "@types/node": "^20.10.0",
     "@types/ws": "^8.5.10",
-    "@typescript-eslint/eslint-plugin": "^6.13.0",
-    "@typescript-eslint/parser": "^6.13.0",
-    "eslint": "^8.55.0",
+    "@typescript-eslint/eslint-plugin": "^7.18.0",
+    "@typescript-eslint/parser": "^7.18.0",
+    "eslint": "^8.56.0",
     "tsup": "^8.0.1",
     "typescript": "^5.3.0",
-    "vitest": "^1.0.0"
+    "vitest": "^4.0.0"
   },
   "peerDependencies": {
     "typescript": ">=5.0.0"