npm - @drawdream/livespeech - Versions diffs - 0.1.1 → 0.1.2 - Mend

@drawdream/livespeech 0.1.1 → 0.1.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

package/README.md CHANGED Viewed

@@ -26,12 +26,12 @@ const client = new LiveSpeechClient({
 });
 // Handle events
-client.setTranscriptHandler((text, isFinal) => {
-  console.log(`Transcript: ${text} (final: ${isFinal})`);
+client.setUserTranscriptHandler((text) => {
+  console.log(`You said: ${text}`);
 });
-client.setResponseHandler((text, isFinal) => {
-  console.log(`AI Response: ${text}`);
+client.setTranscriptHandler((text, isFinal) => {
+  console.log(`AI Transcript: ${text}`);
 });
 client.setAudioHandler((audioData) => {
@@ -42,10 +42,44 @@ client.setAudioHandler((audioData) => {
 await client.connect();
 await client.startSession({
   prePrompt: 'You are a helpful assistant.',
+  // pipelineMode: 'live' is the default
+});
+// Start streaming and send audio
+client.audioStart();
+client.sendAudioChunk(audioBuffer);
+```
+## Pipeline Modes
+The SDK supports two pipeline modes for audio processing:
+### Live Mode (Default)
+Uses Gemini 2.5 Flash Live API for end-to-end audio conversation. This provides:
+- **Lower latency** - Direct audio-to-audio processing
+- **Natural conversation** - Built-in voice activity detection and turn-taking
+- **Real-time transcription** - Both user and AI speech are transcribed
+```typescript
+await client.startSession({
+  prePrompt: 'You are a helpful assistant.',
+  pipelineMode: 'live',  // Default, can be omitted
 });
+```
+### Composed Mode
-// Send audio
-client.sendAudio(audioBuffer);
+Uses separate STT + LLM + TTS services for more customization:
+- **More control** - Separate services for each step
+- **Custom voices** - Use different TTS voices
+- **Text responses** - Access to intermediate text responses
+```typescript
+await client.startSession({
+  prePrompt: 'You are a helpful assistant.',
+  pipelineMode: 'composed',
+});
 ```
 ## API Reference
@@ -87,8 +121,9 @@ The SDK provides built-in region support, so you don't need to remember endpoint
 ```typescript
 // Simple handlers
-client.setTranscriptHandler((text, isFinal) => {});
-client.setResponseHandler((text, isFinal) => {});
+client.setUserTranscriptHandler((text) => {}); // User's speech transcription
+client.setTranscriptHandler((text, isFinal) => {}); // AI's speech transcription (live mode)
+client.setResponseHandler((text, isFinal) => {}); // AI text response (composed mode)
 client.setAudioHandler((audioData) => {});
 client.setErrorHandler((error) => {});
@@ -97,24 +132,23 @@ client.on('connected', (event) => {});
 client.on('disconnected', (event) => {});
 client.on('sessionStarted', (event) => {});
 client.on('sessionEnded', (event) => {});
-client.on('transcript', (event) => {});
-client.on('response', (event) => {});
+client.on('userTranscript', (event) => {}); // User's speech transcription
+client.on('transcript', (event) => {}); // AI's speech transcription
+client.on('response', (event) => {}); // AI text response
 client.on('audio', (event) => {});
 client.on('error', (event) => {});
 client.on('reconnecting', (event) => {});
+client.on('ready', (event) => {}); // Gemini Live ready (live mode)
+client.on('turnComplete', (event) => {}); // AI finished speaking (live mode)
 ```
 ### SessionConfig
 | Option | Type | Default | Description |
 |--------|------|---------|-------------|
-| `prePrompt` | `string` | **required** | System prompt for the AI |
-| `voiceId` | `string` | `'en-US-Standard-A'` | TTS voice ID |
-| `languageCode` | `string` | `'en-US'` | Language for STT |
-| `inputFormat` | `AudioFormat` | `'pcm16'` | Input audio format |
-| `outputFormat` | `AudioFormat` | `'pcm16'` | Output audio format |
-| `sampleRate` | `number` | `16000` | Sample rate in Hz |
-| `metadata` | `Record<string,string>` | `{}` | Custom metadata |
+| `prePrompt` | `string` | - | System prompt for the AI |
+| `language` | `string` | `'en-US'` | Language code for speech (e.g., "ko-KR") |
+| `pipelineMode` | `'live' \| 'composed'` | `'live'` | Audio processing mode |
 ## Audio Utilities

package/dist/index.d.mts CHANGED Viewed

@@ -21,6 +21,12 @@ declare function getEndpointForRegion(region: Region): string;
  */
 declare function isValidRegion(value: string): value is Region;
+/**
+ * Pipeline mode for audio processing
+ * - 'live': Uses Gemini Live API for end-to-end audio conversation (default)
+ * - 'composed': Uses separate STT + LLM + TTS services
+ */
+type PipelineMode = 'live' | 'composed';
 /**
  * Configuration options for the LiveSpeech client
  *
@@ -75,6 +81,18 @@ interface SessionConfig {
      * System prompt for the AI assistant
      */
     prePrompt?: string;
+    /**
+     * Language code for speech recognition (e.g., "en-US", "ko-KR")
+     * @default "en-US"
+     */
+    language?: string;
+    /**
+     * Pipeline mode for audio processing
+     * - 'live': Uses Gemini Live API for end-to-end audio conversation (default, lower latency)
+     * - 'composed': Uses separate STT + LLM + TTS services (more customizable)
+     * @default "live"
+     */
+    pipelineMode?: PipelineMode;
 }
 /**
  * Internal resolved configuration with defaults applied
@@ -92,7 +110,7 @@ interface ResolvedConfig {
 /**
  * Event types emitted by the LiveSpeech client
  */
-type LiveSpeechEventType = 'connected' | 'disconnected' | 'sessionStarted' | 'sessionEnded' | 'streamingStarted' | 'speechStart' | 'speechEnd' | 'transcript' | 'response' | 'audio' | 'error' | 'reconnecting';
+type LiveSpeechEventType = 'connected' | 'disconnected' | 'reconnecting' | 'sessionStarted' | 'sessionEnded' | 'ready' | 'userTranscript' | 'response' | 'audio' | 'turnComplete' | 'error';
 /**
  * Event payload for 'connected' event
  */
@@ -131,34 +149,19 @@ interface SessionEndedEvent {
     timestamp: string;
 }
 /**
- * Event payload for 'streamingStarted' event - acknowledgment of audioStart
+ * Event payload for 'ready' event
  */
-interface StreamingStartedEvent {
-    type: 'streamingStarted';
+interface ReadyEvent {
+    type: 'ready';
     timestamp: string;
 }
 /**
- * Event payload for 'speechStart' event - VAD detected speech begin
+ * Event payload for 'userTranscript' event
+ * User's speech transcription
  */
-interface SpeechStartEvent {
-    type: 'speechStart';
-    timestamp: string;
-}
-/**
- * Event payload for 'speechEnd' event - VAD detected speech end
- */
-interface SpeechEndEvent {
-    type: 'speechEnd';
-    timestamp: string;
-}
-/**
- * Event payload for 'transcript' event
- */
-interface TranscriptEvent {
-    type: 'transcript';
+interface UserTranscriptEvent {
+    type: 'userTranscript';
     text: string;
-    isFinal: boolean;
-    confidence?: number;
     timestamp: string;
 }
 /**
@@ -204,14 +207,22 @@ interface ReconnectingEvent {
     delay: number;
     timestamp: string;
 }
+/**
+ * Event payload for 'turnComplete' event (both modes)
+ * Indicates the AI has finished its response turn
+ */
+interface TurnCompleteEvent {
+    type: 'turnComplete';
+    timestamp: string;
+}
 /**
  * Union type of all event payloads
  */
-type LiveSpeechEvent = ConnectedEvent | DisconnectedEvent | SessionStartedEvent | SessionEndedEvent | StreamingStartedEvent | SpeechStartEvent | SpeechEndEvent | TranscriptEvent | ResponseEvent | AudioEvent | ErrorEvent | ReconnectingEvent;
+type LiveSpeechEvent = ConnectedEvent | DisconnectedEvent | ReconnectingEvent | SessionStartedEvent | SessionEndedEvent | ReadyEvent | UserTranscriptEvent | ResponseEvent | AudioEvent | TurnCompleteEvent | ErrorEvent;
 /**
  * Simplified event handlers for common use cases
  */
-type TranscriptHandler = (text: string, isFinal: boolean) => void;
+type UserTranscriptHandler = (text: string) => void;
 type ResponseHandler = (text: string, isFinal: boolean) => void;
 type AudioHandler = (data: Uint8Array) => void;
 type ErrorHandler = (error: ErrorEvent) => void;
@@ -223,7 +234,7 @@ type ClientMessageType = 'startSession' | 'endSession' | 'audioStart' | 'audioCh
 /**
  * WebSocket message types received from server
  */
-type ServerMessageType = 'sessionStarted' | 'sessionEnded' | 'streamingStarted' | 'speechStart' | 'speechEnd' | 'transcript' | 'response' | 'audio' | 'error' | 'pong';
+type ServerMessageType = 'sessionStarted' | 'sessionEnded' | 'ready' | 'userTranscript' | 'response' | 'audio' | 'turnComplete' | 'error' | 'pong';
 /**
  * Base interface for client messages
  */
@@ -236,6 +247,8 @@ interface BaseClientMessage {
 interface StartSessionMessage extends BaseClientMessage {
     action: 'startSession';
     prePrompt?: string;
+    language?: string;
+    pipelineMode?: 'live' | 'composed';
 }
 /**
  * End session message
@@ -294,31 +307,11 @@ interface ServerSessionEndedMessage extends BaseServerMessage {
     sessionId: string;
 }
 /**
- * Streaming started message - acknowledgment of audioStart
+ * User transcript message from server (user's speech transcription)
  */
-interface ServerStreamingStartedMessage extends BaseServerMessage {
-    type: 'streamingStarted';
-}
-/**
- * Speech start message - VAD detected speech begin
- */
-interface ServerSpeechStartMessage extends BaseServerMessage {
-    type: 'speechStart';
-}
-/**
- * Speech end message - VAD detected speech end
- */
-interface ServerSpeechEndMessage extends BaseServerMessage {
-    type: 'speechEnd';
-}
-/**
- * Transcript message from server
- */
-interface ServerTranscriptMessage extends BaseServerMessage {
-    type: 'transcript';
+interface ServerUserTranscriptMessage extends BaseServerMessage {
+    type: 'userTranscript';
     text: string;
-    isFinal: boolean;
-    confidence?: number;
 }
 /**
  * Response message from server
@@ -351,10 +344,24 @@ interface ServerErrorMessage extends BaseServerMessage {
 interface ServerPongMessage extends BaseServerMessage {
     type: 'pong';
 }
+/**
+ * Turn complete message from server
+ * Indicates the AI has finished its response turn
+ */
+interface ServerTurnCompleteMessage extends BaseServerMessage {
+    type: 'turnComplete';
+}
+/**
+ * Ready message from server
+ * Indicates the Gemini Live session is ready for audio input
+ */
+interface ServerReadyMessage extends BaseServerMessage {
+    type: 'ready';
+}
 /**
  * Union type of all server messages
  */
-type ServerMessage = ServerSessionStartedMessage | ServerSessionEndedMessage | ServerStreamingStartedMessage | ServerSpeechStartMessage | ServerSpeechEndMessage | ServerTranscriptMessage | ServerResponseMessage | ServerAudioMessage | ServerErrorMessage | ServerPongMessage;
+type ServerMessage = ServerSessionStartedMessage | ServerSessionEndedMessage | ServerReadyMessage | ServerUserTranscriptMessage | ServerResponseMessage | ServerAudioMessage | ServerTurnCompleteMessage | ServerErrorMessage | ServerPongMessage;
 /**
  * Connection state
@@ -367,16 +374,15 @@ type ConnectionState = 'disconnected' | 'connecting' | 'connected' | 'reconnecti
 type LiveSpeechEventMap = {
     connected: ConnectedEvent;
     disconnected: DisconnectedEvent;
+    reconnecting: ReconnectingEvent;
     sessionStarted: SessionStartedEvent;
     sessionEnded: SessionEndedEvent;
-    streamingStarted: StreamingStartedEvent;
-    speechStart: SpeechStartEvent;
-    speechEnd: SpeechEndEvent;
-    transcript: TranscriptEvent;
+    ready: ReadyEvent;
+    userTranscript: UserTranscriptEvent;
     response: ResponseEvent;
     audio: AudioEvent;
+    turnComplete: TurnCompleteEvent;
     error: ErrorEvent;
-    reconnecting: ReconnectingEvent;
 };
 /**
  * LiveSpeech client for real-time speech-to-speech AI conversations
@@ -389,7 +395,7 @@ declare class LiveSpeechClient {
     private sessionId;
     private isStreaming;
     private readonly eventListeners;
-    private transcriptHandler;
+    private userTranscriptHandler;
     private responseHandler;
     private audioHandler;
     private errorHandler;
@@ -455,17 +461,17 @@ declare class LiveSpeechClient {
      */
     off<K extends keyof LiveSpeechEventMap>(event: K, listener: (event: LiveSpeechEventMap[K]) => void): void;
     /**
-     * Set transcript handler (simplified)
-     */
-    setTranscriptHandler(handler: TranscriptHandler): void;
-    /**
-     * Set response handler (simplified)
+     * Set response handler
      */
     setResponseHandler(handler: ResponseHandler): void;
     /**
      * Set audio handler (simplified)
      */
     setAudioHandler(handler: AudioHandler): void;
+    /**
+     * Set user transcript handler
+     */
+    setUserTranscriptHandler(handler: UserTranscriptHandler): void;
     /**
      * Set error handler (simplified)
      */
@@ -567,4 +573,4 @@ declare class AudioEncoder {
     wrapWav(data: Uint8Array): Uint8Array;
 }
-export { AudioEncoder, type AudioEncoderOptions, type AudioEvent, type AudioHandler, type ClientMessage, type ClientMessageType, type ConnectedEvent, type ConnectionState, type DisconnectReason, type DisconnectedEvent, type ErrorCode, type ErrorEvent, type ErrorHandler, LiveSpeechClient, type LiveSpeechConfig, type LiveSpeechEvent, type LiveSpeechEventMap, type LiveSpeechEventType, type ReconnectingEvent, Region, Region as RegionType, type ResolvedConfig, type ResponseEvent, type ResponseHandler, type ServerMessage, type ServerMessageType, type SessionConfig, type SessionEndedEvent, type SessionStartedEvent, type SpeechEndEvent, type SpeechStartEvent, type StreamingStartedEvent, type TranscriptEvent, type TranscriptHandler, createWavHeader, decodeBase64ToAudio, encodeAudioToBase64, extractPcmFromWav, float32ToInt16, getEndpointForRegion, int16ToFloat32, int16ToUint8, isValidRegion, uint8ToInt16, wrapPcmInWav };
+export { AudioEncoder, type AudioEncoderOptions, type AudioEvent, type AudioHandler, type ClientMessage, type ClientMessageType, type ConnectedEvent, type ConnectionState, type DisconnectReason, type DisconnectedEvent, type ErrorCode, type ErrorEvent, type ErrorHandler, LiveSpeechClient, type LiveSpeechConfig, type LiveSpeechEvent, type LiveSpeechEventMap, type LiveSpeechEventType, type PipelineMode, type ReadyEvent, type ReconnectingEvent, Region, Region as RegionType, type ResolvedConfig, type ResponseEvent, type ResponseHandler, type ServerMessage, type ServerMessageType, type SessionConfig, type SessionEndedEvent, type SessionStartedEvent, type TurnCompleteEvent, type UserTranscriptEvent, type UserTranscriptHandler, createWavHeader, decodeBase64ToAudio, encodeAudioToBase64, extractPcmFromWav, float32ToInt16, getEndpointForRegion, int16ToFloat32, int16ToUint8, isValidRegion, uint8ToInt16, wrapPcmInWav };

package/dist/index.d.ts CHANGED Viewed

@@ -21,6 +21,12 @@ declare function getEndpointForRegion(region: Region): string;
  */
 declare function isValidRegion(value: string): value is Region;
+/**
+ * Pipeline mode for audio processing
+ * - 'live': Uses Gemini Live API for end-to-end audio conversation (default)
+ * - 'composed': Uses separate STT + LLM + TTS services
+ */
+type PipelineMode = 'live' | 'composed';
 /**
  * Configuration options for the LiveSpeech client
  *
@@ -75,6 +81,18 @@ interface SessionConfig {
      * System prompt for the AI assistant
      */
     prePrompt?: string;
+    /**
+     * Language code for speech recognition (e.g., "en-US", "ko-KR")
+     * @default "en-US"
+     */
+    language?: string;
+    /**
+     * Pipeline mode for audio processing
+     * - 'live': Uses Gemini Live API for end-to-end audio conversation (default, lower latency)
+     * - 'composed': Uses separate STT + LLM + TTS services (more customizable)
+     * @default "live"
+     */
+    pipelineMode?: PipelineMode;
 }
 /**
  * Internal resolved configuration with defaults applied
@@ -92,7 +110,7 @@ interface ResolvedConfig {
 /**
  * Event types emitted by the LiveSpeech client
  */
-type LiveSpeechEventType = 'connected' | 'disconnected' | 'sessionStarted' | 'sessionEnded' | 'streamingStarted' | 'speechStart' | 'speechEnd' | 'transcript' | 'response' | 'audio' | 'error' | 'reconnecting';
+type LiveSpeechEventType = 'connected' | 'disconnected' | 'reconnecting' | 'sessionStarted' | 'sessionEnded' | 'ready' | 'userTranscript' | 'response' | 'audio' | 'turnComplete' | 'error';
 /**
  * Event payload for 'connected' event
  */
@@ -131,34 +149,19 @@ interface SessionEndedEvent {
     timestamp: string;
 }
 /**
- * Event payload for 'streamingStarted' event - acknowledgment of audioStart
+ * Event payload for 'ready' event
  */
-interface StreamingStartedEvent {
-    type: 'streamingStarted';
+interface ReadyEvent {
+    type: 'ready';
     timestamp: string;
 }
 /**
- * Event payload for 'speechStart' event - VAD detected speech begin
+ * Event payload for 'userTranscript' event
+ * User's speech transcription
  */
-interface SpeechStartEvent {
-    type: 'speechStart';
-    timestamp: string;
-}
-/**
- * Event payload for 'speechEnd' event - VAD detected speech end
- */
-interface SpeechEndEvent {
-    type: 'speechEnd';
-    timestamp: string;
-}
-/**
- * Event payload for 'transcript' event
- */
-interface TranscriptEvent {
-    type: 'transcript';
+interface UserTranscriptEvent {
+    type: 'userTranscript';
     text: string;
-    isFinal: boolean;
-    confidence?: number;
     timestamp: string;
 }
 /**
@@ -204,14 +207,22 @@ interface ReconnectingEvent {
     delay: number;
     timestamp: string;
 }
+/**
+ * Event payload for 'turnComplete' event (both modes)
+ * Indicates the AI has finished its response turn
+ */
+interface TurnCompleteEvent {
+    type: 'turnComplete';
+    timestamp: string;
+}
 /**
  * Union type of all event payloads
  */
-type LiveSpeechEvent = ConnectedEvent | DisconnectedEvent | SessionStartedEvent | SessionEndedEvent | StreamingStartedEvent | SpeechStartEvent | SpeechEndEvent | TranscriptEvent | ResponseEvent | AudioEvent | ErrorEvent | ReconnectingEvent;
+type LiveSpeechEvent = ConnectedEvent | DisconnectedEvent | ReconnectingEvent | SessionStartedEvent | SessionEndedEvent | ReadyEvent | UserTranscriptEvent | ResponseEvent | AudioEvent | TurnCompleteEvent | ErrorEvent;
 /**
  * Simplified event handlers for common use cases
  */
-type TranscriptHandler = (text: string, isFinal: boolean) => void;
+type UserTranscriptHandler = (text: string) => void;
 type ResponseHandler = (text: string, isFinal: boolean) => void;
 type AudioHandler = (data: Uint8Array) => void;
 type ErrorHandler = (error: ErrorEvent) => void;
@@ -223,7 +234,7 @@ type ClientMessageType = 'startSession' | 'endSession' | 'audioStart' | 'audioCh
 /**
  * WebSocket message types received from server
  */
-type ServerMessageType = 'sessionStarted' | 'sessionEnded' | 'streamingStarted' | 'speechStart' | 'speechEnd' | 'transcript' | 'response' | 'audio' | 'error' | 'pong';
+type ServerMessageType = 'sessionStarted' | 'sessionEnded' | 'ready' | 'userTranscript' | 'response' | 'audio' | 'turnComplete' | 'error' | 'pong';
 /**
  * Base interface for client messages
  */
@@ -236,6 +247,8 @@ interface BaseClientMessage {
 interface StartSessionMessage extends BaseClientMessage {
     action: 'startSession';
     prePrompt?: string;
+    language?: string;
+    pipelineMode?: 'live' | 'composed';
 }
 /**
  * End session message
@@ -294,31 +307,11 @@ interface ServerSessionEndedMessage extends BaseServerMessage {
     sessionId: string;
 }
 /**
- * Streaming started message - acknowledgment of audioStart
+ * User transcript message from server (user's speech transcription)
  */
-interface ServerStreamingStartedMessage extends BaseServerMessage {
-    type: 'streamingStarted';
-}
-/**
- * Speech start message - VAD detected speech begin
- */
-interface ServerSpeechStartMessage extends BaseServerMessage {
-    type: 'speechStart';
-}
-/**
- * Speech end message - VAD detected speech end
- */
-interface ServerSpeechEndMessage extends BaseServerMessage {
-    type: 'speechEnd';
-}
-/**
- * Transcript message from server
- */
-interface ServerTranscriptMessage extends BaseServerMessage {
-    type: 'transcript';
+interface ServerUserTranscriptMessage extends BaseServerMessage {
+    type: 'userTranscript';
     text: string;
-    isFinal: boolean;
-    confidence?: number;
 }
 /**
  * Response message from server
@@ -351,10 +344,24 @@ interface ServerErrorMessage extends BaseServerMessage {
 interface ServerPongMessage extends BaseServerMessage {
     type: 'pong';
 }
+/**
+ * Turn complete message from server
+ * Indicates the AI has finished its response turn
+ */
+interface ServerTurnCompleteMessage extends BaseServerMessage {
+    type: 'turnComplete';
+}
+/**
+ * Ready message from server
+ * Indicates the Gemini Live session is ready for audio input
+ */
+interface ServerReadyMessage extends BaseServerMessage {
+    type: 'ready';
+}
 /**
  * Union type of all server messages
  */
-type ServerMessage = ServerSessionStartedMessage | ServerSessionEndedMessage | ServerStreamingStartedMessage | ServerSpeechStartMessage | ServerSpeechEndMessage | ServerTranscriptMessage | ServerResponseMessage | ServerAudioMessage | ServerErrorMessage | ServerPongMessage;
+type ServerMessage = ServerSessionStartedMessage | ServerSessionEndedMessage | ServerReadyMessage | ServerUserTranscriptMessage | ServerResponseMessage | ServerAudioMessage | ServerTurnCompleteMessage | ServerErrorMessage | ServerPongMessage;
 /**
  * Connection state
@@ -367,16 +374,15 @@ type ConnectionState = 'disconnected' | 'connecting' | 'connected' | 'reconnecti
 type LiveSpeechEventMap = {
     connected: ConnectedEvent;
     disconnected: DisconnectedEvent;
+    reconnecting: ReconnectingEvent;
     sessionStarted: SessionStartedEvent;
     sessionEnded: SessionEndedEvent;
-    streamingStarted: StreamingStartedEvent;
-    speechStart: SpeechStartEvent;
-    speechEnd: SpeechEndEvent;
-    transcript: TranscriptEvent;
+    ready: ReadyEvent;
+    userTranscript: UserTranscriptEvent;
     response: ResponseEvent;
     audio: AudioEvent;
+    turnComplete: TurnCompleteEvent;
     error: ErrorEvent;
-    reconnecting: ReconnectingEvent;
 };
 /**
  * LiveSpeech client for real-time speech-to-speech AI conversations
@@ -389,7 +395,7 @@ declare class LiveSpeechClient {
     private sessionId;
     private isStreaming;
     private readonly eventListeners;
-    private transcriptHandler;
+    private userTranscriptHandler;
     private responseHandler;
     private audioHandler;
     private errorHandler;
@@ -455,17 +461,17 @@ declare class LiveSpeechClient {
      */
     off<K extends keyof LiveSpeechEventMap>(event: K, listener: (event: LiveSpeechEventMap[K]) => void): void;
     /**
-     * Set transcript handler (simplified)
-     */
-    setTranscriptHandler(handler: TranscriptHandler): void;
-    /**
-     * Set response handler (simplified)
+     * Set response handler
      */
     setResponseHandler(handler: ResponseHandler): void;
     /**
      * Set audio handler (simplified)
      */
     setAudioHandler(handler: AudioHandler): void;
+    /**
+     * Set user transcript handler
+     */
+    setUserTranscriptHandler(handler: UserTranscriptHandler): void;
     /**
      * Set error handler (simplified)
      */
@@ -567,4 +573,4 @@ declare class AudioEncoder {
     wrapWav(data: Uint8Array): Uint8Array;
 }
-export { AudioEncoder, type AudioEncoderOptions, type AudioEvent, type AudioHandler, type ClientMessage, type ClientMessageType, type ConnectedEvent, type ConnectionState, type DisconnectReason, type DisconnectedEvent, type ErrorCode, type ErrorEvent, type ErrorHandler, LiveSpeechClient, type LiveSpeechConfig, type LiveSpeechEvent, type LiveSpeechEventMap, type LiveSpeechEventType, type ReconnectingEvent, Region, Region as RegionType, type ResolvedConfig, type ResponseEvent, type ResponseHandler, type ServerMessage, type ServerMessageType, type SessionConfig, type SessionEndedEvent, type SessionStartedEvent, type SpeechEndEvent, type SpeechStartEvent, type StreamingStartedEvent, type TranscriptEvent, type TranscriptHandler, createWavHeader, decodeBase64ToAudio, encodeAudioToBase64, extractPcmFromWav, float32ToInt16, getEndpointForRegion, int16ToFloat32, int16ToUint8, isValidRegion, uint8ToInt16, wrapPcmInWav };
+export { AudioEncoder, type AudioEncoderOptions, type AudioEvent, type AudioHandler, type ClientMessage, type ClientMessageType, type ConnectedEvent, type ConnectionState, type DisconnectReason, type DisconnectedEvent, type ErrorCode, type ErrorEvent, type ErrorHandler, LiveSpeechClient, type LiveSpeechConfig, type LiveSpeechEvent, type LiveSpeechEventMap, type LiveSpeechEventType, type PipelineMode, type ReadyEvent, type ReconnectingEvent, Region, Region as RegionType, type ResolvedConfig, type ResponseEvent, type ResponseHandler, type ServerMessage, type ServerMessageType, type SessionConfig, type SessionEndedEvent, type SessionStartedEvent, type TurnCompleteEvent, type UserTranscriptEvent, type UserTranscriptHandler, createWavHeader, decodeBase64ToAudio, encodeAudioToBase64, extractPcmFromWav, float32ToInt16, getEndpointForRegion, int16ToFloat32, int16ToUint8, isValidRegion, uint8ToInt16, wrapPcmInWav };

package/dist/index.js CHANGED Viewed

@@ -46,7 +46,7 @@ var Region = {
 };
 var REGION_ENDPOINTS = {
   "ap-northeast-2": "wss://talk.drawdream.co.kr",
-  "us-west-2": "wss://talk..drawdream.ca"
+  "us-west-2": "wss://talk.drawdream.ca"
   // Coming soon
 };
 function getEndpointForRegion(region) {
@@ -614,7 +614,7 @@ var LiveSpeechClient = class {
   // Event listeners using a simple map
   eventListeners = /* @__PURE__ */ new Map();
   // Simplified handlers
-  transcriptHandler = null;
+  userTranscriptHandler = null;
   responseHandler = null;
   audioHandler = null;
   errorHandler = null;
@@ -730,6 +730,10 @@ var LiveSpeechClient = class {
       if (config?.prePrompt) {
         startMessage.prePrompt = config.prePrompt;
       }
+      if (config?.language) {
+        startMessage.language = config.language;
+      }
+      startMessage.pipelineMode = config?.pipelineMode ?? "live";
       this.connection.send(startMessage);
     });
   }
@@ -819,13 +823,7 @@ var LiveSpeechClient = class {
     }
   }
   /**
-   * Set transcript handler (simplified)
-   */
-  setTranscriptHandler(handler) {
-    this.transcriptHandler = handler;
-  }
-  /**
-   * Set response handler (simplified)
+   * Set response handler
    */
   setResponseHandler(handler) {
     this.responseHandler = handler;
@@ -836,6 +834,12 @@ var LiveSpeechClient = class {
   setAudioHandler(handler) {
     this.audioHandler = handler;
   }
+  /**
+   * Set user transcript handler
+   */
+  setUserTranscriptHandler(handler) {
+    this.userTranscriptHandler = handler;
+  }
   /**
    * Set error handler (simplified)
    */
@@ -914,36 +918,12 @@ var LiveSpeechClient = class {
           timestamp: message.timestamp
         });
         break;
-      case "streamingStarted":
-        this.emit("streamingStarted", {
-          type: "streamingStarted",
-          timestamp: message.timestamp
-        });
-        break;
-      case "speechStart":
-        this.emit("speechStart", {
-          type: "speechStart",
-          timestamp: message.timestamp
-        });
-        break;
-      case "speechEnd":
-        this.emit("speechEnd", {
-          type: "speechEnd",
-          timestamp: message.timestamp
-        });
-        break;
-      case "transcript": {
-        const transcriptEvent = {
-          type: "transcript",
-          text: message.text,
-          isFinal: message.isFinal,
+      case "ready": {
+        const readyEvent = {
+          type: "ready",
           timestamp: message.timestamp
         };
-        if (message.confidence !== void 0) {
-          transcriptEvent.confidence = message.confidence;
-        }
-        this.emit("transcript", transcriptEvent);
-        this.transcriptHandler?.(message.text, message.isFinal);
+        this.emit("ready", readyEvent);
         break;
       }
       case "response": {
@@ -970,6 +950,24 @@ var LiveSpeechClient = class {
         this.audioHandler?.(audioData);
         break;
       }
+      case "userTranscript": {
+        const userTranscriptEvent = {
+          type: "userTranscript",
+          text: message.text,
+          timestamp: message.timestamp
+        };
+        this.emit("userTranscript", userTranscriptEvent);
+        this.userTranscriptHandler?.(message.text);
+        break;
+      }
+      case "turnComplete": {
+        const turnCompleteEvent = {
+          type: "turnComplete",
+          timestamp: message.timestamp
+        };
+        this.emit("turnComplete", turnCompleteEvent);
+        break;
+      }
       case "error":
         this.handleError(message.code, message.message);
         break;

package/dist/index.mjs CHANGED Viewed

@@ -7,7 +7,7 @@ var Region = {
 };
 var REGION_ENDPOINTS = {
   "ap-northeast-2": "wss://talk.drawdream.co.kr",
-  "us-west-2": "wss://talk..drawdream.ca"
+  "us-west-2": "wss://talk.drawdream.ca"
   // Coming soon
 };
 function getEndpointForRegion(region) {
@@ -575,7 +575,7 @@ var LiveSpeechClient = class {
   // Event listeners using a simple map
   eventListeners = /* @__PURE__ */ new Map();
   // Simplified handlers
-  transcriptHandler = null;
+  userTranscriptHandler = null;
   responseHandler = null;
   audioHandler = null;
   errorHandler = null;
@@ -691,6 +691,10 @@ var LiveSpeechClient = class {
       if (config?.prePrompt) {
         startMessage.prePrompt = config.prePrompt;
       }
+      if (config?.language) {
+        startMessage.language = config.language;
+      }
+      startMessage.pipelineMode = config?.pipelineMode ?? "live";
       this.connection.send(startMessage);
     });
   }
@@ -780,13 +784,7 @@ var LiveSpeechClient = class {
     }
   }
   /**
-   * Set transcript handler (simplified)
-   */
-  setTranscriptHandler(handler) {
-    this.transcriptHandler = handler;
-  }
-  /**
-   * Set response handler (simplified)
+   * Set response handler
    */
   setResponseHandler(handler) {
     this.responseHandler = handler;
@@ -797,6 +795,12 @@ var LiveSpeechClient = class {
   setAudioHandler(handler) {
     this.audioHandler = handler;
   }
+  /**
+   * Set user transcript handler
+   */
+  setUserTranscriptHandler(handler) {
+    this.userTranscriptHandler = handler;
+  }
   /**
    * Set error handler (simplified)
    */
@@ -875,36 +879,12 @@ var LiveSpeechClient = class {
           timestamp: message.timestamp
         });
         break;
-      case "streamingStarted":
-        this.emit("streamingStarted", {
-          type: "streamingStarted",
-          timestamp: message.timestamp
-        });
-        break;
-      case "speechStart":
-        this.emit("speechStart", {
-          type: "speechStart",
-          timestamp: message.timestamp
-        });
-        break;
-      case "speechEnd":
-        this.emit("speechEnd", {
-          type: "speechEnd",
-          timestamp: message.timestamp
-        });
-        break;
-      case "transcript": {
-        const transcriptEvent = {
-          type: "transcript",
-          text: message.text,
-          isFinal: message.isFinal,
+      case "ready": {
+        const readyEvent = {
+          type: "ready",
           timestamp: message.timestamp
         };
-        if (message.confidence !== void 0) {
-          transcriptEvent.confidence = message.confidence;
-        }
-        this.emit("transcript", transcriptEvent);
-        this.transcriptHandler?.(message.text, message.isFinal);
+        this.emit("ready", readyEvent);
         break;
       }
       case "response": {
@@ -931,6 +911,24 @@ var LiveSpeechClient = class {
         this.audioHandler?.(audioData);
         break;
       }
+      case "userTranscript": {
+        const userTranscriptEvent = {
+          type: "userTranscript",
+          text: message.text,
+          timestamp: message.timestamp
+        };
+        this.emit("userTranscript", userTranscriptEvent);
+        this.userTranscriptHandler?.(message.text);
+        break;
+      }
+      case "turnComplete": {
+        const turnCompleteEvent = {
+          type: "turnComplete",
+          timestamp: message.timestamp
+        };
+        this.emit("turnComplete", turnCompleteEvent);
+        break;
+      }
       case "error":
         this.handleError(message.code, message.message);
         break;

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@drawdream/livespeech",
-  "version": "0.1.1",
+  "version": "0.1.2",
   "description": "Real-time speech-to-speech AI conversation SDK",
   "main": "dist/index.js",
   "module": "dist/index.mjs",