npm - @drawdream/livespeech - Versions diffs - 0.1.0 → 0.1.1 - Mend

@drawdream/livespeech 0.1.0 → 0.1.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (5) hide show

package/dist/index.d.mts CHANGED Viewed

@@ -74,41 +74,8 @@ interface SessionConfig {
     /**
      * System prompt for the AI assistant
      */
-    prePrompt: string;
-    /**
-     * Voice ID for text-to-speech output
-     * @default 'en-US-Standard-A'
-     */
-    voiceId?: string;
-    /**
-     * Language code for speech recognition
-     * @default 'en-US'
-     */
-    languageCode?: string;
-    /**
-     * Audio encoding format for input
-     * @default 'pcm16'
-     */
-    inputFormat?: AudioFormat;
-    /**
-     * Audio encoding format for output
-     * @default 'pcm16'
-     */
-    outputFormat?: AudioFormat;
-    /**
-     * Sample rate for audio in Hz
-     * @default 16000
-     */
-    sampleRate?: number;
-    /**
-     * Custom metadata to attach to the session
-     */
-    metadata?: Record<string, string>;
+    prePrompt?: string;
 }
-/**
- * Supported audio formats
- */
-type AudioFormat = 'pcm16' | 'opus' | 'wav';
 /**
  * Internal resolved configuration with defaults applied
  */
@@ -125,7 +92,7 @@ interface ResolvedConfig {
 /**
  * Event types emitted by the LiveSpeech client
  */
-type LiveSpeechEventType = 'connected' | 'disconnected' | 'sessionStarted' | 'sessionEnded' | 'transcript' | 'response' | 'audio' | 'error' | 'reconnecting';
+type LiveSpeechEventType = 'connected' | 'disconnected' | 'sessionStarted' | 'sessionEnded' | 'streamingStarted' | 'speechStart' | 'speechEnd' | 'transcript' | 'response' | 'audio' | 'error' | 'reconnecting';
 /**
  * Event payload for 'connected' event
  */
@@ -163,6 +130,27 @@ interface SessionEndedEvent {
     sessionId: string;
     timestamp: string;
 }
+/**
+ * Event payload for 'streamingStarted' event - acknowledgment of audioStart
+ */
+interface StreamingStartedEvent {
+    type: 'streamingStarted';
+    timestamp: string;
+}
+/**
+ * Event payload for 'speechStart' event - VAD detected speech begin
+ */
+interface SpeechStartEvent {
+    type: 'speechStart';
+    timestamp: string;
+}
+/**
+ * Event payload for 'speechEnd' event - VAD detected speech end
+ */
+interface SpeechEndEvent {
+    type: 'speechEnd';
+    timestamp: string;
+}
 /**
  * Event payload for 'transcript' event
  */
@@ -205,7 +193,7 @@ interface ErrorEvent {
 /**
  * Error codes
  */
-type ErrorCode = 'connection_failed' | 'connection_timeout' | 'authentication_failed' | 'session_error' | 'audio_error' | 'stt_error' | 'llm_error' | 'tts_error' | 'rate_limit' | 'internal_error' | 'invalid_message';
+type ErrorCode = 'connection_failed' | 'connection_timeout' | 'authentication_failed' | 'session_error' | 'audio_error' | 'streaming_error' | 'stt_error' | 'llm_error' | 'tts_error' | 'rate_limit' | 'internal_error' | 'invalid_message';
 /**
  * Event payload for 'reconnecting' event
  */
@@ -219,7 +207,7 @@ interface ReconnectingEvent {
 /**
  * Union type of all event payloads
  */
-type LiveSpeechEvent = ConnectedEvent | DisconnectedEvent | SessionStartedEvent | SessionEndedEvent | TranscriptEvent | ResponseEvent | AudioEvent | ErrorEvent | ReconnectingEvent;
+type LiveSpeechEvent = ConnectedEvent | DisconnectedEvent | SessionStartedEvent | SessionEndedEvent | StreamingStartedEvent | SpeechStartEvent | SpeechEndEvent | TranscriptEvent | ResponseEvent | AudioEvent | ErrorEvent | ReconnectingEvent;
 /**
  * Simplified event handlers for common use cases
  */
@@ -231,30 +219,23 @@ type ErrorHandler = (error: ErrorEvent) => void;
 /**
  * WebSocket message types sent from client to server
  */
-type ClientMessageType = 'startSession' | 'endSession' | 'audio' | 'ping';
+type ClientMessageType = 'startSession' | 'endSession' | 'audioStart' | 'audioChunk' | 'audioEnd' | 'ping';
 /**
  * WebSocket message types received from server
  */
-type ServerMessageType = 'connected' | 'sessionStarted' | 'sessionEnded' | 'transcript' | 'response' | 'audio' | 'error' | 'pong';
+type ServerMessageType = 'sessionStarted' | 'sessionEnded' | 'streamingStarted' | 'speechStart' | 'speechEnd' | 'transcript' | 'response' | 'audio' | 'error' | 'pong';
 /**
  * Base interface for client messages
  */
 interface BaseClientMessage {
     action: ClientMessageType;
-    requestId?: string;
 }
 /**
  * Start session message
  */
 interface StartSessionMessage extends BaseClientMessage {
     action: 'startSession';
-    prePrompt: string;
-    voiceId?: string;
-    languageCode?: string;
-    inputFormat?: string;
-    outputFormat?: string;
-    sampleRate?: number;
-    metadata?: Record<string, string>;
+    prePrompt?: string;
 }
 /**
  * End session message
@@ -263,14 +244,23 @@ interface EndSessionMessage extends BaseClientMessage {
     action: 'endSession';
 }
 /**
- * Audio data message
+ * Audio start message - begin streaming session
  */
-interface AudioMessage extends BaseClientMessage {
-    action: 'audio';
+interface AudioStartMessage extends BaseClientMessage {
+    action: 'audioStart';
+}
+/**
+ * Audio chunk message - send audio data
+ */
+interface AudioChunkMessage extends BaseClientMessage {
+    action: 'audioChunk';
     data: string;
-    format?: string;
-    sampleRate?: number;
-    isFinal?: boolean;
+}
+/**
+ * Audio end message - end streaming session
+ */
+interface AudioEndMessage extends BaseClientMessage {
+    action: 'audioEnd';
 }
 /**
  * Ping message for keep-alive
@@ -281,22 +271,14 @@ interface PingMessage extends BaseClientMessage {
 /**
  * Union type of all client messages
  */
-type ClientMessage = StartSessionMessage | EndSessionMessage | AudioMessage | PingMessage;
+type ClientMessage = StartSessionMessage | EndSessionMessage | AudioStartMessage | AudioChunkMessage | AudioEndMessage | PingMessage;
 /**
  * Base interface for server messages
  */
 interface BaseServerMessage {
     type: ServerMessageType;
-    requestId?: string;
     timestamp: string;
 }
-/**
- * Connected message from server
- */
-interface ServerConnectedMessage extends BaseServerMessage {
-    type: 'connected';
-    connectionId: string;
-}
 /**
  * Session started message from server
  */
@@ -311,6 +293,24 @@ interface ServerSessionEndedMessage extends BaseServerMessage {
     type: 'sessionEnded';
     sessionId: string;
 }
+/**
+ * Streaming started message - acknowledgment of audioStart
+ */
+interface ServerStreamingStartedMessage extends BaseServerMessage {
+    type: 'streamingStarted';
+}
+/**
+ * Speech start message - VAD detected speech begin
+ */
+interface ServerSpeechStartMessage extends BaseServerMessage {
+    type: 'speechStart';
+}
+/**
+ * Speech end message - VAD detected speech end
+ */
+interface ServerSpeechEndMessage extends BaseServerMessage {
+    type: 'speechEnd';
+}
 /**
  * Transcript message from server
  */
@@ -344,7 +344,6 @@ interface ServerErrorMessage extends BaseServerMessage {
     type: 'error';
     code: string;
     message: string;
-    details?: unknown;
 }
 /**
  * Pong message from server
@@ -355,7 +354,7 @@ interface ServerPongMessage extends BaseServerMessage {
 /**
  * Union type of all server messages
  */
-type ServerMessage = ServerConnectedMessage | ServerSessionStartedMessage | ServerSessionEndedMessage | ServerTranscriptMessage | ServerResponseMessage | ServerAudioMessage | ServerErrorMessage | ServerPongMessage;
+type ServerMessage = ServerSessionStartedMessage | ServerSessionEndedMessage | ServerStreamingStartedMessage | ServerSpeechStartMessage | ServerSpeechEndMessage | ServerTranscriptMessage | ServerResponseMessage | ServerAudioMessage | ServerErrorMessage | ServerPongMessage;
 /**
  * Connection state
@@ -370,6 +369,9 @@ type LiveSpeechEventMap = {
     disconnected: DisconnectedEvent;
     sessionStarted: SessionStartedEvent;
     sessionEnded: SessionEndedEvent;
+    streamingStarted: StreamingStartedEvent;
+    speechStart: SpeechStartEvent;
+    speechEnd: SpeechEndEvent;
     transcript: TranscriptEvent;
     response: ResponseEvent;
     audio: AudioEvent;
@@ -385,7 +387,7 @@ declare class LiveSpeechClient {
     private readonly audioEncoder;
     private readonly logger;
     private sessionId;
-    private sessionConfig;
+    private isStreaming;
     private readonly eventListeners;
     private transcriptHandler;
     private responseHandler;
@@ -412,6 +414,10 @@ declare class LiveSpeechClient {
      * Check if session is active
      */
     get hasActiveSession(): boolean;
+    /**
+     * Check if audio streaming is active
+     */
+    get isAudioStreaming(): boolean;
     /**
      * Connect to the server
      */
@@ -423,18 +429,23 @@ declare class LiveSpeechClient {
     /**
      * Start a new session
      */
-    startSession(config: SessionConfig): Promise<string>;
+    startSession(config?: SessionConfig): Promise<string>;
     /**
      * End the current session
      */
     endSession(): Promise<void>;
     /**
-     * Send audio data
+     * Start audio streaming session
      */
-    sendAudio(data: Uint8Array, options?: {
-        format?: AudioFormat;
-        isFinal?: boolean;
-    }): void;
+    audioStart(): void;
+    /**
+     * Send audio chunk (PCM16 base64 encoded)
+     */
+    sendAudioChunk(data: Uint8Array): void;
+    /**
+     * End audio streaming session
+     */
+    audioEnd(): void;
     /**
      * Add event listener
      */
@@ -467,6 +478,10 @@ declare class LiveSpeechClient {
     private handleMessage;
 }
+/**
+ * Audio format type
+ */
+type AudioFormat = 'pcm16' | 'opus' | 'wav';
 /**
  * Audio encoder options
  */
@@ -552,4 +567,4 @@ declare class AudioEncoder {
     wrapWav(data: Uint8Array): Uint8Array;
 }
-export { AudioEncoder, type AudioEncoderOptions, type AudioEvent, type AudioFormat, type AudioHandler, type ClientMessage, type ClientMessageType, type ConnectedEvent, type ConnectionState, type DisconnectReason, type DisconnectedEvent, type ErrorCode, type ErrorEvent, type ErrorHandler, LiveSpeechClient, type LiveSpeechConfig, type LiveSpeechEvent, type LiveSpeechEventMap, type LiveSpeechEventType, type ReconnectingEvent, Region, Region as RegionType, type ResolvedConfig, type ResponseEvent, type ResponseHandler, type ServerMessage, type ServerMessageType, type SessionConfig, type SessionEndedEvent, type SessionStartedEvent, type TranscriptEvent, type TranscriptHandler, createWavHeader, decodeBase64ToAudio, encodeAudioToBase64, extractPcmFromWav, float32ToInt16, getEndpointForRegion, int16ToFloat32, int16ToUint8, isValidRegion, uint8ToInt16, wrapPcmInWav };
+export { AudioEncoder, type AudioEncoderOptions, type AudioEvent, type AudioHandler, type ClientMessage, type ClientMessageType, type ConnectedEvent, type ConnectionState, type DisconnectReason, type DisconnectedEvent, type ErrorCode, type ErrorEvent, type ErrorHandler, LiveSpeechClient, type LiveSpeechConfig, type LiveSpeechEvent, type LiveSpeechEventMap, type LiveSpeechEventType, type ReconnectingEvent, Region, Region as RegionType, type ResolvedConfig, type ResponseEvent, type ResponseHandler, type ServerMessage, type ServerMessageType, type SessionConfig, type SessionEndedEvent, type SessionStartedEvent, type SpeechEndEvent, type SpeechStartEvent, type StreamingStartedEvent, type TranscriptEvent, type TranscriptHandler, createWavHeader, decodeBase64ToAudio, encodeAudioToBase64, extractPcmFromWav, float32ToInt16, getEndpointForRegion, int16ToFloat32, int16ToUint8, isValidRegion, uint8ToInt16, wrapPcmInWav };

package/dist/index.d.ts CHANGED Viewed

@@ -74,41 +74,8 @@ interface SessionConfig {
     /**
      * System prompt for the AI assistant
      */
-    prePrompt: string;
-    /**
-     * Voice ID for text-to-speech output
-     * @default 'en-US-Standard-A'
-     */
-    voiceId?: string;
-    /**
-     * Language code for speech recognition
-     * @default 'en-US'
-     */
-    languageCode?: string;
-    /**
-     * Audio encoding format for input
-     * @default 'pcm16'
-     */
-    inputFormat?: AudioFormat;
-    /**
-     * Audio encoding format for output
-     * @default 'pcm16'
-     */
-    outputFormat?: AudioFormat;
-    /**
-     * Sample rate for audio in Hz
-     * @default 16000
-     */
-    sampleRate?: number;
-    /**
-     * Custom metadata to attach to the session
-     */
-    metadata?: Record<string, string>;
+    prePrompt?: string;
 }
-/**
- * Supported audio formats
- */
-type AudioFormat = 'pcm16' | 'opus' | 'wav';
 /**
  * Internal resolved configuration with defaults applied
  */
@@ -125,7 +92,7 @@ interface ResolvedConfig {
 /**
  * Event types emitted by the LiveSpeech client
  */
-type LiveSpeechEventType = 'connected' | 'disconnected' | 'sessionStarted' | 'sessionEnded' | 'transcript' | 'response' | 'audio' | 'error' | 'reconnecting';
+type LiveSpeechEventType = 'connected' | 'disconnected' | 'sessionStarted' | 'sessionEnded' | 'streamingStarted' | 'speechStart' | 'speechEnd' | 'transcript' | 'response' | 'audio' | 'error' | 'reconnecting';
 /**
  * Event payload for 'connected' event
  */
@@ -163,6 +130,27 @@ interface SessionEndedEvent {
     sessionId: string;
     timestamp: string;
 }
+/**
+ * Event payload for 'streamingStarted' event - acknowledgment of audioStart
+ */
+interface StreamingStartedEvent {
+    type: 'streamingStarted';
+    timestamp: string;
+}
+/**
+ * Event payload for 'speechStart' event - VAD detected speech begin
+ */
+interface SpeechStartEvent {
+    type: 'speechStart';
+    timestamp: string;
+}
+/**
+ * Event payload for 'speechEnd' event - VAD detected speech end
+ */
+interface SpeechEndEvent {
+    type: 'speechEnd';
+    timestamp: string;
+}
 /**
  * Event payload for 'transcript' event
  */
@@ -205,7 +193,7 @@ interface ErrorEvent {
 /**
  * Error codes
  */
-type ErrorCode = 'connection_failed' | 'connection_timeout' | 'authentication_failed' | 'session_error' | 'audio_error' | 'stt_error' | 'llm_error' | 'tts_error' | 'rate_limit' | 'internal_error' | 'invalid_message';
+type ErrorCode = 'connection_failed' | 'connection_timeout' | 'authentication_failed' | 'session_error' | 'audio_error' | 'streaming_error' | 'stt_error' | 'llm_error' | 'tts_error' | 'rate_limit' | 'internal_error' | 'invalid_message';
 /**
  * Event payload for 'reconnecting' event
  */
@@ -219,7 +207,7 @@ interface ReconnectingEvent {
 /**
  * Union type of all event payloads
  */
-type LiveSpeechEvent = ConnectedEvent | DisconnectedEvent | SessionStartedEvent | SessionEndedEvent | TranscriptEvent | ResponseEvent | AudioEvent | ErrorEvent | ReconnectingEvent;
+type LiveSpeechEvent = ConnectedEvent | DisconnectedEvent | SessionStartedEvent | SessionEndedEvent | StreamingStartedEvent | SpeechStartEvent | SpeechEndEvent | TranscriptEvent | ResponseEvent | AudioEvent | ErrorEvent | ReconnectingEvent;
 /**
  * Simplified event handlers for common use cases
  */
@@ -231,30 +219,23 @@ type ErrorHandler = (error: ErrorEvent) => void;
 /**
  * WebSocket message types sent from client to server
  */
-type ClientMessageType = 'startSession' | 'endSession' | 'audio' | 'ping';
+type ClientMessageType = 'startSession' | 'endSession' | 'audioStart' | 'audioChunk' | 'audioEnd' | 'ping';
 /**
  * WebSocket message types received from server
  */
-type ServerMessageType = 'connected' | 'sessionStarted' | 'sessionEnded' | 'transcript' | 'response' | 'audio' | 'error' | 'pong';
+type ServerMessageType = 'sessionStarted' | 'sessionEnded' | 'streamingStarted' | 'speechStart' | 'speechEnd' | 'transcript' | 'response' | 'audio' | 'error' | 'pong';
 /**
  * Base interface for client messages
  */
 interface BaseClientMessage {
     action: ClientMessageType;
-    requestId?: string;
 }
 /**
  * Start session message
  */
 interface StartSessionMessage extends BaseClientMessage {
     action: 'startSession';
-    prePrompt: string;
-    voiceId?: string;
-    languageCode?: string;
-    inputFormat?: string;
-    outputFormat?: string;
-    sampleRate?: number;
-    metadata?: Record<string, string>;
+    prePrompt?: string;
 }
 /**
  * End session message
@@ -263,14 +244,23 @@ interface EndSessionMessage extends BaseClientMessage {
     action: 'endSession';
 }
 /**
- * Audio data message
+ * Audio start message - begin streaming session
  */
-interface AudioMessage extends BaseClientMessage {
-    action: 'audio';
+interface AudioStartMessage extends BaseClientMessage {
+    action: 'audioStart';
+}
+/**
+ * Audio chunk message - send audio data
+ */
+interface AudioChunkMessage extends BaseClientMessage {
+    action: 'audioChunk';
     data: string;
-    format?: string;
-    sampleRate?: number;
-    isFinal?: boolean;
+}
+/**
+ * Audio end message - end streaming session
+ */
+interface AudioEndMessage extends BaseClientMessage {
+    action: 'audioEnd';
 }
 /**
  * Ping message for keep-alive
@@ -281,22 +271,14 @@ interface PingMessage extends BaseClientMessage {
 /**
  * Union type of all client messages
  */
-type ClientMessage = StartSessionMessage | EndSessionMessage | AudioMessage | PingMessage;
+type ClientMessage = StartSessionMessage | EndSessionMessage | AudioStartMessage | AudioChunkMessage | AudioEndMessage | PingMessage;
 /**
  * Base interface for server messages
  */
 interface BaseServerMessage {
     type: ServerMessageType;
-    requestId?: string;
     timestamp: string;
 }
-/**
- * Connected message from server
- */
-interface ServerConnectedMessage extends BaseServerMessage {
-    type: 'connected';
-    connectionId: string;
-}
 /**
  * Session started message from server
  */
@@ -311,6 +293,24 @@ interface ServerSessionEndedMessage extends BaseServerMessage {
     type: 'sessionEnded';
     sessionId: string;
 }
+/**
+ * Streaming started message - acknowledgment of audioStart
+ */
+interface ServerStreamingStartedMessage extends BaseServerMessage {
+    type: 'streamingStarted';
+}
+/**
+ * Speech start message - VAD detected speech begin
+ */
+interface ServerSpeechStartMessage extends BaseServerMessage {
+    type: 'speechStart';
+}
+/**
+ * Speech end message - VAD detected speech end
+ */
+interface ServerSpeechEndMessage extends BaseServerMessage {
+    type: 'speechEnd';
+}
 /**
  * Transcript message from server
  */
@@ -344,7 +344,6 @@ interface ServerErrorMessage extends BaseServerMessage {
     type: 'error';
     code: string;
     message: string;
-    details?: unknown;
 }
 /**
  * Pong message from server
@@ -355,7 +354,7 @@ interface ServerPongMessage extends BaseServerMessage {
 /**
  * Union type of all server messages
  */
-type ServerMessage = ServerConnectedMessage | ServerSessionStartedMessage | ServerSessionEndedMessage | ServerTranscriptMessage | ServerResponseMessage | ServerAudioMessage | ServerErrorMessage | ServerPongMessage;
+type ServerMessage = ServerSessionStartedMessage | ServerSessionEndedMessage | ServerStreamingStartedMessage | ServerSpeechStartMessage | ServerSpeechEndMessage | ServerTranscriptMessage | ServerResponseMessage | ServerAudioMessage | ServerErrorMessage | ServerPongMessage;
 /**
  * Connection state
@@ -370,6 +369,9 @@ type LiveSpeechEventMap = {
     disconnected: DisconnectedEvent;
     sessionStarted: SessionStartedEvent;
     sessionEnded: SessionEndedEvent;
+    streamingStarted: StreamingStartedEvent;
+    speechStart: SpeechStartEvent;
+    speechEnd: SpeechEndEvent;
     transcript: TranscriptEvent;
     response: ResponseEvent;
     audio: AudioEvent;
@@ -385,7 +387,7 @@ declare class LiveSpeechClient {
     private readonly audioEncoder;
     private readonly logger;
     private sessionId;
-    private sessionConfig;
+    private isStreaming;
     private readonly eventListeners;
     private transcriptHandler;
     private responseHandler;
@@ -412,6 +414,10 @@ declare class LiveSpeechClient {
      * Check if session is active
      */
     get hasActiveSession(): boolean;
+    /**
+     * Check if audio streaming is active
+     */
+    get isAudioStreaming(): boolean;
     /**
      * Connect to the server
      */
@@ -423,18 +429,23 @@ declare class LiveSpeechClient {
     /**
      * Start a new session
      */
-    startSession(config: SessionConfig): Promise<string>;
+    startSession(config?: SessionConfig): Promise<string>;
     /**
      * End the current session
      */
     endSession(): Promise<void>;
     /**
-     * Send audio data
+     * Start audio streaming session
      */
-    sendAudio(data: Uint8Array, options?: {
-        format?: AudioFormat;
-        isFinal?: boolean;
-    }): void;
+    audioStart(): void;
+    /**
+     * Send audio chunk (PCM16 base64 encoded)
+     */
+    sendAudioChunk(data: Uint8Array): void;
+    /**
+     * End audio streaming session
+     */
+    audioEnd(): void;
     /**
      * Add event listener
      */
@@ -467,6 +478,10 @@ declare class LiveSpeechClient {
     private handleMessage;
 }
+/**
+ * Audio format type
+ */
+type AudioFormat = 'pcm16' | 'opus' | 'wav';
 /**
  * Audio encoder options
  */
@@ -552,4 +567,4 @@ declare class AudioEncoder {
     wrapWav(data: Uint8Array): Uint8Array;
 }
-export { AudioEncoder, type AudioEncoderOptions, type AudioEvent, type AudioFormat, type AudioHandler, type ClientMessage, type ClientMessageType, type ConnectedEvent, type ConnectionState, type DisconnectReason, type DisconnectedEvent, type ErrorCode, type ErrorEvent, type ErrorHandler, LiveSpeechClient, type LiveSpeechConfig, type LiveSpeechEvent, type LiveSpeechEventMap, type LiveSpeechEventType, type ReconnectingEvent, Region, Region as RegionType, type ResolvedConfig, type ResponseEvent, type ResponseHandler, type ServerMessage, type ServerMessageType, type SessionConfig, type SessionEndedEvent, type SessionStartedEvent, type TranscriptEvent, type TranscriptHandler, createWavHeader, decodeBase64ToAudio, encodeAudioToBase64, extractPcmFromWav, float32ToInt16, getEndpointForRegion, int16ToFloat32, int16ToUint8, isValidRegion, uint8ToInt16, wrapPcmInWav };
+export { AudioEncoder, type AudioEncoderOptions, type AudioEvent, type AudioHandler, type ClientMessage, type ClientMessageType, type ConnectedEvent, type ConnectionState, type DisconnectReason, type DisconnectedEvent, type ErrorCode, type ErrorEvent, type ErrorHandler, LiveSpeechClient, type LiveSpeechConfig, type LiveSpeechEvent, type LiveSpeechEventMap, type LiveSpeechEventType, type ReconnectingEvent, Region, Region as RegionType, type ResolvedConfig, type ResponseEvent, type ResponseHandler, type ServerMessage, type ServerMessageType, type SessionConfig, type SessionEndedEvent, type SessionStartedEvent, type SpeechEndEvent, type SpeechStartEvent, type StreamingStartedEvent, type TranscriptEvent, type TranscriptHandler, createWavHeader, decodeBase64ToAudio, encodeAudioToBase64, extractPcmFromWav, float32ToInt16, getEndpointForRegion, int16ToFloat32, int16ToUint8, isValidRegion, uint8ToInt16, wrapPcmInWav };

package/dist/index.js CHANGED Viewed

@@ -332,22 +332,13 @@ var WebSocketConnection = class {
   /**
    * Handle incoming message
    */
-  handleMessage(data, onFirstConnect) {
+  handleMessage(data) {
     const message = parseServerMessage(data);
     if (!message) {
       this.logger.warn("Invalid message received:", data);
       return;
     }
     this.logger.debug("Received message:", message.type);
-    if (message.type === "connected") {
-      this.connectionId = message.connectionId;
-      this.state = "connected";
-      this.retryController.reset();
-      this.startPingInterval();
-      this.events.onOpen?.(message.connectionId);
-      onFirstConnect?.();
-      return;
-    }
     if (message.type === "pong") {
       this.logger.debug("Pong received");
       return;
@@ -613,20 +604,13 @@ var CONFIG_DEFAULTS = {
   reconnectDelay: 1e3,
   debug: false
 };
-var SESSION_DEFAULTS = {
-  voiceId: "en-US-Standard-A",
-  languageCode: "en-US",
-  inputFormat: "pcm16",
-  outputFormat: "pcm16",
-  sampleRate: 16e3
-};
 var LiveSpeechClient = class {
   config;
   connection;
   audioEncoder;
   logger;
   sessionId = null;
-  sessionConfig = null;
+  isStreaming = false;
   // Event listeners using a simple map
   eventListeners = /* @__PURE__ */ new Map();
   // Simplified handlers
@@ -692,6 +676,12 @@ var LiveSpeechClient = class {
   get hasActiveSession() {
     return this.sessionId !== null;
   }
+  /**
+   * Check if audio streaming is active
+   */
+  get isAudioStreaming() {
+    return this.isStreaming;
+  }
   /**
    * Connect to the server
    */
@@ -705,7 +695,7 @@ var LiveSpeechClient = class {
   disconnect() {
     this.logger.info("Disconnecting...");
     this.sessionId = null;
-    this.sessionConfig = null;
+    this.isStreaming = false;
     this.connection.disconnect();
   }
   /**
@@ -718,16 +708,6 @@ var LiveSpeechClient = class {
     if (this.sessionId) {
       throw new Error("Session already active. Call endSession() first.");
     }
-    const resolvedConfig = {
-      prePrompt: config.prePrompt,
-      voiceId: config.voiceId ?? SESSION_DEFAULTS.voiceId,
-      languageCode: config.languageCode ?? SESSION_DEFAULTS.languageCode,
-      inputFormat: config.inputFormat ?? SESSION_DEFAULTS.inputFormat,
-      outputFormat: config.outputFormat ?? SESSION_DEFAULTS.outputFormat,
-      sampleRate: config.sampleRate ?? SESSION_DEFAULTS.sampleRate,
-      metadata: config.metadata ?? {}
-    };
-    this.sessionConfig = resolvedConfig;
     this.logger.info("Starting session...");
     return new Promise((resolve, reject) => {
       const onSessionStarted = (event) => {
@@ -744,16 +724,13 @@ var LiveSpeechClient = class {
       };
       this.on("sessionStarted", onSessionStarted);
       this.on("error", onError);
-      this.connection.send({
-        action: "startSession",
-        prePrompt: resolvedConfig.prePrompt,
-        voiceId: resolvedConfig.voiceId,
-        languageCode: resolvedConfig.languageCode,
-        inputFormat: resolvedConfig.inputFormat,
-        outputFormat: resolvedConfig.outputFormat,
-        sampleRate: resolvedConfig.sampleRate,
-        metadata: resolvedConfig.metadata
-      });
+      const startMessage = {
+        action: "startSession"
+      };
+      if (config?.prePrompt) {
+        startMessage.prePrompt = config.prePrompt;
+      }
+      this.connection.send(startMessage);
     });
   }
   /**
@@ -765,6 +742,9 @@ var LiveSpeechClient = class {
       return;
     }
     this.logger.info("Ending session...");
+    if (this.isStreaming) {
+      this.audioEnd();
+    }
     return new Promise((resolve) => {
       const onSessionEnded = () => {
         this.off("sessionEnded", onSessionEnded);
@@ -775,28 +755,49 @@ var LiveSpeechClient = class {
     });
   }
   /**
-   * Send audio data
+   * Start audio streaming session
    */
-  sendAudio(data, options) {
+  audioStart() {
     if (!this.isConnected) {
       throw new Error("Not connected");
     }
     if (!this.sessionId) {
       throw new Error("No active session. Call startSession() first.");
     }
+    if (this.isStreaming) {
+      throw new Error("Already streaming. Call audioEnd() first.");
+    }
+    this.logger.info("Starting audio stream...");
+    this.connection.send({ action: "audioStart" });
+    this.isStreaming = true;
+  }
+  /**
+   * Send audio chunk (PCM16 base64 encoded)
+   */
+  sendAudioChunk(data) {
+    if (!this.isConnected) {
+      throw new Error("Not connected");
+    }
+    if (!this.isStreaming) {
+      throw new Error("Not streaming. Call audioStart() first.");
+    }
     const base64Data = this.audioEncoder.encode(data);
-    const format = options?.format ?? this.sessionConfig?.inputFormat ?? SESSION_DEFAULTS.inputFormat;
-    const sampleRate = this.sessionConfig?.sampleRate ?? SESSION_DEFAULTS.sampleRate;
-    const audioMessage = {
-      action: "audio",
-      data: base64Data,
-      format,
-      sampleRate
-    };
-    if (options?.isFinal !== void 0) {
-      audioMessage.isFinal = options.isFinal;
+    this.connection.send({
+      action: "audioChunk",
+      data: base64Data
+    });
+  }
+  /**
+   * End audio streaming session
+   */
+  audioEnd() {
+    if (!this.isStreaming) {
+      this.logger.warn("Not streaming");
+      return;
     }
-    this.connection.send(audioMessage);
+    this.logger.info("Ending audio stream...");
+    this.connection.send({ action: "audioEnd" });
+    this.isStreaming = false;
   }
   // ==================== Event System ====================
   /**
@@ -864,7 +865,7 @@ var LiveSpeechClient = class {
   }
   handleDisconnected(code, _reason) {
     this.sessionId = null;
-    this.sessionConfig = null;
+    this.isStreaming = false;
     const event = {
       type: "disconnected",
       reason: code === 1e3 ? "normal" : "error",
@@ -906,13 +907,31 @@ var LiveSpeechClient = class {
         break;
       case "sessionEnded":
         this.sessionId = null;
-        this.sessionConfig = null;
+        this.isStreaming = false;
         this.emit("sessionEnded", {
           type: "sessionEnded",
           sessionId: message.sessionId,
           timestamp: message.timestamp
         });
         break;
+      case "streamingStarted":
+        this.emit("streamingStarted", {
+          type: "streamingStarted",
+          timestamp: message.timestamp
+        });
+        break;
+      case "speechStart":
+        this.emit("speechStart", {
+          type: "speechStart",
+          timestamp: message.timestamp
+        });
+        break;
+      case "speechEnd":
+        this.emit("speechEnd", {
+          type: "speechEnd",
+          timestamp: message.timestamp
+        });
+        break;
       case "transcript": {
         const transcriptEvent = {
           type: "transcript",
@@ -952,7 +971,7 @@ var LiveSpeechClient = class {
         break;
       }
       case "error":
-        this.handleError(message.code, message.message, message.details);
+        this.handleError(message.code, message.message);
         break;
       default:
         this.logger.warn("Unknown message type:", message.type);

package/dist/index.mjs CHANGED Viewed

@@ -293,22 +293,13 @@ var WebSocketConnection = class {
   /**
    * Handle incoming message
    */
-  handleMessage(data, onFirstConnect) {
+  handleMessage(data) {
     const message = parseServerMessage(data);
     if (!message) {
       this.logger.warn("Invalid message received:", data);
       return;
     }
     this.logger.debug("Received message:", message.type);
-    if (message.type === "connected") {
-      this.connectionId = message.connectionId;
-      this.state = "connected";
-      this.retryController.reset();
-      this.startPingInterval();
-      this.events.onOpen?.(message.connectionId);
-      onFirstConnect?.();
-      return;
-    }
     if (message.type === "pong") {
       this.logger.debug("Pong received");
       return;
@@ -574,20 +565,13 @@ var CONFIG_DEFAULTS = {
   reconnectDelay: 1e3,
   debug: false
 };
-var SESSION_DEFAULTS = {
-  voiceId: "en-US-Standard-A",
-  languageCode: "en-US",
-  inputFormat: "pcm16",
-  outputFormat: "pcm16",
-  sampleRate: 16e3
-};
 var LiveSpeechClient = class {
   config;
   connection;
   audioEncoder;
   logger;
   sessionId = null;
-  sessionConfig = null;
+  isStreaming = false;
   // Event listeners using a simple map
   eventListeners = /* @__PURE__ */ new Map();
   // Simplified handlers
@@ -653,6 +637,12 @@ var LiveSpeechClient = class {
   get hasActiveSession() {
     return this.sessionId !== null;
   }
+  /**
+   * Check if audio streaming is active
+   */
+  get isAudioStreaming() {
+    return this.isStreaming;
+  }
   /**
    * Connect to the server
    */
@@ -666,7 +656,7 @@ var LiveSpeechClient = class {
   disconnect() {
     this.logger.info("Disconnecting...");
     this.sessionId = null;
-    this.sessionConfig = null;
+    this.isStreaming = false;
     this.connection.disconnect();
   }
   /**
@@ -679,16 +669,6 @@ var LiveSpeechClient = class {
     if (this.sessionId) {
       throw new Error("Session already active. Call endSession() first.");
     }
-    const resolvedConfig = {
-      prePrompt: config.prePrompt,
-      voiceId: config.voiceId ?? SESSION_DEFAULTS.voiceId,
-      languageCode: config.languageCode ?? SESSION_DEFAULTS.languageCode,
-      inputFormat: config.inputFormat ?? SESSION_DEFAULTS.inputFormat,
-      outputFormat: config.outputFormat ?? SESSION_DEFAULTS.outputFormat,
-      sampleRate: config.sampleRate ?? SESSION_DEFAULTS.sampleRate,
-      metadata: config.metadata ?? {}
-    };
-    this.sessionConfig = resolvedConfig;
     this.logger.info("Starting session...");
     return new Promise((resolve, reject) => {
       const onSessionStarted = (event) => {
@@ -705,16 +685,13 @@ var LiveSpeechClient = class {
       };
       this.on("sessionStarted", onSessionStarted);
       this.on("error", onError);
-      this.connection.send({
-        action: "startSession",
-        prePrompt: resolvedConfig.prePrompt,
-        voiceId: resolvedConfig.voiceId,
-        languageCode: resolvedConfig.languageCode,
-        inputFormat: resolvedConfig.inputFormat,
-        outputFormat: resolvedConfig.outputFormat,
-        sampleRate: resolvedConfig.sampleRate,
-        metadata: resolvedConfig.metadata
-      });
+      const startMessage = {
+        action: "startSession"
+      };
+      if (config?.prePrompt) {
+        startMessage.prePrompt = config.prePrompt;
+      }
+      this.connection.send(startMessage);
     });
   }
   /**
@@ -726,6 +703,9 @@ var LiveSpeechClient = class {
       return;
     }
     this.logger.info("Ending session...");
+    if (this.isStreaming) {
+      this.audioEnd();
+    }
     return new Promise((resolve) => {
       const onSessionEnded = () => {
         this.off("sessionEnded", onSessionEnded);
@@ -736,28 +716,49 @@ var LiveSpeechClient = class {
     });
   }
   /**
-   * Send audio data
+   * Start audio streaming session
    */
-  sendAudio(data, options) {
+  audioStart() {
     if (!this.isConnected) {
       throw new Error("Not connected");
     }
     if (!this.sessionId) {
       throw new Error("No active session. Call startSession() first.");
     }
+    if (this.isStreaming) {
+      throw new Error("Already streaming. Call audioEnd() first.");
+    }
+    this.logger.info("Starting audio stream...");
+    this.connection.send({ action: "audioStart" });
+    this.isStreaming = true;
+  }
+  /**
+   * Send audio chunk (PCM16 base64 encoded)
+   */
+  sendAudioChunk(data) {
+    if (!this.isConnected) {
+      throw new Error("Not connected");
+    }
+    if (!this.isStreaming) {
+      throw new Error("Not streaming. Call audioStart() first.");
+    }
     const base64Data = this.audioEncoder.encode(data);
-    const format = options?.format ?? this.sessionConfig?.inputFormat ?? SESSION_DEFAULTS.inputFormat;
-    const sampleRate = this.sessionConfig?.sampleRate ?? SESSION_DEFAULTS.sampleRate;
-    const audioMessage = {
-      action: "audio",
-      data: base64Data,
-      format,
-      sampleRate
-    };
-    if (options?.isFinal !== void 0) {
-      audioMessage.isFinal = options.isFinal;
+    this.connection.send({
+      action: "audioChunk",
+      data: base64Data
+    });
+  }
+  /**
+   * End audio streaming session
+   */
+  audioEnd() {
+    if (!this.isStreaming) {
+      this.logger.warn("Not streaming");
+      return;
     }
-    this.connection.send(audioMessage);
+    this.logger.info("Ending audio stream...");
+    this.connection.send({ action: "audioEnd" });
+    this.isStreaming = false;
   }
   // ==================== Event System ====================
   /**
@@ -825,7 +826,7 @@ var LiveSpeechClient = class {
   }
   handleDisconnected(code, _reason) {
     this.sessionId = null;
-    this.sessionConfig = null;
+    this.isStreaming = false;
     const event = {
       type: "disconnected",
       reason: code === 1e3 ? "normal" : "error",
@@ -867,13 +868,31 @@ var LiveSpeechClient = class {
         break;
       case "sessionEnded":
         this.sessionId = null;
-        this.sessionConfig = null;
+        this.isStreaming = false;
         this.emit("sessionEnded", {
           type: "sessionEnded",
           sessionId: message.sessionId,
           timestamp: message.timestamp
         });
         break;
+      case "streamingStarted":
+        this.emit("streamingStarted", {
+          type: "streamingStarted",
+          timestamp: message.timestamp
+        });
+        break;
+      case "speechStart":
+        this.emit("speechStart", {
+          type: "speechStart",
+          timestamp: message.timestamp
+        });
+        break;
+      case "speechEnd":
+        this.emit("speechEnd", {
+          type: "speechEnd",
+          timestamp: message.timestamp
+        });
+        break;
       case "transcript": {
         const transcriptEvent = {
           type: "transcript",
@@ -913,7 +932,7 @@ var LiveSpeechClient = class {
         break;
       }
       case "error":
-        this.handleError(message.code, message.message, message.details);
+        this.handleError(message.code, message.message);
         break;
       default:
         this.logger.warn("Unknown message type:", message.type);

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@drawdream/livespeech",
-  "version": "0.1.0",
+  "version": "0.1.1",
   "description": "Real-time speech-to-speech AI conversation SDK",
   "main": "dist/index.js",
   "module": "dist/index.mjs",