npm - @micdrop/server - Versions diffs - 1.0.0 - Mend

@micdrop/server 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (8) hide show

package/README.md ADDED Viewed

@@ -0,0 +1,245 @@
+# @micdrop/server
+A Node.js library for handling real-time voice conversations with WebSocket-based audio streaming.
+For browser implementation, see [@micdrop/client](../client/README.md) package.
+## Features
+- 🌐 WebSocket server for real-time audio streaming
+- 🔊 Audio data handling and processing
+- 💬 Conversation state management
+- ⚡ Event-based architecture
+- 🔄 Bi-directional communication
+- 🛡️ Built-in error handling
+- 🎙️ Speech-to-text and text-to-speech integration
+- 🤖 AI conversation generation support
+- 💾 Debug mode with optional audio saving
+## Installation
+```bash
+npm install @micdrop/server
+# or
+yarn add @micdrop/server
+# or
+pnpm add @micdrop/server
+```
+## Quick Start
+```typescript
+import { WebSocketServer } from 'ws'
+import { CallSocket, CallConfig } from '@micdrop/server'
+// Create WebSocket server
+const wss = new WebSocketServer({ port: 8080 })
+// Define call configuration
+const config: CallConfig = {
+  // Initial system prompt for the conversation
+  systemPrompt: 'You are a helpful assistant',
+  // Optional first message from assistant
+  firstMessage: 'Hello!',
+  // Function to generate assistant responses
+  async generateAnswer(conversation) {
+    // Implement your LLM or response generation logic
+    return 'Assistant response'
+  },
+  // Function to convert speech to text
+  async speech2Text(audioBlob, lastMessagePrompt) {
+    // Implement your STT logic
+    return 'Transcribed text'
+  },
+  // Function to convert text to speech
+  async text2Speech(text) {
+    // Implement your TTS logic
+    return new ArrayBuffer(0) // Audio data
+  },
+  // Optional callback when a message is added
+  onMessage(message) {
+    console.log('New message:', message)
+  },
+  // Optional callback when call ends
+  onEnd(summary) {
+    console.log('Call ended:', summary)
+  },
+}
+// Handle new connections
+wss.on('connection', (ws) => {
+  // Create call handler with configuration
+  new CallSocket(ws, config)
+})
+```
+## Documentation
+The server package provides several core components:
+- **CallSocket** - Main class that handles WebSocket connections, audio streaming, and conversation flow
+- **CallConfig** - Configuration interface for customizing speech processing and conversation behavior
+- **Types** - Common TypeScript types and interfaces for messages and commands
+- **Error Handling** - Standardized error handling with specific error codes
+## API Reference
+### CallSocket
+The main class for managing WebSocket connections and audio streaming.
+```typescript
+class CallSocket {
+  constructor(socket: WebSocket, config: CallConfig)
+}
+```
+### CallConfig
+Configuration interface for customizing the call behavior.
+```typescript
+interface CallConfig {
+  // Initial system prompt for the conversation
+  systemPrompt: string
+  // Optional first message from assistant
+  firstMessage?: string
+  // Generate assistant's response
+  generateAnswer(conversation: Conversation): Promise<string>
+  // Convert audio to text
+  speech2Text(blob: Blob, prompt?: string): Promise<string>
+  // Convert text to audio
+  text2Speech(text: string): Promise<ArrayBuffer>
+  // Optional callbacks
+  onMessage?(message: ConversationMessage): void
+  onEnd?(summary: CallSummary): void
+}
+```
+### Message Types
+```typescript
+interface ConversationMessage {
+  role: 'system' | 'user' | 'assistant'
+  content: string
+}
+type Conversation = ConversationMessage[]
+interface CallSummary {
+  conversation: Conversation
+  duration: number
+}
+```
+## WebSocket Protocol
+The server implements a specific protocol for client-server communication:
+### Client Commands
+```typescript
+enum CallClientCommands {
+  StartSpeaking = 'startSpeaking',
+  StopSpeaking = 'stopSpeaking',
+  Mute = 'mute',
+}
+```
+### Server Commands
+```typescript
+enum CallServerCommands {
+  UserMessage = 'userMessage',
+  AssistantMessage = 'assistantMessage',
+  CancelLastAssistantMessage = 'cancelLastAssistantMessage',
+  EndInterview = 'endInterview',
+}
+```
+### Message Flow
+1. Client connects to WebSocket server
+2. Server sends initial assistant message (if configured)
+3. Client sends audio chunks when user speaks
+4. Server processes audio and responds with text/audio
+5. Process continues until interview ends
+## Error Handling
+The server implements standardized error handling with specific codes:
+```typescript
+enum CallErrorCode {
+  BadRequest = 4400,
+  Unauthorized = 4401,
+  NotFound = 4404,
+}
+```
+Common error scenarios:
+- Invalid WebSocket messages
+- Authentication failures
+- Missing or invalid parameters
+- Audio processing errors
+- Connection timeouts
+## Integration Example
+Here's an example using Fastify:
+```typescript
+import fastify from 'fastify'
+import fastifyWebsocket from '@fastify/websocket'
+import { CallSocket, CallConfig } from '@micdrop/server'
+const server = fastify()
+server.register(fastifyWebsocket)
+server.get('/call', { websocket: true }, (socket) => {
+  const config: CallConfig = {
+    systemPrompt: 'You are a helpful assistant',
+    // ... other config options
+  }
+  new CallSocket(socket, config)
+})
+server.listen({ port: 8080 })
+```
+## Debug Mode
+The server includes a debug mode that can:
+- Log detailed timing information
+- Save audio files for debugging (optional)
+- Track conversation state
+- Monitor WebSocket events
+## Browser Support
+The server is designed to work with any WebSocket client, but is specifically tested with:
+- Modern browsers supporting WebSocket API
+- Node.js clients
+- @micdrop/client package
+## License
+MIT
+## Author
+[Lonestone](https://www.lonestone.io) ([GitHub](https://github.com/lonestone))

package/dist/index.d.mts ADDED Viewed

@@ -0,0 +1,65 @@
+import WebSocket$1, { WebSocket } from 'ws';
+declare enum CallClientCommands {
+    StartSpeaking = "startSpeaking",
+    StopSpeaking = "stopSpeaking",
+    Mute = "mute"
+}
+declare enum CallServerCommands {
+    UserMessage = "userMessage",
+    AssistantMessage = "assistantMessage",
+    CancelLastAssistantMessage = "cancelLastAssistantMessage",
+    EndInterview = "endInterview"
+}
+interface CallConfig {
+    systemPrompt: string;
+    firstMessage?: string;
+    generateAnswer(conversation: Conversation): Promise<string>;
+    speech2Text(blob: Blob, prompt?: string): Promise<string>;
+    text2Speech(text: string): Promise<ArrayBuffer>;
+    onMessage?(message: ConversationMessage): void;
+    onEnd?(call: CallSummary): void;
+}
+interface CallSummary {
+    conversation: Conversation;
+    duration: number;
+}
+type Conversation = ConversationMessage[];
+interface ConversationMessage {
+    role: 'system' | 'user' | 'assistant';
+    content: string;
+}
+declare const END_INTERVIEW = "END_INTERVIEW";
+declare class CallSocket {
+    socket: WebSocket;
+    config: CallConfig;
+    private startTime;
+    private lastDebug;
+    private abortAnswer;
+    private isSpeaking;
+    private chunks;
+    private conversation;
+    constructor(socket: WebSocket, config: CallConfig);
+    private addMessage;
+    private onClose;
+    private onMessage;
+    private onStopSpeaking;
+    private answer;
+    private debug;
+}
+declare enum CallErrorCode {
+    BadRequest = 4400,
+    Unauthorized = 4401,
+    NotFound = 4404
+}
+declare class CallError extends Error {
+    code: number;
+    constructor(code: number, message: string);
+}
+declare function handleError(socket: WebSocket$1, error: unknown): void;
+declare function waitForParams<CallParams>(socket: WebSocket, validate: (params: any) => CallParams): Promise<CallParams>;
+export { CallClientCommands, type CallConfig, CallError, CallErrorCode, CallServerCommands, CallSocket, type CallSummary, type Conversation, type ConversationMessage, END_INTERVIEW, handleError, waitForParams };

package/dist/index.d.ts ADDED Viewed

@@ -0,0 +1,65 @@
+import WebSocket$1, { WebSocket } from 'ws';
+declare enum CallClientCommands {
+    StartSpeaking = "startSpeaking",
+    StopSpeaking = "stopSpeaking",
+    Mute = "mute"
+}
+declare enum CallServerCommands {
+    UserMessage = "userMessage",
+    AssistantMessage = "assistantMessage",
+    CancelLastAssistantMessage = "cancelLastAssistantMessage",
+    EndInterview = "endInterview"
+}
+interface CallConfig {
+    systemPrompt: string;
+    firstMessage?: string;
+    generateAnswer(conversation: Conversation): Promise<string>;
+    speech2Text(blob: Blob, prompt?: string): Promise<string>;
+    text2Speech(text: string): Promise<ArrayBuffer>;
+    onMessage?(message: ConversationMessage): void;
+    onEnd?(call: CallSummary): void;
+}
+interface CallSummary {
+    conversation: Conversation;
+    duration: number;
+}
+type Conversation = ConversationMessage[];
+interface ConversationMessage {
+    role: 'system' | 'user' | 'assistant';
+    content: string;
+}
+declare const END_INTERVIEW = "END_INTERVIEW";
+declare class CallSocket {
+    socket: WebSocket;
+    config: CallConfig;
+    private startTime;
+    private lastDebug;
+    private abortAnswer;
+    private isSpeaking;
+    private chunks;
+    private conversation;
+    constructor(socket: WebSocket, config: CallConfig);
+    private addMessage;
+    private onClose;
+    private onMessage;
+    private onStopSpeaking;
+    private answer;
+    private debug;
+}
+declare enum CallErrorCode {
+    BadRequest = 4400,
+    Unauthorized = 4401,
+    NotFound = 4404
+}
+declare class CallError extends Error {
+    code: number;
+    constructor(code: number, message: string);
+}
+declare function handleError(socket: WebSocket$1, error: unknown): void;
+declare function waitForParams<CallParams>(socket: WebSocket, validate: (params: any) => CallParams): Promise<CallParams>;
+export { CallClientCommands, type CallConfig, CallError, CallErrorCode, CallServerCommands, CallSocket, type CallSummary, type Conversation, type ConversationMessage, END_INTERVIEW, handleError, waitForParams };

package/dist/index.js ADDED Viewed

@@ -0,0 +1,263 @@
+"use strict";
+var __create = Object.create;
+var __defProp = Object.defineProperty;
+var __getOwnPropDesc = Object.getOwnPropertyDescriptor;
+var __getOwnPropNames = Object.getOwnPropertyNames;
+var __getProtoOf = Object.getPrototypeOf;
+var __hasOwnProp = Object.prototype.hasOwnProperty;
+var __export = (target, all) => {
+  for (var name in all)
+    __defProp(target, name, { get: all[name], enumerable: true });
+};
+var __copyProps = (to, from, except, desc) => {
+  if (from && typeof from === "object" || typeof from === "function") {
+    for (let key of __getOwnPropNames(from))
+      if (!__hasOwnProp.call(to, key) && key !== except)
+        __defProp(to, key, { get: () => from[key], enumerable: !(desc = __getOwnPropDesc(from, key)) || desc.enumerable });
+  }
+  return to;
+};
+var __toESM = (mod, isNodeMode, target) => (target = mod != null ? __create(__getProtoOf(mod)) : {}, __copyProps(
+  // If the importer is in node compatibility mode or this is not an ESM
+  // file that has been converted to a CommonJS file using a Babel-
+  // compatible transform (i.e. "__esModule" has not been set), then set
+  // "default" to the CommonJS "module.exports" for node compatibility.
+  isNodeMode || !mod || !mod.__esModule ? __defProp(target, "default", { value: mod, enumerable: true }) : target,
+  mod
+));
+var __toCommonJS = (mod) => __copyProps(__defProp({}, "__esModule", { value: true }), mod);
+// index.ts
+var index_exports = {};
+__export(index_exports, {
+  CallClientCommands: () => CallClientCommands,
+  CallError: () => CallError,
+  CallErrorCode: () => CallErrorCode,
+  CallServerCommands: () => CallServerCommands,
+  CallSocket: () => CallSocket,
+  END_INTERVIEW: () => END_INTERVIEW,
+  handleError: () => handleError,
+  waitForParams: () => waitForParams
+});
+module.exports = __toCommonJS(index_exports);
+// src/CallSocket.ts
+var fs = __toESM(require("fs"));
+var path = __toESM(require("path"));
+// src/types.ts
+var CallClientCommands = /* @__PURE__ */ ((CallClientCommands2) => {
+  CallClientCommands2["StartSpeaking"] = "startSpeaking";
+  CallClientCommands2["StopSpeaking"] = "stopSpeaking";
+  CallClientCommands2["Mute"] = "mute";
+  return CallClientCommands2;
+})(CallClientCommands || {});
+var CallServerCommands = /* @__PURE__ */ ((CallServerCommands2) => {
+  CallServerCommands2["UserMessage"] = "userMessage";
+  CallServerCommands2["AssistantMessage"] = "assistantMessage";
+  CallServerCommands2["CancelLastAssistantMessage"] = "cancelLastAssistantMessage";
+  CallServerCommands2["EndInterview"] = "endInterview";
+  return CallServerCommands2;
+})(CallServerCommands || {});
+// src/CallSocket.ts
+var debugEnabled = false;
+var debugSaveFile = false;
+var disableTTS = false;
+var END_INTERVIEW = "END_INTERVIEW";
+var CallSocket = class {
+  constructor(socket, config) {
+    this.socket = socket;
+    this.config = config;
+    this.startTime = Date.now();
+    this.lastDebug = Date.now();
+    // An answer can be aborted if user is speaking
+    this.abortAnswer = false;
+    // When user is speaking, we're waiting to chunks or to stop
+    this.isSpeaking = false;
+    // Chunks of user speech since user started speaking
+    this.chunks = [];
+    this.conversation = [{ role: "system", content: config.systemPrompt }];
+    this.debug(`Call started`);
+    if (config.firstMessage) {
+      this.answer(config.firstMessage);
+    } else {
+      this.config.generateAnswer(this.conversation).then((answer) => this.answer(answer)).catch((error) => {
+        console.error("[WS]", error);
+        this.socket.close();
+      });
+    }
+    this.socket.on("close", this.onClose.bind(this));
+    this.socket.on("message", this.onMessage.bind(this));
+  }
+  addMessage(message) {
+    this.conversation.push(message);
+    this.socket.send(
+      `${message.role === "user" ? "userMessage" /* UserMessage */ : "assistantMessage" /* AssistantMessage */} ${message.content}`
+    );
+    this.config.onMessage?.(message);
+  }
+  onClose() {
+    this.debug("Connection closed");
+    this.abortAnswer = true;
+    const duration = Math.round((Date.now() - this.startTime) / 1e3);
+    this.config.onEnd?.({
+      conversation: this.conversation.slice(1),
+      // Remove system message
+      duration
+    });
+    this.socket = null;
+    this.config = null;
+  }
+  async onMessage(message) {
+    if (!Buffer.isBuffer(message)) {
+      console.warn(`[WS] Message is not a buffer`);
+      return;
+    }
+    if (message.byteLength < 15) {
+      const cmd = message.toString();
+      this.debug(`Command: ${cmd}`);
+      if (cmd === "startSpeaking" /* StartSpeaking */) {
+        this.isSpeaking = true;
+        this.abortAnswer = true;
+      } else if (cmd === "mute" /* Mute */) {
+        this.abortAnswer = true;
+      } else if (cmd === "stopSpeaking" /* StopSpeaking */) {
+        this.isSpeaking = false;
+        await this.onStopSpeaking();
+      }
+    } else if (Buffer.isBuffer(message) && this.isSpeaking) {
+      this.debug(`Received chunk (${message.byteLength} bytes)`);
+      this.chunks.push(message);
+    }
+  }
+  async onStopSpeaking() {
+    if (this.chunks.length === 0) return;
+    this.abortAnswer = false;
+    const blob = new Blob(this.chunks, { type: "audio/ogg" });
+    this.chunks.length = 0;
+    try {
+      if (debugSaveFile) {
+        const filePath = path.join(__dirname, "speech.ogg");
+        fs.writeFileSync(filePath, Buffer.from(await blob.arrayBuffer()));
+        return;
+      }
+      const transcript = await this.config.speech2Text(
+        blob,
+        this.conversation[this.conversation.length - 1]?.content
+      );
+      if (!transcript) {
+        this.debug("Ignoring empty transcript");
+        return;
+      }
+      this.debug("User transcript:", transcript);
+      this.addMessage({ role: "user", content: transcript });
+      if (this.abortAnswer) {
+        this.debug("Answer aborted, no answer generated");
+        return;
+      }
+      const answer = await this.config.generateAnswer(this.conversation);
+      if (this.abortAnswer) {
+        this.debug("Answer aborted, ignoring answer");
+        return;
+      }
+      await this.answer(answer);
+    } catch (error) {
+      console.error("[WS]", error);
+      this.socket.close();
+    }
+  }
+  async answer(message) {
+    let isEnd = false;
+    if (message.includes(END_INTERVIEW)) {
+      message = message.replace(END_INTERVIEW, "").trim();
+      isEnd = true;
+    }
+    if (message.length) {
+      this.debug("Assistant message:", message);
+      this.addMessage({ role: "assistant", content: message });
+      if (!disableTTS) {
+        const audio = await this.config.text2Speech(message);
+        if (this.abortAnswer) {
+          this.debug("Answer aborted, removing last assistant message");
+          const lastMessage = this.conversation[this.conversation.length - 1];
+          if (lastMessage?.role === "assistant") {
+            this.conversation.pop();
+            this.socket.send("cancelLastAssistantMessage" /* CancelLastAssistantMessage */);
+          }
+          return;
+        }
+        this.debug(`Send audio: (${audio.byteLength} bytes)`);
+        this.socket.send(audio);
+      }
+    }
+    if (isEnd) {
+      this.debug("Interview ended");
+      this.socket.send("endInterview" /* EndInterview */);
+    }
+  }
+  debug(...message) {
+    if (!debugEnabled) return;
+    const nowTime = Date.now();
+    console.log(
+      `[WS] [${nowTime - this.startTime} | ${nowTime - this.lastDebug}ms]`,
+      ...message
+    );
+    this.lastDebug = nowTime;
+  }
+};
+// src/errors.ts
+var CallErrorCode = /* @__PURE__ */ ((CallErrorCode2) => {
+  CallErrorCode2[CallErrorCode2["BadRequest"] = 4400] = "BadRequest";
+  CallErrorCode2[CallErrorCode2["Unauthorized"] = 4401] = "Unauthorized";
+  CallErrorCode2[CallErrorCode2["NotFound"] = 4404] = "NotFound";
+  return CallErrorCode2;
+})(CallErrorCode || {});
+var CallError = class extends Error {
+  constructor(code, message) {
+    super(message);
+    this.code = code;
+  }
+};
+function handleError(socket, error) {
+  if (error instanceof CallError) {
+    socket.close(error.code, error.message);
+  } else {
+    console.error(error);
+    socket.close(1011);
+  }
+  socket.terminate();
+}
+// src/waitForParams.ts
+async function waitForParams(socket, validate) {
+  return new Promise((resolve, reject) => {
+    const timeout = setTimeout(() => {
+      reject(new CallError(4400 /* BadRequest */, "Missing params"));
+    }, 3e3);
+    const onParams = (payload) => {
+      clearTimeout(timeout);
+      socket.off("message", onParams);
+      try {
+        const params = validate(JSON.parse(payload));
+        resolve(params);
+      } catch (error) {
+        reject(new CallError(4400 /* BadRequest */, "Invalid params"));
+      }
+    };
+    socket.on("message", onParams);
+  });
+}
+// Annotate the CommonJS export names for ESM import in node:
+0 && (module.exports = {
+  CallClientCommands,
+  CallError,
+  CallErrorCode,
+  CallServerCommands,
+  CallSocket,
+  END_INTERVIEW,
+  handleError,
+  waitForParams
+});
+//# sourceMappingURL=index.js.map

package/dist/index.js.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"sources":["../index.ts","../src/CallSocket.ts","../src/types.ts","../src/errors.ts","../src/waitForParams.ts"],"sourcesContent":["export * from './src/CallSocket'\nexport * from './src/errors'\nexport * from './src/types'\nexport * from './src/waitForParams'\n","import * as fs from 'fs'\nimport * as path from 'path'\nimport { WebSocket } from 'ws'\nimport {\n CallClientCommands,\n CallConfig,\n CallServerCommands,\n Conversation,\n ConversationMessage,\n} from './types'\n\nconst debugEnabled = false\nconst debugSaveFile = false\nconst disableTTS = false\n\nexport const END_INTERVIEW = 'END_INTERVIEW'\n\nexport class CallSocket {\n private startTime = Date.now()\n private lastDebug = Date.now()\n\n // An answer can be aborted if user is speaking\n private abortAnswer = false\n\n // When user is speaking, we're waiting to chunks or to stop\n private isSpeaking = false\n\n // Chunks of user speech since user started speaking\n private chunks: Buffer[] = []\n\n // Conversation history\n private conversation: Conversation\n\n constructor(\n public socket: WebSocket,\n public config: CallConfig\n ) {\n this.conversation = [{ role: 'system', content: config.systemPrompt }]\n this.debug(`Call started`)\n\n // Assistant speaks first\n\n // LLM: Generate answer\n if (config.firstMessage) {\n this.answer(config.firstMessage)\n } else {\n this.config\n .generateAnswer(this.conversation)\n .then((answer) => this.answer(answer))\n .catch((error) => {\n console.error('[WS]', error)\n this.socket.close()\n })\n }\n\n // Listen to events\n this.socket.on('close', this.onClose.bind(this))\n this.socket.on('message', this.onMessage.bind(this))\n }\n\n private addMessage(message: ConversationMessage) {\n this.conversation.push(message)\n this.socket.send(\n `${\n message.role === 'user'\n ? CallServerCommands.UserMessage\n : CallServerCommands.AssistantMessage\n } ${message.content}`\n )\n this.config.onMessage?.(message)\n }\n\n private onClose() {\n this.debug('Connection closed')\n this.abortAnswer = true\n const duration = Math.round((Date.now() - this.startTime) / 1000)\n\n // End call callback\n this.config.onEnd?.({\n conversation: this.conversation.slice(1), // Remove system message\n duration,\n })\n\n // Unset params\n // @ts-ignore\n this.socket = null\n // @ts-ignore\n this.config = null\n }\n\n private async onMessage(message: Buffer) {\n if (!Buffer.isBuffer(message)) {\n console.warn(`[WS] Message is not a buffer`)\n return\n }\n\n // Commands\n if (message.byteLength < 15) {\n const cmd = message.toString()\n this.debug(`Command: ${cmd}`)\n\n if (cmd === CallClientCommands.StartSpeaking) {\n // User started speaking\n this.isSpeaking = true\n // Abort answer if there is generation in progress\n this.abortAnswer = true\n } else if (cmd === CallClientCommands.Mute) {\n // User muted the call\n // Abort answer if there is generation in progress\n this.abortAnswer = true\n } else if (cmd === CallClientCommands.StopSpeaking) {\n // User stopped speaking\n this.isSpeaking = false\n await this.onStopSpeaking()\n }\n }\n\n // Audio chunk\n else if (Buffer.isBuffer(message) && this.isSpeaking) {\n this.debug(`Received chunk (${message.byteLength} bytes)`)\n this.chunks.push(message)\n }\n }\n\n private async onStopSpeaking() {\n // Do nothing if there is no chunk\n if (this.chunks.length === 0) return\n\n this.abortAnswer = false\n\n // Combine audio blob\n const blob = new Blob(this.chunks, { type: 'audio/ogg' })\n\n // Reset chunks for next user speech\n this.chunks.length = 0\n\n try {\n // Save file to disk\n if (debugSaveFile) {\n const filePath = path.join(__dirname, 'speech.ogg')\n fs.writeFileSync(filePath, Buffer.from(await blob.arrayBuffer()))\n return\n }\n\n // STT: Get transcript and send to client\n const transcript = await this.config.speech2Text(\n blob,\n this.conversation[this.conversation.length - 1]?.content\n )\n if (!transcript) {\n this.debug('Ignoring empty transcript')\n return\n }\n\n this.debug('User transcript:', transcript)\n\n // Send transcript to client\n this.addMessage({ role: 'user', content: transcript })\n\n if (this.abortAnswer) {\n this.debug('Answer aborted, no answer generated')\n return\n }\n\n // LLM: Generate answer\n const answer = await this.config.generateAnswer(this.conversation)\n if (this.abortAnswer) {\n this.debug('Answer aborted, ignoring answer')\n return\n }\n\n await this.answer(answer)\n } catch (error) {\n console.error('[WS]', error)\n this.socket.close()\n }\n }\n\n private async answer(message: string) {\n let isEnd = false\n\n // Detect end of interview\n if (message.includes(END_INTERVIEW)) {\n message = message.replace(END_INTERVIEW, '').trim()\n isEnd = true\n }\n\n if (message.length) {\n // Send answer to client\n this.debug('Assistant message:', message)\n this.addMessage({ role: 'assistant', content: message })\n\n // TTS: Generate answer audio\n if (!disableTTS) {\n const audio = await this.config.text2Speech(message)\n if (this.abortAnswer) {\n // Remove last assistant message if aborted\n this.debug('Answer aborted, removing last assistant message')\n const lastMessage = this.conversation[this.conversation.length - 1]\n if (lastMessage?.role === 'assistant') {\n this.conversation.pop()\n this.socket.send(CallServerCommands.CancelLastAssistantMessage)\n }\n return\n }\n\n // Send audio to client\n this.debug(`Send audio: (${audio.byteLength} bytes)`)\n this.socket.send(audio)\n }\n }\n\n // End of call\n if (isEnd) {\n this.debug('Interview ended')\n this.socket.send(CallServerCommands.EndInterview)\n }\n }\n\n private debug(...message: any[]) {\n if (!debugEnabled) return\n const nowTime = Date.now()\n console.log(\n `[WS] [${nowTime - this.startTime} | ${nowTime - this.lastDebug}ms]`,\n ...message\n )\n this.lastDebug = nowTime\n }\n}\n","export enum CallClientCommands {\n StartSpeaking = 'startSpeaking',\n StopSpeaking = 'stopSpeaking',\n Mute = 'mute',\n}\n\nexport enum CallServerCommands {\n UserMessage = 'userMessage',\n AssistantMessage = 'assistantMessage',\n CancelLastAssistantMessage = 'cancelLastAssistantMessage',\n EndInterview = 'endInterview',\n}\n\nexport interface CallConfig {\n systemPrompt: string\n firstMessage?: string\n generateAnswer(conversation: Conversation): Promise<string>\n speech2Text(blob: Blob, prompt?: string): Promise<string>\n text2Speech(text: string): Promise<ArrayBuffer>\n onMessage?(message: ConversationMessage): void\n onEnd?(call: CallSummary): void\n}\n\nexport interface CallSummary {\n conversation: Conversation\n duration: number\n}\n\nexport type Conversation = ConversationMessage[]\n\nexport interface ConversationMessage {\n role: 'system' | 'user' | 'assistant'\n content: string\n}\n","import WebSocket from 'ws'\n\nexport enum CallErrorCode {\n BadRequest = 4400,\n Unauthorized = 4401,\n NotFound = 4404,\n}\n\nexport class CallError extends Error {\n code: number\n\n constructor(code: number, message: string) {\n super(message)\n this.code = code\n }\n}\n\nexport function handleError(socket: WebSocket, error: unknown) {\n if (error instanceof CallError) {\n socket.close(error.code, error.message)\n } else {\n console.error(error)\n socket.close(1011)\n }\n socket.terminate()\n}\n","import { WebSocket } from 'ws'\nimport { CallError, CallErrorCode } from './errors'\n\nexport async function waitForParams<CallParams>(\n socket: WebSocket,\n validate: (params: any) => CallParams\n): Promise<CallParams> {\n return new Promise<CallParams>((resolve, reject) => {\n // Handle timeout\n const timeout = setTimeout(() => {\n reject(new CallError(CallErrorCode.BadRequest, 'Missing params'))\n }, 3000)\n\n const onParams = (payload: string) => {\n // Clear timeout and listener\n clearTimeout(timeout)\n socket.off('message', onParams)\n\n try {\n // Parse JSON payload\n const params = validate(JSON.parse(payload))\n resolve(params)\n } catch (error) {\n reject(new CallError(CallErrorCode.BadRequest, 'Invalid params'))\n }\n }\n\n // Listen for params\n socket.on('message', onParams)\n })\n}\n"],"mappings":";;;;;;;;;;;;;;;;;;;;;;;;;;;;;;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;;;ACAA,SAAoB;AACpB,WAAsB;;;ACDf,IAAK,qBAAL,kBAAKA,wBAAL;AACL,EAAAA,oBAAA,mBAAgB;AAChB,EAAAA,oBAAA,kBAAe;AACf,EAAAA,oBAAA,UAAO;AAHG,SAAAA;AAAA,GAAA;AAML,IAAK,qBAAL,kBAAKC,wBAAL;AACL,EAAAA,oBAAA,iBAAc;AACd,EAAAA,oBAAA,sBAAmB;AACnB,EAAAA,oBAAA,gCAA6B;AAC7B,EAAAA,oBAAA,kBAAe;AAJL,SAAAA;AAAA,GAAA;;;ADKZ,IAAM,eAAe;AACrB,IAAM,gBAAgB;AACtB,IAAM,aAAa;AAEZ,IAAM,gBAAgB;AAEtB,IAAM,aAAN,MAAiB;AAAA,EAgBtB,YACS,QACA,QACP;AAFO;AACA;AAjBT,SAAQ,YAAY,KAAK,IAAI;AAC7B,SAAQ,YAAY,KAAK,IAAI;AAG7B;AAAA,SAAQ,cAAc;AAGtB;AAAA,SAAQ,aAAa;AAGrB;AAAA,SAAQ,SAAmB,CAAC;AAS1B,SAAK,eAAe,CAAC,EAAE,MAAM,UAAU,SAAS,OAAO,aAAa,CAAC;AACrE,SAAK,MAAM,cAAc;AAKzB,QAAI,OAAO,cAAc;AACvB,WAAK,OAAO,OAAO,YAAY;AAAA,IACjC,OAAO;AACL,WAAK,OACF,eAAe,KAAK,YAAY,EAChC,KAAK,CAAC,WAAW,KAAK,OAAO,MAAM,CAAC,EACpC,MAAM,CAAC,UAAU;AAChB,gBAAQ,MAAM,QAAQ,KAAK;AAC3B,aAAK,OAAO,MAAM;AAAA,MACpB,CAAC;AAAA,IACL;AAGA,SAAK,OAAO,GAAG,SAAS,KAAK,QAAQ,KAAK,IAAI,CAAC;AAC/C,SAAK,OAAO,GAAG,WAAW,KAAK,UAAU,KAAK,IAAI,CAAC;AAAA,EACrD;AAAA,EAEQ,WAAW,SAA8B;AAC/C,SAAK,aAAa,KAAK,OAAO;AAC9B,SAAK,OAAO;AAAA,MACV,GACE,QAAQ,SAAS,oFAGnB,IAAI,QAAQ,OAAO;AAAA,IACrB;AACA,SAAK,OAAO,YAAY,OAAO;AAAA,EACjC;AAAA,EAEQ,UAAU;AAChB,SAAK,MAAM,mBAAmB;AAC9B,SAAK,cAAc;AACnB,UAAM,WAAW,KAAK,OAAO,KAAK,IAAI,IAAI,KAAK,aAAa,GAAI;AAGhE,SAAK,OAAO,QAAQ;AAAA,MAClB,cAAc,KAAK,aAAa,MAAM,CAAC;AAAA;AAAA,MACvC;AAAA,IACF,CAAC;AAID,SAAK,SAAS;AAEd,SAAK,SAAS;AAAA,EAChB;AAAA,EAEA,MAAc,UAAU,SAAiB;AACvC,QAAI,CAAC,OAAO,SAAS,OAAO,GAAG;AAC7B,cAAQ,KAAK,8BAA8B;AAC3C;AAAA,IACF;AAGA,QAAI,QAAQ,aAAa,IAAI;AAC3B,YAAM,MAAM,QAAQ,SAAS;AAC7B,WAAK,MAAM,YAAY,GAAG,EAAE;AAE5B,UAAI,6CAA0C;AAE5C,aAAK,aAAa;AAElB,aAAK,cAAc;AAAA,MACrB,WAAW,2BAAiC;AAG1C,aAAK,cAAc;AAAA,MACrB,WAAW,2CAAyC;AAElD,aAAK,aAAa;AAClB,cAAM,KAAK,eAAe;AAAA,MAC5B;AAAA,IACF,WAGS,OAAO,SAAS,OAAO,KAAK,KAAK,YAAY;AACpD,WAAK,MAAM,mBAAmB,QAAQ,UAAU,SAAS;AACzD,WAAK,OAAO,KAAK,OAAO;AAAA,IAC1B;AAAA,EACF;AAAA,EAEA,MAAc,iBAAiB;AAE7B,QAAI,KAAK,OAAO,WAAW,EAAG;AAE9B,SAAK,cAAc;AAGnB,UAAM,OAAO,IAAI,KAAK,KAAK,QAAQ,EAAE,MAAM,YAAY,CAAC;AAGxD,SAAK,OAAO,SAAS;AAErB,QAAI;AAEF,UAAI,eAAe;AACjB,cAAM,WAAgB,UAAK,WAAW,YAAY;AAClD,QAAG,iBAAc,UAAU,OAAO,KAAK,MAAM,KAAK,YAAY,CAAC,CAAC;AAChE;AAAA,MACF;AAGA,YAAM,aAAa,MAAM,KAAK,OAAO;AAAA,QACnC;AAAA,QACA,KAAK,aAAa,KAAK,aAAa,SAAS,CAAC,GAAG;AAAA,MACnD;AACA,UAAI,CAAC,YAAY;AACf,aAAK,MAAM,2BAA2B;AACtC;AAAA,MACF;AAEA,WAAK,MAAM,oBAAoB,UAAU;AAGzC,WAAK,WAAW,EAAE,MAAM,QAAQ,SAAS,WAAW,CAAC;AAErD,UAAI,KAAK,aAAa;AACpB,aAAK,MAAM,qCAAqC;AAChD;AAAA,MACF;AAGA,YAAM,SAAS,MAAM,KAAK,OAAO,eAAe,KAAK,YAAY;AACjE,UAAI,KAAK,aAAa;AACpB,aAAK,MAAM,iCAAiC;AAC5C;AAAA,MACF;AAEA,YAAM,KAAK,OAAO,MAAM;AAAA,IAC1B,SAAS,OAAO;AACd,cAAQ,MAAM,QAAQ,KAAK;AAC3B,WAAK,OAAO,MAAM;AAAA,IACpB;AAAA,EACF;AAAA,EAEA,MAAc,OAAO,SAAiB;AACpC,QAAI,QAAQ;AAGZ,QAAI,QAAQ,SAAS,aAAa,GAAG;AACnC,gBAAU,QAAQ,QAAQ,eAAe,EAAE,EAAE,KAAK;AAClD,cAAQ;AAAA,IACV;AAEA,QAAI,QAAQ,QAAQ;AAElB,WAAK,MAAM,sBAAsB,OAAO;AACxC,WAAK,WAAW,EAAE,MAAM,aAAa,SAAS,QAAQ,CAAC;AAGvD,UAAI,CAAC,YAAY;AACf,cAAM,QAAQ,MAAM,KAAK,OAAO,YAAY,OAAO;AACnD,YAAI,KAAK,aAAa;AAEpB,eAAK,MAAM,iDAAiD;AAC5D,gBAAM,cAAc,KAAK,aAAa,KAAK,aAAa,SAAS,CAAC;AAClE,cAAI,aAAa,SAAS,aAAa;AACrC,iBAAK,aAAa,IAAI;AACtB,iBAAK,OAAO,kEAAkD;AAAA,UAChE;AACA;AAAA,QACF;AAGA,aAAK,MAAM,gBAAgB,MAAM,UAAU,SAAS;AACpD,aAAK,OAAO,KAAK,KAAK;AAAA,MACxB;AAAA,IACF;AAGA,QAAI,OAAO;AACT,WAAK,MAAM,iBAAiB;AAC5B,WAAK,OAAO,sCAAoC;AAAA,IAClD;AAAA,EACF;AAAA,EAEQ,SAAS,SAAgB;AAC/B,QAAI,CAAC,aAAc;AACnB,UAAM,UAAU,KAAK,IAAI;AACzB,YAAQ;AAAA,MACN,SAAS,UAAU,KAAK,SAAS,MAAM,UAAU,KAAK,SAAS;AAAA,MAC/D,GAAG;AAAA,IACL;AACA,SAAK,YAAY;AAAA,EACnB;AACF;;;AElOO,IAAK,gBAAL,kBAAKC,mBAAL;AACL,EAAAA,8BAAA,gBAAa,QAAb;AACA,EAAAA,8BAAA,kBAAe,QAAf;AACA,EAAAA,8BAAA,cAAW,QAAX;AAHU,SAAAA;AAAA,GAAA;AAML,IAAM,YAAN,cAAwB,MAAM;AAAA,EAGnC,YAAY,MAAc,SAAiB;AACzC,UAAM,OAAO;AACb,SAAK,OAAO;AAAA,EACd;AACF;AAEO,SAAS,YAAY,QAAmB,OAAgB;AAC7D,MAAI,iBAAiB,WAAW;AAC9B,WAAO,MAAM,MAAM,MAAM,MAAM,OAAO;AAAA,EACxC,OAAO;AACL,YAAQ,MAAM,KAAK;AACnB,WAAO,MAAM,IAAI;AAAA,EACnB;AACA,SAAO,UAAU;AACnB;;;ACtBA,eAAsB,cACpB,QACA,UACqB;AACrB,SAAO,IAAI,QAAoB,CAAC,SAAS,WAAW;AAElD,UAAM,UAAU,WAAW,MAAM;AAC/B,aAAO,IAAI,iCAAoC,gBAAgB,CAAC;AAAA,IAClE,GAAG,GAAI;AAEP,UAAM,WAAW,CAAC,YAAoB;AAEpC,mBAAa,OAAO;AACpB,aAAO,IAAI,WAAW,QAAQ;AAE9B,UAAI;AAEF,cAAM,SAAS,SAAS,KAAK,MAAM,OAAO,CAAC;AAC3C,gBAAQ,MAAM;AAAA,MAChB,SAAS,OAAO;AACd,eAAO,IAAI,iCAAoC,gBAAgB,CAAC;AAAA,MAClE;AAAA,IACF;AAGA,WAAO,GAAG,WAAW,QAAQ;AAAA,EAC/B,CAAC;AACH;","names":["CallClientCommands","CallServerCommands","CallErrorCode"]}

package/dist/index.mjs ADDED Viewed

@@ -0,0 +1,219 @@
+// src/CallSocket.ts
+import * as fs from "fs";
+import * as path from "path";
+// src/types.ts
+var CallClientCommands = /* @__PURE__ */ ((CallClientCommands2) => {
+  CallClientCommands2["StartSpeaking"] = "startSpeaking";
+  CallClientCommands2["StopSpeaking"] = "stopSpeaking";
+  CallClientCommands2["Mute"] = "mute";
+  return CallClientCommands2;
+})(CallClientCommands || {});
+var CallServerCommands = /* @__PURE__ */ ((CallServerCommands2) => {
+  CallServerCommands2["UserMessage"] = "userMessage";
+  CallServerCommands2["AssistantMessage"] = "assistantMessage";
+  CallServerCommands2["CancelLastAssistantMessage"] = "cancelLastAssistantMessage";
+  CallServerCommands2["EndInterview"] = "endInterview";
+  return CallServerCommands2;
+})(CallServerCommands || {});
+// src/CallSocket.ts
+var debugEnabled = false;
+var debugSaveFile = false;
+var disableTTS = false;
+var END_INTERVIEW = "END_INTERVIEW";
+var CallSocket = class {
+  constructor(socket, config) {
+    this.socket = socket;
+    this.config = config;
+    this.startTime = Date.now();
+    this.lastDebug = Date.now();
+    // An answer can be aborted if user is speaking
+    this.abortAnswer = false;
+    // When user is speaking, we're waiting to chunks or to stop
+    this.isSpeaking = false;
+    // Chunks of user speech since user started speaking
+    this.chunks = [];
+    this.conversation = [{ role: "system", content: config.systemPrompt }];
+    this.debug(`Call started`);
+    if (config.firstMessage) {
+      this.answer(config.firstMessage);
+    } else {
+      this.config.generateAnswer(this.conversation).then((answer) => this.answer(answer)).catch((error) => {
+        console.error("[WS]", error);
+        this.socket.close();
+      });
+    }
+    this.socket.on("close", this.onClose.bind(this));
+    this.socket.on("message", this.onMessage.bind(this));
+  }
+  addMessage(message) {
+    this.conversation.push(message);
+    this.socket.send(
+      `${message.role === "user" ? "userMessage" /* UserMessage */ : "assistantMessage" /* AssistantMessage */} ${message.content}`
+    );
+    this.config.onMessage?.(message);
+  }
+  onClose() {
+    this.debug("Connection closed");
+    this.abortAnswer = true;
+    const duration = Math.round((Date.now() - this.startTime) / 1e3);
+    this.config.onEnd?.({
+      conversation: this.conversation.slice(1),
+      // Remove system message
+      duration
+    });
+    this.socket = null;
+    this.config = null;
+  }
+  async onMessage(message) {
+    if (!Buffer.isBuffer(message)) {
+      console.warn(`[WS] Message is not a buffer`);
+      return;
+    }
+    if (message.byteLength < 15) {
+      const cmd = message.toString();
+      this.debug(`Command: ${cmd}`);
+      if (cmd === "startSpeaking" /* StartSpeaking */) {
+        this.isSpeaking = true;
+        this.abortAnswer = true;
+      } else if (cmd === "mute" /* Mute */) {
+        this.abortAnswer = true;
+      } else if (cmd === "stopSpeaking" /* StopSpeaking */) {
+        this.isSpeaking = false;
+        await this.onStopSpeaking();
+      }
+    } else if (Buffer.isBuffer(message) && this.isSpeaking) {
+      this.debug(`Received chunk (${message.byteLength} bytes)`);
+      this.chunks.push(message);
+    }
+  }
+  async onStopSpeaking() {
+    if (this.chunks.length === 0) return;
+    this.abortAnswer = false;
+    const blob = new Blob(this.chunks, { type: "audio/ogg" });
+    this.chunks.length = 0;
+    try {
+      if (debugSaveFile) {
+        const filePath = path.join(__dirname, "speech.ogg");
+        fs.writeFileSync(filePath, Buffer.from(await blob.arrayBuffer()));
+        return;
+      }
+      const transcript = await this.config.speech2Text(
+        blob,
+        this.conversation[this.conversation.length - 1]?.content
+      );
+      if (!transcript) {
+        this.debug("Ignoring empty transcript");
+        return;
+      }
+      this.debug("User transcript:", transcript);
+      this.addMessage({ role: "user", content: transcript });
+      if (this.abortAnswer) {
+        this.debug("Answer aborted, no answer generated");
+        return;
+      }
+      const answer = await this.config.generateAnswer(this.conversation);
+      if (this.abortAnswer) {
+        this.debug("Answer aborted, ignoring answer");
+        return;
+      }
+      await this.answer(answer);
+    } catch (error) {
+      console.error("[WS]", error);
+      this.socket.close();
+    }
+  }
+  async answer(message) {
+    let isEnd = false;
+    if (message.includes(END_INTERVIEW)) {
+      message = message.replace(END_INTERVIEW, "").trim();
+      isEnd = true;
+    }
+    if (message.length) {
+      this.debug("Assistant message:", message);
+      this.addMessage({ role: "assistant", content: message });
+      if (!disableTTS) {
+        const audio = await this.config.text2Speech(message);
+        if (this.abortAnswer) {
+          this.debug("Answer aborted, removing last assistant message");
+          const lastMessage = this.conversation[this.conversation.length - 1];
+          if (lastMessage?.role === "assistant") {
+            this.conversation.pop();
+            this.socket.send("cancelLastAssistantMessage" /* CancelLastAssistantMessage */);
+          }
+          return;
+        }
+        this.debug(`Send audio: (${audio.byteLength} bytes)`);
+        this.socket.send(audio);
+      }
+    }
+    if (isEnd) {
+      this.debug("Interview ended");
+      this.socket.send("endInterview" /* EndInterview */);
+    }
+  }
+  debug(...message) {
+    if (!debugEnabled) return;
+    const nowTime = Date.now();
+    console.log(
+      `[WS] [${nowTime - this.startTime} | ${nowTime - this.lastDebug}ms]`,
+      ...message
+    );
+    this.lastDebug = nowTime;
+  }
+};
+// src/errors.ts
+var CallErrorCode = /* @__PURE__ */ ((CallErrorCode2) => {
+  CallErrorCode2[CallErrorCode2["BadRequest"] = 4400] = "BadRequest";
+  CallErrorCode2[CallErrorCode2["Unauthorized"] = 4401] = "Unauthorized";
+  CallErrorCode2[CallErrorCode2["NotFound"] = 4404] = "NotFound";
+  return CallErrorCode2;
+})(CallErrorCode || {});
+var CallError = class extends Error {
+  constructor(code, message) {
+    super(message);
+    this.code = code;
+  }
+};
+function handleError(socket, error) {
+  if (error instanceof CallError) {
+    socket.close(error.code, error.message);
+  } else {
+    console.error(error);
+    socket.close(1011);
+  }
+  socket.terminate();
+}
+// src/waitForParams.ts
+async function waitForParams(socket, validate) {
+  return new Promise((resolve, reject) => {
+    const timeout = setTimeout(() => {
+      reject(new CallError(4400 /* BadRequest */, "Missing params"));
+    }, 3e3);
+    const onParams = (payload) => {
+      clearTimeout(timeout);
+      socket.off("message", onParams);
+      try {
+        const params = validate(JSON.parse(payload));
+        resolve(params);
+      } catch (error) {
+        reject(new CallError(4400 /* BadRequest */, "Invalid params"));
+      }
+    };
+    socket.on("message", onParams);
+  });
+}
+export {
+  CallClientCommands,
+  CallError,
+  CallErrorCode,
+  CallServerCommands,
+  CallSocket,
+  END_INTERVIEW,
+  handleError,
+  waitForParams
+};
+//# sourceMappingURL=index.mjs.map

package/dist/index.mjs.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"sources":["../src/CallSocket.ts","../src/types.ts","../src/errors.ts","../src/waitForParams.ts"],"sourcesContent":["import * as fs from 'fs'\nimport * as path from 'path'\nimport { WebSocket } from 'ws'\nimport {\n CallClientCommands,\n CallConfig,\n CallServerCommands,\n Conversation,\n ConversationMessage,\n} from './types'\n\nconst debugEnabled = false\nconst debugSaveFile = false\nconst disableTTS = false\n\nexport const END_INTERVIEW = 'END_INTERVIEW'\n\nexport class CallSocket {\n private startTime = Date.now()\n private lastDebug = Date.now()\n\n // An answer can be aborted if user is speaking\n private abortAnswer = false\n\n // When user is speaking, we're waiting to chunks or to stop\n private isSpeaking = false\n\n // Chunks of user speech since user started speaking\n private chunks: Buffer[] = []\n\n // Conversation history\n private conversation: Conversation\n\n constructor(\n public socket: WebSocket,\n public config: CallConfig\n ) {\n this.conversation = [{ role: 'system', content: config.systemPrompt }]\n this.debug(`Call started`)\n\n // Assistant speaks first\n\n // LLM: Generate answer\n if (config.firstMessage) {\n this.answer(config.firstMessage)\n } else {\n this.config\n .generateAnswer(this.conversation)\n .then((answer) => this.answer(answer))\n .catch((error) => {\n console.error('[WS]', error)\n this.socket.close()\n })\n }\n\n // Listen to events\n this.socket.on('close', this.onClose.bind(this))\n this.socket.on('message', this.onMessage.bind(this))\n }\n\n private addMessage(message: ConversationMessage) {\n this.conversation.push(message)\n this.socket.send(\n `${\n message.role === 'user'\n ? CallServerCommands.UserMessage\n : CallServerCommands.AssistantMessage\n } ${message.content}`\n )\n this.config.onMessage?.(message)\n }\n\n private onClose() {\n this.debug('Connection closed')\n this.abortAnswer = true\n const duration = Math.round((Date.now() - this.startTime) / 1000)\n\n // End call callback\n this.config.onEnd?.({\n conversation: this.conversation.slice(1), // Remove system message\n duration,\n })\n\n // Unset params\n // @ts-ignore\n this.socket = null\n // @ts-ignore\n this.config = null\n }\n\n private async onMessage(message: Buffer) {\n if (!Buffer.isBuffer(message)) {\n console.warn(`[WS] Message is not a buffer`)\n return\n }\n\n // Commands\n if (message.byteLength < 15) {\n const cmd = message.toString()\n this.debug(`Command: ${cmd}`)\n\n if (cmd === CallClientCommands.StartSpeaking) {\n // User started speaking\n this.isSpeaking = true\n // Abort answer if there is generation in progress\n this.abortAnswer = true\n } else if (cmd === CallClientCommands.Mute) {\n // User muted the call\n // Abort answer if there is generation in progress\n this.abortAnswer = true\n } else if (cmd === CallClientCommands.StopSpeaking) {\n // User stopped speaking\n this.isSpeaking = false\n await this.onStopSpeaking()\n }\n }\n\n // Audio chunk\n else if (Buffer.isBuffer(message) && this.isSpeaking) {\n this.debug(`Received chunk (${message.byteLength} bytes)`)\n this.chunks.push(message)\n }\n }\n\n private async onStopSpeaking() {\n // Do nothing if there is no chunk\n if (this.chunks.length === 0) return\n\n this.abortAnswer = false\n\n // Combine audio blob\n const blob = new Blob(this.chunks, { type: 'audio/ogg' })\n\n // Reset chunks for next user speech\n this.chunks.length = 0\n\n try {\n // Save file to disk\n if (debugSaveFile) {\n const filePath = path.join(__dirname, 'speech.ogg')\n fs.writeFileSync(filePath, Buffer.from(await blob.arrayBuffer()))\n return\n }\n\n // STT: Get transcript and send to client\n const transcript = await this.config.speech2Text(\n blob,\n this.conversation[this.conversation.length - 1]?.content\n )\n if (!transcript) {\n this.debug('Ignoring empty transcript')\n return\n }\n\n this.debug('User transcript:', transcript)\n\n // Send transcript to client\n this.addMessage({ role: 'user', content: transcript })\n\n if (this.abortAnswer) {\n this.debug('Answer aborted, no answer generated')\n return\n }\n\n // LLM: Generate answer\n const answer = await this.config.generateAnswer(this.conversation)\n if (this.abortAnswer) {\n this.debug('Answer aborted, ignoring answer')\n return\n }\n\n await this.answer(answer)\n } catch (error) {\n console.error('[WS]', error)\n this.socket.close()\n }\n }\n\n private async answer(message: string) {\n let isEnd = false\n\n // Detect end of interview\n if (message.includes(END_INTERVIEW)) {\n message = message.replace(END_INTERVIEW, '').trim()\n isEnd = true\n }\n\n if (message.length) {\n // Send answer to client\n this.debug('Assistant message:', message)\n this.addMessage({ role: 'assistant', content: message })\n\n // TTS: Generate answer audio\n if (!disableTTS) {\n const audio = await this.config.text2Speech(message)\n if (this.abortAnswer) {\n // Remove last assistant message if aborted\n this.debug('Answer aborted, removing last assistant message')\n const lastMessage = this.conversation[this.conversation.length - 1]\n if (lastMessage?.role === 'assistant') {\n this.conversation.pop()\n this.socket.send(CallServerCommands.CancelLastAssistantMessage)\n }\n return\n }\n\n // Send audio to client\n this.debug(`Send audio: (${audio.byteLength} bytes)`)\n this.socket.send(audio)\n }\n }\n\n // End of call\n if (isEnd) {\n this.debug('Interview ended')\n this.socket.send(CallServerCommands.EndInterview)\n }\n }\n\n private debug(...message: any[]) {\n if (!debugEnabled) return\n const nowTime = Date.now()\n console.log(\n `[WS] [${nowTime - this.startTime} | ${nowTime - this.lastDebug}ms]`,\n ...message\n )\n this.lastDebug = nowTime\n }\n}\n","export enum CallClientCommands {\n StartSpeaking = 'startSpeaking',\n StopSpeaking = 'stopSpeaking',\n Mute = 'mute',\n}\n\nexport enum CallServerCommands {\n UserMessage = 'userMessage',\n AssistantMessage = 'assistantMessage',\n CancelLastAssistantMessage = 'cancelLastAssistantMessage',\n EndInterview = 'endInterview',\n}\n\nexport interface CallConfig {\n systemPrompt: string\n firstMessage?: string\n generateAnswer(conversation: Conversation): Promise<string>\n speech2Text(blob: Blob, prompt?: string): Promise<string>\n text2Speech(text: string): Promise<ArrayBuffer>\n onMessage?(message: ConversationMessage): void\n onEnd?(call: CallSummary): void\n}\n\nexport interface CallSummary {\n conversation: Conversation\n duration: number\n}\n\nexport type Conversation = ConversationMessage[]\n\nexport interface ConversationMessage {\n role: 'system' | 'user' | 'assistant'\n content: string\n}\n","import WebSocket from 'ws'\n\nexport enum CallErrorCode {\n BadRequest = 4400,\n Unauthorized = 4401,\n NotFound = 4404,\n}\n\nexport class CallError extends Error {\n code: number\n\n constructor(code: number, message: string) {\n super(message)\n this.code = code\n }\n}\n\nexport function handleError(socket: WebSocket, error: unknown) {\n if (error instanceof CallError) {\n socket.close(error.code, error.message)\n } else {\n console.error(error)\n socket.close(1011)\n }\n socket.terminate()\n}\n","import { WebSocket } from 'ws'\nimport { CallError, CallErrorCode } from './errors'\n\nexport async function waitForParams<CallParams>(\n socket: WebSocket,\n validate: (params: any) => CallParams\n): Promise<CallParams> {\n return new Promise<CallParams>((resolve, reject) => {\n // Handle timeout\n const timeout = setTimeout(() => {\n reject(new CallError(CallErrorCode.BadRequest, 'Missing params'))\n }, 3000)\n\n const onParams = (payload: string) => {\n // Clear timeout and listener\n clearTimeout(timeout)\n socket.off('message', onParams)\n\n try {\n // Parse JSON payload\n const params = validate(JSON.parse(payload))\n resolve(params)\n } catch (error) {\n reject(new CallError(CallErrorCode.BadRequest, 'Invalid params'))\n }\n }\n\n // Listen for params\n socket.on('message', onParams)\n })\n}\n"],"mappings":";AAAA,YAAY,QAAQ;AACpB,YAAY,UAAU;;;ACDf,IAAK,qBAAL,kBAAKA,wBAAL;AACL,EAAAA,oBAAA,mBAAgB;AAChB,EAAAA,oBAAA,kBAAe;AACf,EAAAA,oBAAA,UAAO;AAHG,SAAAA;AAAA,GAAA;AAML,IAAK,qBAAL,kBAAKC,wBAAL;AACL,EAAAA,oBAAA,iBAAc;AACd,EAAAA,oBAAA,sBAAmB;AACnB,EAAAA,oBAAA,gCAA6B;AAC7B,EAAAA,oBAAA,kBAAe;AAJL,SAAAA;AAAA,GAAA;;;ADKZ,IAAM,eAAe;AACrB,IAAM,gBAAgB;AACtB,IAAM,aAAa;AAEZ,IAAM,gBAAgB;AAEtB,IAAM,aAAN,MAAiB;AAAA,EAgBtB,YACS,QACA,QACP;AAFO;AACA;AAjBT,SAAQ,YAAY,KAAK,IAAI;AAC7B,SAAQ,YAAY,KAAK,IAAI;AAG7B;AAAA,SAAQ,cAAc;AAGtB;AAAA,SAAQ,aAAa;AAGrB;AAAA,SAAQ,SAAmB,CAAC;AAS1B,SAAK,eAAe,CAAC,EAAE,MAAM,UAAU,SAAS,OAAO,aAAa,CAAC;AACrE,SAAK,MAAM,cAAc;AAKzB,QAAI,OAAO,cAAc;AACvB,WAAK,OAAO,OAAO,YAAY;AAAA,IACjC,OAAO;AACL,WAAK,OACF,eAAe,KAAK,YAAY,EAChC,KAAK,CAAC,WAAW,KAAK,OAAO,MAAM,CAAC,EACpC,MAAM,CAAC,UAAU;AAChB,gBAAQ,MAAM,QAAQ,KAAK;AAC3B,aAAK,OAAO,MAAM;AAAA,MACpB,CAAC;AAAA,IACL;AAGA,SAAK,OAAO,GAAG,SAAS,KAAK,QAAQ,KAAK,IAAI,CAAC;AAC/C,SAAK,OAAO,GAAG,WAAW,KAAK,UAAU,KAAK,IAAI,CAAC;AAAA,EACrD;AAAA,EAEQ,WAAW,SAA8B;AAC/C,SAAK,aAAa,KAAK,OAAO;AAC9B,SAAK,OAAO;AAAA,MACV,GACE,QAAQ,SAAS,oFAGnB,IAAI,QAAQ,OAAO;AAAA,IACrB;AACA,SAAK,OAAO,YAAY,OAAO;AAAA,EACjC;AAAA,EAEQ,UAAU;AAChB,SAAK,MAAM,mBAAmB;AAC9B,SAAK,cAAc;AACnB,UAAM,WAAW,KAAK,OAAO,KAAK,IAAI,IAAI,KAAK,aAAa,GAAI;AAGhE,SAAK,OAAO,QAAQ;AAAA,MAClB,cAAc,KAAK,aAAa,MAAM,CAAC;AAAA;AAAA,MACvC;AAAA,IACF,CAAC;AAID,SAAK,SAAS;AAEd,SAAK,SAAS;AAAA,EAChB;AAAA,EAEA,MAAc,UAAU,SAAiB;AACvC,QAAI,CAAC,OAAO,SAAS,OAAO,GAAG;AAC7B,cAAQ,KAAK,8BAA8B;AAC3C;AAAA,IACF;AAGA,QAAI,QAAQ,aAAa,IAAI;AAC3B,YAAM,MAAM,QAAQ,SAAS;AAC7B,WAAK,MAAM,YAAY,GAAG,EAAE;AAE5B,UAAI,6CAA0C;AAE5C,aAAK,aAAa;AAElB,aAAK,cAAc;AAAA,MACrB,WAAW,2BAAiC;AAG1C,aAAK,cAAc;AAAA,MACrB,WAAW,2CAAyC;AAElD,aAAK,aAAa;AAClB,cAAM,KAAK,eAAe;AAAA,MAC5B;AAAA,IACF,WAGS,OAAO,SAAS,OAAO,KAAK,KAAK,YAAY;AACpD,WAAK,MAAM,mBAAmB,QAAQ,UAAU,SAAS;AACzD,WAAK,OAAO,KAAK,OAAO;AAAA,IAC1B;AAAA,EACF;AAAA,EAEA,MAAc,iBAAiB;AAE7B,QAAI,KAAK,OAAO,WAAW,EAAG;AAE9B,SAAK,cAAc;AAGnB,UAAM,OAAO,IAAI,KAAK,KAAK,QAAQ,EAAE,MAAM,YAAY,CAAC;AAGxD,SAAK,OAAO,SAAS;AAErB,QAAI;AAEF,UAAI,eAAe;AACjB,cAAM,WAAgB,UAAK,WAAW,YAAY;AAClD,QAAG,iBAAc,UAAU,OAAO,KAAK,MAAM,KAAK,YAAY,CAAC,CAAC;AAChE;AAAA,MACF;AAGA,YAAM,aAAa,MAAM,KAAK,OAAO;AAAA,QACnC;AAAA,QACA,KAAK,aAAa,KAAK,aAAa,SAAS,CAAC,GAAG;AAAA,MACnD;AACA,UAAI,CAAC,YAAY;AACf,aAAK,MAAM,2BAA2B;AACtC;AAAA,MACF;AAEA,WAAK,MAAM,oBAAoB,UAAU;AAGzC,WAAK,WAAW,EAAE,MAAM,QAAQ,SAAS,WAAW,CAAC;AAErD,UAAI,KAAK,aAAa;AACpB,aAAK,MAAM,qCAAqC;AAChD;AAAA,MACF;AAGA,YAAM,SAAS,MAAM,KAAK,OAAO,eAAe,KAAK,YAAY;AACjE,UAAI,KAAK,aAAa;AACpB,aAAK,MAAM,iCAAiC;AAC5C;AAAA,MACF;AAEA,YAAM,KAAK,OAAO,MAAM;AAAA,IAC1B,SAAS,OAAO;AACd,cAAQ,MAAM,QAAQ,KAAK;AAC3B,WAAK,OAAO,MAAM;AAAA,IACpB;AAAA,EACF;AAAA,EAEA,MAAc,OAAO,SAAiB;AACpC,QAAI,QAAQ;AAGZ,QAAI,QAAQ,SAAS,aAAa,GAAG;AACnC,gBAAU,QAAQ,QAAQ,eAAe,EAAE,EAAE,KAAK;AAClD,cAAQ;AAAA,IACV;AAEA,QAAI,QAAQ,QAAQ;AAElB,WAAK,MAAM,sBAAsB,OAAO;AACxC,WAAK,WAAW,EAAE,MAAM,aAAa,SAAS,QAAQ,CAAC;AAGvD,UAAI,CAAC,YAAY;AACf,cAAM,QAAQ,MAAM,KAAK,OAAO,YAAY,OAAO;AACnD,YAAI,KAAK,aAAa;AAEpB,eAAK,MAAM,iDAAiD;AAC5D,gBAAM,cAAc,KAAK,aAAa,KAAK,aAAa,SAAS,CAAC;AAClE,cAAI,aAAa,SAAS,aAAa;AACrC,iBAAK,aAAa,IAAI;AACtB,iBAAK,OAAO,kEAAkD;AAAA,UAChE;AACA;AAAA,QACF;AAGA,aAAK,MAAM,gBAAgB,MAAM,UAAU,SAAS;AACpD,aAAK,OAAO,KAAK,KAAK;AAAA,MACxB;AAAA,IACF;AAGA,QAAI,OAAO;AACT,WAAK,MAAM,iBAAiB;AAC5B,WAAK,OAAO,sCAAoC;AAAA,IAClD;AAAA,EACF;AAAA,EAEQ,SAAS,SAAgB;AAC/B,QAAI,CAAC,aAAc;AACnB,UAAM,UAAU,KAAK,IAAI;AACzB,YAAQ;AAAA,MACN,SAAS,UAAU,KAAK,SAAS,MAAM,UAAU,KAAK,SAAS;AAAA,MAC/D,GAAG;AAAA,IACL;AACA,SAAK,YAAY;AAAA,EACnB;AACF;;;AElOO,IAAK,gBAAL,kBAAKC,mBAAL;AACL,EAAAA,8BAAA,gBAAa,QAAb;AACA,EAAAA,8BAAA,kBAAe,QAAf;AACA,EAAAA,8BAAA,cAAW,QAAX;AAHU,SAAAA;AAAA,GAAA;AAML,IAAM,YAAN,cAAwB,MAAM;AAAA,EAGnC,YAAY,MAAc,SAAiB;AACzC,UAAM,OAAO;AACb,SAAK,OAAO;AAAA,EACd;AACF;AAEO,SAAS,YAAY,QAAmB,OAAgB;AAC7D,MAAI,iBAAiB,WAAW;AAC9B,WAAO,MAAM,MAAM,MAAM,MAAM,OAAO;AAAA,EACxC,OAAO;AACL,YAAQ,MAAM,KAAK;AACnB,WAAO,MAAM,IAAI;AAAA,EACnB;AACA,SAAO,UAAU;AACnB;;;ACtBA,eAAsB,cACpB,QACA,UACqB;AACrB,SAAO,IAAI,QAAoB,CAAC,SAAS,WAAW;AAElD,UAAM,UAAU,WAAW,MAAM;AAC/B,aAAO,IAAI,iCAAoC,gBAAgB,CAAC;AAAA,IAClE,GAAG,GAAI;AAEP,UAAM,WAAW,CAAC,YAAoB;AAEpC,mBAAa,OAAO;AACpB,aAAO,IAAI,WAAW,QAAQ;AAE9B,UAAI;AAEF,cAAM,SAAS,SAAS,KAAK,MAAM,OAAO,CAAC;AAC3C,gBAAQ,MAAM;AAAA,MAChB,SAAS,OAAO;AACd,eAAO,IAAI,iCAAoC,gBAAgB,CAAC;AAAA,MAClE;AAAA,IACF;AAGA,WAAO,GAAG,WAAW,QAAQ;AAAA,EAC/B,CAAC;AACH;","names":["CallClientCommands","CallServerCommands","CallErrorCode"]}

package/package.json ADDED Viewed

@@ -0,0 +1,45 @@
+{
+  "name": "@micdrop/server",
+  "version": "1.0.0",
+  "description": "A lib for Node.js that helps to use the mic and speaker for voice conversation",
+  "author": "Lonestone",
+  "license": "MIT",
+  "main": "./dist/index.js",
+  "module": "./dist/index.mjs",
+  "types": "./dist/index.d.ts",
+  "scripts": {
+    "build": "tsup",
+    "dev": "tsup --watch",
+    "clean": "rm -rf dist",
+    "typecheck": "tsc --noEmit",
+    "prepublishOnly": "npm run build"
+  },
+  "files": [
+    "dist"
+  ],
+  "repository": {
+    "type": "git",
+    "url": "git+https://github.com/lonestone/micdrop.git",
+    "directory": "packages/server"
+  },
+  "publishConfig": {
+    "access": "public"
+  },
+  "keywords": [
+    "microphone",
+    "audio",
+    "browser",
+    "voice",
+    "conversation"
+  ],
+  "dependencies": {
+    "ws": "^8.18.0"
+  },
+  "devDependencies": {
+    "@types/node": "^20.0.0",
+    "@types/ws": "^8.5.14",
+    "eslint": "^8.0.0",
+    "tsup": "^8.0.0",
+    "typescript": "^5.0.0"
+  }
+}