npm - @mastra/voice-sarvam - Versions diffs - 0.1.2 → 0.1.3-alpha.1 - Mend

@mastra/voice-sarvam 0.1.2 → 0.1.3-alpha.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

package/README.md +19 -9
package/dist/_tsup-dts-rollup.d.cts +24 -8
package/dist/_tsup-dts-rollup.d.ts +24 -8
package/dist/index.cjs +47 -9
package/dist/index.js +47 -9
package/package.json +12 -2

package/README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 # @mastra/voice-sarvam
-Sarvam Voice integration for Mastra, providing Text-to-Speech (TTS) capabilities using Sarvam's voice technology.
+Sarvam Voice integration for Mastra, providing Text-to-Speech (TTS) and Speech-to-text (STT) capabilities using Sarvam's voice technology.
 ## Installation
@@ -21,17 +21,24 @@ SARVAM_API_KEY=your_api_key
 ```typescript
 import { SarvamVoice } from '@mastra/voice-sarvam';
-const voice = new CompositeVoice({
-  speakProvider: new SarvamVoice({
-    speechModel: { apiKey: 'YOUR-API-KEY' },
-    speaker: 'meera',
-  }),
+const voice = new SarvamVoice({
+  speechModel: {
+    model: 'bulbul:v1',
+    apiKey: process.env.SARVAM_API_KEY!,
+    language: 'en-IN',
+  },
+  listeningModel: {
+    apiKey: process.env.SARVAM_API_KEY!,
+    model: 'saarika:v2',
+    languageCode: 'unknown', // By default only works with saarika:v2
+  },
+  speaker: 'meera',
 });
 // Create an agent with voice capabilities
 export const agent = new Agent({
   name: 'Agent',
-  instructions: `You are a helpful assistant with voice capabilities.`,
+  instructions: `You are a helpful assistant with both TTS and STT capabilities.`,
   model: google('gemini-1.5-pro-latest'),
   voice: voice,
 });
@@ -41,7 +48,7 @@ const speakers = await voice.getSpeakers();
 // Generate speech and save to file
 const audio = await agent.speak("Hello, I'm your AI assistant!");
-const filePath = path.join(process.cwd(), 'agent.mp3');
+const filePath = path.join(process.cwd(), 'agent.wav');
 const writer = createWriteStream(filePath);
 audio.pipe(writer);
@@ -62,11 +69,14 @@ const streamWriter = createWriteStream(streamFilePath);
 audioStream.pipe(streamWriter);
 console.log(`Speech saved to ${filePath} and ${streamFilePath}`);
+// Generate Text from an audio stream
+const text = await voice.listen(audioStream);
 ```
 ## Features
-- High-quality Text-to-Speech synthesis
+- High-quality Text-to-Speech and Speech-to-Text synthesis
 - Support for 10+ Indian languages
 - Choice of 10+ diverse speakers
 - Advanced voice customization options

package/dist/_tsup-dts-rollup.d.cts CHANGED Viewed

@@ -1,14 +1,29 @@
 import { MastraVoice } from '@mastra/core/voice';
-export declare const SARVAM_LANGUAGES: readonly ["hi-IN", "bn-IN", "kn-IN", "ml-IN", "mr-IN", "od-IN", "pa-IN", "ta-IN", "te-IN", "en-IN", "gu-IN"];
+export declare const SARVAM_STT_LANGUAGES: readonly ["hi-IN", "bn-IN", "kn-IN", "ml-IN", "mr-IN", "od-IN", "pa-IN", "ta-IN", "te-IN", "en-IN", "gu-IN", "unknown"];
-export declare const SARVAM_MODELS: readonly ["bulbul:v1"];
+export declare const SARVAM_STT_MODELS: readonly ["saarika:v1", "saarika:v2", "saarika:flash"];
+export declare const SARVAM_TTS_LANGUAGES: readonly ["hi-IN", "bn-IN", "kn-IN", "ml-IN", "mr-IN", "od-IN", "pa-IN", "ta-IN", "te-IN", "en-IN", "gu-IN"];
+export declare const SARVAM_TTS_MODELS: readonly ["bulbul:v1"];
 export declare const SARVAM_VOICES: readonly ["meera", "pavithra", "maitreyi", "arvind", "amol", "amartya", "diya", "neel", "misha", "vian", "arjun", "maya"];
-export declare type SarvamLanguage = (typeof SARVAM_LANGUAGES)[number];
+declare interface SarvamListenOptions {
+    apiKey?: string;
+    model?: SarvamSTTModel;
+    languageCode?: SarvamSTTLanguage;
+    filetype?: 'mp3' | 'wav';
+}
+export declare type SarvamSTTLanguage = (typeof SARVAM_STT_LANGUAGES)[number];
+export declare type SarvamSTTModel = (typeof SARVAM_STT_MODELS)[number];
+export declare type SarvamTTSLanguage = (typeof SARVAM_TTS_LANGUAGES)[number];
-export declare type SarvamModel = (typeof SARVAM_MODELS)[number];
+export declare type SarvamTTSModel = (typeof SARVAM_TTS_MODELS)[number];
 export declare class SarvamVoice extends MastraVoice {
     private apiKey?;
@@ -17,9 +32,10 @@ export declare class SarvamVoice extends MastraVoice {
     private properties;
     protected speaker: SarvamVoiceId;
     private baseUrl;
-    constructor({ speechModel, speaker, }?: {
+    constructor({ speechModel, speaker, listeningModel, }?: {
         speechModel?: SarvamVoiceConfig;
         speaker?: SarvamVoiceId;
+        listeningModel?: SarvamListenOptions;
     });
     private makeRequest;
     private streamToString;
@@ -29,13 +45,13 @@ export declare class SarvamVoice extends MastraVoice {
     getSpeakers(): Promise<{
         voiceId: "meera" | "pavithra" | "maitreyi" | "arvind" | "amol" | "amartya" | "diya" | "neel" | "misha" | "vian" | "arjun" | "maya";
     }[]>;
-    listen(_input: NodeJS.ReadableStream, _options?: Record<string, unknown>): Promise<string | NodeJS.ReadableStream>;
+    listen(input: NodeJS.ReadableStream, options?: SarvamListenOptions): Promise<string>;
 }
 declare interface SarvamVoiceConfig {
     apiKey?: string;
-    model?: SarvamModel;
-    language?: SarvamLanguage;
+    model?: SarvamTTSModel;
+    language?: SarvamTTSLanguage;
     properties?: {
         pitch?: number;
         pace?: number;

package/dist/_tsup-dts-rollup.d.ts CHANGED Viewed

@@ -1,14 +1,29 @@
 import { MastraVoice } from '@mastra/core/voice';
-export declare const SARVAM_LANGUAGES: readonly ["hi-IN", "bn-IN", "kn-IN", "ml-IN", "mr-IN", "od-IN", "pa-IN", "ta-IN", "te-IN", "en-IN", "gu-IN"];
+export declare const SARVAM_STT_LANGUAGES: readonly ["hi-IN", "bn-IN", "kn-IN", "ml-IN", "mr-IN", "od-IN", "pa-IN", "ta-IN", "te-IN", "en-IN", "gu-IN", "unknown"];
-export declare const SARVAM_MODELS: readonly ["bulbul:v1"];
+export declare const SARVAM_STT_MODELS: readonly ["saarika:v1", "saarika:v2", "saarika:flash"];
+export declare const SARVAM_TTS_LANGUAGES: readonly ["hi-IN", "bn-IN", "kn-IN", "ml-IN", "mr-IN", "od-IN", "pa-IN", "ta-IN", "te-IN", "en-IN", "gu-IN"];
+export declare const SARVAM_TTS_MODELS: readonly ["bulbul:v1"];
 export declare const SARVAM_VOICES: readonly ["meera", "pavithra", "maitreyi", "arvind", "amol", "amartya", "diya", "neel", "misha", "vian", "arjun", "maya"];
-export declare type SarvamLanguage = (typeof SARVAM_LANGUAGES)[number];
+declare interface SarvamListenOptions {
+    apiKey?: string;
+    model?: SarvamSTTModel;
+    languageCode?: SarvamSTTLanguage;
+    filetype?: 'mp3' | 'wav';
+}
+export declare type SarvamSTTLanguage = (typeof SARVAM_STT_LANGUAGES)[number];
+export declare type SarvamSTTModel = (typeof SARVAM_STT_MODELS)[number];
+export declare type SarvamTTSLanguage = (typeof SARVAM_TTS_LANGUAGES)[number];
-export declare type SarvamModel = (typeof SARVAM_MODELS)[number];
+export declare type SarvamTTSModel = (typeof SARVAM_TTS_MODELS)[number];
 export declare class SarvamVoice extends MastraVoice {
     private apiKey?;
@@ -17,9 +32,10 @@ export declare class SarvamVoice extends MastraVoice {
     private properties;
     protected speaker: SarvamVoiceId;
     private baseUrl;
-    constructor({ speechModel, speaker, }?: {
+    constructor({ speechModel, speaker, listeningModel, }?: {
         speechModel?: SarvamVoiceConfig;
         speaker?: SarvamVoiceId;
+        listeningModel?: SarvamListenOptions;
     });
     private makeRequest;
     private streamToString;
@@ -29,13 +45,13 @@ export declare class SarvamVoice extends MastraVoice {
     getSpeakers(): Promise<{
         voiceId: "meera" | "pavithra" | "maitreyi" | "arvind" | "amol" | "amartya" | "diya" | "neel" | "misha" | "vian" | "arjun" | "maya";
     }[]>;
-    listen(_input: NodeJS.ReadableStream, _options?: Record<string, unknown>): Promise<string | NodeJS.ReadableStream>;
+    listen(input: NodeJS.ReadableStream, options?: SarvamListenOptions): Promise<string>;
 }
 declare interface SarvamVoiceConfig {
     apiKey?: string;
-    model?: SarvamModel;
-    language?: SarvamLanguage;
+    model?: SarvamTTSModel;
+    language?: SarvamTTSLanguage;
     properties?: {
         pitch?: number;
         pace?: number;

package/dist/index.cjs CHANGED Viewed

@@ -22,6 +22,14 @@ var SARVAM_VOICES = [
 ];
 // src/index.ts
+var defaultSpeechModel = {
+  model: "bulbul:v1",
+  apiKey: process.env.SARVAM_API_KEY,
+  language: "en-IN"
+};
+var defaultListeningModel = {
+  model: "saarika:v2",
+  apiKey: process.env.SARVAM_API_KEY};
 var SarvamVoice = class extends voice.MastraVoice {
   apiKey;
   model = "bulbul:v1";
@@ -31,18 +39,18 @@ var SarvamVoice = class extends voice.MastraVoice {
   baseUrl = "https://api.sarvam.ai";
   constructor({
     speechModel,
-    speaker
+    speaker,
+    listeningModel
   } = {}) {
-    const defaultSpeechModel = {
-      model: "bulbul:v1",
-      apiKey: process.env.SARVAM_API_KEY,
-      language: "en-IN"
-    };
     super({
       speechModel: {
         name: speechModel?.model ?? defaultSpeechModel.model,
         apiKey: speechModel?.apiKey ?? defaultSpeechModel.apiKey
       },
+      listeningModel: {
+        name: listeningModel?.model ?? defaultListeningModel.model,
+        apiKey: listeningModel?.model ?? defaultListeningModel.apiKey
+      },
       speaker
     });
     this.apiKey = speechModel?.apiKey || defaultSpeechModel.apiKey;
@@ -116,9 +124,39 @@ var SarvamVoice = class extends voice.MastraVoice {
       }));
     }, "voice.deepgram.getSpeakers")();
   }
-  //Todo: Implement the listen method
-  async listen(_input, _options) {
-    throw new Error("Listening method coming soon.");
+  async listen(input, options) {
+    return this.traced(async () => {
+      const chunks = [];
+      for await (const chunk of input) {
+        if (typeof chunk === "string") {
+          chunks.push(Buffer.from(chunk));
+        } else {
+          chunks.push(chunk);
+        }
+      }
+      const audioBuffer = Buffer.concat(chunks);
+      const form = new FormData();
+      const mimeType = options?.filetype === "mp3" ? "audio/mpeg" : "audio/wav";
+      const blob = new Blob([audioBuffer], { type: mimeType });
+      form.append("file", blob);
+      form.append("model", options?.model || "saarika:v2");
+      form.append("language_code", options?.languageCode || "unknown");
+      const requestOptions = {
+        method: "POST",
+        headers: {
+          "api-subscription-key": this.apiKey
+        },
+        body: form
+      };
+      try {
+        const response = await fetch(`${this.baseUrl}/speech-to-text`, requestOptions);
+        const result = await response.json();
+        return result.transcript;
+      } catch (error) {
+        console.error("Error during speech-to-text request:", error);
+        throw error;
+      }
+    }, "voice.sarvam.listen")();
   }
 };

package/dist/index.js CHANGED Viewed

@@ -20,6 +20,14 @@ var SARVAM_VOICES = [
 ];
 // src/index.ts
+var defaultSpeechModel = {
+  model: "bulbul:v1",
+  apiKey: process.env.SARVAM_API_KEY,
+  language: "en-IN"
+};
+var defaultListeningModel = {
+  model: "saarika:v2",
+  apiKey: process.env.SARVAM_API_KEY};
 var SarvamVoice = class extends MastraVoice {
   apiKey;
   model = "bulbul:v1";
@@ -29,18 +37,18 @@ var SarvamVoice = class extends MastraVoice {
   baseUrl = "https://api.sarvam.ai";
   constructor({
     speechModel,
-    speaker
+    speaker,
+    listeningModel
   } = {}) {
-    const defaultSpeechModel = {
-      model: "bulbul:v1",
-      apiKey: process.env.SARVAM_API_KEY,
-      language: "en-IN"
-    };
     super({
       speechModel: {
         name: speechModel?.model ?? defaultSpeechModel.model,
         apiKey: speechModel?.apiKey ?? defaultSpeechModel.apiKey
       },
+      listeningModel: {
+        name: listeningModel?.model ?? defaultListeningModel.model,
+        apiKey: listeningModel?.model ?? defaultListeningModel.apiKey
+      },
       speaker
     });
     this.apiKey = speechModel?.apiKey || defaultSpeechModel.apiKey;
@@ -114,9 +122,39 @@ var SarvamVoice = class extends MastraVoice {
       }));
     }, "voice.deepgram.getSpeakers")();
   }
-  //Todo: Implement the listen method
-  async listen(_input, _options) {
-    throw new Error("Listening method coming soon.");
+  async listen(input, options) {
+    return this.traced(async () => {
+      const chunks = [];
+      for await (const chunk of input) {
+        if (typeof chunk === "string") {
+          chunks.push(Buffer.from(chunk));
+        } else {
+          chunks.push(chunk);
+        }
+      }
+      const audioBuffer = Buffer.concat(chunks);
+      const form = new FormData();
+      const mimeType = options?.filetype === "mp3" ? "audio/mpeg" : "audio/wav";
+      const blob = new Blob([audioBuffer], { type: mimeType });
+      form.append("file", blob);
+      form.append("model", options?.model || "saarika:v2");
+      form.append("language_code", options?.languageCode || "unknown");
+      const requestOptions = {
+        method: "POST",
+        headers: {
+          "api-subscription-key": this.apiKey
+        },
+        body: form
+      };
+      try {
+        const response = await fetch(`${this.baseUrl}/speech-to-text`, requestOptions);
+        const result = await response.json();
+        return result.transcript;
+      } catch (error) {
+        console.error("Error during speech-to-text request:", error);
+        throw error;
+      }
+    }, "voice.sarvam.listen")();
   }
 };

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@mastra/voice-sarvam",
-  "version": "0.1.2",
+  "version": "0.1.3-alpha.1",
   "description": "Mastra Sarvam AI voice integration",
   "type": "module",
   "files": [
@@ -23,7 +23,7 @@
   },
   "dependencies": {
     "zod": "^3.24.2",
-    "@mastra/core": "^0.6.3"
+    "@mastra/core": "^0.6.4-alpha.1"
   },
   "devDependencies": {
     "@microsoft/api-extractor": "^7.52.1",
@@ -34,6 +34,16 @@
     "vitest": "^2.1.9",
     "@internal/lint": "0.0.1"
   },
+  "keywords": [
+    "mastra",
+    "sarvam",
+    "tts",
+    "stt",
+    "indian-languages",
+    "speech-to-text",
+    "text-to-speech",
+    "speech-recognition"
+  ],
   "scripts": {
     "build": "tsup src/index.ts --format esm,cjs --experimental-dts --clean --treeshake=smallest --splitting",
     "build:watch": "pnpm build --watch",