npm - @livekit/agents-plugin-sarvam - Versions diffs - 1.0.45 - Mend

@livekit/agents-plugin-sarvam 1.0.45

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (51) hide show

package/dist/stt.d.cts ADDED Viewed

@@ -0,0 +1,104 @@
+import { type APIConnectOptions, type AudioBuffer, stt } from '@livekit/agents';
+import type { STTLanguages, STTModels, STTModes, STTV2Languages, STTV3Languages } from './models.js';
+interface STTBaseOptions {
+    /** Sarvam API key. Defaults to $SARVAM_API_KEY */
+    apiKey?: string;
+    /**
+     * Whether to use native WebSocket streaming for `stream()`.
+     * Set to `false` to prefer non-streaming REST recognition (used by Agent via StreamAdapter + VAD).
+     * Default: `true`.
+     */
+    streaming?: boolean;
+    /** Increase VAD sensitivity (WS only). Maps to `high_vad_sensitivity` query param. */
+    highVadSensitivity?: boolean;
+    /** Enable flush signal events from server (WS only). Maps to `flush_signal` query param. */
+    flushSignal?: boolean;
+}
+/**
+ * Options specific to saarika:v2.5.
+ * saarika:v2.5 will be deprecated soon — prefer {@link STTV3Options} with `saaras:v3` for new integrations.
+ * All v2.5 language codes are also supported by v3.
+ * @see {@link https://docs.sarvam.ai/api-reference-docs/speech-to-text/transcribe | Sarvam STT API docs}
+ */
+export interface STTV2Options extends STTBaseOptions {
+    model: 'saarika:v2.5';
+    /** Language code (BCP-47). Default: 'en-IN'. Set to 'unknown' for auto-detection. */
+    languageCode?: STTV2Languages | string;
+    /** Return chunk-level timestamps in REST response */
+    withTimestamps?: boolean;
+}
+/**
+ * Options specific to saaras:v2.5 (dedicated translate endpoint).
+ * Uses the `/speech-to-text-translate` endpoint for Indic-to-English translation.
+ * Auto-detects the source language; does not accept language codes or timestamps.
+ * @see {@link https://docs.sarvam.ai/api-reference-docs/speech-to-text-translate/translate | Sarvam STT Translate docs}
+ */
+export interface STTTranslateOptions extends STTBaseOptions {
+    model: 'saaras:v2.5';
+    /** Conversation context to boost model accuracy */
+    prompt?: string;
+    /** Mode for translate WS. Default: 'translate'. */
+    mode?: STTModes | string;
+}
+/**
+ * Options specific to saaras:v3 (recommended).
+ * @see {@link https://docs.sarvam.ai/api-reference-docs/speech-to-text/transcribe | Sarvam STT API docs}
+ */
+export interface STTV3Options extends STTBaseOptions {
+    model?: 'saaras:v3';
+    /** Language code (BCP-47). Default: 'en-IN'. Set to 'unknown' for auto-detection. */
+    languageCode?: STTV3Languages | string;
+    /** Transcription mode (v3 only). Default: 'transcribe' */
+    mode?: STTModes | string;
+    /** Conversation context to boost model accuracy */
+    prompt?: string;
+    /** Return chunk-level timestamps in REST response */
+    withTimestamps?: boolean;
+}
+/** Combined options — discriminated by `model` field */
+export type STTOptions = STTV2Options | STTTranslateOptions | STTV3Options;
+interface ResolvedSTTOptions {
+    apiKey: string;
+    model: STTModels;
+    streaming: boolean;
+    languageCode?: STTLanguages | string;
+    mode?: STTModes | string;
+    prompt?: string;
+    withTimestamps?: boolean;
+    highVadSensitivity?: boolean;
+    flushSignal?: boolean;
+}
+export declare class STT extends stt.STT {
+    private opts;
+    label: string;
+    /**
+     * Create a new instance of Sarvam AI STT.
+     *
+     * @remarks
+     * `apiKey` must be set to your Sarvam API key, either using the argument or by setting the
+     * `SARVAM_API_KEY` environment variable.
+     *
+     * Supported models:
+     * - `saaras:v3` (default, recommended) — supports all 22 languages, modes, prompt, timestamps, and uses `/speech-to-text`.
+     * - `saaras:v2.5` — Indic-to-English translation via `/speech-to-text-translate`. Auto-detects source language. Supports prompt.
+     * - `saarika:v2.5` — will be deprecated soon. Supports timestamps. All its languages are available in `saaras:v3`.
+     *
+     * @see {@link https://docs.sarvam.ai/api-reference-docs/speech-to-text/transcribe | Sarvam STT API docs}
+     * @see {@link https://docs.sarvam.ai/api-reference-docs/speech-to-text-translate/translate | Sarvam STT Translate docs}
+     */
+    constructor(opts?: Partial<STTOptions>);
+    updateOptions(opts: Partial<STTOptions>): void;
+    _recognize(buffer: AudioBuffer, abortSignal?: AbortSignal): Promise<stt.SpeechEvent>;
+    stream(options?: {
+        connOptions?: APIConnectOptions;
+    }): SpeechStream;
+}
+export declare class SpeechStream extends stt.SpeechStream {
+    #private;
+    label: string;
+    constructor(sttInstance: STT, opts: ResolvedSTTOptions, connOptions?: APIConnectOptions);
+    updateOptions(opts: Partial<STTOptions>): void;
+    protected run(): Promise<void>;
+}
+export {};
+//# sourceMappingURL=stt.d.ts.map

package/dist/stt.d.ts ADDED Viewed

@@ -0,0 +1,104 @@
+import { type APIConnectOptions, type AudioBuffer, stt } from '@livekit/agents';
+import type { STTLanguages, STTModels, STTModes, STTV2Languages, STTV3Languages } from './models.js';
+interface STTBaseOptions {
+    /** Sarvam API key. Defaults to $SARVAM_API_KEY */
+    apiKey?: string;
+    /**
+     * Whether to use native WebSocket streaming for `stream()`.
+     * Set to `false` to prefer non-streaming REST recognition (used by Agent via StreamAdapter + VAD).
+     * Default: `true`.
+     */
+    streaming?: boolean;
+    /** Increase VAD sensitivity (WS only). Maps to `high_vad_sensitivity` query param. */
+    highVadSensitivity?: boolean;
+    /** Enable flush signal events from server (WS only). Maps to `flush_signal` query param. */
+    flushSignal?: boolean;
+}
+/**
+ * Options specific to saarika:v2.5.
+ * saarika:v2.5 will be deprecated soon — prefer {@link STTV3Options} with `saaras:v3` for new integrations.
+ * All v2.5 language codes are also supported by v3.
+ * @see {@link https://docs.sarvam.ai/api-reference-docs/speech-to-text/transcribe | Sarvam STT API docs}
+ */
+export interface STTV2Options extends STTBaseOptions {
+    model: 'saarika:v2.5';
+    /** Language code (BCP-47). Default: 'en-IN'. Set to 'unknown' for auto-detection. */
+    languageCode?: STTV2Languages | string;
+    /** Return chunk-level timestamps in REST response */
+    withTimestamps?: boolean;
+}
+/**
+ * Options specific to saaras:v2.5 (dedicated translate endpoint).
+ * Uses the `/speech-to-text-translate` endpoint for Indic-to-English translation.
+ * Auto-detects the source language; does not accept language codes or timestamps.
+ * @see {@link https://docs.sarvam.ai/api-reference-docs/speech-to-text-translate/translate | Sarvam STT Translate docs}
+ */
+export interface STTTranslateOptions extends STTBaseOptions {
+    model: 'saaras:v2.5';
+    /** Conversation context to boost model accuracy */
+    prompt?: string;
+    /** Mode for translate WS. Default: 'translate'. */
+    mode?: STTModes | string;
+}
+/**
+ * Options specific to saaras:v3 (recommended).
+ * @see {@link https://docs.sarvam.ai/api-reference-docs/speech-to-text/transcribe | Sarvam STT API docs}
+ */
+export interface STTV3Options extends STTBaseOptions {
+    model?: 'saaras:v3';
+    /** Language code (BCP-47). Default: 'en-IN'. Set to 'unknown' for auto-detection. */
+    languageCode?: STTV3Languages | string;
+    /** Transcription mode (v3 only). Default: 'transcribe' */
+    mode?: STTModes | string;
+    /** Conversation context to boost model accuracy */
+    prompt?: string;
+    /** Return chunk-level timestamps in REST response */
+    withTimestamps?: boolean;
+}
+/** Combined options — discriminated by `model` field */
+export type STTOptions = STTV2Options | STTTranslateOptions | STTV3Options;
+interface ResolvedSTTOptions {
+    apiKey: string;
+    model: STTModels;
+    streaming: boolean;
+    languageCode?: STTLanguages | string;
+    mode?: STTModes | string;
+    prompt?: string;
+    withTimestamps?: boolean;
+    highVadSensitivity?: boolean;
+    flushSignal?: boolean;
+}
+export declare class STT extends stt.STT {
+    private opts;
+    label: string;
+    /**
+     * Create a new instance of Sarvam AI STT.
+     *
+     * @remarks
+     * `apiKey` must be set to your Sarvam API key, either using the argument or by setting the
+     * `SARVAM_API_KEY` environment variable.
+     *
+     * Supported models:
+     * - `saaras:v3` (default, recommended) — supports all 22 languages, modes, prompt, timestamps, and uses `/speech-to-text`.
+     * - `saaras:v2.5` — Indic-to-English translation via `/speech-to-text-translate`. Auto-detects source language. Supports prompt.
+     * - `saarika:v2.5` — will be deprecated soon. Supports timestamps. All its languages are available in `saaras:v3`.
+     *
+     * @see {@link https://docs.sarvam.ai/api-reference-docs/speech-to-text/transcribe | Sarvam STT API docs}
+     * @see {@link https://docs.sarvam.ai/api-reference-docs/speech-to-text-translate/translate | Sarvam STT Translate docs}
+     */
+    constructor(opts?: Partial<STTOptions>);
+    updateOptions(opts: Partial<STTOptions>): void;
+    _recognize(buffer: AudioBuffer, abortSignal?: AbortSignal): Promise<stt.SpeechEvent>;
+    stream(options?: {
+        connOptions?: APIConnectOptions;
+    }): SpeechStream;
+}
+export declare class SpeechStream extends stt.SpeechStream {
+    #private;
+    label: string;
+    constructor(sttInstance: STT, opts: ResolvedSTTOptions, connOptions?: APIConnectOptions);
+    updateOptions(opts: Partial<STTOptions>): void;
+    protected run(): Promise<void>;
+}
+export {};
+//# sourceMappingURL=stt.d.ts.map

package/dist/stt.d.ts.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"stt.d.ts","sourceRoot":"","sources":["../src/stt.ts"],"names":[],"mappings":"AAGA,OAAO,EACL,KAAK,iBAAiB,EACtB,KAAK,WAAW,EAOhB,GAAG,EAEJ,MAAM,iBAAiB,CAAC;AAGzB,OAAO,KAAK,EACV,YAAY,EACZ,SAAS,EACT,QAAQ,EACR,cAAc,EACd,cAAc,EACf,MAAM,aAAa,CAAC;AAkBrB,UAAU,cAAc;IACtB,kDAAkD;IAClD,MAAM,CAAC,EAAE,MAAM,CAAC;IAChB;;;;OAIG;IACH,SAAS,CAAC,EAAE,OAAO,CAAC;IACpB,sFAAsF;IACtF,kBAAkB,CAAC,EAAE,OAAO,CAAC;IAC7B,4FAA4F;IAC5F,WAAW,CAAC,EAAE,OAAO,CAAC;CACvB;AAED;;;;;GAKG;AACH,MAAM,WAAW,YAAa,SAAQ,cAAc;IAClD,KAAK,EAAE,cAAc,CAAC;IACtB,qFAAqF;IACrF,YAAY,CAAC,EAAE,cAAc,GAAG,MAAM,CAAC;IACvC,qDAAqD;IACrD,cAAc,CAAC,EAAE,OAAO,CAAC;CAC1B;AAED;;;;;GAKG;AACH,MAAM,WAAW,mBAAoB,SAAQ,cAAc;IACzD,KAAK,EAAE,aAAa,CAAC;IACrB,mDAAmD;IACnD,MAAM,CAAC,EAAE,MAAM,CAAC;IAChB,mDAAmD;IACnD,IAAI,CAAC,EAAE,QAAQ,GAAG,MAAM,CAAC;CAC1B;AAED;;;GAGG;AACH,MAAM,WAAW,YAAa,SAAQ,cAAc;IAClD,KAAK,CAAC,EAAE,WAAW,CAAC;IACpB,qFAAqF;IACrF,YAAY,CAAC,EAAE,cAAc,GAAG,MAAM,CAAC;IACvC,0DAA0D;IAC1D,IAAI,CAAC,EAAE,QAAQ,GAAG,MAAM,CAAC;IACzB,mDAAmD;IACnD,MAAM,CAAC,EAAE,MAAM,CAAC;IAChB,qDAAqD;IACrD,cAAc,CAAC,EAAE,OAAO,CAAC;CAC1B;AAED,wDAAwD;AACxD,MAAM,MAAM,UAAU,GAAG,YAAY,GAAG,mBAAmB,GAAG,YAAY,CAAC;AAM3E,UAAU,kBAAkB;IAC1B,MAAM,EAAE,MAAM,CAAC;IACf,KAAK,EAAE,SAAS,CAAC;IACjB,SAAS,EAAE,OAAO,CAAC;IAEnB,YAAY,CAAC,EAAE,YAAY,GAAG,MAAM,CAAC;IAErC,IAAI,CAAC,EAAE,QAAQ,GAAG,MAAM,CAAC;IAEzB,MAAM,CAAC,EAAE,MAAM,CAAC;IAEhB,cAAc,CAAC,EAAE,OAAO,CAAC;IAEzB,kBAAkB,CAAC,EAAE,OAAO,CAAC;IAC7B,WAAW,CAAC,EAAE,OAAO,CAAC;CACvB;AAgOD,qBAAa,GAAI,SAAQ,GAAG,CAAC,GAAG;IAC9B,OAAO,CAAC,IAAI,CAAqB;IACjC,KAAK,SAAgB;IAErB;;;;;;;;;;;;;;OAcG;gBACS,IAAI,GAAE,OAAO,CAAC,UAAU,CAAM;IAU1C,aAAa,CAAC,IAAI,EAAE,OAAO,CAAC,UAAU,CAAC;IAoBjC,UAAU,CAAC,MAAM,EAAE,WAAW,EAAE,WAAW,CAAC,EAAE,WAAW,GAAG,OAAO,CAAC,GAAG,CAAC,WAAW,CAAC;IA+C1F,MAAM,CAAC,OAAO,CAAC,EAAE;QAAE,WAAW,CAAC,EAAE,iBAAiB,CAAA;KAAE,GAAG,YAAY;CAQpE;AAMD,qBAAa,YAAa,SAAQ,GAAG,CAAC,YAAY;;IAOhD,KAAK,SAAyB;gBAElB,WAAW,EAAE,GAAG,EAAE,IAAI,EAAE,kBAAkB,EAAE,WAAW,CAAC,EAAE,iBAAiB;IAOvF,aAAa,CAAC,IAAI,EAAE,OAAO,CAAC,UAAU,CAAC;cAoBvB,GAAG;CAqRpB"}

package/dist/stt.js ADDED Viewed

@@ -0,0 +1,483 @@
+import {
+  AudioByteStream,
+  AudioEnergyFilter,
+  Future,
+  Task,
+  log,
+  mergeFrames,
+  stt,
+  waitForAbort
+} from "@livekit/agents";
+import { WebSocket } from "ws";
+const SARVAM_STT_REST_URL = "https://api.sarvam.ai/speech-to-text";
+const SARVAM_STT_TRANSLATE_REST_URL = "https://api.sarvam.ai/speech-to-text-translate";
+const SARVAM_STT_WS_URL = "wss://api.sarvam.ai/speech-to-text/ws";
+const SARVAM_STT_TRANSLATE_WS_URL = "wss://api.sarvam.ai/speech-to-text-translate/ws";
+const SAMPLE_RATE = 16e3;
+const NUM_CHANNELS = 1;
+const SAARIKA_DEFAULTS = {
+  languageCode: "en-IN"
+};
+const SAARAS_V3_DEFAULTS = {
+  languageCode: "en-IN",
+  mode: "transcribe"
+};
+const SAARAS_TRANSLATE_DEFAULTS = {
+  mode: "translate"
+};
+const STTV2_LANGUAGE_SET = /* @__PURE__ */ new Set([
+  "unknown",
+  "hi-IN",
+  "bn-IN",
+  "kn-IN",
+  "ml-IN",
+  "mr-IN",
+  "od-IN",
+  "pa-IN",
+  "ta-IN",
+  "te-IN",
+  "en-IN",
+  "gu-IN"
+]);
+function resolveOptions(opts) {
+  const apiKey = opts.apiKey ?? process.env.SARVAM_API_KEY;
+  if (!apiKey) {
+    throw new Error("Sarvam API key is required, whether as an argument or as $SARVAM_API_KEY");
+  }
+  const model = opts.model ?? "saaras:v3";
+  const base = {
+    apiKey,
+    model,
+    streaming: opts.streaming ?? true,
+    highVadSensitivity: opts.highVadSensitivity,
+    flushSignal: opts.flushSignal
+  };
+  if (model === "saaras:v2.5") {
+    const translateOpts = opts;
+    base.prompt = translateOpts.prompt;
+    base.mode = translateOpts.mode ?? SAARAS_TRANSLATE_DEFAULTS.mode;
+  } else if (model === "saaras:v3") {
+    const v3Opts = opts;
+    base.languageCode = v3Opts.languageCode ?? SAARAS_V3_DEFAULTS.languageCode;
+    base.mode = v3Opts.mode ?? SAARAS_V3_DEFAULTS.mode;
+    base.prompt = v3Opts.prompt;
+    base.withTimestamps = v3Opts.withTimestamps;
+  } else {
+    let languageCode = opts.languageCode ?? SAARIKA_DEFAULTS.languageCode;
+    if (!STTV2_LANGUAGE_SET.has(languageCode)) {
+      languageCode = SAARIKA_DEFAULTS.languageCode;
+    }
+    base.languageCode = languageCode;
+    base.withTimestamps = opts.withTimestamps;
+  }
+  return base;
+}
+function getRestUrl(model) {
+  return model === "saaras:v2.5" ? SARVAM_STT_TRANSLATE_REST_URL : SARVAM_STT_REST_URL;
+}
+function getWsUrl(model) {
+  return model === "saaras:v2.5" ? SARVAM_STT_TRANSLATE_WS_URL : SARVAM_STT_WS_URL;
+}
+function buildWsUrl(opts) {
+  const base = getWsUrl(opts.model);
+  const params = new URLSearchParams();
+  params.set("model", opts.model);
+  params.set("vad_signals", "true");
+  params.set("sample_rate", String(SAMPLE_RATE));
+  params.set("input_audio_codec", "pcm_s16le");
+  if (opts.model !== "saaras:v2.5" && opts.languageCode != null) {
+    params.set("language-code", opts.languageCode);
+  }
+  if (opts.mode != null) {
+    params.set("mode", opts.mode);
+  }
+  if (opts.highVadSensitivity != null) {
+    params.set("high_vad_sensitivity", String(opts.highVadSensitivity));
+  }
+  if (opts.flushSignal != null) {
+    params.set("flush_signal", String(opts.flushSignal));
+  }
+  return `${base}?${params.toString()}`;
+}
+function buildFormData(wavBlob, opts) {
+  const formData = new FormData();
+  formData.append("file", wavBlob, "audio.wav");
+  formData.append("model", opts.model);
+  if (opts.model !== "saaras:v2.5" && opts.languageCode != null) {
+    formData.append("language_code", opts.languageCode);
+  }
+  if (opts.model === "saaras:v3" && opts.mode != null) {
+    formData.append("mode", opts.mode);
+  }
+  if ((opts.model === "saaras:v2.5" || opts.model === "saaras:v3") && opts.prompt != null) {
+    formData.append("prompt", opts.prompt);
+  }
+  if (opts.model !== "saaras:v2.5" && opts.withTimestamps) {
+    formData.append("with_timestamps", "true");
+  }
+  return formData;
+}
+function createWav(frame) {
+  const bitsPerSample = 16;
+  const byteRate = frame.sampleRate * frame.channels * bitsPerSample / 8;
+  const blockAlign = frame.channels * bitsPerSample / 8;
+  const header = Buffer.alloc(44);
+  header.write("RIFF", 0);
+  header.writeUInt32LE(36 + frame.data.byteLength, 4);
+  header.write("WAVE", 8);
+  header.write("fmt ", 12);
+  header.writeUInt32LE(16, 16);
+  header.writeUInt16LE(1, 20);
+  header.writeUInt16LE(frame.channels, 22);
+  header.writeUInt32LE(frame.sampleRate, 24);
+  header.writeUInt32LE(byteRate, 28);
+  header.writeUInt16LE(blockAlign, 32);
+  header.writeUInt16LE(bitsPerSample, 34);
+  header.write("data", 36);
+  header.writeUInt32LE(frame.data.byteLength, 40);
+  const pcm = Buffer.from(frame.data.buffer, frame.data.byteOffset, frame.data.byteLength);
+  return Buffer.concat([header, pcm]);
+}
+class STT extends stt.STT {
+  opts;
+  label = "sarvam.STT";
+  /**
+   * Create a new instance of Sarvam AI STT.
+   *
+   * @remarks
+   * `apiKey` must be set to your Sarvam API key, either using the argument or by setting the
+   * `SARVAM_API_KEY` environment variable.
+   *
+   * Supported models:
+   * - `saaras:v3` (default, recommended) — supports all 22 languages, modes, prompt, timestamps, and uses `/speech-to-text`.
+   * - `saaras:v2.5` — Indic-to-English translation via `/speech-to-text-translate`. Auto-detects source language. Supports prompt.
+   * - `saarika:v2.5` — will be deprecated soon. Supports timestamps. All its languages are available in `saaras:v3`.
+   *
+   * @see {@link https://docs.sarvam.ai/api-reference-docs/speech-to-text/transcribe | Sarvam STT API docs}
+   * @see {@link https://docs.sarvam.ai/api-reference-docs/speech-to-text-translate/translate | Sarvam STT Translate docs}
+   */
+  constructor(opts = {}) {
+    const resolved = resolveOptions(opts);
+    super({
+      streaming: resolved.streaming,
+      interimResults: false,
+      alignedTranscript: false
+    });
+    this.opts = resolved;
+  }
+  updateOptions(opts) {
+    const modelChanging = opts.model != null && opts.model !== this.opts.model;
+    const base = modelChanging ? {
+      apiKey: this.opts.apiKey,
+      streaming: this.opts.streaming,
+      ...this.opts.highVadSensitivity != null ? { highVadSensitivity: this.opts.highVadSensitivity } : {},
+      ...this.opts.flushSignal != null ? { flushSignal: this.opts.flushSignal } : {},
+      ...this.opts.languageCode != null && opts.model !== "saaras:v2.5" ? { languageCode: this.opts.languageCode } : {}
+    } : { ...this.opts };
+    this.opts = resolveOptions({ ...base, ...opts });
+  }
+  async _recognize(buffer, abortSignal) {
+    const frame = mergeFrames(buffer);
+    const wavBuffer = createWav(frame);
+    const wavBlob = new Blob([new Uint8Array(wavBuffer)], { type: "audio/wav" });
+    const formData = buildFormData(wavBlob, this.opts);
+    const response = await fetch(getRestUrl(this.opts.model), {
+      method: "POST",
+      headers: {
+        "api-subscription-key": this.opts.apiKey
+      },
+      body: formData,
+      signal: abortSignal ?? null
+    });
+    if (!response.ok) {
+      const errorBody = await response.text();
+      throw new Error(`Sarvam STT API error ${response.status}: ${errorBody}`);
+    }
+    const data = await response.json();
+    let startTime = 0;
+    let endTime = 0;
+    if (data.timestamps) {
+      const starts = data.timestamps.start_time_seconds;
+      const ends = data.timestamps.end_time_seconds;
+      if (starts.length > 0) startTime = starts[0] ?? 0;
+      if (ends.length > 0) endTime = ends[ends.length - 1] ?? 0;
+    }
+    return {
+      type: stt.SpeechEventType.FINAL_TRANSCRIPT,
+      requestId: data.request_id ?? void 0,
+      alternatives: [
+        {
+          text: data.transcript || "",
+          language: data.language_code ?? this.opts.languageCode ?? "unknown",
+          startTime,
+          endTime,
+          confidence: data.language_probability ?? 0
+        }
+      ]
+    };
+  }
+  stream(options) {
+    if (!this.capabilities.streaming) {
+      throw new Error(
+        "Sarvam STT streaming is disabled (`streaming: false`). Use recognize() for REST or wrap with stt.StreamAdapter + VAD for streaming behavior."
+      );
+    }
+    return new SpeechStream(this, this.opts, options == null ? void 0 : options.connOptions);
+  }
+}
+class SpeechStream extends stt.SpeechStream {
+  #opts;
+  #audioEnergyFilter;
+  #logger = log();
+  #speaking = false;
+  #resetWS = new Future();
+  #requestId = "";
+  label = "sarvam.SpeechStream";
+  constructor(sttInstance, opts, connOptions) {
+    super(sttInstance, SAMPLE_RATE, connOptions);
+    this.#opts = opts;
+    this.closed = false;
+    this.#audioEnergyFilter = new AudioEnergyFilter();
+  }
+  updateOptions(opts) {
+    const modelChanging = opts.model != null && opts.model !== this.#opts.model;
+    const base = modelChanging ? {
+      apiKey: this.#opts.apiKey,
+      ...this.#opts.highVadSensitivity != null ? { highVadSensitivity: this.#opts.highVadSensitivity } : {},
+      ...this.#opts.flushSignal != null ? { flushSignal: this.#opts.flushSignal } : {},
+      ...this.#opts.languageCode != null && opts.model !== "saaras:v2.5" ? { languageCode: this.#opts.languageCode } : {}
+    } : { ...this.#opts };
+    this.#opts = resolveOptions({ ...base, ...opts });
+    this.#resetWS.resolve();
+  }
+  async run() {
+    const maxRetry = 32;
+    let retries = 0;
+    while (!this.input.closed && !this.closed) {
+      const wsUrl = buildWsUrl(this.#opts);
+      this.#logger.info(`Sarvam STT connecting to: ${wsUrl}`);
+      const ws = new WebSocket(wsUrl, {
+        headers: { "api-subscription-key": this.#opts.apiKey }
+      });
+      let sessionStart = 0;
+      try {
+        await new Promise((resolve, reject) => {
+          ws.once("open", () => resolve());
+          ws.once("error", (err) => reject(err));
+          ws.once(
+            "close",
+            (code) => reject(new Error(`WebSocket closed with code ${code}`))
+          );
+        });
+        sessionStart = Date.now();
+        await this.#runWS(ws);
+        retries = 0;
+      } catch (e) {
+        ws.removeAllListeners();
+        ws.close();
+        if (!this.closed && !this.input.closed) {
+          if (sessionStart > 0 && Date.now() - sessionStart > 5e3) {
+            retries = 0;
+          }
+          if (retries >= maxRetry) {
+            throw new Error(`Failed to connect to Sarvam STT after ${retries} attempts: ${e}`);
+          }
+          const delay = Math.min(retries * 5, 10);
+          retries++;
+          this.#logger.warn(
+            `Failed to connect to Sarvam STT, retrying in ${delay}s: ${e} (${retries}/${maxRetry})`
+          );
+          await new Promise((resolve) => setTimeout(resolve, delay * 1e3));
+        } else {
+          this.#logger.warn(
+            `Sarvam STT disconnected, connection is closed: ${e} (inputClosed: ${this.input.closed}, isClosed: ${this.closed})`
+          );
+        }
+      }
+    }
+    this.closed = true;
+  }
+  async #runWS(ws) {
+    this.#resetWS = new Future();
+    this.#speaking = false;
+    let closing = false;
+    const sessionController = new AbortController();
+    if (this.#opts.model === "saaras:v2.5" && this.#opts.prompt != null) {
+      ws.send(JSON.stringify({ type: "config", prompt: this.#opts.prompt }));
+    }
+    const wsMonitor = Task.from(async (controller) => {
+      const closed = new Promise((_, reject) => {
+        ws.once("close", (code, reason) => {
+          if (!closing) {
+            this.#logger.error(`WebSocket closed with code ${code}: ${reason}`);
+            reject(new Error("WebSocket closed"));
+          }
+        });
+      });
+      await Promise.race([closed, waitForAbort(controller.signal)]);
+    });
+    const sendTask = async () => {
+      const samples50Ms = Math.floor(SAMPLE_RATE / 20);
+      const stream = new AudioByteStream(SAMPLE_RATE, NUM_CHANNELS, samples50Ms);
+      const abortPromise = waitForAbort(this.abortSignal);
+      const sessionAbort = waitForAbort(sessionController.signal);
+      try {
+        while (!this.closed) {
+          const result = await Promise.race([this.input.next(), abortPromise, sessionAbort]);
+          if (result === void 0) return;
+          if (result.done) break;
+          const data = result.value;
+          let frames;
+          if (data === SpeechStream.FLUSH_SENTINEL) {
+            frames = stream.flush();
+          } else if (data.sampleRate !== SAMPLE_RATE || data.channels !== NUM_CHANNELS) {
+            throw new Error(
+              `Expected ${SAMPLE_RATE}Hz/${NUM_CHANNELS}ch, got ${data.sampleRate}Hz/${data.channels}ch`
+            );
+          } else {
+            frames = stream.write(
+              data.data.buffer.slice(
+                data.data.byteOffset,
+                data.data.byteOffset + data.data.byteLength
+              )
+            );
+          }
+          for (const frame of frames) {
+            if (this.#audioEnergyFilter.pushFrame(frame)) {
+              const pcmBuffer = Buffer.from(
+                frame.data.buffer,
+                frame.data.byteOffset,
+                frame.data.byteLength
+              );
+              const base64Audio = pcmBuffer.toString("base64");
+              ws.send(
+                JSON.stringify({
+                  audio: {
+                    data: base64Audio,
+                    encoding: "audio/wav",
+                    sample_rate: SAMPLE_RATE
+                  }
+                })
+              );
+            }
+          }
+          if (data === SpeechStream.FLUSH_SENTINEL) {
+            ws.send(JSON.stringify({ type: "flush" }));
+          }
+        }
+      } finally {
+        closing = true;
+        try {
+          ws.send(
+            JSON.stringify({
+              type: "end_of_stream",
+              audio: { data: "", encoding: "audio/wav", sample_rate: SAMPLE_RATE }
+            })
+          );
+        } catch {
+        }
+        wsMonitor.cancel();
+      }
+    };
+    const listenTask = Task.from(async (controller) => {
+      const putMessage = (event) => {
+        if (!this.queue.closed) {
+          try {
+            this.queue.put(event);
+          } catch {
+          }
+        }
+      };
+      const listenMessage = new Promise((resolve, reject) => {
+        ws.once("close", () => resolve());
+        ws.on("message", (msg) => {
+          var _a;
+          try {
+            const raw = msg.toString();
+            this.#logger.debug(`Sarvam STT raw WS message: ${raw.substring(0, 500)}`);
+            const json = JSON.parse(raw);
+            const msgType = json["type"] ?? "";
+            if (msgType === "events") {
+              const eventData = json["data"] ?? {};
+              const signalType = eventData.signal_type;
+              if (signalType === "START_SPEECH") {
+                if (!this.#speaking) {
+                  this.#speaking = true;
+                  putMessage({ type: stt.SpeechEventType.START_OF_SPEECH });
+                }
+              } else if (signalType === "END_SPEECH") {
+                if (this.#speaking) {
+                  this.#speaking = false;
+                  putMessage({ type: stt.SpeechEventType.END_OF_SPEECH });
+                }
+              }
+            } else if (msgType === "data") {
+              const td = json["data"] ?? {};
+              const transcript = td.transcript ?? "";
+              const language = td.language_code ?? this.#opts.languageCode ?? "unknown";
+              const requestId = td.request_id ?? "";
+              const confidence = td.language_probability ?? 0;
+              this.#requestId = requestId;
+              if (td.metrics) {
+                this.#logger.debug(
+                  `Sarvam STT metrics: audio_duration=${td.metrics.audio_duration}s, latency=${td.metrics.processing_latency}s`
+                );
+              }
+              if (transcript) {
+                if (!this.#speaking) {
+                  this.#speaking = true;
+                  putMessage({ type: stt.SpeechEventType.START_OF_SPEECH });
+                }
+                putMessage({
+                  type: stt.SpeechEventType.FINAL_TRANSCRIPT,
+                  requestId,
+                  alternatives: [
+                    {
+                      text: transcript,
+                      language,
+                      startTime: 0,
+                      endTime: ((_a = td.metrics) == null ? void 0 : _a.audio_duration) ?? 0,
+                      confidence
+                    }
+                  ]
+                });
+              }
+            } else if (msgType === "error") {
+              const nested = json["data"];
+              const errorInfo = (nested == null ? void 0 : nested.message) ?? (nested == null ? void 0 : nested.error) ?? json["error"] ?? json["message"] ?? "Unknown error";
+              const errorCode = (nested == null ? void 0 : nested.code) ?? json["code"] ?? "";
+              this.#logger.error(`Sarvam STT WebSocket error [${errorCode}]: ${errorInfo}`);
+              reject(new Error(`Sarvam STT API error [${errorCode}]: ${errorInfo}`));
+              return;
+            }
+            if (this.closed || closing) {
+              resolve();
+            }
+          } catch (err) {
+            this.#logger.error(`Error processing Sarvam STT message: ${msg}`);
+            reject(err);
+          }
+        });
+      });
+      await Promise.race([listenMessage, waitForAbort(controller.signal)]);
+    }, this.abortController);
+    try {
+      await Promise.race([
+        this.#resetWS.await,
+        Promise.all([sendTask(), listenTask.result, wsMonitor.result])
+      ]);
+    } finally {
+      closing = true;
+      sessionController.abort();
+      wsMonitor.cancel();
+      ws.close();
+      listenTask.result.catch(() => {
+      });
+    }
+  }
+}
+export {
+  STT,
+  SpeechStream
+};
+//# sourceMappingURL=stt.js.map