npm - @storyteller-platform/ghost-story - Versions diffs - 0.0.1 - Mend

@storyteller-platform/ghost-story 0.0.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (135) hide show

package/LICENSE.md +611 -0
package/README.md +18 -0
package/dist/api/APIOptions.cjs +16 -0
package/dist/api/APIOptions.d.cts +18 -0
package/dist/api/APIOptions.d.ts +18 -0
package/dist/api/APIOptions.js +0 -0
package/dist/api/Recognition.cjs +263 -0
package/dist/api/Recognition.d.cts +77 -0
package/dist/api/Recognition.d.ts +77 -0
package/dist/api/Recognition.js +233 -0
package/dist/api/VoiceActivityDetection.cjs +77 -0
package/dist/api/VoiceActivityDetection.d.cts +24 -0
package/dist/api/VoiceActivityDetection.d.ts +24 -0
package/dist/api/VoiceActivityDetection.js +43 -0
package/dist/audio/AudioConverter.cjs +331 -0
package/dist/audio/AudioConverter.d.cts +53 -0
package/dist/audio/AudioConverter.d.ts +53 -0
package/dist/audio/AudioConverter.js +310 -0
package/dist/audio/AudioFormat.cjs +151 -0
package/dist/audio/AudioFormat.d.cts +25 -0
package/dist/audio/AudioFormat.d.ts +25 -0
package/dist/audio/AudioFormat.js +123 -0
package/dist/audio/AudioSource.cjs +119 -0
package/dist/audio/AudioSource.d.cts +33 -0
package/dist/audio/AudioSource.d.ts +33 -0
package/dist/audio/AudioSource.js +88 -0
package/dist/audio/index.cjs +74 -0
package/dist/audio/index.d.cts +6 -0
package/dist/audio/index.d.ts +6 -0
package/dist/audio/index.js +54 -0
package/dist/cli/bin.cjs +277 -0
package/dist/cli/bin.d.cts +1 -0
package/dist/cli/bin.d.ts +1 -0
package/dist/cli/bin.js +275 -0
package/dist/cli/config.cjs +347 -0
package/dist/cli/config.d.cts +33 -0
package/dist/cli/config.d.ts +33 -0
package/dist/cli/config.js +285 -0
package/dist/cli/install.cjs +334 -0
package/dist/cli/install.d.cts +62 -0
package/dist/cli/install.d.ts +62 -0
package/dist/cli/install.js +316 -0
package/dist/cli/whisper-server.cjs +172 -0
package/dist/cli/whisper-server.d.cts +24 -0
package/dist/cli/whisper-server.d.ts +24 -0
package/dist/cli/whisper-server.js +152 -0
package/dist/config.cjs +60 -0
package/dist/config.d.cts +12 -0
package/dist/config.d.ts +12 -0
package/dist/config.js +32 -0
package/dist/convert.cjs +88 -0
package/dist/convert.d.cts +12 -0
package/dist/convert.d.ts +12 -0
package/dist/convert.js +63 -0
package/dist/encodings/Ascii.cjs +75 -0
package/dist/encodings/Ascii.d.cts +13 -0
package/dist/encodings/Ascii.d.ts +13 -0
package/dist/encodings/Ascii.js +48 -0
package/dist/encodings/Base64.cjs +155 -0
package/dist/encodings/Base64.d.cts +5 -0
package/dist/encodings/Base64.d.ts +5 -0
package/dist/encodings/Base64.js +129 -0
package/dist/encodings/TextEncodingsCommon.cjs +16 -0
package/dist/encodings/TextEncodingsCommon.d.cts +6 -0
package/dist/encodings/TextEncodingsCommon.d.ts +6 -0
package/dist/encodings/TextEncodingsCommon.js +0 -0
package/dist/index.cjs +153 -0
package/dist/index.d.cts +15 -0
package/dist/index.d.ts +15 -0
package/dist/index.js +140 -0
package/dist/recognition/AmazonTranscribeSTT.cjs +188 -0
package/dist/recognition/AmazonTranscribeSTT.d.cts +21 -0
package/dist/recognition/AmazonTranscribeSTT.d.ts +21 -0
package/dist/recognition/AmazonTranscribeSTT.js +160 -0
package/dist/recognition/AzureCognitiveServicesSTT.cjs +124 -0
package/dist/recognition/AzureCognitiveServicesSTT.d.cts +21 -0
package/dist/recognition/AzureCognitiveServicesSTT.d.ts +21 -0
package/dist/recognition/AzureCognitiveServicesSTT.js +95 -0
package/dist/recognition/DeepgramSTT.cjs +172 -0
package/dist/recognition/DeepgramSTT.d.cts +23 -0
package/dist/recognition/DeepgramSTT.d.ts +23 -0
package/dist/recognition/DeepgramSTT.js +153 -0
package/dist/recognition/GoogleCloudSTT.cjs +125 -0
package/dist/recognition/GoogleCloudSTT.d.cts +35 -0
package/dist/recognition/GoogleCloudSTT.d.ts +35 -0
package/dist/recognition/GoogleCloudSTT.js +107 -0
package/dist/recognition/OpenAICloudSTT.cjs +180 -0
package/dist/recognition/OpenAICloudSTT.d.cts +29 -0
package/dist/recognition/OpenAICloudSTT.d.ts +29 -0
package/dist/recognition/OpenAICloudSTT.js +150 -0
package/dist/recognition/WhisperCppSTT.cjs +296 -0
package/dist/recognition/WhisperCppSTT.d.cts +40 -0
package/dist/recognition/WhisperCppSTT.d.ts +40 -0
package/dist/recognition/WhisperCppSTT.js +275 -0
package/dist/recognition/WhisperServerSTT.cjs +119 -0
package/dist/recognition/WhisperServerSTT.d.cts +24 -0
package/dist/recognition/WhisperServerSTT.d.ts +24 -0
package/dist/recognition/WhisperServerSTT.js +105 -0
package/dist/utilities/FileSystem.cjs +54 -0
package/dist/utilities/FileSystem.d.cts +3 -0
package/dist/utilities/FileSystem.d.ts +3 -0
package/dist/utilities/FileSystem.js +20 -0
package/dist/utilities/Locale.cjs +46 -0
package/dist/utilities/Locale.d.cts +9 -0
package/dist/utilities/Locale.d.ts +9 -0
package/dist/utilities/Locale.js +20 -0
package/dist/utilities/ObjectUtilities.cjs +41 -0
package/dist/utilities/ObjectUtilities.d.cts +3 -0
package/dist/utilities/ObjectUtilities.d.ts +3 -0
package/dist/utilities/ObjectUtilities.js +7 -0
package/dist/utilities/Timeline.cjs +120 -0
package/dist/utilities/Timeline.d.cts +23 -0
package/dist/utilities/Timeline.d.ts +23 -0
package/dist/utilities/Timeline.js +94 -0
package/dist/utilities/Timing.cjs +287 -0
package/dist/utilities/Timing.d.cts +64 -0
package/dist/utilities/Timing.d.ts +64 -0
package/dist/utilities/Timing.js +256 -0
package/dist/utilities/WhisperTimeline.cjs +344 -0
package/dist/utilities/WhisperTimeline.d.cts +86 -0
package/dist/utilities/WhisperTimeline.d.ts +86 -0
package/dist/utilities/WhisperTimeline.js +313 -0
package/dist/vad/ActiveGate.cjs +357 -0
package/dist/vad/ActiveGate.d.cts +53 -0
package/dist/vad/ActiveGate.d.ts +53 -0
package/dist/vad/ActiveGate.js +329 -0
package/dist/vad/ActiveGateOg.cjs +1366 -0
package/dist/vad/ActiveGateOg.d.cts +33 -0
package/dist/vad/ActiveGateOg.d.ts +33 -0
package/dist/vad/ActiveGateOg.js +1341 -0
package/dist/vad/Silero.cjs +174 -0
package/dist/vad/Silero.d.cts +25 -0
package/dist/vad/Silero.d.ts +25 -0
package/dist/vad/Silero.js +153 -0
package/package.json +125 -0

package/dist/recognition/DeepgramSTT.cjs ADDED Viewed

@@ -0,0 +1,172 @@
+"use strict";
+var __defProp = Object.defineProperty;
+var __getOwnPropDesc = Object.getOwnPropertyDescriptor;
+var __getOwnPropNames = Object.getOwnPropertyNames;
+var __hasOwnProp = Object.prototype.hasOwnProperty;
+var __export = (target, all) => {
+  for (var name in all)
+    __defProp(target, name, { get: all[name], enumerable: true });
+};
+var __copyProps = (to, from, except, desc) => {
+  if (from && typeof from === "object" || typeof from === "function") {
+    for (let key of __getOwnPropNames(from))
+      if (!__hasOwnProp.call(to, key) && key !== except)
+        __defProp(to, key, { get: () => from[key], enumerable: !(desc = __getOwnPropDesc(from, key)) || desc.enumerable });
+  }
+  return to;
+};
+var __toCommonJS = (mod) => __copyProps(__defProp({}, "__esModule", { value: true }), mod);
+var DeepgramSTT_exports = {};
+__export(DeepgramSTT_exports, {
+  defaultDeepgramSTTOptions: () => defaultDeepgramSTTOptions,
+  recognize: () => recognize
+});
+module.exports = __toCommonJS(DeepgramSTT_exports);
+var import_audio = require("../audio/index.cjs");
+var import_config = require("../config.cjs");
+var import_ObjectUtilities = require("../utilities/ObjectUtilities.cjs");
+const SERVICE_ID = "deepgram";
+function formatToDeepgramEncoding(format) {
+  switch (format) {
+    case "wav":
+      return "wav";
+    case "flac":
+      return "flac";
+    case "opus":
+    case "ogg":
+      return "opus";
+    case "mp3":
+      return "mp3";
+    case "webm":
+      return "webm";
+    default:
+      return "wav";
+  }
+}
+function formatToContentType(format) {
+  switch (format) {
+    case "wav":
+      return "audio/wav";
+    case "flac":
+      return "audio/flac";
+    case "opus":
+    case "ogg":
+      return "audio/ogg";
+    case "mp3":
+      return "audio/mpeg";
+    case "webm":
+      return "audio/webm";
+    default:
+      return "audio/wav";
+  }
+}
+async function recognize(input, languageCode, options, signal) {
+  var _a, _b;
+  const opts = (0, import_ObjectUtilities.extendDeep)(defaultDeepgramSTTOptions, options);
+  const timing = opts.timing;
+  if (!opts.apiKey) {
+    throw new Error("No Deepgram API key provided");
+  }
+  const source = (0, import_audio.isAudioSource)(input) ? input : (0, import_audio.normalizeToAudioSource)(input, opts.inputFormat);
+  const caps = import_audio.serviceCapabilities[SERVICE_ID];
+  const requiresConversion = (0, import_audio.needsConversion)(source.format, SERVICE_ID);
+  const targetFormat = requiresConversion ? (caps == null ? void 0 : caps.preferredFormat) ?? "wav" : source.format;
+  const mode = opts.conversionMode ?? (0, import_config.getConversionMode)();
+  timing == null ? void 0 : timing.setMetadata("targetFormat", targetFormat);
+  timing == null ? void 0 : timing.setMetadata("conversionMode", mode);
+  timing == null ? void 0 : timing.setMetadata("conversionRequired", requiresConversion);
+  const doConversion = () => (0, import_audio.createStreamForUpload)({
+    source,
+    targetFormat,
+    sampleRate: caps == null ? void 0 : caps.preferredSampleRate,
+    channels: caps == null ? void 0 : caps.preferredChannels,
+    mode
+  });
+  const uploadResult = timing ? await timing.timeAsync("conversion", doConversion) : await doConversion();
+  try {
+    const params = {
+      model: opts.model,
+      encoding: formatToDeepgramEncoding(uploadResult.format),
+      punctuate: opts.punctuate ? "true" : "false"
+    };
+    if (languageCode) {
+      params["language"] = languageCode;
+    } else {
+      params["detect_language"] = "true";
+    }
+    const searchParams = new URLSearchParams(params);
+    const url = `https://api.deepgram.com/v1/listen?${searchParams.toString()}`;
+    const doUpload = async () => {
+      var _a2;
+      const fetchPromise = fetch(url, {
+        method: "POST",
+        duplex: "half",
+        headers: {
+          Authorization: `Token ${opts.apiKey}`,
+          "Content-Type": formatToContentType(uploadResult.format)
+        },
+        body: uploadResult.stream,
+        signal: signal ?? null
+      });
+      const conversionPromise = (_a2 = uploadResult.start) == null ? void 0 : _a2.call(uploadResult);
+      const resp = await fetchPromise;
+      await conversionPromise;
+      return resp;
+    };
+    const response = timing ? await timing.timeAsync("upload", doUpload) : await doUpload();
+    if (!response.ok) {
+      const text = await response.text();
+      throw new Error(`Deepgram request failed: ${response.status} ${text}`);
+    }
+    const deepgramResponse = await response.json();
+    const firstAlternative = (_b = (_a = deepgramResponse.results) == null ? void 0 : _a.channels[0]) == null ? void 0 : _b.alternatives[0];
+    const transcript = (firstAlternative == null ? void 0 : firstAlternative.transcript) || "";
+    const words = (firstAlternative == null ? void 0 : firstAlternative.words) || [];
+    const timeline = words.map(
+      (wordEntry) => ({
+        type: "word",
+        text: wordEntry.word,
+        startTime: wordEntry.start,
+        endTime: wordEntry.end,
+        confidence: wordEntry.confidence
+      })
+    );
+    if (opts.punctuate) {
+      applyPunctuationToTimeline(timeline, transcript);
+    }
+    return { transcript, timeline };
+  } finally {
+    await uploadResult.cleanup();
+  }
+}
+function applyPunctuationToTimeline(timeline, transcript) {
+  const lowerCaseTranscript = transcript.toLocaleLowerCase();
+  let readOffset = 0;
+  for (const wordEntry of timeline) {
+    const wordEntryTextLowercase = wordEntry.text.toLocaleLowerCase();
+    const matchPosition = lowerCaseTranscript.indexOf(
+      wordEntryTextLowercase,
+      readOffset
+    );
+    if (matchPosition === -1) {
+      throw new Error(
+        `Couldn't match the word '${wordEntry.text}' in the lowercase transcript`
+      );
+    }
+    wordEntry.text = transcript.substring(
+      matchPosition,
+      matchPosition + wordEntryTextLowercase.length
+    );
+    readOffset = matchPosition + wordEntry.text.length;
+  }
+}
+const defaultDeepgramSTTOptions = {
+  apiKey: "",
+  model: "nova-2",
+  punctuate: true
+};
+// Annotate the CommonJS export names for ESM import in node:
+0 && (module.exports = {
+  defaultDeepgramSTTOptions,
+  recognize
+});

package/dist/recognition/DeepgramSTT.d.cts ADDED Viewed

@@ -0,0 +1,23 @@
+import { AudioFormat } from '../audio/AudioFormat.cjs';
+import { RawAudioInput, AudioSource } from '../audio/AudioSource.cjs';
+import { ConversionMode } from '../config.cjs';
+import { TimelineEntry } from '../utilities/Timeline.cjs';
+import { Timing } from '../utilities/Timing.cjs';
+import 'node:fs';
+import 'node:stream';
+declare function recognize(input: RawAudioInput | AudioSource, languageCode: string | undefined, options: DeepgramSTTOptions, signal?: AbortSignal | null): Promise<{
+    transcript: string;
+    timeline: TimelineEntry[];
+}>;
+interface DeepgramSTTOptions {
+    apiKey: string;
+    model: string;
+    punctuate: boolean;
+    inputFormat?: AudioFormat | undefined;
+    timing?: Timing | undefined;
+    conversionMode?: ConversionMode | undefined;
+}
+declare const defaultDeepgramSTTOptions: DeepgramSTTOptions;
+export { type DeepgramSTTOptions, defaultDeepgramSTTOptions, recognize };

package/dist/recognition/DeepgramSTT.d.ts ADDED Viewed

@@ -0,0 +1,23 @@
+import { AudioFormat } from '../audio/AudioFormat.js';
+import { RawAudioInput, AudioSource } from '../audio/AudioSource.js';
+import { ConversionMode } from '../config.js';
+import { TimelineEntry } from '../utilities/Timeline.js';
+import { Timing } from '../utilities/Timing.js';
+import 'node:fs';
+import 'node:stream';
+declare function recognize(input: RawAudioInput | AudioSource, languageCode: string | undefined, options: DeepgramSTTOptions, signal?: AbortSignal | null): Promise<{
+    transcript: string;
+    timeline: TimelineEntry[];
+}>;
+interface DeepgramSTTOptions {
+    apiKey: string;
+    model: string;
+    punctuate: boolean;
+    inputFormat?: AudioFormat | undefined;
+    timing?: Timing | undefined;
+    conversionMode?: ConversionMode | undefined;
+}
+declare const defaultDeepgramSTTOptions: DeepgramSTTOptions;
+export { type DeepgramSTTOptions, defaultDeepgramSTTOptions, recognize };

package/dist/recognition/DeepgramSTT.js ADDED Viewed

@@ -0,0 +1,153 @@
+import {
+  createStreamForUpload,
+  isAudioSource,
+  needsConversion,
+  normalizeToAudioSource,
+  serviceCapabilities
+} from "../audio/index.js";
+import { getConversionMode } from "../config.js";
+import { extendDeep } from "../utilities/ObjectUtilities.js";
+const SERVICE_ID = "deepgram";
+function formatToDeepgramEncoding(format) {
+  switch (format) {
+    case "wav":
+      return "wav";
+    case "flac":
+      return "flac";
+    case "opus":
+    case "ogg":
+      return "opus";
+    case "mp3":
+      return "mp3";
+    case "webm":
+      return "webm";
+    default:
+      return "wav";
+  }
+}
+function formatToContentType(format) {
+  switch (format) {
+    case "wav":
+      return "audio/wav";
+    case "flac":
+      return "audio/flac";
+    case "opus":
+    case "ogg":
+      return "audio/ogg";
+    case "mp3":
+      return "audio/mpeg";
+    case "webm":
+      return "audio/webm";
+    default:
+      return "audio/wav";
+  }
+}
+async function recognize(input, languageCode, options, signal) {
+  var _a, _b;
+  const opts = extendDeep(defaultDeepgramSTTOptions, options);
+  const timing = opts.timing;
+  if (!opts.apiKey) {
+    throw new Error("No Deepgram API key provided");
+  }
+  const source = isAudioSource(input) ? input : normalizeToAudioSource(input, opts.inputFormat);
+  const caps = serviceCapabilities[SERVICE_ID];
+  const requiresConversion = needsConversion(source.format, SERVICE_ID);
+  const targetFormat = requiresConversion ? (caps == null ? void 0 : caps.preferredFormat) ?? "wav" : source.format;
+  const mode = opts.conversionMode ?? getConversionMode();
+  timing == null ? void 0 : timing.setMetadata("targetFormat", targetFormat);
+  timing == null ? void 0 : timing.setMetadata("conversionMode", mode);
+  timing == null ? void 0 : timing.setMetadata("conversionRequired", requiresConversion);
+  const doConversion = () => createStreamForUpload({
+    source,
+    targetFormat,
+    sampleRate: caps == null ? void 0 : caps.preferredSampleRate,
+    channels: caps == null ? void 0 : caps.preferredChannels,
+    mode
+  });
+  const uploadResult = timing ? await timing.timeAsync("conversion", doConversion) : await doConversion();
+  try {
+    const params = {
+      model: opts.model,
+      encoding: formatToDeepgramEncoding(uploadResult.format),
+      punctuate: opts.punctuate ? "true" : "false"
+    };
+    if (languageCode) {
+      params["language"] = languageCode;
+    } else {
+      params["detect_language"] = "true";
+    }
+    const searchParams = new URLSearchParams(params);
+    const url = `https://api.deepgram.com/v1/listen?${searchParams.toString()}`;
+    const doUpload = async () => {
+      var _a2;
+      const fetchPromise = fetch(url, {
+        method: "POST",
+        duplex: "half",
+        headers: {
+          Authorization: `Token ${opts.apiKey}`,
+          "Content-Type": formatToContentType(uploadResult.format)
+        },
+        body: uploadResult.stream,
+        signal: signal ?? null
+      });
+      const conversionPromise = (_a2 = uploadResult.start) == null ? void 0 : _a2.call(uploadResult);
+      const resp = await fetchPromise;
+      await conversionPromise;
+      return resp;
+    };
+    const response = timing ? await timing.timeAsync("upload", doUpload) : await doUpload();
+    if (!response.ok) {
+      const text = await response.text();
+      throw new Error(`Deepgram request failed: ${response.status} ${text}`);
+    }
+    const deepgramResponse = await response.json();
+    const firstAlternative = (_b = (_a = deepgramResponse.results) == null ? void 0 : _a.channels[0]) == null ? void 0 : _b.alternatives[0];
+    const transcript = (firstAlternative == null ? void 0 : firstAlternative.transcript) || "";
+    const words = (firstAlternative == null ? void 0 : firstAlternative.words) || [];
+    const timeline = words.map(
+      (wordEntry) => ({
+        type: "word",
+        text: wordEntry.word,
+        startTime: wordEntry.start,
+        endTime: wordEntry.end,
+        confidence: wordEntry.confidence
+      })
+    );
+    if (opts.punctuate) {
+      applyPunctuationToTimeline(timeline, transcript);
+    }
+    return { transcript, timeline };
+  } finally {
+    await uploadResult.cleanup();
+  }
+}
+function applyPunctuationToTimeline(timeline, transcript) {
+  const lowerCaseTranscript = transcript.toLocaleLowerCase();
+  let readOffset = 0;
+  for (const wordEntry of timeline) {
+    const wordEntryTextLowercase = wordEntry.text.toLocaleLowerCase();
+    const matchPosition = lowerCaseTranscript.indexOf(
+      wordEntryTextLowercase,
+      readOffset
+    );
+    if (matchPosition === -1) {
+      throw new Error(
+        `Couldn't match the word '${wordEntry.text}' in the lowercase transcript`
+      );
+    }
+    wordEntry.text = transcript.substring(
+      matchPosition,
+      matchPosition + wordEntryTextLowercase.length
+    );
+    readOffset = matchPosition + wordEntry.text.length;
+  }
+}
+const defaultDeepgramSTTOptions = {
+  apiKey: "",
+  model: "nova-2",
+  punctuate: true
+};
+export {
+  defaultDeepgramSTTOptions,
+  recognize
+};

package/dist/recognition/GoogleCloudSTT.cjs ADDED Viewed

@@ -0,0 +1,125 @@
+"use strict";
+var __defProp = Object.defineProperty;
+var __getOwnPropDesc = Object.getOwnPropertyDescriptor;
+var __getOwnPropNames = Object.getOwnPropertyNames;
+var __hasOwnProp = Object.prototype.hasOwnProperty;
+var __export = (target, all) => {
+  for (var name in all)
+    __defProp(target, name, { get: all[name], enumerable: true });
+};
+var __copyProps = (to, from, except, desc) => {
+  if (from && typeof from === "object" || typeof from === "function") {
+    for (let key of __getOwnPropNames(from))
+      if (!__hasOwnProp.call(to, key) && key !== except)
+        __defProp(to, key, { get: () => from[key], enumerable: !(desc = __getOwnPropDesc(from, key)) || desc.enumerable });
+  }
+  return to;
+};
+var __toCommonJS = (mod) => __copyProps(__defProp({}, "__esModule", { value: true }), mod);
+var GoogleCloudSTT_exports = {};
+__export(GoogleCloudSTT_exports, {
+  recognize: () => recognize
+});
+module.exports = __toCommonJS(GoogleCloudSTT_exports);
+var import_audio = require("../audio/index.cjs");
+var import_Base64 = require("../encodings/Base64.cjs");
+const SERVICE_ID = "google-cloud";
+async function recognize(input, options, languageCode = "en-US") {
+  const timing = options.timing;
+  const source = (0, import_audio.isAudioSource)(input) ? input : (0, import_audio.normalizeToAudioSource)(input, options.inputFormat);
+  let encoding = formatToGoogleEncoding(source.format);
+  const conversionNeeded = (0, import_audio.needsConversion)(source.format, SERVICE_ID);
+  timing == null ? void 0 : timing.setMetadata("conversionRequired", conversionNeeded);
+  timing == null ? void 0 : timing.setMetadata("targetFormat", conversionNeeded ? "flac" : source.format);
+  const doConversion = async () => {
+    if (conversionNeeded) {
+      const converted = await (0, import_audio.convertToBuffer)(source, {
+        targetFormat: "flac",
+        sampleRate: 16e3,
+        channels: 1
+      });
+      encoding = "FLAC";
+      return converted.source.buffer;
+    }
+    return (0, import_audio.toBuffer)(source);
+  };
+  const audioBuffer = timing ? await timing.timeAsync("conversion", doConversion) : await doConversion();
+  const requestBody = {
+    config: {
+      encoding,
+      sampleRateHertz: 16e3,
+      audioChannelCount: 1,
+      languageCode,
+      alternativeLanguageCodes: options.alternativeLanguageCodes ?? [],
+      maxAlternatives: 1,
+      profanityFilter: options.profanityFilter ?? false,
+      enableWordTimeOffsets: true,
+      enableWordConfidence: true,
+      enableAutomaticPunctuation: options.autoPunctuation ?? true,
+      model: "latest_long",
+      useEnhanced: options.useEnhancedModel ?? true
+    },
+    audio: {
+      content: (0, import_Base64.encodeBase64)(audioBuffer)
+    }
+  };
+  const doUpload = () => fetch(`https://speech.googleapis.com/v1p1beta1/speech:recognize`, {
+    method: "POST",
+    headers: {
+      "Content-Type": "application/json",
+      Authorization: `Bearer ${options.apiKey}`
+    },
+    body: JSON.stringify(requestBody)
+  });
+  const response = timing ? await timing.timeAsync("upload", doUpload) : await doUpload();
+  if (!response.ok) {
+    const text = await response.text();
+    throw new Error(`Google Cloud STT error: ${response.status} ${text}`);
+  }
+  const result = parseResponseBody(
+    await response.json()
+  );
+  return result;
+}
+function formatToGoogleEncoding(format) {
+  switch (format) {
+    case "wav":
+      return "LINEAR16";
+    case "flac":
+      return "FLAC";
+    case "mp3":
+      return "MP3";
+    case "opus":
+    case "ogg":
+      return "OGG_OPUS";
+    case "webm":
+      return "WEBM_OPUS";
+    default:
+      return "FLAC";
+  }
+}
+function parseResponseBody(responseBody) {
+  var _a, _b;
+  const results = responseBody.results;
+  let transcript = "";
+  const timeline = [];
+  for (const result of results) {
+    if (!((_b = (_a = result.alternatives) == null ? void 0 : _a[0]) == null ? void 0 : _b.transcript)) continue;
+    const firstAlternative = result.alternatives[0];
+    transcript += firstAlternative.transcript;
+    for (const wordEvent of firstAlternative.words) {
+      timeline.push({
+        type: "word",
+        text: wordEvent.word,
+        startTime: parseFloat(wordEvent.startTime.replace("s", "")),
+        endTime: parseFloat(wordEvent.endTime.replace("s", "")),
+        confidence: wordEvent.confidence
+      });
+    }
+  }
+  return { transcript, timeline };
+}
+// Annotate the CommonJS export names for ESM import in node:
+0 && (module.exports = {
+  recognize
+});

package/dist/recognition/GoogleCloudSTT.d.cts ADDED Viewed

@@ -0,0 +1,35 @@
+import { AudioFormat } from '../audio/AudioFormat.cjs';
+import { RawAudioInput, AudioSource } from '../audio/AudioSource.cjs';
+import { Timeline } from '../utilities/Timeline.cjs';
+import { Timing } from '../utilities/Timing.cjs';
+import 'node:fs';
+import 'node:stream';
+interface GoogleCloudSTTOptions {
+    apiKey: string;
+    alternativeLanguageCodes?: string[] | undefined;
+    profanityFilter?: boolean | undefined;
+    autoPunctuation?: boolean | undefined;
+    useEnhancedModel?: boolean | undefined;
+    inputFormat?: AudioFormat | undefined;
+    timing?: Timing | undefined;
+}
+declare function recognize(input: RawAudioInput | AudioSource, options: GoogleCloudSTTOptions, languageCode?: string): Promise<{
+    transcript: string;
+    timeline: Timeline;
+}>;
+interface GoogleCloudSTTResponse {
+    results: {
+        alternatives?: {
+            transcript: string;
+            words: {
+                word: string;
+                startTime: string;
+                endTime: string;
+                confidence: number;
+            }[];
+        }[];
+    }[];
+}
+export { type GoogleCloudSTTOptions, type GoogleCloudSTTResponse, recognize };

package/dist/recognition/GoogleCloudSTT.d.ts ADDED Viewed

@@ -0,0 +1,35 @@
+import { AudioFormat } from '../audio/AudioFormat.js';
+import { RawAudioInput, AudioSource } from '../audio/AudioSource.js';
+import { Timeline } from '../utilities/Timeline.js';
+import { Timing } from '../utilities/Timing.js';
+import 'node:fs';
+import 'node:stream';
+interface GoogleCloudSTTOptions {
+    apiKey: string;
+    alternativeLanguageCodes?: string[] | undefined;
+    profanityFilter?: boolean | undefined;
+    autoPunctuation?: boolean | undefined;
+    useEnhancedModel?: boolean | undefined;
+    inputFormat?: AudioFormat | undefined;
+    timing?: Timing | undefined;
+}
+declare function recognize(input: RawAudioInput | AudioSource, options: GoogleCloudSTTOptions, languageCode?: string): Promise<{
+    transcript: string;
+    timeline: Timeline;
+}>;
+interface GoogleCloudSTTResponse {
+    results: {
+        alternatives?: {
+            transcript: string;
+            words: {
+                word: string;
+                startTime: string;
+                endTime: string;
+                confidence: number;
+            }[];
+        }[];
+    }[];
+}
+export { type GoogleCloudSTTOptions, type GoogleCloudSTTResponse, recognize };

package/dist/recognition/GoogleCloudSTT.js ADDED Viewed

@@ -0,0 +1,107 @@
+import {
+  convertToBuffer,
+  isAudioSource,
+  needsConversion,
+  normalizeToAudioSource,
+  toBuffer
+} from "../audio/index.js";
+import { encodeBase64 } from "../encodings/Base64.js";
+const SERVICE_ID = "google-cloud";
+async function recognize(input, options, languageCode = "en-US") {
+  const timing = options.timing;
+  const source = isAudioSource(input) ? input : normalizeToAudioSource(input, options.inputFormat);
+  let encoding = formatToGoogleEncoding(source.format);
+  const conversionNeeded = needsConversion(source.format, SERVICE_ID);
+  timing == null ? void 0 : timing.setMetadata("conversionRequired", conversionNeeded);
+  timing == null ? void 0 : timing.setMetadata("targetFormat", conversionNeeded ? "flac" : source.format);
+  const doConversion = async () => {
+    if (conversionNeeded) {
+      const converted = await convertToBuffer(source, {
+        targetFormat: "flac",
+        sampleRate: 16e3,
+        channels: 1
+      });
+      encoding = "FLAC";
+      return converted.source.buffer;
+    }
+    return toBuffer(source);
+  };
+  const audioBuffer = timing ? await timing.timeAsync("conversion", doConversion) : await doConversion();
+  const requestBody = {
+    config: {
+      encoding,
+      sampleRateHertz: 16e3,
+      audioChannelCount: 1,
+      languageCode,
+      alternativeLanguageCodes: options.alternativeLanguageCodes ?? [],
+      maxAlternatives: 1,
+      profanityFilter: options.profanityFilter ?? false,
+      enableWordTimeOffsets: true,
+      enableWordConfidence: true,
+      enableAutomaticPunctuation: options.autoPunctuation ?? true,
+      model: "latest_long",
+      useEnhanced: options.useEnhancedModel ?? true
+    },
+    audio: {
+      content: encodeBase64(audioBuffer)
+    }
+  };
+  const doUpload = () => fetch(`https://speech.googleapis.com/v1p1beta1/speech:recognize`, {
+    method: "POST",
+    headers: {
+      "Content-Type": "application/json",
+      Authorization: `Bearer ${options.apiKey}`
+    },
+    body: JSON.stringify(requestBody)
+  });
+  const response = timing ? await timing.timeAsync("upload", doUpload) : await doUpload();
+  if (!response.ok) {
+    const text = await response.text();
+    throw new Error(`Google Cloud STT error: ${response.status} ${text}`);
+  }
+  const result = parseResponseBody(
+    await response.json()
+  );
+  return result;
+}
+function formatToGoogleEncoding(format) {
+  switch (format) {
+    case "wav":
+      return "LINEAR16";
+    case "flac":
+      return "FLAC";
+    case "mp3":
+      return "MP3";
+    case "opus":
+    case "ogg":
+      return "OGG_OPUS";
+    case "webm":
+      return "WEBM_OPUS";
+    default:
+      return "FLAC";
+  }
+}
+function parseResponseBody(responseBody) {
+  var _a, _b;
+  const results = responseBody.results;
+  let transcript = "";
+  const timeline = [];
+  for (const result of results) {
+    if (!((_b = (_a = result.alternatives) == null ? void 0 : _a[0]) == null ? void 0 : _b.transcript)) continue;
+    const firstAlternative = result.alternatives[0];
+    transcript += firstAlternative.transcript;
+    for (const wordEvent of firstAlternative.words) {
+      timeline.push({
+        type: "word",
+        text: wordEvent.word,
+        startTime: parseFloat(wordEvent.startTime.replace("s", "")),
+        endTime: parseFloat(wordEvent.endTime.replace("s", "")),
+        confidence: wordEvent.confidence
+      });
+    }
+  }
+  return { transcript, timeline };
+}
+export {
+  recognize
+};