npm - utilitas - Versions diffs - 1999.1.70 → 1999.1.72 - Mend

utilitas 1999.1.70 → 1999.1.72

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (8) hide show

package/README.md +4 -2
package/dist/utilitas.lite.mjs +1 -1
package/dist/utilitas.lite.mjs.map +1 -1
package/lib/alan.mjs +4 -7
package/lib/manifest.mjs +1 -2
package/lib/media.mjs +12 -0
package/lib/speech.mjs +53 -22
package/package.json +1 -2

package/lib/alan.mjs CHANGED Viewed

@@ -1,8 +1,8 @@
 import { checkSearch, distill, search } from './web.mjs';
 import { create as createUoid } from './uoid.mjs';
-import { createWavHeader } from './media.mjs';
 import { end, loop } from './event.mjs';
 import { fileTypeFromBuffer } from 'file-type';
+import { packPcmToWav } from './media.mjs';
 import { v4 as uuidv4 } from 'uuid';
 import {
@@ -707,12 +707,8 @@ const packResp = async (resp, options) => {
         const str = simpleText.indexOf(x);
         str >= 0 && (simpleText = simpleText.slice(0, str).trim());
     });
-    audio && (audio = Buffer.isBuffer(audio) ? audio : await convert(audio, {
-        input: BASE64, expected: BUFFER,
-    })) && audio.length && (audio = Buffer.concat([
-        createWavHeader(audio.length), audio
-    ])) && (audio = await convert(audio, {
-        input: BUFFER, expected: BUFFER, ...options || {},
+    audio = await ignoreErrFunc(async () => await packPcmToWav(audio, {
+        input: Buffer.isBuffer(audio) ? BUFFER : BASE64, expected: BUFFER,
     }));
     if (images?.length) {
         for (let i in images) {
@@ -1592,6 +1588,7 @@ export {
     getSession,
     init,
     initChat,
+    k,
     listFiles,
     listGptFineTuningEvents,
     listGptFineTuningJobs,

package/lib/manifest.mjs CHANGED Viewed

@@ -1,7 +1,7 @@
 const manifest = {
     "name": "utilitas",
     "description": "Just another common utility for JavaScript.",
-    "version": "1999.1.70",
+    "version": "1999.1.72",
     "private": false,
     "homepage": "https://github.com/Leask/utilitas",
     "main": "index.mjs",
@@ -30,7 +30,6 @@ const manifest = {
         "@ffprobe-installer/ffprobe": "^2.1.2",
         "@google-cloud/speech": "^7.1.0",
         "@google-cloud/storage": "^7.16.0",
-        "@google-cloud/text-to-speech": "^6.1.0",
         "@google-cloud/vision": "^5.1.0",
         "@google/genai": "^1.0.0",
         "@mozilla/readability": "github:mozilla/readability",

package/lib/media.mjs CHANGED Viewed

@@ -38,6 +38,17 @@ const createWavHeader = (
     return header;
 };
+const packPcmToWav = async (audio, options) => {
+    (audio = await convert(audio, { ...options || {}, expected: BUFFER })) // DON'T override expected
+        && audio.length
+        && (audio = Buffer.concat([createWavHeader(audio.length), audio]))
+        && (audio = await convert(audio, {
+            expected: BUFFER, ...options || {}, input: BUFFER, // DON'T override input
+        }));
+    assert(audio, 'Failed to pack PCM to WAV.', 500);
+    return audio;
+};
 // https://codex.so/ffmpeg-node-js
 const getFfmpeg = async (options) => {
     const ffmpeg = await need('fluent-ffmpeg');
@@ -92,4 +103,5 @@ export {
     convertAudioTo16kNanoPcmWave,
     createWavHeader,
     getFfmpeg,
+    packPcmToWav,
 };

package/lib/speech.mjs CHANGED Viewed

@@ -1,9 +1,9 @@
-import { DEFAULT_MODELS, OPENAI_VOICE } from './alan.mjs';
+import { DEFAULT_MODELS, OPENAI_VOICE, countTokens, k } from './alan.mjs';
 import { getApiKeyCredentials, hash } from './encryption.mjs';
-import { getFfmpeg } from './media.mjs';
+import { getFfmpeg, packPcmToWav } from './media.mjs';
 import { get } from './web.mjs';
 import { convert, getTempPath } from './storage.mjs';
-import { ensureString } from './utilitas.mjs';
+import { ensureString, mergeAtoB } from './utilitas.mjs';
 import {
     call, countKeys, ignoreErrFunc, inBrowser,
@@ -17,19 +17,32 @@ import {
 const _NEED = [
     '@google-cloud/speech',
-    '@google-cloud/text-to-speech',
+    '@google/genai',
     'OpenAI',
     'whisper-node',
 ];
 const WHISPER_DEFAULT_MODEL = 'base';
 const errorMessage = 'Invalid audio data.';
-const [BUFFER, STREAM, BASE64, FILE, clients, languageCode, audioEncoding, suffix, SPEAKER, cleanup]
-    = ['BUFFER', 'STREAM', 'BASE64', 'FILE', {}, 'en-US', 'OGG_OPUS', 'ogg', 'SPEAKER', true];
-const [GPT_4O_MIMI_TTS, GPT_4O_TRANSCRIBE, OPENAI_TTS_MAX_LENGTH]
-    = ['gpt-4o-mini-tts', 'gpt-4o-transcribe', 4096];
-const [defaultOpenAITtsModel, defaultOpenAISttModel]
-    = [GPT_4O_MIMI_TTS, GPT_4O_TRANSCRIBE];
+const [
+    BUFFER, STREAM, BASE64, FILE, clients, languageCode, audioEncoding, suffix,
+    SPEAKER, cleanup, wav,
+] = [
+        'BUFFER', 'STREAM', 'BASE64', 'FILE', {}, 'en-US', 'OGG_OPUS', 'ogg',
+        'SPEAKER', true, 'wav'
+    ];
+const [
+    GPT_4O_MIMI_TTS, GPT_4O_TRANSCRIBE, GEMINI_25_PRO_TTS, GEMINI_25_FLASH_TTS,
+    OPENAI_TTS_MAX_LENGTH,
+] = [
+        'gpt-4o-mini-tts', 'gpt-4o-transcribe', 'gemini-2.5-pro-preview-tts',
+        'gemini-2.5-flash-preview-tts', 4096
+    ];
+const [defaultOpenAITtsModel, defaultOpenAISttModel, defaultGeminiTtsModel]
+    = [GPT_4O_MIMI_TTS, GPT_4O_TRANSCRIBE, GEMINI_25_PRO_TTS];
 const WHISPER_MODELS = [
     // npx whisper-node download tiny.en
@@ -104,13 +117,14 @@ const init = async (options) => {
                 break;
             case 'GOOGLE':
                 clients._provider = provider;
-                const sslCreds = await getApiKeyCredentials(options);
                 if (options?.tts) {
-                    const tts = (await need('@google-cloud/text-to-speech')).default;
-                    clients.tts = new tts.TextToSpeechClient({ sslCreds });
+                    let { GoogleGenAI } = await need('@google/genai');
+                    let client = new GoogleGenAI(options);
+                    clients.tts = client.models.generateContent;
                 }
                 if (options?.stt) {
                     const stt = (await need('@google-cloud/speech')).default;
+                    const sslCreds = await getApiKeyCredentials(options);
                     clients.stt = new stt.SpeechClient({ sslCreds });
                 }
                 break;
@@ -159,15 +173,29 @@ const ttsOpenAI = async (input, options) => {
     return await convert(buffer, { suffix, ...options || {} });
 };
-const ttsGoogle = async (text, options) => {
+// https://ai.google.dev/gemini-api/docs/speech-generation#voices
+const ttsGoogle = async (contents, options) => {
     assert(clients.tts, 'Google TTS API has not been initialized.', 500);
-    assert(text, 'Text is required.', 400);
-    const [response] = await clients.tts.synthesizeSpeech({
-        input: { text, ...options?.input || {} },
-        voice: { languageCode, name: 'en-US-Wavenet-F', ...options?.voice || {} },
-        audioConfig: { audioEncoding, ...options?.audioConfig || {} },
+    assert(contents, 'Text is required.', 400);
+    assert(await countTokens(contents) <= k(32), 'Text is too long.', 400);
+    const resp = await clients.tts({
+        model: options?.model || defaultGeminiTtsModel, contents,
+        config: mergeAtoB(options?.config, {
+            responseModalities: ['AUDIO'],
+            speechConfig: {
+                voiceConfig: {
+                    prebuiltVoiceConfig: {
+                        voiceName: options?.voice || 'Leda',
+                    },
+                },
+            },
+        }),
+    });
+    const rawAudio = resp?.candidates?.[0]?.content?.parts?.[0]?.inlineData;
+    assert(rawAudio, 'Failed to generate audio.', 500);
+    return options?.raw ? rawAudio : await packPcmToWav(rawAudio?.data, {
+        input: BASE64, expected: 'FILE', suffix: wav, ...options || {},
     });
-    return await convert(response.audioContent, { suffix, ...options || {} });
 };
 const ttsSay = async (text, options) => {
@@ -275,13 +303,16 @@ const stt = async (audio, options) => {
 export default init;
 export {
     _NEED,
+    OPENAI_TTS_MAX_LENGTH,
     checkSay,
     checkWhisper,
-    init, OPENAI_TTS_MAX_LENGTH, stt, sttGoogle,
+    init,
+    stt,
+    sttGoogle,
     sttOpenAI,
     sttWhisper,
     tts,
     ttsGoogle,
     ttsOpenAI,
-    ttsSay
+    ttsSay,
 };

package/package.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "name": "utilitas",
     "description": "Just another common utility for JavaScript.",
-    "version": "1999.1.70",
+    "version": "1999.1.72",
     "private": false,
     "homepage": "https://github.com/Leask/utilitas",
     "main": "index.mjs",
@@ -41,7 +41,6 @@
         "@ffprobe-installer/ffprobe": "^2.1.2",
         "@google-cloud/speech": "^7.1.0",
         "@google-cloud/storage": "^7.16.0",
-        "@google-cloud/text-to-speech": "^6.1.0",
         "@google-cloud/vision": "^5.1.0",
         "@google/genai": "^1.0.0",
         "@mozilla/readability": "github:mozilla/readability",