npm - utilitas - Versions diffs - 2000.3.22 → 2000.3.24 - Mend

utilitas 2000.3.22 → 2000.3.24

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (8) hide show

package/README.md +2 -3
package/dist/utilitas.lite.mjs +1 -1
package/dist/utilitas.lite.mjs.map +1 -1
package/lib/embedding.mjs +4 -2
package/lib/encryption.mjs +1 -15
package/lib/manifest.mjs +12 -12
package/lib/speech.mjs +33 -38
package/package.json +12 -12

package/lib/embedding.mjs CHANGED Viewed

@@ -22,7 +22,7 @@ const [
         'JINA',
         'text-embedding-3-small', // dim: 1536
         'text-embedding-3-large', // dim: 3072
-        'gemini-embedding-001', // dim: 768, 1536, or 3072(default)
+        'gemini-embedding-001', // dim: 768(default), 1536, or 3072(google default)
         'jina-clip-v2', // dim: 1024
         'jina-embeddings-v3', // dim: 256‑1024
     ];
@@ -41,7 +41,9 @@ const DEFAULT_MODELS = {
 const MODEL_CONFIG = {
     [OPENAI_MODEL_EMBED_SMALL]: { source: 'openai', maxTokens: 8192 },
     [OPENAI_MODEL_EMBED_LARGE]: { source: 'openai', maxTokens: 8192 },
-    [GOOGLE_MODEL_GEMINI_EMBED]: { source: 'google', maxTokens: 20000 },
+    [GOOGLE_MODEL_GEMINI_EMBED]: {
+        source: 'google', maxTokens: 2048, options: { dimensions: 768 },
+    },
     [JINA_MODEL_CLIP_2]: {
         maxTokens: 8192,
         image: true,

package/lib/encryption.mjs CHANGED Viewed

@@ -9,10 +9,7 @@ import { createReadStream } from 'fs';
 import { base64Decode, base64Encode, ensureString, hexEncode, need } from './utilitas.mjs';
 import { networkInterfaces } from 'os';
-const _NEED = [
-    '@google-cloud/speech', '@google-cloud/text-to-speech', 'google-gax',
-];
+const _NEED = ['google-gax'];
 const defaultAlgorithm = 'sha256';
 const defaultEncryption = 'aes-256-gcm';
 const uniqueString = (any) => hash(ensureString(any || networkInterfaces()));
@@ -111,16 +108,6 @@ const aesDecrypt = (any, options) => {
     return decrypted;
 };
-const getGoogleApiKeyCredentials = async (options) => {
-    // Included in @google-cloud/speech and @google-cloud/text-to-speech
-    const { GoogleAuth, grpc } = await need('google-gax');
-    const authClient = new GoogleAuth().fromAPIKey(options?.apiKey);
-    return grpc.credentials.combineChannelCredentials(
-        grpc.credentials.createSsl(),
-        grpc.credentials.createFromGoogleCredential(authClient)
-    );
-};
 const getGoogleAuthByCredentials = async (keyFilename) => {
     const { GoogleAuth } = await need('google-gax');
     return (new GoogleAuth({
@@ -144,7 +131,6 @@ export {
     defaultAlgorithm,
     defaultEncryption,
     digestObject,
-    getGoogleApiKeyCredentials,
     getGoogleAuthByCredentials,
     getGoogleAuthTokenByAuth,
     getSortedQueryString,

package/lib/manifest.mjs CHANGED Viewed

@@ -1,7 +1,7 @@
 const manifest = {
     "name": "utilitas",
     "description": "Just another common utility for JavaScript.",
-    "version": "2000.3.22",
+    "version": "2000.3.24",
     "private": false,
     "homepage": "https://github.com/Leask/utilitas",
     "main": "index.mjs",
@@ -26,46 +26,46 @@ const manifest = {
     "devDependencies": {
         "@ffmpeg-installer/ffmpeg": "^1.1.0",
         "@ffprobe-installer/ffprobe": "^2.1.2",
-        "@google-cloud/speech": "^7.2.1",
-        "@google-cloud/storage": "^7.17.3",
-        "@google/genai": "^1.30.0",
+        "@google-cloud/storage": "^7.18.0",
+        "@google/genai": "^1.31.0",
         "@mozilla/readability": "github:mozilla/readability",
-        "@sentry/node": "^10.26.0",
-        "@sentry/profiling-node": "^10.26.0",
+        "@sentry/node": "^10.29.0",
+        "@sentry/profiling-node": "^10.29.0",
         "acme-client": "^5.4.0",
         "browserify-fs": "^1.0.0",
         "buffer": "^6.0.3",
         "fast-geoip": "^1.1.88",
         "fluent-ffmpeg": "^2.1.3",
         "form-data": "^4.0.5",
+        "google-gax": "^5.0.6",
         "ioredis": "^5.8.2",
         "js-tiktoken": "^1.0.21",
         "jsdom": "^27.2.0",
         "lorem-ipsum": "^2.0.8",
-        "mailgun.js": "^12.1.1",
+        "mailgun.js": "^12.4.0",
         "mailparser": "^3.9.0",
         "mime": "^4.1.0",
         "mysql2": "^3.15.3",
         "node-mailjet": "^6.0.11",
         "node-polyfill-webpack-plugin": "^4.1.0",
         "office-text-extractor": "^3.0.3",
-        "openai": "^6.9.1",
-        "pdfjs-dist": "^5.4.394",
+        "openai": "^6.10.0",
         "pdf-lib": "^1.17.1",
+        "pdfjs-dist": "^5.4.449",
         "pg": "^8.16.3",
         "pgvector": "^0.2.1",
         "ping": "^1.0.0",
         "process": "^0.11.10",
-        "puppeteer": "^24.31.0",
+        "puppeteer": "^24.32.0",
         "say": "^0.16.0",
         "telegraf": "^4.16.3",
         "telesignsdk": "^3.0.4",
         "tesseract.js": "^6.0.1",
-        "twilio": "^5.10.6",
+        "twilio": "^5.10.7",
         "url": "github:Leask/node-url",
         "webpack-cli": "^6.0.1",
         "whisper-node": "^1.1.1",
-        "wrangler": "^4.50.0",
+        "wrangler": "^4.53.0",
         "xlsx": "https://cdn.sheetjs.com/xlsx-0.20.1/xlsx-0.20.1.tgz",
         "youtube-transcript": "^1.2.1"
     }

package/lib/speech.mjs CHANGED Viewed

@@ -1,8 +1,7 @@
 import { DEFAULT_MODELS, OPENAI_VOICE, countTokens, k } from './alan.mjs';
-import { getGoogleApiKeyCredentials, hash } from './encryption.mjs';
 import { getFfmpeg, packPcmToWav } from './media.mjs';
 import { get } from './web.mjs';
-import { convert, getTempPath } from './storage.mjs';
+import { convert, getTempPath, MIME_WAV } from './storage.mjs';
 import { ensureString, mergeAtoB } from './utilitas.mjs';
 import {
@@ -15,34 +14,24 @@ import {
     convertAudioTo16kNanoPcmWave,
 } from './media.mjs';
-const _NEED = [
-    '@google-cloud/speech',
-    '@google/genai',
-    'OpenAI',
-    'whisper-node',
-];
-const WHISPER_DEFAULT_MODEL = 'base';
-const errorMessage = 'Invalid audio data.';
+const _NEED = ['@google/genai', 'OpenAI', 'whisper-node'];
 const [
-    BUFFER, STREAM, BASE64, FILE, clients, languageCode, audioEncoding, suffix,
-    SPEAKER, cleanup, wav,
+    BUFFER, STREAM, BASE64, FILE, clients, suffix, SPEAKER, cleanup, wav,
+    GPT_4O_MIMI_TTS, GPT_4O_TRANSCRIBE, GEMINI_25_FLASH_TTS, GEMINI_FLASH,
+    OPENAI_TTS_MAX_LENGTH, WHISPER_DEFAULT_MODEL, errorMessage
 ] = [
-        'BUFFER', 'STREAM', 'BASE64', 'FILE', {}, 'en-US', 'OGG_OPUS', 'ogg',
-        'SPEAKER', true, 'wav'
+        'BUFFER', 'STREAM', 'BASE64', 'FILE', {}, 'ogg', 'SPEAKER', true, 'wav',
+        'gpt-4o-mini-tts', 'gpt-4o-transcribe', 'gemini-2.5-flash-preview-tts',
+        'gemini-flash-latest', 4096, 'base', 'Invalid audio data.',
     ];
 const [
-    GPT_4O_MIMI_TTS, GPT_4O_TRANSCRIBE, GEMINI_25_PRO_TTS, GEMINI_25_FLASH_TTS,
-    OPENAI_TTS_MAX_LENGTH,
-] = [
-        'gpt-4o-mini-tts', 'gpt-4o-transcribe', 'gemini-2.5-pro-preview-tts',
-        'gemini-2.5-flash-preview-tts', 4096
-    ];
+    defaultOpenAITtsModel, defaultOpenAISttModel, defaultGeminiTtsModel,
+    defaultGeminiSttModel,
+] = [GPT_4O_MIMI_TTS, GPT_4O_TRANSCRIBE, GEMINI_25_FLASH_TTS, GEMINI_FLASH];
-const [defaultOpenAITtsModel, defaultOpenAISttModel, defaultGeminiTtsModel]
-    = [GPT_4O_MIMI_TTS, GPT_4O_TRANSCRIBE, GEMINI_25_PRO_TTS];
+const STT_PROMPT = 'Please transcribe the audio into clean text. Return only the text content, DO NOT include any additional information or metadata. You may encounter input that contains different languages. Please do your best to transcribe text from all possible languages. Please distinguish between background noise and the main speech content. Do not be disturbed by background noise. Only return the main speech content.';
 const WHISPER_MODELS = [
     // npx whisper-node download tiny.en
@@ -117,15 +106,13 @@ const init = async (options) => {
                 break;
             case 'GOOGLE':
                 clients._provider = provider;
+                const { GoogleGenAI } = await need('@google/genai');
+                const client = new GoogleGenAI(options);
                 if (options?.tts) {
-                    let { GoogleGenAI } = await need('@google/genai');
-                    let client = new GoogleGenAI(options);
                     clients.tts = client.models.generateContent;
                 }
                 if (options?.stt) {
-                    const stt = (await need('@google-cloud/speech')).default;
-                    const sslCreds = await getGoogleApiKeyCredentials(options);
-                    clients.stt = new stt.SpeechClient({ sslCreds });
+                    clients.stt = client.models.generateContent;
                 }
                 break;
             case '':
@@ -242,17 +229,25 @@ const sttOpenAI = async (audio, options) => {
 const sttGoogle = async (audio, options) => {
     assert(clients.stt, 'Google STT API has not been initialized.', 500);
-    const content = await convert(audio, {
+    const data = await convert(audio, {
         input: options?.input, expected: BASE64, errorMessage,
     });
-    const [response] = await clients.stt.recognize({
-        audio: { content, ...options?.audio || {} }, config: {
-            encoding: audioEncoding, sampleRateHertz: 48000,
-            languageCode, ...options?.config || {}
+    const resp = await clients.stt({
+        model: options?.model || defaultGeminiSttModel, contents: {
+            parts: [{
+                inlineData: {
+                    mimeType: options?.mimeType || MIME_WAV, data,
+                },
+            }, { text: STT_PROMPT }],
         },
+        config: { ...options?.config || {} },
     });
-    return options?.raw ? response : response.results
-        .map(result => result.alternatives[0].transcript).join('\n');
+    assert(
+        resp?.candidates?.[0]?.content?.parts?.[0],
+        'Failed to transcribe audio.', 500
+    );
+    return options?.raw ? resp.candidates
+        : (resp.candidates[0].content.parts[0].text?.trim?.() || '');
 };
 // This function is not working properly, a pull request is filed:
@@ -284,8 +279,8 @@ const sttWhisper = async (audio, options) => {
 const tts = async (text, options) => {
     let engine;
     if (inBrowser()) { engine = ttsBrowser }
-    else if (clients?.tts && clients._provider === 'OPENAI') { engine = ttsOpenAI; }
     else if (clients?.tts && clients._provider === 'GOOGLE') { engine = ttsGoogle; }
+    else if (clients?.tts && clients._provider === 'OPENAI') { engine = ttsOpenAI; }
     else if (await checkSay()) { engine = ttsSay; }
     else { throwError('Text-to-Speech engine has not been initialized.', 500); }
     return await engine(text, options);
@@ -293,8 +288,8 @@ const tts = async (text, options) => {
 const stt = async (audio, options) => {
     let engine;
-    if (clients?.stt && clients._provider === 'OPENAI') { engine = sttOpenAI; }
-    else if (clients?.stt && clients._provider === 'GOOGLE') { engine = sttGoogle; }
+    if (clients?.stt && clients._provider === 'GOOGLE') { engine = sttGoogle; }
+    else if (clients?.stt && clients._provider === 'OPENAI') { engine = sttOpenAI; }
     else if (await checkWhisper()) { engine = sttWhisper; }
     else { throwError('Speech-to-Text engine has not been initialized.', 500); }
     return await engine(audio, options);

package/package.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "name": "utilitas",
     "description": "Just another common utility for JavaScript.",
-    "version": "2000.3.22",
+    "version": "2000.3.24",
     "private": false,
     "homepage": "https://github.com/Leask/utilitas",
     "main": "index.mjs",
@@ -37,46 +37,46 @@
     "devDependencies": {
         "@ffmpeg-installer/ffmpeg": "^1.1.0",
         "@ffprobe-installer/ffprobe": "^2.1.2",
-        "@google-cloud/speech": "^7.2.1",
-        "@google-cloud/storage": "^7.17.3",
-        "@google/genai": "^1.30.0",
+        "@google-cloud/storage": "^7.18.0",
+        "@google/genai": "^1.31.0",
         "@mozilla/readability": "github:mozilla/readability",
-        "@sentry/node": "^10.26.0",
-        "@sentry/profiling-node": "^10.26.0",
+        "@sentry/node": "^10.29.0",
+        "@sentry/profiling-node": "^10.29.0",
         "acme-client": "^5.4.0",
         "browserify-fs": "^1.0.0",
         "buffer": "^6.0.3",
         "fast-geoip": "^1.1.88",
         "fluent-ffmpeg": "^2.1.3",
         "form-data": "^4.0.5",
+        "google-gax": "^5.0.6",
         "ioredis": "^5.8.2",
         "js-tiktoken": "^1.0.21",
         "jsdom": "^27.2.0",
         "lorem-ipsum": "^2.0.8",
-        "mailgun.js": "^12.1.1",
+        "mailgun.js": "^12.4.0",
         "mailparser": "^3.9.0",
         "mime": "^4.1.0",
         "mysql2": "^3.15.3",
         "node-mailjet": "^6.0.11",
         "node-polyfill-webpack-plugin": "^4.1.0",
         "office-text-extractor": "^3.0.3",
-        "openai": "^6.9.1",
-        "pdfjs-dist": "^5.4.394",
+        "openai": "^6.10.0",
         "pdf-lib": "^1.17.1",
+        "pdfjs-dist": "^5.4.449",
         "pg": "^8.16.3",
         "pgvector": "^0.2.1",
         "ping": "^1.0.0",
         "process": "^0.11.10",
-        "puppeteer": "^24.31.0",
+        "puppeteer": "^24.32.0",
         "say": "^0.16.0",
         "telegraf": "^4.16.3",
         "telesignsdk": "^3.0.4",
         "tesseract.js": "^6.0.1",
-        "twilio": "^5.10.6",
+        "twilio": "^5.10.7",
         "url": "github:Leask/node-url",
         "webpack-cli": "^6.0.1",
         "whisper-node": "^1.1.1",
-        "wrangler": "^4.50.0",
+        "wrangler": "^4.53.0",
         "xlsx": "https://cdn.sheetjs.com/xlsx-0.20.1/xlsx-0.20.1.tgz",
         "youtube-transcript": "^1.2.1"
     }