npm - agentgui - Versions diffs - 1.0.179 → 1.0.180 - Mend

agentgui 1.0.179 → 1.0.180

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (2) hide show

package/lib/speech.js +14 -227
package/package.json +1 -1

package/lib/speech.js CHANGED Viewed

@@ -8,7 +8,6 @@ import * as pocket from './pocket-sidecar.js';
 const require = createRequire(import.meta.url);
 const __dirname = path.dirname(fileURLToPath(import.meta.url));
 const ROOT = path.dirname(__dirname);
-const DATA_DIR = path.join(ROOT, 'data');
 const AUDIO_EXTENSIONS = ['.wav', '.mp3', '.ogg', '.flac', '.m4a'];
 function getVoiceDirs() {
@@ -102,28 +101,11 @@ function getVoices() {
   return [...BASE_VOICES, ...loadCustomVoices()];
 }
-const SPEAKER_OFFSETS = { awb: 0, bdl: 1200, clb: 2300, jmk: 3500, ksp: 4700, rms: 5900, slt: 7100 };
-const SPEAKER_EMBEDDINGS_URL = 'https://huggingface.co/datasets/Xenova/speaker_embeddings/resolve/main/spkrec-xvectors-voxceleb.hf';
-const SPEAKER_EMBEDDINGS_PATH = path.join(DATA_DIR, 'speaker_embeddings.bin');
-const DATASET_API = 'https://datasets-server.huggingface.co/rows?dataset=Xenova%2Fspeaker_embeddings&config=default&split=train';
-const SAMPLES_TO_AVERAGE = 30;
-const DEFAULT_EMBEDDING_B64 = 'xhibvao34LylqXQ8cNg7Pd1cCTw0keG8awRRvRqje7070G48AtOgPMFbnr1oeKC9I4ZuPZzqGT1DjWs8y3iMPB/SZLzdl7E6b9QaPKSpHTwYuh49FrMlO9YnebwmTzu9/3CPvQuvCbxsSWC9Sb2bO+tvXj0Cjpo8mTMxu/FDrjzQ4x09gyxCvUn6STxjAo+9vtXdPJtsYT3iMna9dQ+EvfQ72zuvxk69GAonPU8KdjsNPAU96e/8veN7lrwgyzk8HA5vvYE1Rz3gpZ484MsLPUKkxTzM54U81ECwvcbFHzv8gT08T6/7POCqBT2fv5E8fvsXPfZiJrzEhme8dg8kPR+mKTutQOU822maPMlMDb1x/IS93+6KvdyThzwhry880JBqvRVOhjzZods8SD08PLpObTn/0wk9BnAwvWiiz72EWgS9RpcjvV4VR73ZqJW9PoUFvfZYYb1h26S98levPHZbTjxH6qU9RPfoPHmJu70mSNo8ztJmvWgMBj0IX8i7TE3lPINY2DzoEma9wMObvTwKCT3pObe8t9KEvaWixjzc5fI8hj6MvaKv4Txl4h09d2a+PHCvTDxorJ69ekRrPeoPjz1JPfI7rUH7PIaJgz0O1YW9JLumvCxDnr1bmMm8GbIFPBX1oL3bRN08oYcXPEaFfL13Vxo9EKfbvTFcOTxdogA9XS3kPEWJoLvChc887BEgPMOvUT2Ba3s8tUDBvYPMZ72dNRG80AuTvQt7d72foTU9qO20O4INEb1u1iE9ibqJvZYaOj2nbYc8lsodvS5HPD1lCqK9EkBYPR0I/rySMIK9plcpPdpJEz2E/DY88d2DPIRTf71ZQZS9b1v5PPseFT2YiJu8OiOwPC8Wnr2QW4Q8n+o7PPQ8PD0QqAg9Vk7APDT6+jzreP88KH6GvTvAKD0AYiO9qOavvORySjvQ6y+9epb5PFvZijxYzlK9BwjUPK0HXL3acWc7dmwmPc/kXb2VBg68MGYRPR5q9zzmFiS9al2IvdVTfDwJOa88SzVkvVlrPD0WvJQ8Vm76PMUAQDzNgyK8QQZVPdMoibxrCBc9BgKTPDLoV70Iu6g7k+kBPZ3lhTy6sOU8OGkVvFaLRD14oqa9a4UVO4z4Gr1eYlO9u5BgPWS1ZL3kFPE8JGEwPQFTl71tHso8g+ElPd9Rgr2XCtc8axudvWC2IL09wSg9E7ZzPT6uBz2XmK09A1HcPJK8rTxK8Zu8GuMTPTuINTyRAhS9OSqDPDralLza3q48EgtePPf797rIWKo9NtkrvbO34zxKZ6m97l0GPQYVlL2igDA9UyfEPJhZyjx4/2Q8ggBpPYcAkzzIVu08ykYNPESdZr3uqmq8fS/zPKUYvzv67x49cUkqvXDlJj1us/88gASuvcs6G7sUshY9SgWiOqu4OD1WQ7k7/sLoPKuLJjwZYFm9an+zPOnfNry9Jh49/XX3vN1sc731fBM9TnBDPHzOAD26/dS9mg57vY+TA7wVJCw9pPb1PE30l7019la9UyRTPXFqljyRDnw9eZ6nvU03kTtS9907L+wavIBtab3k6cs8KVr6vPZ5zTxy+Zs8VuopPQTTUj0tNxg96qZyPY69lTzQEp48BXGJvVopBDvskUg9G2dOPaJMXDylJZU8FxcMvBQkNzzjPKs8FYUpvepYYj1AQsK9upQsvS4037xDcO48GhmIvWb1iT1gJhy9TG7iPHKAG70cuCQ8F1ZwPYqtj7300T89rTujPbXy2r3/cK69FtBNvY3iMT0DoqI4KK0QPYKEqr2Z6RU9ni0UPUNDLb3BsCi8+GttvZYp9zwUaHe9TqrFPOnlH7yCXJC9U8vDu8u2MjxA8xs9SAGxvPpphr29y2e9y2AYvTv+Eb1Elus9DdpGPSfmNL39Ggu85RVXPZbLh70Jvna7XkLGvR230DtGjpu7Ih8HPJKnIz1o35i8x5NVvXwFNDzs/ZM8+kw8PfFJSTwdlJA9ZJ+tvaoVZ7zTvVi8p6wluwh/IT0Kmg088o1rPRhiwjxpWIe9a+LuvYuYtjwAxE09WkPJPBuFh73UotY820JjvXpnQD3fJ/w8TM3JPOz0pTnbTim9tpe6PBHzJT1HEb66SkAKPasLgr1l/Mm8IOGgvM2pZbzwd4a9znOIO4d4Bb1DW5I8EZXzOxvBKDqKpHG9UwCHvd/Epb2cDRi9V1ztPNPBNTrLXHa8FdGHPPo+hb3DnJ08G+SvvVPQBL6zzrC8Omksvc+eIjyvGfU8eG9nvaVkdL1HBvs8eaeGPfcbVD1/Pfw8+TUFvU6aTL2JN5W8HXDNvGKFEj1i+T09UiCIOySbDD2x2/y7VTmnvTe3gb0ZhJw8WrKIuU5RGT09mKU7eFGtPFpr6DzaoyI9hsItPKU+YzuQlXK8f9IePSmUxTwXdoo9W6FJPV2kLzwkU1o8fGnfPInxg70rEVe9H7sNPWJDbbxSqLY8cQAOPUdpAD2YknK9ykFXPeVALz1mq3W96kO/PLERzjyXIRC7jxsXPRnLzjyUEoU7gTKvu+stlb1D1g45IH+2u5sOIj0wXPA8yTqDvT6mV72NsFq8ExeuPJlGyDxvjgk9lJeJvWSF8DwFvaW7oZ9GvHq1Rr1FJsk83zxVvfyGqTz7thG9fslpPF5RPb1Q6BQ9iXGovTeDeb2cmic8oBsRPYeni72TPcI8EKcPvfCJUbyQJqW9fCAYPRk8qT2q6rk8mEw2PfDeXL0=';
 let transformersModule = null;
 let sttPipeline = null;
-let ttsPipeline = null;
-let speakerEmbeddings = null;
-let speakerEmbeddingPipeline = null;
 let sttLoading = false;
-let ttsLoading = false;
-let speakerEmbeddingLoading = false;
-let ttsLoadError = null;
-let ttsLoadErrorTime = 0;
 let sttLoadError = null;
-const voiceEmbeddingsCache = new Map();
 const SAMPLE_RATE_STT = 16000;
-const SAMPLE_RATE_TTS = 16000;
-const TTS_ERROR_RETRY_MS = 30000;
 const TTS_CACHE_MAX_BYTES = 10 * 1024 * 1024;
 let ttsCacheBytes = 0;
@@ -145,109 +127,6 @@ function whisperModelPath() {
   return 'onnx-community/whisper-base';
 }
-function defaultEmbedding() {
-  const buf = Buffer.from(DEFAULT_EMBEDDING_B64, 'base64');
-  return new Float32Array(new Uint8Array(buf).buffer);
-}
-async function ensureSpeakerEmbeddings() {
-  if (speakerEmbeddings) return speakerEmbeddings;
-  if (!fs.existsSync(DATA_DIR)) fs.mkdirSync(DATA_DIR, { recursive: true });
-  if (fs.existsSync(SPEAKER_EMBEDDINGS_PATH)) {
-    const buf = fs.readFileSync(SPEAKER_EMBEDDINGS_PATH);
-    if (buf.length === 2048) {
-      speakerEmbeddings = new Float32Array(new Uint8Array(buf).buffer);
-      return speakerEmbeddings;
-    }
-  }
-  try {
-    const resp = await fetch(SPEAKER_EMBEDDINGS_URL);
-    if (resp.ok) {
-      const data = Buffer.from(await resp.arrayBuffer());
-      if (data.length >= 2048) {
-        fs.writeFileSync(SPEAKER_EMBEDDINGS_PATH, data);
-        speakerEmbeddings = new Float32Array(new Uint8Array(data).buffer);
-        return speakerEmbeddings;
-      }
-    }
-  } catch (_) {}
-  console.log('[TTS] Using bundled default speaker embedding');
-  speakerEmbeddings = defaultEmbedding();
-  const buf = Buffer.from(speakerEmbeddings.buffer);
-  fs.writeFileSync(SPEAKER_EMBEDDINGS_PATH, buf);
-  return speakerEmbeddings;
-}
-async function loadVoiceEmbedding(voiceId) {
-  if (!voiceId || voiceId === 'default') return ensureSpeakerEmbeddings();
-  if (voiceEmbeddingsCache.has(voiceId)) return voiceEmbeddingsCache.get(voiceId);
-  const binPath = path.join(DATA_DIR, `speaker_${voiceId}.bin`);
-  if (fs.existsSync(binPath)) {
-    const buf = fs.readFileSync(binPath);
-    const emb = new Float32Array(new Uint8Array(buf).buffer);
-    voiceEmbeddingsCache.set(voiceId, emb);
-    return emb;
-  }
-  if (voiceId.startsWith('custom_')) {
-    return generateEmbeddingFromCustomVoice(voiceId);
-  }
-  const offset = SPEAKER_OFFSETS[voiceId];
-  if (offset === undefined) return ensureSpeakerEmbeddings();
-  try {
-    const url = `${DATASET_API}&offset=${offset}&length=${SAMPLES_TO_AVERAGE}`;
-    const resp = await fetch(url);
-    if (!resp.ok) throw new Error('HTTP ' + resp.status);
-    const data = await resp.json();
-    const avg = new Float32Array(512);
-    let count = 0;
-    for (const item of data.rows) {
-      const match = item.row.filename.match(/cmu_us_(\w+)_arctic/);
-      if (match && match[1] === voiceId) {
-        for (let i = 0; i < 512; i++) avg[i] += item.row.xvector[i];
-        count++;
-      }
-    }
-    if (count === 0) return ensureSpeakerEmbeddings();
-    for (let i = 0; i < 512; i++) avg[i] /= count;
-    if (!fs.existsSync(DATA_DIR)) fs.mkdirSync(DATA_DIR, { recursive: true });
-    fs.writeFileSync(binPath, Buffer.from(avg.buffer));
-    voiceEmbeddingsCache.set(voiceId, avg);
-    return avg;
-  } catch (err) {
-    console.error('[TTS] Failed to fetch voice embedding for ' + voiceId + ':', err.message);
-    return ensureSpeakerEmbeddings();
-  }
-}
-let speakerFeatureExtractor = null;
-async function getSpeakerEmbeddingPipeline() {
-  if (speakerEmbeddingPipeline) return speakerEmbeddingPipeline;
-  if (speakerEmbeddingLoading) {
-    while (speakerEmbeddingLoading) await new Promise(r => setTimeout(r, 100));
-    if (!speakerEmbeddingPipeline) throw new Error('Speaker embedding model failed to load');
-    return speakerEmbeddingPipeline;
-  }
-  speakerEmbeddingLoading = true;
-  try {
-    const { AutoModelForXVector, AutoFeatureExtractor, env } = await loadTransformers();
-    env.allowRemoteModels = true;
-    const modelId = 'Xenova/wavlm-base-plus-sv';
-    speakerEmbeddingPipeline = await AutoModelForXVector.from_pretrained(modelId, {
-      device: 'cpu',
-      dtype: 'fp32',
-    });
-    speakerFeatureExtractor = await AutoFeatureExtractor.from_pretrained(modelId);
-    return speakerEmbeddingPipeline;
-  } catch (err) {
-    speakerEmbeddingPipeline = null;
-    speakerFeatureExtractor = null;
-    throw new Error('Speaker embedding model load failed: ' + err.message);
-  } finally {
-    speakerEmbeddingLoading = false;
-  }
-}
 function findCustomVoiceFile(voiceId) {
   const baseName = voiceId.replace(/^custom_/, '');
   for (const dir of getVoiceDirs()) {
@@ -278,38 +157,6 @@ async function decodeAudioFile(filePath) {
   return resampleTo16k(mono, audioBuffer.sampleRate);
 }
-async function generateEmbeddingFromCustomVoice(voiceId) {
-  const audioFile = findCustomVoiceFile(voiceId);
-  if (!audioFile) {
-    console.error('[VOICES] Custom voice file not found for:', voiceId);
-    return ensureSpeakerEmbeddings();
-  }
-  try {
-    console.log('[VOICES] Generating embedding from:', audioFile);
-    const audio = await decodeAudioFile(audioFile);
-    if (audio.length < SAMPLE_RATE_STT * 0.5) {
-      throw new Error('Audio too short for embedding extraction');
-    }
-    const model = await getSpeakerEmbeddingPipeline();
-    const inputs = await speakerFeatureExtractor(audio, { sampling_rate: SAMPLE_RATE_STT });
-    const output = await model(inputs);
-    const embData = output.embeddings.data;
-    const embedding = new Float32Array(512);
-    for (let i = 0; i < Math.min(512, embData.length); i++) {
-      embedding[i] = embData[i];
-    }
-    if (!fs.existsSync(DATA_DIR)) fs.mkdirSync(DATA_DIR, { recursive: true });
-    const binPath = path.join(DATA_DIR, `speaker_${voiceId}.bin`);
-    fs.writeFileSync(binPath, Buffer.from(embedding.buffer));
-    voiceEmbeddingsCache.set(voiceId, embedding);
-    console.log('[VOICES] Generated embedding for custom voice:', voiceId);
-    return embedding;
-  } catch (err) {
-    console.error('[VOICES] Failed to generate embedding for', voiceId + ':', err.message);
-    return ensureSpeakerEmbeddings();
-  }
-}
 async function getSTT() {
   if (sttPipeline) return sttPipeline;
   if (sttLoadError) throw sttLoadError;
@@ -342,41 +189,6 @@ async function getSTT() {
   }
 }
-async function getTTS() {
-  if (ttsPipeline) return ttsPipeline;
-  if (ttsLoadError) {
-    if (Date.now() - ttsLoadErrorTime < TTS_ERROR_RETRY_MS) throw ttsLoadError;
-    ttsLoadError = null;
-    ttsLoadErrorTime = 0;
-  }
-  if (ttsLoading) {
-    while (ttsLoading) await new Promise(r => setTimeout(r, 100));
-    if (ttsLoadError) throw ttsLoadError;
-    if (!ttsPipeline) throw new Error('TTS pipeline failed to load');
-    return ttsPipeline;
-  }
-  ttsLoading = true;
-  try {
-    const { pipeline, env } = await loadTransformers();
-    env.allowRemoteModels = true;
-    ttsPipeline = await pipeline('text-to-speech', 'Xenova/speecht5_tts', {
-      device: 'cpu',
-      dtype: 'fp32',
-    });
-    await ensureSpeakerEmbeddings();
-    ttsLoadError = null;
-    ttsLoadErrorTime = 0;
-    return ttsPipeline;
-  } catch (err) {
-    ttsPipeline = null;
-    ttsLoadError = new Error('TTS model load failed: ' + err.message);
-    ttsLoadErrorTime = Date.now();
-    throw ttsLoadError;
-  } finally {
-    ttsLoading = false;
-  }
-}
 function decodeWavToFloat32(buffer) {
   const view = new DataView(buffer.buffer || buffer);
   const riff = String.fromCharCode(view.getUint8(0), view.getUint8(1), view.getUint8(2), view.getUint8(3));
@@ -518,15 +330,11 @@ function resolveVoicePath(voiceId) {
 async function synthesizeViaPocket(text, voiceId) {
   const pState = pocket.getState();
-  if (!pState.healthy) return null;
-  try {
-    const voicePath = resolveVoicePath(voiceId);
-    const wav = await pocket.synthesize(text, voicePath);
-    if (wav && wav.length > 44) return wav;
-  } catch (err) {
-    console.error('[TTS] pocket-tts failed, falling back:', err.message);
-  }
-  return null;
+  if (!pState.healthy) throw new Error('pocket-tts not healthy');
+  const voicePath = resolveVoicePath(voiceId);
+  const wav = await pocket.synthesize(text, voicePath);
+  if (wav && wav.length > 44) return wav;
+  throw new Error('pocket-tts returned empty audio');
 }
 async function synthesize(text, voiceId) {
@@ -540,12 +348,7 @@ async function synthesize(text, voiceId) {
   const inflight = ttsInflight.get(cacheKey);
   if (inflight) return inflight;
   const promise = (async () => {
-    const pocketWav = await synthesizeViaPocket(text, voiceId);
-    if (pocketWav) { cachePut(cacheKey, pocketWav); return pocketWav; }
-    const tts = await getTTS();
-    const embeddings = await loadVoiceEmbedding(voiceId);
-    const result = await tts(text, { speaker_embeddings: embeddings });
-    const wav = encodeWav(result.audio, result.sampling_rate || SAMPLE_RATE_TTS);
+    const wav = await synthesizeViaPocket(text, voiceId);
     cachePut(cacheKey, wav);
     return wav;
   })();
@@ -555,12 +358,6 @@ async function synthesize(text, voiceId) {
 async function* synthesizeStream(text, voiceId) {
   const sentences = splitSentences(text);
-  const usePocket = pocket.getState().healthy;
-  let tts, embeddings;
-  if (!usePocket) {
-    tts = await getTTS();
-    embeddings = await loadVoiceEmbedding(voiceId);
-  }
   for (const sentence of sentences) {
     const cacheKey = (voiceId || 'default') + ':' + sentence;
     const cached = ttsCache.get(cacheKey);
@@ -570,28 +367,21 @@ async function* synthesizeStream(text, voiceId) {
       yield cached;
       continue;
     }
-    if (usePocket) {
-      const pocketWav = await synthesizeViaPocket(sentence, voiceId);
-      if (pocketWav) { cachePut(cacheKey, pocketWav); yield pocketWav; continue; }
-    }
-    if (!tts) { tts = await getTTS(); embeddings = await loadVoiceEmbedding(voiceId); }
-    const result = await tts(sentence, { speaker_embeddings: embeddings });
-    const wav = encodeWav(result.audio, result.sampling_rate || SAMPLE_RATE_TTS);
+    const wav = await synthesizeViaPocket(sentence, voiceId);
     cachePut(cacheKey, wav);
     yield wav;
   }
 }
 function getStatus() {
-  const ttsRetryExpired = ttsLoadError && (Date.now() - ttsLoadErrorTime >= TTS_ERROR_RETRY_MS);
   const pState = pocket.getState();
   return {
     sttReady: !!sttPipeline,
-    ttsReady: !!ttsPipeline || pState.healthy,
+    ttsReady: pState.healthy,
     sttLoading,
-    ttsLoading,
+    ttsLoading: false,
     sttError: sttLoadError ? sttLoadError.message : null,
-    ttsError: (ttsLoadError && !ttsRetryExpired && !pState.healthy) ? ttsLoadError.message : null,
+    ttsError: pState.healthy ? null : (pState.lastError || 'pocket-tts not running'),
     pocketTts: pState,
   };
 }
@@ -601,12 +391,9 @@ function preloadTTS() {
   const voicePath = fs.existsSync(defaultVoice) ? defaultVoice : null;
   pocket.start(voicePath).then(ok => {
     if (ok) console.log('[TTS] pocket-tts sidecar started');
-    else {
-      console.log('[TTS] pocket-tts unavailable, falling back to SpeechT5');
-      getTTS().catch(err => console.error('[TTS] SpeechT5 preload failed:', err.message));
-    }
-  }).catch(() => {
-    getTTS().catch(err => console.error('[TTS] SpeechT5 preload failed:', err.message));
+    else console.log('[TTS] pocket-tts failed to start');
+  }).catch(err => {
+    console.error('[TTS] pocket-tts start error:', err.message);
   });
 }
@@ -620,4 +407,4 @@ function ttsCacheGet(key) {
   return cached || null;
 }
-export { transcribe, synthesize, synthesizeStream, getSTT, getTTS, getStatus, getVoices, preloadTTS, ttsCacheKey, ttsCacheGet, splitSentences };
+export { transcribe, synthesize, synthesizeStream, getSTT, getStatus, getVoices, preloadTTS, ttsCacheKey, ttsCacheGet, splitSentences };

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "agentgui",
-  "version": "1.0.179",
+  "version": "1.0.180",
   "description": "Multi-agent ACP client with real-time communication",
   "type": "module",
   "main": "server.js",