npm - agentgui - Versions diffs - 1.0.176 → 1.0.178 - Mend

agentgui 1.0.176 → 1.0.178

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (3) hide show

package/lib/speech.js CHANGED Viewed

@@ -8,7 +8,7 @@ const require = createRequire(import.meta.url);
 const __dirname = path.dirname(fileURLToPath(import.meta.url));
 const ROOT = path.dirname(__dirname);
 const DATA_DIR = path.join(ROOT, 'data');
-const AUDIO_EXTENSIONS = ['.mp3', '.wav', '.ogg', '.flac', '.m4a'];
+const AUDIO_EXTENSIONS = ['.wav', '.mp3', '.ogg', '.flac', '.m4a'];
 function getVoiceDirs() {
   const dirs = [];
@@ -106,6 +106,7 @@ const SPEAKER_EMBEDDINGS_URL = 'https://huggingface.co/datasets/Xenova/speaker_e
 const SPEAKER_EMBEDDINGS_PATH = path.join(DATA_DIR, 'speaker_embeddings.bin');
 const DATASET_API = 'https://datasets-server.huggingface.co/rows?dataset=Xenova%2Fspeaker_embeddings&config=default&split=train';
 const SAMPLES_TO_AVERAGE = 30;
+const DEFAULT_EMBEDDING_B64 = 'xhibvao34LylqXQ8cNg7Pd1cCTw0keG8awRRvRqje7070G48AtOgPMFbnr1oeKC9I4ZuPZzqGT1DjWs8y3iMPB/SZLzdl7E6b9QaPKSpHTwYuh49FrMlO9YnebwmTzu9/3CPvQuvCbxsSWC9Sb2bO+tvXj0Cjpo8mTMxu/FDrjzQ4x09gyxCvUn6STxjAo+9vtXdPJtsYT3iMna9dQ+EvfQ72zuvxk69GAonPU8KdjsNPAU96e/8veN7lrwgyzk8HA5vvYE1Rz3gpZ484MsLPUKkxTzM54U81ECwvcbFHzv8gT08T6/7POCqBT2fv5E8fvsXPfZiJrzEhme8dg8kPR+mKTutQOU822maPMlMDb1x/IS93+6KvdyThzwhry880JBqvRVOhjzZods8SD08PLpObTn/0wk9BnAwvWiiz72EWgS9RpcjvV4VR73ZqJW9PoUFvfZYYb1h26S98levPHZbTjxH6qU9RPfoPHmJu70mSNo8ztJmvWgMBj0IX8i7TE3lPINY2DzoEma9wMObvTwKCT3pObe8t9KEvaWixjzc5fI8hj6MvaKv4Txl4h09d2a+PHCvTDxorJ69ekRrPeoPjz1JPfI7rUH7PIaJgz0O1YW9JLumvCxDnr1bmMm8GbIFPBX1oL3bRN08oYcXPEaFfL13Vxo9EKfbvTFcOTxdogA9XS3kPEWJoLvChc887BEgPMOvUT2Ba3s8tUDBvYPMZ72dNRG80AuTvQt7d72foTU9qO20O4INEb1u1iE9ibqJvZYaOj2nbYc8lsodvS5HPD1lCqK9EkBYPR0I/rySMIK9plcpPdpJEz2E/DY88d2DPIRTf71ZQZS9b1v5PPseFT2YiJu8OiOwPC8Wnr2QW4Q8n+o7PPQ8PD0QqAg9Vk7APDT6+jzreP88KH6GvTvAKD0AYiO9qOavvORySjvQ6y+9epb5PFvZijxYzlK9BwjUPK0HXL3acWc7dmwmPc/kXb2VBg68MGYRPR5q9zzmFiS9al2IvdVTfDwJOa88SzVkvVlrPD0WvJQ8Vm76PMUAQDzNgyK8QQZVPdMoibxrCBc9BgKTPDLoV70Iu6g7k+kBPZ3lhTy6sOU8OGkVvFaLRD14oqa9a4UVO4z4Gr1eYlO9u5BgPWS1ZL3kFPE8JGEwPQFTl71tHso8g+ElPd9Rgr2XCtc8axudvWC2IL09wSg9E7ZzPT6uBz2XmK09A1HcPJK8rTxK8Zu8GuMTPTuINTyRAhS9OSqDPDralLza3q48EgtePPf797rIWKo9NtkrvbO34zxKZ6m97l0GPQYVlL2igDA9UyfEPJhZyjx4/2Q8ggBpPYcAkzzIVu08ykYNPESdZr3uqmq8fS/zPKUYvzv67x49cUkqvXDlJj1us/88gASuvcs6G7sUshY9SgWiOqu4OD1WQ7k7/sLoPKuLJjwZYFm9an+zPOnfNry9Jh49/XX3vN1sc731fBM9TnBDPHzOAD26/dS9mg57vY+TA7wVJCw9pPb1PE30l7019la9UyRTPXFqljyRDnw9eZ6nvU03kTtS9907L+wavIBtab3k6cs8KVr6vPZ5zTxy+Zs8VuopPQTTUj0tNxg96qZyPY69lTzQEp48BXGJvVopBDvskUg9G2dOPaJMXDylJZU8FxcMvBQkNzzjPKs8FYUpvepYYj1AQsK9upQsvS4037xDcO48GhmIvWb1iT1gJhy9TG7iPHKAG70cuCQ8F1ZwPYqtj7300T89rTujPbXy2r3/cK69FtBNvY3iMT0DoqI4KK0QPYKEqr2Z6RU9ni0UPUNDLb3BsCi8+GttvZYp9zwUaHe9TqrFPOnlH7yCXJC9U8vDu8u2MjxA8xs9SAGxvPpphr29y2e9y2AYvTv+Eb1Elus9DdpGPSfmNL39Ggu85RVXPZbLh70Jvna7XkLGvR230DtGjpu7Ih8HPJKnIz1o35i8x5NVvXwFNDzs/ZM8+kw8PfFJSTwdlJA9ZJ+tvaoVZ7zTvVi8p6wluwh/IT0Kmg088o1rPRhiwjxpWIe9a+LuvYuYtjwAxE09WkPJPBuFh73UotY820JjvXpnQD3fJ/w8TM3JPOz0pTnbTim9tpe6PBHzJT1HEb66SkAKPasLgr1l/Mm8IOGgvM2pZbzwd4a9znOIO4d4Bb1DW5I8EZXzOxvBKDqKpHG9UwCHvd/Epb2cDRi9V1ztPNPBNTrLXHa8FdGHPPo+hb3DnJ08G+SvvVPQBL6zzrC8Omksvc+eIjyvGfU8eG9nvaVkdL1HBvs8eaeGPfcbVD1/Pfw8+TUFvU6aTL2JN5W8HXDNvGKFEj1i+T09UiCIOySbDD2x2/y7VTmnvTe3gb0ZhJw8WrKIuU5RGT09mKU7eFGtPFpr6DzaoyI9hsItPKU+YzuQlXK8f9IePSmUxTwXdoo9W6FJPV2kLzwkU1o8fGnfPInxg70rEVe9H7sNPWJDbbxSqLY8cQAOPUdpAD2YknK9ykFXPeVALz1mq3W96kO/PLERzjyXIRC7jxsXPRnLzjyUEoU7gTKvu+stlb1D1g45IH+2u5sOIj0wXPA8yTqDvT6mV72NsFq8ExeuPJlGyDxvjgk9lJeJvWSF8DwFvaW7oZ9GvHq1Rr1FJsk83zxVvfyGqTz7thG9fslpPF5RPb1Q6BQ9iXGovTeDeb2cmic8oBsRPYeni72TPcI8EKcPvfCJUbyQJqW9fCAYPRk8qT2q6rk8mEw2PfDeXL0=';
 let transformersModule = null;
 let sttPipeline = null;
@@ -143,16 +144,36 @@ function whisperModelPath() {
   return 'onnx-community/whisper-base';
 }
+function defaultEmbedding() {
+  const buf = Buffer.from(DEFAULT_EMBEDDING_B64, 'base64');
+  return new Float32Array(new Uint8Array(buf).buffer);
+}
 async function ensureSpeakerEmbeddings() {
   if (speakerEmbeddings) return speakerEmbeddings;
   if (!fs.existsSync(DATA_DIR)) fs.mkdirSync(DATA_DIR, { recursive: true });
-  if (!fs.existsSync(SPEAKER_EMBEDDINGS_PATH)) {
-    const resp = await fetch(SPEAKER_EMBEDDINGS_URL);
-    if (!resp.ok) throw new Error('Failed to download speaker embeddings');
-    fs.writeFileSync(SPEAKER_EMBEDDINGS_PATH, Buffer.from(await resp.arrayBuffer()));
+  if (fs.existsSync(SPEAKER_EMBEDDINGS_PATH)) {
+    const buf = fs.readFileSync(SPEAKER_EMBEDDINGS_PATH);
+    if (buf.length === 2048) {
+      speakerEmbeddings = new Float32Array(new Uint8Array(buf).buffer);
+      return speakerEmbeddings;
+    }
   }
-  const buf = fs.readFileSync(SPEAKER_EMBEDDINGS_PATH);
-  speakerEmbeddings = new Float32Array(new Uint8Array(buf).buffer);
+  try {
+    const resp = await fetch(SPEAKER_EMBEDDINGS_URL);
+    if (resp.ok) {
+      const data = Buffer.from(await resp.arrayBuffer());
+      if (data.length >= 2048) {
+        fs.writeFileSync(SPEAKER_EMBEDDINGS_PATH, data);
+        speakerEmbeddings = new Float32Array(new Uint8Array(data).buffer);
+        return speakerEmbeddings;
+      }
+    }
+  } catch (_) {}
+  console.log('[TTS] Using bundled default speaker embedding');
+  speakerEmbeddings = defaultEmbedding();
+  const buf = Buffer.from(speakerEmbeddings.buffer);
+  fs.writeFileSync(SPEAKER_EMBEDDINGS_PATH, buf);
   return speakerEmbeddings;
 }
@@ -171,45 +192,55 @@ async function loadVoiceEmbedding(voiceId) {
   }
   const offset = SPEAKER_OFFSETS[voiceId];
   if (offset === undefined) return ensureSpeakerEmbeddings();
-  const url = `${DATASET_API}&offset=${offset}&length=${SAMPLES_TO_AVERAGE}`;
-  const resp = await fetch(url);
-  if (!resp.ok) throw new Error('Failed to fetch voice embeddings for ' + voiceId);
-  const data = await resp.json();
-  const avg = new Float32Array(512);
-  let count = 0;
-  for (const item of data.rows) {
-    const match = item.row.filename.match(/cmu_us_(\w+)_arctic/);
-    if (match && match[1] === voiceId) {
-      for (let i = 0; i < 512; i++) avg[i] += item.row.xvector[i];
-      count++;
+  try {
+    const url = `${DATASET_API}&offset=${offset}&length=${SAMPLES_TO_AVERAGE}`;
+    const resp = await fetch(url);
+    if (!resp.ok) throw new Error('HTTP ' + resp.status);
+    const data = await resp.json();
+    const avg = new Float32Array(512);
+    let count = 0;
+    for (const item of data.rows) {
+      const match = item.row.filename.match(/cmu_us_(\w+)_arctic/);
+      if (match && match[1] === voiceId) {
+        for (let i = 0; i < 512; i++) avg[i] += item.row.xvector[i];
+        count++;
+      }
     }
+    if (count === 0) return ensureSpeakerEmbeddings();
+    for (let i = 0; i < 512; i++) avg[i] /= count;
+    if (!fs.existsSync(DATA_DIR)) fs.mkdirSync(DATA_DIR, { recursive: true });
+    fs.writeFileSync(binPath, Buffer.from(avg.buffer));
+    voiceEmbeddingsCache.set(voiceId, avg);
+    return avg;
+  } catch (err) {
+    console.error('[TTS] Failed to fetch voice embedding for ' + voiceId + ':', err.message);
+    return ensureSpeakerEmbeddings();
   }
-  if (count === 0) return ensureSpeakerEmbeddings();
-  for (let i = 0; i < 512; i++) avg[i] /= count;
-  if (!fs.existsSync(DATA_DIR)) fs.mkdirSync(DATA_DIR, { recursive: true });
-  fs.writeFileSync(binPath, Buffer.from(avg.buffer));
-  voiceEmbeddingsCache.set(voiceId, avg);
-  return avg;
 }
+let speakerFeatureExtractor = null;
 async function getSpeakerEmbeddingPipeline() {
   if (speakerEmbeddingPipeline) return speakerEmbeddingPipeline;
   if (speakerEmbeddingLoading) {
     while (speakerEmbeddingLoading) await new Promise(r => setTimeout(r, 100));
-    if (!speakerEmbeddingPipeline) throw new Error('Speaker embedding pipeline failed to load');
+    if (!speakerEmbeddingPipeline) throw new Error('Speaker embedding model failed to load');
     return speakerEmbeddingPipeline;
   }
   speakerEmbeddingLoading = true;
   try {
-    const { pipeline, env } = await loadTransformers();
+    const { AutoModelForXVector, AutoFeatureExtractor, env } = await loadTransformers();
     env.allowRemoteModels = true;
-    speakerEmbeddingPipeline = await pipeline('feature-extraction', 'speechbrain/spkrec-xvectors-voxceleb', {
+    const modelId = 'Xenova/wavlm-base-plus-sv';
+    speakerEmbeddingPipeline = await AutoModelForXVector.from_pretrained(modelId, {
       device: 'cpu',
       dtype: 'fp32',
     });
+    speakerFeatureExtractor = await AutoFeatureExtractor.from_pretrained(modelId);
     return speakerEmbeddingPipeline;
   } catch (err) {
     speakerEmbeddingPipeline = null;
+    speakerFeatureExtractor = null;
     throw new Error('Speaker embedding model load failed: ' + err.message);
   } finally {
     speakerEmbeddingLoading = false;
@@ -234,6 +265,12 @@ async function decodeAudioFile(filePath) {
     const decoded = decodeWavToFloat32(buf);
     return resampleTo16k(decoded.audio, decoded.sampleRate);
   }
+  const wavPath = filePath.replace(/\.[^.]+$/, '.wav');
+  if (fs.existsSync(wavPath)) {
+    const wavBuf = fs.readFileSync(wavPath);
+    const decoded = decodeWavToFloat32(wavBuf);
+    return resampleTo16k(decoded.audio, decoded.sampleRate);
+  }
   const decode = (await import('audio-decode')).default;
   const audioBuffer = await decode(buf);
   const mono = audioBuffer.getChannelData(0);
@@ -246,23 +283,30 @@ async function generateEmbeddingFromCustomVoice(voiceId) {
     console.error('[VOICES] Custom voice file not found for:', voiceId);
     return ensureSpeakerEmbeddings();
   }
-  console.log('[VOICES] Generating embedding from:', audioFile);
-  const audio = await decodeAudioFile(audioFile);
-  if (audio.length < SAMPLE_RATE_STT * 0.5) {
-    throw new Error('Audio too short for embedding extraction (need at least 0.5 seconds)');
-  }
-  const pipe = await getSpeakerEmbeddingPipeline();
-  const output = await pipe(audio, { pooling: 'mean', normalize: true });
-  const embedding = new Float32Array(512);
-  for (let i = 0; i < Math.min(512, output.data.length); i++) {
-    embedding[i] = output.data[i];
+  try {
+    console.log('[VOICES] Generating embedding from:', audioFile);
+    const audio = await decodeAudioFile(audioFile);
+    if (audio.length < SAMPLE_RATE_STT * 0.5) {
+      throw new Error('Audio too short for embedding extraction');
+    }
+    const model = await getSpeakerEmbeddingPipeline();
+    const inputs = await speakerFeatureExtractor(audio, { sampling_rate: SAMPLE_RATE_STT });
+    const output = await model(inputs);
+    const embData = output.embeddings.data;
+    const embedding = new Float32Array(512);
+    for (let i = 0; i < Math.min(512, embData.length); i++) {
+      embedding[i] = embData[i];
+    }
+    if (!fs.existsSync(DATA_DIR)) fs.mkdirSync(DATA_DIR, { recursive: true });
+    const binPath = path.join(DATA_DIR, `speaker_${voiceId}.bin`);
+    fs.writeFileSync(binPath, Buffer.from(embedding.buffer));
+    voiceEmbeddingsCache.set(voiceId, embedding);
+    console.log('[VOICES] Generated embedding for custom voice:', voiceId);
+    return embedding;
+  } catch (err) {
+    console.error('[VOICES] Failed to generate embedding for', voiceId + ':', err.message);
+    return ensureSpeakerEmbeddings();
   }
-  if (!fs.existsSync(DATA_DIR)) fs.mkdirSync(DATA_DIR, { recursive: true });
-  const binPath = path.join(DATA_DIR, `speaker_${voiceId}.bin`);
-  fs.writeFileSync(binPath, Buffer.from(embedding.buffer));
-  voiceEmbeddingsCache.set(voiceId, embedding);
-  console.log('[VOICES] Generated embedding for custom voice:', voiceId);
-  return embedding;
 }
 async function getSTT() {
@@ -509,13 +553,14 @@ async function* synthesizeStream(text, voiceId) {
 }
 function getStatus() {
+  const ttsRetryExpired = ttsLoadError && (Date.now() - ttsLoadErrorTime >= TTS_ERROR_RETRY_MS);
   return {
     sttReady: !!sttPipeline,
     ttsReady: !!ttsPipeline,
     sttLoading,
     ttsLoading,
     sttError: sttLoadError ? sttLoadError.message : null,
-    ttsError: ttsLoadError ? ttsLoadError.message : null,
+    ttsError: (ttsLoadError && !ttsRetryExpired) ? ttsLoadError.message : null,
   };
 }

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "agentgui",
-  "version": "1.0.176",
+  "version": "1.0.178",
   "description": "Multi-agent ACP client with real-time communication",
   "type": "module",
   "main": "server.js",

package/static/js/voice.js CHANGED Viewed

@@ -320,6 +320,7 @@
   var ttsConsecutiveFailures = 0;
   var TTS_MAX_FAILURES = 3;
   var ttsDisabledUntilReset = false;
+  var streamingSupported = true;
   function playNextChunk() {
     if (audioChunkQueue.length === 0) {
@@ -391,12 +392,16 @@
     }
     function tryStreaming() {
+      if (!streamingSupported) { tryNonStreaming(text); return; }
       fetch(BASE + '/api/tts-stream', {
         method: 'POST',
         headers: { 'Content-Type': 'application/json' },
         body: JSON.stringify({ text: text, voiceId: selectedVoiceId })
       }).then(function(resp) {
-        if (!resp.ok) throw new Error('TTS stream failed: ' + resp.status);
+        if (!resp.ok) {
+          streamingSupported = false;
+          throw new Error('TTS stream failed: ' + resp.status);
+        }
         var reader = resp.body.getReader();
         var buffer = new Uint8Array(0);