npm - agentgui - Versions diffs - 1.0.177 → 1.0.178 - Mend

agentgui 1.0.177 → 1.0.178

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (2) hide show

package/lib/speech.js +14 -7
package/package.json +1 -1

package/lib/speech.js CHANGED Viewed

@@ -218,24 +218,29 @@ async function loadVoiceEmbedding(voiceId) {
   }
 }
+let speakerFeatureExtractor = null;
 async function getSpeakerEmbeddingPipeline() {
   if (speakerEmbeddingPipeline) return speakerEmbeddingPipeline;
   if (speakerEmbeddingLoading) {
     while (speakerEmbeddingLoading) await new Promise(r => setTimeout(r, 100));
-    if (!speakerEmbeddingPipeline) throw new Error('Speaker embedding pipeline failed to load');
+    if (!speakerEmbeddingPipeline) throw new Error('Speaker embedding model failed to load');
     return speakerEmbeddingPipeline;
   }
   speakerEmbeddingLoading = true;
   try {
-    const { pipeline, env } = await loadTransformers();
+    const { AutoModelForXVector, AutoFeatureExtractor, env } = await loadTransformers();
     env.allowRemoteModels = true;
-    speakerEmbeddingPipeline = await pipeline('feature-extraction', 'speechbrain/spkrec-xvectors-voxceleb', {
+    const modelId = 'Xenova/wavlm-base-plus-sv';
+    speakerEmbeddingPipeline = await AutoModelForXVector.from_pretrained(modelId, {
       device: 'cpu',
       dtype: 'fp32',
     });
+    speakerFeatureExtractor = await AutoFeatureExtractor.from_pretrained(modelId);
     return speakerEmbeddingPipeline;
   } catch (err) {
     speakerEmbeddingPipeline = null;
+    speakerFeatureExtractor = null;
     throw new Error('Speaker embedding model load failed: ' + err.message);
   } finally {
     speakerEmbeddingLoading = false;
@@ -284,11 +289,13 @@ async function generateEmbeddingFromCustomVoice(voiceId) {
     if (audio.length < SAMPLE_RATE_STT * 0.5) {
       throw new Error('Audio too short for embedding extraction');
     }
-    const pipe = await getSpeakerEmbeddingPipeline();
-    const output = await pipe(audio, { pooling: 'mean', normalize: true });
+    const model = await getSpeakerEmbeddingPipeline();
+    const inputs = await speakerFeatureExtractor(audio, { sampling_rate: SAMPLE_RATE_STT });
+    const output = await model(inputs);
+    const embData = output.embeddings.data;
     const embedding = new Float32Array(512);
-    for (let i = 0; i < Math.min(512, output.data.length); i++) {
-      embedding[i] = output.data[i];
+    for (let i = 0; i < Math.min(512, embData.length); i++) {
+      embedding[i] = embData[i];
     }
     if (!fs.existsSync(DATA_DIR)) fs.mkdirSync(DATA_DIR, { recursive: true });
     const binPath = path.join(DATA_DIR, `speaker_${voiceId}.bin`);

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "agentgui",
-  "version": "1.0.177",
+  "version": "1.0.178",
   "description": "Multi-agent ACP client with real-time communication",
   "type": "module",
   "main": "server.js",