npm - cerevox - Versions diffs - 3.0.0-beta.21 → 3.0.0-beta.22 - Mend

cerevox 3.0.0-beta.21 → 3.0.0-beta.22

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

package/dist/core/ai.d.ts +2 -1
package/dist/core/ai.d.ts.map +1 -1
package/dist/core/ai.js +201 -2
package/dist/core/ai.js.map +1 -1
package/dist/mcp/servers/helper/doubao_voices_full.js +1 -1
package/dist/mcp/servers/zerocut.d.ts.map +1 -1
package/dist/mcp/servers/zerocut.js +113 -107
package/dist/mcp/servers/zerocut.js.map +1 -1
package/package.json +1 -1

package/dist/mcp/servers/zerocut.js CHANGED Viewed

@@ -50,7 +50,6 @@ const constants_1 = require("../../utils/constants");
 const videokit_1 = require("../../utils/videokit");
 const promises_1 = require("node:fs/promises");
 const node_path_1 = __importStar(require("node:path"));
-const doubao_voices_full_1 = require("./helper/doubao_voices_full");
 const node_fs_1 = require("node:fs");
 const coze_1 = require("../../utils/coze");
 const mp3_duration_1 = __importDefault(require("mp3-duration"));
@@ -2463,44 +2462,44 @@ server.registerTool('generate-scene-tts', {
             .optional()
             .default(1.0)
             .describe('The volume of the tts.'),
-        emotion: zod_1.z
-            .enum([
-            'storytelling',
-            'neutral',
-            'excited',
-            'coldness',
-            'angry',
-            'sad',
-            'happy',
-            'surprised',
-            'fear',
-            'depressed',
-            'lovey-dovey',
-            'shy',
-            'comfort',
-            'tension',
-            'tender',
-            'magnetic',
-            'vocal - fry',
-            'ASMR',
-        ])
-            .optional(),
         voiceID: zod_1.z
             .string()
             .describe(`适合作为视频配音的音色ID，除非用户指定，否则你必须已通过 search_voice 工具检查确定该音色确实是存在的。`),
+        context_texts: zod_1.z
+            .array(zod_1.z.string())
+            .default([])
+            .describe(`语音合成的辅助信息，用于模型对话式合成，能更好的体现语音情感
+可以探索，比如常见示例有以下几种：
+1. 语速调整
+  - context_texts: ["你可以说慢一点吗？"]
+2. 情绪/语气调整
+  - context_texts=["你可以用特别特别痛心的语气说话吗?"]
+  - context_texts=["嗯，你的语气再欢乐一点"]
+3. 音量调整
+  - context_texts=["你嗓门再小点。"]
+4. 音感调整
+  - context_texts=["你能用骄傲的语气来说话吗？"]
+`),
         explicit_language: zod_1.z.enum(['zh', 'en', 'ja']).optional().default('zh'),
     },
-}, async ({ text, sceneIndex, storyBoardFile, skipConsistencyCheck, voiceID, saveToFileName, speed, pitch, volume, emotion, explicit_language, }) => {
+}, async ({ text, sceneIndex, storyBoardFile, skipConsistencyCheck, voiceID, saveToFileName, speed, pitch, volume, context_texts, explicit_language, }) => {
     try {
         // 验证session状态
         const currentSession = await validateSession('generate-scene-tts');
         const validatedFileName = validateFileName(saveToFileName);
         const finalSpeed = speed ?? 1;
         volume = volume ?? 1;
+        const ai = currentSession.ai;
         let scene = null;
         // 校验 text 与 storyboard.json 中场景设定的一致性
         if (sceneIndex && !skipConsistencyCheck) {
             try {
+                const voice = (await ai.listVoices()).find(v => v.id === voiceID);
+                if (!voice) {
+                    return createErrorResponse(`Voice ${voiceID} not found in voice-list. Use search-voices tool to find available voices. 若用户坚持要使用该音色，需跳过一致性检查。`, 'generate-scene-tts');
+                }
                 const storyBoardPath = (0, node_path_1.resolve)(process.env.ZEROCUT_PROJECT_CWD || process.cwd(), projectLocalDir, storyBoardFile);
                 if ((0, node_fs_1.existsSync)(storyBoardPath)) {
                     const storyBoardContent = await (0, promises_1.readFile)(storyBoardPath, 'utf8');
@@ -2551,7 +2550,6 @@ server.registerTool('generate-scene-tts', {
             }
         }
         console.log(`Generating TTS with voice: ${voiceID}, speed: ${finalSpeed}, text: ${text.substring(0, 100)}...`);
-        const ai = currentSession.ai;
         if (voiceID.startsWith('BV0')) {
             throw new Error(`BV0* 系列音色已弃用，你必须已通过 search_voice 工具检查确定该音色确实是存在的。`);
         }
@@ -2563,30 +2561,80 @@ server.registerTool('generate-scene-tts', {
             ? 'volcano'
             : 'minimax';
         let res;
+        let emotion = 'auto';
         if (type === 'volcano') {
-            const voice = doubao_voices_full_1.doubaoVoicesFull.find(v => v.voiceID === voiceID);
-            if (!voice) {
-                return createErrorResponse(`Voice ${voiceID} not found in Doubao voices. Use search-voices tool to find available voices.`, 'generate-scene-tts');
-            }
-            const emotions = voice.emotions || [];
-            if (emotion && !emotions.includes(emotion)) {
-                emotion = 'neutral';
-            }
-            // 修复可能的 emotion 错误情况
-            emotion = emotion || 'neutral';
             volume = Math.max(Math.min(volume, 2.0), 0.5);
             res = await ai.textToSpeechVolc({
                 text: text.trim(),
                 speaker: voiceID,
                 speed: Math.floor(100 * (finalSpeed - 1)),
                 volume: Math.floor(100 * (volume - 1)),
-                emotion,
+                context_texts,
                 explicit_language,
                 voice_to_caption: explicit_language === 'zh' || explicit_language === 'en',
             });
         }
         else {
-            emotion = emotion || 'neutral';
+            emotion = 'neutral';
+            if (context_texts.length > 0) {
+                const prompt = `根据用户输入语音内容和上下文判断语音的情感，选择以下情感**之一**：
+"happy", "sad", "angry", "fearful", "disgusted", "surprised", "calm", "fluent", "whisper"
+## 要求
+输出 JSON 格式，包含一个 emotion 字段，值为以上情感之一。
+`;
+                const schema = {
+                    name: 'emotion_schema',
+                    schema: {
+                        type: 'object',
+                        properties: {
+                            emotion: {
+                                type: 'string',
+                                enum: [
+                                    'neutral',
+                                    'happy',
+                                    'sad',
+                                    'angry',
+                                    'fearful',
+                                    'disgusted',
+                                    'surprised',
+                                    'calm',
+                                    'fluent',
+                                    'whisper',
+                                ],
+                                description: '用户输入语音的情感',
+                            },
+                        },
+                        required: ['emotion'],
+                    },
+                };
+                const payload = {
+                    model: 'Doubao-Seed-1.6-flash',
+                    messages: [
+                        {
+                            role: 'system',
+                            content: prompt,
+                        },
+                        {
+                            role: 'user',
+                            content: `## 语音内容：
+${text.trim()}
+## 语音上下文
+${context_texts.join('\n')}
+`,
+                        },
+                    ],
+                    response_format: {
+                        type: 'json_schema',
+                        json_schema: schema,
+                    },
+                };
+                const completion = await ai.getCompletions(payload);
+                const emotionObj = JSON.parse(completion.choices[0]?.message?.content ?? '{}');
+                emotion = emotionObj.emotion ?? 'neutral';
+            }
             res = await ai.textToSpeech({
                 text: text.trim(),
                 voiceName: voiceID,
@@ -2627,6 +2675,8 @@ server.registerTool('generate-scene-tts', {
                 uri,
                 durationMs: Math.floor((duration || 0) * 1000),
                 text,
+                emotion,
+                context_texts,
                 voiceName: voiceID,
                 speed: finalSpeed,
                 timestamp: new Date().toISOString(),
@@ -2891,91 +2941,49 @@ server.registerTool('get-schema', {
 });
 server.registerTool('search-voices', {
     title: 'Search Voices',
-    description: 'Search voices from doubao_voices_full based on scenes, emotions, languages, and gender.',
+    description: 'Search voices from doubao_voices_full based on languages, and gender. 搜索并选择符合要求的语音，在合适的情况下，优先采用 volcano_tts_2 类型的语音',
     inputSchema: {
-        scenes: zod_1.z
-            .array(zod_1.z.enum([
-            'asmr',
-            'audiobook',
-            'customer_service',
-            'dialect_fun',
-            'dialogue',
-            'kids_content',
-            'news_explainer',
-            'podcast_voiceover',
-            'product_ad',
-            'promo_trailer',
-            'roleplay_drama',
-            'story_narration',
-            'storytelling',
-            'tutorial',
-        ]))
-            .optional()
-            .describe('Filter by scenes (e.g., ["product_ad", "tutorial"]). If not provided, no scene filtering is applied.'),
-        emotions: zod_1.z
+        languages: zod_1.z
             .array(zod_1.z.enum([
-            'ASMR',
-            'affectionate',
-            'angry',
-            'authoritative',
-            'chat',
-            'coldness',
-            'depressed',
-            'excited',
-            'fear',
-            'happy',
-            'hate',
-            'neutral',
-            'sad',
-            'surprised',
-            'warm',
+            'zh',
+            'en',
+            'ja',
+            'ko',
+            'es',
+            'pt',
+            'nl',
+            'vi',
+            'ru',
+            'id',
+            'de',
+            'fr',
+            'it',
+            'ar',
+            'tr',
+            'uk',
         ]))
             .optional()
-            .describe('Filter by emotions (e.g., ["happy", "neutral"]). If not provided, no emotion filtering is applied.'),
-        languages: zod_1.z
-            .array(zod_1.z.string())
-            .optional()
-            .describe('Filter by languages (e.g., ["zh", "en-US"]). If not provided, no language filtering is applied.'),
+            .describe('Filter by languages (e.g., ["zh", "en"]). If not provided, no language filtering is applied.'),
         gender: zod_1.z
             .enum(['male', 'female'])
             .optional()
             .describe('Filter by gender (male or female). If not provided, no gender filtering is applied.'),
     },
-}, async ({ scenes, emotions, languages, gender }) => {
+}, async ({ languages, gender }) => {
     try {
-        let filteredVoices = [...doubao_voices_full_1.doubaoVoicesFull];
-        // Filter by scenes
-        if (scenes && scenes.length > 0) {
-            filteredVoices = filteredVoices.filter(voice => voice.scenes &&
-                voice.scenes.some(scene => scenes.includes(scene)));
-        }
-        // Filter by emotions
-        if (emotions && emotions.length > 0) {
-            filteredVoices = filteredVoices.filter(voice => {
-                // If emotions includes 'neutral', also include voices without emotions field
-                if (emotions.includes('neutral') && !voice.emotions) {
-                    return true;
-                }
-                return (voice.emotions &&
-                    voice.emotions.some(emotion => emotions.includes(emotion)));
-            });
-        }
+        // 验证session状态
+        const currentSession = await validateSession('search-voices');
+        const ai = currentSession.ai;
+        let filteredVoices = await ai.listVoices();
         // Filter by languages
         if (languages && languages.length > 0) {
             filteredVoices = filteredVoices.filter(voice => voice.languages &&
-                voice.languages.some(lang => languages.includes(lang)));
+                voice.languages.some((lang) => languages.includes(lang)));
         }
         // Filter by gender
         if (gender) {
             filteredVoices = filteredVoices.filter(voice => {
-                const voiceId = voice.voiceID.toLowerCase();
-                if (gender === 'male') {
-                    return voiceId.includes('_male_');
-                }
-                else if (gender === 'female') {
-                    return voiceId.includes('_female_');
-                }
-                return true;
+                return voice.gender === gender;
             });
         }
         return {
@@ -2988,8 +2996,6 @@ server.registerTool('search-voices', {
                             totalCount: filteredVoices.length,
                             voices: filteredVoices,
                             filters: {
-                                scenes: scenes || null,
-                                emotions: emotions || null,
                                 languages: languages || null,
                                 gender: gender || null,
                             },