npm - @ww_nero/media - Versions diffs - 1.0.9 → 1.0.10 - Mend

@ww_nero/media 1.0.9 → 1.0.10

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (5) hide show

package/README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 # Media MCP Server
-媒体处理 MCP 服务，提供语音识别等功能。
+媒体处理 MCP 服务，提供语音识别和语音合成功能。
 ## 功能
@@ -18,13 +18,27 @@
 - 超出限制需要外部分段处理后逐段识别
 **输出：**
-- 识别结果保存到工作目录下的 `transcribe.srt` 文件
+- 识别结果保存到工作目录下的 `asr_<timestamp>.srt` 文件
+### tts - 语音合成
+将文本转换为音频文件。
+**参数：**
+- `working_directory`: 工作目录的绝对路径，合成的音频文件将保存到此目录
+- `text`: 需要合成语音的文本内容
+- `voice`: （可选）音色模型，默认 `sambert-zhimiao-emo-v1`
+- `format`: （可选）输出音频格式，可选 mp3（默认）、wav、pcm
+- `sample_rate`: （可选）采样率，默认 16000
+**输出：**
+- 合成结果保存到工作目录下的 `tts_<timestamp>.<format>` 文件
 ## 环境变量
 | 变量名 | 说明 | 必填 |
 |--------|------|------|
-| `ASR_API_KEY` | 阿里云 DashScope API Key | 是 |
+| `DASHSCOPE_API_KEY` | 阿里云 DashScope API Key | 是 |
 ## 安装
@@ -41,7 +55,7 @@ npm install
       "command": "node",
       "args": ["/path/to/media/index.js"],
       "env": {
-        "ASR_API_KEY": "your-api-key"
+        "DASHSCOPE_API_KEY": "your-api-key"
       }
     }
   }

package/index.js CHANGED Viewed

@@ -9,185 +9,10 @@ const {
   ListToolsRequestSchema,
 } = require('@modelcontextprotocol/sdk/types.js');
-const ASR_API_KEY = process.env.ASR_API_KEY || '';
-const ASR_UPLOAD_URL = 'http://fsheep.com:10808/upload';
-const ASR_SERVICE_URL = 'https://dashscope.aliyuncs.com/api/v1/services/audio/asr/transcription';
+const { asr, SUPPORTED_AUDIO_TYPES, MAX_FILE_SIZE_BYTES } = require('./utils/asr.js');
+const { tts } = require('./utils/tts.js');
-const SUPPORTED_AUDIO_TYPES = ['.mp3', '.wav'];
-const MAX_FILE_SIZE_BYTES = 120 * 1024 * 1024; // 120MB
-const LANGUAGE_HINTS = ['zh', 'en', 'ja'];
-/**
- * 将毫秒转换为 SRT 时间格式 HH:MM:SS,mmm
- */
-const msToSrtTime = (ms) => {
-  const hours = Math.floor(ms / 3600000);
-  const minutes = Math.floor((ms % 3600000) / 60000);
-  const seconds = Math.floor((ms % 60000) / 1000);
-  const milliseconds = ms % 1000;
-  return `${String(hours).padStart(2, '0')}:${String(minutes).padStart(2, '0')}:${String(seconds).padStart(2, '0')},${String(milliseconds).padStart(3, '0')}`;
-};
-/**
- * 将 ASR 识别结果转换为 SRT 字幕内容
- */
-const asrToSrt = (asrData) => {
-  const srtEntries = [];
-  let subtitleIndex = 1;
-  for (const item of asrData) {
-    const transcription = item.transcription || {};
-    const transcripts = transcription.transcripts || [];
-    for (const transcript of transcripts) {
-      const sentences = transcript.sentences || [];
-      for (const sentence of sentences) {
-        const beginTime = sentence.begin_time || 0;
-        const endTime = sentence.end_time || 0;
-        const text = (sentence.text || '').trim();
-        if (text) {
-          const startStr = msToSrtTime(beginTime);
-          const endStr = msToSrtTime(endTime);
-          srtEntries.push(`${subtitleIndex}\n${startStr} --> ${endStr}\n${text}\n`);
-          subtitleIndex++;
-        }
-      }
-    }
-  }
-  return srtEntries.join('\n');
-};
-/**
- * 上传音频文件到服务器
- */
-const uploadAudio = async (uploadUrl, audioPath) => {
-  const fileBuffer = fs.readFileSync(audioPath);
-  const fileName = path.basename(audioPath);
-  const formData = new FormData();
-  formData.append('file', new Blob([fileBuffer]), fileName);
-  const response = await fetch(uploadUrl, {
-    method: 'POST',
-    body: formData,
-  });
-  if (!response.ok) {
-    throw new Error(`上传失败: ${response.status} - ${await response.text()}`);
-  }
-  const data = await response.json();
-  if (!data.success || !data.data || !data.data.path) {
-    throw new Error(`上传响应格式错误: ${JSON.stringify(data)}`);
-  }
-  return data.data.path;
-};
-/**
- * 根据上传接口 URL 和文件路径构建静态资源 URL
- */
-const getStaticUrl = (uploadUrl, filePath) => {
-  const url = new URL(uploadUrl);
-  return `${url.protocol}//${url.host}${filePath}`;
-};
-/**
- * 提交 ASR 转写任务
- */
-const submitAsrTask = async (fileUrls, apiKey) => {
-  const response = await fetch(ASR_SERVICE_URL, {
-    method: 'POST',
-    headers: {
-      'Authorization': `Bearer ${apiKey}`,
-      'Content-Type': 'application/json',
-      'X-DashScope-Async': 'enable',
-    },
-    body: JSON.stringify({
-      model: 'paraformer-v2',
-      input: { file_urls: fileUrls },
-      parameters: {
-        channel_id: [0],
-        language_hints: LANGUAGE_HINTS,
-      },
-    }),
-  });
-  if (!response.ok) {
-    const errorText = await response.text();
-    throw new Error(`ASR 任务提交失败: ${response.status} - ${errorText}`);
-  }
-  const data = await response.json();
-  if (!data.output || !data.output.task_id) {
-    throw new Error(`ASR 响应格式错误: ${JSON.stringify(data)}`);
-  }
-  return data.output.task_id;
-};
-/**
- * 轮询等待 ASR 任务完成
- */
-const waitForTaskComplete = async (taskId, apiKey, timeoutMs = 5 * 60 * 1000) => {
-  const taskUrl = `https://dashscope.aliyuncs.com/api/v1/tasks/${taskId}`;
-  const startTime = Date.now();
-  const pollInterval = 500;
-  while (Date.now() - startTime < timeoutMs) {
-    const response = await fetch(taskUrl, {
-      method: 'GET',
-      headers: {
-        'Authorization': `Bearer ${apiKey}`,
-      },
-    });
-    if (!response.ok) {
-      throw new Error(`查询任务状态失败: ${response.status}`);
-    }
-    const data = await response.json();
-    const status = data.output?.task_status;
-    if (status === 'SUCCEEDED') {
-      return data.output.results || [];
-    } else if (status === 'FAILED') {
-      throw new Error('ASR 识别任务失败');
-    }
-    await new Promise(resolve => setTimeout(resolve, pollInterval));
-  }
-  throw new Error('ASR 识别超时');
-};
-/**
- * 获取转写结果详情
- */
-const fetchTranscriptionResults = async (results) => {
-  const allTranscriptions = [];
-  for (const result of results) {
-    if (result.subtask_status === 'SUCCEEDED' && result.transcription_url) {
-      const response = await fetch(result.transcription_url);
-      if (response.ok) {
-        const transcriptionData = await response.json();
-        allTranscriptions.push({
-          file_url: result.file_url,
-          transcription: transcriptionData,
-        });
-      }
-    }
-  }
-  return allTranscriptions;
-};
+const DASHSCOPE_API_KEY = process.env.DASHSCOPE_API_KEY || '';
 /**
  * 将 Windows 路径转换为 WSL 路径，或反之
@@ -286,59 +111,10 @@ const resolveAudioFile = (workingDir, rawPath) => {
   return resolved;
 };
-/**
- * ASR 语音识别
- */
-const asr = async ({ working_directory, audio_file }) => {
-  // 验证环境变量
-  if (!ASR_API_KEY) {
-    throw new Error('请配置 ASR_API_KEY 环境变量');
-  }
-  const workingDir = resolveWorkingDirectory(working_directory);
-  const audioPath = resolveAudioFile(workingDir, audio_file);
-  // 检查文件大小
-  const fileSize = fs.statSync(audioPath).size;
-  if (fileSize > MAX_FILE_SIZE_BYTES) {
-    throw new Error(
-      `音频文件大小 ${(fileSize / 1024 / 1024).toFixed(2)}MB 超过限制（最大 120MB）。` +
-      `请先对音频进行分段处理后再逐段识别。`
-    );
-  }
-  // 1. 上传音频文件
-  const filePath = await uploadAudio(ASR_UPLOAD_URL, audioPath);
-  // 2. 构建静态资源 URL
-  const audioUrl = getStaticUrl(ASR_UPLOAD_URL, filePath);
-  // 3. 提交 ASR 任务
-  const taskId = await submitAsrTask([audioUrl], ASR_API_KEY);
-  // 4. 等待任务完成
-  const results = await waitForTaskComplete(taskId, ASR_API_KEY);
-  // 5. 获取转写结果
-  const transcriptions = await fetchTranscriptionResults(results);
-  if (!transcriptions.length) {
-    throw new Error('未获取到识别结果');
-  }
-  // 6. 转换为 SRT 格式并保存
-  const srtContent = asrToSrt(transcriptions);
-  const filename = `asr_${Date.now()}.srt`;
-  const outputPath = path.join(workingDir, filename);
-  fs.writeFileSync(outputPath, srtContent, 'utf-8');
-  return filename;
-};
 const server = new Server(
   {
     name: 'media',
-    version: '1.0.9',
+    version: '1.0.10',
   },
   {
     capabilities: {
@@ -367,6 +143,36 @@ server.setRequestHandler(ListToolsRequestSchema, async () => ({
         required: ['working_directory', 'audio_file'],
       },
     },
+    {
+      name: 'tts',
+      description: '语音合成工具，将文本转换为音频文件。',
+      inputSchema: {
+        type: 'object',
+        properties: {
+          working_directory: {
+            type: 'string',
+            description: '工作目录的绝对路径，合成的音频文件将保存到此目录',
+          },
+          text: {
+            type: 'string',
+            description: '需要合成语音的文本内容',
+          },
+          voice: {
+            type: 'string',
+            description: '音色模型，可选值如 sambert-zhimiao-emo-v1（默认）、sambert-zhichu-v1 等',
+          },
+          format: {
+            type: 'string',
+            description: '输出音频格式，可选 mp3（默认）、wav、pcm',
+          },
+          sample_rate: {
+            type: 'number',
+            description: '采样率，默认 16000',
+          },
+        },
+        required: ['working_directory', 'text'],
+      },
+    },
   ],
 }));
@@ -379,10 +185,29 @@ server.setRequestHandler(CallToolRequestSchema, async (request) => {
       if (!working_directory || !audio_file) {
         throw new Error('必须同时提供 working_directory 和 audio_file 参数');
       }
-      const filename = await asr({ working_directory, audio_file });
+      const workingDir = resolveWorkingDirectory(working_directory);
+      const audioPath = resolveAudioFile(workingDir, audio_file);
+      const filename = await asr({ workingDir, audioPath, apiKey: DASHSCOPE_API_KEY });
       return { content: [{ type: 'text', text: `语音识别完成，字幕文件已保存到工作目录下：${filename}` }] };
     }
+    if (name === 'tts') {
+      const { working_directory, text, voice, format, sample_rate } = args;
+      if (!working_directory || !text) {
+        throw new Error('必须同时提供 working_directory 和 text 参数');
+      }
+      const workingDir = resolveWorkingDirectory(working_directory);
+      const filename = await tts({
+        workingDir,
+        text,
+        apiKey: DASHSCOPE_API_KEY,
+        voice: voice || 'sambert-zhimiao-emo-v1',
+        format: format || 'mp3',
+        sampleRate: sample_rate || 16000,
+      });
+      return { content: [{ type: 'text', text: `语音合成完成，音频文件已保存到工作目录下：${filename}` }] };
+    }
     return {
       content: [{ type: 'text', text: `未知工具: ${name}` }],
       isError: true,

package/package.json CHANGED Viewed

@@ -1,15 +1,18 @@
 {
   "name": "@ww_nero/media",
-  "version": "1.0.9",
-  "description": "MCP server for media processing, including ASR speech recognition",
+  "version": "1.0.10",
+  "description": "MCP server for media processing, including ASR speech recognition and TTS speech synthesis",
   "main": "index.js",
   "bin": {
     "media": "index.js"
   },
   "files": [
-    "index.js"
+    "index.js",
+    "utils"
   ],
   "dependencies": {
-    "@modelcontextprotocol/sdk": "^1.22.0"
+    "@modelcontextprotocol/sdk": "^1.22.0",
+    "uuid": "^13.0.0",
+    "ws": "^8.18.3"
   }
 }

package/utils/asr.js ADDED Viewed

@@ -0,0 +1,233 @@
+const fs = require('fs');
+const path = require('path');
+const ASR_UPLOAD_URL = 'http://fsheep.com:10808/upload';
+const ASR_SERVICE_URL = 'https://dashscope.aliyuncs.com/api/v1/services/audio/asr/transcription';
+const SUPPORTED_AUDIO_TYPES = ['.mp3', '.wav'];
+const MAX_FILE_SIZE_BYTES = 120 * 1024 * 1024; // 120MB
+const LANGUAGE_HINTS = ['zh', 'en', 'ja'];
+/**
+ * 将毫秒转换为 SRT 时间格式 HH:MM:SS,mmm
+ */
+const msToSrtTime = (ms) => {
+  const hours = Math.floor(ms / 3600000);
+  const minutes = Math.floor((ms % 3600000) / 60000);
+  const seconds = Math.floor((ms % 60000) / 1000);
+  const milliseconds = ms % 1000;
+  return `${String(hours).padStart(2, '0')}:${String(minutes).padStart(2, '0')}:${String(seconds).padStart(2, '0')},${String(milliseconds).padStart(3, '0')}`;
+};
+/**
+ * 将 ASR 识别结果转换为 SRT 字幕内容
+ */
+const asrToSrt = (asrData) => {
+  const srtEntries = [];
+  let subtitleIndex = 1;
+  for (const item of asrData) {
+    const transcription = item.transcription || {};
+    const transcripts = transcription.transcripts || [];
+    for (const transcript of transcripts) {
+      const sentences = transcript.sentences || [];
+      for (const sentence of sentences) {
+        const beginTime = sentence.begin_time || 0;
+        const endTime = sentence.end_time || 0;
+        const text = (sentence.text || '').trim();
+        if (text) {
+          const startStr = msToSrtTime(beginTime);
+          const endStr = msToSrtTime(endTime);
+          srtEntries.push(`${subtitleIndex}\n${startStr} --> ${endStr}\n${text}\n`);
+          subtitleIndex++;
+        }
+      }
+    }
+  }
+  return srtEntries.join('\n');
+};
+/**
+ * 上传音频文件到服务器
+ */
+const uploadAudio = async (uploadUrl, audioPath) => {
+  const fileBuffer = fs.readFileSync(audioPath);
+  const fileName = path.basename(audioPath);
+  const formData = new FormData();
+  formData.append('file', new Blob([fileBuffer]), fileName);
+  const response = await fetch(uploadUrl, {
+    method: 'POST',
+    body: formData,
+  });
+  if (!response.ok) {
+    throw new Error(`上传失败: ${response.status} - ${await response.text()}`);
+  }
+  const data = await response.json();
+  if (!data.success || !data.data || !data.data.path) {
+    throw new Error(`上传响应格式错误: ${JSON.stringify(data)}`);
+  }
+  return data.data.path;
+};
+/**
+ * 根据上传接口 URL 和文件路径构建静态资源 URL
+ */
+const getStaticUrl = (uploadUrl, filePath) => {
+  const url = new URL(uploadUrl);
+  return `${url.protocol}//${url.host}${filePath}`;
+};
+/**
+ * 提交 ASR 转写任务
+ */
+const submitAsrTask = async (fileUrls, apiKey) => {
+  const response = await fetch(ASR_SERVICE_URL, {
+    method: 'POST',
+    headers: {
+      'Authorization': `Bearer ${apiKey}`,
+      'Content-Type': 'application/json',
+      'X-DashScope-Async': 'enable',
+    },
+    body: JSON.stringify({
+      model: 'paraformer-v2',
+      input: { file_urls: fileUrls },
+      parameters: {
+        channel_id: [0],
+        language_hints: LANGUAGE_HINTS,
+      },
+    }),
+  });
+  if (!response.ok) {
+    const errorText = await response.text();
+    throw new Error(`ASR 任务提交失败: ${response.status} - ${errorText}`);
+  }
+  const data = await response.json();
+  if (!data.output || !data.output.task_id) {
+    throw new Error(`ASR 响应格式错误: ${JSON.stringify(data)}`);
+  }
+  return data.output.task_id;
+};
+/**
+ * 轮询等待 ASR 任务完成
+ */
+const waitForTaskComplete = async (taskId, apiKey, timeoutMs = 5 * 60 * 1000) => {
+  const taskUrl = `https://dashscope.aliyuncs.com/api/v1/tasks/${taskId}`;
+  const startTime = Date.now();
+  const pollInterval = 500;
+  while (Date.now() - startTime < timeoutMs) {
+    const response = await fetch(taskUrl, {
+      method: 'GET',
+      headers: {
+        'Authorization': `Bearer ${apiKey}`,
+      },
+    });
+    if (!response.ok) {
+      throw new Error(`查询任务状态失败: ${response.status}`);
+    }
+    const data = await response.json();
+    const status = data.output?.task_status;
+    if (status === 'SUCCEEDED') {
+      return data.output.results || [];
+    } else if (status === 'FAILED') {
+      throw new Error('ASR 识别任务失败');
+    }
+    await new Promise(resolve => setTimeout(resolve, pollInterval));
+  }
+  throw new Error('ASR 识别超时');
+};
+/**
+ * 获取转写结果详情
+ */
+const fetchTranscriptionResults = async (results) => {
+  const allTranscriptions = [];
+  for (const result of results) {
+    if (result.subtask_status === 'SUCCEEDED' && result.transcription_url) {
+      const response = await fetch(result.transcription_url);
+      if (response.ok) {
+        const transcriptionData = await response.json();
+        allTranscriptions.push({
+          file_url: result.file_url,
+          transcription: transcriptionData,
+        });
+      }
+    }
+  }
+  return allTranscriptions;
+};
+/**
+ * ASR 语音识别
+ */
+const asr = async ({ workingDir, audioPath, apiKey }) => {
+  // 验证 API Key
+  if (!apiKey) {
+    throw new Error('请配置 DASHSCOPE_API_KEY 环境变量');
+  }
+  // 检查文件大小
+  const fileSize = fs.statSync(audioPath).size;
+  if (fileSize > MAX_FILE_SIZE_BYTES) {
+    throw new Error(
+      `音频文件大小 ${(fileSize / 1024 / 1024).toFixed(2)}MB 超过限制（最大 120MB）。` +
+      `请先对音频进行分段处理后再逐段识别。`
+    );
+  }
+  // 1. 上传音频文件
+  const filePath = await uploadAudio(ASR_UPLOAD_URL, audioPath);
+  // 2. 构建静态资源 URL
+  const audioUrl = getStaticUrl(ASR_UPLOAD_URL, filePath);
+  // 3. 提交 ASR 任务
+  const taskId = await submitAsrTask([audioUrl], apiKey);
+  // 4. 等待任务完成
+  const results = await waitForTaskComplete(taskId, apiKey);
+  // 5. 获取转写结果
+  const transcriptions = await fetchTranscriptionResults(results);
+  if (!transcriptions.length) {
+    throw new Error('未获取到识别结果');
+  }
+  // 6. 转换为 SRT 格式并保存
+  const srtContent = asrToSrt(transcriptions);
+  const filename = `asr_${Date.now()}.srt`;
+  const outputPath = path.join(workingDir, filename);
+  fs.writeFileSync(outputPath, srtContent, 'utf-8');
+  return filename;
+};
+module.exports = {
+  asr,
+  SUPPORTED_AUDIO_TYPES,
+  MAX_FILE_SIZE_BYTES,
+};

package/utils/tts.js ADDED Viewed

@@ -0,0 +1,128 @@
+const fs = require('fs');
+const path = require('path');
+const WebSocket = require('ws');
+const { v4: uuidv4 } = require('uuid');
+const TTS_WS_URL = 'wss://dashscope.aliyuncs.com/api-ws/v1/inference/';
+/**
+ * TTS 语音合成
+ */
+const tts = async ({ workingDir, text, apiKey, voice = 'sambert-zhimiao-emo-v1', format = 'mp3', sampleRate = 16000 }) => {
+  // 验证 API Key
+  if (!apiKey) {
+    throw new Error('请配置 DASHSCOPE_API_KEY 环境变量');
+  }
+  // 验证文本
+  if (!text || typeof text !== 'string' || !text.trim()) {
+    throw new Error('合成文本不能为空');
+  }
+  const trimmedText = text.trim();
+  // 生成输出文件名
+  const filename = `tts_${Date.now()}.${format}`;
+  const outputPath = path.join(workingDir, filename);
+  return new Promise((resolve, reject) => {
+    // 清空或创建输出文件
+    fs.writeFileSync(outputPath, '');
+    const fileStream = fs.createWriteStream(outputPath, { flags: 'a' });
+    const ws = new WebSocket(TTS_WS_URL, {
+      headers: {
+        Authorization: `bearer ${apiKey}`,
+        'X-DashScope-DataInspection': 'enable'
+      }
+    });
+    let resolved = false;
+    const cleanup = () => {
+      if (!resolved) {
+        resolved = true;
+        fileStream.end();
+        if (ws.readyState === WebSocket.OPEN) {
+          ws.close();
+        }
+      }
+    };
+    ws.on('open', () => {
+      const taskId = uuidv4();
+      const runTaskMessage = {
+        header: {
+          action: 'run-task',
+          task_id: taskId,
+          streaming: 'out'
+        },
+        payload: {
+          model: voice,
+          task_group: 'audio',
+          task: 'tts',
+          function: 'SpeechSynthesizer',
+          input: {
+            text: trimmedText
+          },
+          parameters: {
+            text_type: 'PlainText',
+            format: format,
+            sample_rate: sampleRate,
+            volume: 50,
+            rate: 1,
+            pitch: 1,
+            word_timestamp_enabled: false,
+            phoneme_timestamp_enabled: false
+          }
+        }
+      };
+      ws.send(JSON.stringify(runTaskMessage));
+    });
+    ws.on('message', (data, isBinary) => {
+      if (isBinary) {
+        fileStream.write(data);
+      } else {
+        try {
+          const message = JSON.parse(data);
+          const event = message.header?.event;
+          if (event === 'task-finished') {
+            cleanup();
+            resolve(filename);
+          } else if (event === 'task-failed') {
+            cleanup();
+            reject(new Error(message.header?.error_message || 'TTS 任务失败'));
+          }
+        } catch (e) {
+          // 忽略 JSON 解析错误
+        }
+      }
+    });
+    ws.on('error', (error) => {
+      cleanup();
+      reject(new Error(`WebSocket 错误: ${error.message}`));
+    });
+    ws.on('close', () => {
+      if (!resolved) {
+        cleanup();
+        reject(new Error('WebSocket 连接意外关闭'));
+      }
+    });
+    // 超时处理（2分钟）
+    setTimeout(() => {
+      if (!resolved) {
+        cleanup();
+        reject(new Error('TTS 任务超时'));
+      }
+    }, 2 * 60 * 1000);
+  });
+};
+module.exports = {
+  tts,
+};