npm - yuanflow-cli - Versions diffs - 0.1.47 → 0.1.49 - Mend

yuanflow-cli 0.1.47 → 0.1.49

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (13) hide show

package/skills/yuanflow-skill//350/247/206/351/242/221/346/213/206/350/247/243/SKILL.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 name: 视频拆解
-description: 当用户提交对标视频、本地视频、视频 URL，要求做自媒体创作方向的视频拆解、爆款结构分析、内容复盘、脚本拆解、镜头节奏拆解、账号/竞品内容学习时使用。开始前必须先使用“自媒体知识库”查询与对标拆解相关的规则，再通过 yuanflow-cli 的 qwen3-vl-plus 上传/理解视频，并把知识库规则放入提示词中指导拆解。
+description: 当用户提交对标视频、本地视频、视频 URL，要求做自媒体创作方向的视频拆解、爆款结构分析、内容复盘、脚本拆解、镜头节奏拆解、视频风格解析、账号/竞品内容学习时使用。开始前必须先查自媒体知识库；平台 URL 还要尽量获取作品详情和视频文件，再用 qwen3-vl-plus 规则化拆解。
 emoji: 🎬
 ---
@@ -11,19 +11,20 @@ emoji: 🎬
 核心链路：
 1. 先查 `自媒体知识库`，获取与“对标拆解、视频拆解、内容创作、脚本结构、镜头节奏、爆款复盘”相关的规则摘要。
-2. 如果用户给的是视频 URL，先用相关工具解析并保存到本地。
-3. 使用 `yuanflow-cli ai qwen3-vl-plus --video-file` 提交本地视频。
-4. 把知识库拆解规则写进 prompt，让模型按规则拆解视频。
-5. 整理成适合自媒体创作复用的详细拆解报告。
+2. 如果用户给的是平台视频 URL，先获取作品详情，尽量拿到标题、文案、封面、作者、发布时间、点赞/评论/转发/收藏等互动数据。
+3. 如果需要分析视频画面，再用下载/播放相关工具解析并保存到本地。
+4. 使用 `yuanflow-cli ai qwen3-vl-plus --video-file` 提交本地视频。
+5. 把知识库规则、作品详情摘要和用户目标写进 prompt，让模型按规则拆解视频。
+6. 合并“平台元数据 + 视觉理解结果 + 知识库规则”，整理成适合自媒体创作复用的详细拆解报告。
 ## 外部 CLI 主流程
-外部 Agent 或用户直接使用时，先用 `yuanflow-cli knowledge ...` 查询拆解规则，再用 `yuanflow-cli ai qwen3-vl-plus` 处理视频。
+外部 Agent 或用户直接使用时，先用 `yuanflow-cli knowledge ...` 查询拆解规则；如果输入是平台作品 URL，再用 `yuanflow-cli works detail` 获取作品详情，用 `yuanflow-cli works download` 获取可播放/下载地址；最后用 `yuanflow-cli ai qwen3-vl-plus` 处理本地视频。
 1. 先确认本机可执行 `yuanflow-cli --help`。
 2. 外部 CLI 使用 `YUANCHUANG_API_TOKEN` 或 `yuanflow-cli config set-token <你的令牌>` 完成鉴权。
 3. 本地视频会先经过 YuanFlow 文件中转，再提交给 YuanFlow API。
-4. 如果是平台视频 URL，先解析并在用户授权后保存到本地文件。
+4. 如果是平台视频 URL，先获取作品详情；需要画面拆解时，再解析并在用户授权后保存到本地文件。
 本地视频上传依赖 qwen3-vl-plus 的 YuanFlow 文件中转能力。外部 Agent 只需要配置 YuanFlow API token；不要要求用户提供第三方平台 Key。
@@ -74,7 +75,42 @@ YuanFlow-main 内置环境调用见后文专属小节。
 - 账号定位
 - 带货/转化结构
-### 3. 视频 URL 先解析并保存本地
+### 3. 平台视频 URL 先获取作品详情
+如果用户提交的是平台视频 URL，先用 `作品详情获取工具` 或 `yuanflow-cli works detail` 获取平台元数据。它负责标题、文案/描述、封面、作者、发布时间、互动统计和媒体信息；这些内容不要让视觉模型凭画面猜。
+先按链接判断平台：
+- `douyin.com`、`v.douyin.com`：`--platform douyin`。
+- `xiaohongshu.com`、`xhslink.com`：`--platform xiaohongshu`，如详情接口要求 `xsec_token`，按返回或用户提供信息补充 `--xsec-token`。
+- `bilibili.com`、`b23.tv`、`BV`：`--platform bilibili`。
+- `youtube.com`、`youtu.be`：`--platform youtube`。
+- `tiktok.com`、`vm.tiktok.com`：`--platform tiktok`。
+- `kuaishou.com`：`--platform kuaishou`。
+- `xigua.com`：`--platform xigua`。
+外部 CLI 示例：
+```powershell
+yuanflow-cli works detail --platform douyin --target "https://v.douyin.com/xxx/" --format agent-json
+```
+拿到详情后，先提炼成“作品详情摘要”，供后续 prompt 使用：
+```text
+【作品详情摘要】
+- 标题：
+- 文案/描述：
+- 作者：
+- 发布时间：
+- 封面：
+- 点赞/评论/转发/收藏/播放：
+- 其它可确认媒体信息：
+```
+如果详情接口没有返回某些字段，最终报告里写“未返回/未确认”，不要编造。
+### 4. 视频 URL 再解析并保存本地
 如果用户提交的是平台视频 URL，先用 `作品下载综合工具` 或 `yuanflow-cli works download` 解析可播放/下载地址候选。
@@ -85,6 +121,8 @@ YuanFlow-main 内置环境调用见后文专属小节。
 - `youtube.com`、`youtu.be`：`--platform youtube`。
 - `ixigua.com`：`--platform xigua`。
+注意：`works detail` 支持的平台更多，`works download` 当前只覆盖可播放/下载地址已接入的平台。详情能拿到不代表一定能直接下载视频；下载失败时，让用户提供本地视频或可直接访问的视频文件。
 外部 CLI 示例：
 ```powershell
@@ -121,21 +159,66 @@ ffmpeg -y -i "<解析得到的 m3u8 地址>" -c copy "<视频拆解工作目录>
 如果平台解析只返回播放候选而没有稳定下载 URL，说明当前链接需要用户提供可下载文件，或先让用户使用其它授权方式保存视频。
-### 4. 调用 qwen3-vl-plus 做规则化拆解
+### 5. 调用 qwen3-vl-plus 做规则化拆解
-把知识库查询到的规则摘要压缩进 prompt。不要只让模型“分析视频”，必须告诉它按规则拆解。
+把知识库查询到的规则摘要、作品详情摘要和用户目标压缩进 prompt。不要只让模型“分析视频”，必须告诉它按规则拆解，也要明确哪些字段来自平台详情、哪些内容来自视频画面理解。
 外部 CLI 示例：
 ```powershell
-yuanflow-cli ai qwen3-vl-plus --prompt "你是自媒体视频拆解助手。请按知识库规则拆解这个视频：..." --video-file "<本地视频路径>" --format agent-json
+yuanflow-cli ai qwen3-vl-plus --prompt "你是自媒体视频拆解助手。请按知识库规则和作品详情摘要拆解这个视频：..." --video-file "<本地视频路径>" --format agent-json
 ```
 ## YuanFlow-main 内置环境
 在 YuanFlow-main 内置环境，优先调用受控工具 `yuanflow_cli_call`。token、受管包路径和输出目录由 YuanFlow-main 管理，不要要求用户手动提供 YuanFlow token。
-YuanFlow-main 内置工具示例：
+内置环境应按阶段调用：
+1. `knowledge entry/packs/rules`：查询拆解规则。
+2. `works detail`：平台 URL 获取标题、文案、封面和互动数据。
+3. `works download`：需要画面拆解时获取可播放/下载地址并保存本地。
+4. `ai qwen3-vl-plus`：提交本地视频做视觉与风格拆解。
+YuanFlow-main 作品详情调用示例：
+```json
+{
+  "args": [
+    "works",
+    "detail",
+    "--platform",
+    "douyin",
+    "--target",
+    "https://v.douyin.com/xxx/",
+    "--format",
+    "agent-json"
+  ],
+  "timeout": 180
+}
+```
+YuanFlow-main 下载/播放地址调用示例：
+```json
+{
+  "args": [
+    "works",
+    "download",
+    "--platform",
+    "douyin",
+    "--target",
+    "https://v.douyin.com/xxx/",
+    "--region",
+    "CN",
+    "--format",
+    "agent-json"
+  ],
+  "timeout": 300
+}
+```
+YuanFlow-main 视频拆解调用示例：
 ```json
 {
@@ -143,7 +226,7 @@ YuanFlow-main 内置工具示例：
     "ai",
     "qwen3-vl-plus",
     "--prompt",
-    "你是自媒体视频拆解助手。请严格按以下知识库规则拆解这个对标视频：\\n【知识库规则摘要】...\\n【用户目标】学习该视频的选题、开头、脚本结构、镜头节奏和可复用创作方法。\\n请输出：1. 一句话总结；2. 视频定位；3. 开头钩子；4. 内容结构；5. 镜头/画面节奏；6. 情绪和转化设计；7. 可复用模板；8. 不建议照搬的风险。",
+    "你是自媒体视频拆解助手。请严格按以下知识库规则和作品详情摘要拆解这个对标视频：\\n【知识库规则摘要】...\\n【作品详情摘要】标题、文案、封面、作者、发布时间、互动数据...\\n【用户目标】学习该视频的选题、开头、脚本结构、镜头节奏、视频风格和可复用创作方法。\\n请区分平台详情可确认字段和视频画面分析结论，不要编造未返回的数据。",
     "--video-file",
     "<本地视频路径>",
     "--format",
@@ -169,43 +252,71 @@ YuanFlow-main 内置工具示例：
 ## 1. 一句话结论
-## 2. 视频基础判断
+## 2. 视频基础信息与数据表现
+- 标题：
+- 文案/描述：
+- 作者/账号：
+- 发布时间：
+- 封面：
+- 点赞/评论/转发/收藏/播放：
+- 数据初步判断：
+- 未返回或不确定字段：
+## 3. 视频基础判断
 - 内容类型：
 - 目标受众：
 - 核心卖点/观点：
 - 适用平台：
-## 3. 开头钩子拆解
+## 4. 封面、标题与文案拆解
+- 封面吸引点：
+- 标题钩子：
+- 文案结构：
+- 标题/文案/封面的匹配度：
+## 5. 开头钩子拆解
 - 前 3 秒：
 - 冲突/利益点：
 - 留人方式：
-## 4. 内容结构拆解
+## 6. 内容结构拆解
 - 段落 1：
 - 段落 2：
 - 段落 3：
 - 结尾：
-## 5. 画面与镜头节奏
+## 7. 画面与镜头节奏
 - 场景变化：
 - 人物/产品/字幕：
 - 节奏特点：
-## 6. 情绪、信任和转化设计
+## 8. 视频风格解析拆解
+- 整体风格标签：
+- 镜头语言：
+- 剪辑节奏：
+- 字幕与包装：
+- 音乐/音效：
+- 叙事语气：
+- 人设或账号气质：
+- 平台适配特点：
+- 可复用风格公式：
+## 9. 情绪、信任和转化设计
-## 7. 可复用创作模板
+## 10. 可复用创作模板
-## 8. 可借鉴点与风险
+## 11. 可借鉴点与风险
 - 可借鉴：
 - 不建议照搬：
 - 需要二次原创：
-## 9. 给用户的下一步建议
+## 12. 给用户的下一步建议
 ```
 ## 失败处理
 - 知识库查询失败：说明无法取得拆解规则，不要跳过规则直接当普通视觉理解；可询问用户是否改为通用视觉理解。
+- 作品详情获取失败：说明无法补齐标题、文案、封面和互动数据；可继续做视频画面拆解，但最终报告必须标注平台元数据缺失。
 - 视频 URL 解析失败：说明需要用户提供本地视频或可直接访问的下载链接。
 - YuanFlow token 缺失：说明需要在受管环境或 CLI 配置 YuanFlow API token，不要让用户在聊天里粘贴敏感 Key。
 - 视频超限：提示最大 2GB、2 秒到 1 小时，让用户裁剪或压缩。

package/skills/yuanflow-skill//350/257/255/351/237/263/345/220/210/346/210/220/SKILL.md ADDED Viewed

@@ -0,0 +1,181 @@
+---
+name: 语音合成
+description: 当用户需要使用 YuanFlow API 的 doubao-tts 预置音色把文本合成为音频，查询可用音色、确认单个音色详情，或下载音色试听文件后选择 voice_type 时使用。本 Skill 只使用预置音色 ID，不用于声音克隆或自行设计音色。
+emoji: 🔈
+---
+# 语音合成
+本 Skill 用于把文本合成为语音文件。它依赖 YuanFlow API 已准备好的预置音色列表，合成时必须使用列表里的 `voice_type` 作为音色 ID。
+重要边界：
+- 这是“预置音色 + 文本合成语音”，不是声音克隆。
+- 不能自行设计音色，也不能通过提示词创造一个新音色。
+- 如果用户要克隆本人或指定人物声音，转到 `声音克隆` 和 `声音复刻` Skill。
+- 如果用户不确定选哪个音色，先查询音色列表，再下载试听音频给用户确认。
+## 外部 CLI 主流程
+外部 Agent 或用户直接使用时，优先使用 `yuanflow-cli ai doubao-tts ...` 命令。
+1. 先确认本机可执行 `yuanflow-cli --help`。
+2. 外部 CLI 使用 `YUANCHUANG_API_TOKEN` 或 `yuanflow-cli config set-token <你的令牌>` 完成鉴权。
+3. 先查可用音色列表，读取 `voice_type`。
+4. 用户不确定音色时，下载试听音频到本地，让用户听完再选。
+5. 使用确定的 `voice_type` 执行文本转语音。
+不要在回复、日志或文件中暴露 token。用户主流程统一称为 YuanFlow API，不要求用户配置第三方平台 Key。
+## 查询全部音色
+```powershell
+yuanflow-cli ai doubao-tts voices --format agent-json
+```
+返回里重点读取：
+```text
+data.response.data.data[].display_name
+data.response.data.data[].voice_type
+data.response.data.data[].category
+data.response.data.data[].language
+data.response.data.data[].capabilities
+```
+给用户展示时用 `display_name`、分类、语言和能力描述；真正合成时只使用 `voice_type`。
+## 查询单个音色
+当用户指定了某个 `voice_type`，或需要确认某个音色是否存在：
+```powershell
+yuanflow-cli ai doubao-tts voice --voice "<voice_type>" --format agent-json
+```
+如果查询不到，不要猜测相近 ID，重新查询音色列表。
+## 下载音色试听
+用户不确定使用哪个音色时，先下载试听文件到本地：
+```powershell
+yuanflow-cli ai doubao-tts voice-download --voice "<voice_type>" --output "<试听音频输出路径>" --format agent-json
+```
+注意：
+- 试听下载接口返回的是临时下载 URL，可能过期。
+- 不要把临时 URL 写进长期文档或公开回复。
+- 如果只需要拿到临时 URL，可以不传 `--output`；但用户要试听时优先传 `--output` 保存成本地音频文件。
+- 试听资源查询和下载不做正式合成扣费，但仍需要有效 token 和可用余额。
+## 合成语音
+确认 `voice_type` 后，把文本合成为音频：
+```powershell
+yuanflow-cli ai doubao-tts --text "你好，这是语音合成测试。" --voice "<voice_type>" --output "<输出音频路径>" --format agent-json
+```
+默认输出 `mp3`。用户要求其它格式时，增加 `--response-format`：
+```powershell
+yuanflow-cli ai doubao-tts --text "这是一段 WAV 格式的合成测试。" --voice "<voice_type>" --response-format wav --output "<输出音频路径>" --format agent-json
+```
+常用参数：
+- `--text`：要合成的文本。
+- `--voice`：音色列表返回的 `voice_type`。
+- `--output`：合成音频保存路径。
+- `--response-format`：`mp3`、`wav`、`opus`、`pcm` 等，默认 `mp3`。
+- `--speed`：语速；不传时使用 YuanFlow API 默认语速。
+- `--metadata`：高级透传参数。普通用户不要主动使用，除非明确知道要覆盖什么参数。
+## 输出要求
+最终回复给用户时说明：
+```text
+语音已生成：
+文件路径：`<输出音频路径>`
+使用音色：<display_name> / <voice_type>
+输出格式：
+```
+如果命令返回 agent-json，优先读取：
+```text
+data.response.output
+data.response.bytes
+data.response.content_type
+```
+## YuanFlow-main 内置环境
+只有在 YuanFlow-main 内置环境中，才使用受控工具 `yuanflow_cli_call`。token、受管包路径和输出目录由 YuanFlow-main 管理，不写成外部用户必备步骤。
+查询音色列表：
+```json
+{
+  "args": [
+    "ai",
+    "doubao-tts",
+    "voices",
+    "--format",
+    "agent-json"
+  ],
+  "timeout": 120
+}
+```
+下载试听音频：
+```json
+{
+  "args": [
+    "ai",
+    "doubao-tts",
+    "voice-download",
+    "--voice",
+    "<voice_type>",
+    "--output",
+    "preview.mp3",
+    "--format",
+    "agent-json"
+  ],
+  "timeout": 180
+}
+```
+合成正式音频：
+```json
+{
+  "args": [
+    "ai",
+    "doubao-tts",
+    "--text",
+    "你好，这是语音合成测试。",
+    "--voice",
+    "<voice_type>",
+    "--output",
+    "tts.mp3",
+    "--format",
+    "agent-json"
+  ],
+  "timeout": 300
+}
+```
+在 YuanFlow-main 内置环境里，`--output` 会被限制到受控输出目录。不要要求用户手动传程序数据目录，也不要绕过 `yuanflow_cli_call` 直接写本地文件。
+## 失败处理
+- 没有 `voice_type`：先查询 `ai doubao-tts voices`，不要随便编造音色 ID。
+- 用户想“设计一个声音”或“克隆我的声音”：说明本 Skill 不能做到，转到 `声音克隆` / `声音复刻`。
+- 试听 URL 过期：重新执行 `voice-download` 获取新的临时下载地址。
+- 输出路径被拒绝：在 YuanFlow-main 内置环境中改用相对文件名，让受控工具自动放入输出目录。
+- 合成失败：报告 YuanFlow API 返回的简短错误，不暴露 token、Authorization header 或完整敏感链接。

package/src/agent-protocol.js CHANGED Viewed

@@ -25,7 +25,8 @@ const ERROR_MAP = [
         message.includes('未知平台') ||
         message.includes('未找到命令') ||
         message.includes('未知命令') ||
-        message.includes('不支持'),
+        message.includes('不支持') ||
+        message.includes('已有未归档音色'),
   },
   {
     code: 'AUTH_INVALID',
@@ -78,7 +79,7 @@ export function createAgentSuccess(command, data, meta = {}) {
 }
 export function createAgentError(command, error) {
-  const message = error?.message || String(error);
+  const message = sanitizeErrorMessage(error?.message || String(error));
   const mapped = mapError(message);
   return {
     payload: {
@@ -97,6 +98,18 @@ export function createAgentError(command, error) {
   };
 }
+function sanitizeErrorMessage(message) {
+  const text = String(message || '');
+  if (text.includes('one username can only have one voice id')) {
+    return '请求失败：HTTP 409 当前用户已有未归档音色。请先使用 voice list 查询已有 voice_xxx，或使用已有音色复刻。';
+  }
+  const internalErrorType = ['new', 'api', 'error'].join('_');
+  const internalProductName = ['New', 'Api'].join('');
+  return text
+    .replace(new RegExp(internalErrorType, 'gi'), 'platform_service_error')
+    .replace(new RegExp(internalProductName, 'g'), 'YuanFlow API');
+}
 export function getCommandName(platform, command) {
   return [platform, command].filter(Boolean).join(' ') || 'unknown';
 }

package/src/ai-tools.js CHANGED Viewed

@@ -11,8 +11,8 @@ const DOUBAO_TTS_VOICE_ASSETS_PATH = '/api/voice-assets/doubao/voices';
 const YUANFLOW_FILE_TRANSFER_PATH = '/atomic/oss/temp-upload';
 const MODEL_QWEN_VL = 'qwen3-vl-plus';
-const MODEL_QWEN_VOICE = 'qwen-voice-enrollment';
-const MODEL_QWEN_TTS_VC = 'qwen3-tts-vc-realtime-2026-01-15';
+const MODEL_VOICE_ENROLLMENT = 'voice-enrollment';
+const MODEL_COSYVOICE_FLASH = 'cosyvoice-v3-flash';
 const MODEL_FUN_ASR = 'fun-asr';
 const MODEL_DOUBAO_TTS = 'doubao-tts';
@@ -41,34 +41,36 @@ export function listAiCommands() {
       returns: '返回 OpenAI chat.completion 兼容 JSON。',
     }),
     aiCommand({
-      key: 'ai.qwen-voice-enrollment',
-      command: 'ai qwen-voice-enrollment',
-      description: '调用 YuanFlow API 对外模型 qwen-voice-enrollment，创建音色复刻记录。',
+      key: 'ai.voice-enrollment',
+      command: 'ai voice-enrollment',
+      description: '调用 YuanFlow API 对外模型 voice-enrollment，创建音色复刻记录。',
       apiPath: AUDIO_VOICES_PATH,
       options: [
-        option('--file', 'file', false, '本地音频文件；与 --audio-url 二选一。'),
+        option('--file', 'file', false, '本地音频文件；通过 multipart 直接提交给 YuanFlow API，与 --audio-url 二选一。'),
         option('--audio-url', 'audioUrl', false, '公网可访问音频 URL；与 --file 二选一。'),
         option('--name', 'name', false, '音色展示名。'),
         option('--preferred-name', 'preferredName', false, '偏好音色名，默认跟随 --name。'),
-        option('--text', 'text', false, '参考音频对应文本，可选。'),
-        option('--language', 'language', false, '语言代码，可选。'),
+        option('--target-model', 'targetModel', false, `后续合成模型，默认 ${MODEL_COSYVOICE_FLASH}。`),
+        option('--language-hints', 'languageHints', false, '逗号分隔的样本音频语种提示，例如 zh。'),
+        option('--language', 'language', false, '兼容别名；会映射为 language_hints。'),
         option('--activate', 'activate', false, '创建后设为当前默认音色。'),
         ...commonOptions(),
       ],
       requestBody: {
-        model: MODEL_QWEN_VOICE,
-        audio: '<本地文件 data URI 或 audio_url>',
+        model: MODEL_VOICE_ENROLLMENT,
+        target_model: MODEL_COSYVOICE_FLASH,
+        file: '<multipart 本地音频，或通过 audio_url 传入公网音频 URL>',
       },
-      returns: '返回 voice_xxx 音色对象；后续 qwen3-tts-vc-realtime-2026-01-15 可用 --voice voice_xxx 调用。',
+      returns: '返回 voice_xxx 音色对象；后续 cosyvoice-v3-flash 可用 --voice voice_xxx 调用。',
     }),
     aiCommand({
-      key: 'ai.qwen3-tts-vc-realtime-2026-01-15',
-      command: 'ai qwen3-tts-vc-realtime-2026-01-15',
-      description: '调用 YuanFlow API 对外模型 qwen3-tts-vc-realtime-2026-01-15，使用 voice_xxx 或 default 合成音频。',
+      key: 'ai.cosyvoice-v3-flash',
+      command: 'ai cosyvoice-v3-flash',
+      description: '调用 YuanFlow API 对外模型 cosyvoice-v3-flash，使用 voice_xxx 或 default 合成音频。',
       apiPath: AUDIO_SPEECH_PATH,
       options: speechOptions('音色 ID：voice_xxx 或 default。', false),
       requestBody: {
-        model: MODEL_QWEN_TTS_VC,
+        model: MODEL_COSYVOICE_FLASH,
         input: '<text>',
         voice: '<voice_xxx|default>',
       },
@@ -166,10 +168,10 @@ export async function runAiCommand({ action = 'help', rest = [], options }) {
       return { ok: true, commands: listAiCommands() };
     case MODEL_QWEN_VL:
       return callJson(CHAT_COMPLETIONS_PATH, options, await buildQwenVLBody(options));
-    case MODEL_QWEN_VOICE:
-      return callJson(AUDIO_VOICES_PATH, options, await buildVoiceEnrollmentBody(options));
-    case MODEL_QWEN_TTS_VC:
-      return callSpeech(MODEL_QWEN_TTS_VC, options, false);
+    case MODEL_VOICE_ENROLLMENT:
+      return callVoiceEnrollment(options);
+    case MODEL_COSYVOICE_FLASH:
+      return callSpeech(MODEL_COSYVOICE_FLASH, options, false);
     case MODEL_FUN_ASR:
       return callFunASR(options);
     case MODEL_DOUBAO_TTS:
@@ -308,21 +310,38 @@ async function buildVoiceEnrollmentBody(options) {
     throw new Error('--file 和 --audio-url 不能同时使用。');
   }
   const body = {
-    model: MODEL_QWEN_VOICE,
+    model: MODEL_VOICE_ENROLLMENT,
+    target_model: cleanOptional(options.named?.['target-model']) || MODEL_COSYVOICE_FLASH,
     ...optionalField('name', options.named?.name),
     ...optionalField('preferred_name', options.named?.['preferred-name']),
-    ...optionalField('text', options.named?.text),
-    ...optionalField('language', options.named?.language),
     ...optionalBooleanField('activate', options.named?.activate),
   };
+  const languageHints = splitList(options.named?.['language-hints'] || options.named?.language);
+  if (languageHints.length > 0) {
+    body.language_hints = languageHints;
+  }
   if (audioUrl) {
     body.audio_url = audioUrl;
   } else {
-    body.audio = options.dryRun ? '<data URI omitted in dry-run>' : await fileToDataUri(filePath);
+    body.file = '<file omitted>';
   }
   return body;
 }
+async function callVoiceEnrollment(options) {
+  const body = await buildVoiceEnrollmentBody(options);
+  const filePath = cleanOptional(options.file);
+  const audioUrl = cleanOptional(options.named?.['audio-url']);
+  if (filePath && !audioUrl && !options.json) {
+    const response = await callMultipartJson(AUDIO_VOICES_PATH, options, {
+      ...body,
+      filePath,
+    });
+    return result(MODEL_VOICE_ENROLLMENT, AUDIO_VOICES_PATH, body, response);
+  }
+  return callJson(AUDIO_VOICES_PATH, options, body);
+}
 async function callSpeech(model, options, requiresVoice) {
   const body = buildSpeechBody(model, options, requiresVoice);
   const response = await callBinary(AUDIO_SPEECH_PATH, options, body);
@@ -352,10 +371,18 @@ function buildSpeechBody(model, options, requiresVoice) {
   const metadata = parseJsonObject(options.named?.metadata);
   addNumber(metadata, 'sample_rate', options.named?.['sample-rate']);
   addNumber(metadata, 'volume', options.named?.volume);
-  addNumber(metadata, 'pitch_rate', options.named?.['pitch-rate']);
+  addNumber(metadata, 'rate', options.named?.rate || options.named?.speed);
+  addNumber(metadata, 'pitch', options.named?.pitch || options.named?.['pitch-rate']);
   addNumber(metadata, 'bit_rate', options.named?.['bit-rate']);
   addString(metadata, 'mode', options.named?.mode);
   addString(metadata, 'language', options.named?.language);
+  addNumber(metadata, 'seed', options.named?.seed);
+  addBoolean(metadata, 'enable_ssml', options.named?.['enable-ssml']);
+  addBoolean(metadata, 'word_timestamp_enabled', options.named?.['word-timestamp-enabled']);
+  const hints = splitList(options.named?.['language-hints']);
+  if (hints.length > 0) {
+    metadata.language_hints = hints;
+  }
   if (Object.keys(metadata).length > 0) {
     body.metadata = metadata;
   }
@@ -489,19 +516,25 @@ async function callGetJson(apiPath, options) {
 }
 async function callMultipartJson(apiPath, options, payload) {
-  const request = await buildRequest(apiPath, options, 'POST', {
-    model: payload.model,
-    response_format: payload.response_format,
-    metadata: payload.metadata,
-    file: '<file omitted>',
-  });
+  const requestBody = { ...payload, file: '<file omitted>' };
+  delete requestBody.filePath;
+  const request = await buildRequest(apiPath, options, 'POST', requestBody);
   if (request.dryRun) {
     return request;
   }
   const form = new FormData();
-  form.set('model', payload.model);
-  form.set('response_format', payload.response_format);
-  form.set('metadata', JSON.stringify(payload.metadata || {}));
+  for (const [key, value] of Object.entries(payload || {})) {
+    if (key === 'filePath' || key === 'file' || value === undefined || value === null) {
+      continue;
+    }
+    if (Array.isArray(value)) {
+      form.set(key, value.join(','));
+    } else if (typeof value === 'object') {
+      form.set(key, JSON.stringify(value));
+    } else {
+      form.set(key, String(value));
+    }
+  }
   const file = new Blob([await readFile(payload.filePath)], { type: inferAudioMimeType(payload.filePath) });
   form.set('file', file, path.basename(payload.filePath));
   const response = await fetch(request.url, {
@@ -617,8 +650,16 @@ function speechOptions(voiceLabel, voiceRequired) {
     option('--voice', 'voice', voiceRequired, voiceLabel),
     option('--output', 'output', true, '音频保存路径；dry-run 时可不传。'),
     option('--response-format', 'responseFormat', false, 'mp3、wav、pcm 等，默认 mp3。'),
-    option('--speed', 'speed', false, '语速控制。'),
+    option('--rate', 'rate', false, '语速控制，会写入 metadata.rate。'),
+    option('--speed', 'speed', false, '兼容别名；会写入 metadata.rate。'),
+    option('--volume', 'volume', false, '音量控制，会写入 metadata.volume。'),
+    option('--pitch', 'pitch', false, '音调控制，会写入 metadata.pitch。'),
     option('--sample-rate', 'sampleRate', false, '采样率。'),
+    option('--language', 'language', false, '目标合成语言，例如 zh。'),
+    option('--language-hints', 'languageHints', false, '逗号分隔的目标合成语种提示，例如 zh。'),
+    option('--enable-ssml', 'enableSsml', false, '是否开启 SSML。'),
+    option('--word-timestamp-enabled', 'wordTimestampEnabled', false, '是否开启字级时间戳。'),
+    option('--seed', 'seed', false, '随机种子。'),
     option('--metadata', 'metadata', false, '透传给 YuanFlow API 的 metadata JSON。'),
     ...commonOptions(),
   ];
@@ -638,11 +679,6 @@ function option(flag, name, required, label) {
   return { flag, name, required, label };
 }
-async function fileToDataUri(filePath) {
-  const data = await readFile(filePath);
-  return `data:${inferAudioMimeType(filePath)};base64,${data.toString('base64')}`;
-}
 function inferAudioMimeType(filePath) {
   switch (path.extname(filePath).toLowerCase()) {
     case '.mp3':