npm - yuanflow-cli - Versions diffs - 0.1.48 → 0.1.49 - Mend

yuanflow-cli 0.1.48 → 0.1.49

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (5) hide show

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "yuanflow-cli",
-  "version": "0.1.48",
+  "version": "0.1.49",
   "description": "YuanFlow 自媒体 API CLI 与 Skill 安装器。",
   "type": "module",
   "license": "MIT",

package/skills/yuanflow-skill/README.md CHANGED Viewed

@@ -8,7 +8,7 @@ YuanFlow Skill 是 `yuanflow-cli` 的 Agent Skill 仓库，用于把社媒平台
 - `yuanflow-cli/`：API CLI 子 Skill，说明 `yuanflow-cli` 的安装、配置、命令发现、schema 查询、dry-run 和 agent-json 调用方式。
 - `自媒体知识库/`：自媒体知识库渐进查询 Skill，走 `yuanflow-cli knowledge`。
 - `视觉理解/`：通用型图片、视频画面理解 Skill，走 `yuanflow-cli ai qwen3-vl-plus`，支持图片/视频 URL 和本地图片/视频上传。
-- `视频拆解/`：自媒体创作场景的对标视频拆解 Skill，先查自媒体知识库对标拆解规则，再用 `qwen3-vl-plus` 上传视频并按规则拆解。
+- `视频拆解/`：自媒体创作场景的对标视频拆解 Skill，先查自媒体知识库对标拆解规则；平台 URL 先获取作品详情和互动数据，需要画面分析时再下载/上传视频并按规则拆解。
 - `YuanFlow文件中转工具/`：YuanFlow 文件中转、签名链接、对象复制 Skill，内部兼容命令走 `yuanflow-cli oss`。
 - `生图技能/`：图片生成与编辑 Skill；外部环境使用 `yuanflow-cli`，YuanFlow-main 内置环境优先走 `yuanflow_image_request`。
 - `视觉卡片生成/`：小红书图文卡片、公众号封面、文章插图、海报、信息图和商业视觉方案卡生成 Skill，使用 HTML 模板、风格参考和质量检查脚本完成交付。
@@ -18,8 +18,9 @@ YuanFlow Skill 是 `yuanflow-cli` 的 Agent Skill 仓库，用于把社媒平台
 - `HTML报告生成/`：单页 HTML 报告生成 Skill，内置 9 种米色留白报告模板。
 - `本地音视频转文字/`：本地 SenseVoice 音视频转文字 Skill，首次明确使用时按需下载模型。
 - `音视频在线转文字/`：通过 YuanFlow 在线 ASR 接口把音频或视频转成干净文本，视频会先抽取音频并通过 YuanFlow 文件中转。
-- `声音克隆/`：通过 `yuanflow-cli voice clone/list/activate` 创建、查询和激活声音克隆音色，返回可复用的 `voice_xxx`。
-- `声音复刻/`：通过 `yuanflow-cli voice replicate` 使用已有 `voice_xxx` 或默认音色把文本合成为复刻音频文件。
+- `语音合成/`：通过 `yuanflow-cli ai doubao-tts` 查询预置音色、下载试听音频，并使用选定 `voice_type` 把文本合成为语音文件。
+- `声音克隆/`：通过 `yuanflow-cli voice clone/list/activate` 创建、查询和激活声音克隆音色；本地参考音频优先先用 YuanFlow 文件中转取得临时 URL，再用 `--audio-url` 创建音色。
+- `声音复刻/`：通过 `yuanflow-cli voice replicate` 使用已有 `voice_xxx` 或默认音色把文本合成为复刻音频文件；如果链路里出现本地参考音频，先转到声音克隆流程处理。
 - `自媒体浏览器自动化/`：自媒体平台专用浏览器自动化 Skill，用于登录态隔离、Cookie/profile 本地保存、页面采集和作品发布流程。
 - `帐号监控/`：帐号搜索、主页资料、主页作品、历史快照、变化对比和 HTML 可视化分流 Skill。
 - `个人创作库/`：长期保存、整理、复盘和复用用户认可的自媒体合格产出物。
@@ -39,7 +40,7 @@ YuanFlow Skill 是 `yuanflow-cli` 的 Agent Skill 仓库，用于把社媒平台
 - 让本地 Agent 稳定调用 `yuanflow-cli` 并解析 JSON 输出。
 - 查询自媒体知识库公开方向、方法包和规则摘要。
 - 对图片、视频、本地媒体文件或媒体 URL 做通用画面理解、内容描述、可见文字识别、画面对比和细节检查。
-- 对自媒体对标视频、爆款视频、竞品视频做内容结构、开头钩子、脚本节奏、镜头节奏和可复用创作方法拆解；开始前先查自媒体知识库规则，视频 URL 先解析并保存本地。
+- 对自媒体对标视频、爆款视频、竞品视频做内容结构、开头钩子、标题文案、封面、互动数据、脚本节奏、镜头节奏、视频风格和可复用创作方法拆解；开始前先查自媒体知识库规则，平台视频 URL 先获取作品详情，需要画面分析时再解析并保存本地。
 - 上传文件到 YuanFlow 文件中转、生成签名链接或复制文件对象。
 - 生成图片、编辑图片，并缓存返回 URL 或 base64 图片。生成图片必填 `prompt`，可选 `size / quality / style / n / response_format`；编辑图片必须通过 multipart 上传本地图片。
 - 生成小红书图文卡片、公众号封面、文章插图、社交媒体配图、海报、信息图和商业视觉方案卡；视觉卡片生成不新增独立 CLI 命令，按 Skill 模板、参考文档和检查脚本完成。
@@ -49,7 +50,8 @@ YuanFlow Skill 是 `yuanflow-cli` 的 Agent Skill 仓库，用于把社媒平台
 - 在用户要求智能剪辑、自动剪辑、主音频匹配 B-roll、重排视频画面或生成剪辑预览时，使用视频智能剪辑 Skill；第一版先查规则库，导入策略快照，用“音视频在线转文字”或 forced alignment 建立音频对齐，抽帧频率固定 1 秒 1 帧，再回写视觉理解结果，最后生成 `timeline_plan` 和 EDL。
 - 在用户明确要求本地转写时，把本地音频或视频转成文字；视频会先抽取音频，模型和缓存由当前运行环境管理，不要求固定安装目录。
 - 在用户要求在线转写、云端转写或 doubao-asr 时，把本地音频或视频经 YuanFlow 文件中转后提交在线 ASR，默认只返回干净文本。
-- 在用户要求创建声音克隆、查询已有克隆音色 ID、激活默认克隆音色或生成声音复刻音频时，使用声音克隆或声音复刻 Skill；声音复刻前必须先拿到 `voice_xxx` 或使用已激活默认音色。
+- 在用户要求文本转语音、生成口播/旁白/TTS 音频，或不确定使用哪个预置音色时，使用语音合成 Skill；先查询音色列表，必要时下载试听音频，再用选定的 `voice_type` 合成。
+- 在用户要求创建声音克隆、查询已有克隆音色 ID、激活默认克隆音色或生成声音复刻音频时，使用声音克隆或声音复刻 Skill；本地参考音频优先先走 YuanFlow 文件中转获取临时 URL，声音复刻前必须先拿到 `voice_xxx` 或使用已激活默认音色。
 - 在用户要求自媒体平台浏览器自动化、账号登录态隔离、Cookie/profile 保存、平台页面采集或作品发布时，使用专用自媒体浏览器自动化 Skill；普通网页浏览和搜索仍使用通用浏览器能力。
 - 监控抖音、小红书、微博、知乎、Bilibili、TikTok、YouTube、Twitter/X 帐号主页，保存快照并对比历史变化；抖音链路优先使用 `get-sec-user-id -> user-profile -> user-posts -> works detail`。
 - 在用户要求保存、归档、复盘或复用已完成创作成果时，把选题、标题、文案、脚本、封面、剪辑思路、发布计划和数据复盘沉淀进个人创作库。
@@ -149,6 +151,8 @@ yuanflow-skill list-skills
 │  └─ scripts/
 ├─ 音视频在线转文字
 │  └─ SKILL.md
+├─ 语音合成
+│  └─ SKILL.md
 ├─ 自媒体浏览器自动化
 │  └─ SKILL.md
 ├─ 个人创作库

package/skills/yuanflow-skill/SKILL.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 name: YuanFlow技能总入口
-description: 当用户需要处理自媒体平台接口工作流、平台数据查询、命令发现、生图、视觉卡片生成、YuanFlow 文件中转、知识库查询、HTML 报告生成，或需要在 YuanFlow 子技能之间选择合适能力时使用。
+description: 当用户需要处理自媒体平台接口工作流、平台数据查询、命令发现、生图、语音合成、视觉卡片生成、YuanFlow 文件中转、知识库查询、HTML 报告生成，或需要在 YuanFlow 子技能之间选择合适能力时使用。
 ---
 # YuanFlow Skill
@@ -32,6 +32,7 @@ description: 当用户需要处理自媒体平台接口工作流、平台数据
 - `HTML报告生成/`
 - `本地音视频转文字/`
 - `音视频在线转文字/`
+- `语音合成/`
 - `自媒体浏览器自动化/`
 - `帐号监控/`
 - `个人创作库/`
@@ -319,7 +320,21 @@ description: 当用户需要处理自媒体平台接口工作流、平台数据
 - `音视频在线转文字`
-### 20. 走 `视觉理解`
+### 20. 走 `语音合成`
+遇到下面这些需求，优先进入这个子 Skill：
+- 用户要求把文本合成为语音、口播音频、旁白音频或 TTS 音频文件。
+- 用户要求查询、筛选或试听预置音色列表里的音色。
+- 用户提供或需要选择 `voice_type`，并要求用该音色合成音频。
+这个 Skill 只使用预置音色 ID，不支持自行设计音色或克隆声音。如果用户要克隆本人或指定人物声音，改用 `声音克隆` / `声音复刻`。
+子 Skill 名称：
+- `语音合成`
+### 21. 走 `视觉理解`
 遇到下面这些需求，优先进入这个子 Skill：
@@ -333,15 +348,16 @@ description: 当用户需要处理自媒体平台接口工作流、平台数据
 - `视觉理解`
-### 21. 走 `视频拆解`
+### 22. 走 `视频拆解`
 遇到下面这些需求，优先进入这个子 Skill：
 - 用户提交对标视频、本地视频或视频 URL，要求做自媒体创作方向的视频拆解。
 - 用户要求分析爆款结构、开头钩子、脚本节奏、镜头节奏、转化设计、可复用创作模板。
+- 用户要求补齐视频标题、文案、封面、点赞评论转发收藏等作品详情，或要求视频风格解析拆解。
 - 用户希望从竞品视频、对标账号视频里提炼内容创作方法。
-这个 Skill 开始前必须先使用 `自媒体知识库` 查询与对标拆解相关的规则。如果用户提交的是视频 URL，先用作品解析/下载相关工具保存到本地，再通过 `yuanflow-cli ai qwen3-vl-plus --video-file` 上传拆解。
+这个 Skill 开始前必须先使用 `自媒体知识库` 查询与对标拆解相关的规则。如果用户提交的是平台视频 URL，先用 `作品详情获取工具` 补齐平台元数据；需要画面分析时，再用作品解析/下载相关工具保存到本地，并通过 `yuanflow-cli ai qwen3-vl-plus --video-file` 上传拆解。
 子 Skill 名称：

package/skills/yuanflow-skill//346/234/254/345/234/260/351/237/263/350/247/206/351/242/221/350/275/254/346/226/207/345/255/227/SKILL.md CHANGED Viewed

@@ -60,6 +60,30 @@ emoji: 🎙️
 cd "<当前 Skill 安装目录>\scripts"
 ```
+## 使用前配置要求
+本 Skill 是本地模型转写，不是云端接口。首次使用会下载 SenseVoiceSmall 和 VAD 模型到本机，后续可离线复用。
+最低可用：
+- Python 3.10 优先，3.11/3.12 可尝试；不建议 3.13/3.14。
+- 能安装 `torch`、`torchaudio`、`funasr`、`modelscope`。
+- CPU 可运行，但长音频会比较慢。
+- 本地磁盘需预留模型、依赖和缓存空间，建议至少预留数 GB。
+- 如果输入是视频，系统必须可用 `ffmpeg`。
+推荐配置：
+- NVIDIA GPU + CUDA 环境，显存 8GB 以上更合适。
+- 16GB 以上内存、SSD、稳定网络。
+- 长音频或低配设备建议把 `--batch-size-s` 调小到 `20` 或 `10`。
+不适合的情况：
+- 设备内存很小、磁盘空间不足、不能安装 Python 依赖。
+- 不能下载模型，又本地没有提前缓存模型。
+- 视频转写但系统没有 `ffmpeg`。
 ## 首次使用模型下载规则
 开始转写前先检查模型目录是否已经存在：

package/skills/yuanflow-skill//350/257/255/351/237/263/345/220/210/346/210/220/SKILL.md ADDED Viewed

@@ -0,0 +1,181 @@
+---
+name: 语音合成
+description: 当用户需要使用 YuanFlow API 的 doubao-tts 预置音色把文本合成为音频，查询可用音色、确认单个音色详情，或下载音色试听文件后选择 voice_type 时使用。本 Skill 只使用预置音色 ID，不用于声音克隆或自行设计音色。
+emoji: 🔈
+---
+# 语音合成
+本 Skill 用于把文本合成为语音文件。它依赖 YuanFlow API 已准备好的预置音色列表，合成时必须使用列表里的 `voice_type` 作为音色 ID。
+重要边界：
+- 这是“预置音色 + 文本合成语音”，不是声音克隆。
+- 不能自行设计音色，也不能通过提示词创造一个新音色。
+- 如果用户要克隆本人或指定人物声音，转到 `声音克隆` 和 `声音复刻` Skill。
+- 如果用户不确定选哪个音色，先查询音色列表，再下载试听音频给用户确认。
+## 外部 CLI 主流程
+外部 Agent 或用户直接使用时，优先使用 `yuanflow-cli ai doubao-tts ...` 命令。
+1. 先确认本机可执行 `yuanflow-cli --help`。
+2. 外部 CLI 使用 `YUANCHUANG_API_TOKEN` 或 `yuanflow-cli config set-token <你的令牌>` 完成鉴权。
+3. 先查可用音色列表，读取 `voice_type`。
+4. 用户不确定音色时，下载试听音频到本地，让用户听完再选。
+5. 使用确定的 `voice_type` 执行文本转语音。
+不要在回复、日志或文件中暴露 token。用户主流程统一称为 YuanFlow API，不要求用户配置第三方平台 Key。
+## 查询全部音色
+```powershell
+yuanflow-cli ai doubao-tts voices --format agent-json
+```
+返回里重点读取：
+```text
+data.response.data.data[].display_name
+data.response.data.data[].voice_type
+data.response.data.data[].category
+data.response.data.data[].language
+data.response.data.data[].capabilities
+```
+给用户展示时用 `display_name`、分类、语言和能力描述；真正合成时只使用 `voice_type`。
+## 查询单个音色
+当用户指定了某个 `voice_type`，或需要确认某个音色是否存在：
+```powershell
+yuanflow-cli ai doubao-tts voice --voice "<voice_type>" --format agent-json
+```
+如果查询不到，不要猜测相近 ID，重新查询音色列表。
+## 下载音色试听
+用户不确定使用哪个音色时，先下载试听文件到本地：
+```powershell
+yuanflow-cli ai doubao-tts voice-download --voice "<voice_type>" --output "<试听音频输出路径>" --format agent-json
+```
+注意：
+- 试听下载接口返回的是临时下载 URL，可能过期。
+- 不要把临时 URL 写进长期文档或公开回复。
+- 如果只需要拿到临时 URL，可以不传 `--output`；但用户要试听时优先传 `--output` 保存成本地音频文件。
+- 试听资源查询和下载不做正式合成扣费，但仍需要有效 token 和可用余额。
+## 合成语音
+确认 `voice_type` 后，把文本合成为音频：
+```powershell
+yuanflow-cli ai doubao-tts --text "你好，这是语音合成测试。" --voice "<voice_type>" --output "<输出音频路径>" --format agent-json
+```
+默认输出 `mp3`。用户要求其它格式时，增加 `--response-format`：
+```powershell
+yuanflow-cli ai doubao-tts --text "这是一段 WAV 格式的合成测试。" --voice "<voice_type>" --response-format wav --output "<输出音频路径>" --format agent-json
+```
+常用参数：
+- `--text`：要合成的文本。
+- `--voice`：音色列表返回的 `voice_type`。
+- `--output`：合成音频保存路径。
+- `--response-format`：`mp3`、`wav`、`opus`、`pcm` 等，默认 `mp3`。
+- `--speed`：语速；不传时使用 YuanFlow API 默认语速。
+- `--metadata`：高级透传参数。普通用户不要主动使用，除非明确知道要覆盖什么参数。
+## 输出要求
+最终回复给用户时说明：
+```text
+语音已生成：
+文件路径：`<输出音频路径>`
+使用音色：<display_name> / <voice_type>
+输出格式：
+```
+如果命令返回 agent-json，优先读取：
+```text
+data.response.output
+data.response.bytes
+data.response.content_type
+```
+## YuanFlow-main 内置环境
+只有在 YuanFlow-main 内置环境中，才使用受控工具 `yuanflow_cli_call`。token、受管包路径和输出目录由 YuanFlow-main 管理，不写成外部用户必备步骤。
+查询音色列表：
+```json
+{
+  "args": [
+    "ai",
+    "doubao-tts",
+    "voices",
+    "--format",
+    "agent-json"
+  ],
+  "timeout": 120
+}
+```
+下载试听音频：
+```json
+{
+  "args": [
+    "ai",
+    "doubao-tts",
+    "voice-download",
+    "--voice",
+    "<voice_type>",
+    "--output",
+    "preview.mp3",
+    "--format",
+    "agent-json"
+  ],
+  "timeout": 180
+}
+```
+合成正式音频：
+```json
+{
+  "args": [
+    "ai",
+    "doubao-tts",
+    "--text",
+    "你好，这是语音合成测试。",
+    "--voice",
+    "<voice_type>",
+    "--output",
+    "tts.mp3",
+    "--format",
+    "agent-json"
+  ],
+  "timeout": 300
+}
+```
+在 YuanFlow-main 内置环境里，`--output` 会被限制到受控输出目录。不要要求用户手动传程序数据目录，也不要绕过 `yuanflow_cli_call` 直接写本地文件。
+## 失败处理
+- 没有 `voice_type`：先查询 `ai doubao-tts voices`，不要随便编造音色 ID。
+- 用户想“设计一个声音”或“克隆我的声音”：说明本 Skill 不能做到，转到 `声音克隆` / `声音复刻`。
+- 试听 URL 过期：重新执行 `voice-download` 获取新的临时下载地址。
+- 输出路径被拒绝：在 YuanFlow-main 内置环境中改用相对文件名，让受控工具自动放入输出目录。
+- 合成失败：报告 YuanFlow API 返回的简短错误，不暴露 token、Authorization header 或完整敏感链接。