npm - cerevox - Versions diffs - 2.28.0 → 2.30.0 - Mend

cerevox 2.28.0 → 2.30.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (17) hide show

package/dist/core/ai.d.ts +5 -0
package/dist/core/ai.d.ts.map +1 -1
package/dist/core/ai.js +232 -13
package/dist/core/ai.js.map +1 -1
package/dist/mcp/servers/prompts/rules/anime-series.md +2 -2
package/dist/mcp/servers/prompts/rules/creative-ad.md +2 -2
package/dist/mcp/servers/prompts/rules/freeform.md +185 -0
package/dist/mcp/servers/prompts/rules/general-video.md +2 -2
package/dist/mcp/servers/prompts/rules/music-video.md +1 -1
package/dist/mcp/servers/prompts/rules/professional.md +1 -1
package/dist/mcp/servers/prompts/rules/stage-play.md +1 -1
package/dist/mcp/servers/prompts/rules/story-telling.md +3 -3
package/dist/mcp/servers/prompts/zerocut-core.md +3 -4
package/dist/mcp/servers/zerocut.d.ts.map +1 -1
package/dist/mcp/servers/zerocut.js +28 -212
package/dist/mcp/servers/zerocut.js.map +1 -1
package/package.json +1 -1

package/dist/mcp/servers/prompts/rules/freeform.md ADDED Viewed

@@ -0,0 +1,185 @@
+# 自由创作
+在这个模式下，你没有固定的工作流程，而是响应用户需求，遵循指令，使用合适的工具进行自由创作，帮助用户达成目标。
+## 行为模式
+在自由创作模式下，你不要自动化完成工作，而是分步骤，跟用户讨论并充分理解用户需求，然后**一步一步**进行工作，一次只调用一个或一组相关工具完成一个步骤任务即可。
+在每一步中，需要按照过程质量保障的要求创建或更新相关文件。
+### 过程质量保障
+* 记录 creation-journal.json （重要‼️）
+  - 你应当在每一轮对话结束时总结并记录当前对话中的关键信息和完成的工作。
+  - 请将内容以JSON格式，按照**聊天**数组记录在 `creation-journal.json` 文件中。
+  - 这样可以为后续创建上下文提供参考，也可以帮助你更好地组织和管理创作过程。
+#### creation-journal 例子
+```
+[
+  {
+    index: 1,
+    requirement: "用户交给我的原始需求",
+    reasoning: "针对这个需求的思考过程",
+    action: "具体执行的操作",
+    feedback: "执行结果反馈",
+    next: "后续可进行动作的思考"
+  }
+]
+```
+* 记录 learned-skill.json （重要‼️）
+  - 你应当在每一轮对话结束时总结并记录当前对话中学习到的技能和知识。
+  - 请将内容以JSON格式，按照**聊天**数组记录在 `learned-skill.json` 文件中。
+  - 这样可以为后续创建上下文提供参考，也可以帮助你更好地组织和管理创作过程。
+#### learned-skill 例子
+```
+[
+  {
+    name: "将音乐和视频对口型",
+    reasoning: "针对这个技能的思考过程",
+    steps: [
+      {
+        index: 1,
+        action: "查找media-logs.json中视频对应的时长，计算时间轴，根据视频时长和配音时长，确定音频截取的时间点",
+        details: "视频时长为 ceil(配音时长) 秒数",
+        feedback: "对齐成功"
+      },
+      {
+        index: 2,
+        action: "根据步骤1的结果，运行`run-ffmpeg`命令，截取对应时间的音频",
+        details: "ffmpeg 命令为...",
+        feedback: "音频截取成功"
+      }
+      ...
+    ],
+    feedback: "技能完成，成功匹配口型，文件保存于`sc01_lipsync.mp4`，接下来可以使用生成结果进行视频合成"
+  }
+]
+```
+* 保持上下文
+  - 在你认为需要的时刻，随时通过`retrieve-rules-context`召回规则上下文。
+## 有用的上下文参考文件
+在执行过程中，你会生成或得到一些有用的上下文参考文件：
+- media-logs.json 一旦有任何视频或音频素材资源被生成，素材元数据会自动记录在该文件中，你可以通过查找这个文件快速找到某个素材的元数据。用户自行上传的素材也会在上传后记录到该文件中。
+- xxxx.captions.json 这类文件通常是AI生成的带人声的歌曲，或者使用 media-analyze 工具分析过的音频素材自动生成的字幕文件。你可以通过查找这个文件快速找到某个音频素材的字幕信息。
+## 关键能力
+你拥有并掌握以下能力：
+### 开启和关闭会话
+在具体执行中，你第一次接到用户需求后，需要开启新的会话，但**不必**每次单步执行后都关闭会话，只有你判断任务已经圆满完成或者用户明确让你关闭会话时，你才主动关闭会话。
+### 分镜构思
+- 如果用户和你讨论视频剧情，或者已经有明确的场景想法，你使用 `'get-storyboard-schema` 工具来获知如何创建故事板，然后用故事板来帮助用户构思视频分镜。
+- 在所有和剧情、设定有关的问题时，你都要先理解用户想法然后更新故事板，并与用户确认。
+- 尤其是在生成素材前，能更新故事板就及时更新，以免后续遗忘信息，造成不一致。
+### 素材生成
+一般来说影视素材包括图片、配音、视频和BGM等，你拥有一系列工具可以帮助用户来制作素材。
+#### 故事板优化工具
+  - `do-storyboard-optimization`：你可以用这个工具获取故事板优化规则和要领，帮助用户更加专业地设计分镜场景。
+#### 图片工具
+  - `generate-character-image`：你拥有根据用户描述生成人物角色三视图的能力，这对于视频创作保持人物一致性非常重要，你可以建议用户在创作连续场景时采用这个工具生成角色三视图。
+  - `generate-line-sketch`： 你拥有根据用户描述生成主体或环境线稿的能力，这对于AI视频分镜场景创作十分重要，尤其是对场景一致性要求很高的场合，主体线稿能够确保多主体的站位、姿势或者关键内容一致，而背景线稿能保证场景关键元素的一致。你可以在处理用户诉求时推荐用户使用线稿工具。
+  - `generate-image`: 通用图片生成工具，你可以根据用户描述生成任意图片，而且可以使用多张参考图（支持主体角色、主体物品和背景），这在创作场景中非常有用。
+  - `edit-image`：图片局部编辑工具，你可以根据用户描述局部编辑已有的图片。
+  - `image-aligner`：图片优化工具，你可以根据分析结果调整提示词，待用户确认后，修改story_board，重新生成图片。
+#### 配音工具和音频处理工具
+  - `search-voice`：你可以根据用户描述搜索并推荐合适的配音音色。
+  - `generate-scene-tts`：你可以根据用户描述生成场景的语音，你知晓何时该使用旁白，何时该使用人物对话。
+  - `generate-music`: 你可以使用这个工具让 AI 创作一首歌曲
+  - `generate-sound-effect`：你可以使用这个工具让 AI 创作音效
+#### 视频工具
+  - `generate-video`：你可以根据用户描述生成视频，这个工具主要用于根据首帧或首尾帧生成视频，连续性可通过一镜到底（连续镜头）保障。
+  - `generate-video-by-ref`：你可以根据用户描述和参考图生成视频，这个工具主要用于根据参考图生成视频，连续性可通过镜头自然延伸或`extend-video-duration`保障。
+  - `extend-video-duration`：你可以根据用户描述和已有的视频延长视频时长，这个工具主要用于在已有的视频基础上延长视频时长。
+#### 后期制作和视频处理工具
+  - `generate-music`：你可以用这个工具生成适合视频内容风格的BGM
+  - `lip-sync`：唇形同步工具，你可以使用这个工具为人物对口型
+  - `get-video-project-schema`：你执行这个工具获取视频剪辑合成的JSON格式规范，用该规范创建 draft_content.json 文件，然后通过这个文件进行视频合成
+  - `compile-and-run`：你执行这个工具编译并运行 draft_content.json 文件，生成视频。
+  - `run-ffmpeg`：你可以使用这个工具执行任意ffmpeg命令，这在需要对视频进行更复杂处理时非常有用。
+#### 其他工具
+  - `media-analyzer`： 你可以使用这个工具分析视频、图片等素材，获取素材的元数据和内容信息，它支持分析图片、语音以及视频。
+  - `upload-custom-meterials`：你可以使用这个工具上传自定义素材，包括图片、视频、音频等，这些素材将被存储在materials/目录下，上传后，你可以使用操作素材的任意工具像处理AI生成的素材一样处理你的自定义素材，也可以在draft_content.json中引用这些素材。
+## 专业技能与术语
+- 你已熟知“首（尾）帧生视频”、“参考图生视频”、“一镜到底（连续镜头）”、“镜头自然延伸”等视频创建概念和技巧。
+- 你知晓并能运用基础镜头语言来创作视频，包括推进、拉远、变焦推进、变焦拉远、左摇、右摇、上摇、下摇、左移、右移、上升、下降、跟随、晃动、固定、穿过等镜头动作。
+- 你知晓美学风格，包括传统美学、现代美学、抽象美学等，能够根据用户需求选择合适的美学风格。
+## 镜头知识
+### 基础镜头语言
+镜头语言包括以下这些类型，可组合使用：
+* 推进、拉远
+  - 摄像机水平向前或向后移动，适合突出商品细节或展示整体场景
+* 变焦推进，变焦拉远
+  - 呈现为画面等比例放大或缩小，常用于商品特写展示
+* 左摇、右摇
+  - 摄相机本身位置不变，拍摄角度水平向左或向右转动，适合展示商品全貌
+* 上摇、下摇
+  - 摄相机本身位置不变，拍摄角度垂直向上或向下转动
+* 左移、右移
+  - 摄相机向左或向右移动拍摄，适合展示商品的不同侧面
+* 上升、下降
+  - 摄像机垂直上升或下降拍摄，创造视觉冲击力
+* 跟随
+  - 摄像机捕捉某一对象的动作进行运动，跟随对象在画面中位置基本稳定，适合展示商品使用过程
+* 晃动
+  - 摄像机不规则运动或抖动，可以伴随其他运动同时发生，用以营造激烈氛围
+* 固定
+  - 摄像机固定不动，适合稳定展示商品特性
+* 穿过
+  - 摄像机镜头向前推，穿过前景主体，创造层次感
+## 美学词典
+可选择的画面美学专业词汇：
+### 风格响应
+古早风 | 民国 | 虚幻引擎5 | 克苏鲁 | 新艺术 | 城市摄影 | 纪实摄影 | 轻胶感 | 野生动物摄影 | 构成主义 | 抽象主义 | 电影质感 | 定格动画
+### 美学风格
+暖色调 | 过度曝光 | 侧光 | 侧逆光 | backlighting | 暖光源 | top lighting | 窗光 | soft lighting | 发丝光 | self-illumination | 火光 | 底光 | 轮廓光 | stage lighting | 高饱和 | high-angle shot | 丁达尔光 | 近景 | 中景 | 远景 | 深景深 | full body shot | 动态模糊 | 浅景深 | 斜侧视角 | 正面光 | back view | 侧面视角 | 四分之三视角 | 极端特写 | 特写 | 鸟瞰 | enclosed composition | 居中构图 | 冷光源 | 弱光 | 冷色调 | 低角度视角 | 强光 | 双性照明 | dark-toned | 低对比度 | 亮调 | 低饱和 | high-contrast | 硬光 | 闪光灯
+### 摄影
+古风摄影 | CCD | 柯达拍摄 | 胶片 | 人文摄影 | 户外摄影 | 富士拍摄 | 单色摄影 | 小清新 | 写真摄影 | fashion photograph | 街头摄影 | 老照片 | 汽车摄影 | 夜景摄影 | 风景摄影
+### 潮流
+Riso | 皮影 | 盲盒 | 故障风 | 分格漫画 | Q版 | 美式复古 | BJD| 千禧 | 国风 | 魂系游戏 | 蒸汽朋克 | 波西米亚 | 黑暗恐怖 | 中世纪 | 超级英雄 | 蜡笔画 | 90年代游戏 | 港风 | 赛博朋克
+### 艺术
+山水画 | 皴法 | 花鸟画 | 仕女图 | 绢本画 | 工笔画 | 浮世绘 | 文艺复兴 | 巴洛克风格 | 新古典主义 | 古典主义 | 象征主义 | 洛可可风格 | 浮雕 | 大师素描 | 速写 | 雕塑 | 肖像画 | 印象派 | 拼贴艺术 | 大师版画 | 超写实主义 | 立体主义 | 孟菲斯
+### 材质
+sisal | 亚麻绳 | 灯芯绒 | 亚麻布 | wicker | 竹编 | 棉花 | 草编 | 牛仔布 |  沙子 | 毛绒 | 颗粒纹理 | 木头 | 植绒 | 羽毛 | 皮革 | velvet |  火山熔岩 | 树脂 | gel | 超轻粘土 | 粘土 | 泡沫 | felt | 磨砂 | 薄纱 | 海绵 | lace | 羊毛 | 塑料 | 石膏 | 大理石 | 陶瓷 | 亚克力 | 透明 | 玻璃 | 水泥 | 石头 | 砖块 | 混凝土 | 金属 | 沥青

package/dist/mcp/servers/prompts/rules/general-video.md CHANGED Viewed

@@ -14,7 +14,7 @@
   1) 配音 `generate-scene-tts`
   2) 图片 `generate-image` + 视频 `generate-video`
     或 `generate-video-by-ref` 参考图生视频
-  3) 背景音乐 `generate-bgm`
+  3) 背景音乐 `generate-music`
 6. 技术规范 → 调用`get-video-project-schema`获取最新规范 → 根据规范创建 draft_content.json
 7. 执行渲染 → `compile-and-run` 输出成品并自动下载到本地
 8. 关闭项目 → `zerocut-project-close`
@@ -51,7 +51,7 @@
   * 方式二（story_board 的当前 scene 设置 video_type: references）：
    1) `generate-scene-tts`生成配音(确定时长：接口返回数据中durationMs为配音时长)
    2) `generate-video-by-ref`参考图生视频
-5. `generate-bgm`生成背景音乐
+5. `generate-music`生成背景音乐
 6. 创建`draft_content.json`：
    - ⚠️ 必须包含完整的VideoProject结构
    - 除非用户明确拒绝，否则`draft_content.json`中必须包含字幕：

package/dist/mcp/servers/prompts/rules/music-video.md CHANGED Viewed

@@ -7,7 +7,7 @@
 1. 确保项目已启动 → `zerocut-project-open`
 2. 资料收集（可选）→ 使用搜索工具收集相关资料
 3. 音乐创作 → 根据主题构思音乐氛围 → 创作歌词 lyrics.txt
-4. 音乐生成 → 根据 lyrics.txt 调用 `generate-song` → 获得歌曲和 captions
+4. 音乐生成 → 根据 lyrics.txt 调用 `generate-music` → 获得歌曲和 captions
 5. 分析歌曲 → 创建 timeline_analysis.json 得到 captions 的时间线
 6. 设计分镜场景 → `get-storyboard-schema` 获取分镜场景规范 → 创建初始 story_board.json
 7. 主要角色形象塑造 → `generate-character-image` → 生成主要角色形象参考图（三视图）

package/dist/mcp/servers/prompts/rules/professional.md CHANGED Viewed

@@ -152,7 +152,7 @@
   **Action**
   1) 与用户确认提示词是否符合需求
   2) 根据视频总时长确定BGM时长
-  3) 根据 story_board.json 使用 `generate-bgm` 等工具生成并保存BGM
+  3) 根据 story_board.json 使用 `generate-music` 等工具生成并保存BGM
   **Feedback**
   1) Review materials 目录下的文件，确保生成成功。

package/dist/mcp/servers/prompts/rules/stage-play.md CHANGED Viewed

@@ -6,7 +6,7 @@
 1. 确保项目已启动 → `zerocut-project-open`
 2. 音乐剧创作 → 根据主题构思音乐氛围 → 创作歌词 lyrics.txt
-3. 音乐生成 → 根据 lyrics.txt 调用 `generate-song` → 获得歌曲和 captions
+3. 音乐生成 → 根据 lyrics.txt 调用 `generate-music` → 获得歌曲和 captions
 4. 分析歌曲 → 创建 timeline_analysis.json 得到 captions 的时间线
 5. 设计分镜场景 → `get-storyboard-schema` 获取分镜场景规范 → 创建初始 story_board.json
 6. 角色形象塑造 → `generate-character-image` → 生成角色形象参考图（三视图）

package/dist/mcp/servers/prompts/rules/story-telling.md CHANGED Viewed

@@ -25,13 +25,13 @@
     * 分组场景图片 `generate-image-serials` （一次性生成所有分镜图片）
     * 配音 `generate-scene-tts` （⚠️ 务必严格采用story_board中场景的script或dialog作为配音输入文本）
     * 视频 `generate-video`
-    * 背景音乐 `generate-bgm`
+    * 背景音乐 `generate-music`
    **模式二：角色三视图生成**
     * 角色三视图 `generate-character-image` （为主要角色生成三视图）
     * 分镜图片 `generate-image` （依次生成各分镜图片，使用角色三视图作为参考）
     * 配音 `generate-scene-tts` （⚠️ 务必严格采用story_board中场景的script或dialog作为配音输入文本）
     * 视频 `generate-video`
-    * 背景音乐 `generate-bgm`
+    * 背景音乐 `generate-music`
 10. 技术规范 → 调用`get-video-project-schema`获取最新规范 → 根据规范创建 draft_content.json
 11. 执行渲染 → `compile-and-run` 输出成品并自动下载到本地
 12. 关闭项目 → `zerocut-project-close`
@@ -55,7 +55,7 @@
 - **配音同步:** 确保 `generate-scene-tts` 的输入文本与 story_board 中的 script 或 dialog 完全一致
 - **时长规范:** 视频时长必须为整秒数，配音、音效等可以精确到毫秒，如有对应配音，默认视频时长为 ceil(配音时长) 秒数
 - **内容一致性:** story_board 文案 script 和配音内容必须严格一致，如生成配音时修改了文案，必须及时更新 story_board
-- **音画协调:** 背景音乐 `generate-bgm` 必须与故事情感基调和节奏相匹配
+- **音画协调:** 背景音乐 `generate-music` 必须与故事情感基调和节奏相匹配
 ## 专业技巧

package/dist/mcp/servers/prompts/zerocut-core.md CHANGED Viewed

@@ -273,8 +273,9 @@ projects/<id>/
 ## 技巧及术语
-0. 专家模式
+0. 专家模式和自由创作模式
   - 若用户**明确指定**使用专家模式，召回规则上下文时须使用 purpose: professional，否则**不得使用**该模式
+  - 若用户**明确指定**使用自由创作模式，召回规则上下文时须使用 purpose: freeform，否则**不得使用**该模式
 1. 生成视频的几种方式
   - 首帧图生视频（默认采用）：先根据 start_frame 生成首帧图片如 sc01_start.png，然后用该图片作为视频的第一帧，以 video_prompt 的提示词用 `generate-image` 生成视频
@@ -286,9 +287,7 @@ projects/<id>/
 3. 镜头自然延伸：和“一镜到底”不同的连续画面技术，当用户说“镜头自然延伸”时，应当在生成视频时，设置saveLastFrameAs参数，将其返回的图片作为下一场景的首帧图片。
-4. 手工修改草稿：在 draft_content 生成后，如果用户要求自行修改草稿，可运行 `custom-edit-draft` 工具（本地工具，不需要先启动会话），启动服务让用户自行修改草稿。
-5. 优化图片：当用户或工作流程要求优化图片时，可运行 `image-aligner` 工具，根据分析结果调整提示词，待用户确认后，修改story_board，重新生成图片。
+4. 优化图片：当用户或工作流程要求优化图片时，可运行 `image-aligner` 工具，根据分析结果调整提示词，待用户确认后，修改story_board，重新生成图片。
 ## 工具优先级

package/dist/mcp/servers/zerocut.d.ts.map CHANGED Viewed

	@@ -1 +1 @@
1	- {"version":3,"file":"zerocut.d.ts","sourceRoot":"","sources":["../../../src/mcp/servers/zerocut.ts"],"names":[],"mappings":";~~AAwkLA~~,wBAAsB,GAAG,kBAKxB"}
1	+ {"version":3,"file":"zerocut.d.ts","sourceRoot":"","sources":["../../../src/mcp/servers/zerocut.ts"],"names":[],"mappings":";AAy2KA,wBAAsB,GAAG,kBAKxB"}

package/dist/mcp/servers/zerocut.js CHANGED Viewed

@@ -447,6 +447,7 @@ server.registerTool('retrieve-rules-context', {
             'story-telling',
             'creative-ad',
             'professional',
+            'freeform',
             'custom',
         ])
             .default('general-video')
@@ -476,7 +477,8 @@ server.registerTool('retrieve-rules-context', {
             purpose !== 'anime-series' &&
             purpose !== 'story-telling' &&
             purpose !== 'creative-ad' &&
-            purpose !== 'professional') {
+            purpose !== 'professional' &&
+            purpose !== 'freeform') {
             return createErrorResponse(`Project rules file not found: ${projectRulesFile}`, 'retrieve-rules-context');
         }
     }
@@ -2301,135 +2303,45 @@ server.registerTool('generate-sound-effect', {
         return createErrorResponse(error, 'generate-sound-effect');
     }
 });
-server.registerTool('generate-song', {
-    title: 'Generate Song',
-    description: 'Generate a song with vocals and customizable parameters.',
+server.registerTool('generate-music', {
+    title: 'Generate Music',
+    description: 'Generate the music. Include background music or song.',
     inputSchema: {
+        prompt: zod_1.z.string().describe('The prompt to generate.'),
         type: zod_1.z
+            .enum(['bgm', 'song'])
+            .describe('The type of music. Defaults to background music.')
+            .default('bgm'),
+        model: zod_1.z
             .enum(['doubao', 'minimax'])
-            .default('doubao')
-            .describe('The model type of AI to use.'),
-        lyrics: zod_1.z.string().describe(`The lyrics to generate the song.
-- 完整歌词通常包括以下桥段：
-  - 前奏: intro，歌曲开始的音乐部分，主要用于引导歌曲的整体氛围。
-  - 主歌: verse，通常在前奏之后，歌曲中叙述歌曲故事或主题的部分。
-  - 副歌: chorus，一般在主歌之后，旋律有记忆点和感染力，是整首歌的高潮，进一步强化歌曲的主题和情感。
-  - 间奏: inst，歌曲中的纯音乐段落，用于连接不同的演唱部分。
-  - 尾奏: outro，歌曲结束后的音乐段落，用于营造歌曲结束的氛围。
-  - 桥段: bridge，通常出现在歌曲中段或接近结尾处，是一个过渡部分，用于连接不同的歌曲段落。
-### 歌词示例 lyrics.txt
-\`\`\`txt
-[intro]
-[verse]
-记得那一天 那一天我们相恋
-说好彼此都不说再见
-遵守诺言 用心去相恋
-我为你撑伞 你为我取暖
-[inst]
-[chorus]
-当我把心交给你的那一天
-你却消失在我的眼前
-事到如今已经过了好多年
-是否你还像从前
-[outro]
-\`\`\`
-`),
+            .optional()
+            .describe('The model to use. Defaults to doubao.')
+            .default('doubao'),
         duration: zod_1.z
             .number()
             .min(30)
             .max(240)
-            .describe('The duration of the song in seconds (30-240).'),
-        genre: zod_1.z
-            .enum([
-            'Folk',
-            'Pop',
-            'Rock',
-            'Chinese Style',
-            'Hip Hop/Rap',
-            'R&B/Soul',
-            'Punk',
-            'Electronic',
-            'Jazz',
-            'Reggae',
-            'DJ',
-            'Pop Punk',
-            'Disco',
-            'Future Bass',
-            'Pop Rap',
-            'Trap Rap',
-            'R&B Rap',
-            'Chinoiserie Electronic',
-            'GuFeng Music',
-            'Pop Rock',
-            'Jazz Pop',
-            'Bossa Nova',
-            'Contemporary R&B',
-        ])
-            .optional()
-            .describe('The genre of the song.'),
-        mood: zod_1.z
-            .enum([
-            'Happy',
-            'Dynamic/Energetic',
-            'Sentimental/Melancholic/Lonely',
-            'Inspirational/Hopeful',
-            'Nostalgic/Memory',
-            'Excited',
-            'Sorrow/Sad',
-            'Chill',
-            'Relaxing',
-            'Romantic',
-            'Miss',
-            'Groovy/Funky',
-            'Dreamy/Ethereal',
-            'Calm/Relaxing',
-        ])
-            .optional()
-            .describe('The mood of the song.'),
-        gender: zod_1.z
-            .enum(['Female', 'Male'])
-            .optional()
-            .describe('The gender of the vocalist.'),
-        timbre: zod_1.z
-            .enum([
-            'Warm',
-            'Bright',
-            'Husky',
-            'Electrified voice',
-            'Sweet_AUDIO_TIMBRE',
-            'Cute_AUDIO_TIMBRE',
-            'Loud and sonorous',
-            'Powerful',
-            'Sexy/Lazy',
-        ])
-            .optional()
-            .describe('The timbre/voice quality of the vocalist.'),
+            .describe('The duration of the bgm or music.'),
         skipCopyCheck: zod_1.z
             .boolean()
-            .optional()
             .default(false)
             .describe('Whether to skip copyright check.'),
         saveToFileName: zod_1.z.string().describe('The filename to save.'),
     },
-}, async ({ type = 'doubao', lyrics, duration, genre, mood, gender, timbre, skipCopyCheck, saveToFileName, }, context) => {
+}, async ({ prompt, type, model, duration, skipCopyCheck, saveToFileName }, context) => {
     try {
         // 验证session状态
-        const currentSession = await validateSession('generate-song');
+        const currentSession = await validateSession('generate-music');
         const validatedFileName = validateFileName(saveToFileName);
-        console.log(`Generating Song with lyrics: ${lyrics.substring(0, 100)}... (${duration}s, genre: ${genre || 'auto'}, mood: ${mood || 'auto'})`);
+        console.log(`Generating Music with prompt: ${prompt.substring(0, 100)}... (${duration}s)`);
         const ai = currentSession.ai;
         let progress = 0;
-        const res = await ai.generateSong({
-            type,
-            lyrics: lyrics.trim(),
-            duration,
-            genre,
-            mood,
-            gender,
-            timbre,
+        if (type === 'bgm' && duration > 120) {
+            throw new Error('BGM duration must be at most 120 seconds.');
+        }
+        const finalPrompt = `${prompt.trim()} ${type === 'bgm' ? `纯音乐无歌词，时长${duration}秒` : `时长${duration}秒，使用${model}模型`}`;
+        const res = await ai.generateMusic({
+            prompt: finalPrompt,
             skipCopyCheck,
             onProgress: async (metaData) => {
                 try {
@@ -2441,18 +2353,12 @@ server.registerTool('generate-song', {
             },
         });
         if (!res) {
-            throw new Error('Failed to generate Song: no response from AI service');
+            throw new Error('Failed to generate BGM: no response from AI service');
         }
         if (res.url) {
-            console.log('Song generated successfully, saving to materials...');
+            console.log('BGM generated successfully, saving to materials...');
             const uri = await saveMaterial(currentSession, res.url, validatedFileName);
-            if (!res.captions) {
-                // 歌词获取失败，获取字幕
-                res.captions = await ai.voiceToCaptions({
-                    url: res.url,
-                });
-            }
-            const { url, duration: songDuration, captions, ...opts } = res;
+            const { url, duration: bgmDuration, captions, ...opts } = res;
             // 保存captions到本地
             if (captions) {
                 const captionsText = JSON.stringify(captions, null, 2);
@@ -2461,103 +2367,13 @@ server.registerTool('generate-song', {
                 // 保存到本地
                 await (0, promises_1.writeFile)(localPath, captionsText);
             }
-            const result = {
-                success: true,
-                // source: url,
-                uri,
-                durationMs: Math.floor((songDuration || duration) * 1000),
-                lyrics,
-                requestedDuration: duration,
-                genre,
-                mood,
-                gender,
-                timbre,
-                captions,
-                timestamp: new Date().toISOString(),
-                ...opts,
-            };
-            // Update media_logs.json
-            try {
-                await updateMediaLogs(currentSession, validatedFileName, result, 'audio');
-            }
-            catch (error) {
-                console.warn(`Failed to update media_logs.json for ${validatedFileName}:`, error);
-            }
-            return {
-                content: [
-                    {
-                        type: 'text',
-                        text: JSON.stringify(result),
-                    },
-                ],
-            };
-        }
-        else {
-            console.warn('Song generation completed but no URL returned');
-            return {
-                content: [
-                    {
-                        type: 'text',
-                        text: JSON.stringify({
-                            success: false,
-                            error: 'No Song URL returned from AI service',
-                            response: res,
-                            timestamp: new Date().toISOString(),
-                        }),
-                    },
-                ],
-            };
-        }
-    }
-    catch (error) {
-        return createErrorResponse(error, 'generate-song');
-    }
-});
-server.registerTool('generate-bgm', {
-    title: 'Generate BGM',
-    description: 'Generate the bgm.',
-    inputSchema: {
-        prompt: zod_1.z.string().describe('The prompt to generate.'),
-        duration: zod_1.z
-            .number()
-            .min(30)
-            .max(120)
-            .describe('The duration of the bgm.'),
-        saveToFileName: zod_1.z.string().describe('The filename to save.'),
-    },
-}, async ({ prompt, duration, saveToFileName }, context) => {
-    try {
-        // 验证session状态
-        const currentSession = await validateSession('generate-bgm');
-        const validatedFileName = validateFileName(saveToFileName);
-        console.log(`Generating BGM with prompt: ${prompt.substring(0, 100)}... (${duration}s)`);
-        const ai = currentSession.ai;
-        let progress = 0;
-        const res = await ai.generateBGM({
-            prompt: prompt.trim(),
-            duration,
-            onProgress: async (metaData) => {
-                try {
-                    await sendProgress(context, metaData.Result?.Progress ?? ++progress, metaData.Result?.Progress ? 100 : undefined, JSON.stringify(metaData));
-                }
-                catch (progressError) {
-                    console.warn('Failed to send progress update:', progressError);
-                }
-            },
-        });
-        if (!res) {
-            throw new Error('Failed to generate BGM: no response from AI service');
-        }
-        if (res.url) {
-            console.log('BGM generated successfully, saving to materials...');
-            const uri = await saveMaterial(currentSession, res.url, validatedFileName);
-            const { url, duration: bgmDuration, ...opts } = res;
             const result = {
                 success: true,
                 // source: url,
                 uri,
                 durationMs: Math.floor((bgmDuration || duration) * 1000),
                 prompt,
+                captions,
                 requestedDuration: duration,
                 timestamp: new Date().toISOString(),
                 ...opts,