@optima-chat/optima-agent 0.8.34 → 0.8.36

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
@@ -3,85 +3,85 @@ name: browser
3
3
  description: "Browser automation for web interactions. Use when user needs to open/navigate to websites, login to platforms, fill forms, post content, test websites, or operate on third-party platforms without APIs. Uses 'browser-cli' commands. Do NOT use for simple web scraping (use WebFetch) or tasks that have dedicated skills (e.g. scout, tiktok, instagram, shein, etc.)."
4
4
  ---
5
5
 
6
- # Browser Automation Skill
6
+ # 浏览器自动化 Skill
7
7
 
8
- ## When to Use
8
+ ## 使用场景
9
9
 
10
- - User asks to open a website or navigate to a URL (e.g. "打开 github", "open youtube")
11
- - User asks to login to a platform, fill a form, or post content
12
- - User needs to test website functionality
13
- - User needs to operate on third-party platforms without APIs
14
- - User asks to automate browser interactions
10
+ - 用户要求打开网站或访问某个 URL(如"打开 github""open youtube"
11
+ - 用户要求登录平台、填写表单或发布内容
12
+ - 用户需要测试网站功能
13
+ - 用户需要操作没有 API 的第三方平台
14
+ - 用户要求自动化浏览器交互
15
15
 
16
- **Do NOT use for:**
17
- - Simple web scraping use WebFetch
18
- - Tasks that have dedicated skills (e.g. scout, tiktok, instagram, shein, etc.)
16
+ **不适用场景:**
17
+ - 简单网页抓取使用 WebFetch
18
+ - 已有专用 skill 的任务(如 scouttiktokinstagramshein 等)
19
19
 
20
- ## Commands
20
+ ## 命令
21
21
 
22
22
  ```bash
23
- # Session management
24
- browser-cli launch [--url <url>] [--force] # Launch browser (--force closes existing session first)
25
- browser-cli close # Close browser and release resources
26
- browser-cli status # Check current session status
27
-
28
- # Navigation
29
- browser-cli navigate <url> # Navigate to URL
30
- browser-cli back # Go back
31
- browser-cli refresh # Refresh page
32
-
33
- # Interaction
34
- browser-cli click <index> # Click element by index
35
- browser-cli input <index> <text> [--no-clear] # Input text (--no-clear to append instead of replace)
36
- browser-cli select <index> <option> # Select dropdown option
37
- browser-cli scroll <up|down> [--pages <n>] # Scroll page (default 1 page)
38
- browser-cli keys <key> # Keyboard action (Enter, Tab, etc.)
39
-
40
- # Page inspection
41
- browser-cli dom # Get current DOM state
42
- browser-cli screenshot [file] # Take screenshot (default: /tmp/screenshot.png)
43
- browser-cli search <pattern> # Search text in page
44
- browser-cli find <css_selector> # Query by CSS selector
45
-
46
- # Tab management
47
- browser-cli tabs # List open tabs
48
- browser-cli switch <tab_id> # Switch to tab
49
- browser-cli close-tab <tab_id> # Close tab
23
+ # 会话管理
24
+ browser-cli launch [--url <url>] [--force] # 启动浏览器(--force 先关闭已有会话)
25
+ browser-cli close # 关闭浏览器并释放资源
26
+ browser-cli status # 查看当前会话状态
27
+
28
+ # 导航
29
+ browser-cli navigate <url> # 跳转到 URL
30
+ browser-cli back # 后退
31
+ browser-cli refresh # 刷新页面
32
+
33
+ # 交互
34
+ browser-cli click <index> # 按索引点击元素
35
+ browser-cli input <index> <text> [--no-clear] # 输入文本(--no-clear 追加而非替换)
36
+ browser-cli select <index> <option> # 选择下拉选项
37
+ browser-cli scroll <up|down> [--pages <n>] # 滚动页面(默认 1 页)
38
+ browser-cli keys <key> # 键盘操作(EnterTab 等)
39
+
40
+ # 页面检查
41
+ browser-cli dom # 获取当前 DOM 状态
42
+ browser-cli screenshot [file] # 截图(默认:/tmp/screenshot.png
43
+ browser-cli search <pattern> # 搜索页面文本
44
+ browser-cli find <css_selector> # 通过 CSS 选择器查询
45
+
46
+ # 标签页管理
47
+ browser-cli tabs # 列出所有标签页
48
+ browser-cli switch <tab_id> # 切换标签页
49
+ browser-cli close-tab <tab_id> # 关闭标签页
50
50
  ```
51
51
 
52
- ## DOM Index Format
52
+ ## DOM 索引格式
53
53
 
54
- Every operation returns the current DOM state in this format:
54
+ 每个操作都会返回当前 DOM 状态,格式如下:
55
55
 
56
56
  ```
57
57
  [N]<tag attributes />
58
58
  content
59
59
  ```
60
60
 
61
- - Index numbers (N) are **not consecutive** (e.g., [7], [20], [30]) — this is normal
62
- - Indexes are **reassigned after every operation** always use the latest indexes
63
- - Use these indexes for `click`, `input`, and `select` commands
61
+ - 索引号 (N) **不连续**(如 [7][20][30])— 这是正常的
62
+ - 每次操作后索引会**重新分配**务必使用最新的索引
63
+ - 使用这些索引来执行 `click`、`input` `select` 命令
64
64
 
65
- ## Important Notes
65
+ ## 注意事项
66
66
 
67
- - **DOM auto-returned**: Every operation returns DOM state automatically no need to call `browser-cli dom` separately
68
- - **Avoid unnecessary screenshots**: Screenshots consume tokens; use DOM output for routine navigation
69
- - **5-minute timeout**: Sessions auto-close after 5 minutes of inactivity
70
- - **Login prompts**: When encountering login pages, ask the user for credentials or verification codes
71
- - **Always close**: Run `browser-cli close` when done to release resources
67
+ - **DOM 自动返回**:每个操作会自动返回 DOM 状态无需单独调用 `browser-cli dom`
68
+ - **避免不必要的截图**:截图消耗 token,日常导航用 DOM 输出即可
69
+ - **5 分钟超时**:无操作 5 分钟后会话自动关闭
70
+ - **登录提示**:遇到登录页面时,向用户询问账号密码或验证码
71
+ - **务必关闭**:操作完成后运行 `browser-cli close` 释放资源
72
72
 
73
- ## Workflow Example
73
+ ## 基本操作示例
74
74
 
75
75
  ```bash
76
- # 1. Launch browser and navigate
76
+ # 1. 启动浏览器并导航
77
77
  browser-cli launch --url "https://example.com"
78
78
 
79
- # 2. Interact based on DOM indexes
80
- browser-cli click 15 # Click a button
81
- browser-cli input 22 "hello" # Type into a field
82
- browser-cli keys Enter # Press Enter
79
+ # 2. 根据 DOM 索引进行交互
80
+ browser-cli click 15 # 点击按钮
81
+ browser-cli input 22 "hello" # 输入文本
82
+ browser-cli keys Enter # 按回车
83
83
 
84
- # 3. Close when done
84
+ # 3. 完成后关闭
85
85
  browser-cli close
86
86
  ```
87
87
 
@@ -1,6 +1,6 @@
1
1
  ---
2
2
  name: comfy
3
- description: "生成和编辑图片/视频/语音。使用场景:生成图片(generate images/生成图片/画图)、编辑图片(edit images/编辑图片/图生图/风格转换)、生成视频(create videos/图生视频)、文本转语音(TTS/语音合成/朗读)、语音识别(ASR/语音转文字/转录)。"
3
+ description: "生成和编辑图片/视频/语音/虚拟试穿。使用场景:生成图片(generate images/生成图片/画图)、编辑图片(edit images/编辑图片/图生图/风格转换)、生成视频(create videos/图生视频)、文本转语音(TTS/语音合成/朗读)、语音识别(ASR/语音转文字/转录)、虚拟试穿(virtual try-on/试穿/换装/试衣)。"
4
4
  ---
5
5
 
6
6
  # 图像视频生成工具
@@ -202,7 +202,55 @@ Read /home/aiuser/project/result.mp4
202
202
 
203
203
  - 输入图片:360-2000px,≤10MB,推荐 1080P 比例
204
204
  - 输出规格:30fps,MP4 (H.264)
205
- - 必须用 `-o` 指定输出路径
205
+ - 可用 `-o` 指定输出路径,默认保存到 `./comfy-output/`
206
+
207
+ ## 虚拟试穿 (Virtual Try-On)
208
+
209
+ 使用 FASHN AI tryon-v1.6 将服装穿到人物照片上。
210
+
211
+ ```bash
212
+ comfy tryon <人物照片> <服装照片> [options]
213
+ ```
214
+
215
+ ### 参数
216
+
217
+ | 参数 | 说明 | 默认值 |
218
+ |------|------|--------|
219
+ | `-o, --output <path>` | 输出文件路径 | `./comfy-output/tryon_{timestamp}.png` |
220
+ | `-c, --category <type>` | 服装类别:auto \| tops \| bottoms \| one-pieces | auto |
221
+ | `-m, --mode <mode>` | 生成模式:performance \| balanced \| quality | quality |
222
+ | `--garment-type <type>` | 服装照片类型:auto \| flat-lay \| model | auto |
223
+ | `-n, --num-samples <n>` | 生成数量 (1-4) | 1 |
224
+ | `--format <fmt>` | 输出格式:png \| jpeg | png |
225
+ | `--seed <n>` | 随机种子(可复现) | - |
226
+
227
+ ### 示例
228
+
229
+ ```bash
230
+ # 基本用法 - 本地图片试穿
231
+ comfy tryon person.jpg garment.jpg -o /home/aiuser/project/result.png
232
+ Read /home/aiuser/project/result.png
233
+
234
+ # 使用 URL 图片
235
+ comfy tryon https://example.com/model.jpg https://example.com/dress.jpg -o /home/aiuser/project/result.png
236
+
237
+ # 指定服装类别和快速模式
238
+ comfy tryon person.jpg top.jpg -c tops -m performance -o /home/aiuser/project/result.png
239
+
240
+ # 生成多张结果
241
+ comfy tryon person.jpg dress.jpg -n 4 -c one-pieces -o /home/aiuser/project/result.png
242
+
243
+ # 使用种子复现结果
244
+ comfy tryon person.jpg garment.jpg --seed 42 -o /home/aiuser/project/result.png
245
+ ```
246
+
247
+ ### 注意事项
248
+
249
+ - 支持本地图片路径和 URL
250
+ - 服装类别:auto (自动检测), tops (上装), bottoms (下装), one-pieces (连体)
251
+ - 三种模式价格相同(1 credit/张),quality 效果最好
252
+ - 推荐图片高度不超过 2000px,比例 2:3,JPEG 95% 质量
253
+ - 可用 `-o` 指定输出路径,默认保存到 `./comfy-output/`
206
254
 
207
255
  ## 语音合成 (TTS)
208
256
 
@@ -243,7 +291,7 @@ comfy tts "测试语音" --play -o /home/aiuser/project/test.wav
243
291
 
244
292
  - 输出格式为 WAV
245
293
  - 支持中、英、日、韩、法、德等 10 种语言(自动检测)
246
- - 必须用 `-o` 指定输出路径
294
+ - 可用 `-o` 指定输出路径,默认保存到 `./comfy-output/`
247
295
 
248
296
  ## 语音识别 (ASR)
249
297
 
package/README.md CHANGED
@@ -45,13 +45,20 @@ optima -p "查看商品列表"
45
45
  - **商品管理** - 创建、编辑、查询商品
46
46
  - **订单处理** - 发货、退款、订单查询
47
47
  - **库存管理** - 监控库存、调整数量
48
+ - **运费与物流** - 运费配置、运单查询、物流追踪
48
49
  - **国际化** - 多语言翻译管理
49
50
  - **店铺配置** - 首页、集合、商品详情页
50
- - **图像/视频** - AI 生成产品图片和视频
51
+ - **图像/视频/语音** - AI 生成产品图片、视频、TTS/ASR
52
+ - **音视频处理** - 视频合成、压缩、裁切、格式转换
53
+ - **浏览器自动化** - 网页操作、Workflow 录制与回放
51
54
  - **广告投放** - Google Ads 管理
52
- - **选品调研** - Amazon 产品分析
55
+ - **选品调研** - Amazon 产品分析、1688 供应商sourcing
56
+ - **竞品研究** - Shein、TikTok Shop 产品搜索
57
+ - **网红营销** - TikTok/Instagram 达人发现与分析
53
58
  - **数据分析** - 销售数据和趋势
54
- - **评价管理** - 审核、回复、精选评价
59
+ - **评价管理** - 审核、回复、AI 生成评价
60
+ - **自动化监控** - 定时规则、巡检、审批
61
+ - **Shopify 集成** - 店铺连接、商品/订单/库存同步
55
62
  - **交互式问答** - 执行任务时向用户提问(架构选择、方案确认等)
56
63
 
57
64
  ### 执行模式
@@ -69,17 +76,27 @@ optima -p "查看商品列表"
69
76
  |-------|------|
70
77
  | merchant | 店铺信息管理 |
71
78
  | product | 商品管理 |
72
- | order | 订单处理 |
73
- | inventory | 库存管理 |
79
+ | order | 订单处理与发货 |
80
+ | inventory | 库存管理与监控 |
81
+ | shipping | 运费配置与管理 |
82
+ | logistics | 物流运单与追踪 |
74
83
  | i18n | 国际化翻译 |
75
84
  | collection | 商品集合管理 |
76
85
  | homepage | 店铺首页配置 |
77
86
  | product-page | 商品详情页配置 |
78
- | comfy | 图像/视频生成 |
79
- | ads | Google Ads 广告 |
80
- | scout | Amazon 选品调研 |
81
- | bi | 数据分析 |
82
- | review | 评价管理 |
87
+ | review | 评价管理与 AI 生成 |
88
+ | comfy | 图像/视频/语音生成(TTS/ASR) |
89
+ | ffmpeg | 音视频处理(合成、压缩、裁切) |
90
+ | browser | 浏览器自动化与 Workflow 录制回放 |
91
+ | ads | Google Ads 广告投放 |
92
+ | scout | Amazon 选品与 1688 供应商sourcing |
93
+ | shein | Shein 产品搜索与快时尚调研 |
94
+ | tiktok | TikTok 网红营销与 Shop 产品研究 |
95
+ | instagram | Instagram 达人发现与内容分析 |
96
+ | shopify | Shopify 店铺集成与同步 |
97
+ | bi | 销售数据与趋势分析 |
98
+ | sentinel | 自动化监控规则与巡检 |
99
+ | markdown-pdf | Markdown 导出 PDF |
83
100
 
84
101
  ## 交互式问答 (AskUserQuestion)
85
102
 
@@ -218,7 +235,7 @@ agent.reset();
218
235
  │ │ │ │ │ │
219
236
  │ ▼ ▼ ▼ ▼ │
220
237
  │ Skills System Prompt Tools MCP Server │
221
- │ (10个) (引导逻辑) (Bash/Read..) (Memory) │
238
+ │ (23个) (引导逻辑) (Bash/Read..) (Memory) │
222
239
  └──────────────────────┬──────────────────────────────────────────┘
223
240
 
224
241
  ┌──────────────┼──────────────┐
@@ -236,7 +253,7 @@ agent.reset();
236
253
  - **核心**: Claude Agent SDK v0.1.55
237
254
  - **语言**: TypeScript
238
255
  - **UI**: 自定义终端渲染
239
- - **工具集成**: 5 个专业 CLI 工具
256
+ - **工具集成**: 10+ 专业 CLI 工具
240
257
 
241
258
  ## 开发
242
259
 
package/package.json CHANGED
@@ -1,6 +1,6 @@
1
1
  {
2
2
  "name": "@optima-chat/optima-agent",
3
- "version": "0.8.34",
3
+ "version": "0.8.36",
4
4
  "description": "基于 Claude Agent SDK 的电商运营 AI 助手",
5
5
  "type": "module",
6
6
  "main": "dist/src/index.js",