@jackwener/opencli 0.4.1 → 0.4.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
package/CLI-CREATOR.md CHANGED
@@ -18,66 +18,15 @@
18
18
 
19
19
  ### AI Agent 探索工作流(必须遵循)
20
20
 
21
- ```
22
- Step 0: 用 Playwright MCP 打开浏览器
23
-
24
- Step 1: 导航到目标页面,观察页面结构
25
-
26
- Step 2: 查看 Network 请求(browser_network_requests)
27
-
28
- Step 3: 模拟用户交互(点击按钮/标签/展开评论)
29
-
30
- Step 4: 再次查看 Network,发现新触发的 API
31
-
32
- Step 5: 分析 API 的请求参数、响应结构、鉴权方式
33
-
34
- Step 6: 编写适配器代码
35
- ```
36
-
37
- ### 具体操作步骤
38
-
39
- **Step 0: 打开浏览器**
40
- ```
41
- 工具: browser_navigate
42
- URL: https://www.bilibili.com/video/BV1xxxxx
43
- ```
44
-
45
- **Step 1: 获取页面快照,了解页面结构**
46
- ```
47
- 工具: browser_snapshot
48
- → 观察页面上有哪些可交互元素(按钮、标签、链接)
49
- ```
50
-
51
- **Step 2: 查看已有的网络请求**
52
- ```
53
- 工具: browser_network_requests
54
- → 筛选出 JSON API 端点(忽略静态资源)
55
- → 记录 URL pattern、请求头、响应结构
56
- ```
57
-
58
- **Step 3: 模拟用户交互发现深层 API**
59
- ```
60
- 工具: browser_click (点击"字幕"按钮、"评论"标签、"关注"链接等)
61
- 工具: browser_wait_for (等待数据加载)
62
- ```
63
-
64
- **Step 4: 再次抓包,发现新 API**
65
- ```
66
- 工具: browser_network_requests
67
- → 对比 Step 2,找出新触发的 API 端点
68
- ```
69
-
70
- **Step 5: 用 evaluate 测试 API 可行性**
71
- ```
72
- 工具: browser_evaluate
73
- 代码: async () => {
74
- const res = await fetch('https://api.bilibili.com/x/player/wbi/v2?bvid=BV1xxx&cid=123',
75
- { credentials: 'include' });
76
- return await res.json();
77
- }
78
- → 验证返回的数据结构和字段
79
- → 如果返回空/403:检查是否需要签名(Wbi)或特殊 Header
80
- ```
21
+ | 步骤 | 工具 | 做什么 |
22
+ |------|------|--------|
23
+ | 0. 打开浏览器 | `browser_navigate` | 导航到目标页面 |
24
+ | 1. 观察页面 | `browser_snapshot` | 观察可交互元素(按钮/标签/链接) |
25
+ | 2. 首次抓包 | `browser_network_requests` | 筛选 JSON API 端点,记录 URL pattern |
26
+ | 3. 模拟交互 | `browser_click` + `browser_wait_for` | 点击"字幕""评论""关注"等按钮 |
27
+ | 4. 二次抓包 | `browser_network_requests` | 对比步骤 2,找出新触发的 API |
28
+ | 5. 验证 API | `browser_evaluate` | `fetch(url, {credentials:'include'})` 测试返回结构 |
29
+ | 6. 写代码 | — | 基于确认的 API 写适配器 |
81
30
 
82
31
  ### 常犯错误
83
32
 
@@ -89,6 +38,27 @@ URL: https://www.bilibili.com/video/BV1xxxxx
89
38
  | 遇到 HTTP 200 但空数据就放弃 | 检查是否需要 Wbi 签名或 Cookie 鉴权 |
90
39
  | 完全依赖 `__INITIAL_STATE__` 拿所有数据 | `__INITIAL_STATE__` 只有首屏数据,深层数据要调 API |
91
40
 
41
+ ### ✅ 实战成功案例:5 分钟实现「关注列表」适配器
42
+
43
+ 以下是用上述工作流实际发现 Bilibili 关注列表 API 的完整过程:
44
+
45
+ ```
46
+ 1. browser_navigate → https://space.bilibili.com/{uid}/fans/follow
47
+ 2. browser_network_requests → 发现:
48
+ GET /x/relation/followings?vmid={uid}&pn=1&ps=24 → [200]
49
+ GET /x/relation/stat?vmid={uid} → [200]
50
+ 3. browser_evaluate → 验证 API:
51
+ fetch('/x/relation/followings?vmid=137702077&pn=1&ps=5', {credentials:'include'})
52
+ → { code: 0, data: { total: 1342, list: [{mid, uname, sign, ...}] } }
53
+ 4. 结论:标准 Cookie API,无需 Wbi 签名
54
+ 5. 写 following.ts → 一次构建通过 ✅
55
+ ```
56
+
57
+ **关键决策点**:
58
+ - 直接访问 `fans/follow` 页面(不是首页),页面加载就会触发 following API
59
+ - 看到 URL 里没有 `/wbi/` → 不需要签名 → 直接用 `fetchJson` 而非 `apiGet`
60
+ - API 返回 `code: 0` + 非空 `list` → Tier 2 Cookie 策略确认
61
+
92
62
  ---
93
63
 
94
64
  ## 核心流程
@@ -202,6 +172,45 @@ opencli cascade https://api.example.com/hot
202
172
 
203
173
  ---
204
174
 
175
+ ## Step 2.5: 准备工作(写代码之前)
176
+
177
+ ### 🎯 先找模板:从最相似的现有适配器开始
178
+
179
+ **不要从零开始写**。先看看同站点已有哪些适配器:
180
+
181
+ ```bash
182
+ ls src/clis/<site>/ # 看看已有什么
183
+ cat src/clis/<site>/feed.ts # 读最相似的那个
184
+ ```
185
+
186
+ 最高效的方式是 **复制最相似的适配器,然后改 3 个地方**:
187
+ 1. `name` → 新命令名
188
+ 2. API URL → 你在 Step 1 发现的端点
189
+ 3. 字段映射 → 对应新 API 的字段
190
+
191
+ ### 平台 SDK 速查表
192
+
193
+ 写 TS 适配器之前,先看看你的目标站点有没有**现成的 helper 函数**可以复用:
194
+
195
+ #### Bilibili (`src/bilibili.ts`)
196
+
197
+ | 函数 | 用途 | 何时使用 |
198
+ |------|------|----------|
199
+ | `fetchJson(page, url)` | 带 Cookie 的 fetch + JSON 解析 | 普通 Cookie-tier API |
200
+ | `apiGet(page, path, {signed, params})` | 带 Wbi 签名的 API 调用 | URL 含 `/wbi/` 的接口 |
201
+ | `getSelfUid(page)` | 获取当前登录用户的 UID | "我的xxx" 类命令 |
202
+ | `resolveUid(page, input)` | 解析用户输入的 UID(支持数字/URL) | `--uid` 参数处理 |
203
+ | `wbiSign(page, params)` | 底层 Wbi 签名生成 | 通常不直接用,`apiGet` 已封装 |
204
+ | `stripHtml(s)` | 去除 HTML 标签 | 清理富文本字段 |
205
+
206
+ **如何判断需不需要 `apiGet`**?看 Network 请求 URL:
207
+ - 含 `/wbi/` 或 `w_rid=` → 必须用 `apiGet(..., { signed: true })`
208
+ - 不含 → 直接用 `fetchJson`
209
+
210
+ > 💡 其他站点(Twitter、小红书等)暂无专用 SDK,直接用 `page.evaluate` + `fetch` 即可。
211
+
212
+ ---
213
+
205
214
  ## Step 3: 编写适配器
206
215
 
207
216
  ### YAML vs TS?先看决策树
@@ -224,6 +233,27 @@ opencli cascade https://api.example.com/hot
224
233
 
225
234
  > **经验法则**:如果你发现 YAML 里嵌了超过 10 行 JS,改用 TS 更可维护。
226
235
 
236
+ ### 通用模式:分页 API
237
+
238
+ 很多 API 使用 `pn`(页码)+ `ps`(每页数量)分页。标准处理模式:
239
+
240
+ ```typescript
241
+ args: [
242
+ { name: 'page', type: 'int', required: false, default: 1, help: '页码' },
243
+ { name: 'limit', type: 'int', required: false, default: 50, help: '每页数量 (最大 50)' },
244
+ ],
245
+ func: async (page, kwargs) => {
246
+ const pn = kwargs.page ?? 1;
247
+ const ps = Math.min(kwargs.limit ?? 50, 50); // 尊重 API 的 ps 上限
248
+ const payload = await fetchJson(page,
249
+ `https://api.example.com/list?pn=${pn}&ps=${ps}`
250
+ );
251
+ return payload.data?.list || [];
252
+ },
253
+ ```
254
+
255
+ > 💡 大多数站点的 `ps` 上限是 20~50。超过会被静默截断或返回错误。
256
+
227
257
  ### 方式 A: YAML Pipeline(声明式,推荐)
228
258
 
229
259
  文件路径: `src/clis/<site>/<name>.yaml`,放入即自动注册。
@@ -500,34 +530,7 @@ cli({
500
530
 
501
531
  > **拦截核心思路**:不自己构造签名,而是利用 `installInterceptor` 劫持网站自己的 `XMLHttpRequest` 和 `fetch`,让网站发请求,我们直接在底层取出解析好的 `response.json()`。
502
532
 
503
- #### 进阶场景 1: 级联请求 (Cascading Requests) 与鉴权绕过
504
-
505
- 部分 API 获取是非常复杂的连环请求(例如 B 站获取视频字幕:先需要 `bvid` 获取核心 `cid`,再通过 `cid` 获取包含签名/Wbi 的字幕列表拉取地址,最后 fetch 真实的 CDN 资源)。在此类场景中,你必须在一个 `evaluate` 块内部或者在 TypeScript Node 端编排整个请求链条:
506
-
507
- ```typescript
508
- // 真实场景:B站获取视频字幕的级联获取思路
509
- const subtitleUrls = await page.evaluate(async (bvid) => {
510
- // Step 1: 拿 CID (通常可以通过页面全局状态极速提取)
511
- const cid = window.__INITIAL_STATE__?.videoData?.cid;
512
-
513
- // Step 2: 依据 BVID 和 CID 拿字幕配置 (可能需要携带 W_RID 签名或依赖浏览器当前登录状态 Cookie)
514
- const res = await fetch(\`/x/player/wbi/v2?bvid=\${bvid}&cid=\${cid}\`, { credentials: 'include' });
515
- const data = await res.json();
516
-
517
- // Step 3: 风控拦截/未登录降级空值检测 (Anti-Bot Empty Value Detection) ⚠️ 极其重要
518
- // 很多大厂 API 只要签名失败或无强登录 Cookie 依然会返回 HTTP 200,但把关键 URL 设为 ""
519
- const firstSubUrl = data.data?.subtitle?.subtitles?.[0]?.subtitle_url;
520
- if (!firstSubUrl) {
521
- throw new Error('被风控降级或需登录:拿不到真实的 subtitle_url,请检查 Cookie 状态 (Tier 2/3)');
522
- }
523
-
524
- return firstSubUrl;
525
- }, kwargs.bvid);
526
-
527
- // Step 4: 拉取最终的 CDN 静态文件 (无鉴权)
528
- const finalRes = await fetch(subtitleUrls.startsWith('//') ? 'https:' + subtitleUrls : subtitleUrls);
529
- const subtitles = await finalRes.json();
530
- ```
533
+ > 💡 **级联请求**(如 BVID→CID→字幕)的完整模板和要点见下方[进阶模式: 级联请求](#进阶模式-级联请求-cascading-requests)章节。
531
534
 
532
535
  ---
533
536
 
@@ -592,68 +595,26 @@ opencli evaluate "(() => {
592
595
  └──────────────┘ └──────────────┘ └──────────────┘ └────────┘
593
596
  ```
594
597
 
595
- ### Verbose 模式
596
-
597
- ```bash
598
- # 查看 pipeline 每步的输入输出
599
- opencli bilibili hot --limit 1 -v
600
- ```
601
-
602
- 输出示例:
603
- ```
604
- [1/4] navigate → https://www.bilibili.com
605
- → (no data)
606
- [2/4] evaluate → (async () => { const res = await fetch(…
607
- → [{title: "…", author: "…", play: 230835}]
608
- [3/4] map (rank, title, author, play, danmaku)
609
- → [{rank: 1, title: "…", author: "…"}]
610
- [4/4] limit → 1
611
- → [{rank: 1, title: "…"}]
612
- ```
613
-
614
- ### 输出格式验证
598
+ ### Verbose 模式 & 输出验证
615
599
 
616
600
  ```bash
617
- # 确认表格渲染正确
618
- opencli mysite hot -f table
619
-
620
- # 确认 JSON 可被 jq 解析
621
- opencli mysite hot -f json | jq '.[0]'
622
-
623
- # 确认 CSV 可被导入
624
- opencli mysite hot -f csv > data.csv
601
+ opencli bilibili hot --limit 1 -v # 查看 pipeline 每步数据流
602
+ opencli mysite hot -f json | jq '.[0]' # 确认 JSON 可被解析
603
+ opencli mysite hot -f csv > data.csv # 确认 CSV 可导入
625
604
  ```
626
605
 
627
606
  ---
628
607
 
629
- ## Step 5: 注册 & 发布
630
-
631
- ### YAML 适配器
608
+ ## Step 5: 提交发布
632
609
 
633
- 放入 `src/clis/<site>/<name>.yaml` 即自动注册,无需额外操作。
634
-
635
- ### TS 适配器
636
-
637
- 放入 `src/clis/<site>/<name>.ts` 即自动加载模块,无需在 `index.ts` 中写入 `import`。
638
-
639
- ### 验证注册
640
-
641
- ```bash
642
- opencli list # 确认新命令出现
643
- opencli validate mysite # 校验定义完整性
644
- ```
645
-
646
- ### 提交
610
+ 文件放入 `src/clis/<site>/` 即自动注册(YAML 或 TS 无需手动 import),然后:
647
611
 
648
612
  ```bash
649
- git add src/clis/mysite/
650
- git commit -m "feat(mysite): add hot and search adapters"
651
- git push
613
+ opencli list | grep mysite # 确认注册
614
+ git add src/clis/mysite/ && git commit -m "feat(mysite): add hot" && git push
652
615
  ```
653
616
 
654
- ## 设计哲学: Zero-Dependency jq
655
-
656
- > 💡 **架构理念升级**: OpenCLI 的原生机制本质上内建了一个 **Zero-Dependency jq 数据处理流**。使用时不需要依赖系统命令级别的 `jq` 包,而是将所有的解析拍平动作放在 `evaluate` 块内的原生 JavaScript 里,再由外层 YAML 通过 `select`、`map` 等命令提取。这将彻底消灭跨操作系统下产生的第三方二进制库依赖。
617
+ > 💡 **架构理念**:OpenCLI 内建 **Zero-Dependency jq** 数据流 — 所有解析在 `evaluate` 的原生 JS 内完成,外层 YAML 用 `select`/`map` 提取,无需依赖系统 `jq` 二进制。
657
618
 
658
619
  ---
659
620
 
@@ -58,10 +58,10 @@ function scanYaml(filePath, site) {
58
58
  }
59
59
  function scanTs(filePath, site) {
60
60
  // TS adapters self-register via cli() at import time.
61
- // We record their module path for lazy dynamic import.
61
+ // We statically parse the source to extract metadata for the manifest stub.
62
62
  const baseName = path.basename(filePath, path.extname(filePath));
63
63
  const relativePath = `${site}/${baseName}.js`;
64
- return {
64
+ const entry = {
65
65
  site,
66
66
  name: baseName,
67
67
  description: '',
@@ -71,6 +71,66 @@ function scanTs(filePath, site) {
71
71
  type: 'ts',
72
72
  modulePath: relativePath,
73
73
  };
74
+ try {
75
+ const src = fs.readFileSync(filePath, 'utf-8');
76
+ // Extract description
77
+ const descMatch = src.match(/description\s*:\s*['"`]([^'"`]*)['"`]/);
78
+ if (descMatch)
79
+ entry.description = descMatch[1];
80
+ // Extract domain
81
+ const domainMatch = src.match(/domain\s*:\s*['"`]([^'"`]*)['"`]/);
82
+ if (domainMatch)
83
+ entry.domain = domainMatch[1];
84
+ // Extract strategy
85
+ const stratMatch = src.match(/strategy\s*:\s*Strategy\.(\w+)/);
86
+ if (stratMatch)
87
+ entry.strategy = stratMatch[1].toLowerCase();
88
+ // Extract columns
89
+ const colMatch = src.match(/columns\s*:\s*\[([^\]]*)\]/);
90
+ if (colMatch) {
91
+ entry.columns = colMatch[1].split(',').map(s => s.trim().replace(/^['"`]|['"`]$/g, '')).filter(Boolean);
92
+ }
93
+ // Extract args array items: { name: '...', ... }
94
+ const argsBlockMatch = src.match(/args\s*:\s*\[([\s\S]*?)\]\s*,/);
95
+ if (argsBlockMatch) {
96
+ const argsBlock = argsBlockMatch[1];
97
+ const argRegex = /\{\s*name\s*:\s*['"`](\w+)['"`]([^}]*)\}/g;
98
+ let m;
99
+ while ((m = argRegex.exec(argsBlock)) !== null) {
100
+ const argName = m[1];
101
+ const body = m[2];
102
+ const typeMatch = body.match(/type\s*:\s*['"`](\w+)['"`]/);
103
+ const defaultMatch = body.match(/default\s*:\s*([^,}]+)/);
104
+ const requiredMatch = body.match(/required\s*:\s*(true|false)/);
105
+ const helpMatch = body.match(/help\s*:\s*['"`]([^'"`]*)['"`]/);
106
+ let defaultVal = undefined;
107
+ if (defaultMatch) {
108
+ const raw = defaultMatch[1].trim();
109
+ if (raw === 'true')
110
+ defaultVal = true;
111
+ else if (raw === 'false')
112
+ defaultVal = false;
113
+ else if (/^\d+$/.test(raw))
114
+ defaultVal = parseInt(raw, 10);
115
+ else if (/^\d+\.\d+$/.test(raw))
116
+ defaultVal = parseFloat(raw);
117
+ else
118
+ defaultVal = raw.replace(/^['"`]|['"`]$/g, '');
119
+ }
120
+ entry.args.push({
121
+ name: argName,
122
+ type: typeMatch?.[1] ?? 'str',
123
+ default: defaultVal,
124
+ required: requiredMatch?.[1] === 'true',
125
+ help: helpMatch?.[1] ?? '',
126
+ });
127
+ }
128
+ }
129
+ }
130
+ catch {
131
+ // If parsing fails, fall back to empty metadata — module will self-register at runtime
132
+ }
133
+ return entry;
74
134
  }
75
135
  // Main
76
136
  const manifest = [];