@jackwener/opencli 0.4.1 → 0.4.2
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/CLI-CREATOR.md +100 -139
- package/dist/build-manifest.js +62 -2
- package/dist/cli-manifest.json +595 -75
- package/dist/clis/xiaohongshu/search.d.ts +5 -2
- package/dist/clis/xiaohongshu/search.js +35 -41
- package/package.json +1 -1
- package/src/build-manifest.ts +63 -2
- package/src/clis/xiaohongshu/search.ts +41 -44
package/CLI-CREATOR.md
CHANGED
|
@@ -18,66 +18,15 @@
|
|
|
18
18
|
|
|
19
19
|
### AI Agent 探索工作流(必须遵循)
|
|
20
20
|
|
|
21
|
-
|
|
22
|
-
|
|
23
|
-
|
|
24
|
-
|
|
25
|
-
|
|
26
|
-
|
|
27
|
-
|
|
28
|
-
|
|
29
|
-
|
|
30
|
-
Step 4: 再次查看 Network,发现新触发的 API
|
|
31
|
-
↓
|
|
32
|
-
Step 5: 分析 API 的请求参数、响应结构、鉴权方式
|
|
33
|
-
↓
|
|
34
|
-
Step 6: 编写适配器代码
|
|
35
|
-
```
|
|
36
|
-
|
|
37
|
-
### 具体操作步骤
|
|
38
|
-
|
|
39
|
-
**Step 0: 打开浏览器**
|
|
40
|
-
```
|
|
41
|
-
工具: browser_navigate
|
|
42
|
-
URL: https://www.bilibili.com/video/BV1xxxxx
|
|
43
|
-
```
|
|
44
|
-
|
|
45
|
-
**Step 1: 获取页面快照,了解页面结构**
|
|
46
|
-
```
|
|
47
|
-
工具: browser_snapshot
|
|
48
|
-
→ 观察页面上有哪些可交互元素(按钮、标签、链接)
|
|
49
|
-
```
|
|
50
|
-
|
|
51
|
-
**Step 2: 查看已有的网络请求**
|
|
52
|
-
```
|
|
53
|
-
工具: browser_network_requests
|
|
54
|
-
→ 筛选出 JSON API 端点(忽略静态资源)
|
|
55
|
-
→ 记录 URL pattern、请求头、响应结构
|
|
56
|
-
```
|
|
57
|
-
|
|
58
|
-
**Step 3: 模拟用户交互发现深层 API**
|
|
59
|
-
```
|
|
60
|
-
工具: browser_click (点击"字幕"按钮、"评论"标签、"关注"链接等)
|
|
61
|
-
工具: browser_wait_for (等待数据加载)
|
|
62
|
-
```
|
|
63
|
-
|
|
64
|
-
**Step 4: 再次抓包,发现新 API**
|
|
65
|
-
```
|
|
66
|
-
工具: browser_network_requests
|
|
67
|
-
→ 对比 Step 2,找出新触发的 API 端点
|
|
68
|
-
```
|
|
69
|
-
|
|
70
|
-
**Step 5: 用 evaluate 测试 API 可行性**
|
|
71
|
-
```
|
|
72
|
-
工具: browser_evaluate
|
|
73
|
-
代码: async () => {
|
|
74
|
-
const res = await fetch('https://api.bilibili.com/x/player/wbi/v2?bvid=BV1xxx&cid=123',
|
|
75
|
-
{ credentials: 'include' });
|
|
76
|
-
return await res.json();
|
|
77
|
-
}
|
|
78
|
-
→ 验证返回的数据结构和字段
|
|
79
|
-
→ 如果返回空/403:检查是否需要签名(Wbi)或特殊 Header
|
|
80
|
-
```
|
|
21
|
+
| 步骤 | 工具 | 做什么 |
|
|
22
|
+
|------|------|--------|
|
|
23
|
+
| 0. 打开浏览器 | `browser_navigate` | 导航到目标页面 |
|
|
24
|
+
| 1. 观察页面 | `browser_snapshot` | 观察可交互元素(按钮/标签/链接) |
|
|
25
|
+
| 2. 首次抓包 | `browser_network_requests` | 筛选 JSON API 端点,记录 URL pattern |
|
|
26
|
+
| 3. 模拟交互 | `browser_click` + `browser_wait_for` | 点击"字幕""评论""关注"等按钮 |
|
|
27
|
+
| 4. 二次抓包 | `browser_network_requests` | 对比步骤 2,找出新触发的 API |
|
|
28
|
+
| 5. 验证 API | `browser_evaluate` | `fetch(url, {credentials:'include'})` 测试返回结构 |
|
|
29
|
+
| 6. 写代码 | — | 基于确认的 API 写适配器 |
|
|
81
30
|
|
|
82
31
|
### 常犯错误
|
|
83
32
|
|
|
@@ -89,6 +38,27 @@ URL: https://www.bilibili.com/video/BV1xxxxx
|
|
|
89
38
|
| 遇到 HTTP 200 但空数据就放弃 | 检查是否需要 Wbi 签名或 Cookie 鉴权 |
|
|
90
39
|
| 完全依赖 `__INITIAL_STATE__` 拿所有数据 | `__INITIAL_STATE__` 只有首屏数据,深层数据要调 API |
|
|
91
40
|
|
|
41
|
+
### ✅ 实战成功案例:5 分钟实现「关注列表」适配器
|
|
42
|
+
|
|
43
|
+
以下是用上述工作流实际发现 Bilibili 关注列表 API 的完整过程:
|
|
44
|
+
|
|
45
|
+
```
|
|
46
|
+
1. browser_navigate → https://space.bilibili.com/{uid}/fans/follow
|
|
47
|
+
2. browser_network_requests → 发现:
|
|
48
|
+
GET /x/relation/followings?vmid={uid}&pn=1&ps=24 → [200]
|
|
49
|
+
GET /x/relation/stat?vmid={uid} → [200]
|
|
50
|
+
3. browser_evaluate → 验证 API:
|
|
51
|
+
fetch('/x/relation/followings?vmid=137702077&pn=1&ps=5', {credentials:'include'})
|
|
52
|
+
→ { code: 0, data: { total: 1342, list: [{mid, uname, sign, ...}] } }
|
|
53
|
+
4. 结论:标准 Cookie API,无需 Wbi 签名
|
|
54
|
+
5. 写 following.ts → 一次构建通过 ✅
|
|
55
|
+
```
|
|
56
|
+
|
|
57
|
+
**关键决策点**:
|
|
58
|
+
- 直接访问 `fans/follow` 页面(不是首页),页面加载就会触发 following API
|
|
59
|
+
- 看到 URL 里没有 `/wbi/` → 不需要签名 → 直接用 `fetchJson` 而非 `apiGet`
|
|
60
|
+
- API 返回 `code: 0` + 非空 `list` → Tier 2 Cookie 策略确认
|
|
61
|
+
|
|
92
62
|
---
|
|
93
63
|
|
|
94
64
|
## 核心流程
|
|
@@ -202,6 +172,45 @@ opencli cascade https://api.example.com/hot
|
|
|
202
172
|
|
|
203
173
|
---
|
|
204
174
|
|
|
175
|
+
## Step 2.5: 准备工作(写代码之前)
|
|
176
|
+
|
|
177
|
+
### 🎯 先找模板:从最相似的现有适配器开始
|
|
178
|
+
|
|
179
|
+
**不要从零开始写**。先看看同站点已有哪些适配器:
|
|
180
|
+
|
|
181
|
+
```bash
|
|
182
|
+
ls src/clis/<site>/ # 看看已有什么
|
|
183
|
+
cat src/clis/<site>/feed.ts # 读最相似的那个
|
|
184
|
+
```
|
|
185
|
+
|
|
186
|
+
最高效的方式是 **复制最相似的适配器,然后改 3 个地方**:
|
|
187
|
+
1. `name` → 新命令名
|
|
188
|
+
2. API URL → 你在 Step 1 发现的端点
|
|
189
|
+
3. 字段映射 → 对应新 API 的字段
|
|
190
|
+
|
|
191
|
+
### 平台 SDK 速查表
|
|
192
|
+
|
|
193
|
+
写 TS 适配器之前,先看看你的目标站点有没有**现成的 helper 函数**可以复用:
|
|
194
|
+
|
|
195
|
+
#### Bilibili (`src/bilibili.ts`)
|
|
196
|
+
|
|
197
|
+
| 函数 | 用途 | 何时使用 |
|
|
198
|
+
|------|------|----------|
|
|
199
|
+
| `fetchJson(page, url)` | 带 Cookie 的 fetch + JSON 解析 | 普通 Cookie-tier API |
|
|
200
|
+
| `apiGet(page, path, {signed, params})` | 带 Wbi 签名的 API 调用 | URL 含 `/wbi/` 的接口 |
|
|
201
|
+
| `getSelfUid(page)` | 获取当前登录用户的 UID | "我的xxx" 类命令 |
|
|
202
|
+
| `resolveUid(page, input)` | 解析用户输入的 UID(支持数字/URL) | `--uid` 参数处理 |
|
|
203
|
+
| `wbiSign(page, params)` | 底层 Wbi 签名生成 | 通常不直接用,`apiGet` 已封装 |
|
|
204
|
+
| `stripHtml(s)` | 去除 HTML 标签 | 清理富文本字段 |
|
|
205
|
+
|
|
206
|
+
**如何判断需不需要 `apiGet`**?看 Network 请求 URL:
|
|
207
|
+
- 含 `/wbi/` 或 `w_rid=` → 必须用 `apiGet(..., { signed: true })`
|
|
208
|
+
- 不含 → 直接用 `fetchJson`
|
|
209
|
+
|
|
210
|
+
> 💡 其他站点(Twitter、小红书等)暂无专用 SDK,直接用 `page.evaluate` + `fetch` 即可。
|
|
211
|
+
|
|
212
|
+
---
|
|
213
|
+
|
|
205
214
|
## Step 3: 编写适配器
|
|
206
215
|
|
|
207
216
|
### YAML vs TS?先看决策树
|
|
@@ -224,6 +233,27 @@ opencli cascade https://api.example.com/hot
|
|
|
224
233
|
|
|
225
234
|
> **经验法则**:如果你发现 YAML 里嵌了超过 10 行 JS,改用 TS 更可维护。
|
|
226
235
|
|
|
236
|
+
### 通用模式:分页 API
|
|
237
|
+
|
|
238
|
+
很多 API 使用 `pn`(页码)+ `ps`(每页数量)分页。标准处理模式:
|
|
239
|
+
|
|
240
|
+
```typescript
|
|
241
|
+
args: [
|
|
242
|
+
{ name: 'page', type: 'int', required: false, default: 1, help: '页码' },
|
|
243
|
+
{ name: 'limit', type: 'int', required: false, default: 50, help: '每页数量 (最大 50)' },
|
|
244
|
+
],
|
|
245
|
+
func: async (page, kwargs) => {
|
|
246
|
+
const pn = kwargs.page ?? 1;
|
|
247
|
+
const ps = Math.min(kwargs.limit ?? 50, 50); // 尊重 API 的 ps 上限
|
|
248
|
+
const payload = await fetchJson(page,
|
|
249
|
+
`https://api.example.com/list?pn=${pn}&ps=${ps}`
|
|
250
|
+
);
|
|
251
|
+
return payload.data?.list || [];
|
|
252
|
+
},
|
|
253
|
+
```
|
|
254
|
+
|
|
255
|
+
> 💡 大多数站点的 `ps` 上限是 20~50。超过会被静默截断或返回错误。
|
|
256
|
+
|
|
227
257
|
### 方式 A: YAML Pipeline(声明式,推荐)
|
|
228
258
|
|
|
229
259
|
文件路径: `src/clis/<site>/<name>.yaml`,放入即自动注册。
|
|
@@ -500,34 +530,7 @@ cli({
|
|
|
500
530
|
|
|
501
531
|
> **拦截核心思路**:不自己构造签名,而是利用 `installInterceptor` 劫持网站自己的 `XMLHttpRequest` 和 `fetch`,让网站发请求,我们直接在底层取出解析好的 `response.json()`。
|
|
502
532
|
|
|
503
|
-
|
|
504
|
-
|
|
505
|
-
部分 API 获取是非常复杂的连环请求(例如 B 站获取视频字幕:先需要 `bvid` 获取核心 `cid`,再通过 `cid` 获取包含签名/Wbi 的字幕列表拉取地址,最后 fetch 真实的 CDN 资源)。在此类场景中,你必须在一个 `evaluate` 块内部或者在 TypeScript Node 端编排整个请求链条:
|
|
506
|
-
|
|
507
|
-
```typescript
|
|
508
|
-
// 真实场景:B站获取视频字幕的级联获取思路
|
|
509
|
-
const subtitleUrls = await page.evaluate(async (bvid) => {
|
|
510
|
-
// Step 1: 拿 CID (通常可以通过页面全局状态极速提取)
|
|
511
|
-
const cid = window.__INITIAL_STATE__?.videoData?.cid;
|
|
512
|
-
|
|
513
|
-
// Step 2: 依据 BVID 和 CID 拿字幕配置 (可能需要携带 W_RID 签名或依赖浏览器当前登录状态 Cookie)
|
|
514
|
-
const res = await fetch(\`/x/player/wbi/v2?bvid=\${bvid}&cid=\${cid}\`, { credentials: 'include' });
|
|
515
|
-
const data = await res.json();
|
|
516
|
-
|
|
517
|
-
// Step 3: 风控拦截/未登录降级空值检测 (Anti-Bot Empty Value Detection) ⚠️ 极其重要
|
|
518
|
-
// 很多大厂 API 只要签名失败或无强登录 Cookie 依然会返回 HTTP 200,但把关键 URL 设为 ""
|
|
519
|
-
const firstSubUrl = data.data?.subtitle?.subtitles?.[0]?.subtitle_url;
|
|
520
|
-
if (!firstSubUrl) {
|
|
521
|
-
throw new Error('被风控降级或需登录:拿不到真实的 subtitle_url,请检查 Cookie 状态 (Tier 2/3)');
|
|
522
|
-
}
|
|
523
|
-
|
|
524
|
-
return firstSubUrl;
|
|
525
|
-
}, kwargs.bvid);
|
|
526
|
-
|
|
527
|
-
// Step 4: 拉取最终的 CDN 静态文件 (无鉴权)
|
|
528
|
-
const finalRes = await fetch(subtitleUrls.startsWith('//') ? 'https:' + subtitleUrls : subtitleUrls);
|
|
529
|
-
const subtitles = await finalRes.json();
|
|
530
|
-
```
|
|
533
|
+
> 💡 **级联请求**(如 BVID→CID→字幕)的完整模板和要点见下方[进阶模式: 级联请求](#进阶模式-级联请求-cascading-requests)章节。
|
|
531
534
|
|
|
532
535
|
---
|
|
533
536
|
|
|
@@ -592,68 +595,26 @@ opencli evaluate "(() => {
|
|
|
592
595
|
└──────────────┘ └──────────────┘ └──────────────┘ └────────┘
|
|
593
596
|
```
|
|
594
597
|
|
|
595
|
-
### Verbose 模式
|
|
596
|
-
|
|
597
|
-
```bash
|
|
598
|
-
# 查看 pipeline 每步的输入输出
|
|
599
|
-
opencli bilibili hot --limit 1 -v
|
|
600
|
-
```
|
|
601
|
-
|
|
602
|
-
输出示例:
|
|
603
|
-
```
|
|
604
|
-
[1/4] navigate → https://www.bilibili.com
|
|
605
|
-
→ (no data)
|
|
606
|
-
[2/4] evaluate → (async () => { const res = await fetch(…
|
|
607
|
-
→ [{title: "…", author: "…", play: 230835}]
|
|
608
|
-
[3/4] map (rank, title, author, play, danmaku)
|
|
609
|
-
→ [{rank: 1, title: "…", author: "…"}]
|
|
610
|
-
[4/4] limit → 1
|
|
611
|
-
→ [{rank: 1, title: "…"}]
|
|
612
|
-
```
|
|
613
|
-
|
|
614
|
-
### 输出格式验证
|
|
598
|
+
### Verbose 模式 & 输出验证
|
|
615
599
|
|
|
616
600
|
```bash
|
|
617
|
-
#
|
|
618
|
-
opencli mysite hot -f
|
|
619
|
-
|
|
620
|
-
# 确认 JSON 可被 jq 解析
|
|
621
|
-
opencli mysite hot -f json | jq '.[0]'
|
|
622
|
-
|
|
623
|
-
# 确认 CSV 可被导入
|
|
624
|
-
opencli mysite hot -f csv > data.csv
|
|
601
|
+
opencli bilibili hot --limit 1 -v # 查看 pipeline 每步数据流
|
|
602
|
+
opencli mysite hot -f json | jq '.[0]' # 确认 JSON 可被解析
|
|
603
|
+
opencli mysite hot -f csv > data.csv # 确认 CSV 可导入
|
|
625
604
|
```
|
|
626
605
|
|
|
627
606
|
---
|
|
628
607
|
|
|
629
|
-
## Step 5:
|
|
630
|
-
|
|
631
|
-
### YAML 适配器
|
|
608
|
+
## Step 5: 提交发布
|
|
632
609
|
|
|
633
|
-
|
|
634
|
-
|
|
635
|
-
### TS 适配器
|
|
636
|
-
|
|
637
|
-
放入 `src/clis/<site>/<name>.ts` 即自动加载模块,无需在 `index.ts` 中写入 `import`。
|
|
638
|
-
|
|
639
|
-
### 验证注册
|
|
640
|
-
|
|
641
|
-
```bash
|
|
642
|
-
opencli list # 确认新命令出现
|
|
643
|
-
opencli validate mysite # 校验定义完整性
|
|
644
|
-
```
|
|
645
|
-
|
|
646
|
-
### 提交
|
|
610
|
+
文件放入 `src/clis/<site>/` 即自动注册(YAML 或 TS 无需手动 import),然后:
|
|
647
611
|
|
|
648
612
|
```bash
|
|
649
|
-
|
|
650
|
-
git commit -m "feat(mysite): add hot
|
|
651
|
-
git push
|
|
613
|
+
opencli list | grep mysite # 确认注册
|
|
614
|
+
git add src/clis/mysite/ && git commit -m "feat(mysite): add hot" && git push
|
|
652
615
|
```
|
|
653
616
|
|
|
654
|
-
|
|
655
|
-
|
|
656
|
-
> 💡 **架构理念升级**: OpenCLI 的原生机制本质上内建了一个 **Zero-Dependency jq 数据处理流**。使用时不需要依赖系统命令级别的 `jq` 包,而是将所有的解析拍平动作放在 `evaluate` 块内的原生 JavaScript 里,再由外层 YAML 通过 `select`、`map` 等命令提取。这将彻底消灭跨操作系统下产生的第三方二进制库依赖。
|
|
617
|
+
> 💡 **架构理念**:OpenCLI 内建 **Zero-Dependency jq** 数据流 — 所有解析在 `evaluate` 的原生 JS 内完成,外层 YAML 用 `select`/`map` 提取,无需依赖系统 `jq` 二进制。
|
|
657
618
|
|
|
658
619
|
---
|
|
659
620
|
|
package/dist/build-manifest.js
CHANGED
|
@@ -58,10 +58,10 @@ function scanYaml(filePath, site) {
|
|
|
58
58
|
}
|
|
59
59
|
function scanTs(filePath, site) {
|
|
60
60
|
// TS adapters self-register via cli() at import time.
|
|
61
|
-
// We
|
|
61
|
+
// We statically parse the source to extract metadata for the manifest stub.
|
|
62
62
|
const baseName = path.basename(filePath, path.extname(filePath));
|
|
63
63
|
const relativePath = `${site}/${baseName}.js`;
|
|
64
|
-
|
|
64
|
+
const entry = {
|
|
65
65
|
site,
|
|
66
66
|
name: baseName,
|
|
67
67
|
description: '',
|
|
@@ -71,6 +71,66 @@ function scanTs(filePath, site) {
|
|
|
71
71
|
type: 'ts',
|
|
72
72
|
modulePath: relativePath,
|
|
73
73
|
};
|
|
74
|
+
try {
|
|
75
|
+
const src = fs.readFileSync(filePath, 'utf-8');
|
|
76
|
+
// Extract description
|
|
77
|
+
const descMatch = src.match(/description\s*:\s*['"`]([^'"`]*)['"`]/);
|
|
78
|
+
if (descMatch)
|
|
79
|
+
entry.description = descMatch[1];
|
|
80
|
+
// Extract domain
|
|
81
|
+
const domainMatch = src.match(/domain\s*:\s*['"`]([^'"`]*)['"`]/);
|
|
82
|
+
if (domainMatch)
|
|
83
|
+
entry.domain = domainMatch[1];
|
|
84
|
+
// Extract strategy
|
|
85
|
+
const stratMatch = src.match(/strategy\s*:\s*Strategy\.(\w+)/);
|
|
86
|
+
if (stratMatch)
|
|
87
|
+
entry.strategy = stratMatch[1].toLowerCase();
|
|
88
|
+
// Extract columns
|
|
89
|
+
const colMatch = src.match(/columns\s*:\s*\[([^\]]*)\]/);
|
|
90
|
+
if (colMatch) {
|
|
91
|
+
entry.columns = colMatch[1].split(',').map(s => s.trim().replace(/^['"`]|['"`]$/g, '')).filter(Boolean);
|
|
92
|
+
}
|
|
93
|
+
// Extract args array items: { name: '...', ... }
|
|
94
|
+
const argsBlockMatch = src.match(/args\s*:\s*\[([\s\S]*?)\]\s*,/);
|
|
95
|
+
if (argsBlockMatch) {
|
|
96
|
+
const argsBlock = argsBlockMatch[1];
|
|
97
|
+
const argRegex = /\{\s*name\s*:\s*['"`](\w+)['"`]([^}]*)\}/g;
|
|
98
|
+
let m;
|
|
99
|
+
while ((m = argRegex.exec(argsBlock)) !== null) {
|
|
100
|
+
const argName = m[1];
|
|
101
|
+
const body = m[2];
|
|
102
|
+
const typeMatch = body.match(/type\s*:\s*['"`](\w+)['"`]/);
|
|
103
|
+
const defaultMatch = body.match(/default\s*:\s*([^,}]+)/);
|
|
104
|
+
const requiredMatch = body.match(/required\s*:\s*(true|false)/);
|
|
105
|
+
const helpMatch = body.match(/help\s*:\s*['"`]([^'"`]*)['"`]/);
|
|
106
|
+
let defaultVal = undefined;
|
|
107
|
+
if (defaultMatch) {
|
|
108
|
+
const raw = defaultMatch[1].trim();
|
|
109
|
+
if (raw === 'true')
|
|
110
|
+
defaultVal = true;
|
|
111
|
+
else if (raw === 'false')
|
|
112
|
+
defaultVal = false;
|
|
113
|
+
else if (/^\d+$/.test(raw))
|
|
114
|
+
defaultVal = parseInt(raw, 10);
|
|
115
|
+
else if (/^\d+\.\d+$/.test(raw))
|
|
116
|
+
defaultVal = parseFloat(raw);
|
|
117
|
+
else
|
|
118
|
+
defaultVal = raw.replace(/^['"`]|['"`]$/g, '');
|
|
119
|
+
}
|
|
120
|
+
entry.args.push({
|
|
121
|
+
name: argName,
|
|
122
|
+
type: typeMatch?.[1] ?? 'str',
|
|
123
|
+
default: defaultVal,
|
|
124
|
+
required: requiredMatch?.[1] === 'true',
|
|
125
|
+
help: helpMatch?.[1] ?? '',
|
|
126
|
+
});
|
|
127
|
+
}
|
|
128
|
+
}
|
|
129
|
+
}
|
|
130
|
+
catch {
|
|
131
|
+
// If parsing fails, fall back to empty metadata — module will self-register at runtime
|
|
132
|
+
}
|
|
133
|
+
return entry;
|
|
74
134
|
}
|
|
75
135
|
// Main
|
|
76
136
|
const manifest = [];
|