assistme 0.1.6 → 0.1.8

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
@@ -0,0 +1,313 @@
1
+ # AI Agent 浏览器控制方案研究报告
2
+
3
+ > 调研时间:2026-03-02
4
+
5
+ ## 摘要
6
+
7
+ 本报告调研了当前 AI Agent 控制浏览器的主流方案,涵盖三大领域:
8
+ 1. **头部 AI Agent 产品**(Manus、OpenAI Operator、Anthropic Computer Use)的浏览器方案
9
+ 2. **AI 原生浏览器**(Dia、Comet、Atlas、Fellou、BrowserOS)的新范式
10
+ 3. **浏览器自动化框架与云服务**(browser-use、Playwright MCP、Stagehand、Browserbase 等)
11
+
12
+ 核心结论:**行业正从「外部控制浏览器」向「浏览器本身成为 Agent 运行时」演进**,同时技术栈从 Playwright 向原生 CDP 迁移。对 AssistMe 最有参考价值的方案是 **Chrome 扩展 + WebSocket**(Manus 模式)和 **云浏览器服务**(Browserbase 模式)。
13
+
14
+ ---
15
+
16
+ ## 一、头部 AI Agent 产品的浏览器方案
17
+
18
+ ### 1. Manus AI — 双模式架构
19
+
20
+ Manus 是目前最有影响力的通用 AI Agent,它采用**两种浏览器模式**:
21
+
22
+ #### 云浏览器模式(默认)
23
+ - 运行在远端 Ubuntu 容器中(Python 3.10, Node.js 20)
24
+ - 容器内运行 **headless Chromium**,通过 browser-use 框架控制
25
+ - LLM 采用 **CodeAct 范式**:生成可执行 Python 代码调用浏览器 API
26
+ - 底层技术栈:`Manus → browser-use → 原生 CDP → Chromium`(已从 Playwright 迁移到原生 CDP)
27
+ - **缺点**:使用数据中心 IP,容易触发验证码;无法访问用户的登录态
28
+
29
+ #### Browser Operator(本地模式,2025年11月上线)
30
+ - **Chrome 扩展**,通过 Chrome Web Store 安装
31
+ - 通过 **WebSocket** 连接 `wss://api.manus.im`,接收服务端指令
32
+ - 使用 **Chrome Debugger API**(本质是 CDP)控制浏览器标签页
33
+ - 注入 **Content Scripts** 执行点击、滚动、输入、内容提取
34
+ - 使用 Readability.js 提取正文,Turndown.js 转换为 Markdown
35
+
36
+ **用户体验**:
37
+ - 云模式:零配置,用户在 Web UI 中操作
38
+ - 本地模式:安装扩展 → 开启连接 → 授权即可,无需配置 Chrome 启动参数
39
+ - 支持实时观看 Agent 操作、远程监控、会话回放
40
+
41
+ **安全隐患**:Browser Operator 扩展请求 `debugger` + `cookies` + `<all_urls>` 权限,理论上可以访问用户所有已登录网站的会话。
42
+
43
+ ### 2. OpenAI Operator / CUA
44
+
45
+ - 2025年1月发布,后整合为 ChatGPT Agent(2025年7月)
46
+ - 基于 **CUA (Computer-Using Agent)** 模型:GPT-4o 视觉能力 + 强化学习
47
+ - 运行在 **OpenAI 云端虚拟浏览器**,用户零配置
48
+ - 工作循环:截图感知 → 思维链推理 → 执行动作(点击/滚动/输入)
49
+ - **纯截图驱动**,不依赖 DOM 或 CDP
50
+ - 已与 DoorDash、Instacart、Uber 等合作
51
+ - 需 ChatGPT Plus ($20/月) 或 Pro ($200/月)
52
+ - **局限**:仅限浏览器操作、无法访问本地资源、敏感操作需人工介入
53
+
54
+ ### 3. Anthropic Computer Use
55
+
56
+ - Claude 的 beta API 功能,可控制**完整桌面环境**(不仅是浏览器)
57
+ - 通过截图 + 像素计算定位光标位置,模拟鼠标键盘操作
58
+ - 需要开发者自建 **Docker 沙箱环境**(虚拟显示器)
59
+ - **Claude for Chrome 扩展**(2025年8月):直接在浏览器内控制,支持站点级权限
60
+ - **优势**:可控制任何桌面应用,数据自主可控
61
+ - **劣势**:配置复杂,仍为 beta 状态
62
+
63
+ ### 对比总结
64
+
65
+ | 维度 | Manus(云) | Manus(本地) | OpenAI Operator | Anthropic Computer Use |
66
+ |------|------------|-------------|-----------------|----------------------|
67
+ | **控制方式** | CDP (via browser-use) | Chrome Debugger API | 截图 + 视觉模型 | 截图 + 像素定位 |
68
+ | **运行位置** | 云端容器 | 用户本地浏览器 | OpenAI 云端 | 自建 Docker 容器 |
69
+ | **用户配置** | 无 | 安装扩展即可 | 无 | 需搭建 Docker 环境 |
70
+ | **使用用户登录态** | 否 | 是 | 否 | 视环境而定 |
71
+ | **控制范围** | 浏览器 | 浏览器 | 浏览器 | 完整桌面 |
72
+
73
+ ---
74
+
75
+ ## 二、AI 原生浏览器 — 新范式
76
+
77
+ 2025-2026 年涌现了一批将 AI 内置于浏览器的产品,分为三类:
78
+
79
+ ### 消费级 AI 浏览器(AI 作为助手)
80
+
81
+ #### Dia Browser(The Browser Company)
82
+ - Arc 浏览器的继任者,Chromium 内核,被 Atlassian 以 $6.1 亿收购
83
+ - AI 集成在地址栏,感知所有打开的标签页内容
84
+ - **Skills 功能**:用户创建可复用的 AI 提示词(类似 AssistMe 的 Skills 概念)
85
+ - **不提供 Agent API**,不能自主操作网页,仅做阅读/写作辅助
86
+ - 仅 macOS (Apple Silicon)
87
+
88
+ #### Perplexity Comet
89
+ - Perplexity 的 Agentic 浏览器,2025年7月发布,10月免费开放
90
+ - 双模式:**Assistant**(阅读助手)+ **Agent**(自主执行:订机票、填表单、管理邮件)
91
+ - 内部通过 SSE + WebSocket 控制浏览器,内置 3 个 Chrome 扩展
92
+ - Agent 扩展有 700KB 的 Service Worker,实现完整 RPC 系统
93
+ - 支持跨标签页数据传递
94
+ - **无公开开发者 API**
95
+ - 安全隐患:曾发现 MCP API 可执行任意本地命令的漏洞(已修复)
96
+
97
+ #### ChatGPT Atlas(OpenAI)
98
+ - OpenAI 的 Chromium 浏览器,2025年10月发布
99
+ - 侧边栏 AI 助手 + **Agent Mode**(可见光标,自主操作网页)
100
+ - **Browser Memories**:记住浏览过的网站内容,支持后续回忆
101
+ - 敏感操作前需确认,Agent 模式下不记录浏览历史
102
+ - 需 ChatGPT Plus/Pro 订阅
103
+
104
+ #### Google Disco
105
+ - Google Labs 实验项目,2025年12月发布
106
+ - **GenTabs**:分析打开的标签页,生成交互式 Web 应用
107
+ - 例:打开日本旅行相关标签页 → 自动生成含地图、日历、预订链接的行程规划器
108
+ - 基于 Gemini 3,不是传统意义的浏览器自动化
109
+
110
+ ### Agentic 浏览器(AI 作为驾驶员)
111
+
112
+ #### Fellou AI Browser ⭐
113
+ - 自称「全球首个空间 Agentic AI 浏览器」,超 100 万用户
114
+ - 三大能力:**Deep Search**(跨站推理)、**Deep Action**(跨应用自动化)、**虚拟 Agent 工作区**
115
+ - **Eko 框架**(MIT 开源,npm 包 `@eko-ai/eko`):
116
+ - 混合自然语言 + 代码的 Agent 开发框架
117
+ - 支持浏览器 Agent、聊天 Agent、计算机 Agent
118
+ - 多 Agent 编排:Planner 设计工作流,Eko 协调多个 Agent
119
+ - 支持 Claude、OpenAI 等多个 LLM
120
+ - 支持 MCP 协议
121
+ - 可作为浏览器扩展、Node.js 或嵌入网页运行
122
+ - macOS + Windows
123
+
124
+ #### BrowserOS ⭐
125
+ - 开源 Chromium 分支(AGPL-3.0),YC 投资
126
+ - 隐私优先:支持本地模型(Ollama/LMStudio)
127
+ - 内置 MCP 服务器(Gmail、Calendar、Docs、Sheets、Notion)
128
+ - **Cowork 功能**:浏览器自动化 + 本地文件操作 + 定时任务
129
+ - 全平台(macOS、Windows、Linux)
130
+
131
+ ### AI 浏览器对比
132
+
133
+ | 浏览器 | 类型 | Agent 模式 | 开发者 API | 开源 | 价格 |
134
+ |--------|------|-----------|-----------|------|------|
135
+ | Dia | 消费级 | 否(只读写) | 无 | 否 | 免费 |
136
+ | Comet | 消费+Agent | 是(需授权) | 无公开 API | 否 | 免费 |
137
+ | Atlas | 消费+Agent | 是(可见光标) | 无公开 API | 否 | $20-200/月 |
138
+ | Disco | 生成式应用 | 否 | 无 | 否 | 免费(候补) |
139
+ | **Fellou** | **Agentic** | **是(全自主)** | **Eko SDK (MIT)** | **框架开源** | 免费(beta) |
140
+ | **BrowserOS** | **Agentic** | **是(本地Agent)** | **完整源码+MCP** | **是(AGPL)** | 免费 |
141
+
142
+ ---
143
+
144
+ ## 三、浏览器自动化框架与云服务
145
+
146
+ ### 1. browser-use(Python)
147
+ - 开源 Python 库,MIT 协议,~79k GitHub Stars
148
+ - **已从 Playwright 迁移到原生 CDP**,元素提取速度提升 5 倍
149
+ - 三层架构:LLM 集成层 → 浏览器控制引擎(CDP) → Agent 循环
150
+ - 安装:`pip install browser-use` + 设置 LLM API Key
151
+ - 需要本地 Chromium,但可连接云浏览器服务
152
+ - 提供 Gradio Web UI 和 CLI
153
+
154
+ ### 2. Playwright MCP(Microsoft)
155
+ - Microsoft 发布的 MCP 服务器,~28k GitHub Stars
156
+ - 核心创新:使用**无障碍树 (Accessibility Tree)** 而非截图
157
+ - 无障碍树是页面的结构化文本表示,Token 效率远高于截图方案
158
+ - 双模式:**Snapshot 模式**(默认,无需视觉模型)+ **Vision 模式**(截图兜底)
159
+ - 已集成到 Claude Code、Cursor、VS Code Copilot、Codex
160
+ - 2026年2月推出 CLI 替代方案,Token 用量降低 4 倍(27k vs 114k)
161
+
162
+ ### 3. Stagehand(Browserbase)
163
+ - 开源框架,~10k+ GitHub Stars
164
+ - **混合方案**的代表:确定性代码处理可靠步骤,自然语言处理动态步骤
165
+ - **自愈能力**:缓存发现的元素和操作,网站变化时自动重新用 AI 修复
166
+ - v3 版本:移除 Playwright 依赖,模块化驱动系统,速度提升 44%
167
+ - 仅支持 JavaScript/TypeScript
168
+
169
+ ### 4. 云浏览器服务
170
+
171
+ | 服务 | 类型 | 特点 | 用户配置 |
172
+ |------|------|------|---------|
173
+ | **Browserbase** | 托管云 | $3亿估值,SOC-2/HIPAA,毫秒级启动,支持 Playwright/Puppeteer/Selenium | API Key 即可 |
174
+ | **Steel** | 开源+云 | Docker 自建或托管云,REST API,Token 减少 80% | Docker pull 或 API Key |
175
+ | **Hyperbrowser** | 托管云(YC) | 专为 AI Agent 设计,反检测,MCP 深度集成 | API Key 即可 |
176
+ | **Bright Data** | 企业级 | 95% 自动化成功率,内置解锁能力 | API Key |
177
+
178
+ **云浏览器的核心价值**:用户无需安装/配置本地 Chrome,Agent 通过 API 连接远端浏览器实例,所有反检测、代理、验证码处理由平台负责。
179
+
180
+ ### 技术趋势:Playwright → 原生 CDP
181
+
182
+ 行业正在从 Playwright 迁移到原生 CDP:
183
+
184
+ | | Playwright | 原生 CDP |
185
+ |--|-----------|---------|
186
+ | 延迟 | 多一层 Node.js WebSocket 中转 | ~100μs 往返 |
187
+ | 跨域 iframe | 支持受限 | 完整支持 |
188
+ | 浏览器兼容 | Chromium + Firefox + WebKit | 仅 Chromium |
189
+ | 稳定性 | 成熟,处理好了崩溃/竞态 | 需自行处理 |
190
+ | 代表项目 | Playwright MCP | browser-use, Stagehand v3 |
191
+
192
+ **行业共识:混合方案**——确定性步骤用代码(快速、可靠),动态步骤用 AI(灵活、适应变化)。纯 AI 自动化太慢太贵(每日 $50-200 LLM 费用/万次提取),纯确定性自动化太脆弱。
193
+
194
+ ---
195
+
196
+ ## 四、对 AssistMe 的启示和建议
197
+
198
+ ### 当前问题回顾
199
+
200
+ AssistMe 目前要求用户手动以 `--remote-debugging-port=9222` 参数启动 Chrome,这对非程序员是严重障碍。
201
+
202
+ ### 可选方案(按推荐优先级排序)
203
+
204
+ #### 方案 A:Chrome 扩展模式(推荐,参考 Manus Browser Operator)⭐
205
+
206
+ ```
207
+ 用户安装 Chrome 扩展 → 扩展通过 WebSocket 连接 AssistMe CLI → CLI 通过扩展控制浏览器
208
+ ```
209
+
210
+ **优势**:
211
+ - 用户只需从 Chrome Web Store 安装扩展,零配置
212
+ - 可使用用户已有的登录态和 Cookie
213
+ - 使用用户真实 IP,不触发验证码
214
+ - 通过 Chrome Debugger API 获得 CDP 级别的控制能力
215
+ - 这是 Manus、Comet 等成熟产品验证过的方案
216
+
217
+ **技术实现**:
218
+ - 开发 Chrome 扩展,声明 `debugger` + `activeTab` 权限
219
+ - 扩展与 CLI 之间通过 WebSocket 通信
220
+ - CLI 发送控制指令(导航、点击、输入、截图),扩展执行
221
+ - 扩展注入 Content Script 提取页面内容
222
+
223
+ **劣势**:
224
+ - 需要开发和维护 Chrome 扩展
225
+ - 安全敏感(需要较高权限)
226
+ - 仅支持 Chrome/Edge
227
+
228
+ #### 方案 B:云浏览器服务(参考 Browserbase)
229
+
230
+ ```
231
+ AssistMe CLI → Browserbase/Steel API → 云端 Chromium 实例
232
+ ```
233
+
234
+ **优势**:
235
+ - 用户完全不需要配置本地浏览器
236
+ - 反检测、验证码处理由平台负责
237
+ - 可并行运行多个浏览器实例
238
+
239
+ **劣势**:
240
+ - 增加外部依赖和成本(~$100/月)
241
+ - 无法使用用户已有的登录态
242
+ - 数据中心 IP 可能触发验证码
243
+ - 延迟较高
244
+
245
+ **适用场景**:不需要用户登录态的自动化任务(搜索、数据采集等)
246
+
247
+ #### 方案 C:自动化 Chrome 启动(最小改动)
248
+
249
+ ```
250
+ assistme browser setup --auto → 自动修改 Chrome 快捷方式/启动配置
251
+ ```
252
+
253
+ **优势**:
254
+ - 开发成本最低,无需新增大的组件
255
+ - 保留现有 CDP 架构
256
+
257
+ **劣势**:
258
+ - 仍需要用户完全关闭 Chrome 再重启
259
+ - 不同操作系统需要不同的处理逻辑
260
+ - 用户体验仍不够好
261
+
262
+ #### 方案 D:混合模式(长期最优)
263
+
264
+ 结合 A + B,参考 Manus 的双模式架构:
265
+
266
+ | 场景 | 方案 | 说明 |
267
+ |------|------|------|
268
+ | 需要用户登录态 | Chrome 扩展 | 使用用户的 Cookie 和会话 |
269
+ | 不需要登录态 | 云浏览器 | 搜索、数据采集等通用任务 |
270
+ | 开发者/高级用户 | 原生 CDP | 保留现有方案作为高级选项 |
271
+
272
+ ### 推荐路径
273
+
274
+ ```
275
+ 短期 (1-2周):方案 C — 提供 assistme browser setup --auto 一键配置
276
+ 中期 (1-2月):方案 A — 开发 Chrome 扩展,消除 CDP 手动配置
277
+ 长期 (3-6月):方案 D — 混合模式,云浏览器 + Chrome 扩展 + 原生 CDP
278
+ ```
279
+
280
+ ---
281
+
282
+ ## 五、参考资料
283
+
284
+ ### Manus AI
285
+ - [Manus Browser Operator 官方博客](https://manus.im/blog/manus-browser-operator)
286
+ - [Manus 云浏览器文档](https://manus.im/docs/features/cloud-browser)
287
+ - [Manus 技术架构逆向分析 (GitHub Gist)](https://gist.github.com/renschni/4fbc70b31bad8dd57f3370239dccd58f)
288
+ - [Context Engineering for AI Agents: Lessons from Building Manus](https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus)
289
+ - [Manus Browser Operator 安全分析 (Mindgard)](https://mindgard.ai/blog/manus-rubra-full-browser-remote-control)
290
+
291
+ ### AI 浏览器
292
+ - [AI Web Browsers Benchmark 2026 (AIMultiple)](https://research.aimultiple.com/ai-web-browser/)
293
+ - [Best AI Browsers 2026 (Zapier)](https://zapier.com/blog/best-ai-browser/)
294
+ - [Best Agentic AI Browsers 2026 (KDnuggets)](https://www.kdnuggets.com/the-best-agentic-ai-browsers-to-look-for-in-2026)
295
+ - [Dia Browser 官网](https://www.diabrowser.com)
296
+ - [Fellou AI 官网](https://fellou.ai/) / [Eko 框架 GitHub](https://github.com/FellouAI/eko)
297
+ - [BrowserOS 官网](https://www.browseros.com/) / [GitHub](https://github.com/browseros-ai/BrowserOS)
298
+ - [Perplexity Comet](https://www.perplexity.ai/comet) / [Comet 逆向分析 (Zenity Labs)](https://labs.zenity.io/p/perplexity-comet-a-reversing-story)
299
+ - [ChatGPT Atlas (OpenAI)](https://openai.com/index/introducing-chatgpt-atlas/)
300
+ - [Google Disco (Google Labs)](https://labs.google/disco)
301
+
302
+ ### 浏览器自动化框架
303
+ - [browser-use GitHub](https://github.com/browser-use/browser-use) / [从 Playwright 迁移到 CDP](https://browser-use.com/posts/playwright-to-cdp)
304
+ - [Playwright MCP GitHub](https://github.com/microsoft/playwright-mcp)
305
+ - [Stagehand GitHub](https://github.com/browserbase/stagehand) / [v3 发布](https://www.browserbase.com/blog/stagehand-v3)
306
+ - [Browserbase 官网](https://www.browserbase.com/)
307
+ - [Steel.dev 官网](https://steel.dev/) / [GitHub](https://github.com/steel-dev/steel-browser)
308
+ - [Hyperbrowser 官网](https://www.hyperbrowser.ai/)
309
+
310
+ ### OpenAI / Anthropic
311
+ - [OpenAI Operator](https://openai.com/index/introducing-operator/) / [CUA](https://openai.com/index/computer-using-agent/)
312
+ - [Anthropic Computer Use 文档](https://platform.claude.com/docs/en/agents-and-tools/tool-use/computer-use-tool)
313
+ - [Anthropic vs OpenAI CUA 对比 (WorkOS)](https://workos.com/blog/anthropics-computer-use-versus-openais-computer-using-agent-cua)
@@ -0,0 +1,163 @@
1
+ # AssistMe CLI 易用性分析报告
2
+
3
+ > 面向非程序员用户的可用性评估
4
+
5
+ ## 总体评分:⚠️ 对非程序员用户不太友好(3/10)
6
+
7
+ AssistMe 目前是一个面向开发者的 CLI 工具,普通用户要独立完成安装和使用存在较大障碍。以下是具体分析。
8
+
9
+ ---
10
+
11
+ ## 一、主要障碍
12
+
13
+ ### 1. 安装过程复杂(严重)
14
+
15
+ 当前安装需要用户手动执行以下步骤:
16
+
17
+ ```bash
18
+ cd packages/assistme && npm install # 需要了解 npm、Node.js
19
+ npm run build # 需要了解构建概念
20
+ assistme config set supabaseUrl ... # 需要知道 Supabase URL
21
+ assistme config set supabaseAnonKey . # 需要知道 Anon Key
22
+ assistme config set anthropicApiKey . # 需要获取 Anthropic API Key
23
+ assistme login # 登录
24
+ assistme start # 启动
25
+ ```
26
+
27
+ **问题:**
28
+ - 需要预装 Node.js >= 18(非程序员通常没有)
29
+ - 需要了解 `npm install`、`npm run build` 等命令
30
+ - 没有提供一键安装脚本或安装程序(.exe / .dmg / .pkg)
31
+ - 没有发布到 npm registry,无法 `npm install -g assistme` 全局安装
32
+
33
+ **建议:**
34
+ - 提供平台原生安装包(macOS .dmg、Windows .exe、Linux .deb/.AppImage)
35
+ - 或者提供一键安装脚本:`curl -fsSL https://assistme.co.nz/install.sh | sh`
36
+ - 发布到 npm registry 支持 `npm install -g assistme`
37
+ - 考虑用 pkg 或 nexe 打包成独立可执行文件,不依赖 Node.js
38
+
39
+ ### 2. API Key 配置门槛高(严重)
40
+
41
+ 用户必须自行获取 Anthropic API Key(`sk-ant-...`),这意味着:
42
+ - 需要注册 Anthropic 账号
43
+ - 需要理解 API Key 的概念
44
+ - 需要绑定支付方式
45
+ - 需要手动复制粘贴 Key 到命令行
46
+
47
+ **建议:**
48
+ - 在 Web 端提供代理模式,让用户通过 Web UI 使用,后端统一管理 API Key
49
+ - 或在 `assistme login` 时自动从服务端下发所需配置,用户只需一个登录 token
50
+ - Supabase URL 和 Anon Key 已内置默认值(✅ 这一点做得好)
51
+
52
+ ### 3. Chrome 浏览器设置复杂(严重)
53
+
54
+ 要使用浏览器控制功能,用户需要:
55
+ 1. 完全关闭 Chrome
56
+ 2. 用命令行带特殊参数重启 Chrome:`--remote-debugging-port=9222`
57
+ 3. 不同操作系统命令不同
58
+
59
+ **问题:**
60
+ - 非程序员不知道什么是"命令行参数"
61
+ - "完全关闭 Chrome" 可能导致丢失正在工作的标签页
62
+ - 需要每次都用特殊方式启动 Chrome(除非修改快捷方式)
63
+ - 没有提供自动化脚本来简化这个过程
64
+
65
+ **建议:**
66
+ - 提供 `assistme browser setup --auto` 命令自动修改 Chrome 启动配置
67
+ - 或提供桌面托盘应用,自动管理 Chrome 的 CDP 端口
68
+ - 添加 Chrome 扩展来替代 CDP 方式(更简单,不需要特殊启动参数)
69
+ - 至少提供平台特定的一键脚本
70
+
71
+ ### 4. 纯命令行界面(中等)
72
+
73
+ 所有操作都在终端/命令行中进行:
74
+ - 非程序员通常不熟悉终端操作
75
+ - 没有 GUI(图形界面)
76
+ - 错误信息虽然清晰,但仍需要用户在命令行中排查
77
+
78
+ **建议:**
79
+ - 开发桌面 GUI 应用(Electron/Tauri)作为 CLI 的替代
80
+ - 或提供系统托盘应用,最小化操作为:安装 → 登录 → 一键启动
81
+ - Web UI 本身已存在,可以将更多功能集中到 Web 端
82
+
83
+ ---
84
+
85
+ ## 二、做得好的地方
86
+
87
+ ### ✅ 1. Supabase 配置内置默认值
88
+ `config.ts` 中 `supabaseUrl` 和 `supabaseAnonKey` 已预设默认值,用户不需要自己配置这两项。
89
+
90
+ ### ✅ 2. 登录流程相对简单
91
+ `assistme login` 会自动打开浏览器,用户只需在网页登录后复制 token 粘贴回来。这个流程对非程序员来说是可以接受的(前提是已安装好工具)。
92
+
93
+ ### ✅ 3. 错误提示清晰
94
+ 错误消息都给出了明确的修复指导,例如:
95
+ - `"Not authenticated. Run 'assistme login' first."`
96
+ - `"Chrome is not reachable. Run 'assistme browser setup' for instructions."`
97
+
98
+ ### ✅ 4. 交互模式友好
99
+ 启动后的 `assistme>` 提示符允许用户直接输入自然语言指令,不需要学习特殊语法。
100
+
101
+ ### ✅ 5. Web UI 作为主要交互界面
102
+ 大部分日常使用是通过 Web UI 发送任务,CLI 只需保持后台运行。这降低了日常使用的学习成本。
103
+
104
+ ### ✅ 6. 用户动作提示
105
+ 当需要用户介入时(如登录某网站、输入验证码),会显示清晰的提示并等待用户操作。
106
+
107
+ ---
108
+
109
+ ## 三、具体改进建议(按优先级排序)
110
+
111
+ ### P0 — 关键改进(否则非程序员基本无法使用)
112
+
113
+ | # | 改进项 | 说明 |
114
+ |---|--------|------|
115
+ | 1 | **一键安装包** | 提供 .exe / .dmg / .AppImage,内嵌 Node.js runtime |
116
+ | 2 | **服务端管理 API Key** | 用户通过 Web UI 付费订阅,CLI 通过登录 token 获取 API 调用权限,无需自己申请 Anthropic Key |
117
+ | 3 | **自动化 Chrome 设置** | 提供一键脚本或桌面应用自动配置 Chrome CDP |
118
+
119
+ ### P1 — 重要改进(显著提升体验)
120
+
121
+ | # | 改进项 | 说明 |
122
+ |---|--------|------|
123
+ | 4 | **桌面托盘应用** | 系统托盘常驻,一键启动/停止,显示状态 |
124
+ | 5 | **引导式首次设置** | `assistme setup` 向导,一步步引导用户完成所有配置 |
125
+ | 6 | **发布到 npm** | 至少支持 `npm install -g assistme` 简化安装 |
126
+
127
+ ### P2 — 锦上添花
128
+
129
+ | # | 改进项 | 说明 |
130
+ |---|--------|------|
131
+ | 7 | **中文本地化** | 支持中文错误提示和帮助信息 |
132
+ | 8 | **健康检查命令** | `assistme doctor` 一键检查所有前置条件 |
133
+ | 9 | **自动更新** | 内置版本检查和自动更新功能 |
134
+
135
+ ---
136
+
137
+ ## 四、与竞品对比
138
+
139
+ | 特性 | AssistMe CLI | 桌面 AI 助手(如 OpenInterpreter) | 浏览器插件(如 BrowserUse) |
140
+ |------|-------------|-------------------------------------|----------------------------|
141
+ | 安装难度 | 高(需 Node.js + 手动构建) | 中(pip install) | 低(浏览器安装) |
142
+ | 需要 API Key | 是 | 是 | 视产品而定 |
143
+ | 浏览器控制 | 需手动配置 CDP | 通常不支持 | 内置支持 |
144
+ | GUI | 无(纯 CLI) | 部分有 Web UI | 浏览器内 |
145
+ | 非程序员友好度 | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
146
+
147
+ ---
148
+
149
+ ## 五、总结
150
+
151
+ AssistMe 的**核心功能设计**非常优秀——AI 控制真实浏览器、持久记忆、技能系统、定时任务等,这些对用户来说都非常有价值。但**安装和配置的门槛**是非程序员使用的最大障碍。
152
+
153
+ **最小可行改进路径:**
154
+ 1. 将 Anthropic API Key 的管理移到服务端(通过用户订阅/付费),消除普通用户需要申请 API Key 的步骤
155
+ 2. 提供打包好的安装程序(不依赖 Node.js)
156
+ 3. 提供自动化 Chrome 配置脚本
157
+
158
+ 完成以上三项后,非程序员的使用流程将简化为:
159
+ ```
160
+ 下载安装 → 打开应用 → 登录账号 → 开始使用
161
+ ```
162
+
163
+ 这将使易用性评分从 3/10 提升到 7/10 以上。