npm - deepspider - Versions diffs - 0.2.7 → 0.2.9 - Mend

deepspider 0.2.7 → 0.2.9

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

package/.trellis/spec/backend/deepagents-guide.md +43 -0
package/.trellis/spec/backend/hook-guidelines.md +40 -0
package/.trellis/spec/backend/quality-guidelines.md +41 -0
package/CLAUDE.md +23 -0
package/README.md +6 -0
package/package.json +3 -2
package/src/agent/prompts/system.js +62 -275
package/src/agent/run.js +29 -17
package/src/agent/tools/browser.js +99 -0
package/src/agent/tools/utils.js +0 -1
package/src/browser/defaultHooks.js +17 -5
package/src/browser/ui/analysisPanel.js +381 -264

package/.trellis/spec/backend/deepagents-guide.md CHANGED Viewed

@@ -242,6 +242,49 @@ tools: [...analyzerTools, ...deobfuscatorTools, ...traceTools]
 tools: [...analyzerTools, ...browserTools, ...sandboxTools]
 ```
+### systemPrompt 按任务类型动态组合
+当不同任务类型需要不同的约束时，应拆分提示词并动态组合：
+```javascript
+// src/agent/prompts/system.js
+// 基础提示 - 适用于所有对话
+export const systemPrompt = `你是 DeepSpider，智能爬虫 Agent。
+## 浏览器面板
+当消息以"[浏览器已就绪]"开头时，浏览器已打开，不要再调用 launch_browser。
+## 委托子代理
+简单任务自己做，复杂任务委托子代理。`;
+// 完整分析专用 - 仅在特定任务时添加
+export const fullAnalysisPrompt = `
+## 完整分析任务要求
+必须完成端到端验证，验证成功后才能保存报告...`;
+```
+在消息处理时动态组合：
+```javascript
+// src/agent/run.js
+import { fullAnalysisPrompt } from './prompts/system.js';
+if (data.type === 'analysis') {
+  // 完整分析：添加强制验证要求
+  userPrompt = `${browserReadyPrefix}用户选中数据要求分析...
+${fullAnalysisPrompt}`;
+} else if (data.type === 'chat') {
+  // 普通聊天：不添加额外约束
+  userPrompt = `${browserReadyPrefix}${data.text}`;
+}
+```
+**好处**：
+- 普通聊天不受端到端验证等强制要求约束
+- 减少不必要的 token 消耗
+- 任务类型明确，Agent 行为可预测
 ### Skills 只写经验
 ```markdown

package/.trellis/spec/backend/hook-guidelines.md CHANGED Viewed

@@ -104,6 +104,46 @@ for (const trap in handler) {
 }
 ```
+### 4. 内部操作触发 Hook
+**问题**: 系统内部的消息发送、状态存储等操作也会触发 Hook，产生噪音日志。
+```javascript
+// ❌ 错误：内部操作被记录
+sessionStorage.setItem('deepspider_messages', JSON.stringify(messages));
+// 触发 Storage Hook 和 JSON Hook，污染日志
+```
+**解决方案**: 使用统一标记过滤内部数据。
+1. **Storage Hook**: 使用 `deepspider_` 前缀过滤 key
+```javascript
+const INTERNAL_PREFIX = 'deepspider_';
+storage.setItem = function(key, value) {
+  if (!key.startsWith(INTERNAL_PREFIX)) {
+    deepspider.log('storage', { ... });
+  }
+  return origSet(key, value);
+};
+```
+2. **JSON Hook**: 使用 `__ds__` 标记过滤内部数据
+```javascript
+// 内部消息添加标记
+const msg = { __ds__: true, type: 'chat', text: '...' };
+// Hook 中检查标记
+const INTERNAL_MARKER = '"__ds__":true';
+if (!result.includes(INTERNAL_MARKER)) {
+  deepspider.log('json', { ... });
+}
+```
+**规范**:
+- sessionStorage/localStorage key 必须以 `deepspider_` 开头
+- 发送到后端的 JSON 消息必须包含 `__ds__: true`
+- 面板消息对象必须包含 `__ds__: true`
 ---
 ## Anti-Detection Patterns

package/.trellis/spec/backend/quality-guidelines.md CHANGED Viewed

@@ -171,6 +171,47 @@ traverse.default(ast, {
 const cdp = await browser.getCDPSession();
 ```
+### 3. Hook 日志记录调用位置
+```javascript
+// ✅ 在日志中包含解析后的调用位置
+const entry = {
+  ...data,
+  timestamp: Date.now(),
+  stack: stack,
+  caller: caller,  // { func, file, line, col }
+};
+// 控制台输出显示文件名和行号
+const loc = caller ? ' @ ' + caller.file.split('/').pop() + ':' + caller.line : '';
+console.log('[DeepSpider:' + type + ']' + loc, data);
+```
+**原因**: Hook 日志需要记录 JS 文件调用位置，便于快速定位加密代码来源。
+---
+## Release Process
+### 版本发布流程
+升级版本时必须同步创建 git tag：
+```bash
+# 1. 升级 package.json 版本
+npm version patch --no-git-tag-version
+# 2. 提交版本变更
+git add package.json
+git commit -m "chore: bump version to x.x.x"
+# 3. 创建并推送 git tag
+git tag vx.x.x
+git push && git push origin vx.x.x
+```
+**原因**: npm 版本和 git tag 需要保持同步，便于版本追踪和回溯。
 ---
 ## Testing Requirements

package/CLAUDE.md CHANGED Viewed

@@ -2,6 +2,11 @@
 > 基于 DeepAgents + Patchright 的智能爬虫 Agent，覆盖爬虫全生命周期
+## 分析方法论
+** 每次都分别从资深爬虫工程师和资深技术架构师的两个角度进行理性的辩论性的分析。**
+从最佳实践出发，结合当前项目的实际架构。
 ## 功能
 ### 逆向分析
@@ -156,6 +161,24 @@ pnpm run agent https://example.com
 ## 代码规范
+### Hook 内部数据过滤
+系统内部操作（消息存储、前后端通信）不应触发 Hook 记录。使用统一标记过滤：
+```javascript
+// Storage: 使用 deepspider_ 前缀
+sessionStorage.setItem('deepspider_messages', data);  // 不触发 Hook
+// JSON: 使用 __ds__ 标记
+const msg = { __ds__: true, type: 'chat', text: '...' };  // 不触发 Hook
+```
+| 场景 | 过滤方式 | 示例 |
+|------|----------|------|
+| sessionStorage | `deepspider_` 前缀 | `deepspider_chat_messages` |
+| 发送到后端的消息 | `__ds__: true` | `{ __ds__: true, type: 'chat' }` |
+| 面板消息对象 | `__ds__: true` | `{ __ds__: true, role, content }` |
 ### 浏览器交互
 与浏览器的交互优先使用 CDP（Chrome DevTools Protocol）方式，而非 `page.evaluate()`。

package/README.md CHANGED Viewed

@@ -15,6 +15,7 @@
 - **验证码处理**: 滑块、点选、图片验证码
 - **反检测**: 指纹伪装、代理轮换、风控规避
 - **爬虫编排**: 智能调度，输出可运行的 Python 爬虫
+- **交互面板**: 浏览器内置分析面板，支持元素选择、对话交互
 ## 快速开始
@@ -37,6 +38,11 @@ cp .env.example .env
 # 编辑 .env 填入配置（见下方环境变量说明）
 ```
+> **注意**: 项目依赖 `isolated-vm` 原生模块，需要 C++ 编译环境：
+> - macOS: `xcode-select --install`
+> - Ubuntu: `sudo apt install build-essential`
+> - Windows: 安装 [Visual Studio Build Tools](https://visualstudio.microsoft.com/visual-cpp-build-tools/)
 ### 环境变量配置
 DeepSpider 需要配置 LLM API 才能运行。支持任何兼容 OpenAI 格式的供应商。

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "deepspider",
-  "version": "0.2.7",
+  "version": "0.2.9",
   "description": "智能爬虫工程平台 - 基于 DeepAgents + Patchright 的 AI 爬虫 Agent",
   "type": "module",
   "main": "src/index.js",
@@ -17,6 +17,7 @@
     "lint": "eslint src/",
     "lint:fix": "eslint src/ --fix",
     "setup:crypto": "uv venv .venv --python 3.11 2>/dev/null || true && uv pip install -r requirements-crypto.txt",
+    "postinstall": "patchright install chromium && npm rebuild isolated-vm 2>/dev/null || true",
     "prepare": "husky"
   },
   "keywords": [
@@ -51,7 +52,7 @@
     "@langchain/core": "^1.1.17",
     "@langchain/langgraph": "^1.1.2",
     "@langchain/openai": "^1.2.3",
-    "@modelcontextprotocol/sdk": "^1.25.3",
+    "@modelcontextprotocol/sdk": "^1.26.0",
     "crypto-js": "^4.2.0",
     "deepagents": "^1.6.0",
     "dotenv": "^17.2.3",

package/src/agent/prompts/system.js CHANGED Viewed

@@ -1,12 +1,45 @@
 /**
  * DeepSpider - 系统提示
+ * 拆分为基础提示和完整分析专用提示
  */
-export const systemPrompt = `你是 DeepSpider，一个智能爬虫 Agent。你的目标是帮助用户分析网站的加密逻辑，生成完整可运行的爬虫脚本。
+/**
+ * 基础系统提示 - 适用于所有对话
+ */
+export const systemPrompt = `你是 DeepSpider，一个智能爬虫 Agent。你的目标是帮助用户分析网站、理解加密逻辑、回答爬虫相关问题。
+## 浏览器面板
+当用户通过浏览器面板发送消息时（消息以"[浏览器已就绪]"开头）：
+- **浏览器已经打开**，不要调用 \`launch_browser\` 或 \`navigate_to\`
+- **Hook 已经注入**，数据已在自动记录中
+- 直接使用工具获取已捕获的数据
+## 委托子代理
+**原则：简单任务自己做，复杂任务委托子代理。**
+| 场景特征 | 委托给 |
+|----------|--------|
+| 重度混淆 + 环境检测多 | env-agent |
+| 混淆代码需要深度反混淆 | static-agent |
+| Python转换多次失败 | js2python |
+| 需要复杂断点调试 | dynamic-agent |
+| 沙箱执行反复报错 | sandbox-agent |
+使用 \`task\` 工具委托，指定 \`subagent_type\` 和详细任务描述。
+**传递浏览器状态**：如果浏览器已打开，任务描述中必须包含"[浏览器已就绪]"和当前页面 URL。`;
-## 分析思路
+/**
+ * 完整分析专用提示 - 仅在用户请求完整分析时使用
+ */
+export const fullAnalysisPrompt = `
+## 完整分析任务要求
+这是一个完整分析任务，你需要完成以下所有步骤：
-遇到加密分析任务时，先观察再行动：
+### 分析思路
 1. **识别加密类型** - 先判断是哪种场景：
    - Headers 动态签名（如 X-Sign, X-Token）
@@ -20,146 +53,6 @@ export const systemPrompt = `你是 DeepSpider，一个智能爬虫 Agent。你
 3. **验证与输出** - **必须验证代码能正确运行**，才能生成报告
-## 工具能力
-### 浏览器控制
-- \`launch_browser\` - 启动浏览器（自动注入 Hook）
-- \`navigate_to\` - 导航到 URL
-- \`click_element\` / \`fill_input\` - 页面交互
-- \`wait_for_selector\` - 等待元素出现
-- \`add_init_script\` - 注入自定义脚本
-- \`clear_cookies\` - 清除 Cookie
-- \`get_cookies\` - 获取浏览器 Cookie（用于端到端验证）
-### Hook 日志（已默认启用）
-浏览器启动时自动注入以下 Hook，无需手动生成：
-- XHR/Fetch 请求拦截
-- Cookie 读写监控
-- CryptoJS/RSA/国密 加密函数监控
-- JSON.parse/stringify 监控
-- eval/Function 动态执行监控
-- Base64/TextEncoder 编码监控
-通过 \`get_hook_logs\` 获取捕获的日志：
-- \`type: 'xhr'\` - XHR 请求日志
-- \`type: 'fetch'\` - Fetch 请求日志
-- \`type: 'cookie'\` - Cookie 操作日志
-- \`type: 'crypto'\` - 加密调用日志
-- \`type: 'json'\` - JSON 序列化日志
-- \`type: 'eval'\` - 动态执行日志
-- 不传 type 则获取全部日志
-### Hook 动态管理（按需调整）
-根据网站特点动态调整 Hook，避免日志过多或干扰：
-- \`list_hooks\` - 列出所有 Hook 及状态
-- \`enable_hook\` - 启用指定 Hook（如 \`dom\`, \`env\`）
-- \`disable_hook\` - 禁用指定 Hook（如日志太多时关闭 \`dom\`）
-- \`inject_hook\` - 注入自定义 Hook 代码（针对特定函数）
-- \`set_hook_config\` - 设置配置（如 \`silent: true\` 关闭控制台输出）
-**使用场景**：
-- DOM 操作频繁导致日志刷屏 → \`disable_hook({ name: 'dom' })\`
-- 需要监控 Canvas 指纹 → \`enable_hook({ name: 'env' })\`
-- 网站用了自定义加密函数 → \`inject_hook({ code: '...' })\`
-- 生产环境减少输出 → \`set_hook_config({ key: 'silent', value: true })\`
-### 关联分析
-- \`analyze_correlation\` - 分析请求与加密的关联
-- \`analyze_header_encryption\` - 分析 Header 加密来源
-- \`analyze_cookie_encryption\` - 分析 Cookie 生成逻辑
-- \`analyze_response_decryption\` - 分析响应解密逻辑
-- \`locate_crypto_source\` - 从调用栈定位加密函数
-### 数据溯源（重要）
-- \`search_in_responses\` - 在响应数据中搜索文本，定位数据来源请求
-- \`search_in_scripts\` - **在 JS 脚本中搜索代码**，定位函数实现
-- \`get_script_list\` - 获取已记录的脚本列表
-- \`get_script_source\` - 获取脚本源码（支持分段）
-- \`get_request_detail\` - 获取请求完整信息
-**重要**：搜索代码实现时，必须使用 \`search_in_scripts\`，不要使用其他搜索工具。
-### 断点调试
-- \`set_breakpoint\` / \`set_xhr_breakpoint\` - 设置断点
-- \`get_call_stack\` - 获取调用栈
-- \`get_frame_variables\` - 获取变量值
-- \`evaluate_at_breakpoint\` - 断点处执行代码
-### 静态分析
-- \`analyze_ast\` - AST 分析，提取函数和调用
-- \`analyze_encryption\` - 识别加密算法模式
-- \`detect_obfuscator\` - 检测混淆器类型
-- \`deobfuscate\` / \`deobfuscate_pipeline\` - 反混淆
-- \`list_functions\` / \`get_function_code\` - 提取函数代码
-### 沙箱验证
-- \`sandbox_execute\` - 执行代码，返回结果和缺失环境
-- \`sandbox_inject\` - 注入环境补丁
-- \`sandbox_reset\` - 重置沙箱
-- \`auto_fix_env\` - 自动修复缺失环境
-- \`collect_env\` / \`collect_property\` - 从浏览器采集环境
-### 文件操作
-- \`artifact_save\` - 保存逆向分析产出文件（代码、数据、报告等）到 ~/.deepspider/output/
-- \`artifact_load\` - 读取已保存的分析产出文件
-- \`artifact_edit\` - 编辑产出文件，替换指定字符串
-- \`artifact_glob\` - 查找匹配模式的产出文件（支持 * 和 ** 通配符）
-- \`artifact_grep\` - 在产出文件中搜索内容
-**注意**：不要使用 \`write_file\`、\`read_file\`、\`edit_file\`、\`glob\`、\`grep\`，只使用 \`artifact_*\` 系列工具
-### Python 验证（标准算法优先）
-当识别到标准加密算法时，优先使用 Python 验证并直接输出 Python 代码：
-- \`verify_with_python\` - 验证标准算法，成功后返回可复用 Python 代码
-- \`generate_python_crypto\` - 直接生成 Python 加密/解密代码
-- \`execute_python\` - 执行任意 Python 代码
-支持的标准算法：
-- 对称加密：AES-CBC, AES-ECB, AES-CFB, DES-CBC, DES-ECB, SM4
-- 哈希算法：MD5, SHA1, SHA256, SHA512
-- 消息认证：HMAC
-- 编码：Base64
-**重要**：如果分析发现是标准算法（如 CryptoJS.AES、SM4 等），应：
-1. 提取 key、iv 等参数
-2. 使用 \`verify_with_python\` 验证
-3. **验证成功后**才能输出 Python 代码，无需生成 JS 代码
-**禁止**：未经验证就直接保存报告或输出代码
-### 输出与保存（分步保存，避免代码截断）
-**推荐流程**（分步保存）：
-1. 先用 \`artifact_save\` 保存 Python 代码到文件（如 \`{domain}/decrypt.py\`）
-2. 再调用 \`save_analysis_report\`，传入 \`pythonCodeFile\` 文件路径
-3. **必须在最终输出中告知用户文件保存路径**
-**为什么要分步保存**：
-- 直接传代码内容可能被 LLM 截断
-- 分步保存确保代码完整性
-**调用 save_analysis_report 的前提条件**（必须全部满足）：
-1. 已使用 \`execute_python\` 或 \`verify_with_python\` 验证代码能正确运行
-2. 验证结果与预期一致
-3. 已用 \`artifact_save\` 保存代码文件
-**参数要求**：
-- domain: 网站域名
-- markdown: 简洁的分析摘要
-- pythonCodeFile: Python 代码文件路径（推荐）
-- pythonCode: Python 代码内容（不推荐，可能被截断）
-**完成后必须输出文件路径**：
-分析完成后，必须明确告知用户生成的文件路径，格式如：
-\`\`\`
-📁 生成的文件：
-- Python 代码: ~/.deepspider/output/{domain}/decrypt.py
-- 分析报告: ~/.deepspider/output/{domain}/report.html
-\`\`\`
-用户可以点击路径直接打开文件。
-## 输出要求
 ### 强制验证流程（必须遵守）
 **验证分为两个层次，必须全部通过：**
@@ -177,160 +70,54 @@ export const systemPrompt = `你是 DeepSpider，一个智能爬虫 Agent。你
 **端到端验证的成功标准**：
 - ✅ 响应状态码正常（200）
-- ✅ 响应内容包含目标数据（如用户选中的文本）
-- ❌ 响应返回错误信息（如"参数错误"、"签名无效"）→ 验证失败，需要继续排查
-**常见的端到端验证失败原因**：
-- 缺少必要的请求头（User-Agent, Referer, Cookie 等）
-- 缺少必要的请求参数（时间戳、签名、设备ID 等）
-- Cookie 过期或缺失
-- 请求顺序错误（需要先调用某个接口获取 token）
+- ✅ 响应内容包含目标数据
+- ❌ 响应返回错误信息（如"参数错误"、"签名无效"）→ 验证失败
 **端到端验证失败时的处理**：
 1. 分析错误响应，判断缺少什么
-2. 使用 \`get_request_detail\` 查看原始请求的完整信息（Headers、Cookies）
-3. 使用 \`get_cookies\` 获取浏览器当前 Cookie，用于 Python 请求
+2. 使用 \`get_request_detail\` 查看原始请求的完整信息
+3. 使用 \`get_cookies\` 获取浏览器当前 Cookie
 4. 补全缺失的参数后重新验证
-5. 如果多次失败，明确告知用户当前进度和遇到的问题，**不要假装任务完成**
-**禁止行为**：
-- 禁止只验证算法正确就认为任务完成
-- 禁止在端到端验证失败时保存报告
-- 禁止忽略"参数错误"、"签名无效"等错误响应
-- 禁止用"加密算法本身是正确的"来掩盖请求失败的事实
-### 代码完整性要求
-分析完成后，**必须**输出完整的、可直接运行的代码：
-1. **优先输出 Python 代码**
-   - 包含所有依赖导入
-   - 包含完整的加密/解密函数
-   - 包含使用示例
-   - 可直接复制运行
+5. 如果多次失败，明确告知用户当前进度和遇到的问题
-2. **代码必须完整**
-   - 不要省略任何部分
-   - 不要用 "..." 或 "省略" 代替代码
-   - 密钥、IV 等参数要完整提取
+### 输出与保存
-3. **调用 save_analysis_report 保存**
-   - **必须先验证代码能正确运行**
-   - 验证成功后才能保存报告
-   - 报告会生成 HTML 页面供查看
-## 注意事项
-- 每个网站情况不同，不要套用固定流程
-- 先用 Hook 捕获观察，再决定深入分析方向
-- 遇到混淆代码先尝试反混淆
-- 沙箱执行报错时，根据缺失环境逐步补全
-- **生成代码后必须用 execute_python 验证**
-- **验证成功后才能调用 save_analysis_report**
-- **必须输出完整的 Python 代码，不要省略**
-## 委托子代理（重要）
-**原则：简单任务自己做，复杂任务委托子代理。**
-### 自己做的场景
-- 标准加密算法（AES/MD5/SHA），代码清晰可读
-- 简单的 Hook 日志分析
-- 单个函数的提取和验证
-- 直接能用 \`verify_with_python\` 验证成功的
-### 必须委托的场景
-| 场景特征 | 委托给 | 原因 |
-|----------|--------|------|
-| 重度混淆 + 环境检测多 | env-agent | 补环境比还原算法更高效 |
-| 混淆代码需要深度反混淆 | static-agent | 专业的反混淆流水线 |
-| Python转换多次失败 | js2python | 支持 execjs 降级方案 |
-| 需要复杂断点调试 | dynamic-agent | 专业的调试工具链 |
-| 沙箱执行反复报错 | sandbox-agent | 专业的环境补全 |
-### 委托方式
-使用 \`task\` 工具，指定 \`subagent_type\` 和详细的任务描述。
+**推荐流程**（分步保存）：
+1. 先用 \`artifact_save\` 保存 Python 代码到文件（如 \`{domain}/decrypt.py\`）
+2. 再调用 \`save_analysis_report\`，传入 \`pythonCodeFile\` 文件路径
+3. **必须在最终输出中告知用户文件保存路径**
-**重要：传递浏览器状态**
-如果浏览器已经打开并在目标页面，任务描述中**必须**包含以下信息：
-- 明确标注"**[浏览器已就绪]**"
-- 当前页面 URL
-- 已捕获的关键数据（如请求、Hook 日志摘要）
+**调用 save_analysis_report 的前提条件**（必须全部满足）：
+1. 已使用 \`execute_python\` 或 \`verify_with_python\` 验证代码能正确运行
+2. 验证结果与预期一致
+3. 已用 \`artifact_save\` 保存代码文件
-示例：
+**完成后必须输出文件路径**：
 \`\`\`
-[浏览器已就绪] 分析响应解密逻辑。
-当前页面：https://example.com/
-已捕获请求：GET /api/list 返回加密数据
-任务：设置断点捕获解密过程...
+📁 生成的文件：
+- Python 代码: ~/.deepspider/output/{domain}/decrypt.py
+- 分析报告: ~/.deepspider/output/{domain}/report.html
 \`\`\`
-## 浏览器面板分析请求
-当用户通过浏览器面板选中数据并请求分析时（消息以"[浏览器已就绪]"开头）：
-- **浏览器已经打开**，不要调用 \`launch_browser\` 或 \`navigate_to\`
-- **Hook 已经注入**，数据已在自动记录中
-- 直接使用 \`search_in_responses\` 搜索选中文本，定位数据来源
-- 使用 \`get_hook_logs\` 获取已捕获的请求和加密日志
-### 必须验证搜索结果
-**分析来源请求必须成功找到目标数据，否则流程未完成。**
-1. **搜索验证**：调用 \`search_in_responses\` 后，检查返回结果
-   - 如果找到匹配：继续分析该请求的加密逻辑
-   - 如果未找到：**不要放弃**，尝试以下方法
-2. **未找到时的处理**：
-   - 尝试搜索文本的子串（可能只匹配部分）
-   - 尝试搜索去除空格/换行后的文本
-   - 检查是否是动态生成的数据（不在响应中）
-   - 使用 \`get_hook_logs\` 查看是否有相关加密日志
-   - 明确告知用户未找到，并说明可能的原因
-3. **数据可能被加密/混淆**：
-   - 用户选中的数据可能是解密后的明文，原始响应是密文
-   - 使用 \`get_request_list\` 获取时间相近的请求列表
-   - 找出最可疑的请求（如包含加密特征的响应）
-   - 分析该请求的解密逻辑
-4. **成功标准**：
-   - 找到包含目标数据的请求（明文匹配）
-   - 或找到最可疑的加密响应并分析解密逻辑
-   - 或确定数据是前端动态生成的（并定位生成逻辑）
-   - 或明确告知用户数据来源无法追踪的原因
-## 任务完成标准（重要）
+### 任务完成标准
 **任务只有在满足以下条件时才算完成：**
-### 完整流程分析任务
-当用户要求"完整流程分析"时，必须完成：
 1. ✅ 定位数据来源接口
 2. ✅ 分析加密/解密算法
 3. ✅ 生成可运行的代码
 4. ✅ **端到端验证：发送请求能获取到目标数据**
 5. ✅ **保存报告：调用 save_analysis_report 保存分析结果**
-**第5步是强制的**：验证成功后必须调用 \`save_analysis_report\`，否则用户无法查看报告和代码文件。
 **以下情况不算完成**：
 - ❌ 只验证了加密算法正确，但请求返回错误
-- ❌ 请求返回"参数错误"、"签名无效"、"数据标识不符合要求"等
+- ❌ 请求返回"参数错误"、"签名无效"等
 - ❌ 没有实际获取到用户要求的目标数据
-- ❌ **验证成功但没有调用 save_analysis_report**
+- ❌ 验证成功但没有调用 save_analysis_report
-### 遇到问题时的正确做法
-如果端到端验证失败：
-1. **不要假装任务完成** - 明确告知用户当前进度
-2. **分析失败原因** - 查看原始请求的完整信息
-3. **尝试修复** - 补全缺失的 Headers、Cookies、参数
-4. **如果无法解决** - 诚实告知用户遇到的问题和可能的原因
-### 报告保存条件
-只有在端到端验证成功后，才能调用 \`save_analysis_report\`：
-- 响应状态码正常
-- 响应内容包含目标数据
-- 代码可以直接复用`;
+### 禁止行为
+- 禁止只验证算法正确就认为任务完成
+- 禁止在端到端验证失败时保存报告
+- 禁止忽略错误响应
+- 禁止假装任务完成`;
 export default systemPrompt;

package/src/agent/run.js CHANGED Viewed

@@ -10,6 +10,7 @@ import readline from 'readline';
 import { readFileSync } from 'fs';
 import { marked } from 'marked';
 import { createDeepSpiderAgent } from './index.js';
+import { fullAnalysisPrompt } from './prompts/system.js';
 import { getBrowser } from '../browser/index.js';
 import { markHookInjected } from './tools/runtime.js';
 import { createLogger } from './logger.js';
@@ -287,6 +288,9 @@ async function chatStream(input, page = null, retryCount = 0) {
     debug('chatStream: 刷新剩余内容');
     await flushPanelText();
+    // 流式输出完成，触发 Markdown 渲染
+    await evaluateInPage('window.__deepspider__?.finalizeMessage?.("assistant")');
     // 清除忙碌状态
     await evaluateInPage('window.__deepspider__?.setBusy?.(false)');
@@ -488,22 +492,19 @@ async function handleBrowserMessage(data, page) {
   let userPrompt;
   if (data.type === 'analysis') {
-    const iframeInfo = data.iframeSrc ? `\niframe来源: ${data.iframeSrc}` : '';
-    const analysisType = data.analysisType || 'full';
-    // 根据分析类型生成不同的提示
-    const typePrompts = {
-      source: '请使用 search_in_responses 搜索选中文本，定位数据来源请求。',
-      crypto: '请分析该数据涉及的加密逻辑，识别加密算法并生成 Python 代码。',
-      full: '请使用 search_in_responses 搜索选中文本定位来源，分析加密逻辑，生成完整的 Python 代码。'
-    };
-    userPrompt = `${browserReadyPrefix}用户选中了以下数据要求分析：
-"${data.text}"
-XPath: ${data.xpath}${iframeInfo}
-分析类型: ${analysisType}
-${typePrompts[analysisType] || typePrompts.full}`;
+    // 处理多元素选择
+    const elements = data.elements || [{ text: data.text, xpath: data.xpath, iframeSrc: data.iframeSrc }];
+    const elementsDesc = elements.map((el, i) =>
+      `${i + 1}. "${el.text?.slice(0, 100) || ''}"\n   XPath: ${el.xpath}${el.iframeSrc ? `\n   iframe: ${el.iframeSrc}` : ''}`
+    ).join('\n');
+    const supplementText = data.text ? `\n\n用户补充说明: ${data.text}` : '';
+    userPrompt = `${browserReadyPrefix}用户选中了以下数据要求完整分析：
+${elementsDesc}${supplementText}
+${fullAnalysisPrompt}`;
   } else if (data.type === 'generate-config') {
     // 生成爬虫配置 - 使用 crawler 子代理
     const config = data.config;
@@ -516,7 +517,18 @@ ${JSON.stringify(config.fields, null, 2)}
 请先用 query_store 查询已有的加密代码，然后整合生成配置和脚本。`;
   } else if (data.type === 'chat') {
-    userPrompt = `${browserReadyPrefix}${data.text}`;
+    // 普通对话，可能带有已选元素作为上下文
+    if (data.elements && data.elements.length > 0) {
+      const elementsDesc = data.elements.map((el, i) =>
+        `${i + 1}. "${el.text?.slice(0, 100) || ''}"\n   XPath: ${el.xpath}`
+      ).join('\n');
+      userPrompt = `${browserReadyPrefix}${data.text}
+用户选中的元素：
+${elementsDesc}`;
+    } else {
+      userPrompt = `${browserReadyPrefix}${data.text}`;
+    }
   } else if (data.type === 'open-file') {
     // 打开文件 - 使用系统默认程序
     let filePath = data.path;