Jarvis-Brain 0.1.4.4__tar.gz → 0.1.5.0__tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
@@ -0,0 +1,4 @@
1
+ .venv
2
+ .idea
3
+ call_test
4
+ dist
@@ -1,10 +1,10 @@
1
1
  Metadata-Version: 2.4
2
2
  Name: Jarvis_Brain
3
- Version: 0.1.4.4
3
+ Version: 0.1.5.0
4
4
  Summary: Jarvis brain mcp
5
5
  Requires-Python: >=3.10
6
6
  Requires-Dist: beautifulsoup4
7
7
  Requires-Dist: curl-cffi
8
8
  Requires-Dist: drissionpage
9
9
  Requires-Dist: fastmcp
10
- Requires-Dist: htmlmin
10
+ Requires-Dist: minify-html
@@ -0,0 +1,246 @@
1
+ # Jarvis Brain MCP
2
+
3
+ <div align="center">
4
+
5
+ 一个基于 FastMCP 和 DrissionPage 的浏览器自动化 MCP 服务器
6
+
7
+ [![Python Version](https://img.shields.io/badge/python-3.10~3.12-blue.svg)](https://www.python.org/downloads/)
8
+ [![Version](https://img.shields.io/badge/version-0.1.4.5-green.svg)](https://github.com/yourusername/jarvis-mcp)
9
+
10
+ ## 📖 简介
11
+
12
+ Jarvis Brain MCP 是一个强大的浏览器自动化工具,通过 Model Context Protocol (MCP) 提供服务。它集成了 DrissionPage 浏览器控制能力,支持多浏览器实例管理、智能 WAF 检测、HTML 获取与压缩等功能,特别适用于网页爬取、自动化测试和反爬虫分析场景。
13
+
14
+ ## ✨ 核心特性
15
+
16
+ ### 🌐 浏览器管理
17
+ - **多实例浏览器池**: 使用单例模式管理多个浏览器实例,支持并发操作
18
+ - **标签页控制**: 创建、切换、关闭标签页,灵活管理浏览器标签
19
+ - **智能端口分配**: 自动分配随机端口 (9223-9934),避免端口冲突
20
+
21
+ ### 🛡️ WAF 检测
22
+ - **多维度检测**: 对比 requests、有头浏览器、无头浏览器三种方式获取的 HTML
23
+ - **Cookie 特征识别**: 自动识别瑞数、加速乐等常见 WAF 的 Cookie 特征
24
+ - **智能推荐**: 根据检测结果推荐最适合的采集方案(requests / headless / head)
25
+
26
+ ### 📄 HTML 处理
27
+ - **智能压缩**: 自动移除 style、script、meta 标签及相关属性
28
+ - **压缩比计算**: 实时计算压缩率,用于 WAF 检测判断
29
+ - **本地保存**: 将获取的 HTML 保存到本地,便于后续分析
30
+
31
+ ### 🔍 元素检测
32
+ - **CSS 选择器支持**: 检测页面中是否存在指定的 CSS 选择器元素
33
+ - **智能格式化**: 自动添加 `css:` 前缀,简化使用
34
+
35
+ ## 🚀 快速开始
36
+
37
+ ### 安装
38
+
39
+ ```bash
40
+ pip install Jarvis_Brain
41
+ ```
42
+
43
+ 或从源码安装:
44
+
45
+ ```bash
46
+ git clone https://github.com/yourusername/jarvis-mcp.git
47
+ cd jarvis-mcp
48
+ pip install -e .
49
+ ```
50
+
51
+ ## 🛠️ MCP 工具列表
52
+
53
+ ### TeamNode-Dp 模块
54
+
55
+ #### 1. visit_url
56
+ 打开指定 URL 并创建浏览器实例。
57
+
58
+ **参数:**
59
+ - `url` (str): 要访问的网页 URL
60
+
61
+ **返回:**
62
+ - `message`: 操作结果消息
63
+ - `tab_id`: 标签页 ID
64
+ - `browser_port`: 浏览器端口号
65
+
66
+ #### 2. get_html
67
+ 获取指定标签页的 HTML 源码并保存到本地。
68
+
69
+ **参数:**
70
+ - `browser_port` (int): 浏览器端口号
71
+ - `tab_id` (str): 标签页 ID
72
+
73
+ **返回:**
74
+ - `message`: 操作结果消息
75
+ - `tab_id`: 标签页 ID
76
+ - `html_local_path`: HTML 文件保存路径
77
+
78
+ #### 3. get_new_tab
79
+ 在指定浏览器中创建新标签页并打开 URL。
80
+
81
+ **参数:**
82
+ - `browser_port` (int): 浏览器端口号
83
+ - `url` (str): 要访问的 URL
84
+
85
+ **返回:**
86
+ - `message`: 操作结果消息
87
+ - `tab_id`: 新标签页 ID
88
+
89
+ #### 4. switch_tab
90
+ 切换到指定的标签页。
91
+
92
+ **参数:**
93
+ - `browser_port` (int): 浏览器端口号
94
+ - `tab_id` (str): 要切换到的标签页 ID
95
+
96
+ **返回:**
97
+ - `message`: 操作结果消息
98
+
99
+ #### 5. close_tab
100
+ 关闭指定的标签页。
101
+
102
+ **参数:**
103
+ - `browser_port` (int): 浏览器端口号
104
+ - `tab_id` (str): 要关闭的标签页 ID
105
+
106
+ **返回:**
107
+ - `message`: 操作结果消息
108
+
109
+ #### 6. check_selector
110
+ 检查标签页中是否存在指定的 CSS 选择器元素。
111
+
112
+ **参数:**
113
+ - `browser_port` (int): 浏览器端口号
114
+ - `tab_id` (str): 标签页 ID
115
+ - `css_selector` (str): CSS 选择器
116
+
117
+ **返回:**
118
+ - `message`: 操作结果消息
119
+ - `tab_id`: 标签页 ID
120
+ - `selector`: 完整的选择器
121
+ - `selector_ele_exist` (bool): 元素是否存在
122
+
123
+ ### JarvisNode 模块
124
+
125
+ #### 7. assert_waf
126
+ 智能检测网页是否使用了 WAF 及页面渲染类型。
127
+
128
+ **检测原理:**
129
+ 1. 通过 Cookie 特征识别已知 WAF(瑞数、加速乐等)
130
+ 2. 对比 requests、无头浏览器、有头浏览器获取的 HTML 压缩比
131
+ 3. 根据压缩比差异判断页面类型和推荐采集方案
132
+
133
+ **参数:**
134
+ - `browser_port` (int): 浏览器端口号
135
+ - `tab_id` (str): 标签页 ID
136
+
137
+ **返回:**
138
+ - `message`: 操作结果消息
139
+ - `tab_id`: 标签页 ID
140
+ - `recommend_team`: 推荐的采集方案
141
+ - `requests`: 静态页面,无防护
142
+ - `drissionpage_headless`: 动态页面或有 requests 防护
143
+ - `drissionpage_head`: 有无头检测或复杂 WAF
144
+ - `raw_head_rate_difference`: requests 与有头浏览器压缩比差异
145
+ - `raw_headless_rate_difference`: requests 与无头浏览器压缩比差异
146
+ - `head_headless_rate_difference`: 有头与无头浏览器压缩比差异
147
+
148
+ ## 📊 WAF 检测逻辑
149
+
150
+ ### 判定规则
151
+
152
+ | 场景 | requests vs 有头 | requests vs 无头 | 有头 vs 无头 | 推荐方案 | 说明 |
153
+ |------|------------------|------------------|--------------|----------|------|
154
+ | 静态页面无防护 | < 40% | < 40% | < 40% | `requests` | 三种方式结果一致 |
155
+ | 动态页面 / requests 防护 | > 40% | > 40% | < 30% | `drissionpage_headless` | requests 拿不到正确结果 |
156
+ | 无头检测 / 复杂 WAF | < 15% | > 40% | > 40% | `drissionpage_head` | 必须使用有头浏览器 |
157
+ | 已知 WAF (Cookie) | - | - | - | `drissionpage_head` | 检测到瑞数/加速乐等 Cookie |
158
+ | 状态码检测 | 412/521 | - | - | `drissionpage_head` | 瑞数(412)/加速乐(521) |
159
+
160
+ ### Cookie 特征库
161
+
162
+ 当前支持识别的 WAF:
163
+ - **瑞数**: Cookie name 长度为 13,value 长度为 88
164
+ - **加速乐**: Cookie name 包含 `_jsl`
165
+
166
+ ## 🏗️ 项目结构
167
+
168
+ ```
169
+ Jarvis-mcp/
170
+ ├── mcp_tools/ # MCP 工具模块
171
+ │ ├── __init__.py
172
+ │ ├── main.py # 主入口,注册 MCP 工具
173
+ │ └── dp_tools.py # DrissionPage 工具函数
174
+ ├── tools/ # 核心工具模块
175
+ │ ├── __init__.py
176
+ │ ├── browser_manager.py # 浏览器池管理(单例模式)
177
+ │ └── tools.py # HTML 处理、WAF 检测等工具函数
178
+ ├── dist/ # 打包文件
179
+ ├── pyproject.toml # 项目配置
180
+ └── README.md # 项目文档
181
+ ```
182
+
183
+ ## 🔧 技术栈
184
+
185
+ - **[FastMCP](https://github.com/jlowin/fastmcp)**: MCP 服务器框架
186
+ - **[DrissionPage](https://github.com/g1879/DrissionPage)**: 浏览器控制库
187
+ - **[htmlmin](https://github.com/mankyd/htmlmin)**: HTML 压缩
188
+ - **[BeautifulSoup4](https://www.crummy.com/software/BeautifulSoup/)**: HTML 解析
189
+ - **[curl_cffi](https://github.com/yifeikong/curl_cffi)**: HTTP 请求库
190
+
191
+ ## 📝 使用方法
192
+
193
+ ### teamNode mcp配置
194
+
195
+ ```json
196
+ "JarvisNode": {
197
+ "command": "uvx",
198
+ "args": ["--python", "3.11", "--from", "Jarvis_Brain@latest", "jarvis-mcp"],
199
+ "env": {
200
+ "MCP_MODULES": "TeamNode-Dp",
201
+ "BASE_CWD": os.getcwd(),
202
+ }
203
+ },
204
+ ```
205
+
206
+ ### JarvisNode mcp配置
207
+
208
+ ```json
209
+ "JarvisNode": {
210
+ "command": "uvx",
211
+ "args": ["--python", "3.11", "--from", "Jarvis_Brain@latest", "jarvis-mcp"],
212
+ "env": {
213
+ "MCP_MODULES": "TeamNode-Dp,JarvisNode",
214
+ "BASE_CWD": os.getcwd(),
215
+ }
216
+ },
217
+ ```
218
+
219
+ ## 🌟 应用场景
220
+
221
+ 1. **网页爬虫**: 智能选择最优采集方案,提高爬取效率
222
+ 2. **反爬虫分析**: 快速识别网站使用的 WAF 类型
223
+ 3. **自动化测试**: 多浏览器实例并发测试
224
+ 4. **数据采集**: 处理动态渲染、反爬虫网站
225
+ 5. **安全研究**: 分析网站防护策略
226
+
227
+ ## 📄 许可证
228
+
229
+ 本项目采用 MIT 许可证。
230
+
231
+ ## 🤝 贡献
232
+
233
+ 欢迎提交 Issue 和 Pull Request!
234
+
235
+ ## 📮 联系方式
236
+
237
+ 如有问题或建议,请通过以下方式联系:
238
+
239
+ - 提交 [Issue](https://github.com/yourusername/jarvis-mcp/issues)
240
+ - 邮箱: your.email@example.com
241
+
242
+ ---
243
+
244
+ <div align="center">
245
+ Made with ❤️ by Jarvis Team
246
+ </div>
@@ -1,3 +1,4 @@
1
+ import json
1
2
  import os
2
3
  from typing import Any
3
4
 
@@ -5,8 +6,6 @@ from DrissionPage._elements.none_element import NoneElement
5
6
  from fastmcp import FastMCP
6
7
 
7
8
  from tools.tools import compress_html, requests_html, dp_headless_html, assert_waf_cookie, dp_mcp_message_pack
8
- import psutil
9
- from pathlib import Path
10
9
 
11
10
  html_source_code_local_save_path = os.path.join(os.getcwd(), "html-source-code")
12
11
  waf_status_code_dict = {
@@ -71,19 +70,28 @@ def register_close_tab(mcp: FastMCP, browser_manager):
71
70
 
72
71
 
73
72
  def register_check_selector(mcp: FastMCP, browser_manager):
74
- @mcp.tool(name="check_selector", description="查找tab页中是否包含某个元素")
75
- async def check_selector(browser_port: int, tab_id: str, css_selector: str) -> dict[str, Any]:
73
+ @mcp.tool(name="check_selector", description="查找tab页中是否包含元素,并返回元素attr_name所对应的值")
74
+ async def check_selector(browser_port: int, tab_id: str, css_selector: str, attr_name: str = "text") -> dict[str, Any]:
76
75
  _browser = browser_manager.get_browser(browser_port)
77
76
  target_tab = _browser.get_tab(tab_id)
78
77
  css_selector = css_selector
79
78
  if "css:" not in css_selector:
80
79
  css_selector = "css:" + css_selector
81
- target_ele = target_tab.ele(css_selector)
80
+ target_eles = target_tab.eles(css_selector)
81
+ exist_flag = False
82
+ if len(target_eles) != 0:
83
+ exist_flag = True
84
+ if attr_name == "text":
85
+ ele_text_list = [i.text.replace("\n", "") for i in target_eles]
86
+ attr_output = "\n".join(ele_text_list)
87
+ else:
88
+ attr_output = json.dumps([i.attr(attr_name) for i in target_eles])
82
89
  return dp_mcp_message_pack(
83
90
  f"已完成tab页:【{tab_id}】对:【{css_selector}】的检查",
84
91
  tab_id=tab_id,
85
92
  selector=css_selector,
86
- selector_ele_exist=not isinstance(target_ele, NoneElement)
93
+ selector_ele_exist=exist_flag,
94
+ attr_output=attr_output
87
95
  )
88
96
 
89
97
 
@@ -1,6 +1,6 @@
1
- # main.py
2
- from mcp_tools.dp_tools import *
3
1
  from fastmcp import FastMCP
2
+
3
+ from mcp_tools.dp_tools import *
4
4
  from tools.browser_manager import browser_manager
5
5
 
6
6
  mcp = FastMCP("Jarvis Brain Mcp Tools")
@@ -1,11 +1,11 @@
1
1
  [project]
2
2
  name = "Jarvis_Brain" # 别人下载时用的名字,必须在 PyPI 上唯一
3
- version = "0.1.4.4"
3
+ version = "0.1.5.0"
4
4
  description = "Jarvis brain mcp"
5
5
  dependencies = [
6
6
  "fastmcp",
7
7
  "DrissionPage",
8
- "htmlmin",
8
+ "minify-html",
9
9
  "beautifulsoup4",
10
10
  "curl_cffi"
11
11
  ]
@@ -27,5 +27,8 @@ exclude = [
27
27
  ".venv",
28
28
  "env",
29
29
  ".env",
30
- "*.pyc"
30
+ ".idea",
31
+ "*.pyc",
32
+ "dist",
33
+ "call_test"
31
34
  ]
@@ -1,8 +1,9 @@
1
1
  """浏览器池管理模块 - 单例模式确保状态共享"""
2
2
  import random
3
- from DrissionPage import ChromiumPage, ChromiumOptions
4
3
  from typing import Optional, Tuple
5
4
 
5
+ from DrissionPage import ChromiumPage, ChromiumOptions
6
+
6
7
 
7
8
  class BrowserManager:
8
9
  """浏览器池管理器 - 使用单例模式"""
@@ -1,10 +1,10 @@
1
1
  import time
2
2
 
3
- import htmlmin
3
+ import minify_html
4
+ from DrissionPage import ChromiumPage, ChromiumOptions
5
+ from bs4 import BeautifulSoup
4
6
  from curl_cffi import requests
5
7
  from lxml import html, etree
6
- from bs4 import BeautifulSoup
7
- from DrissionPage import ChromiumPage, ChromiumOptions
8
8
 
9
9
 
10
10
  # 使用requests获取html,用于测试是否使用了瑞数和jsl
@@ -60,7 +60,7 @@ def compress_html(content, only_text=False):
60
60
  element.attrib.pop(attr)
61
61
 
62
62
  result = etree.tostring(doc, encoding='unicode')
63
- result = htmlmin.minify(result)
63
+ result = minify_html.minify(result)
64
64
  compress_rate = round(len(content) / len(result) * 100)
65
65
  print(f"html压缩比=> {compress_rate}%")
66
66
  if not only_text: