luma-mcp 1.2.0 → 1.2.1
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/CHANGELOG.md +16 -0
- package/README.md +58 -69
- package/build/prompts.d.ts +1 -2
- package/build/prompts.d.ts.map +1 -1
- package/build/prompts.js +1 -2
- package/build/prompts.js.map +1 -1
- package/package.json +2 -2
package/CHANGELOG.md
CHANGED
|
@@ -2,6 +2,22 @@
|
|
|
2
2
|
|
|
3
3
|
All notable changes to this project will be documented in this file.
|
|
4
4
|
|
|
5
|
+
## [1.2.1] - 2025-11-18
|
|
6
|
+
|
|
7
|
+
### Changed
|
|
8
|
+
- 📝 **文档优化**: 精简 README,移除冲余配置文件路径说明
|
|
9
|
+
- 📝 **更新日志简化**: 将 README 中的详细更新日志替换为 CHANGELOG.md 链接
|
|
10
|
+
- ✨ **Qwen 测试示例**: 添加 Qwen3-VL-Flash 本地测试命令
|
|
11
|
+
- 💰 **定价信息**: 添加阿里云通义千问定价参考链接
|
|
12
|
+
- 📋 **模型对比**: 更新模型选择表,完善 Qwen3-VL-Flash 信息
|
|
13
|
+
- 🔗 **API Key 获取**: 添加阿里云百炼 API Key 获取指南
|
|
14
|
+
- 📚 **相关链接**: 新增阿里云百炼平台和 Qwen3-VL 文档链接
|
|
15
|
+
- 🐛 **错误信息**: 优化 API 调用失败排查提示,包含阿里云账户
|
|
16
|
+
|
|
17
|
+
### Fixed
|
|
18
|
+
- 🐛 **描述修正**: 修正 package.json 中模型名称为 qwen3-vl-flash
|
|
19
|
+
- 📝 **注释精简**: 简化 prompts.ts 注释头
|
|
20
|
+
|
|
5
21
|
## [1.2.0] - 2025-11-17
|
|
6
22
|
|
|
7
23
|
### Added
|
package/README.md
CHANGED
|
@@ -48,10 +48,6 @@ npx luma-mcp
|
|
|
48
48
|
|
|
49
49
|
#### Claude Desktop
|
|
50
50
|
|
|
51
|
-
**Windows 配置文件位置**: `%APPDATA%\Claude\claude_desktop_config.json`
|
|
52
|
-
|
|
53
|
-
**macOS 配置文件位置**: `~/Library/Application Support/Claude/claude_desktop_config.json`
|
|
54
|
-
|
|
55
51
|
**方案 A: 使用智谱 GLM-4.5V**:
|
|
56
52
|
|
|
57
53
|
```json
|
|
@@ -229,7 +225,7 @@ claude mcp add -s user luma-mcp --env MODEL_PROVIDER=qwen --env DASHSCOPE_API_KE
|
|
|
229
225
|
|
|
230
226
|
**注意**: 直接在聊天框粘贴图片,非视觉模型不会自动调用 Luma,需要明确指示。
|
|
231
227
|
|
|
232
|
-
### 在 Claude
|
|
228
|
+
### 在 Claude code 中使用
|
|
233
229
|
|
|
234
230
|
配置完成后,在 Claude 对话中可以这样使用:
|
|
235
231
|
|
|
@@ -272,6 +268,19 @@ $env:SILICONFLOW_API_KEY="your-api-key" # Windows PowerShell
|
|
|
272
268
|
npm run test:local ./test.png
|
|
273
269
|
```
|
|
274
270
|
|
|
271
|
+
**测试阿里云通义千问 Qwen3-VL-Flash**:
|
|
272
|
+
```bash
|
|
273
|
+
# 设置 API Key 和提供商
|
|
274
|
+
export MODEL_PROVIDER=qwen
|
|
275
|
+
export DASHSCOPE_API_KEY="your-api-key" # macOS/Linux
|
|
276
|
+
|
|
277
|
+
$env:MODEL_PROVIDER="qwen"
|
|
278
|
+
$env:DASHSCOPE_API_KEY="your-api-key" # Windows PowerShell
|
|
279
|
+
|
|
280
|
+
# 测试本地图片
|
|
281
|
+
npm run test:local ./test.png
|
|
282
|
+
```
|
|
283
|
+
|
|
275
284
|
**其他测试命令**:
|
|
276
285
|
```bash
|
|
277
286
|
# 测试并提问
|
|
@@ -328,31 +337,39 @@ analyze_image({
|
|
|
328
337
|
|
|
329
338
|
### 通用配置
|
|
330
339
|
|
|
331
|
-
| 变量名
|
|
332
|
-
|
|
333
|
-
| `MODEL_PROVIDER`
|
|
334
|
-
| `MODEL_NAME`
|
|
335
|
-
| `MAX_TOKENS`
|
|
336
|
-
| `TEMPERATURE`
|
|
337
|
-
| `TOP_P`
|
|
338
|
-
| `ENABLE_THINKING
|
|
340
|
+
| 变量名 | 必需 | 默认值 | 说明 |
|
|
341
|
+
|-------------------|------|---------|----------------------------------------------|
|
|
342
|
+
| `MODEL_PROVIDER` | 否 | `zhipu` | 模型提供商:`zhipu`、`siliconflow` 或 `qwen` |
|
|
343
|
+
| `MODEL_NAME` | 否 | 见下文 | 模型名称(自动根据提供商选择) |
|
|
344
|
+
| `MAX_TOKENS` | 否 | `4096` | 最大生成 tokens |
|
|
345
|
+
| `TEMPERATURE` | 否 | `0.7` | 温度参数 (0-1) |
|
|
346
|
+
| `TOP_P` | 否 | `0.7` | Top-p 参数 (0-1) |
|
|
347
|
+
| `ENABLE_THINKING` | 否 | `false` | 是否启用思考模式(GLM-4.5V 和 Qwen3-VL-Flash) |
|
|
339
348
|
|
|
340
349
|
### 智谱 GLM-4.5V 专用
|
|
341
350
|
|
|
342
|
-
| 变量名 | 必需
|
|
343
|
-
|
|
344
|
-
| `ZHIPU_API_KEY`
|
|
351
|
+
| 变量名 | 必需 | 默认值 | 说明 |
|
|
352
|
+
|-----------------|----------------|--------|---------------------|
|
|
353
|
+
| `ZHIPU_API_KEY` | 是(使用智谱时) | - | 智谱 AI 的 API 密钥 |
|
|
345
354
|
|
|
346
355
|
默认模型:`glm-4.5v`
|
|
347
356
|
|
|
348
357
|
### 硅基流动 DeepSeek-OCR 专用
|
|
349
358
|
|
|
350
|
-
| 变量名 | 必需
|
|
351
|
-
|
|
352
|
-
| `SILICONFLOW_API_KEY`
|
|
359
|
+
| 变量名 | 必需 | 默认值 | 说明 |
|
|
360
|
+
|-----------------------|--------------------|--------|---------------------|
|
|
361
|
+
| `SILICONFLOW_API_KEY` | 是(使用硅基流动时) | - | 硅基流动的 API 密钥 |
|
|
353
362
|
|
|
354
363
|
默认模型:`deepseek-ai/DeepSeek-OCR`
|
|
355
364
|
|
|
365
|
+
### 阿里云通义千问 Qwen3-VL-Flash 专用
|
|
366
|
+
|
|
367
|
+
| 变量名 | 必需 | 默认值 | 说明 |
|
|
368
|
+
|-------------------|------------------|--------|------------------------|
|
|
369
|
+
| `DASHSCOPE_API_KEY` | 是(使用千问时) | - | 阿里云百炼的 API 密钥 |
|
|
370
|
+
|
|
371
|
+
默认模型:`qwen3-vl-flash`
|
|
372
|
+
|
|
356
373
|
**思考模式说明**:
|
|
357
374
|
- 默认开启,提高图片分析的准确性和详细程度
|
|
358
375
|
- 如需关闭(提高速度、降低成本),请在配置文件中设置:
|
|
@@ -426,6 +443,12 @@ luma-mcp/
|
|
|
426
443
|
3. 进入 API 管理创建 API Key
|
|
427
444
|
4. 复制 API Key 到配置文件
|
|
428
445
|
|
|
446
|
+
**阿里云通义千问 Qwen3-VL-Flash**:
|
|
447
|
+
1. 访问 [阿里云百炼平台](https://bailian.console.aliyun.com/)
|
|
448
|
+
2. 注册/登录账号
|
|
449
|
+
3. 进入 API-KEY 管理创建 API Key
|
|
450
|
+
4. 复制 API Key 到配置文件
|
|
451
|
+
|
|
429
452
|
### 支持哪些图片格式?
|
|
430
453
|
|
|
431
454
|
支持 JPG、PNG、WebP、GIF 格式。建议使用 JPG 格式以获得更好的压缩率。
|
|
@@ -455,7 +478,7 @@ data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAUA...
|
|
|
455
478
|
### API 调用失败怎么办?
|
|
456
479
|
|
|
457
480
|
1. 检查 API Key 是否正确
|
|
458
|
-
2.
|
|
481
|
+
2. 确认账户余额充足(智谱/阿里云)
|
|
459
482
|
3. 检查网络连接
|
|
460
483
|
4. 查看日志文件了解详细错误信息
|
|
461
484
|
|
|
@@ -465,25 +488,29 @@ data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAUA...
|
|
|
465
488
|
|
|
466
489
|
**智谱 GLM-4.5V**: 定价请参考[智谱官方定价](https://open.bigmodel.cn/pricing)。
|
|
467
490
|
|
|
468
|
-
|
|
491
|
+
**阿里云通义千问 Qwen3-VL-Flash**: 定价请参考[阿里云百炼定价](https://help.aliyun.com/zh/model-studio/getting-started/models)。
|
|
492
|
+
|
|
493
|
+
典型场景估算:
|
|
469
494
|
- 简单图片理解: 500-1000 tokens
|
|
470
495
|
- 代码截图分析: 1500-2500 tokens
|
|
471
496
|
- 详细 UI 分析: 2000-3000 tokens
|
|
472
497
|
|
|
473
|
-
|
|
498
|
+
启用思考模式(GLM-4.5V/Qwen3-VL-Flash)会增加约 20-30% tokens。
|
|
474
499
|
|
|
475
500
|
### 如何选择模型?
|
|
476
501
|
|
|
477
|
-
| 特性
|
|
478
|
-
|
|
479
|
-
| **费用**
|
|
480
|
-
| **中文理解** | 优秀 | 良好 |
|
|
481
|
-
| **OCR 能力** | 良好 | **优秀** |
|
|
482
|
-
| **思考模式** | 支持 | 不支持 |
|
|
483
|
-
|
|
|
502
|
+
| 特性 | GLM-4.5V(智谱) | DeepSeek-OCR(硅基流动) | Qwen3-VL-Flash(阿里云) |
|
|
503
|
+
|--------------|----------------|------------------------|------------------------|
|
|
504
|
+
| **费用** | 收费 | **完全免费** | 收费 |
|
|
505
|
+
| **中文理解** | 优秀 | 良好 | **优秀** |
|
|
506
|
+
| **OCR 能力** | 良好 | **优秀** | 优秀 |
|
|
507
|
+
| **思考模式** | 支持 | 不支持 | 支持 |
|
|
508
|
+
| **速度/成本** | 中等 | 免费 | **快速/低成本** |
|
|
509
|
+
| **适用场景** | 通用图片分析 | OCR、文字识别 | 快速分析、3D定位 |
|
|
484
510
|
|
|
485
511
|
**推荐**:
|
|
486
512
|
- 需要 OCR 或文字识别:选择 **DeepSeek-OCR**(免费)
|
|
513
|
+
- 需要快速低成本分析:选择 **Qwen3-VL-Flash**
|
|
487
514
|
- 需要深度图片理解:选择 **GLM-4.5V**
|
|
488
515
|
|
|
489
516
|
## 贡献
|
|
@@ -500,50 +527,12 @@ MIT License
|
|
|
500
527
|
- [GLM-4.5V 文档](https://docs.bigmodel.cn/cn/guide/models/vlm/glm-4.5v)
|
|
501
528
|
- [硅基流动平台](https://cloud.siliconflow.cn/)
|
|
502
529
|
- [DeepSeek-OCR 文档](https://docs.siliconflow.cn/cn/api-reference/chat-completions/chat-completions)
|
|
530
|
+
- [阿里云百炼平台](https://bailian.console.aliyun.com/)
|
|
531
|
+
- [Qwen3-VL 文档](https://help.aliyun.com/zh/model-studio/getting-started/models)
|
|
503
532
|
- [MCP 协议文档](https://modelcontextprotocol.io/)
|
|
504
533
|
|
|
505
534
|
## 更新日志
|
|
506
535
|
|
|
507
|
-
### [1.1.1] - 2025-11-13
|
|
508
|
-
|
|
509
|
-
#### 新增
|
|
510
|
-
- 🖼️ **Data URI 支持**: 支持接收 base64 编码的图片数据(`data:image/png;base64,...`)
|
|
511
|
-
- 🚀 **为未来做准备**: 当 MCP 客户端支持时,可直接传递用户粘贴的图片
|
|
512
|
-
|
|
513
|
-
#### 修改
|
|
514
|
-
- 更新工具描述,说明支持三种输入格式:本地路径、URL、Data URI
|
|
515
|
-
- 新增 Data URI 格式验证(MIME 类型、大小限制)
|
|
516
|
-
|
|
517
|
-
### [1.1.0] - 2025-11-13
|
|
518
|
-
|
|
519
|
-
#### 新增
|
|
520
|
-
- 🎉 **多模型支持**: 新增硅基流动 DeepSeek-OCR 支持
|
|
521
|
-
- 🆓 **免费选项**: DeepSeek-OCR 通过硅基流动提供完全免费的 OCR 服务
|
|
522
|
-
- 📐 **统一接口**: 创建 VisionClient 接口,支持灵活扩展更多视觉模型
|
|
523
|
-
- ⚙️ **灵活配置**: 通过 `MODEL_PROVIDER` 环境变量轻松切换模型
|
|
524
|
-
|
|
525
|
-
#### 修改
|
|
526
|
-
- 🔧 环境变量命名优化,支持通用配置(`MODEL_NAME`、`MAX_TOKENS` 等)
|
|
527
|
-
- 📝 更新文档,提供双模型配置说明和选择建议
|
|
528
|
-
- 🏭️ 重构代码结构,提升可维护性
|
|
529
|
-
|
|
530
|
-
#### 技术细节
|
|
531
|
-
- 新增文件:
|
|
532
|
-
- `src/vision-client.ts` - 视觉模型客户端统一接口
|
|
533
|
-
- `src/siliconflow-client.ts` - 硅基流动 API 客户端实现
|
|
534
|
-
- `.env.example` - 配置示例文件
|
|
535
|
-
- 修改文件:
|
|
536
|
-
- `src/config.ts` - 支持多提供商配置
|
|
537
|
-
- `src/zhipu-client.ts` - 实现 VisionClient 接口
|
|
538
|
-
- `src/index.ts` - 根据配置动态选择客户端
|
|
539
|
-
|
|
540
|
-
### [1.0.3] - 2025-11-12
|
|
541
|
-
|
|
542
|
-
- 基于智谱 GLM-4.5V 的视觉理解能力
|
|
543
|
-
- 支持本地文件和远程 URL
|
|
544
|
-
- 内置重试机制
|
|
545
|
-
- 思考模式支持
|
|
546
|
-
|
|
547
536
|
更多更新历史请查看 [CHANGELOG.md](./CHANGELOG.md)
|
|
548
537
|
|
|
549
538
|
## 作者
|
package/build/prompts.d.ts
CHANGED
package/build/prompts.d.ts.map
CHANGED
|
@@ -1 +1 @@
|
|
|
1
|
-
{"version":3,"file":"prompts.d.ts","sourceRoot":"","sources":["../src/prompts.ts"],"names":[],"mappings":"AAAA
|
|
1
|
+
{"version":3,"file":"prompts.d.ts","sourceRoot":"","sources":["../src/prompts.ts"],"names":[],"mappings":"AAAA;;GAEG;AAEH;;GAEG;AACH,wBAAgB,mBAAmB,CAAC,QAAQ,CAAC,EAAE,MAAM,GAAG,MAAM,CAkC7D"}
|
package/build/prompts.js
CHANGED
package/build/prompts.js.map
CHANGED
|
@@ -1 +1 @@
|
|
|
1
|
-
{"version":3,"file":"prompts.js","sourceRoot":"","sources":["../src/prompts.ts"],"names":[],"mappings":"AAAA
|
|
1
|
+
{"version":3,"file":"prompts.js","sourceRoot":"","sources":["../src/prompts.ts"],"names":[],"mappings":"AAAA;;GAEG;AAEH;;GAEG;AACH,MAAM,UAAU,mBAAmB,CAAC,QAAiB;IACnD,IAAI,QAAQ,EAAE,CAAC;QACb,gBAAgB;QAChB,OAAO;;;;EAIT,QAAQ;;;;;;;;;;;CAWT,CAAC,IAAI,EAAE,CAAC;IACP,CAAC;SAAM,CAAC;QACN,aAAa;QACb,OAAO;;;;;;;;;;;CAWV,CAAC,IAAI,EAAE,CAAC;IACP,CAAC;AACH,CAAC"}
|
package/package.json
CHANGED
|
@@ -1,7 +1,7 @@
|
|
|
1
1
|
{
|
|
2
2
|
"name": "luma-mcp",
|
|
3
|
-
"version": "1.2.
|
|
4
|
-
"description": "Multi-model vision understanding MCP server. Supports GLM-4.5V (Zhipu), DeepSeek-OCR (SiliconFlow - Free), and Qwen3-VL-
|
|
3
|
+
"version": "1.2.1",
|
|
4
|
+
"description": "Multi-model vision understanding MCP server. Supports GLM-4.5V (Zhipu), DeepSeek-OCR (SiliconFlow - Free), and Qwen3-VL-Flash (Aliyun)",
|
|
5
5
|
"type": "module",
|
|
6
6
|
"bin": {
|
|
7
7
|
"luma-mcp": "build/index.js"
|