luma-mcp 1.2.0 → 1.2.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
package/CHANGELOG.md CHANGED
@@ -2,6 +2,22 @@
2
2
 
3
3
  All notable changes to this project will be documented in this file.
4
4
 
5
+ ## [1.2.1] - 2025-11-18
6
+
7
+ ### Changed
8
+ - 📝 **文档优化**: 精简 README,移除冲余配置文件路径说明
9
+ - 📝 **更新日志简化**: 将 README 中的详细更新日志替换为 CHANGELOG.md 链接
10
+ - ✨ **Qwen 测试示例**: 添加 Qwen3-VL-Flash 本地测试命令
11
+ - 💰 **定价信息**: 添加阿里云通义千问定价参考链接
12
+ - 📋 **模型对比**: 更新模型选择表,完善 Qwen3-VL-Flash 信息
13
+ - 🔗 **API Key 获取**: 添加阿里云百炼 API Key 获取指南
14
+ - 📚 **相关链接**: 新增阿里云百炼平台和 Qwen3-VL 文档链接
15
+ - 🐛 **错误信息**: 优化 API 调用失败排查提示,包含阿里云账户
16
+
17
+ ### Fixed
18
+ - 🐛 **描述修正**: 修正 package.json 中模型名称为 qwen3-vl-flash
19
+ - 📝 **注释精简**: 简化 prompts.ts 注释头
20
+
5
21
  ## [1.2.0] - 2025-11-17
6
22
 
7
23
  ### Added
package/README.md CHANGED
@@ -48,10 +48,6 @@ npx luma-mcp
48
48
 
49
49
  #### Claude Desktop
50
50
 
51
- **Windows 配置文件位置**: `%APPDATA%\Claude\claude_desktop_config.json`
52
-
53
- **macOS 配置文件位置**: `~/Library/Application Support/Claude/claude_desktop_config.json`
54
-
55
51
  **方案 A: 使用智谱 GLM-4.5V**:
56
52
 
57
53
  ```json
@@ -229,7 +225,7 @@ claude mcp add -s user luma-mcp --env MODEL_PROVIDER=qwen --env DASHSCOPE_API_KE
229
225
 
230
226
  **注意**: 直接在聊天框粘贴图片,非视觉模型不会自动调用 Luma,需要明确指示。
231
227
 
232
- ### 在 Claude Desktop 中使用
228
+ ### 在 Claude code 中使用
233
229
 
234
230
  配置完成后,在 Claude 对话中可以这样使用:
235
231
 
@@ -272,6 +268,19 @@ $env:SILICONFLOW_API_KEY="your-api-key" # Windows PowerShell
272
268
  npm run test:local ./test.png
273
269
  ```
274
270
 
271
+ **测试阿里云通义千问 Qwen3-VL-Flash**:
272
+ ```bash
273
+ # 设置 API Key 和提供商
274
+ export MODEL_PROVIDER=qwen
275
+ export DASHSCOPE_API_KEY="your-api-key" # macOS/Linux
276
+
277
+ $env:MODEL_PROVIDER="qwen"
278
+ $env:DASHSCOPE_API_KEY="your-api-key" # Windows PowerShell
279
+
280
+ # 测试本地图片
281
+ npm run test:local ./test.png
282
+ ```
283
+
275
284
  **其他测试命令**:
276
285
  ```bash
277
286
  # 测试并提问
@@ -328,31 +337,39 @@ analyze_image({
328
337
 
329
338
  ### 通用配置
330
339
 
331
- | 变量名 | 必需 | 默认值 | 说明 |
332
- |------------------|------|-------------|---------------------------------------|
333
- | `MODEL_PROVIDER` | 否 | `zhipu` | 模型提供商:`zhipu` 或 `siliconflow` |
334
- | `MODEL_NAME` | 否 | 见下文 | 模型名称(自动根据提供商选择) |
335
- | `MAX_TOKENS` | 否 | `4096` | 最大生成 tokens |
336
- | `TEMPERATURE` | 否 | `0.7` | 温度参数 (0-1) |
337
- | `TOP_P` | 否 | `0.7` | Top-p 参数 (0-1) |
338
- | `ENABLE_THINKING`| 否 | `false` | 是否启用思考模式(仅 GLM-4.5V) |
340
+ | 变量名 | 必需 | 默认值 | 说明 |
341
+ |-------------------|------|---------|----------------------------------------------|
342
+ | `MODEL_PROVIDER` | 否 | `zhipu` | 模型提供商:`zhipu`、`siliconflow` 或 `qwen` |
343
+ | `MODEL_NAME` | 否 | 见下文 | 模型名称(自动根据提供商选择) |
344
+ | `MAX_TOKENS` | 否 | `4096` | 最大生成 tokens |
345
+ | `TEMPERATURE` | 否 | `0.7` | 温度参数 (0-1) |
346
+ | `TOP_P` | 否 | `0.7` | Top-p 参数 (0-1) |
347
+ | `ENABLE_THINKING` | 否 | `false` | 是否启用思考模式(GLM-4.5V 和 Qwen3-VL-Flash |
339
348
 
340
349
  ### 智谱 GLM-4.5V 专用
341
350
 
342
- | 变量名 | 必需 | 默认值 | 说明 |
343
- |------------------|---------------------|-------------|----------------------|
344
- | `ZHIPU_API_KEY` | 是(使用智谱时) | - | 智谱 AI 的 API 密钥 |
351
+ | 变量名 | 必需 | 默认值 | 说明 |
352
+ |-----------------|----------------|--------|---------------------|
353
+ | `ZHIPU_API_KEY` | 是(使用智谱时) | - | 智谱 AI 的 API 密钥 |
345
354
 
346
355
  默认模型:`glm-4.5v`
347
356
 
348
357
  ### 硅基流动 DeepSeek-OCR 专用
349
358
 
350
- | 变量名 | 必需 | 默认值 | 说明 |
351
- |------------------------|-------------------------|---------------------------------|----------------------------|
352
- | `SILICONFLOW_API_KEY` | 是(使用硅基流动时) | - | 硅基流动的 API 密钥 |
359
+ | 变量名 | 必需 | 默认值 | 说明 |
360
+ |-----------------------|--------------------|--------|---------------------|
361
+ | `SILICONFLOW_API_KEY` | 是(使用硅基流动时) | - | 硅基流动的 API 密钥 |
353
362
 
354
363
  默认模型:`deepseek-ai/DeepSeek-OCR`
355
364
 
365
+ ### 阿里云通义千问 Qwen3-VL-Flash 专用
366
+
367
+ | 变量名 | 必需 | 默认值 | 说明 |
368
+ |-------------------|------------------|--------|------------------------|
369
+ | `DASHSCOPE_API_KEY` | 是(使用千问时) | - | 阿里云百炼的 API 密钥 |
370
+
371
+ 默认模型:`qwen3-vl-flash`
372
+
356
373
  **思考模式说明**:
357
374
  - 默认开启,提高图片分析的准确性和详细程度
358
375
  - 如需关闭(提高速度、降低成本),请在配置文件中设置:
@@ -426,6 +443,12 @@ luma-mcp/
426
443
  3. 进入 API 管理创建 API Key
427
444
  4. 复制 API Key 到配置文件
428
445
 
446
+ **阿里云通义千问 Qwen3-VL-Flash**:
447
+ 1. 访问 [阿里云百炼平台](https://bailian.console.aliyun.com/)
448
+ 2. 注册/登录账号
449
+ 3. 进入 API-KEY 管理创建 API Key
450
+ 4. 复制 API Key 到配置文件
451
+
429
452
  ### 支持哪些图片格式?
430
453
 
431
454
  支持 JPG、PNG、WebP、GIF 格式。建议使用 JPG 格式以获得更好的压缩率。
@@ -455,7 +478,7 @@ ...
455
478
  ### API 调用失败怎么办?
456
479
 
457
480
  1. 检查 API Key 是否正确
458
- 2. 确认智谱账户余额充足
481
+ 2. 确认账户余额充足(智谱/阿里云)
459
482
  3. 检查网络连接
460
483
  4. 查看日志文件了解详细错误信息
461
484
 
@@ -465,25 +488,29 @@ ...
465
488
 
466
489
  **智谱 GLM-4.5V**: 定价请参考[智谱官方定价](https://open.bigmodel.cn/pricing)。
467
490
 
468
- 典型场景估算(GLM-4.5V):
491
+ **阿里云通义千问 Qwen3-VL-Flash**: 定价请参考[阿里云百炼定价](https://help.aliyun.com/zh/model-studio/getting-started/models)。
492
+
493
+ 典型场景估算:
469
494
  - 简单图片理解: 500-1000 tokens
470
495
  - 代码截图分析: 1500-2500 tokens
471
496
  - 详细 UI 分析: 2000-3000 tokens
472
497
 
473
- 启用思考模式会增加约 20-30% tokens。
498
+ 启用思考模式(GLM-4.5V/Qwen3-VL-Flash)会增加约 20-30% tokens。
474
499
 
475
500
  ### 如何选择模型?
476
501
 
477
- | 特性 | GLM-4.5V(智谱) | DeepSeek-OCR(硅基流动) |
478
- |------------|----------------|------------------------|
479
- | **费用** | 收费 | **完全免费** |
480
- | **中文理解** | 优秀 | 良好 |
481
- | **OCR 能力** | 良好 | **优秀** |
482
- | **思考模式** | 支持 | 不支持 |
483
- | **适用场景** | 通用图片分析 | OCR、文字识别 |
502
+ | 特性 | GLM-4.5V(智谱) | DeepSeek-OCR(硅基流动) | Qwen3-VL-Flash(阿里云) |
503
+ |--------------|----------------|------------------------|------------------------|
504
+ | **费用** | 收费 | **完全免费** | 收费 |
505
+ | **中文理解** | 优秀 | 良好 | **优秀** |
506
+ | **OCR 能力** | 良好 | **优秀** | 优秀 |
507
+ | **思考模式** | 支持 | 不支持 | 支持 |
508
+ | **速度/成本** | 中等 | 免费 | **快速/低成本** |
509
+ | **适用场景** | 通用图片分析 | OCR、文字识别 | 快速分析、3D定位 |
484
510
 
485
511
  **推荐**:
486
512
  - 需要 OCR 或文字识别:选择 **DeepSeek-OCR**(免费)
513
+ - 需要快速低成本分析:选择 **Qwen3-VL-Flash**
487
514
  - 需要深度图片理解:选择 **GLM-4.5V**
488
515
 
489
516
  ## 贡献
@@ -500,50 +527,12 @@ MIT License
500
527
  - [GLM-4.5V 文档](https://docs.bigmodel.cn/cn/guide/models/vlm/glm-4.5v)
501
528
  - [硅基流动平台](https://cloud.siliconflow.cn/)
502
529
  - [DeepSeek-OCR 文档](https://docs.siliconflow.cn/cn/api-reference/chat-completions/chat-completions)
530
+ - [阿里云百炼平台](https://bailian.console.aliyun.com/)
531
+ - [Qwen3-VL 文档](https://help.aliyun.com/zh/model-studio/getting-started/models)
503
532
  - [MCP 协议文档](https://modelcontextprotocol.io/)
504
533
 
505
534
  ## 更新日志
506
535
 
507
- ### [1.1.1] - 2025-11-13
508
-
509
- #### 新增
510
- - 🖼️ **Data URI 支持**: 支持接收 base64 编码的图片数据(`data:image/png;base64,...`)
511
- - 🚀 **为未来做准备**: 当 MCP 客户端支持时,可直接传递用户粘贴的图片
512
-
513
- #### 修改
514
- - 更新工具描述,说明支持三种输入格式:本地路径、URL、Data URI
515
- - 新增 Data URI 格式验证(MIME 类型、大小限制)
516
-
517
- ### [1.1.0] - 2025-11-13
518
-
519
- #### 新增
520
- - 🎉 **多模型支持**: 新增硅基流动 DeepSeek-OCR 支持
521
- - 🆓 **免费选项**: DeepSeek-OCR 通过硅基流动提供完全免费的 OCR 服务
522
- - 📐 **统一接口**: 创建 VisionClient 接口,支持灵活扩展更多视觉模型
523
- - ⚙️ **灵活配置**: 通过 `MODEL_PROVIDER` 环境变量轻松切换模型
524
-
525
- #### 修改
526
- - 🔧 环境变量命名优化,支持通用配置(`MODEL_NAME`、`MAX_TOKENS` 等)
527
- - 📝 更新文档,提供双模型配置说明和选择建议
528
- - 🏭️ 重构代码结构,提升可维护性
529
-
530
- #### 技术细节
531
- - 新增文件:
532
- - `src/vision-client.ts` - 视觉模型客户端统一接口
533
- - `src/siliconflow-client.ts` - 硅基流动 API 客户端实现
534
- - `.env.example` - 配置示例文件
535
- - 修改文件:
536
- - `src/config.ts` - 支持多提供商配置
537
- - `src/zhipu-client.ts` - 实现 VisionClient 接口
538
- - `src/index.ts` - 根据配置动态选择客户端
539
-
540
- ### [1.0.3] - 2025-11-12
541
-
542
- - 基于智谱 GLM-4.5V 的视觉理解能力
543
- - 支持本地文件和远程 URL
544
- - 内置重试机制
545
- - 思考模式支持
546
-
547
536
  更多更新历史请查看 [CHANGELOG.md](./CHANGELOG.md)
548
537
 
549
538
  ## 作者
@@ -1,6 +1,5 @@
1
1
  /**
2
- * 提示词模板
3
- * 参考 Claude Sonnet 4.5 的视觉理解方法
2
+ * 视觉提示词
4
3
  */
5
4
  /**
6
5
  * 构建图片分析提示词
@@ -1 +1 @@
1
- {"version":3,"file":"prompts.d.ts","sourceRoot":"","sources":["../src/prompts.ts"],"names":[],"mappings":"AAAA;;;GAGG;AAEH;;GAEG;AACH,wBAAgB,mBAAmB,CAAC,QAAQ,CAAC,EAAE,MAAM,GAAG,MAAM,CAkC7D"}
1
+ {"version":3,"file":"prompts.d.ts","sourceRoot":"","sources":["../src/prompts.ts"],"names":[],"mappings":"AAAA;;GAEG;AAEH;;GAEG;AACH,wBAAgB,mBAAmB,CAAC,QAAQ,CAAC,EAAE,MAAM,GAAG,MAAM,CAkC7D"}
package/build/prompts.js CHANGED
@@ -1,6 +1,5 @@
1
1
  /**
2
- * 提示词模板
3
- * 参考 Claude Sonnet 4.5 的视觉理解方法
2
+ * 视觉提示词
4
3
  */
5
4
  /**
6
5
  * 构建图片分析提示词
@@ -1 +1 @@
1
- {"version":3,"file":"prompts.js","sourceRoot":"","sources":["../src/prompts.ts"],"names":[],"mappings":"AAAA;;;GAGG;AAEH;;GAEG;AACH,MAAM,UAAU,mBAAmB,CAAC,QAAiB;IACnD,IAAI,QAAQ,EAAE,CAAC;QACb,gBAAgB;QAChB,OAAO;;;;EAIT,QAAQ;;;;;;;;;;;CAWT,CAAC,IAAI,EAAE,CAAC;IACP,CAAC;SAAM,CAAC;QACN,aAAa;QACb,OAAO;;;;;;;;;;;CAWV,CAAC,IAAI,EAAE,CAAC;IACP,CAAC;AACH,CAAC"}
1
+ {"version":3,"file":"prompts.js","sourceRoot":"","sources":["../src/prompts.ts"],"names":[],"mappings":"AAAA;;GAEG;AAEH;;GAEG;AACH,MAAM,UAAU,mBAAmB,CAAC,QAAiB;IACnD,IAAI,QAAQ,EAAE,CAAC;QACb,gBAAgB;QAChB,OAAO;;;;EAIT,QAAQ;;;;;;;;;;;CAWT,CAAC,IAAI,EAAE,CAAC;IACP,CAAC;SAAM,CAAC;QACN,aAAa;QACb,OAAO;;;;;;;;;;;CAWV,CAAC,IAAI,EAAE,CAAC;IACP,CAAC;AACH,CAAC"}
package/package.json CHANGED
@@ -1,7 +1,7 @@
1
1
  {
2
2
  "name": "luma-mcp",
3
- "version": "1.2.0",
4
- "description": "Multi-model vision understanding MCP server. Supports GLM-4.5V (Zhipu), DeepSeek-OCR (SiliconFlow - Free), and Qwen3-VL-Plus (Aliyun)",
3
+ "version": "1.2.1",
4
+ "description": "Multi-model vision understanding MCP server. Supports GLM-4.5V (Zhipu), DeepSeek-OCR (SiliconFlow - Free), and Qwen3-VL-Flash (Aliyun)",
5
5
  "type": "module",
6
6
  "bin": {
7
7
  "luma-mcp": "build/index.js"