@lobehub/chat 1.115.0 → 1.116.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (98) hide show
  1. package/.cursor/rules/add-provider-doc.mdc +183 -0
  2. package/.env.example +8 -0
  3. package/.github/workflows/release.yml +3 -3
  4. package/.github/workflows/test.yml +3 -7
  5. package/CHANGELOG.md +25 -0
  6. package/CLAUDE.md +6 -6
  7. package/Dockerfile +5 -1
  8. package/Dockerfile.database +5 -1
  9. package/Dockerfile.pglite +5 -1
  10. package/changelog/v1.json +9 -0
  11. package/docs/development/basic/setup-development.mdx +10 -13
  12. package/docs/development/basic/setup-development.zh-CN.mdx +9 -12
  13. package/docs/self-hosting/environment-variables/model-provider.mdx +27 -2
  14. package/docs/self-hosting/environment-variables/model-provider.zh-CN.mdx +27 -2
  15. package/docs/usage/providers/bfl.mdx +68 -0
  16. package/docs/usage/providers/bfl.zh-CN.mdx +67 -0
  17. package/locales/ar/components.json +11 -0
  18. package/locales/ar/error.json +11 -0
  19. package/locales/ar/models.json +64 -4
  20. package/locales/ar/providers.json +3 -0
  21. package/locales/bg-BG/components.json +11 -0
  22. package/locales/bg-BG/error.json +11 -0
  23. package/locales/bg-BG/models.json +64 -4
  24. package/locales/bg-BG/providers.json +3 -0
  25. package/locales/de-DE/components.json +11 -0
  26. package/locales/de-DE/error.json +11 -12
  27. package/locales/de-DE/models.json +64 -4
  28. package/locales/de-DE/providers.json +3 -0
  29. package/locales/en-US/components.json +6 -0
  30. package/locales/en-US/error.json +11 -12
  31. package/locales/en-US/models.json +64 -4
  32. package/locales/en-US/providers.json +3 -0
  33. package/locales/es-ES/components.json +11 -0
  34. package/locales/es-ES/error.json +11 -0
  35. package/locales/es-ES/models.json +64 -6
  36. package/locales/es-ES/providers.json +3 -0
  37. package/locales/fa-IR/components.json +11 -0
  38. package/locales/fa-IR/error.json +11 -0
  39. package/locales/fa-IR/models.json +64 -4
  40. package/locales/fa-IR/providers.json +3 -0
  41. package/locales/fr-FR/components.json +11 -0
  42. package/locales/fr-FR/error.json +11 -12
  43. package/locales/fr-FR/models.json +64 -4
  44. package/locales/fr-FR/providers.json +3 -0
  45. package/locales/it-IT/components.json +11 -0
  46. package/locales/it-IT/error.json +11 -0
  47. package/locales/it-IT/models.json +64 -4
  48. package/locales/it-IT/providers.json +3 -0
  49. package/locales/ja-JP/components.json +11 -0
  50. package/locales/ja-JP/error.json +11 -12
  51. package/locales/ja-JP/models.json +64 -4
  52. package/locales/ja-JP/providers.json +3 -0
  53. package/locales/ko-KR/components.json +11 -0
  54. package/locales/ko-KR/error.json +11 -12
  55. package/locales/ko-KR/models.json +64 -6
  56. package/locales/ko-KR/providers.json +3 -0
  57. package/locales/nl-NL/components.json +11 -0
  58. package/locales/nl-NL/error.json +11 -0
  59. package/locales/nl-NL/models.json +62 -4
  60. package/locales/nl-NL/providers.json +3 -0
  61. package/locales/pl-PL/components.json +11 -0
  62. package/locales/pl-PL/error.json +11 -0
  63. package/locales/pl-PL/models.json +64 -4
  64. package/locales/pl-PL/providers.json +3 -0
  65. package/locales/pt-BR/components.json +11 -0
  66. package/locales/pt-BR/error.json +11 -0
  67. package/locales/pt-BR/models.json +64 -4
  68. package/locales/pt-BR/providers.json +3 -0
  69. package/locales/ru-RU/components.json +11 -0
  70. package/locales/ru-RU/error.json +11 -0
  71. package/locales/ru-RU/models.json +64 -4
  72. package/locales/ru-RU/providers.json +3 -0
  73. package/locales/tr-TR/components.json +11 -0
  74. package/locales/tr-TR/error.json +11 -0
  75. package/locales/tr-TR/models.json +64 -4
  76. package/locales/tr-TR/providers.json +3 -0
  77. package/locales/vi-VN/components.json +11 -0
  78. package/locales/vi-VN/error.json +11 -0
  79. package/locales/vi-VN/models.json +64 -4
  80. package/locales/vi-VN/providers.json +3 -0
  81. package/locales/zh-CN/components.json +6 -0
  82. package/locales/zh-CN/error.json +11 -0
  83. package/locales/zh-CN/models.json +64 -4
  84. package/locales/zh-CN/providers.json +3 -0
  85. package/locales/zh-TW/components.json +11 -0
  86. package/locales/zh-TW/error.json +11 -12
  87. package/locales/zh-TW/models.json +64 -6
  88. package/locales/zh-TW/providers.json +3 -0
  89. package/package.json +1 -1
  90. package/packages/model-runtime/src/google/index.ts +3 -0
  91. package/packages/model-runtime/src/qwen/createImage.test.ts +0 -19
  92. package/packages/model-runtime/src/qwen/createImage.ts +1 -27
  93. package/packages/model-runtime/src/utils/streams/google-ai.ts +26 -14
  94. package/packages/types/src/aiModel.ts +2 -1
  95. package/src/config/aiModels/google.ts +22 -1
  96. package/src/config/aiModels/qwen.ts +2 -2
  97. package/src/config/aiModels/vertexai.ts +22 -0
  98. package/.cursor/rules/debug.mdc +0 -193
@@ -332,12 +332,21 @@
332
332
  "Qwen/Qwen3-30B-A3B-Instruct-2507": {
333
333
  "description": "Qwen3-30B-A3B-Instruct-2507 是 Qwen3-30B-A3B 非思考模式的更新版本。这是一个拥有 305 亿总参数和 33 亿激活参数的混合专家(MoE)模型。该模型在多个方面进行了关键增强,包括显著提升了指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用等通用能力。同时,它在多语言的长尾知识覆盖范围上取得了实质性进展,并能更好地与用户在主观和开放式任务中的偏好对齐,从而能够生成更有帮助的回复和更高质量的文本。此外,该模型的长文本理解能力也增强到了 256K。此模型仅支持非思考模式,其输出中不会生成 `<think></think>` 标签。"
334
334
  },
335
+ "Qwen/Qwen3-30B-A3B-Thinking-2507": {
336
+ "description": "Qwen3-30B-A3B-Thinking-2507 是由阿里巴巴通义千问团队发布的 Qwen3 系列的最新思考模型。作为一个拥有 305 亿总参数和 33 亿激活参数的混合专家(MoE)模型,它专注于提升复杂任务的处理能力。该模型在逻辑推理、数学、科学、编程和需要人类专业知识的学术基准测试上表现出显著的性能提升。同时,它在指令遵循、工具使用、文本生成和与人类偏好对齐等通用能力方面也得到了显著增强。模型原生支持 256K 的长上下文理解能力,并可扩展至 100 万 tokens。此版本专为“思考模式”设计,旨在通过详尽的逐步推理来解决高度复杂的任务,其 Agent 智能体能力也表现出色。"
337
+ },
335
338
  "Qwen/Qwen3-32B": {
336
339
  "description": "Qwen3是一款能力大幅提升的新一代通义千问大模型,在推理、通用、Agent和多语言等多个核心能力上均达到业界领先水平,并支持思考模式切换。"
337
340
  },
338
341
  "Qwen/Qwen3-8B": {
339
342
  "description": "Qwen3是一款能力大幅提升的新一代通义千问大模型,在推理、通用、Agent和多语言等多个核心能力上均达到业界领先水平,并支持思考模式切换。"
340
343
  },
344
+ "Qwen/Qwen3-Coder-30B-A3B-Instruct": {
345
+ "description": "Qwen3-Coder-30B-A3B-Instruct 是由阿里巴巴通义千问团队开发的 Qwen3 系列中的代码模型。作为一个经过精简优化的模型,它在保持高性能和高效率的同时,专注于提升代码处理能力。该模型在代理式编程(Agentic Coding)、自动化浏览器操作和工具调用等复杂任务上,于开源模型中表现出显著的性能优势。它原生支持 256K tokens 的长上下文,并可扩展至 1M tokens,从而能够更好地进行代码库级别的理解和处理。此外,该模型为 Qwen Code、CLINE 等平台提供了强大的代理编码支持,并设计了专门的函数调用格式。"
346
+ },
347
+ "Qwen/Qwen3-Coder-480B-A35B-Instruct": {
348
+ "description": "Qwen3-Coder-480B-A35B-Instruct 是由阿里巴巴发布的、迄今为止最具代理(Agentic)能力的代码模型。它是一个拥有 4800 亿总参数和 350 亿激活参数的混合专家(MoE)模型,在效率和性能之间取得了平衡。该模型原生支持 256K(约 26 万) tokens 的上下文长度,并可通过 YaRN 等外推方法扩展至 100 万 tokens,使其能够处理大规模代码库和复杂的编程任务。Qwen3-Coder 专为代理式编码工作流设计,不仅能生成代码,还能与开发工具和环境自主交互,以解决复杂的编程问题。在多个编码和代理任务的基准测试中,该模型在开源模型中取得了顶尖水平,其性能可与 Claude Sonnet 4 等领先模型相媲美。"
349
+ },
341
350
  "Qwen2-72B-Instruct": {
342
351
  "description": "Qwen2 是 Qwen 模型的最新系列,支持 128k 上下文,对比当前最优的开源模型,Qwen2-72B 在自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型。"
343
352
  },
@@ -1103,12 +1112,27 @@
1103
1112
  "flux-dev": {
1104
1113
  "description": "FLUX.1 [dev] 是一款面向非商业应用的开源权重、精炼模型。FLUX.1 [dev] 在保持了与FLUX专业版相近的图像质量和指令遵循能力的同时,具备更高的运行效率。相较于同尺寸的标准模型,它在资源利用上更为高效。"
1105
1114
  },
1115
+ "flux-kontext-max": {
1116
+ "description": "最先进的上下文图像生成和编辑——结合文本和图像以获得精确、连贯的结果。"
1117
+ },
1118
+ "flux-kontext-pro": {
1119
+ "description": "最先进的上下文图像生成和编辑——结合文本和图像以获得精确、连贯的结果。"
1120
+ },
1106
1121
  "flux-kontext/dev": {
1107
1122
  "description": "专注于图像编辑任务的FLUX.1模型,支持文本和图像输入。"
1108
1123
  },
1109
1124
  "flux-merged": {
1110
1125
  "description": "FLUX.1-merged 模型结合了 \"DEV\" 在开发阶段探索的深度特性和 \"Schnell\" 所代表的高速执行优势。通过这一举措,FLUX.1-merged 不仅提升了模型的性能界限,还拓宽了其应用范围。"
1111
1126
  },
1127
+ "flux-pro": {
1128
+ "description": "顶级商用AI图像生成模型——无与伦比的图像质量和多样化输出表现。"
1129
+ },
1130
+ "flux-pro-1.1": {
1131
+ "description": "升级版专业级AI图像生成模型——提供卓越的图像质量和精确的提示词遵循能力。"
1132
+ },
1133
+ "flux-pro-1.1-ultra": {
1134
+ "description": "超高分辨率AI图像生成——支持4兆像素输出,10秒内生成超清图像。"
1135
+ },
1112
1136
  "flux-pro/kontext": {
1113
1137
  "description": "FLUX.1 Kontext [pro] 能够处理文本和参考图像作为输入,无缝实现目标性的局部编辑和复杂的整体场景变换。"
1114
1138
  },
@@ -1193,6 +1217,9 @@
1193
1217
  "gemini-2.5-flash": {
1194
1218
  "description": "Gemini 2.5 Flash 是 Google 性价比最高的模型,提供全面的功能。"
1195
1219
  },
1220
+ "gemini-2.5-flash-image-preview": {
1221
+ "description": "Gemini 2.5 Flash Image Preview 是 Google 最新、最快、最高效的原生多模态模型,它允许您通过对话生成和编辑图像。"
1222
+ },
1196
1223
  "gemini-2.5-flash-lite": {
1197
1224
  "description": "Gemini 2.5 Flash-Lite 是 Google 最小、性价比最高的模型,专为大规模使用而设计。"
1198
1225
  },
@@ -1295,6 +1322,9 @@
1295
1322
  "glm-4.5-x": {
1296
1323
  "description": "GLM-4.5 的极速版,在性能强劲的同时,生成速度可达 100 tokens/秒。"
1297
1324
  },
1325
+ "glm-4.5v": {
1326
+ "description": "智谱新一代基于 MOE 架构的视觉推理模型,以106B的总参数量和12B激活参数量,在各类基准测试中达到全球同级别开源多模态模型 SOTA,涵盖图像、视频、文档理解及 GUI 任务等常见任务。"
1327
+ },
1298
1328
  "glm-4v": {
1299
1329
  "description": "GLM-4V 提供强大的图像理解与推理能力,支持多种视觉任务。"
1300
1330
  },
@@ -1434,7 +1464,7 @@
1434
1464
  "description": "GPT-4.1 nano 是最快,最具成本效益的GPT-4.1模型。"
1435
1465
  },
1436
1466
  "gpt-4.5-preview": {
1437
- "description": "GPT-4.5 的研究预览版,它是我们迄今为止最大、最强大的 GPT 模型。它拥有广泛的世界知识,并能更好地理解用户意图,使其在创造性任务和自主规划方面表现出色。GPT-4.5 可接受文本和图像输入,并生成文本输出(包括结构化输出)。支持关键的开发者功能,如函数调用、批量 API 和流式输出。在需要创造性、开放式思考和对话的任务(如写作、学习或探索新想法)中,GPT-4.5 表现尤为出色。知识截止日期为 2023 10 月。"
1467
+ "description": "GPT-4.5-preview 是最新的通用模型,具有深厚的世界知识和对用户意图的更好理解,擅长创意任务和代理规划。该模型的知识截止2023年10月。"
1438
1468
  },
1439
1469
  "gpt-4o": {
1440
1470
  "description": "ChatGPT-4o 是一款动态模型,实时更新以保持当前最新版本。它结合了强大的语言理解与生成能力,适合于大规模应用场景,包括客户服务、教育和技术支持。"
@@ -1637,9 +1667,18 @@
1637
1667
  "image-01-live": {
1638
1668
  "description": "图像生成模型,画面表现细腻,支持文生图并进行画风设置"
1639
1669
  },
1670
+ "imagen-4.0-fast-generate-001": {
1671
+ "description": "Imagen 4th generation text-to-image model series Fast version"
1672
+ },
1673
+ "imagen-4.0-generate-001": {
1674
+ "description": "Imagen 4th generation text-to-image model series"
1675
+ },
1640
1676
  "imagen-4.0-generate-preview-06-06": {
1641
1677
  "description": "Imagen 4th generation text-to-image model series"
1642
1678
  },
1679
+ "imagen-4.0-ultra-generate-001": {
1680
+ "description": "Imagen 4th generation text-to-image model series Ultra version"
1681
+ },
1643
1682
  "imagen-4.0-ultra-generate-preview-06-06": {
1644
1683
  "description": "Imagen 4th generation text-to-image model series Ultra version"
1645
1684
  },
@@ -1679,6 +1718,9 @@
1679
1718
  "kimi-k2-0711-preview": {
1680
1719
  "description": "kimi-k2 是一款具备超强代码和 Agent 能力的 MoE 架构基础模型,总参数 1T,激活参数 32B。在通用知识推理、编程、数学、Agent 等主要类别的基准性能测试中,K2 模型的性能超过其他主流开源模型。"
1681
1720
  },
1721
+ "kimi-k2-turbo-preview": {
1722
+ "description": "kimi-k2 是一款具备超强代码和 Agent 能力的 MoE 架构基础模型,总参数 1T,激活参数 32B。在通用知识推理、编程、数学、Agent 等主要类别的基准性能测试中,K2 模型的性能超过其他主流开源模型。"
1723
+ },
1682
1724
  "kimi-latest": {
1683
1725
  "description": "Kimi 智能助手产品使用最新的 Kimi 大模型,可能包含尚未稳定的特性。支持图片理解,同时会自动根据请求的上下文长度选择 8k/32k/128k 模型作为计费模型"
1684
1726
  },
@@ -1763,6 +1805,9 @@
1763
1805
  "llava:34b": {
1764
1806
  "description": "LLaVA 是结合视觉编码器和 Vicuna 的多模态模型,用于强大的视觉和语言理解。"
1765
1807
  },
1808
+ "magistral-medium-latest": {
1809
+ "description": "Magistral Medium 1.1 是 Mistral AI 于2025年7月发布的前沿级推理模型。"
1810
+ },
1766
1811
  "mathstral": {
1767
1812
  "description": "MathΣtral 专为科学研究和数学推理设计,提供有效的计算能力和结果解释。"
1768
1813
  },
@@ -2094,7 +2139,7 @@
2094
2139
  "description": "o1-mini是一款针对编程、数学和科学应用场景而设计的快速、经济高效的推理模型。该模型具有128K上下文和2023年10月的知识截止日期。"
2095
2140
  },
2096
2141
  "o1-preview": {
2097
- "description": "o1是OpenAI新的推理模型,适用于需要广泛通用知识的复杂任务。该模型具有128K上下文和2023年10月的知识截止日期。"
2142
+ "description": "专注于高级推理和解决复杂问题,包括数学和科学任务。非常适合需要深度上下文理解和自主工作流程的应用。"
2098
2143
  },
2099
2144
  "o1-pro": {
2100
2145
  "description": "o1 系列模型经过强化学习训练,能够在回答前进行思考,并执行复杂的推理任务。o1-pro 模型使用了更多计算资源,以进行更深入的思考,从而持续提供更优质的回答。"
@@ -2213,8 +2258,14 @@
2213
2258
  "qwen-coder-turbo-latest": {
2214
2259
  "description": "通义千问代码模型。"
2215
2260
  },
2261
+ "qwen-flash": {
2262
+ "description": "通义千问系列速度最快、成本极低的模型,适合简单任务。"
2263
+ },
2216
2264
  "qwen-image": {
2217
- "description": "Qwen团队带来的强大生图模型,具有令人印象深刻的中文文字生成能力和多样图片视觉风格。"
2265
+ "description": "Qwen-Image 是一款通用图像生成模型,支持多种艺术风格,尤其擅长复杂文本渲染,特别是中英文文本渲染。模型支持多行布局、段落级文本生成以及细粒度细节刻画,可实现复杂的图文混合布局设计。"
2266
+ },
2267
+ "qwen-image-edit": {
2268
+ "description": "Qwen 团队发布的专业图像编辑模型,支持语义编辑和外观编辑,能够精确编辑中英文文字,实现风格转换、对象旋转等高质量图像编辑。"
2218
2269
  },
2219
2270
  "qwen-long": {
2220
2271
  "description": "通义千问超大规模语言模型,支持长文本上下文,以及基于长文档、多文档等多个场景的对话功能。"
@@ -2241,7 +2292,7 @@
2241
2292
  "description": "通义千问超大规模语言模型增强版,支持中文、英文等不同语言输入。"
2242
2293
  },
2243
2294
  "qwen-turbo": {
2244
- "description": "通义千问超大规模语言模型,支持中文、英文等不同语言输入。"
2295
+ "description": "通义千问 Turbo 后续不再更新,建议替换为通义千问 Flash 。通义千问超大规模语言模型,支持中文、英文等不同语言输入。"
2245
2296
  },
2246
2297
  "qwen-vl-chat-v1": {
2247
2298
  "description": "通义千问VL支持灵活的交互方式,包括多图、多轮问答、创作等能力的模型。"
@@ -2558,9 +2609,15 @@
2558
2609
  "step-2x-large": {
2559
2610
  "description": "阶跃星辰新一代生图模型,该模型专注于图像生成任务,能够根据用户提供的文本描述,生成高质量的图像。新模型生成图片质感更真实,中英文文字生成能力更强。"
2560
2611
  },
2612
+ "step-3": {
2613
+ "description": "该模型拥有强大的视觉感知和复杂推理能力。可准确完成跨领域的复杂知识理解、数学与视觉信息的交叉分析,以及日常生活中的各类视觉分析问题。"
2614
+ },
2561
2615
  "step-r1-v-mini": {
2562
2616
  "description": "该模型是拥有强大的图像理解能力的推理大模型,能够处理图像和文字信息,经过深度思考后输出文本生成文本内容。该模型在视觉推理领域表现突出,同时拥有第一梯队的数学、代码、文本推理能力。上下文长度为100k。"
2563
2617
  },
2618
+ "stepfun-ai/step3": {
2619
+ "description": "Step3 是由阶跃星辰(StepFun)发布的前沿多模态推理模型,它基于拥有 321B 总参数和 38B 激活参数的专家混合(MoE)架构构建。该模型采用端到端设计,旨在最小化解码成本,同时在视觉语言推理方面提供顶级性能。通过多矩阵分解注意力(MFA)和注意力-FFN 解耦(AFD)的协同设计,Step3 在旗舰级和低端加速器上都能保持卓越的效率。在预训练阶段,Step3 处理了超过 20T 的文本 token 和 4T 的图文混合 token,覆盖十多种语言。该模型在数学、代码及多模态等多个基准测试中均达到了开源模型的领先水平。"
2620
+ },
2564
2621
  "taichu_llm": {
2565
2622
  "description": "基于海量高质数据训练,具有更强的文本理解、内容创作、对话问答等能力"
2566
2623
  },
@@ -2707,5 +2764,8 @@
2707
2764
  },
2708
2765
  "zai-org/GLM-4.5-Air": {
2709
2766
  "description": "GLM-4.5-Air 是一款专为智能体应用打造的基础模型,使用了混合专家(Mixture-of-Experts)架构。在工具调用、网页浏览、软件工程、前端编程领域进行了深度优化,支持无缝接入 Claude Code、Roo Code 等代码智能体中使用。GLM-4.5 采用混合推理模式,可以适应复杂推理和日常使用等多种应用场景。"
2767
+ },
2768
+ "zai-org/GLM-4.5V": {
2769
+ "description": "GLM-4.5V 是由智谱 AI(Zhipu AI)发布的最新一代视觉语言模型(VLM)该模型基于拥有 106B 总参数和 12B 激活参数的旗舰文本模型 GLM-4.5-Air 构建,采用了混合专家(MoE)架构,旨在以更低的推理成本实现卓越性能 GLM-4.5V 在技术上延续了 GLM-4.1V-Thinking 的路线,并引入了三维旋转位置编码(3D-RoPE)等创新,显著增强了对三维空间关系的感知与推理能力。通过在预训练、监督微调和强化学习阶段的优化,该模型具备了处理图像、视频、长文档等多种视觉内容的能力,在 41 个公开的多模态基准测试中达到了同级别开源模型的顶尖水平此外,模型还新增了“思考模式”开关,允许用户在快速响应和深度推理之间灵活选择,以平衡效率与效果。"
2710
2770
  }
2711
2771
  }
@@ -26,6 +26,9 @@
26
26
  "bedrock": {
27
27
  "description": "Bedrock 是亚马逊 AWS 提供的一项服务,专注于为企业提供先进的 AI 语言模型和视觉模型。其模型家族包括 Anthropic 的 Claude 系列、Meta 的 Llama 3.1 系列等,涵盖从轻量级到高性能的多种选择,支持文本生成、对话、图像处理等多种任务,适用于不同规模和需求的企业应用。"
28
28
  },
29
+ "bfl": {
30
+ "description": "领先的前沿人工智能研究实验室,构建明日的视觉基础设施。"
31
+ },
29
32
  "cloudflare": {
30
33
  "description": "在 Cloudflare 的全球网络上运行由无服务器 GPU 驱动的机器学习模型。"
31
34
  },
@@ -1,4 +1,9 @@
1
1
  {
2
+ "ArgsInput": {
3
+ "addArgument": "新增參數",
4
+ "argumentPlaceholder": "參數 {{index}}",
5
+ "enterFirstArgument": "輸入第一個參數..."
6
+ },
2
7
  "DragUpload": {
3
8
  "dragDesc": "拖曳檔案到這裡,支援上傳多個圖片。",
4
9
  "dragFileDesc": "拖曳圖片和檔案到這裡,支援上傳多個圖片和檔案。",
@@ -125,6 +130,12 @@
125
130
  },
126
131
  "progress": {
127
132
  "uploadingWithCount": "{{completed}}/{{total}} 已上傳"
133
+ },
134
+ "validation": {
135
+ "fileSizeExceeded": "檔案大小已超過限制",
136
+ "fileSizeExceededDetail": "{{fileName}}({{actualSize}})超過最大檔案大小限制 {{maxSize}}",
137
+ "fileSizeExceededMultiple": "{{count}} 個檔案超過最大檔案大小限制 {{maxSize}}:{{fileList}}",
138
+ "imageCountExceeded": "圖片數量已超出限制"
128
139
  }
129
140
  },
130
141
  "OllamaSetupGuide": {
@@ -85,6 +85,17 @@
85
85
  "CreateMessageError": "很抱歉,訊息未能正常發送,請複製內容後重新發送,刷新頁面後此訊息將不會保留",
86
86
  "ExceededContextWindow": "當前請求內容超出模型可處理的長度,請減少內容量後重試",
87
87
  "FreePlanLimit": "目前為免費用戶,無法使用該功能,請升級到付費計劃後繼續使用",
88
+ "GoogleAIBlockReason": {
89
+ "BLOCKLIST": "您的內容包含被禁止的詞彙。請檢查並修改您的輸入內容後再試。",
90
+ "IMAGE_SAFETY": "生成的圖像內容因安全因素而被阻擋。請嘗試修改您的圖像生成請求。",
91
+ "LANGUAGE": "您使用的語言暫時不被支援。請嘗試使用英文或其他可支援的語言重新提問。",
92
+ "OTHER": "內容因未知原因而被阻擋。請嘗試重新表述您的請求。",
93
+ "PROHIBITED_CONTENT": "您的請求可能包含違禁內容。請調整您的請求,確保內容符合使用規範。",
94
+ "RECITATION": "您的內容可能涉及版權問題而遭到阻擋。請嘗試使用原創內容或重新表述您的請求。",
95
+ "SAFETY": "您的內容因安全政策而被阻擋。請嘗試調整您的請求內容,避免包含可能有害或不當的內容。",
96
+ "SPII": "您的內容可能包含敏感個人身分資訊。為保護隱私,請移除相關敏感資訊後再試。",
97
+ "default": "內容被阻擋:{{blockReason}}。請調整您的請求內容後再試。"
98
+ },
88
99
  "InsufficientQuota": "很抱歉,該金鑰的配額已達上限,請檢查帳戶餘額是否充足,或增加金鑰配額後再試",
89
100
  "InvalidAccessCode": "密碼不正確或為空,請輸入正確的訪問密碼,或添加自定義 API 金鑰",
90
101
  "InvalidBedrockCredentials": "Bedrock 驗證未通過,請檢查 AccessKeyId/SecretAccessKey 後重試",
@@ -113,18 +124,6 @@
113
124
  "PluginServerError": "外掛伺服器請求回傳錯誤。請根據下面的錯誤資訊檢查您的外掛描述檔案、外掛設定或伺服器實作",
114
125
  "PluginSettingsInvalid": "該外掛需要正確設定後才可以使用。請檢查您的設定是否正確",
115
126
  "ProviderBizError": "請求 {{provider}} 服務出錯,請根據以下資訊排查或重試",
116
-
117
- "GoogleAIBlockReason": {
118
- "BLOCKLIST": "您的內容包含被禁止的詞彙。請檢查並修改您的輸入內容後重試。",
119
- "IMAGE_SAFETY": "生成的圖像內容因安全原因被阻止。請嘗試修改您的圖像生成請求。",
120
- "LANGUAGE": "您使用的語言暫不被支援。請嘗試使用英語或其他支援的語言重新提問。",
121
- "OTHER": "內容因未知原因被阻止。請嘗試重新表述您的請求或聯繫技術支援。",
122
- "PROHIBITED_CONTENT": "您的內容可能包含禁止的內容類型。請調整您的請求,確保內容符合使用規範。",
123
- "RECITATION": "您的內容因可能涉及版權問題而被阻止。請嘗試使用原創內容或重新表述您的請求。",
124
- "SAFETY": "您的內容因安全策略而被阻止。請嘗試調整您的請求內容,避免包含可能的有害或不當內容。",
125
- "SPII": "您的內容可能包含敏感個人身份資訊。為保護隱私,請移除相關敏感資訊後重試。",
126
- "default": "內容被阻止:{{blockReason}}。請調整您的請求內容後重試。"
127
- },
128
127
  "QuotaLimitReached": "很抱歉,當前 Token 用量或請求次數已達該金鑰的配額上限,請增加該金鑰的配額或稍後再試",
129
128
  "StreamChunkError": "流式請求的消息塊解析錯誤,請檢查當前 API 介面是否符合標準規範,或聯繫你的 API 供應商諮詢",
130
129
  "SubscriptionKeyMismatch": "很抱歉,由於系統偶發故障,當前訂閱用量暫時失效,請點擊下方按鈕恢復訂閱,或郵件聯繫我們獲取支持",
@@ -332,12 +332,21 @@
332
332
  "Qwen/Qwen3-30B-A3B-Instruct-2507": {
333
333
  "description": "Qwen3-30B-A3B-Instruct-2507 是 Qwen3-30B-A3B 非思考模式的更新版本。這是一個擁有 305 億總參數和 33 億激活參數的混合專家(MoE)模型。該模型在多個方面進行了關鍵增強,包括顯著提升了指令遵循、邏輯推理、文本理解、數學、科學、編碼和工具使用等通用能力。同時,它在多語言的長尾知識覆蓋範圍上取得了實質性進展,並能更好地與用戶在主觀和開放式任務中的偏好對齊,從而能夠生成更有幫助的回覆和更高品質的文本。此外,該模型的長文本理解能力也增強到了 256K。此模型僅支援非思考模式,其輸出中不會生成 `<think></think>` 標籤。"
334
334
  },
335
+ "Qwen/Qwen3-30B-A3B-Thinking-2507": {
336
+ "description": "Qwen3-30B-A3B-Thinking-2507 是由阿里巴巴通義千問團隊發布的 Qwen3 系列最新的思考型模型。作為一個擁有 305 億總參數與 33 億激活參數的混合專家(MoE)模型,它專注於提升處理複雜任務的能力。該模型在邏輯推理、數學、科學、程式設計以及需仰賴人類專業知識的學術基準測試上,展現出顯著的性能提升。同時,它在指令遵循、工具使用、文本生成及與人類偏好對齊等通用能力方面也有顯著增強。模型原生支援 256K 的長上下文理解能力,並可擴展至 100 萬 tokens。此版本專為「思考模式」設計,旨在透過詳盡的逐步推理來解決高度複雜的任務,其 Agent 智能代理能力亦表現出色。"
337
+ },
335
338
  "Qwen/Qwen3-32B": {
336
339
  "description": "Qwen3 是一款能力大幅提升的新一代通義千問大模型,在推理、通用、Agent 和多語言等多個核心能力上均達到業界領先水平,並支持思考模式切換。"
337
340
  },
338
341
  "Qwen/Qwen3-8B": {
339
342
  "description": "Qwen3 是一款能力大幅提升的新一代通義千問大模型,在推理、通用、Agent 和多語言等多個核心能力上均達到業界領先水平,並支持思考模式切換。"
340
343
  },
344
+ "Qwen/Qwen3-Coder-30B-A3B-Instruct": {
345
+ "description": "Qwen3-Coder-30B-A3B-Instruct 是由阿里巴巴通義千問團隊開發的 Qwen3 系列中的程式碼模型。作為一個經過精簡優化的模型,它在保持高效能與高效率的同時,專注於提升程式碼處理能力。該模型在代理式程式設計(Agentic Coding)、自動化瀏覽器操作與工具呼叫等複雜任務上,在開源模型中展現出顯著的效能優勢。它原生支援 256K tokens 的長上下文,並可擴充至 1M tokens,從而能更好地進行程式碼庫層級的理解與處理。此外,該模型為 Qwen Code、CLINE 等平台提供了強大的代理編碼支援,並設計了專門的函式呼叫格式。"
346
+ },
347
+ "Qwen/Qwen3-Coder-480B-A35B-Instruct": {
348
+ "description": "Qwen3-Coder-480B-A35B-Instruct 是由阿里巴巴發佈的、迄今為止最具代理(Agentic)能力的程式碼模型。它是一個擁有 4,800 億總參數和 350 億激活參數的混合專家(MoE)模型,在效率和效能之間取得了平衡。該模型原生支援 256K(約 26 萬)tokens 的上下文長度,並可透過 YaRN 等外推方法擴展至 100 萬 tokens,使其能夠處理大規模程式碼庫與複雜的程式設計任務。Qwen3-Coder 專為代理式編碼工作流程設計,不僅能產生程式碼,還能與開發工具與環境自主互動,以解決複雜的程式設計問題。在多個編碼與代理任務的基準測試中,該模型在開源模型中達到頂尖水準,其表現可與 Claude Sonnet 4 等領先模型相媲美。"
349
+ },
341
350
  "Qwen2-72B-Instruct": {
342
351
  "description": "Qwen2 是 Qwen 模型的最新系列,支持 128k 上下文,對比當前最優的開源模型,Qwen2-72B 在自然語言理解、知識、代碼、數學及多語言等多項能力上均顯著超越當前領先的模型。"
343
352
  },
@@ -1103,12 +1112,27 @@
1103
1112
  "flux-dev": {
1104
1113
  "description": "FLUX.1 [dev] 是一款面向非商業應用的開源權重、精煉模型。FLUX.1 [dev] 在保持了與 FLUX 專業版相近的圖像品質和指令遵循能力的同時,具備更高的運行效率。相較於同尺寸的標準模型,它在資源利用上更為高效。"
1105
1114
  },
1115
+ "flux-kontext-max": {
1116
+ "description": "最先進的上下文影像生成與編輯——結合文字與影像以獲得精準、連貫的結果。"
1117
+ },
1118
+ "flux-kontext-pro": {
1119
+ "description": "最先進的上下文圖像生成與編輯——結合文字與圖像以獲得精準、連貫的結果。"
1120
+ },
1106
1121
  "flux-kontext/dev": {
1107
1122
  "description": "專注於圖像編輯任務的FLUX.1模型,支援文字和圖像輸入。"
1108
1123
  },
1109
1124
  "flux-merged": {
1110
1125
  "description": "FLUX.1-merged 模型結合了 \"DEV\" 在開發階段探索的深度特性和 \"Schnell\" 所代表的高速執行優勢。透過這一舉措,FLUX.1-merged 不僅提升了模型的性能界限,還拓寬了其應用範圍。"
1111
1126
  },
1127
+ "flux-pro": {
1128
+ "description": "頂級商用 AI 圖像生成模型——無與倫比的圖像品質與多樣化輸出表現。"
1129
+ },
1130
+ "flux-pro-1.1": {
1131
+ "description": "升級版專業級AI圖像生成模型——提供卓越的圖像品質與對提示詞的精準遵從能力。"
1132
+ },
1133
+ "flux-pro-1.1-ultra": {
1134
+ "description": "超高解析度 AI 圖像生成——支援 4 兆像素輸出,10 秒內生成超清圖像。"
1135
+ },
1112
1136
  "flux-pro/kontext": {
1113
1137
  "description": "FLUX.1 Kontext [pro] 能夠處理文字和參考圖像作為輸入,無縫實現目標性的局部編輯和複雜的整體場景變換。"
1114
1138
  },
@@ -1193,6 +1217,9 @@
1193
1217
  "gemini-2.5-flash": {
1194
1218
  "description": "Gemini 2.5 Flash 是 Google 性價比最高的模型,提供全面的功能。"
1195
1219
  },
1220
+ "gemini-2.5-flash-image-preview": {
1221
+ "description": "Gemini 2.5 Flash Image Preview 是 Google 最新、速度最快且效率最高的原生多模態模型,允許您透過對話生成與編輯圖像。"
1222
+ },
1196
1223
  "gemini-2.5-flash-lite": {
1197
1224
  "description": "Gemini 2.5 Flash-Lite 是 Google 最小、性價比最高的模型,專為大規模使用而設計。"
1198
1225
  },
@@ -1295,6 +1322,9 @@
1295
1322
  "glm-4.5-x": {
1296
1323
  "description": "GLM-4.5 的極速版,在性能強勁的同時,生成速度可達 100 tokens/秒。"
1297
1324
  },
1325
+ "glm-4.5v": {
1326
+ "description": "智譜新一代基於 MOE 架構的視覺推理模型,總參數量為106B、激活參數量為12B,在各類基準測試中達到同級別開源多模態模型的全球 SOTA,涵蓋圖像、視訊、文件理解及 GUI 任務等常見任務。"
1327
+ },
1298
1328
  "glm-4v": {
1299
1329
  "description": "GLM-4V提供強大的圖像理解與推理能力,支持多種視覺任務。"
1300
1330
  },
@@ -1433,9 +1463,7 @@
1433
1463
  "gpt-4.1-nano": {
1434
1464
  "description": "GPT-4.1 mini 提供了智能、速度和成本之間的平衡,使其成為許多用例中具吸引力的模型。"
1435
1465
  },
1436
- "gpt-4.5-preview": {
1437
- "description": "GPT-4.5 的研究預覽版,它是我們迄今為止最大、最強大的 GPT 模型。它擁有廣泛的世界知識,並能更好地理解用戶意圖,使其在創造性任務和自主規劃方面表現出色。GPT-4.5 可接受文本和圖像輸入,並生成文本輸出(包括結構化輸出)。支持關鍵的開發者功能,如函數調用、批量 API 和串流輸出。在需要創造性、開放式思考和對話的任務(如寫作、學習或探索新想法)中,GPT-4.5 表現尤為出色。知識截止日期為 2023 年 10 月。"
1438
- },
1466
+ "gpt-4.5-preview": "GPT-4.5-preview 是最新的通用模型,具備深厚的世界知識並能更好地理解使用者意圖,擅長創意任務與代理規劃。此模型的知識截至 2023 年 10 月。",
1439
1467
  "gpt-4o": {
1440
1468
  "description": "ChatGPT-4o是一款動態模型,實時更新以保持當前最新版本。它結合了強大的語言理解與生成能力,適合於大規模應用場景,包括客戶服務、教育和技術支持。"
1441
1469
  },
@@ -1637,9 +1665,18 @@
1637
1665
  "image-01-live": {
1638
1666
  "description": "圖像生成模型,畫面表現細膩,支持文生圖並進行畫風設定。"
1639
1667
  },
1668
+ "imagen-4.0-fast-generate-001": {
1669
+ "description": "Imagen 第4代文字生成影像模型系列(快速版)"
1670
+ },
1671
+ "imagen-4.0-generate-001": {
1672
+ "description": "Imagen 第四代文字生成影像模型系列"
1673
+ },
1640
1674
  "imagen-4.0-generate-preview-06-06": {
1641
1675
  "description": "Imagen 第四代文字轉圖像模型系列"
1642
1676
  },
1677
+ "imagen-4.0-ultra-generate-001": {
1678
+ "description": "Imagen 第四代文字生成影像模型系列 Ultra 版"
1679
+ },
1643
1680
  "imagen-4.0-ultra-generate-preview-06-06": {
1644
1681
  "description": "Imagen 第四代文字轉圖像模型系列 超級版"
1645
1682
  },
@@ -1679,6 +1716,9 @@
1679
1716
  "kimi-k2-0711-preview": {
1680
1717
  "description": "kimi-k2 是一款具備超強程式碼和 Agent 能力的 MoE 架構基礎模型,總參數 1T,激活參數 32B。在通用知識推理、程式設計、數學、Agent 等主要類別的基準性能測試中,K2 模型的性能超越其他主流開源模型。"
1681
1718
  },
1719
+ "kimi-k2-turbo-preview": {
1720
+ "description": "kimi-k2 是一款具備超強程式碼與 Agent 能力的 MoE 架構的基礎模型,總參數 1T,激活參數 32B。在通用知識推理、程式設計、數學與 Agent 等主要類別的基準效能測試中,K2 模型的表現超越其他主流開源模型。"
1721
+ },
1682
1722
  "kimi-latest": {
1683
1723
  "description": "Kimi 智能助手產品使用最新的 Kimi 大模型,可能包含尚未穩定的特性。支持圖片理解,同時會自動根據請求的上下文長度選擇 8k/32k/128k 模型作為計費模型"
1684
1724
  },
@@ -1763,6 +1803,9 @@
1763
1803
  "llava:34b": {
1764
1804
  "description": "LLaVA 是結合視覺編碼器和 Vicuna 的多模態模型,用於強大的視覺和語言理解。"
1765
1805
  },
1806
+ "magistral-medium-latest": {
1807
+ "description": "Magistral Medium 1.1 為 Mistral AI 於 2025 年 7 月發佈的尖端推理模型。"
1808
+ },
1766
1809
  "mathstral": {
1767
1810
  "description": "MathΣtral 專為科學研究和數學推理設計,提供有效的計算能力和結果解釋。"
1768
1811
  },
@@ -2094,7 +2137,7 @@
2094
2137
  "description": "o1-mini是一款針對程式設計、數學和科學應用場景而設計的快速、經濟高效的推理模型。該模型具有128K上下文和2023年10月的知識截止日期。"
2095
2138
  },
2096
2139
  "o1-preview": {
2097
- "description": "o1是OpenAI新的推理模型,適用於需要廣泛通用知識的複雜任務。該模型具有128K上下文和2023年10月的知識截止日期。"
2140
+ "description": "專注於高階推理與解決複雜問題(包括數學與科學任務)。非常適合需要深入上下文理解並能自主執行工作流程的應用。"
2098
2141
  },
2099
2142
  "o1-pro": {
2100
2143
  "description": "o1 系列模型經過強化學習訓練,能夠在回答前進行思考,並執行複雜的推理任務。o1-pro 模型使用了更多計算資源,以進行更深入的思考,從而持續提供更優質的回答。"
@@ -2213,8 +2256,14 @@
2213
2256
  "qwen-coder-turbo-latest": {
2214
2257
  "description": "通義千問代碼模型。"
2215
2258
  },
2259
+ "qwen-flash": {
2260
+ "description": "通義千問系列為速度最快、成本極低的模型,適合用於簡單任務。"
2261
+ },
2216
2262
  "qwen-image": {
2217
- "description": "Qwen團隊帶來的強大生圖模型,具有令人印象深刻的中文文字生成能力和多樣圖片視覺風格。"
2263
+ "description": "Qwen-Image 是一款通用圖像生成模型,支援多種藝術風格,尤其擅長複雜文字渲染,特別是中英文文字的呈現。模型支援多行版式、段落級文字生成以及細緻的細節刻畫,可實現複雜的圖文混合版面設計。"
2264
+ },
2265
+ "qwen-image-edit": {
2266
+ "description": "Qwen 團隊發布的專業圖像編輯模型,支援語意編輯與外觀編輯,能夠精確編輯中文與英文字元,實現風格轉換、物件旋轉等高品質圖像編輯。"
2218
2267
  },
2219
2268
  "qwen-long": {
2220
2269
  "description": "通義千問超大規模語言模型,支持長文本上下文,以及基於長文檔、多文檔等多個場景的對話功能。"
@@ -2241,7 +2290,7 @@
2241
2290
  "description": "通義千問超大規模語言模型增強版,支持中文、英文等不同語言輸入。"
2242
2291
  },
2243
2292
  "qwen-turbo": {
2244
- "description": "通義千問超大規模語言模型,支持中文、英文等不同語言輸入。"
2293
+ "description": "通義千問 Turbo 將不再更新,建議以通義千問 Flash 取代。通義千問為超大規模語言模型,支援中文、英文等多種語言輸入。"
2245
2294
  },
2246
2295
  "qwen-vl-chat-v1": {
2247
2296
  "description": "通義千問VL支持靈活的交互方式,包括多圖、多輪問答、創作等能力的模型。"
@@ -2558,9 +2607,15 @@
2558
2607
  "step-2x-large": {
2559
2608
  "description": "階躍星辰新一代生圖模型,該模型專注於圖像生成任務,能夠根據用戶提供的文本描述,生成高品質的圖像。新模型生成圖片質感更真實,中英文文字生成能力更強。"
2560
2609
  },
2610
+ "step-3": {
2611
+ "description": "該模型具備強大的視覺感知與複雜推理能力,能準確完成跨領域的複雜知識理解、數學與視覺資訊的交叉分析,以及日常生活中各類視覺分析任務。"
2612
+ },
2561
2613
  "step-r1-v-mini": {
2562
2614
  "description": "該模型是擁有強大的圖像理解能力的推理大模型,能夠處理圖像和文字信息,經過深度思考後輸出文本生成文本內容。該模型在視覺推理領域表現突出,同時擁有第一梯隊的數學、程式碼、文本推理能力。上下文長度為100k。"
2563
2615
  },
2616
+ "stepfun-ai/step3": {
2617
+ "description": "Step3 是由階躍星辰(StepFun)發布的前沿多模態推理模型,它基於擁有 321B 總參數和 38B 激活參數的專家混合(MoE)架構構建。該模型採用端到端設計,旨在將解碼成本降到最低,同時在視覺-語言推理方面提供頂級效能。透過多矩陣分解注意力(MFA)與注意力與 FFN 解耦(AFD)的協同設計,Step3 在旗艦級與較低階的加速器上仍能維持卓越效率。在預訓練階段,Step3 處理了超過 20T 的文字 token 與 4T 的圖文混合 token,涵蓋十多種語言。該模型在數學、程式碼及多模態等多項基準測試中,均達到開源模型的領先水準。"
2618
+ },
2564
2619
  "taichu_llm": {
2565
2620
  "description": "紫東太初語言大模型具備超強語言理解能力以及文本創作、知識問答、代碼編程、數學計算、邏輯推理、情感分析、文本摘要等能力。創新性地將大數據預訓練與多源豐富知識相結合,通過持續打磨算法技術,並不斷吸收海量文本數據中詞彙、結構、語法、語義等方面的新知識,實現模型效果不斷進化。為用戶提供更加便捷的信息和服務以及更為智能化的體驗。"
2566
2621
  },
@@ -2707,5 +2762,8 @@
2707
2762
  },
2708
2763
  "zai-org/GLM-4.5-Air": {
2709
2764
  "description": "GLM-4.5-Air 是一款專為智能體應用打造的基礎模型,使用了混合專家(Mixture-of-Experts)架構。在工具調用、網頁瀏覽、軟體工程、前端程式設計領域進行了深度優化,支持無縫接入 Claude Code、Roo Code 等程式碼智能體中使用。GLM-4.5 採用混合推理模式,可以適應複雜推理和日常使用等多種應用場景。"
2765
+ },
2766
+ "zai-org/GLM-4.5V": {
2767
+ "description": "GLM-4.5V 是由智譜 AI(Zhipu AI)發布的最新一代視覺語言模型(VLM)。該模型基於擁有 106B 總參數和 12B 激活參數的旗艦文本模型 GLM-4.5-Air 構建,採用了混合專家(MoE)架構,旨在以更低的推理成本實現卓越性能。GLM-4.5V 在技術上延續了 GLM-4.1V-Thinking 的路線,並引入了三維旋轉位置編碼(3D-RoPE)等創新,顯著增強了對三維空間關係的感知與推理能力。透過在預訓練、監督微調和強化學習階段的優化,該模型具備處理影像、影片、長文檔等多種視覺內容的能力,在 41 個公開的多模態基準測試中達到同級別開源模型的頂尖水準。此外,模型還新增了「思考模式」開關,允許使用者在快速回應與深度推理之間靈活選擇,以平衡效率與效果。"
2710
2768
  }
2711
2769
  }
@@ -26,6 +26,9 @@
26
26
  "bedrock": {
27
27
  "description": "Bedrock 是亞馬遜 AWS 提供的一項服務,專注於為企業提供先進的 AI 語言模型和視覺模型。其模型家族包括 Anthropic 的 Claude 系列、Meta 的 Llama 3.1 系列等,涵蓋從輕量級到高性能的多種選擇,支持文本生成、對話、圖像處理等多種任務,適用於不同規模和需求的企業應用。"
28
28
  },
29
+ "bfl": {
30
+ "description": "領先的前沿人工智慧研究實驗室,打造明日的視覺基礎設施。"
31
+ },
29
32
  "cloudflare": {
30
33
  "description": "在 Cloudflare 的全球網絡上運行由無伺服器 GPU 驅動的機器學習模型。"
31
34
  },
package/package.json CHANGED
@@ -1,6 +1,6 @@
1
1
  {
2
2
  "name": "@lobehub/chat",
3
- "version": "1.115.0",
3
+ "version": "1.116.0",
4
4
  "description": "Lobe Chat - an open-source, high-performance chatbot framework that supports speech synthesis, multimodal, and extensible Function Call plugin system. Supports one-click free deployment of your private ChatGPT/LLM web application.",
5
5
  "keywords": [
6
6
  "framework",
@@ -34,12 +34,14 @@ const modelsWithModalities = new Set([
34
34
  'gemini-2.0-flash-exp',
35
35
  'gemini-2.0-flash-exp-image-generation',
36
36
  'gemini-2.0-flash-preview-image-generation',
37
+ 'gemini-2.5-flash-image-preview',
37
38
  ]);
38
39
 
39
40
  const modelsDisableInstuction = new Set([
40
41
  'gemini-2.0-flash-exp',
41
42
  'gemini-2.0-flash-exp-image-generation',
42
43
  'gemini-2.0-flash-preview-image-generation',
44
+ 'gemini-2.5-flash-image-preview',
43
45
  'gemma-3-1b-it',
44
46
  'gemma-3-4b-it',
45
47
  'gemma-3-12b-it',
@@ -211,6 +213,7 @@ export class LobeGoogleAI implements LobeRuntimeAI {
211
213
  };
212
214
 
213
215
  const inputStartAt = Date.now();
216
+
214
217
  const geminiStreamResponse = await this.client.models.generateContentStream({
215
218
  config,
216
219
  contents,
@@ -327,25 +327,6 @@ describe('createQwenImage', () => {
327
327
  });
328
328
 
329
329
  describe('Error scenarios', () => {
330
- it('should handle unsupported model', async () => {
331
- const payload: CreateImagePayload = {
332
- model: 'unsupported-model',
333
- params: {
334
- prompt: 'Test prompt',
335
- },
336
- };
337
-
338
- await expect(createQwenImage(payload, mockOptions)).rejects.toEqual(
339
- expect.objectContaining({
340
- errorType: 'ProviderBizError',
341
- provider: 'qwen',
342
- }),
343
- );
344
-
345
- // Should not make any fetch calls
346
- expect(fetch).not.toHaveBeenCalled();
347
- });
348
-
349
330
  it('should handle task creation failure', async () => {
350
331
  global.fetch = vi.fn().mockResolvedValueOnce({
351
332
  ok: false,
@@ -19,39 +19,13 @@ interface QwenImageTaskResponse {
19
19
  request_id: string;
20
20
  }
21
21
 
22
- const QwenText2ImageModels = [
23
- 'wan2.2-t2i',
24
- 'wanx2.1-t2i',
25
- 'wanx2.0-t2i',
26
- 'wanx-v1',
27
- 'flux',
28
- 'stable-diffusion',
29
- ];
30
-
31
- const getModelType = (model: string): string => {
32
- // 可以添加其他模型类型的判断
33
- // if (QwenImage2ImageModels.some(prefix => model.startsWith(prefix))) {
34
- // return 'image2image';
35
- // }
36
-
37
- if (QwenText2ImageModels.some((prefix) => model.startsWith(prefix))) {
38
- return 'text2image';
39
- }
40
-
41
- throw new Error(`Unsupported model: ${model}`);
42
- };
43
-
44
22
  /**
45
23
  * Create an image generation task with Qwen API
46
24
  */
47
25
  async function createImageTask(payload: CreateImagePayload, apiKey: string): Promise<string> {
48
26
  const { model, params } = payload;
49
27
  // I can only say that the design of Alibaba Cloud's API is really bad; each model has a different endpoint path.
50
- const modelType = getModelType(model);
51
- const endpoint = `https://dashscope.aliyuncs.com/api/v1/services/aigc/${modelType}/image-synthesis`;
52
- if (!endpoint) {
53
- throw new Error(`No endpoint configured for model type: ${modelType}`);
54
- }
28
+ const endpoint = `https://dashscope.aliyuncs.com/api/v1/services/aigc/text2image/image-synthesis`;
55
29
  log('Creating image task with model: %s, endpoint: %s', model, endpoint);
56
30
 
57
31
  const response = await fetch(endpoint, {
@@ -139,6 +139,31 @@ const transformGoogleGenerativeAIStream = (
139
139
  ];
140
140
  }
141
141
 
142
+ // Check for image data before handling finishReason
143
+ if (Array.isArray(candidate.content?.parts) && candidate.content.parts.length > 0) {
144
+ const part = candidate.content.parts[0];
145
+
146
+ if (part && part.inlineData && part.inlineData.data && part.inlineData.mimeType) {
147
+ const imageChunk = {
148
+ data: `data:${part.inlineData.mimeType};base64,${part.inlineData.data}`,
149
+ id: context.id,
150
+ type: 'base64_image' as const,
151
+ };
152
+
153
+ // If also has finishReason, combine image with finish chunks
154
+ if (candidate.finishReason) {
155
+ const chunks: StreamProtocolChunk[] = [imageChunk];
156
+ if (chunk.usageMetadata) {
157
+ chunks.push(...usageChunks);
158
+ }
159
+ chunks.push({ data: candidate.finishReason, id: context?.id, type: 'stop' });
160
+ return chunks;
161
+ }
162
+
163
+ return imageChunk;
164
+ }
165
+ }
166
+
142
167
  if (candidate.finishReason) {
143
168
  if (chunk.usageMetadata) {
144
169
  return [
@@ -150,23 +175,10 @@ const transformGoogleGenerativeAIStream = (
150
175
  }
151
176
 
152
177
  if (!!text?.trim()) return { data: text, id: context?.id, type: 'text' };
153
-
154
- // streaming the image
155
- if (Array.isArray(candidate.content?.parts) && candidate.content.parts.length > 0) {
156
- const part = candidate.content.parts[0];
157
-
158
- if (part && part.inlineData && part.inlineData.data && part.inlineData.mimeType) {
159
- return {
160
- data: `data:${part.inlineData.mimeType};base64,${part.inlineData.data}`,
161
- id: context.id,
162
- type: 'base64_image',
163
- };
164
- }
165
- }
166
178
  }
167
179
 
168
180
  return {
169
- data: text,
181
+ data: text || '',
170
182
  id: context?.id,
171
183
  type: 'text',
172
184
  };
@@ -121,7 +121,8 @@ export type PricingUnitName =
121
121
  | 'audioInput_cacheRead' // corresponds to ChatModelPricing.cachedAudioInput
122
122
 
123
123
  // Image-based pricing units
124
- | 'imageGeneration'; // for image generation models
124
+ | 'imageGeneration' // for image generation models
125
+ | 'imageOutput';
125
126
 
126
127
  export type PricingUnitType =
127
128
  | 'millionTokens' // per 1M tokens