@lobehub/chat 1.75.4 → 1.75.5
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/CHANGELOG.md +27 -0
- package/README.md +1 -1
- package/README.zh-CN.md +1 -1
- package/changelog/v1.json +9 -0
- package/docs/self-hosting/advanced/model-list.mdx +5 -3
- package/docs/self-hosting/advanced/model-list.zh-CN.mdx +5 -3
- package/docs/usage/providers/infiniai.zh-CN.mdx +4 -0
- package/locales/ar/models.json +51 -54
- package/locales/ar/providers.json +3 -0
- package/locales/bg-BG/models.json +51 -54
- package/locales/bg-BG/providers.json +3 -0
- package/locales/de-DE/models.json +51 -54
- package/locales/de-DE/providers.json +3 -0
- package/locales/en-US/models.json +51 -54
- package/locales/en-US/providers.json +3 -0
- package/locales/es-ES/models.json +51 -54
- package/locales/es-ES/providers.json +3 -0
- package/locales/fa-IR/models.json +51 -54
- package/locales/fa-IR/providers.json +3 -0
- package/locales/fr-FR/models.json +51 -54
- package/locales/fr-FR/providers.json +3 -0
- package/locales/it-IT/models.json +51 -54
- package/locales/it-IT/providers.json +3 -0
- package/locales/ja-JP/models.json +51 -54
- package/locales/ja-JP/providers.json +3 -0
- package/locales/ko-KR/models.json +51 -54
- package/locales/ko-KR/providers.json +3 -0
- package/locales/nl-NL/models.json +51 -54
- package/locales/nl-NL/providers.json +3 -0
- package/locales/pl-PL/models.json +51 -54
- package/locales/pl-PL/providers.json +3 -0
- package/locales/pt-BR/models.json +51 -54
- package/locales/pt-BR/providers.json +3 -0
- package/locales/ru-RU/models.json +51 -54
- package/locales/ru-RU/providers.json +3 -0
- package/locales/tr-TR/models.json +51 -54
- package/locales/tr-TR/providers.json +3 -0
- package/locales/vi-VN/models.json +51 -54
- package/locales/vi-VN/providers.json +3 -0
- package/locales/zh-CN/models.json +55 -58
- package/locales/zh-CN/providers.json +3 -0
- package/locales/zh-TW/models.json +51 -54
- package/locales/zh-TW/providers.json +3 -0
- package/package.json +1 -1
- package/src/config/aiModels/infiniai.ts +52 -55
- package/src/config/aiModels/siliconcloud.ts +17 -1
- package/src/config/aiModels/tencentcloud.ts +17 -0
- package/src/libs/agent-runtime/infiniai/index.ts +38 -3
- package/src/utils/format.ts +1 -1
- package/src/utils/parseModels.test.ts +14 -0
- package/src/utils/parseModels.ts +4 -0
@@ -1,13 +1,4 @@
|
|
1
1
|
{
|
2
|
-
"01-ai/Yi-1.5-34B-Chat-16K": {
|
3
|
-
"description": "Yi-1.5-34B-Chat-16K 是 Yi-1.5 系列的一个变体,属于开源聊天模型。Yi-1.5 是 Yi 的升级版本,在 500B 个高质量语料上进行了持续预训练,并在 3M 多样化的微调样本上进行了微调。相比于 Yi,Yi-1.5 在编码、数学、推理和指令遵循能力方面表现更强,同时保持了出色的语言理解、常识推理和阅读理解能力。该模型在大多数基准测试中与更大的模型相当或表现更佳,具有 16K 的上下文长度"
|
4
|
-
},
|
5
|
-
"01-ai/Yi-1.5-6B-Chat": {
|
6
|
-
"description": "Yi-1.5-6B-Chat 是 Yi-1.5 系列的一个变体,属于开源聊天模型。Yi-1.5 是 Yi 的升级版本,在 500B 个高质量语料上进行了持续预训练,并在 3M 多样化的微调样本上进行了微调。相比于 Yi,Yi-1.5 在编码、数学、推理和指令遵循能力方面表现更强,同时保持了出色的语言理解、常识推理和阅读理解能力。该模型具有 4K、16K 和 32K 的上下文长度版本,预训练总量达到 3.6T 个 token"
|
7
|
-
},
|
8
|
-
"01-ai/Yi-1.5-9B-Chat-16K": {
|
9
|
-
"description": "Yi-1.5-9B-Chat-16K 是 Yi-1.5 系列的一个变体,属于开源聊天模型。Yi-1.5 是 Yi 的升级版本,在 500B 个高质量语料上进行了持续预训练,并在 3M 多样化的微调样本上进行了微调。相比于 Yi,Yi-1.5 在编码、数学、推理和指令遵循能力方面表现更强,同时保持了出色的语言理解、常识推理和阅读理解能力。该模型在同等规模的开源模型中表现最佳"
|
10
|
-
},
|
11
2
|
"01-ai/yi-1.5-34b-chat": {
|
12
3
|
"description": "零一万物,最新开源微调模型,340亿参数,微调支持多种对话场景,高质量训练数据,对齐人类偏好。"
|
13
4
|
},
|
@@ -149,12 +140,6 @@
|
|
149
140
|
"Llama-3.2-90B-Vision-Instruct\t": {
|
150
141
|
"description": "适用于视觉理解代理应用的高级图像推理能力。"
|
151
142
|
},
|
152
|
-
"LoRA/Qwen/Qwen2.5-72B-Instruct": {
|
153
|
-
"description": "Qwen2.5-72B-Instruct 是阿里云发布的最新大语言模型系列之一。该 72B 模型在编码和数学等领域具有显著改进的能力。该模型还提供了多语言支持,覆盖超过 29 种语言,包括中文、英文等。模型在指令跟随、理解结构化数据以及生成结构化输出(尤其是 JSON)方面都有显著提升"
|
154
|
-
},
|
155
|
-
"LoRA/Qwen/Qwen2.5-7B-Instruct": {
|
156
|
-
"description": "Qwen2.5-7B-Instruct 是阿里云发布的最新大语言模型系列之一。该 7B 模型在编码和数学等领域具有显著改进的能力。该模型还提供了多语言支持,覆盖超过 29 种语言,包括中文、英文等。模型在指令跟随、理解结构化数据以及生成结构化输出(尤其是 JSON)方面都有显著提升"
|
157
|
-
},
|
158
143
|
"Meta-Llama-3.1-405B-Instruct": {
|
159
144
|
"description": "Llama 3.1指令调优的文本模型,针对多语言对话用例进行了优化,在许多可用的开源和封闭聊天模型中,在常见行业基准上表现优异。"
|
160
145
|
},
|
@@ -179,9 +164,6 @@
|
|
179
164
|
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
180
165
|
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) 是高精度的指令模型,适用于复杂计算。"
|
181
166
|
},
|
182
|
-
"OpenGVLab/InternVL2-26B": {
|
183
|
-
"description": "InternVL2-26B 是 InternVL 2.0 系列多模态大语言模型中的一员。该模型由 InternViT-6B-448px-V1-5 视觉模型、MLP 投影层和 internlm2-chat-20b 语言模型组成。它在各种视觉语言任务上展现出了卓越的性能,包括文档和图表理解、场景文本理解、OCR、科学和数学问题解决等。InternVL2-26B 使用 8K 上下文窗口训练,能够处理长文本、多图像和视频输入,显著提升了模型在这些任务上的处理能力"
|
184
|
-
},
|
185
167
|
"Phi-3-medium-128k-instruct": {
|
186
168
|
"description": "相同的Phi-3-medium模型,但具有更大的上下文大小,适用于RAG或少量提示。"
|
187
169
|
},
|
@@ -206,9 +188,6 @@
|
|
206
188
|
"Phi-3.5-vision-instrust": {
|
207
189
|
"description": "Phi-3-vision模型的更新版。"
|
208
190
|
},
|
209
|
-
"Pro/OpenGVLab/InternVL2-8B": {
|
210
|
-
"description": "InternVL2-8B 是 InternVL 2.0 系列多模态大语言模型中的一员。该模型由 InternViT-300M-448px 视觉模型、MLP 投影层和 internlm2_5-7b-chat 语言模型组成。它在各种视觉语言任务上展现出了卓越的性能,包括文档和图表理解、场景文本理解、OCR、科学和数学问题解决等。InternVL2-8B 使用 8K 上下文窗口训练,能够处理长文本、多图像和视频输入,显著提升了模型在这些任务上的处理能力"
|
211
|
-
},
|
212
191
|
"Pro/Qwen/Qwen2-1.5B-Instruct": {
|
213
192
|
"description": "Qwen2-1.5B-Instruct 是 Qwen2 系列中的指令微调大语言模型,参数规模为 1.5B。该模型基于 Transformer 架构,采用了 SwiGLU 激活函数、注意力 QKV 偏置和组查询注意力等技术。它在语言理解、生成、多语言能力、编码、数学和推理等多个基准测试中表现出色,超越了大多数开源模型。与 Qwen1.5-1.8B-Chat 相比,Qwen2-1.5B-Instruct 在 MMLU、HumanEval、GSM8K、C-Eval 和 IFEval 等测试中均显示出显著的性能提升,尽管参数量略少"
|
214
193
|
},
|
@@ -224,20 +203,23 @@
|
|
224
203
|
"Pro/Qwen/Qwen2.5-Coder-7B-Instruct": {
|
225
204
|
"description": "Qwen2.5-Coder-7B-Instruct 是阿里云发布的代码特定大语言模型系列的最新版本。该模型在 Qwen2.5 的基础上,通过 5.5 万亿个 tokens 的训练,显著提升了代码生成、推理和修复能力。它不仅增强了编码能力,还保持了数学和通用能力的优势。模型为代码智能体等实际应用提供了更全面的基础"
|
226
205
|
},
|
206
|
+
"Pro/Qwen/Qwen2.5-VL-7B-Instruct": {
|
207
|
+
"description": "Qwen2.5-VL 是 Qwen 系列的新成员,具备强大的视觉理解能力,能分析图像中的文本、图表和布局,并能理解长视频和捕捉事件,它可以进行推理、操作工具,支持多格式物体定位和生成结构化输出,优化了视频理解的动态分辨率与帧率训练,并提升了视觉编码器效率。"
|
208
|
+
},
|
227
209
|
"Pro/THUDM/glm-4-9b-chat": {
|
228
210
|
"description": "GLM-4-9B-Chat 是智谱 AI 推出的 GLM-4 系列预训练模型中的开源版本。该模型在语义、数学、推理、代码和知识等多个方面表现出色。除了支持多轮对话外,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理等高级功能。模型支持 26 种语言,包括中文、英文、日语、韩语和德语等。在多项基准测试中,GLM-4-9B-Chat 展现了优秀的性能,如 AlignBench-v2、MT-Bench、MMLU 和 C-Eval 等。该模型支持最大 128K 的上下文长度,适用于学术研究和商业应用"
|
229
211
|
},
|
230
212
|
"Pro/deepseek-ai/DeepSeek-R1": {
|
231
213
|
"description": "DeepSeek-R1 是一款强化学习(RL)驱动的推理模型,解决了模型中的重复性和可读性问题。在 RL 之前,DeepSeek-R1 引入了冷启动数据,进一步优化了推理性能。它在数学、代码和推理任务中与 OpenAI-o1 表现相当,并且通过精心设计的训练方法,提升了整体效果。"
|
232
214
|
},
|
233
|
-
"Pro/deepseek-ai/DeepSeek-
|
234
|
-
"description": "DeepSeek-
|
215
|
+
"Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B": {
|
216
|
+
"description": "DeepSeek-R1-Distill-Qwen-1.5B 是基于 Qwen2.5-Math-1.5B 通过知识蒸馏得到的模型。该模型使用 DeepSeek-R1 生成的 80 万个精选样本进行微调,在多个基准测试中展现出不错的性能。作为一个轻量级模型,在 MATH-500 上达到了 83.9% 的准确率,在 AIME 2024 上达到了 28.9% 的通过率,在 CodeForces 上获得了 954 的评分,显示出超出其参数规模的推理能力。"
|
235
217
|
},
|
236
|
-
"Pro/
|
237
|
-
"description": "
|
218
|
+
"Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B": {
|
219
|
+
"description": "DeepSeek-R1-Distill-Qwen-7B 是基于 Qwen2.5-Math-7B 通过知识蒸馏得到的模型。该模型使用 DeepSeek-R1 生成的 80 万个精选样本进行微调,展现出优秀的推理能力。在多个基准测试中表现出色,其中在 MATH-500 上达到了 92.8% 的准确率,在 AIME 2024 上达到了 55.5% 的通过率,在 CodeForces 上获得了 1189 的评分,作为 7B 规模的模型展示了较强的数学和编程能力。"
|
238
220
|
},
|
239
|
-
"Pro/
|
240
|
-
"description": "
|
221
|
+
"Pro/deepseek-ai/DeepSeek-V3": {
|
222
|
+
"description": "DeepSeek-V3 是一款拥有 6710 亿参数的混合专家(MoE)语言模型,采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,结合无辅助损失的负载平衡策略,优化推理和训练效率。通过在 14.8 万亿高质量tokens上预训练,并进行监督微调和强化学习,DeepSeek-V3 在性能上超越其他开源模型,接近领先闭源模型。"
|
241
223
|
},
|
242
224
|
"QwQ-32B-Preview": {
|
243
225
|
"description": "Qwen QwQ 是由 Qwen 团队开发的实验研究模型,专注于提升AI推理能力。"
|
@@ -290,6 +272,12 @@
|
|
290
272
|
"Qwen/Qwen2.5-Coder-7B-Instruct": {
|
291
273
|
"description": "Qwen2.5-Coder-7B-Instruct 是阿里云发布的代码特定大语言模型系列的最新版本。该模型在 Qwen2.5 的基础上,通过 5.5 万亿个 tokens 的训练,显著提升了代码生成、推理和修复能力。它不仅增强了编码能力,还保持了数学和通用能力的优势。模型为代码智能体等实际应用提供了更全面的基础"
|
292
274
|
},
|
275
|
+
"Qwen/Qwen2.5-VL-32B-Instruct": {
|
276
|
+
"description": "Qwen2.5-VL-32B-Instruct 是通义千问团队推出的多模态大模型,是 Qwen2.5-VL 系列的一部分。该模型不仅精通识别常见物体,还能分析图像中的文本、图表、图标、图形和布局。它可作为视觉智能体,能够推理并动态操控工具,具备使用电脑和手机的能力。此外,这个模型可以精确定位图像中的对象,并为发票、表格等生成结构化输出。相比前代模型 Qwen2-VL,该版本在数学和问题解决能力方面通过强化学习得到了进一步提升,响应风格也更符合人类偏好。"
|
277
|
+
},
|
278
|
+
"Qwen/Qwen2.5-VL-72B-Instruct": {
|
279
|
+
"description": "Qwen2.5-VL 是 Qwen2.5 系列中的视觉语言模型。该模型在多方面有显著提升:具备更强的视觉理解能力,能够识别常见物体、分析文本、图表和布局;作为视觉代理能够推理并动态指导工具使用;支持理解超过 1 小时的长视频并捕捉关键事件;能够通过生成边界框或点准确定位图像中的物体;支持生成结构化输出,尤其适用于发票、表格等扫描数据。"
|
280
|
+
},
|
293
281
|
"Qwen2-72B-Instruct": {
|
294
282
|
"description": "Qwen2 是 Qwen 模型的最新系列,支持 128k 上下文,对比当前最优的开源模型,Qwen2-72B 在自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型。"
|
295
283
|
},
|
@@ -374,9 +362,6 @@
|
|
374
362
|
"TeleAI/TeleChat2": {
|
375
363
|
"description": "TeleChat2大模型是由中国电信从0到1自主研发的生成式语义大模型,支持百科问答、代码生成、长文生成等功能,为用户提供对话咨询服务,能够与用户进行对话互动,回答问题,协助创作,高效便捷地帮助用户获取信息、知识和灵感。模型在幻觉问题、长文生成、逻辑理解等方面均有较出色表现。"
|
376
364
|
},
|
377
|
-
"TeleAI/TeleMM": {
|
378
|
-
"description": "TeleMM多模态大模型是由中国电信自主研发的多模态理解大模型,能够处理文本、图像等多种模态输入,支持图像理解、图表分析等功能,为用户提供跨模态的理解服务。模型能够与用户进行多模态交互,准确理解输入内容,回答问题、协助创作,并高效提供多模态信息和灵感支持。在细粒度感知,逻辑推理等多模态任务上有出色表现"
|
379
|
-
},
|
380
365
|
"Vendor-A/Qwen/Qwen2.5-72B-Instruct": {
|
381
366
|
"description": "Qwen2.5-72B-Instruct 是阿里云发布的最新大语言模型系列之一。该 72B 模型在编码和数学等领域具有显著改进的能力。该模型还提供了多语言支持,覆盖超过 29 种语言,包括中文、英文等。模型在指令跟随、理解结构化数据以及生成结构化输出(尤其是 JSON)方面都有显著提升"
|
382
367
|
},
|
@@ -662,9 +647,6 @@
|
|
662
647
|
"deepseek-ai/DeepSeek-R1-Distill-Llama-70B": {
|
663
648
|
"description": "DeepSeek-R1 蒸馏模型,通过强化学习与冷启动数据优化推理性能,开源模型刷新多任务标杆。"
|
664
649
|
},
|
665
|
-
"deepseek-ai/DeepSeek-R1-Distill-Llama-8B": {
|
666
|
-
"description": "DeepSeek-R1-Distill-Llama-8B 是基于 Llama-3.1-8B 开发的蒸馏模型。该模型使用 DeepSeek-R1 生成的样本进行微调,展现出优秀的推理能力。在多个基准测试中表现不俗,其中在 MATH-500 上达到了 89.1% 的准确率,在 AIME 2024 上达到了 50.4% 的通过率,在 CodeForces 上获得了 1205 的评分,作为 8B 规模的模型展示了较强的数学和编程能力。"
|
667
|
-
},
|
668
650
|
"deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B": {
|
669
651
|
"description": "DeepSeek-R1 蒸馏模型,通过强化学习与冷启动数据优化推理性能,开源模型刷新多任务标杆。"
|
670
652
|
},
|
@@ -705,7 +687,7 @@
|
|
705
687
|
"description": "DeepSeek Coder V2 是开源的混合专家代码模型,在代码任务方面表现优异,与 GPT4-Turbo 相媲美。"
|
706
688
|
},
|
707
689
|
"deepseek-r1": {
|
708
|
-
"description": "DeepSeek-R1
|
690
|
+
"description": "DeepSeek-R1 在强化学习(RL)之前引入了冷启动数据,在数学、代码和推理任务上表现可与 OpenAI-o1 相媲美。"
|
709
691
|
},
|
710
692
|
"deepseek-r1-70b-fast-online": {
|
711
693
|
"description": "DeepSeek R1 70B 快速版,支持实时联网搜索,在保持模型性能的同时提供更快的响应速度。"
|
@@ -713,6 +695,9 @@
|
|
713
695
|
"deepseek-r1-70b-online": {
|
714
696
|
"description": "DeepSeek R1 70B 标准版,支持实时联网搜索,适合需要最新信息的对话和文本处理任务。"
|
715
697
|
},
|
698
|
+
"deepseek-r1-distill-llama": {
|
699
|
+
"description": "deepseek-r1-distill-llama 是基于 Llama 从 DeepSeek-R1 蒸馏而来的模型。"
|
700
|
+
},
|
716
701
|
"deepseek-r1-distill-llama-70b": {
|
717
702
|
"description": "DeepSeek-R1-Distill-Llama-70B是DeepSeek-R1基于Llama3.3-70B-Instruct的蒸馏模型。"
|
718
703
|
},
|
@@ -725,6 +710,9 @@
|
|
725
710
|
"deepseek-r1-distill-qianfan-llama-8b": {
|
726
711
|
"description": "2025年2月14日首次发布,由千帆大模型研发团队以 Llama3_8B为base模型(Built with Meta Llama)蒸馏所得,蒸馏数据中也同步添加了千帆的语料。"
|
727
712
|
},
|
713
|
+
"deepseek-r1-distill-qwen": {
|
714
|
+
"description": "deepseek-r1-distill-qwen 是基于 Qwen 从 DeepSeek-R1 蒸馏而来的模型。"
|
715
|
+
},
|
728
716
|
"deepseek-r1-distill-qwen-1.5b": {
|
729
717
|
"description": "DeepSeek-R1-Distill-Qwen-1.5B是DeepSeek-R1基于Qwen-2.5系列的蒸馏模型。"
|
730
718
|
},
|
@@ -753,7 +741,7 @@
|
|
753
741
|
"description": "DeepSeek V2 236B 是 DeepSeek 的设计代码模型,提供强大的代码生成能力。"
|
754
742
|
},
|
755
743
|
"deepseek-v3": {
|
756
|
-
"description": "DeepSeek-V3
|
744
|
+
"description": "DeepSeek-V3 是一个强大的专家混合(MoE)语言模型,拥有总计 6710 亿参数,每个 token 激活 370 亿参数。"
|
757
745
|
},
|
758
746
|
"deepseek/deepseek-chat": {
|
759
747
|
"description": "融合通用与代码能力的全新开源模型, 不仅保留了原有 Chat 模型的通用对话能力和 Coder 模型的强大代码处理能力,还更好地对齐了人类偏好。此外,DeepSeek-V2.5 在写作任务、指令跟随等多个方面也实现了大幅提升。"
|
@@ -872,6 +860,9 @@
|
|
872
860
|
"gemini-1.5-flash-8b-exp-0924": {
|
873
861
|
"description": "Gemini 1.5 Flash 8B 0924 是最新的实验性模型,在文本和多模态用例中都有显著的性能提升。"
|
874
862
|
},
|
863
|
+
"gemini-1.5-flash-8b-latest": {
|
864
|
+
"description": "Gemini 1.5 Flash 8B 是一款高效的多模态模型,支持广泛应用的扩展。"
|
865
|
+
},
|
875
866
|
"gemini-1.5-flash-exp-0827": {
|
876
867
|
"description": "Gemini 1.5 Flash 0827 提供了优化后的多模态处理能力,适用多种复杂任务场景。"
|
877
868
|
},
|
@@ -914,9 +905,6 @@
|
|
914
905
|
"gemini-2.0-flash-lite-preview-02-05": {
|
915
906
|
"description": "一个 Gemini 2.0 Flash 模型,针对成本效益和低延迟等目标进行了优化。"
|
916
907
|
},
|
917
|
-
"gemini-2.0-flash-thinking-exp": {
|
918
|
-
"description": "Gemini 2.0 Flash Thinking Exp 是 Google 的实验性多模态推理AI模型,能对复杂问题进行推理,拥有新的思维能力。"
|
919
|
-
},
|
920
908
|
"gemini-2.0-flash-thinking-exp-01-21": {
|
921
909
|
"description": "Gemini 2.0 Flash Thinking Exp 是 Google 的实验性多模态推理AI模型,能对复杂问题进行推理,拥有新的思维能力。"
|
922
910
|
},
|
@@ -1223,6 +1211,9 @@
|
|
1223
1211
|
"llama-3.1-8b-instant": {
|
1224
1212
|
"description": "Llama 3.1 8B 是一款高效能模型,提供了快速的文本生成能力,非常适合需要大规模效率和成本效益的应用场景。"
|
1225
1213
|
},
|
1214
|
+
"llama-3.1-instruct": {
|
1215
|
+
"description": "Llama 3.1 指令微调模型针对对话场景进行了优化,在常见的行业基准测试中,超越了许多现有的开源聊天模型。"
|
1216
|
+
},
|
1226
1217
|
"llama-3.2-11b-vision-instruct": {
|
1227
1218
|
"description": "在高分辨率图像上表现出色的图像推理能力,适用于视觉理解应用。"
|
1228
1219
|
},
|
@@ -1235,12 +1226,18 @@
|
|
1235
1226
|
"llama-3.2-90b-vision-preview": {
|
1236
1227
|
"description": "Llama 3.2 旨在处理结合视觉和文本数据的任务。它在图像描述和视觉问答等任务中表现出色,跨越了语言生成和视觉推理之间的鸿沟。"
|
1237
1228
|
},
|
1229
|
+
"llama-3.2-vision-instruct": {
|
1230
|
+
"description": "Llama 3.2-Vision 指令微调模型针对视觉识别、图像推理、图像描述和回答与图像相关的常规问题进行了优化。"
|
1231
|
+
},
|
1238
1232
|
"llama-3.3-70b-instruct": {
|
1239
1233
|
"description": "Meta 发布的 LLaMA 3.3 多语言大规模语言模型(LLMs)是一个经过预训练和指令微调的生成模型,提供 70B 规模(文本输入/文本输出)。该模型使用超过 15T 的数据进行训练,支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,知识更新截止于 2023 年 12 月。"
|
1240
1234
|
},
|
1241
1235
|
"llama-3.3-70b-versatile": {
|
1242
1236
|
"description": "Meta Llama 3.3 多语言大语言模型 ( LLM ) 是 70B(文本输入/文本输出)中的预训练和指令调整生成模型。 Llama 3.3 指令调整的纯文本模型针对多语言对话用例进行了优化,并且在常见行业基准上优于许多可用的开源和封闭式聊天模型。"
|
1243
1237
|
},
|
1238
|
+
"llama-3.3-instruct": {
|
1239
|
+
"description": "Llama 3.3 指令微调模型针对对话场景进行了优化,在常见的行业基准测试中,超越了许多现有的开源聊天模型。"
|
1240
|
+
},
|
1244
1241
|
"llama3-70b-8192": {
|
1245
1242
|
"description": "Meta Llama 3 70B 提供无与伦比的复杂性处理能力,为高要求项目量身定制。"
|
1246
1243
|
},
|
@@ -1319,9 +1316,6 @@
|
|
1319
1316
|
"meta-llama/Llama-3.2-90B-Vision-Instruct-Turbo": {
|
1320
1317
|
"description": "LLaMA 3.2 旨在处理结合视觉和文本数据的任务。它在图像描述和视觉问答等任务中表现出色,跨越了语言生成和视觉推理之间的鸿沟。"
|
1321
1318
|
},
|
1322
|
-
"meta-llama/Llama-3.3-70B-Instruct": {
|
1323
|
-
"description": "Llama 3.3 是 Llama 系列最先进的多语言开源大型语言模型,以极低成本体验媲美 405B 模型的性能。基于 Transformer 结构,并通过监督微调(SFT)和人类反馈强化学习(RLHF)提升有用性和安全性。其指令调优版本专为多语言对话优化,在多项行业基准上表现优于众多开源和封闭聊天模型。知识截止日期为 2023 年 12 月"
|
1324
|
-
},
|
1325
1319
|
"meta-llama/Llama-3.3-70B-Instruct-Turbo": {
|
1326
1320
|
"description": "Meta Llama 3.3 多语言大语言模型 ( LLM ) 是 70B(文本输入/文本输出)中的预训练和指令调整生成模型。 Llama 3.3 指令调整的纯文本模型针对多语言对话用例进行了优化,并且在常见行业基准上优于许多可用的开源和封闭式聊天模型。"
|
1327
1321
|
},
|
@@ -1349,15 +1343,9 @@
|
|
1349
1343
|
"meta-llama/Meta-Llama-3.1-70B": {
|
1350
1344
|
"description": "Llama 3.1 是 Meta 推出的领先模型,支持高达 405B 参数,可应用于复杂对话、多语言翻译和数据分析领域。"
|
1351
1345
|
},
|
1352
|
-
"meta-llama/Meta-Llama-3.1-70B-Instruct": {
|
1353
|
-
"description": "Meta Llama 3.1 是由 Meta 开发的多语言大型语言模型家族,包括 8B、70B 和 405B 三种参数规模的预训练和指令微调变体。该 70B 指令微调模型针对多语言对话场景进行了优化,在多项行业基准测试中表现优异。模型训练使用了超过 15 万亿个 tokens 的公开数据,并采用了监督微调和人类反馈强化学习等技术来提升模型的有用性和安全性。Llama 3.1 支持文本生成和代码生成,知识截止日期为 2023 年 12 月"
|
1354
|
-
},
|
1355
1346
|
"meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo": {
|
1356
1347
|
"description": "Llama 3.1 70B 模型经过精细调整,适用于高负载应用,量化至FP8提供更高效的计算能力和准确性,确保在复杂场景中的卓越表现。"
|
1357
1348
|
},
|
1358
|
-
"meta-llama/Meta-Llama-3.1-8B-Instruct": {
|
1359
|
-
"description": "Meta Llama 3.1 是由 Meta 开发的多语言大型语言模型家族,包括 8B、70B 和 405B 三种参数规模的预训练和指令微调变体。该 8B 指令微调模型针对多语言对话场景进行了优化,在多项行业基准测试中表现优异。模型训练使用了超过 15 万亿个 tokens 的公开数据,并采用了监督微调和人类反馈强化学习等技术来提升模型的有用性和安全性。Llama 3.1 支持文本生成和代码生成,知识截止日期为 2023 年 12 月"
|
1360
|
-
},
|
1361
1349
|
"meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo": {
|
1362
1350
|
"description": "Llama 3.1 8B 模型采用FP8量化,支持高达131,072个上下文标记,是开源模型中的佼佼者,适合复杂任务,表现优异于许多行业基准。"
|
1363
1351
|
},
|
@@ -1451,12 +1439,18 @@
|
|
1451
1439
|
"mistral-large": {
|
1452
1440
|
"description": "Mixtral Large 是 Mistral 的旗舰模型,结合代码生成、数学和推理的能力,支持 128k 上下文窗口。"
|
1453
1441
|
},
|
1442
|
+
"mistral-large-instruct": {
|
1443
|
+
"description": "Mistral-Large-Instruct-2407 是一款先进的稠密大型语言模型(LLM),拥有 1230 亿参数,具备最先进的推理、知识和编码能力。"
|
1444
|
+
},
|
1454
1445
|
"mistral-large-latest": {
|
1455
1446
|
"description": "Mistral Large是旗舰大模型,擅长多语言任务、复杂推理和代码生成,是高端应用的理想选择。"
|
1456
1447
|
},
|
1457
1448
|
"mistral-nemo": {
|
1458
1449
|
"description": "Mistral Nemo 由 Mistral AI 和 NVIDIA 合作推出,是高效性能的 12B 模型。"
|
1459
1450
|
},
|
1451
|
+
"mistral-nemo-instruct": {
|
1452
|
+
"description": "Mistral-Nemo-Instruct-2407 大型语言模型(LLM)是 Mistral-Nemo-Base-2407 的指令微调版本。"
|
1453
|
+
},
|
1460
1454
|
"mistral-small": {
|
1461
1455
|
"description": "Mistral Small可用于任何需要高效率和低延迟的基于语言的任务。"
|
1462
1456
|
},
|
@@ -1593,7 +1587,7 @@
|
|
1593
1587
|
"description": "Spark Pro 128K 配置了特大上下文处理能力,能够处理多达128K的上下文信息,特别适合需通篇分析和长期逻辑关联处理的长文内容,可在复杂文本沟通中提供流畅一致的逻辑与多样的引用支持。"
|
1594
1588
|
},
|
1595
1589
|
"qvq-72b-preview": {
|
1596
|
-
"description": "QVQ
|
1590
|
+
"description": "QVQ-72B-Preview 是由 Qwen 团队开发的实验性研究模型,专注于提升视觉推理能力。"
|
1597
1591
|
},
|
1598
1592
|
"qwen-coder-plus-latest": {
|
1599
1593
|
"description": "通义千问代码模型。"
|
@@ -1670,15 +1664,6 @@
|
|
1670
1664
|
"qwen/qwen2.5-coder-7b-instruct": {
|
1671
1665
|
"description": "强大的中型代码模型,支持 32K 上下文长度,擅长多语言编程。"
|
1672
1666
|
},
|
1673
|
-
"qwen1.5-14b-chat": {
|
1674
|
-
"description": "Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升。Qwen1.5-14b-chat 是其中专用于 chat 场景的 140 亿参数的主流大小模型。"
|
1675
|
-
},
|
1676
|
-
"qwen1.5-32b-chat": {
|
1677
|
-
"description": "Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升。Qwen1.5-32b-chat 是其中专用于 chat 场景的 320 亿参数的大模型,较于 14b 模型在智能体场景更强,较于 72b 模型推理成本更低。"
|
1678
|
-
},
|
1679
|
-
"qwen1.5-72b-chat": {
|
1680
|
-
"description": "Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升。Qwen1.5-72b-chat 是其中专用于 chat 场景的 720 亿参数的大模型。"
|
1681
|
-
},
|
1682
1667
|
"qwen2": {
|
1683
1668
|
"description": "Qwen2 是阿里巴巴的新一代大规模语言模型,以优异的性能支持多元化的应用需求。"
|
1684
1669
|
},
|
@@ -1715,6 +1700,12 @@
|
|
1715
1700
|
"qwen2.5-coder-7b-instruct": {
|
1716
1701
|
"description": "通义千问代码模型开源版。"
|
1717
1702
|
},
|
1703
|
+
"qwen2.5-coder-instruct": {
|
1704
|
+
"description": "Qwen2.5-Coder 是 Qwen 系列中最新的代码专用大型语言模型(前身为 CodeQwen)。"
|
1705
|
+
},
|
1706
|
+
"qwen2.5-instruct": {
|
1707
|
+
"description": "Qwen2.5 是 Qwen 大型语言模型的最新系列。对于 Qwen2.5,我们发布了多个基础语言模型和指令微调语言模型,参数范围从 5 亿到 72 亿不等。"
|
1708
|
+
},
|
1718
1709
|
"qwen2.5-math-1.5b-instruct": {
|
1719
1710
|
"description": "Qwen-Math 模型具有强大的数学解题能力。"
|
1720
1711
|
},
|
@@ -1724,12 +1715,18 @@
|
|
1724
1715
|
"qwen2.5-math-7b-instruct": {
|
1725
1716
|
"description": "Qwen-Math 模型具有强大的数学解题能力。"
|
1726
1717
|
},
|
1718
|
+
"qwen2.5-vl-32b-instruct": {
|
1719
|
+
"description": "Qwen2.5-VL 系列模型提升了模型的智能水平、实用性和适用性,使其在自然对话、内容创作、专业知识服务及代码开发等场景中表现更优。32B 版本使用了强化学习技术优化模型,与 Qwen2.5 VL 系列的其它模型相比,提供了更符合人类偏好的输出风格、复杂数学问题的推理能力,以及图像细粒度理解与推理能力。"
|
1720
|
+
},
|
1727
1721
|
"qwen2.5-vl-72b-instruct": {
|
1728
1722
|
"description": "指令跟随、数学、解题、代码整体提升,万物识别能力提升,支持多样格式直接精准定位视觉元素,支持对长视频文件(最长10分钟)进行理解和秒级别的事件时刻定位,能理解时间先后和快慢,基于解析和定位能力支持操控OS或Mobile的Agent,关键信息抽取能力和Json格式输出能力强,此版本为72B版本,本系列能力最强的版本。"
|
1729
1723
|
},
|
1730
1724
|
"qwen2.5-vl-7b-instruct": {
|
1731
1725
|
"description": "指令跟随、数学、解题、代码整体提升,万物识别能力提升,支持多样格式直接精准定位视觉元素,支持对长视频文件(最长10分钟)进行理解和秒级别的事件时刻定位,能理解时间先后和快慢,基于解析和定位能力支持操控OS或Mobile的Agent,关键信息抽取能力和Json格式输出能力强,此版本为72B版本,本系列能力最强的版本。"
|
1732
1726
|
},
|
1727
|
+
"qwen2.5-vl-instruct": {
|
1728
|
+
"description": "Qwen2.5-VL 是 Qwen 模型家族中视觉语言模型的最新版本。"
|
1729
|
+
},
|
1733
1730
|
"qwen2.5:0.5b": {
|
1734
1731
|
"description": "Qwen2.5 是阿里巴巴的新一代大规模语言模型,以优异的性能支持多元化的应用需求。"
|
1735
1732
|
},
|
@@ -1752,7 +1749,7 @@
|
|
1752
1749
|
"description": "QwQ 是一个实验研究模型,专注于提高 AI 推理能力。"
|
1753
1750
|
},
|
1754
1751
|
"qwq-32b": {
|
1755
|
-
"description": "
|
1752
|
+
"description": "QwQ 是 Qwen 系列的推理模型。与传统的指令微调模型相比,QwQ 具备思考和推理能力,在下游任务中,尤其是复杂问题上,能够实现显著增强的性能。QwQ-32B 是一款中型推理模型,其性能可与最先进的推理模型(如 DeepSeek-R1、o1-mini)相媲美。"
|
1756
1753
|
},
|
1757
1754
|
"qwq-32b-preview": {
|
1758
1755
|
"description": "QwQ模型是由 Qwen 团队开发的实验性研究模型,专注于增强 AI 推理能力。"
|
@@ -146,6 +146,9 @@
|
|
146
146
|
"xai": {
|
147
147
|
"description": "xAI 是一家致力于构建人工智能以加速人类科学发现的公司。我们的使命是推动我们对宇宙的共同理解。"
|
148
148
|
},
|
149
|
+
"xinference": {
|
150
|
+
"description": "Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。"
|
151
|
+
},
|
149
152
|
"zeroone": {
|
150
153
|
"description": "零一万物致力于推动以人为本的AI 2.0技术革命,旨在通过大语言模型创造巨大的经济和社会价值,并开创新的AI生态与商业模式。"
|
151
154
|
},
|
@@ -1,13 +1,4 @@
|
|
1
1
|
{
|
2
|
-
"01-ai/Yi-1.5-34B-Chat-16K": {
|
3
|
-
"description": "Yi-1.5 34B,以豐富的訓練樣本在行業應用中提供優越表現。"
|
4
|
-
},
|
5
|
-
"01-ai/Yi-1.5-6B-Chat": {
|
6
|
-
"description": "Yi-1.5-6B-Chat 是 Yi-1.5 系列的一個變體,屬於開源聊天模型。Yi-1.5 是 Yi 的升級版本,在 500B 個高質量語料上進行了持續預訓練,並在 3M 多樣化的微調樣本上進行了微調。相比於 Yi,Yi-1.5 在編碼、數學、推理和指令遵循能力方面表現更強,同時保持了出色的語言理解、常識推理和閱讀理解能力。該模型具有 4K、16K 和 32K 的上下文長度版本,預訓練總量達到 3.6T 個 token"
|
7
|
-
},
|
8
|
-
"01-ai/Yi-1.5-9B-Chat-16K": {
|
9
|
-
"description": "Yi-1.5 9B 支持16K Tokens,提供高效、流暢的語言生成能力。"
|
10
|
-
},
|
11
2
|
"01-ai/yi-1.5-34b-chat": {
|
12
3
|
"description": "零一萬物,最新開源微調模型,340億參數,微調支持多種對話場景,高質量訓練數據,對齊人類偏好。"
|
13
4
|
},
|
@@ -149,12 +140,6 @@
|
|
149
140
|
"Llama-3.2-90B-Vision-Instruct\t": {
|
150
141
|
"description": "適用於視覺理解代理應用的高級圖像推理能力。"
|
151
142
|
},
|
152
|
-
"LoRA/Qwen/Qwen2.5-72B-Instruct": {
|
153
|
-
"description": "Qwen2.5-72B-Instruct 是阿里雲發布的最新大語言模型系列之一。該 72B 模型在編碼和數學等領域具有顯著改進的能力。該模型還提供了多語言支持,覆蓋超過 29 種語言,包括中文、英文等。模型在指令跟隨、理解結構化數據以及生成結構化輸出(尤其是 JSON)方面都有顯著提升"
|
154
|
-
},
|
155
|
-
"LoRA/Qwen/Qwen2.5-7B-Instruct": {
|
156
|
-
"description": "Qwen2.5-7B-Instruct 是阿里雲發布的最新大語言模型系列之一。該 7B 模型在編碼和數學等領域具有顯著改進的能力。該模型還提供了多語言支持,覆蓋超過 29 種語言,包括中文、英文等。模型在指令跟隨、理解結構化數據以及生成結構化輸出(尤其是 JSON)方面都有顯著提升"
|
157
|
-
},
|
158
143
|
"Meta-Llama-3.1-405B-Instruct": {
|
159
144
|
"description": "Llama 3.1指令調優的文本模型,針對多語言對話用例進行了優化,在許多可用的開源和封閉聊天模型中,在常見行業基準上表現優異。"
|
160
145
|
},
|
@@ -179,9 +164,6 @@
|
|
179
164
|
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
180
165
|
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) 是高精度的指令模型,適用於複雜計算。"
|
181
166
|
},
|
182
|
-
"OpenGVLab/InternVL2-26B": {
|
183
|
-
"description": "InternVL2在各種視覺語言任務上展現出了卓越的性能,包括文檔和圖表理解、場景文本理解、OCR、科學和數學問題解決等。"
|
184
|
-
},
|
185
167
|
"Phi-3-medium-128k-instruct": {
|
186
168
|
"description": "相同的Phi-3-medium模型,但具有更大的上下文大小,適用於RAG或少量提示。"
|
187
169
|
},
|
@@ -206,9 +188,6 @@
|
|
206
188
|
"Phi-3.5-vision-instrust": {
|
207
189
|
"description": "Phi-3-vision模型的更新版。"
|
208
190
|
},
|
209
|
-
"Pro/OpenGVLab/InternVL2-8B": {
|
210
|
-
"description": "InternVL2在各種視覺語言任務上展現出了卓越的性能,包括文檔和圖表理解、場景文本理解、OCR、科學和數學問題解決等。"
|
211
|
-
},
|
212
191
|
"Pro/Qwen/Qwen2-1.5B-Instruct": {
|
213
192
|
"description": "Qwen2-1.5B-Instruct 是 Qwen2 系列中的指令微調大語言模型,參數規模為 1.5B。該模型基於 Transformer 架構,採用了 SwiGLU 激活函數、注意力 QKV 偏置和組查詢注意力等技術。它在語言理解、生成、多語言能力、編碼、數學和推理等多個基準測試中表現出色,超越了大多數開源模型。與 Qwen1.5-1.8B-Chat 相比,Qwen2-1.5B-Instruct 在 MMLU、HumanEval、GSM8K、C-Eval 和 IFEval 等測試中均顯示出顯著的性能提升,儘管參數量略少"
|
214
193
|
},
|
@@ -224,20 +203,23 @@
|
|
224
203
|
"Pro/Qwen/Qwen2.5-Coder-7B-Instruct": {
|
225
204
|
"description": "Qwen2.5-Coder-7B-Instruct 是阿里雲發布的代碼特定大語言模型系列的最新版本。該模型在 Qwen2.5 的基礎上,通過 5.5 萬億個 tokens 的訓練,顯著提升了代碼生成、推理和修復能力。它不僅增強了編碼能力,還保持了數學和通用能力的優勢。模型為代碼智能體等實際應用提供了更全面的基礎"
|
226
205
|
},
|
206
|
+
"Pro/Qwen/Qwen2.5-VL-7B-Instruct": {
|
207
|
+
"description": "Qwen2.5-VL 是 Qwen 系列的新成員,具備強大的視覺理解能力,能分析圖像中的文字、圖表和版面配置,並能理解長影片和捕捉事件。它可以進行推理、操作工具,支援多格式物件定位和生成結構化輸出,優化了影片理解的動態解析度與影格率訓練,並提升了視覺編碼器效率。"
|
208
|
+
},
|
227
209
|
"Pro/THUDM/glm-4-9b-chat": {
|
228
210
|
"description": "GLM-4-9B-Chat 是智譜 AI 推出的 GLM-4 系列預訓練模型中的開源版本。該模型在語義、數學、推理、代碼和知識等多個方面表現出色。除了支持多輪對話外,GLM-4-9B-Chat 還具備網頁瀏覽、代碼執行、自定義工具調用(Function Call)和長文本推理等高級功能。模型支持 26 種語言,包括中文、英文、日文、韓文和德文等。在多項基準測試中,GLM-4-9B-Chat 展現了優秀的性能,如 AlignBench-v2、MT-Bench、MMLU 和 C-Eval 等。該模型支持最大 128K 的上下文長度,適用於學術研究和商業應用"
|
229
211
|
},
|
230
212
|
"Pro/deepseek-ai/DeepSeek-R1": {
|
231
213
|
"description": "DeepSeek-R1 是一款強化學習(RL)驅動的推理模型,解決了模型中的重複性和可讀性問題。在 RL 之前,DeepSeek-R1 引入了冷啟動數據,進一步優化了推理性能。它在數學、代碼和推理任務中與 OpenAI-o1 表現相當,並且透過精心設計的訓練方法,提升了整體效果。"
|
232
214
|
},
|
233
|
-
"Pro/deepseek-ai/DeepSeek-
|
234
|
-
"description": "DeepSeek-
|
215
|
+
"Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B": {
|
216
|
+
"description": "DeepSeek-R1-Distill-Qwen-1.5B 是基於 Qwen2.5-Math-1.5B 透過知識蒸餾技術所獲得的模型。該模型使用 DeepSeek-R1 產生的 80 萬個精選樣本進行微調,在多項基準測試中展現出優異的表現。作為一個輕量級模型,在 MATH-500 上達到了 83.9% 的準確率,在 AIME 2024 上獲得了 28.9% 的通過率,在 CodeForces 上取得了 954 的評分,顯示出超越其參數規模的推理能力。"
|
235
217
|
},
|
236
|
-
"Pro/
|
237
|
-
"description": "
|
218
|
+
"Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B": {
|
219
|
+
"description": "DeepSeek-R1-Distill-Qwen-7B 是基於 Qwen2.5-Math-7B 透過知識蒸餾技術所獲得的模型。該模型使用 DeepSeek-R1 生成的 80 萬個精選樣本進行微調,展現出優異的推理能力。在多個基準測試中表現出色,其中在 MATH-500 上達到了 92.8% 的準確率,在 AIME 2024 上達到了 55.5% 的通過率,在 CodeForces 上獲得了 1189 的評分,作為 7B 規模的模型展示了較強的數學和程式設計能力。"
|
238
220
|
},
|
239
|
-
"Pro/
|
240
|
-
"description": "
|
221
|
+
"Pro/deepseek-ai/DeepSeek-V3": {
|
222
|
+
"description": "DeepSeek-V3 是一款擁有 6710 億參數的混合專家(MoE)語言模型,採用多頭潛在注意力(MLA)和 DeepSeekMoE 架構,結合無輔助損失的負載平衡策略,優化推理和訓練效率。透過在 14.8 萬億高質量tokens上預訓練,並進行監督微調和強化學習,DeepSeek-V3 在性能上超越其他開源模型,接近領先閉源模型。"
|
241
223
|
},
|
242
224
|
"QwQ-32B-Preview": {
|
243
225
|
"description": "QwQ-32B-Preview 是一款獨具創新的自然語言處理模型,能夠高效處理複雜的對話生成與上下文理解任務。"
|
@@ -290,6 +272,12 @@
|
|
290
272
|
"Qwen/Qwen2.5-Coder-7B-Instruct": {
|
291
273
|
"description": "Qwen2.5-Coder-7B-Instruct 是阿里雲發布的代碼特定大語言模型系列的最新版本。該模型在 Qwen2.5 的基礎上,通過 5.5 萬億個 tokens 的訓練,顯著提升了代碼生成、推理和修復能力。它不僅增強了編碼能力,還保持了數學和通用能力的優勢。模型為代碼智能體等實際應用提供了更全面的基礎"
|
292
274
|
},
|
275
|
+
"Qwen/Qwen2.5-VL-32B-Instruct": {
|
276
|
+
"description": "Qwen2.5-VL-32B-Instruct 是通義千問團隊推出的多模態大型模型,屬於 Qwen2.5-VL 系列的一部分。該模型不僅能精準識別常見物體,更能分析圖像中的文字、圖表、圖標、圖形與版面配置。它可作為視覺智能代理,具備推理能力並能動態操作工具,擁有使用電腦與手機的實用功能。此外,此模型能精確定位圖像中的物件,並為發票、表格等文件生成結構化輸出。相較於前代模型 Qwen2-VL,此版本透過強化學習在數學與問題解決能力方面獲得顯著提升,回應風格也更貼近人類偏好。"
|
277
|
+
},
|
278
|
+
"Qwen/Qwen2.5-VL-72B-Instruct": {
|
279
|
+
"description": "Qwen2.5-VL 是 Qwen2.5 系列中的視覺語言模型。該模型在多方面有顯著提升:具備更強的視覺理解能力,能夠識別常見物體、分析文本、圖表和版面配置;作為視覺代理能夠推理並動態指導工具使用;支援理解超過 1 小時的長影片並捕捉關鍵事件;能夠透過生成邊界框或點準確定位圖像中的物體;支援生成結構化輸出,尤其適用於發票、表格等掃描資料。"
|
280
|
+
},
|
293
281
|
"Qwen2-72B-Instruct": {
|
294
282
|
"description": "Qwen2 是 Qwen 模型的最新系列,支持 128k 上下文,對比當前最優的開源模型,Qwen2-72B 在自然語言理解、知識、代碼、數學及多語言等多項能力上均顯著超越當前領先的模型。"
|
295
283
|
},
|
@@ -374,9 +362,6 @@
|
|
374
362
|
"TeleAI/TeleChat2": {
|
375
363
|
"description": "TeleChat2大模型是由中國電信從0到1自主研發的生成式語義大模型,支持百科問答、代碼生成、長文生成等功能,為用戶提供對話諮詢服務,能夠與用戶進行對話互動,回答問題,協助創作,高效便捷地幫助用戶獲取信息、知識和靈感。模型在幻覺問題、長文生成、邏輯理解等方面均有較出色表現。"
|
376
364
|
},
|
377
|
-
"TeleAI/TeleMM": {
|
378
|
-
"description": "TeleMM多模態大模型是由中國電信自主研發的多模態理解大模型,能夠處理文本、圖像等多種模態輸入,支持圖像理解、圖表分析等功能,為用戶提供跨模態的理解服務。模型能夠與用戶進行多模態互動,準確理解輸入內容,回答問題、協助創作,並高效提供多模態信息和靈感支持。在細粒度感知,邏輯推理等多模態任務上有出色表現"
|
379
|
-
},
|
380
365
|
"Vendor-A/Qwen/Qwen2.5-72B-Instruct": {
|
381
366
|
"description": "Qwen2.5-72B-Instruct 是阿里雲發布的最新大語言模型系列之一。該 72B 模型在編碼和數學等領域具有顯著改進的能力。該模型還提供了多語言支持,覆蓋超過 29 種語言,包括中文、英文等。模型在指令跟隨、理解結構化數據以及生成結構化輸出(尤其是 JSON)方面都有顯著提升"
|
382
367
|
},
|
@@ -662,9 +647,6 @@
|
|
662
647
|
"deepseek-ai/DeepSeek-R1-Distill-Llama-70B": {
|
663
648
|
"description": "DeepSeek-R1 蒸餾模型,通過強化學習與冷啟動數據優化推理性能,開源模型刷新多任務標杆。"
|
664
649
|
},
|
665
|
-
"deepseek-ai/DeepSeek-R1-Distill-Llama-8B": {
|
666
|
-
"description": "DeepSeek-R1-Distill-Llama-8B 是基於 Llama-3.1-8B 開發的蒸餾模型。該模型使用 DeepSeek-R1 生成的樣本進行微調,展現出優秀的推理能力。在多個基準測試中表現不俗,其中在 MATH-500 上達到了 89.1% 的準確率,在 AIME 2024 上達到了 50.4% 的通過率,在 CodeForces 上獲得了 1205 的評分,作為 8B 規模的模型展示了較強的數學和編程能力。"
|
667
|
-
},
|
668
650
|
"deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B": {
|
669
651
|
"description": "DeepSeek-R1 蒸餾模型,通過強化學習與冷啟動數據優化推理性能,開源模型刷新多任務標杆。"
|
670
652
|
},
|
@@ -713,6 +695,9 @@
|
|
713
695
|
"deepseek-r1-70b-online": {
|
714
696
|
"description": "DeepSeek R1 70B 標準版,支持即時聯網搜索,適合需要最新信息的對話和文本處理任務。"
|
715
697
|
},
|
698
|
+
"deepseek-r1-distill-llama": {
|
699
|
+
"description": "deepseek-r1-distill-llama 是基於 Llama 從 DeepSeek-R1 蒸餾而來的模型。"
|
700
|
+
},
|
716
701
|
"deepseek-r1-distill-llama-70b": {
|
717
702
|
"description": "DeepSeek R1——DeepSeek 套件中更大更智能的模型——被蒸餾到 Llama 70B 架構中。基於基準測試和人工評估,該模型比原始 Llama 70B 更智能,尤其在需要數學和事實精確性的任務上表現出色。"
|
718
703
|
},
|
@@ -725,6 +710,9 @@
|
|
725
710
|
"deepseek-r1-distill-qianfan-llama-8b": {
|
726
711
|
"description": "2025年2月14日首次發布,由千帆大模型研發團隊以 Llama3_8B為base模型(Built with Meta Llama)蒸餾所得,蒸餾數據中也同步添加了千帆的語料。"
|
727
712
|
},
|
713
|
+
"deepseek-r1-distill-qwen": {
|
714
|
+
"description": "deepseek-r1-distill-qwen 是基於 Qwen 從 DeepSeek-R1 蒸餾而來的模型。"
|
715
|
+
},
|
728
716
|
"deepseek-r1-distill-qwen-1.5b": {
|
729
717
|
"description": "DeepSeek-R1-Distill 系列模型透過知識蒸餾技術,將 DeepSeek-R1 生成的樣本對 Qwen、Llama 等開源模型進行微調後得到。"
|
730
718
|
},
|
@@ -872,6 +860,9 @@
|
|
872
860
|
"gemini-1.5-flash-8b-exp-0924": {
|
873
861
|
"description": "Gemini 1.5 Flash 8B 0924 是最新的實驗性模型,在文本和多模態用例中都有顯著的性能提升。"
|
874
862
|
},
|
863
|
+
"gemini-1.5-flash-8b-latest": {
|
864
|
+
"description": "Gemini 1.5 Flash 8B 是一款高效的多模態模型,支援廣泛應用的擴展。"
|
865
|
+
},
|
875
866
|
"gemini-1.5-flash-exp-0827": {
|
876
867
|
"description": "Gemini 1.5 Flash 0827 提供了優化後的多模態處理能力,適用多種複雜任務場景。"
|
877
868
|
},
|
@@ -914,9 +905,6 @@
|
|
914
905
|
"gemini-2.0-flash-lite-preview-02-05": {
|
915
906
|
"description": "一個 Gemini 2.0 Flash 模型,針對成本效益和低延遲等目標進行了優化。"
|
916
907
|
},
|
917
|
-
"gemini-2.0-flash-thinking-exp": {
|
918
|
-
"description": "Gemini 2.0 Flash Exp 是 Google 最新的實驗性多模態AI模型,擁有下一代特性,卓越的速度,原生工具調用以及多模態生成。"
|
919
|
-
},
|
920
908
|
"gemini-2.0-flash-thinking-exp-01-21": {
|
921
909
|
"description": "Gemini 2.0 Flash Exp 是 Google 最新的實驗性多模態AI模型,擁有下一代特性,卓越的速度,原生工具調用以及多模態生成。"
|
922
910
|
},
|
@@ -1223,6 +1211,9 @@
|
|
1223
1211
|
"llama-3.1-8b-instant": {
|
1224
1212
|
"description": "Llama 3.1 8B 是一款高效能模型,提供了快速的文本生成能力,非常適合需要大規模效率和成本效益的應用場景。"
|
1225
1213
|
},
|
1214
|
+
"llama-3.1-instruct": {
|
1215
|
+
"description": "Llama 3.1 指令微調模型針對對話場景進行了優化,在常見的行業基準測試中,超越了許多現有的開源聊天模型。"
|
1216
|
+
},
|
1226
1217
|
"llama-3.2-11b-vision-instruct": {
|
1227
1218
|
"description": "在高解析度圖像上表現優異的圖像推理能力,適用於視覺理解應用。"
|
1228
1219
|
},
|
@@ -1235,12 +1226,18 @@
|
|
1235
1226
|
"llama-3.2-90b-vision-preview": {
|
1236
1227
|
"description": "Llama 3.2 旨在處理結合視覺和文本數據的任務。它在圖像描述和視覺問答等任務中表現出色,跨越了語言生成和視覺推理之間的鴻溝。"
|
1237
1228
|
},
|
1229
|
+
"llama-3.2-vision-instruct": {
|
1230
|
+
"description": "Llama 3.2-Vision 指令微調模型針對視覺辨識、圖像推理、圖像描述及回答與圖像相關的常規問題進行了最佳化。"
|
1231
|
+
},
|
1238
1232
|
"llama-3.3-70b-instruct": {
|
1239
1233
|
"description": "Llama 3.3 是 Llama 系列最先進的多語言開源大型語言模型,以極低成本體驗媲美 405B 模型的性能。基於 Transformer 結構,並透過監督微調(SFT)和人類反饋強化學習(RLHF)提升有用性和安全性。其指令調優版本專為多語言對話優化,在多項行業基準上表現優於眾多開源和封閉聊天模型。知識截止日期為 2023 年 12 月"
|
1240
1234
|
},
|
1241
1235
|
"llama-3.3-70b-versatile": {
|
1242
1236
|
"description": "Meta Llama 3.3 多語言大語言模型 (LLM) 是 70B(文本輸入/文本輸出)中的預訓練和指令調整生成模型。Llama 3.3 指令調整的純文本模型針對多語言對話用例進行了優化,並且在常見行業基準上優於許多可用的開源和封閉式聊天模型。"
|
1243
1237
|
},
|
1238
|
+
"llama-3.3-instruct": {
|
1239
|
+
"description": "Llama 3.3 指令微調模型針對對話場景進行了優化,在常見的行業基準測試中,超越了許多現有的開源聊天模型。"
|
1240
|
+
},
|
1244
1241
|
"llama3-70b-8192": {
|
1245
1242
|
"description": "Meta Llama 3 70B 提供無與倫比的複雜性處理能力,為高要求項目量身定制。"
|
1246
1243
|
},
|
@@ -1319,9 +1316,6 @@
|
|
1319
1316
|
"meta-llama/Llama-3.2-90B-Vision-Instruct-Turbo": {
|
1320
1317
|
"description": "LLaMA 3.2 旨在處理結合視覺和文本數據的任務。它在圖像描述和視覺問答等任務中表現出色,跨越了語言生成和視覺推理之間的鴻溝。"
|
1321
1318
|
},
|
1322
|
-
"meta-llama/Llama-3.3-70B-Instruct": {
|
1323
|
-
"description": "Llama 3.3 是 Llama 系列最先進的多語言開源大型語言模型,以極低成本體驗媲美 405B 模型的性能。基於 Transformer 結構,並通過監督微調(SFT)和人類反饋強化學習(RLHF)提升有用性和安全性。其指令調優版本專為多語言對話優化,在多項行業基準上表現優於眾多開源和封閉聊天模型。知識截止日期為 2023 年 12 月"
|
1324
|
-
},
|
1325
1319
|
"meta-llama/Llama-3.3-70B-Instruct-Turbo": {
|
1326
1320
|
"description": "Meta Llama 3.3 多語言大語言模型 ( LLM ) 是 70B(文本輸入/文本輸出)中的預訓練和指令調整生成模型。 Llama 3.3 指令調整的純文本模型針對多語言對話用例進行了優化,並且在常見行業基準上優於許多可用的開源和封閉式聊天模型。"
|
1327
1321
|
},
|
@@ -1349,15 +1343,9 @@
|
|
1349
1343
|
"meta-llama/Meta-Llama-3.1-70B": {
|
1350
1344
|
"description": "Llama 3.1 是 Meta 推出的領先模型,支持高達 405B 參數,可應用於複雜對話、多語言翻譯和數據分析領域。"
|
1351
1345
|
},
|
1352
|
-
"meta-llama/Meta-Llama-3.1-70B-Instruct": {
|
1353
|
-
"description": "LLaMA 3.1 70B 提供多語言的高效對話支持。"
|
1354
|
-
},
|
1355
1346
|
"meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo": {
|
1356
1347
|
"description": "Llama 3.1 70B 模型經過精細調整,適用於高負載應用,量化至 FP8 提供更高效的計算能力和準確性,確保在複雜場景中的卓越表現。"
|
1357
1348
|
},
|
1358
|
-
"meta-llama/Meta-Llama-3.1-8B-Instruct": {
|
1359
|
-
"description": "LLaMA 3.1 提供多語言支持,是業界領先的生成模型之一。"
|
1360
|
-
},
|
1361
1349
|
"meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo": {
|
1362
1350
|
"description": "Llama 3.1 8B 模型採用 FP8 量化,支持高達 131,072 個上下文標記,是開源模型中的佼佼者,適合複雜任務,表現優異於許多行業基準。"
|
1363
1351
|
},
|
@@ -1451,12 +1439,18 @@
|
|
1451
1439
|
"mistral-large": {
|
1452
1440
|
"description": "Mixtral Large 是 Mistral 的旗艦模型,結合代碼生成、數學和推理的能力,支持 128k 上下文窗口。"
|
1453
1441
|
},
|
1442
|
+
"mistral-large-instruct": {
|
1443
|
+
"description": "Mistral-Large-Instruct-2407 是一款先進的稠密大型語言模型(LLM),擁有 1230 億參數,具備最先進的推理、知識和編碼能力。"
|
1444
|
+
},
|
1454
1445
|
"mistral-large-latest": {
|
1455
1446
|
"description": "Mistral Large 是旗艦大模型,擅長多語言任務、複雜推理和代碼生成,是高端應用的理想選擇。"
|
1456
1447
|
},
|
1457
1448
|
"mistral-nemo": {
|
1458
1449
|
"description": "Mistral Nemo 由 Mistral AI 和 NVIDIA 合作推出,是高效性能的 12B 模型。"
|
1459
1450
|
},
|
1451
|
+
"mistral-nemo-instruct": {
|
1452
|
+
"description": "Mistral-Nemo-Instruct-2407 大型語言模型(LLM)是 Mistral-Nemo-Base-2407 的指令微調版本。"
|
1453
|
+
},
|
1460
1454
|
"mistral-small": {
|
1461
1455
|
"description": "Mistral Small可用於任何需要高效率和低延遲的語言任務。"
|
1462
1456
|
},
|
@@ -1670,15 +1664,6 @@
|
|
1670
1664
|
"qwen/qwen2.5-coder-7b-instruct": {
|
1671
1665
|
"description": "強大的中型代碼模型,支持 32K 上下文長度,擅長多語言編程。"
|
1672
1666
|
},
|
1673
|
-
"qwen1.5-14b-chat": {
|
1674
|
-
"description": "Qwen1.5 系列是 Qwen2 的 Beta 版本,是一個基於 Transformer 的僅解碼語言模型,在海量數據上進行預訓練。與之前發布的 Qwen 系列版本相比,Qwen1.5 系列 base 與 chat 模型均能支持多種語言,在整體聊天和基礎能力上都得到了提升。Qwen1.5-14b-chat 是其中專用於 chat 場景的 140 億參數的主流大小模型。"
|
1675
|
-
},
|
1676
|
-
"qwen1.5-32b-chat": {
|
1677
|
-
"description": "Qwen1.5 系列是 Qwen2 的 Beta 版本,是一個基於 Transformer 的僅解碼語言模型,在海量數據上進行預訓練。與之前發布的 Qwen 系列版本相比,Qwen1.5 系列 base 與 chat 模型均能支持多種語言,在整體聊天和基礎能力上都得到了提升。Qwen1.5-32b-chat 是其中專用於 chat 場景的 320 億參數的大模型,較於 14b 模型在智能體場景更強,較於 72b 模型推理成本更低。"
|
1678
|
-
},
|
1679
|
-
"qwen1.5-72b-chat": {
|
1680
|
-
"description": "Qwen1.5 系列是 Qwen2 的 Beta 版本,是一個基於 Transformer 的僅解碼語言模型,在海量數據上進行預訓練。與之前發布的 Qwen 系列版本相比,Qwen1.5 系列 base 與 chat 模型均能支持多種語言,在整體聊天和基礎能力上都得到了提升。Qwen1.5-72b-chat 是其中專用於 chat 場景的 720 億參數的大模型。"
|
1681
|
-
},
|
1682
1667
|
"qwen2": {
|
1683
1668
|
"description": "Qwen2 是阿里巴巴的新一代大規模語言模型,以優異的性能支持多元化的應用需求。"
|
1684
1669
|
},
|
@@ -1715,6 +1700,12 @@
|
|
1715
1700
|
"qwen2.5-coder-7b-instruct": {
|
1716
1701
|
"description": "通義千問代碼模型開源版。"
|
1717
1702
|
},
|
1703
|
+
"qwen2.5-coder-instruct": {
|
1704
|
+
"description": "Qwen2.5-Coder 是 Qwen 系列中最新的程式碼專用大型語言模型(前身為 CodeQwen)。"
|
1705
|
+
},
|
1706
|
+
"qwen2.5-instruct": {
|
1707
|
+
"description": "Qwen2.5 是 Qwen 大型語言模型的最新系列。對於 Qwen2.5,我們發佈了多個基礎語言模型和指令微調語言模型,參數範圍從 5 億到 72 億不等。"
|
1708
|
+
},
|
1718
1709
|
"qwen2.5-math-1.5b-instruct": {
|
1719
1710
|
"description": "Qwen-Math 模型具有強大的數學解題能力。"
|
1720
1711
|
},
|
@@ -1724,12 +1715,18 @@
|
|
1724
1715
|
"qwen2.5-math-7b-instruct": {
|
1725
1716
|
"description": "Qwen-Math模型具有強大的數學解題能力。"
|
1726
1717
|
},
|
1718
|
+
"qwen2.5-vl-32b-instruct": {
|
1719
|
+
"description": "Qwen2.5-VL 系列模型提升了模型的智能水準、實用性和適用性,使其在自然對話、內容創作、專業知識服務及程式碼開發等場景中表現更優。32B 版本使用了強化學習技術優化模型,與 Qwen2.5 VL 系列的其他模型相比,提供了更符合人類偏好的輸出風格、複雜數學問題的推理能力,以及影像細粒度理解與推理能力。"
|
1720
|
+
},
|
1727
1721
|
"qwen2.5-vl-72b-instruct": {
|
1728
1722
|
"description": "指令跟隨、數學、解題、代碼整體提升,萬物識別能力提升,支持多樣格式直接精準定位視覺元素,支持對長視頻文件(最長10分鐘)進行理解和秒級別的事件時刻定位,能理解時間先後和快慢,基於解析和定位能力支持操控OS或Mobile的Agent,關鍵信息抽取能力和Json格式輸出能力強,此版本為72B版本,本系列能力最強的版本。"
|
1729
1723
|
},
|
1730
1724
|
"qwen2.5-vl-7b-instruct": {
|
1731
1725
|
"description": "指令跟隨、數學、解題、代碼整體提升,萬物識別能力提升,支持多樣格式直接精準定位視覺元素,支持對長視頻文件(最長10分鐘)進行理解和秒級別的事件時刻定位,能理解時間先後和快慢,基於解析和定位能力支持操控OS或Mobile的Agent,關鍵信息抽取能力和Json格式輸出能力強,此版本為72B版本,本系列能力最強的版本。"
|
1732
1726
|
},
|
1727
|
+
"qwen2.5-vl-instruct": {
|
1728
|
+
"description": "Qwen2.5-VL 是 Qwen 模型系列中最新版本的視覺語言模型。"
|
1729
|
+
},
|
1733
1730
|
"qwen2.5:0.5b": {
|
1734
1731
|
"description": "Qwen2.5 是阿里巴巴的新一代大規模語言模型,以優異的性能支持多元化的應用需求。"
|
1735
1732
|
},
|
@@ -146,6 +146,9 @@
|
|
146
146
|
"xai": {
|
147
147
|
"description": "xAI 是一家致力於構建人工智慧以加速人類科學發現的公司。我們的使命是推動我們對宇宙的共同理解。"
|
148
148
|
},
|
149
|
+
"xinference": {
|
150
|
+
"description": "Xorbits推論(Xinference)是一個開源平台,用於簡化各種AI模型的運行與整合。透過Xinference,您可以在雲端或本地環境中使用任何開源LLM、嵌入模型和多模態模型進行推論,並創建強大的AI應用程式。"
|
151
|
+
},
|
149
152
|
"zeroone": {
|
150
153
|
"description": "01.AI 專注於 AI 2.0 時代的人工智慧技術,大力推動「人+人工智慧」的創新和應用,採用超強大模型和先進 AI 技術以提升人類生產力,實現技術賦能。"
|
151
154
|
},
|