@lobehub/chat 1.35.0 → 1.35.2
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/CHANGELOG.md +50 -0
- package/changelog/v1.json +18 -0
- package/docs/changelog/2024-07-19-gpt-4o-mini.mdx +32 -0
- package/docs/changelog/2024-07-19-gpt-4o-mini.zh-CN.mdx +5 -4
- package/docs/changelog/2024-08-02-lobe-chat-database-docker.mdx +36 -0
- package/docs/changelog/2024-08-02-lobe-chat-database-docker.zh-CN.mdx +0 -1
- package/docs/changelog/2024-08-21-file-upload-and-knowledge-base.mdx +30 -0
- package/docs/changelog/2024-08-21-file-upload-and-knowledge-base.zh-CN.mdx +0 -1
- package/docs/changelog/2024-09-13-openai-o1-models.mdx +31 -0
- package/docs/changelog/2024-09-20-artifacts.mdx +55 -0
- package/docs/changelog/2024-09-20-artifacts.zh-CN.mdx +3 -2
- package/docs/changelog/2024-10-27-pin-assistant.mdx +33 -0
- package/docs/changelog/2024-10-27-pin-assistant.zh-CN.mdx +0 -1
- package/docs/changelog/2024-11-06-share-text-json.mdx +24 -0
- package/docs/changelog/2024-11-06-share-text-json.zh-CN.mdx +3 -1
- package/docs/changelog/2024-11-25-november-providers.mdx +5 -5
- package/docs/changelog/2024-11-25-november-providers.zh-CN.mdx +5 -5
- package/docs/changelog/2024-11-27-forkable-chat.mdx +26 -0
- package/docs/changelog/2024-11-27-forkable-chat.zh-CN.mdx +16 -9
- package/docs/changelog/index.json +5 -5
- package/docs/self-hosting/environment-variables/analytics.mdx +1 -1
- package/locales/ar/modelProvider.json +4 -4
- package/locales/ar/models.json +94 -7
- package/locales/bg-BG/modelProvider.json +9 -9
- package/locales/bg-BG/models.json +94 -7
- package/locales/de-DE/modelProvider.json +4 -4
- package/locales/de-DE/models.json +94 -7
- package/locales/en-US/chat.json +1 -1
- package/locales/en-US/modelProvider.json +1 -1
- package/locales/en-US/models.json +94 -7
- package/locales/es-ES/modelProvider.json +4 -4
- package/locales/es-ES/models.json +94 -7
- package/locales/fa-IR/models.json +94 -7
- package/locales/fr-FR/modelProvider.json +23 -23
- package/locales/fr-FR/models.json +94 -7
- package/locales/it-IT/models.json +94 -7
- package/locales/ja-JP/modelProvider.json +9 -9
- package/locales/ja-JP/models.json +94 -7
- package/locales/ko-KR/modelProvider.json +9 -9
- package/locales/ko-KR/models.json +94 -7
- package/locales/nl-NL/modelProvider.json +23 -23
- package/locales/nl-NL/models.json +94 -7
- package/locales/pl-PL/modelProvider.json +27 -27
- package/locales/pl-PL/models.json +94 -7
- package/locales/pt-BR/modelProvider.json +4 -4
- package/locales/pt-BR/models.json +94 -7
- package/locales/ru-RU/modelProvider.json +4 -4
- package/locales/ru-RU/models.json +94 -7
- package/locales/tr-TR/models.json +94 -7
- package/locales/vi-VN/models.json +94 -7
- package/locales/zh-CN/models.json +121 -34
- package/locales/zh-TW/models.json +94 -7
- package/package.json +1 -1
- package/src/config/modelProviders/ollama.ts +84 -35
@@ -2,6 +2,9 @@
|
|
2
2
|
"01-ai/Yi-1.5-34B-Chat-16K": {
|
3
3
|
"description": "Yi-1.5 34B, avec un ensemble d'échantillons d'entraînement riche, offre des performances supérieures dans les applications sectorielles."
|
4
4
|
},
|
5
|
+
"01-ai/Yi-1.5-6B-Chat": {
|
6
|
+
"description": "Yi-1.5-6B-Chat est une variante de la série Yi-1.5, appartenant aux modèles de chat open source. Yi-1.5 est une version améliorée de Yi, pré-entraînée sur 500B de corpus de haute qualité et ajustée sur plus de 3M d'échantillons diversifiés. Comparé à Yi, Yi-1.5 montre de meilleures performances en codage, mathématiques, raisonnement et suivi des instructions, tout en maintenant d'excellentes capacités de compréhension du langage, de raisonnement de bon sens et de compréhension de lecture. Ce modèle propose des versions avec des longueurs de contexte de 4K, 16K et 32K, avec un total de pré-entraînement atteignant 3.6T de tokens."
|
7
|
+
},
|
5
8
|
"01-ai/Yi-1.5-9B-Chat-16K": {
|
6
9
|
"description": "Yi-1.5 9B supporte 16K Tokens, offrant une capacité de génération de langage efficace et fluide."
|
7
10
|
},
|
@@ -91,6 +94,12 @@
|
|
91
94
|
"Gryphe/MythoMax-L2-13b": {
|
92
95
|
"description": "MythoMax-L2 (13B) est un modèle innovant, adapté à des applications dans plusieurs domaines et à des tâches complexes."
|
93
96
|
},
|
97
|
+
"LoRA/Qwen/Qwen2.5-72B-Instruct": {
|
98
|
+
"description": "Qwen2.5-72B-Instruct est l'un des derniers modèles de langage à grande échelle publiés par Alibaba Cloud. Ce modèle 72B présente des capacités considérablement améliorées dans des domaines tels que le codage et les mathématiques. Le modèle offre également un support multilingue, couvrant plus de 29 langues, y compris le chinois et l'anglais. Il a montré des améliorations significatives dans le suivi des instructions, la compréhension des données structurées et la génération de sorties structurées (en particulier JSON)."
|
99
|
+
},
|
100
|
+
"LoRA/Qwen/Qwen2.5-7B-Instruct": {
|
101
|
+
"description": "Qwen2.5-7B-Instruct est l'un des derniers modèles de langage à grande échelle publiés par Alibaba Cloud. Ce modèle 7B présente des capacités considérablement améliorées dans des domaines tels que le codage et les mathématiques. Le modèle offre également un support multilingue, couvrant plus de 29 langues, y compris le chinois et l'anglais. Il a montré des améliorations significatives dans le suivi des instructions, la compréhension des données structurées et la génération de sorties structurées (en particulier JSON)."
|
102
|
+
},
|
94
103
|
"Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
95
104
|
"description": "Hermes 2 Mixtral 8x7B DPO est une fusion de modèles hautement flexible, visant à offrir une expérience créative exceptionnelle."
|
96
105
|
},
|
@@ -98,9 +107,6 @@
|
|
98
107
|
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
99
108
|
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) est un modèle d'instructions de haute précision, adapté aux calculs complexes."
|
100
109
|
},
|
101
|
-
"NousResearch/Nous-Hermes-2-Yi-34B": {
|
102
|
-
"description": "Nous Hermes-2 Yi (34B) offre une sortie linguistique optimisée et des possibilités d'application diversifiées."
|
103
|
-
},
|
104
110
|
"OpenGVLab/InternVL2-26B": {
|
105
111
|
"description": "InternVL2 a démontré des performances exceptionnelles sur diverses tâches de langage visuel, y compris la compréhension de documents et de graphiques, la compréhension de texte de scène, l'OCR, ainsi que la résolution de problèmes scientifiques et mathématiques."
|
106
112
|
},
|
@@ -134,18 +140,42 @@
|
|
134
140
|
"Pro/OpenGVLab/InternVL2-8B": {
|
135
141
|
"description": "InternVL2 a démontré des performances exceptionnelles sur diverses tâches de langage visuel, y compris la compréhension de documents et de graphiques, la compréhension de texte de scène, l'OCR, ainsi que la résolution de problèmes scientifiques et mathématiques."
|
136
142
|
},
|
143
|
+
"Pro/Qwen/Qwen2-1.5B-Instruct": {
|
144
|
+
"description": "Qwen2-1.5B-Instruct est un modèle de langage à grande échelle de la série Qwen2, avec une taille de paramètre de 1.5B. Ce modèle est basé sur l'architecture Transformer, utilisant des fonctions d'activation SwiGLU, des biais d'attention QKV et des techniques d'attention par groupe. Il excelle dans la compréhension du langage, la génération, les capacités multilingues, le codage, les mathématiques et le raisonnement dans plusieurs tests de référence, surpassant la plupart des modèles open source. Comparé à Qwen1.5-1.8B-Chat, Qwen2-1.5B-Instruct montre des améliorations de performance significatives dans des tests tels que MMLU, HumanEval, GSM8K, C-Eval et IFEval, bien que le nombre de paramètres soit légèrement inférieur."
|
145
|
+
},
|
146
|
+
"Pro/Qwen/Qwen2-7B-Instruct": {
|
147
|
+
"description": "Qwen2-7B-Instruct est un modèle de langage à grande échelle de la série Qwen2, avec une taille de paramètre de 7B. Ce modèle est basé sur l'architecture Transformer, utilisant des fonctions d'activation SwiGLU, des biais d'attention QKV et des techniques d'attention par groupe. Il est capable de traiter de grandes entrées. Ce modèle excelle dans la compréhension du langage, la génération, les capacités multilingues, le codage, les mathématiques et le raisonnement dans plusieurs tests de référence, surpassant la plupart des modèles open source et montrant une compétitivité comparable à celle des modèles propriétaires dans certaines tâches. Qwen2-7B-Instruct a montré des performances significativement meilleures que Qwen1.5-7B-Chat dans plusieurs évaluations."
|
148
|
+
},
|
137
149
|
"Pro/Qwen/Qwen2-VL-7B-Instruct": {
|
138
150
|
"description": "Qwen2-VL est la dernière itération du modèle Qwen-VL, atteignant des performances de pointe dans les tests de référence de compréhension visuelle."
|
139
151
|
},
|
140
|
-
"Qwen/
|
141
|
-
"description": "
|
152
|
+
"Pro/Qwen/Qwen2.5-7B-Instruct": {
|
153
|
+
"description": "Qwen2.5-7B-Instruct est l'un des derniers modèles de langage à grande échelle publiés par Alibaba Cloud. Ce modèle 7B présente des capacités considérablement améliorées dans des domaines tels que le codage et les mathématiques. Le modèle offre également un support multilingue, couvrant plus de 29 langues, y compris le chinois et l'anglais. Il a montré des améliorations significatives dans le suivi des instructions, la compréhension des données structurées et la génération de sorties structurées (en particulier JSON)."
|
154
|
+
},
|
155
|
+
"Pro/Qwen/Qwen2.5-Coder-7B-Instruct": {
|
156
|
+
"description": "Qwen2.5-Coder-7B-Instruct est la dernière version de la série de modèles de langage à grande échelle spécifique au code publiée par Alibaba Cloud. Ce modèle, basé sur Qwen2.5, a été formé avec 55 trillions de tokens, améliorant considérablement les capacités de génération, de raisonnement et de correction de code. Il renforce non seulement les capacités de codage, mais maintient également des avantages en mathématiques et en compétences générales. Le modèle fournit une base plus complète pour des applications pratiques telles que les agents de code."
|
157
|
+
},
|
158
|
+
"Pro/THUDM/glm-4-9b-chat": {
|
159
|
+
"description": "GLM-4-9B-Chat est la version open source de la série de modèles pré-entraînés GLM-4 lancée par Zhipu AI. Ce modèle excelle dans plusieurs domaines tels que la sémantique, les mathématiques, le raisonnement, le code et les connaissances. En plus de prendre en charge des dialogues multi-tours, GLM-4-9B-Chat dispose également de fonctionnalités avancées telles que la navigation sur le web, l'exécution de code, l'appel d'outils personnalisés (Function Call) et le raisonnement sur de longs textes. Le modèle prend en charge 26 langues, y compris le chinois, l'anglais, le japonais, le coréen et l'allemand. Dans plusieurs tests de référence, GLM-4-9B-Chat a montré d'excellentes performances, comme AlignBench-v2, MT-Bench, MMLU et C-Eval. Ce modèle prend en charge une longueur de contexte maximale de 128K, adapté à la recherche académique et aux applications commerciales."
|
142
160
|
},
|
143
|
-
"
|
144
|
-
"description": "
|
161
|
+
"Pro/google/gemma-2-9b-it": {
|
162
|
+
"description": "Gemma est l'une des séries de modèles open source légers et avancés développés par Google. C'est un modèle de langage à grande échelle uniquement décodeur, prenant en charge l'anglais, offrant des poids ouverts, des variantes pré-entraînées et des variantes d'ajustement d'instructions. Le modèle Gemma est adapté à diverses tâches de génération de texte, y compris les questions-réponses, les résumés et le raisonnement. Ce modèle 9B a été formé avec 80 trillions de tokens. Sa taille relativement petite permet de le déployer dans des environnements à ressources limitées, tels que des ordinateurs portables, des ordinateurs de bureau ou votre propre infrastructure cloud, rendant ainsi les modèles d'IA de pointe plus accessibles et favorisant l'innovation."
|
163
|
+
},
|
164
|
+
"Pro/meta-llama/Meta-Llama-3.1-8B-Instruct": {
|
165
|
+
"description": "Meta Llama 3.1 est une famille de modèles de langage à grande échelle multilingues développée par Meta, comprenant des variantes pré-entraînées et d'ajustement d'instructions de tailles de paramètres de 8B, 70B et 405B. Ce modèle d'ajustement d'instructions 8B est optimisé pour des scénarios de dialogue multilingue, montrant d'excellentes performances dans plusieurs tests de référence de l'industrie. L'entraînement du modèle a utilisé plus de 150 trillions de tokens de données publiques, et des techniques telles que l'ajustement supervisé et l'apprentissage par renforcement basé sur les retours humains ont été appliquées pour améliorer l'utilité et la sécurité du modèle. Llama 3.1 prend en charge la génération de texte et de code, avec une date limite de connaissances fixée à décembre 2023."
|
166
|
+
},
|
167
|
+
"Qwen/QwQ-32B-Preview": {
|
168
|
+
"description": "QwQ-32B-Preview est le dernier modèle de recherche expérimental de Qwen, axé sur l'amélioration des capacités de raisonnement de l'IA. En explorant des mécanismes complexes tels que le mélange de langues et le raisonnement récursif, ses principaux avantages incluent de puissantes capacités d'analyse de raisonnement, ainsi que des compétences en mathématiques et en programmation. Cependant, il existe également des problèmes de changement de langue, des cycles de raisonnement, des considérations de sécurité et des différences dans d'autres capacités."
|
169
|
+
},
|
170
|
+
"Qwen/Qwen2-1.5B-Instruct": {
|
171
|
+
"description": "Qwen2-1.5B-Instruct est un modèle de langage à grande échelle de la série Qwen2, avec une taille de paramètre de 1.5B. Ce modèle est basé sur l'architecture Transformer, utilisant des fonctions d'activation SwiGLU, des biais d'attention QKV et des techniques d'attention par groupe. Il excelle dans la compréhension du langage, la génération, les capacités multilingues, le codage, les mathématiques et le raisonnement dans plusieurs tests de référence, surpassant la plupart des modèles open source. Comparé à Qwen1.5-1.8B-Chat, Qwen2-1.5B-Instruct montre des améliorations de performance significatives dans des tests tels que MMLU, HumanEval, GSM8K, C-Eval et IFEval, bien que le nombre de paramètres soit légèrement inférieur."
|
145
172
|
},
|
146
173
|
"Qwen/Qwen2-72B-Instruct": {
|
147
174
|
"description": "Qwen2 est un modèle de langage général avancé, prenant en charge divers types d'instructions."
|
148
175
|
},
|
176
|
+
"Qwen/Qwen2-7B-Instruct": {
|
177
|
+
"description": "Qwen2-72B-Instruct est un modèle de langage à grande échelle de la série Qwen2, avec une taille de paramètre de 72B. Ce modèle est basé sur l'architecture Transformer, utilisant des fonctions d'activation SwiGLU, des biais d'attention QKV et des techniques d'attention par groupe. Il est capable de traiter de grandes entrées. Ce modèle excelle dans la compréhension du langage, la génération, les capacités multilingues, le codage, les mathématiques et le raisonnement dans plusieurs tests de référence, surpassant la plupart des modèles open source et montrant une compétitivité comparable à celle des modèles propriétaires dans certaines tâches."
|
178
|
+
},
|
149
179
|
"Qwen/Qwen2-VL-72B-Instruct": {
|
150
180
|
"description": "Qwen2-VL est la dernière itération du modèle Qwen-VL, atteignant des performances de pointe dans les tests de référence de compréhension visuelle."
|
151
181
|
},
|
@@ -173,6 +203,9 @@
|
|
173
203
|
"Qwen/Qwen2.5-Coder-32B-Instruct": {
|
174
204
|
"description": "Qwen2.5-Coder se concentre sur la rédaction de code."
|
175
205
|
},
|
206
|
+
"Qwen/Qwen2.5-Coder-7B-Instruct": {
|
207
|
+
"description": "Qwen2.5-Coder-7B-Instruct est la dernière version de la série de modèles de langage à grande échelle spécifique au code publiée par Alibaba Cloud. Ce modèle, basé sur Qwen2.5, a été formé avec 55 trillions de tokens, améliorant considérablement les capacités de génération, de raisonnement et de correction de code. Il renforce non seulement les capacités de codage, mais maintient également des avantages en mathématiques et en compétences générales. Le modèle fournit une base plus complète pour des applications pratiques telles que les agents de code."
|
208
|
+
},
|
176
209
|
"Qwen/Qwen2.5-Math-72B-Instruct": {
|
177
210
|
"description": "Qwen2.5-Math se concentre sur la résolution de problèmes dans le domaine des mathématiques, fournissant des réponses professionnelles pour des questions de haute difficulté."
|
178
211
|
},
|
@@ -209,12 +242,27 @@
|
|
209
242
|
"SenseChat-Turbo": {
|
210
243
|
"description": "Conçu pour des questions-réponses rapides et des scénarios de micro-ajustement du modèle."
|
211
244
|
},
|
245
|
+
"THUDM/chatglm3-6b": {
|
246
|
+
"description": "ChatGLM3-6B est un modèle open source de la série ChatGLM, développé par Zhipu AI. Ce modèle conserve les excellentes caractéristiques de son prédécesseur, telles que la fluidité des dialogues et un faible seuil de déploiement, tout en introduisant de nouvelles fonctionnalités. Il utilise des données d'entraînement plus variées, un nombre d'étapes d'entraînement plus élevé et une stratégie d'entraînement plus raisonnable, se distinguant parmi les modèles pré-entraînés de moins de 10B. ChatGLM3-6B prend en charge des dialogues multi-tours, des appels d'outils, l'exécution de code et des tâches d'agent dans des scénarios complexes. En plus du modèle de dialogue, les modèles de base ChatGLM-6B-Base et le modèle de dialogue long ChatGLM3-6B-32K sont également open source. Ce modèle est entièrement ouvert à la recherche académique et permet également une utilisation commerciale gratuite après enregistrement."
|
247
|
+
},
|
212
248
|
"THUDM/glm-4-9b-chat": {
|
213
249
|
"description": "GLM-4 9B est une version open source, offrant une expérience de dialogue optimisée pour les applications de conversation."
|
214
250
|
},
|
251
|
+
"TeleAI/TeleChat2": {
|
252
|
+
"description": "Le grand modèle TeleChat2 est un modèle sémantique génératif développé de manière autonome par China Telecom, prenant en charge des fonctionnalités telles que les questions-réponses encyclopédiques, la génération de code et la génération de longs textes, fournissant des services de consultation par dialogue aux utilisateurs, capable d'interagir avec les utilisateurs, de répondre à des questions, d'assister à la création, et d'aider efficacement et commodément les utilisateurs à obtenir des informations, des connaissances et de l'inspiration. Le modèle montre de bonnes performances sur des problèmes d'hallucination, la génération de longs textes et la compréhension logique."
|
253
|
+
},
|
254
|
+
"TeleAI/TeleMM": {
|
255
|
+
"description": "Le grand modèle multimodal TeleMM est un modèle de compréhension multimodale développé de manière autonome par China Telecom, capable de traiter des entrées multimodales telles que du texte et des images, prenant en charge des fonctionnalités telles que la compréhension d'images et l'analyse de graphiques, fournissant des services de compréhension intermodale aux utilisateurs. Le modèle peut interagir avec les utilisateurs de manière multimodale, comprendre avec précision le contenu d'entrée, répondre à des questions, assister à la création, et fournir efficacement des informations et un soutien d'inspiration multimodale. Il excelle dans des tâches multimodales telles que la perception fine et le raisonnement logique."
|
256
|
+
},
|
215
257
|
"Tencent/Hunyuan-A52B-Instruct": {
|
216
258
|
"description": "Hunyuan-Large est le plus grand modèle MoE à architecture Transformer open source de l'industrie, avec un total de 389 milliards de paramètres et 52 milliards de paramètres activés."
|
217
259
|
},
|
260
|
+
"Vendor-A/Qwen/Qwen2-7B-Instruct": {
|
261
|
+
"description": "Qwen2-72B-Instruct est un modèle de langage à grande échelle de la série Qwen2, avec une taille de paramètre de 72B. Ce modèle est basé sur l'architecture Transformer, utilisant des fonctions d'activation SwiGLU, des biais d'attention QKV et des techniques d'attention par groupe. Il est capable de traiter de grandes entrées. Ce modèle excelle dans la compréhension du langage, la génération, les capacités multilingues, le codage, les mathématiques et le raisonnement dans plusieurs tests de référence, surpassant la plupart des modèles open source et montrant une compétitivité comparable à celle des modèles propriétaires dans certaines tâches."
|
262
|
+
},
|
263
|
+
"Vendor-A/Qwen/Qwen2.5-72B-Instruct": {
|
264
|
+
"description": "Qwen2.5-72B-Instruct est l'un des derniers modèles de langage à grande échelle publiés par Alibaba Cloud. Ce modèle 72B présente des capacités considérablement améliorées dans des domaines tels que le codage et les mathématiques. Le modèle offre également un support multilingue, couvrant plus de 29 langues, y compris le chinois et l'anglais. Il a montré des améliorations significatives dans le suivi des instructions, la compréhension des données structurées et la génération de sorties structurées (en particulier JSON)."
|
265
|
+
},
|
218
266
|
"Yi-34B-Chat": {
|
219
267
|
"description": "Yi-1.5-34B, tout en maintenant les excellentes capacités linguistiques générales de la série originale, a considérablement amélioré ses compétences en logique mathématique et en codage grâce à un entraînement incrémental sur 500 milliards de tokens de haute qualité."
|
220
268
|
},
|
@@ -290,9 +338,15 @@
|
|
290
338
|
"accounts/fireworks/models/phi-3-vision-128k-instruct": {
|
291
339
|
"description": "Le modèle d'instructions Phi 3 Vision est un modèle multimodal léger, capable de traiter des informations visuelles et textuelles complexes, avec une forte capacité de raisonnement."
|
292
340
|
},
|
341
|
+
"accounts/fireworks/models/qwen-qwq-32b-preview": {
|
342
|
+
"description": "Le modèle QwQ est un modèle de recherche expérimental développé par l'équipe Qwen, axé sur l'amélioration des capacités de raisonnement de l'IA."
|
343
|
+
},
|
293
344
|
"accounts/fireworks/models/qwen2p5-72b-instruct": {
|
294
345
|
"description": "Qwen2.5 est une série de modèles de langage à décodage uniquement développée par l'équipe Qwen d'Alibaba Cloud. Ces modèles sont offerts en différentes tailles, y compris 0.5B, 1.5B, 3B, 7B, 14B, 32B et 72B, avec des variantes de base (base) et d'instruction (instruct)."
|
295
346
|
},
|
347
|
+
"accounts/fireworks/models/qwen2p5-coder-32b-instruct": {
|
348
|
+
"description": "Qwen2.5 Coder 32B Instruct est la dernière version de la série de modèles de langage à grande échelle spécifique au code publiée par Alibaba Cloud. Ce modèle, basé sur Qwen2.5, a été formé avec 55 trillions de tokens, améliorant considérablement les capacités de génération, de raisonnement et de correction de code. Il renforce non seulement les capacités de codage, mais maintient également des avantages en mathématiques et en compétences générales. Le modèle fournit une base plus complète pour des applications pratiques telles que les agents de code."
|
349
|
+
},
|
296
350
|
"accounts/fireworks/models/starcoder-16b": {
|
297
351
|
"description": "Le modèle StarCoder 15.5B prend en charge des tâches de programmation avancées, avec des capacités multilingues améliorées, adapté à la génération et à la compréhension de code complexes."
|
298
352
|
},
|
@@ -392,6 +446,9 @@
|
|
392
446
|
"codellama": {
|
393
447
|
"description": "Code Llama est un LLM axé sur la génération et la discussion de code, combinant un large support de langages de programmation, adapté aux environnements de développement."
|
394
448
|
},
|
449
|
+
"codellama/CodeLlama-34b-Instruct-hf": {
|
450
|
+
"description": "Code Llama est un LLM axé sur la génération et la discussion de code, combinant un large support de langages de programmation, adapté aux environnements de développement."
|
451
|
+
},
|
395
452
|
"codellama:13b": {
|
396
453
|
"description": "Code Llama est un LLM axé sur la génération et la discussion de code, combinant un large support de langages de programmation, adapté aux environnements de développement."
|
397
454
|
},
|
@@ -428,6 +485,9 @@
|
|
428
485
|
"databricks/dbrx-instruct": {
|
429
486
|
"description": "DBRX Instruct offre des capacités de traitement d'instructions hautement fiables, prenant en charge des applications dans divers secteurs."
|
430
487
|
},
|
488
|
+
"deepseek-ai/DeepSeek-V2-Chat": {
|
489
|
+
"description": "DeepSeek-V2 est un puissant modèle de langage hybride (MoE) économique. Il a été pré-entraîné sur un corpus de haute qualité de 81 trillions de tokens et a été amélioré par un ajustement supervisé (SFT) et un apprentissage par renforcement (RL). Comparé à DeepSeek 67B, DeepSeek-V2 offre de meilleures performances tout en économisant 42,5 % des coûts d'entraînement, réduisant de 93,3 % le cache KV et augmentant le débit de génération maximal de 5,76 fois. Ce modèle prend en charge une longueur de contexte de 128k et excelle dans les tests de référence standard et les évaluations de génération ouverte."
|
490
|
+
},
|
431
491
|
"deepseek-ai/DeepSeek-V2.5": {
|
432
492
|
"description": "DeepSeek V2.5 intègre les excellentes caractéristiques des versions précédentes, renforçant les capacités générales et de codage."
|
433
493
|
},
|
@@ -682,6 +742,9 @@
|
|
682
742
|
},
|
683
743
|
"jamba-1.5-large": {},
|
684
744
|
"jamba-1.5-mini": {},
|
745
|
+
"learnlm-1.5-pro-experimental": {
|
746
|
+
"description": "LearnLM est un modèle de langage expérimental, spécifique à des tâches, formé pour respecter les principes des sciences de l'apprentissage, capable de suivre des instructions systématiques dans des contextes d'enseignement et d'apprentissage, agissant comme un mentor expert, entre autres."
|
747
|
+
},
|
685
748
|
"lite": {
|
686
749
|
"description": "Spark Lite est un modèle de langage léger, offrant une latence extrêmement faible et une capacité de traitement efficace, entièrement gratuit et ouvert, prenant en charge la recherche en temps réel. Sa capacité de réponse rapide le rend exceptionnel pour les applications d'inférence sur des appareils à faible puissance de calcul et pour le réglage des modèles, offrant aux utilisateurs un excellent rapport coût-efficacité et une expérience intelligente, en particulier dans les scénarios de questions-réponses, de génération de contenu et de recherche."
|
687
750
|
},
|
@@ -872,6 +935,9 @@
|
|
872
935
|
"description": "Meta Llama 3 est un modèle de langage ouvert (LLM) destiné aux développeurs, chercheurs et entreprises, conçu pour les aider à construire, expérimenter et étendre de manière responsable leurs idées d'IA générative. En tant que partie intégrante d'un système de base pour l'innovation de la communauté mondiale, il est particulièrement adapté aux appareils à capacité de calcul et de ressources limitées, ainsi qu'à des temps d'entraînement plus rapides."
|
873
936
|
},
|
874
937
|
"microsoft/Phi-3.5-mini-instruct": {},
|
938
|
+
"microsoft/WizardLM-2-8x22B": {
|
939
|
+
"description": "WizardLM 2 est un modèle de langage proposé par Microsoft AI, qui excelle dans les domaines des dialogues complexes, du multilinguisme, du raisonnement et des assistants intelligents."
|
940
|
+
},
|
875
941
|
"microsoft/wizardlm 2-7b": {
|
876
942
|
"description": "WizardLM 2 7B est le dernier modèle léger et rapide de Microsoft AI, offrant des performances proches de dix fois celles des modèles leaders open source existants."
|
877
943
|
},
|
@@ -956,6 +1022,9 @@
|
|
956
1022
|
"nvidia/Llama-3.1-Nemotron-70B-Instruct": {
|
957
1023
|
"description": "Llama 3.1 Nemotron 70B est un modèle de langage de grande taille personnalisé par NVIDIA, conçu pour améliorer le degré d'aide des réponses générées par LLM aux requêtes des utilisateurs."
|
958
1024
|
},
|
1025
|
+
"nvidia/Llama-3.1-Nemotron-70B-Instruct-HF": {
|
1026
|
+
"description": "Llama 3.1 Nemotron 70B est un modèle de langage à grande échelle personnalisé par NVIDIA, conçu pour améliorer l'aide fournie par les réponses générées par LLM aux requêtes des utilisateurs. Ce modèle a excellé dans des tests de référence tels que Arena Hard, AlpacaEval 2 LC et GPT-4-Turbo MT-Bench, se classant premier dans les trois tests d'alignement automatique au 1er octobre 2024. Le modèle utilise RLHF (en particulier REINFORCE), Llama-3.1-Nemotron-70B-Reward et HelpSteer2-Preference pour l'entraînement sur la base du modèle Llama-3.1-70B-Instruct."
|
1027
|
+
},
|
959
1028
|
"o1-mini": {
|
960
1029
|
"description": "o1-mini est un modèle de raisonnement rapide et économique conçu pour les applications de programmation, de mathématiques et de sciences. Ce modèle dispose d'un contexte de 128K et d'une date limite de connaissance en octobre 2023."
|
961
1030
|
},
|
@@ -1052,6 +1121,9 @@
|
|
1052
1121
|
"qwen2": {
|
1053
1122
|
"description": "Qwen2 est le nouveau modèle de langage à grande échelle d'Alibaba, offrant d'excellentes performances pour des besoins d'application diversifiés."
|
1054
1123
|
},
|
1124
|
+
"qwen2.5": {
|
1125
|
+
"description": "Qwen2.5 est le nouveau modèle de langage à grande échelle de Alibaba, offrant d'excellentes performances pour répondre à des besoins d'application diversifiés."
|
1126
|
+
},
|
1055
1127
|
"qwen2.5-14b-instruct": {
|
1056
1128
|
"description": "Le modèle de 14B de Tongyi Qwen 2.5, open source."
|
1057
1129
|
},
|
@@ -1076,6 +1148,15 @@
|
|
1076
1148
|
"qwen2.5-math-7b-instruct": {
|
1077
1149
|
"description": "Le modèle Qwen-Math possède de puissantes capacités de résolution de problèmes mathématiques."
|
1078
1150
|
},
|
1151
|
+
"qwen2.5:0.5b": {
|
1152
|
+
"description": "Qwen2.5 est le nouveau modèle de langage à grande échelle de Alibaba, offrant d'excellentes performances pour répondre à des besoins d'application diversifiés."
|
1153
|
+
},
|
1154
|
+
"qwen2.5:1.5b": {
|
1155
|
+
"description": "Qwen2.5 est le nouveau modèle de langage à grande échelle de Alibaba, offrant d'excellentes performances pour répondre à des besoins d'application diversifiés."
|
1156
|
+
},
|
1157
|
+
"qwen2.5:72b": {
|
1158
|
+
"description": "Qwen2.5 est le nouveau modèle de langage à grande échelle de Alibaba, offrant d'excellentes performances pour répondre à des besoins d'application diversifiés."
|
1159
|
+
},
|
1079
1160
|
"qwen2:0.5b": {
|
1080
1161
|
"description": "Qwen2 est le nouveau modèle de langage à grande échelle d'Alibaba, offrant d'excellentes performances pour des besoins d'application diversifiés."
|
1081
1162
|
},
|
@@ -1085,6 +1166,12 @@
|
|
1085
1166
|
"qwen2:72b": {
|
1086
1167
|
"description": "Qwen2 est le nouveau modèle de langage à grande échelle d'Alibaba, offrant d'excellentes performances pour des besoins d'application diversifiés."
|
1087
1168
|
},
|
1169
|
+
"qwq": {
|
1170
|
+
"description": "QwQ est un modèle de recherche expérimental, axé sur l'amélioration des capacités de raisonnement de l'IA."
|
1171
|
+
},
|
1172
|
+
"qwq-32b-preview": {
|
1173
|
+
"description": "Le modèle QwQ est un modèle de recherche expérimental développé par l'équipe Qwen, axé sur l'amélioration des capacités de raisonnement de l'IA."
|
1174
|
+
},
|
1088
1175
|
"solar-1-mini-chat": {
|
1089
1176
|
"description": "Solar Mini est un LLM compact, surpassant GPT-3.5, avec de puissantes capacités multilingues, supportant l'anglais et le coréen, offrant une solution efficace et compacte."
|
1090
1177
|
},
|
@@ -2,6 +2,9 @@
|
|
2
2
|
"01-ai/Yi-1.5-34B-Chat-16K": {
|
3
3
|
"description": "Yi-1.5 34B, con un ricco campione di addestramento, offre prestazioni superiori nelle applicazioni di settore."
|
4
4
|
},
|
5
|
+
"01-ai/Yi-1.5-6B-Chat": {
|
6
|
+
"description": "Yi-1.5-6B-Chat è una variante della serie Yi-1.5, appartenente ai modelli di chat open source. Yi-1.5 è una versione aggiornata di Yi, addestrata su 500B di dati di alta qualità e rifinita su oltre 3M di campioni diversificati. Rispetto a Yi, Yi-1.5 mostra prestazioni superiori in codifica, matematica, ragionamento e capacità di seguire istruzioni, mantenendo al contempo eccellenti capacità di comprensione linguistica, ragionamento di buon senso e comprensione della lettura. Questo modello è disponibile in versioni con lunghezze di contesto di 4K, 16K e 32K, con un totale di pre-addestramento di 3.6T token."
|
7
|
+
},
|
5
8
|
"01-ai/Yi-1.5-9B-Chat-16K": {
|
6
9
|
"description": "Yi-1.5 9B supporta 16K Tokens, offrendo capacità di generazione linguistica efficienti e fluide."
|
7
10
|
},
|
@@ -91,6 +94,12 @@
|
|
91
94
|
"Gryphe/MythoMax-L2-13b": {
|
92
95
|
"description": "MythoMax-L2 (13B) è un modello innovativo, adatto per applicazioni in più settori e compiti complessi."
|
93
96
|
},
|
97
|
+
"LoRA/Qwen/Qwen2.5-72B-Instruct": {
|
98
|
+
"description": "Qwen2.5-72B-Instruct è uno dei più recenti modelli linguistici di grandi dimensioni rilasciati da Alibaba Cloud. Questo modello da 72B ha capacità notevolmente migliorate in codifica e matematica. Il modello offre anche supporto multilingue, coprendo oltre 29 lingue, tra cui cinese e inglese. Ha mostrato miglioramenti significativi nel seguire istruzioni, comprendere dati strutturati e generare output strutturati (soprattutto JSON)."
|
99
|
+
},
|
100
|
+
"LoRA/Qwen/Qwen2.5-7B-Instruct": {
|
101
|
+
"description": "Qwen2.5-7B-Instruct è uno dei più recenti modelli linguistici di grandi dimensioni rilasciati da Alibaba Cloud. Questo modello da 7B ha capacità notevolmente migliorate in codifica e matematica. Il modello offre anche supporto multilingue, coprendo oltre 29 lingue, tra cui cinese e inglese. Ha mostrato miglioramenti significativi nel seguire istruzioni, comprendere dati strutturati e generare output strutturati (soprattutto JSON)."
|
102
|
+
},
|
94
103
|
"Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
95
104
|
"description": "Hermes 2 Mixtral 8x7B DPO è un modello altamente flessibile, progettato per offrire un'esperienza creativa eccezionale."
|
96
105
|
},
|
@@ -98,9 +107,6 @@
|
|
98
107
|
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
99
108
|
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) è un modello di istruzioni ad alta precisione, adatto per calcoli complessi."
|
100
109
|
},
|
101
|
-
"NousResearch/Nous-Hermes-2-Yi-34B": {
|
102
|
-
"description": "Nous Hermes-2 Yi (34B) offre output linguistici ottimizzati e possibilità di applicazione diversificate."
|
103
|
-
},
|
104
110
|
"OpenGVLab/InternVL2-26B": {
|
105
111
|
"description": "InternVL2 ha dimostrato prestazioni eccezionali in una varietà di compiti visivi linguistici, tra cui comprensione di documenti e grafici, comprensione di testo in scena, OCR, risoluzione di problemi scientifici e matematici."
|
106
112
|
},
|
@@ -134,18 +140,42 @@
|
|
134
140
|
"Pro/OpenGVLab/InternVL2-8B": {
|
135
141
|
"description": "InternVL2 ha dimostrato prestazioni eccezionali in una varietà di compiti visivi linguistici, tra cui comprensione di documenti e grafici, comprensione di testo in scena, OCR, risoluzione di problemi scientifici e matematici."
|
136
142
|
},
|
143
|
+
"Pro/Qwen/Qwen2-1.5B-Instruct": {
|
144
|
+
"description": "Qwen2-1.5B-Instruct è un modello linguistico di grandi dimensioni con fine-tuning per istruzioni nella serie Qwen2, con una dimensione di 1.5B parametri. Questo modello si basa sull'architettura Transformer, utilizzando funzioni di attivazione SwiGLU, bias QKV di attenzione e attenzione a query di gruppo. Ha dimostrato prestazioni eccellenti in comprensione linguistica, generazione, capacità multilingue, codifica, matematica e ragionamento in vari benchmark, superando la maggior parte dei modelli open source. Rispetto a Qwen1.5-1.8B-Chat, Qwen2-1.5B-Instruct ha mostrato miglioramenti significativi nei test MMLU, HumanEval, GSM8K, C-Eval e IFEval, nonostante un numero di parametri leggermente inferiore."
|
145
|
+
},
|
146
|
+
"Pro/Qwen/Qwen2-7B-Instruct": {
|
147
|
+
"description": "Qwen2-7B-Instruct è un modello linguistico di grandi dimensioni con fine-tuning per istruzioni nella serie Qwen2, con una dimensione di 7B parametri. Questo modello si basa sull'architettura Transformer, utilizzando funzioni di attivazione SwiGLU, bias QKV di attenzione e attenzione a query di gruppo. È in grado di gestire input di grandi dimensioni. Ha dimostrato prestazioni eccellenti in comprensione linguistica, generazione, capacità multilingue, codifica, matematica e ragionamento in vari benchmark, superando la maggior parte dei modelli open source e mostrando competitività paragonabile a modelli proprietari in alcuni compiti. Qwen2-7B-Instruct ha mostrato miglioramenti significativi in vari test rispetto a Qwen1.5-7B-Chat."
|
148
|
+
},
|
137
149
|
"Pro/Qwen/Qwen2-VL-7B-Instruct": {
|
138
150
|
"description": "Qwen2-VL è l'ultima iterazione del modello Qwen-VL, che ha raggiunto prestazioni all'avanguardia nei benchmark di comprensione visiva."
|
139
151
|
},
|
140
|
-
"Qwen/
|
141
|
-
"description": "
|
152
|
+
"Pro/Qwen/Qwen2.5-7B-Instruct": {
|
153
|
+
"description": "Qwen2.5-7B-Instruct è uno dei più recenti modelli linguistici di grandi dimensioni rilasciati da Alibaba Cloud. Questo modello da 7B ha capacità notevolmente migliorate in codifica e matematica. Il modello offre anche supporto multilingue, coprendo oltre 29 lingue, tra cui cinese e inglese. Ha mostrato miglioramenti significativi nel seguire istruzioni, comprendere dati strutturati e generare output strutturati (soprattutto JSON)."
|
154
|
+
},
|
155
|
+
"Pro/Qwen/Qwen2.5-Coder-7B-Instruct": {
|
156
|
+
"description": "Qwen2.5-Coder-7B-Instruct è l'ultima versione della serie di modelli linguistici di grandi dimensioni specifici per il codice rilasciata da Alibaba Cloud. Questo modello, basato su Qwen2.5, ha migliorato significativamente le capacità di generazione, ragionamento e riparazione del codice grazie all'addestramento su 55 trilioni di token. Ha potenziato non solo le capacità di codifica, ma ha anche mantenuto i vantaggi nelle abilità matematiche e generali. Il modello fornisce una base più completa per applicazioni pratiche come agenti di codice."
|
157
|
+
},
|
158
|
+
"Pro/THUDM/glm-4-9b-chat": {
|
159
|
+
"description": "GLM-4-9B-Chat è la versione open source del modello pre-addestrato GLM-4 della serie sviluppata da Zhipu AI. Questo modello ha dimostrato prestazioni eccellenti in vari aspetti, tra cui semantica, matematica, ragionamento, codice e conoscenza. Oltre a supportare conversazioni multi-turno, GLM-4-9B-Chat offre anche funzionalità avanzate come navigazione web, esecuzione di codice, chiamate a strumenti personalizzati (Function Call) e ragionamento su testi lunghi. Il modello supporta 26 lingue, tra cui cinese, inglese, giapponese, coreano e tedesco. Ha mostrato prestazioni eccellenti in vari benchmark, come AlignBench-v2, MT-Bench, MMLU e C-Eval. Questo modello supporta una lunghezza di contesto massima di 128K, rendendolo adatto per ricerche accademiche e applicazioni commerciali."
|
142
160
|
},
|
143
|
-
"
|
144
|
-
"description": "
|
161
|
+
"Pro/google/gemma-2-9b-it": {
|
162
|
+
"description": "Gemma è una delle serie di modelli open source leggeri e all'avanguardia sviluppati da Google. È un modello linguistico di grandi dimensioni con solo decoder, supporta l'inglese e offre pesi aperti, varianti pre-addestrate e varianti con fine-tuning per istruzioni. Il modello Gemma è adatto per vari compiti di generazione di testi, tra cui domande e risposte, riassunti e ragionamento. Questo modello da 9B è stato addestrato su 80 trilioni di token. La sua dimensione relativamente ridotta consente di implementarlo in ambienti con risorse limitate, come laptop, desktop o la propria infrastruttura cloud, rendendo così accessibili modelli AI all'avanguardia a un pubblico più ampio e promuovendo l'innovazione."
|
163
|
+
},
|
164
|
+
"Pro/meta-llama/Meta-Llama-3.1-8B-Instruct": {
|
165
|
+
"description": "Meta Llama 3.1 è una famiglia di modelli linguistici di grandi dimensioni multilingue sviluppata da Meta, che include varianti pre-addestrate e con fine-tuning per istruzioni con dimensioni di 8B, 70B e 405B. Questo modello di fine-tuning per istruzioni da 8B è ottimizzato per scenari di dialogo multilingue e ha dimostrato prestazioni eccellenti in vari benchmark di settore. L'addestramento del modello ha utilizzato oltre 150 trilioni di token di dati pubblici e ha impiegato tecniche come il fine-tuning supervisionato e l'apprendimento per rinforzo basato su feedback umano per migliorare l'utilità e la sicurezza del modello. Llama 3.1 supporta la generazione di testi e di codice, con una data di scadenza delle conoscenze fissata a dicembre 2023."
|
166
|
+
},
|
167
|
+
"Qwen/QwQ-32B-Preview": {
|
168
|
+
"description": "QwQ-32B-Preview è l'ultimo modello di ricerca sperimentale di Qwen, focalizzato sul miglioramento delle capacità di ragionamento dell'IA. Esplorando meccanismi complessi come la mescolanza linguistica e il ragionamento ricorsivo, i principali vantaggi includono potenti capacità di analisi del ragionamento, abilità matematiche e di programmazione. Tuttavia, ci sono anche problemi di cambio linguistico, cicli di ragionamento, considerazioni di sicurezza e differenze in altre capacità."
|
169
|
+
},
|
170
|
+
"Qwen/Qwen2-1.5B-Instruct": {
|
171
|
+
"description": "Qwen2-1.5B-Instruct è un modello linguistico di grandi dimensioni con fine-tuning per istruzioni nella serie Qwen2, con una dimensione di 1.5B parametri. Questo modello si basa sull'architettura Transformer, utilizzando funzioni di attivazione SwiGLU, bias QKV di attenzione e attenzione a query di gruppo. Ha dimostrato prestazioni eccellenti in comprensione linguistica, generazione, capacità multilingue, codifica, matematica e ragionamento in vari benchmark, superando la maggior parte dei modelli open source. Rispetto a Qwen1.5-1.8B-Chat, Qwen2-1.5B-Instruct ha mostrato miglioramenti significativi nei test MMLU, HumanEval, GSM8K, C-Eval e IFEval, nonostante un numero di parametri leggermente inferiore."
|
145
172
|
},
|
146
173
|
"Qwen/Qwen2-72B-Instruct": {
|
147
174
|
"description": "Qwen2 è un modello di linguaggio universale avanzato, supportando vari tipi di istruzioni."
|
148
175
|
},
|
176
|
+
"Qwen/Qwen2-7B-Instruct": {
|
177
|
+
"description": "Qwen2-72B-Instruct è un modello linguistico di grandi dimensioni con fine-tuning per istruzioni nella serie Qwen2, con una dimensione di 72B parametri. Questo modello si basa sull'architettura Transformer, utilizzando funzioni di attivazione SwiGLU, bias QKV di attenzione e attenzione a query di gruppo. È in grado di gestire input di grandi dimensioni. Ha dimostrato prestazioni eccellenti in comprensione linguistica, generazione, capacità multilingue, codifica, matematica e ragionamento in vari benchmark, superando la maggior parte dei modelli open source e mostrando competitività paragonabile a modelli proprietari in alcuni compiti."
|
178
|
+
},
|
149
179
|
"Qwen/Qwen2-VL-72B-Instruct": {
|
150
180
|
"description": "Qwen2-VL è l'ultima iterazione del modello Qwen-VL, che ha raggiunto prestazioni all'avanguardia nei benchmark di comprensione visiva."
|
151
181
|
},
|
@@ -173,6 +203,9 @@
|
|
173
203
|
"Qwen/Qwen2.5-Coder-32B-Instruct": {
|
174
204
|
"description": "Qwen2.5-Coder si concentra sulla scrittura di codice."
|
175
205
|
},
|
206
|
+
"Qwen/Qwen2.5-Coder-7B-Instruct": {
|
207
|
+
"description": "Qwen2.5-Coder-7B-Instruct è l'ultima versione della serie di modelli linguistici di grandi dimensioni specifici per il codice rilasciata da Alibaba Cloud. Questo modello, basato su Qwen2.5, ha migliorato significativamente le capacità di generazione, ragionamento e riparazione del codice grazie all'addestramento su 55 trilioni di token. Ha potenziato non solo le capacità di codifica, ma ha anche mantenuto i vantaggi nelle abilità matematiche e generali. Il modello fornisce una base più completa per applicazioni pratiche come agenti di codice."
|
208
|
+
},
|
176
209
|
"Qwen/Qwen2.5-Math-72B-Instruct": {
|
177
210
|
"description": "Qwen2.5-Math si concentra sulla risoluzione di problemi nel campo della matematica, fornendo risposte professionali a domande di alta difficoltà."
|
178
211
|
},
|
@@ -209,12 +242,27 @@
|
|
209
242
|
"SenseChat-Turbo": {
|
210
243
|
"description": "Adatto per domande e risposte rapide, scenari di micro-ottimizzazione del modello."
|
211
244
|
},
|
245
|
+
"THUDM/chatglm3-6b": {
|
246
|
+
"description": "ChatGLM3-6B è un modello open source della serie ChatGLM, sviluppato da Zhipu AI. Questo modello conserva le eccellenti caratteristiche dei modelli precedenti, come la fluidità del dialogo e la bassa soglia di implementazione, introducendo al contempo nuove funzionalità. Utilizza dati di addestramento più diversificati, un numero maggiore di passi di addestramento e strategie di addestramento più ragionevoli, dimostrando prestazioni eccellenti tra i modelli pre-addestrati sotto i 10B. ChatGLM3-6B supporta scenari complessi come conversazioni multi-turno, chiamate a strumenti, esecuzione di codice e compiti di agente. Oltre al modello di dialogo, sono stati rilasciati anche il modello di base ChatGLM-6B-Base e il modello di dialogo su testi lunghi ChatGLM3-6B-32K. Questo modello è completamente aperto per la ricerca accademica e consente anche un uso commerciale gratuito dopo la registrazione."
|
247
|
+
},
|
212
248
|
"THUDM/glm-4-9b-chat": {
|
213
249
|
"description": "GLM-4 9B è una versione open source, progettata per fornire un'esperienza di dialogo ottimizzata per applicazioni conversazionali."
|
214
250
|
},
|
251
|
+
"TeleAI/TeleChat2": {
|
252
|
+
"description": "Il grande modello TeleChat2 è un modello semantico generativo sviluppato autonomamente da China Telecom, che supporta funzioni come domande e risposte enciclopediche, generazione di codice e generazione di testi lunghi, fornendo servizi di consulenza dialogica agli utenti, in grado di interagire con gli utenti, rispondere a domande e assistere nella creazione, aiutando gli utenti a ottenere informazioni, conoscenze e ispirazione in modo efficiente e conveniente. Il modello ha mostrato prestazioni eccellenti in problemi di illusione, generazione di testi lunghi e comprensione logica."
|
253
|
+
},
|
254
|
+
"TeleAI/TeleMM": {
|
255
|
+
"description": "Il grande modello multimodale TeleMM è un modello di comprensione multimodale sviluppato autonomamente da China Telecom, in grado di gestire input di diverse modalità, come testo e immagini, supportando funzioni di comprensione delle immagini e analisi dei grafici, fornendo servizi di comprensione multimodale agli utenti. Il modello è in grado di interagire con gli utenti in modo multimodale, comprendere accuratamente il contenuto dell'input, rispondere a domande, assistere nella creazione e fornire in modo efficiente supporto informativo e ispirazione multimodale. Ha mostrato prestazioni eccellenti in compiti multimodali come percezione fine e ragionamento logico."
|
256
|
+
},
|
215
257
|
"Tencent/Hunyuan-A52B-Instruct": {
|
216
258
|
"description": "Hunyuan-Large è il modello MoE con architettura Transformer open source più grande del settore, con un totale di 389 miliardi di parametri e 52 miliardi di parametri attivi."
|
217
259
|
},
|
260
|
+
"Vendor-A/Qwen/Qwen2-7B-Instruct": {
|
261
|
+
"description": "Qwen2-72B-Instruct è un modello linguistico di grandi dimensioni con fine-tuning per istruzioni nella serie Qwen2, con una dimensione di 72B parametri. Questo modello si basa sull'architettura Transformer, utilizzando funzioni di attivazione SwiGLU, bias QKV di attenzione e attenzione a query di gruppo. È in grado di gestire input di grandi dimensioni. Ha dimostrato prestazioni eccellenti in comprensione linguistica, generazione, capacità multilingue, codifica, matematica e ragionamento in vari benchmark, superando la maggior parte dei modelli open source e mostrando competitività paragonabile a modelli proprietari in alcuni compiti."
|
262
|
+
},
|
263
|
+
"Vendor-A/Qwen/Qwen2.5-72B-Instruct": {
|
264
|
+
"description": "Qwen2.5-72B-Instruct è uno dei più recenti modelli linguistici di grandi dimensioni rilasciati da Alibaba Cloud. Questo modello da 72B ha capacità notevolmente migliorate in codifica e matematica. Il modello offre anche supporto multilingue, coprendo oltre 29 lingue, tra cui cinese e inglese. Ha mostrato miglioramenti significativi nel seguire istruzioni, comprendere dati strutturati e generare output strutturati (soprattutto JSON)."
|
265
|
+
},
|
218
266
|
"Yi-34B-Chat": {
|
219
267
|
"description": "Yi-1.5-34B, mantenendo le eccellenti capacità linguistiche generali della serie originale, ha notevolmente migliorato la logica matematica e le capacità di codifica attraverso un addestramento incrementale su 500 miliardi di token di alta qualità."
|
220
268
|
},
|
@@ -290,9 +338,15 @@
|
|
290
338
|
"accounts/fireworks/models/phi-3-vision-128k-instruct": {
|
291
339
|
"description": "Il modello di istruzioni Phi 3 Vision è un modello multimodale leggero, in grado di gestire informazioni visive e testuali complesse, con forti capacità di ragionamento."
|
292
340
|
},
|
341
|
+
"accounts/fireworks/models/qwen-qwq-32b-preview": {
|
342
|
+
"description": "Il modello QwQ è un modello di ricerca sperimentale sviluppato dal team Qwen, focalizzato sul potenziamento delle capacità di ragionamento dell'IA."
|
343
|
+
},
|
293
344
|
"accounts/fireworks/models/qwen2p5-72b-instruct": {
|
294
345
|
"description": "Qwen2.5 è una serie di modelli linguistici solo decoder sviluppata dal team Qwen di Alibaba Cloud. Questi modelli offrono dimensioni diverse, tra cui 0.5B, 1.5B, 3B, 7B, 14B, 32B e 72B, e ci sono varianti base e di istruzione."
|
295
346
|
},
|
347
|
+
"accounts/fireworks/models/qwen2p5-coder-32b-instruct": {
|
348
|
+
"description": "Qwen2.5 Coder 32B Instruct è l'ultima versione della serie di modelli linguistici di grandi dimensioni specifici per il codice rilasciata da Alibaba Cloud. Questo modello, basato su Qwen2.5, ha migliorato significativamente le capacità di generazione, ragionamento e riparazione del codice grazie all'addestramento su 55 trilioni di token. Ha potenziato non solo le capacità di codifica, ma ha anche mantenuto i vantaggi nelle abilità matematiche e generali. Il modello fornisce una base più completa per applicazioni pratiche come agenti di codice."
|
349
|
+
},
|
296
350
|
"accounts/fireworks/models/starcoder-16b": {
|
297
351
|
"description": "Il modello StarCoder 15.5B supporta compiti di programmazione avanzati, con capacità multilingue potenziate, adatto per la generazione e comprensione di codice complesso."
|
298
352
|
},
|
@@ -392,6 +446,9 @@
|
|
392
446
|
"codellama": {
|
393
447
|
"description": "Code Llama è un LLM focalizzato sulla generazione e discussione di codice, combinando un ampio supporto per i linguaggi di programmazione, adatto per ambienti di sviluppo."
|
394
448
|
},
|
449
|
+
"codellama/CodeLlama-34b-Instruct-hf": {
|
450
|
+
"description": "Code Llama è un LLM focalizzato sulla generazione e discussione di codice, con un ampio supporto per diversi linguaggi di programmazione, adatto per ambienti di sviluppo."
|
451
|
+
},
|
395
452
|
"codellama:13b": {
|
396
453
|
"description": "Code Llama è un LLM focalizzato sulla generazione e discussione di codice, combinando un ampio supporto per i linguaggi di programmazione, adatto per ambienti di sviluppo."
|
397
454
|
},
|
@@ -428,6 +485,9 @@
|
|
428
485
|
"databricks/dbrx-instruct": {
|
429
486
|
"description": "DBRX Instruct offre capacità di elaborazione di istruzioni altamente affidabili, supportando applicazioni in vari settori."
|
430
487
|
},
|
488
|
+
"deepseek-ai/DeepSeek-V2-Chat": {
|
489
|
+
"description": "DeepSeek-V2 è un potente e conveniente modello linguistico ibrido (MoE). È stato pre-addestrato su un corpus di alta qualità di 81 trilioni di token e ha ulteriormente migliorato le capacità del modello attraverso il fine-tuning supervisionato (SFT) e l'apprendimento per rinforzo (RL). Rispetto a DeepSeek 67B, DeepSeek-V2 offre prestazioni superiori, risparmiando il 42,5% dei costi di addestramento, riducendo il 93,3% della cache KV e aumentando il massimo throughput di generazione di 5,76 volte. Questo modello supporta una lunghezza di contesto di 128k e ha dimostrato prestazioni eccellenti nei benchmark standard e nelle valutazioni di generazione aperta."
|
490
|
+
},
|
431
491
|
"deepseek-ai/DeepSeek-V2.5": {
|
432
492
|
"description": "DeepSeek V2.5 combina le eccellenti caratteristiche delle versioni precedenti, migliorando le capacità generali e di codifica."
|
433
493
|
},
|
@@ -682,6 +742,9 @@
|
|
682
742
|
},
|
683
743
|
"jamba-1.5-large": {},
|
684
744
|
"jamba-1.5-mini": {},
|
745
|
+
"learnlm-1.5-pro-experimental": {
|
746
|
+
"description": "LearnLM è un modello linguistico sperimentale, specifico per compiti, addestrato per rispettare i principi della scienza dell'apprendimento, in grado di seguire istruzioni sistematiche in contesti di insegnamento e apprendimento, fungendo da tutor esperto."
|
747
|
+
},
|
685
748
|
"lite": {
|
686
749
|
"description": "Spark Lite è un modello di linguaggio di grandi dimensioni leggero, con latenza estremamente bassa e capacità di elaborazione efficiente, completamente gratuito e aperto, supporta funzionalità di ricerca online in tempo reale. La sua caratteristica di risposta rapida lo rende eccellente per applicazioni di inferenza su dispositivi a bassa potenza e per il fine-tuning dei modelli, offrendo agli utenti un'ottima efficienza dei costi e un'esperienza intelligente, soprattutto nei contesti di domande e risposte, generazione di contenuti e ricerca."
|
687
750
|
},
|
@@ -872,6 +935,9 @@
|
|
872
935
|
"description": "Meta Llama 3 è un modello di linguaggio di grandi dimensioni (LLM) open source progettato per sviluppatori, ricercatori e aziende, per aiutarli a costruire, sperimentare e scalare responsabilmente le loro idee di AI generativa. Come parte di un sistema di base per l'innovazione della comunità globale, è particolarmente adatto per dispositivi a bassa potenza e risorse limitate, oltre a garantire tempi di addestramento più rapidi."
|
873
936
|
},
|
874
937
|
"microsoft/Phi-3.5-mini-instruct": {},
|
938
|
+
"microsoft/WizardLM-2-8x22B": {
|
939
|
+
"description": "WizardLM 2 è un modello linguistico fornito da Microsoft AI, particolarmente efficace in conversazioni complesse, multilingue, ragionamento e assistenti intelligenti."
|
940
|
+
},
|
875
941
|
"microsoft/wizardlm 2-7b": {
|
876
942
|
"description": "WizardLM 2 7B è il modello leggero e veloce più recente di Microsoft AI, con prestazioni vicine a quelle dei modelli leader open source esistenti."
|
877
943
|
},
|
@@ -956,6 +1022,9 @@
|
|
956
1022
|
"nvidia/Llama-3.1-Nemotron-70B-Instruct": {
|
957
1023
|
"description": "Llama 3.1 Nemotron 70B è un modello linguistico di grandi dimensioni personalizzato da NVIDIA, progettato per migliorare il grado di aiuto delle risposte generate da LLM alle domande degli utenti."
|
958
1024
|
},
|
1025
|
+
"nvidia/Llama-3.1-Nemotron-70B-Instruct-HF": {
|
1026
|
+
"description": "Llama 3.1 Nemotron 70B è un modello linguistico di grandi dimensioni personalizzato da NVIDIA, progettato per migliorare l'utilità delle risposte generate dai LLM alle domande degli utenti. Questo modello ha ottenuto risultati eccellenti nei benchmark come Arena Hard, AlpacaEval 2 LC e GPT-4-Turbo MT-Bench, classificandosi al primo posto in tutti e tre i benchmark di allineamento automatico fino al 1 ottobre 2024. Il modello è stato addestrato utilizzando RLHF (in particolare REINFORCE), Llama-3.1-Nemotron-70B-Reward e HelpSteer2-Preference come suggerimenti, basandosi sul modello Llama-3.1-70B-Instruct."
|
1027
|
+
},
|
959
1028
|
"o1-mini": {
|
960
1029
|
"description": "o1-mini è un modello di inferenza rapido ed economico progettato per applicazioni di programmazione, matematica e scienza. Questo modello ha un contesto di 128K e una data di cutoff della conoscenza di ottobre 2023."
|
961
1030
|
},
|
@@ -1052,6 +1121,9 @@
|
|
1052
1121
|
"qwen2": {
|
1053
1122
|
"description": "Qwen2 è la nuova generazione di modelli di linguaggio su larga scala di Alibaba, supporta prestazioni eccellenti per esigenze applicative diversificate."
|
1054
1123
|
},
|
1124
|
+
"qwen2.5": {
|
1125
|
+
"description": "Qwen2.5 è la nuova generazione di modelli linguistici su larga scala di Alibaba, che supporta esigenze applicative diversificate con prestazioni eccellenti."
|
1126
|
+
},
|
1055
1127
|
"qwen2.5-14b-instruct": {
|
1056
1128
|
"description": "Modello da 14B di Tongyi Qwen 2.5, open source."
|
1057
1129
|
},
|
@@ -1076,6 +1148,15 @@
|
|
1076
1148
|
"qwen2.5-math-7b-instruct": {
|
1077
1149
|
"description": "Il modello Qwen-Math ha potenti capacità di risoluzione di problemi matematici."
|
1078
1150
|
},
|
1151
|
+
"qwen2.5:0.5b": {
|
1152
|
+
"description": "Qwen2.5 è la nuova generazione di modelli linguistici su larga scala di Alibaba, che supporta esigenze applicative diversificate con prestazioni eccellenti."
|
1153
|
+
},
|
1154
|
+
"qwen2.5:1.5b": {
|
1155
|
+
"description": "Qwen2.5 è la nuova generazione di modelli linguistici su larga scala di Alibaba, che supporta esigenze applicative diversificate con prestazioni eccellenti."
|
1156
|
+
},
|
1157
|
+
"qwen2.5:72b": {
|
1158
|
+
"description": "Qwen2.5 è la nuova generazione di modelli linguistici su larga scala di Alibaba, che supporta esigenze applicative diversificate con prestazioni eccellenti."
|
1159
|
+
},
|
1079
1160
|
"qwen2:0.5b": {
|
1080
1161
|
"description": "Qwen2 è la nuova generazione di modelli di linguaggio su larga scala di Alibaba, supporta prestazioni eccellenti per esigenze applicative diversificate."
|
1081
1162
|
},
|
@@ -1085,6 +1166,12 @@
|
|
1085
1166
|
"qwen2:72b": {
|
1086
1167
|
"description": "Qwen2 è la nuova generazione di modelli di linguaggio su larga scala di Alibaba, supporta prestazioni eccellenti per esigenze applicative diversificate."
|
1087
1168
|
},
|
1169
|
+
"qwq": {
|
1170
|
+
"description": "QwQ è un modello di ricerca sperimentale, focalizzato sul miglioramento delle capacità di ragionamento dell'IA."
|
1171
|
+
},
|
1172
|
+
"qwq-32b-preview": {
|
1173
|
+
"description": "Il modello QwQ è un modello di ricerca sperimentale sviluppato dal team Qwen, focalizzato sul potenziamento delle capacità di ragionamento dell'IA."
|
1174
|
+
},
|
1088
1175
|
"solar-1-mini-chat": {
|
1089
1176
|
"description": "Solar Mini è un LLM compatto, con prestazioni superiori a GPT-3.5, dotato di forti capacità multilingue, supportando inglese e coreano, offrendo soluzioni efficienti e compatte."
|
1090
1177
|
},
|
@@ -88,10 +88,10 @@
|
|
88
88
|
"title": "カスタムモデル名"
|
89
89
|
},
|
90
90
|
"download": {
|
91
|
-
"desc": "Ollama
|
92
|
-
"remainingTime": "
|
93
|
-
"speed": "
|
94
|
-
"title": "
|
91
|
+
"desc": "Ollamaはこのモデルをダウンロードしています。このページを閉じないでください。再ダウンロードすると中断したところから再開されます。",
|
92
|
+
"remainingTime": "残り時間",
|
93
|
+
"speed": "ダウンロード速度",
|
94
|
+
"title": "モデル{{model}}をダウンロード中"
|
95
95
|
},
|
96
96
|
"endpoint": {
|
97
97
|
"desc": "Ollamaプロキシインターフェースアドレスを入力してください。ローカルで追加の指定がない場合は空白のままにしてください",
|
@@ -123,12 +123,12 @@
|
|
123
123
|
},
|
124
124
|
"title": "Ollama",
|
125
125
|
"unlock": {
|
126
|
-
"cancel": "
|
127
|
-
"confirm": "
|
128
|
-
"description": "
|
126
|
+
"cancel": "ダウンロードをキャンセル",
|
127
|
+
"confirm": "ダウンロード",
|
128
|
+
"description": "Ollamaモデルのラベルを入力して、セッションを続行してください。",
|
129
129
|
"downloaded": "{{completed}} / {{total}}",
|
130
|
-
"starting": "
|
131
|
-
"title": "
|
130
|
+
"starting": "ダウンロードを開始しています...",
|
131
|
+
"title": "指定されたOllamaモデルをダウンロード"
|
132
132
|
}
|
133
133
|
},
|
134
134
|
"sensenova": {
|