@lobehub/chat 1.35.0 → 1.35.1
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/CHANGELOG.md +25 -0
- package/changelog/v1.json +9 -0
- package/docs/changelog/2024-07-19-gpt-4o-mini.mdx +32 -0
- package/docs/changelog/2024-07-19-gpt-4o-mini.zh-CN.mdx +5 -4
- package/docs/changelog/2024-08-02-lobe-chat-database-docker.mdx +36 -0
- package/docs/changelog/2024-08-02-lobe-chat-database-docker.zh-CN.mdx +0 -1
- package/docs/changelog/2024-08-21-file-upload-and-knowledge-base.mdx +30 -0
- package/docs/changelog/2024-08-21-file-upload-and-knowledge-base.zh-CN.mdx +0 -1
- package/docs/changelog/2024-09-13-openai-o1-models.mdx +31 -0
- package/docs/changelog/2024-09-20-artifacts.mdx +55 -0
- package/docs/changelog/2024-09-20-artifacts.zh-CN.mdx +3 -2
- package/docs/changelog/2024-10-27-pin-assistant.mdx +33 -0
- package/docs/changelog/2024-10-27-pin-assistant.zh-CN.mdx +0 -1
- package/docs/changelog/2024-11-06-share-text-json.mdx +24 -0
- package/docs/changelog/2024-11-06-share-text-json.zh-CN.mdx +3 -1
- package/docs/changelog/2024-11-25-november-providers.mdx +5 -5
- package/docs/changelog/2024-11-25-november-providers.zh-CN.mdx +5 -5
- package/docs/changelog/2024-11-27-forkable-chat.mdx +26 -0
- package/docs/changelog/2024-11-27-forkable-chat.zh-CN.mdx +16 -9
- package/docs/changelog/index.json +1 -1
- package/docs/self-hosting/environment-variables/analytics.mdx +1 -1
- package/locales/ar/models.json +94 -7
- package/locales/bg-BG/models.json +94 -7
- package/locales/de-DE/models.json +94 -7
- package/locales/en-US/models.json +94 -7
- package/locales/es-ES/models.json +94 -7
- package/locales/fa-IR/models.json +94 -7
- package/locales/fr-FR/models.json +94 -7
- package/locales/it-IT/models.json +94 -7
- package/locales/ja-JP/models.json +94 -7
- package/locales/ko-KR/models.json +94 -7
- package/locales/nl-NL/models.json +94 -7
- package/locales/pl-PL/models.json +94 -7
- package/locales/pt-BR/models.json +94 -7
- package/locales/ru-RU/models.json +94 -7
- package/locales/tr-TR/models.json +94 -7
- package/locales/vi-VN/models.json +94 -7
- package/locales/zh-CN/models.json +121 -34
- package/locales/zh-TW/models.json +94 -7
- package/package.json +1 -1
- package/src/config/modelProviders/ollama.ts +84 -35
@@ -2,6 +2,9 @@
|
|
2
2
|
"01-ai/Yi-1.5-34B-Chat-16K": {
|
3
3
|
"description": "Yi-1.5 34B, com um rico conjunto de amostras de treinamento, oferece desempenho superior em aplicações industriais."
|
4
4
|
},
|
5
|
+
"01-ai/Yi-1.5-6B-Chat": {
|
6
|
+
"description": "Yi-1.5-6B-Chat é uma variante da série Yi-1.5, pertencente aos modelos de chat de código aberto. Yi-1.5 é uma versão aprimorada do Yi, tendo sido continuamente pré-treinada em 500B de corpus de alta qualidade e ajustada em mais de 3M de amostras diversificadas. Em comparação com o Yi, o Yi-1.5 apresenta desempenho superior em codificação, matemática, raciocínio e capacidade de seguir instruções, mantendo uma excelente compreensão de linguagem, raciocínio de senso comum e compreensão de leitura. Este modelo possui versões com comprimento de contexto de 4K, 16K e 32K, com um total de pré-treinamento de 3.6T de tokens."
|
7
|
+
},
|
5
8
|
"01-ai/Yi-1.5-9B-Chat-16K": {
|
6
9
|
"description": "Yi-1.5 9B suporta 16K Tokens, oferecendo capacidade de geração de linguagem eficiente e fluida."
|
7
10
|
},
|
@@ -91,6 +94,12 @@
|
|
91
94
|
"Gryphe/MythoMax-L2-13b": {
|
92
95
|
"description": "MythoMax-L2 (13B) é um modelo inovador, adequado para aplicações em múltiplas áreas e tarefas complexas."
|
93
96
|
},
|
97
|
+
"LoRA/Qwen/Qwen2.5-72B-Instruct": {
|
98
|
+
"description": "Qwen2.5-72B-Instruct é um dos mais recentes modelos de linguagem de grande escala lançados pela Alibaba Cloud. Este modelo de 72B apresenta melhorias significativas em áreas como codificação e matemática. O modelo também oferece suporte multilíngue, abrangendo mais de 29 idiomas, incluindo chinês e inglês. O modelo teve melhorias significativas em seguir instruções, entender dados estruturados e gerar saídas estruturadas (especialmente JSON)."
|
99
|
+
},
|
100
|
+
"LoRA/Qwen/Qwen2.5-7B-Instruct": {
|
101
|
+
"description": "Qwen2.5-7B-Instruct é um dos mais recentes modelos de linguagem de grande escala lançados pela Alibaba Cloud. Este modelo de 7B apresenta melhorias significativas em áreas como codificação e matemática. O modelo também oferece suporte multilíngue, abrangendo mais de 29 idiomas, incluindo chinês e inglês. O modelo teve melhorias significativas em seguir instruções, entender dados estruturados e gerar saídas estruturadas (especialmente JSON)."
|
102
|
+
},
|
94
103
|
"Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
95
104
|
"description": "Hermes 2 Mixtral 8x7B DPO é uma fusão de múltiplos modelos altamente flexível, projetada para oferecer uma experiência criativa excepcional."
|
96
105
|
},
|
@@ -98,9 +107,6 @@
|
|
98
107
|
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
99
108
|
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) é um modelo de instrução de alta precisão, adequado para cálculos complexos."
|
100
109
|
},
|
101
|
-
"NousResearch/Nous-Hermes-2-Yi-34B": {
|
102
|
-
"description": "Nous Hermes-2 Yi (34B) oferece saídas de linguagem otimizadas e diversas possibilidades de aplicação."
|
103
|
-
},
|
104
110
|
"OpenGVLab/InternVL2-26B": {
|
105
111
|
"description": "InternVL2 demonstrou desempenho excepcional em diversas tarefas de linguagem visual, incluindo compreensão de documentos e gráficos, compreensão de texto em cena, OCR, e resolução de problemas científicos e matemáticos."
|
106
112
|
},
|
@@ -134,18 +140,42 @@
|
|
134
140
|
"Pro/OpenGVLab/InternVL2-8B": {
|
135
141
|
"description": "InternVL2 demonstrou desempenho excepcional em diversas tarefas de linguagem visual, incluindo compreensão de documentos e gráficos, compreensão de texto em cena, OCR, e resolução de problemas científicos e matemáticos."
|
136
142
|
},
|
143
|
+
"Pro/Qwen/Qwen2-1.5B-Instruct": {
|
144
|
+
"description": "Qwen2-1.5B-Instruct é um modelo de linguagem de grande escala com ajuste fino para instruções na série Qwen2, com um tamanho de parâmetro de 1.5B. Este modelo é baseado na arquitetura Transformer, utilizando funções de ativação SwiGLU, viés de atenção QKV e atenção de consulta em grupo. Ele se destaca em compreensão de linguagem, geração, capacidade multilíngue, codificação, matemática e raciocínio em vários benchmarks, superando a maioria dos modelos de código aberto. Em comparação com o Qwen1.5-1.8B-Chat, o Qwen2-1.5B-Instruct mostrou melhorias significativas de desempenho em testes como MMLU, HumanEval, GSM8K, C-Eval e IFEval, apesar de ter um número de parâmetros ligeiramente menor."
|
145
|
+
},
|
146
|
+
"Pro/Qwen/Qwen2-7B-Instruct": {
|
147
|
+
"description": "Qwen2-7B-Instruct é um modelo de linguagem de grande escala com ajuste fino para instruções na série Qwen2, com um tamanho de parâmetro de 7B. Este modelo é baseado na arquitetura Transformer, utilizando funções de ativação SwiGLU, viés de atenção QKV e atenção de consulta em grupo. Ele é capaz de lidar com entradas em larga escala. O modelo se destaca em compreensão de linguagem, geração, capacidade multilíngue, codificação, matemática e raciocínio em vários benchmarks, superando a maioria dos modelos de código aberto e demonstrando competitividade comparável a modelos proprietários em algumas tarefas. O Qwen2-7B-Instruct superou o Qwen1.5-7B-Chat em várias avaliações, mostrando melhorias significativas de desempenho."
|
148
|
+
},
|
137
149
|
"Pro/Qwen/Qwen2-VL-7B-Instruct": {
|
138
150
|
"description": "Qwen2-VL é a versão mais recente do modelo Qwen-VL, alcançando desempenho de ponta em testes de compreensão visual."
|
139
151
|
},
|
140
|
-
"Qwen/
|
141
|
-
"description": "
|
152
|
+
"Pro/Qwen/Qwen2.5-7B-Instruct": {
|
153
|
+
"description": "Qwen2.5-7B-Instruct é um dos mais recentes modelos de linguagem de grande escala lançados pela Alibaba Cloud. Este modelo de 7B apresenta melhorias significativas em áreas como codificação e matemática. O modelo também oferece suporte multilíngue, abrangendo mais de 29 idiomas, incluindo chinês e inglês. O modelo teve melhorias significativas em seguir instruções, entender dados estruturados e gerar saídas estruturadas (especialmente JSON)."
|
154
|
+
},
|
155
|
+
"Pro/Qwen/Qwen2.5-Coder-7B-Instruct": {
|
156
|
+
"description": "Qwen2.5-Coder-7B-Instruct é a versão mais recente da série de modelos de linguagem de grande escala específicos para código lançada pela Alibaba Cloud. Este modelo, baseado no Qwen2.5, foi treinado com 55 trilhões de tokens, melhorando significativamente a capacidade de geração, raciocínio e correção de código. Ele não apenas aprimora a capacidade de codificação, mas também mantém as vantagens em matemática e habilidades gerais. O modelo fornece uma base mais abrangente para aplicações práticas, como agentes de código."
|
157
|
+
},
|
158
|
+
"Pro/THUDM/glm-4-9b-chat": {
|
159
|
+
"description": "GLM-4-9B-Chat é a versão de código aberto da série de modelos pré-treinados GLM-4 lançada pela Zhipu AI. Este modelo se destaca em semântica, matemática, raciocínio, código e conhecimento. Além de suportar diálogos de múltiplas rodadas, o GLM-4-9B-Chat também possui recursos avançados como navegação na web, execução de código, chamadas de ferramentas personalizadas (Function Call) e raciocínio de longo texto. O modelo suporta 26 idiomas, incluindo chinês, inglês, japonês, coreano e alemão. Em vários benchmarks, o GLM-4-9B-Chat demonstrou desempenho excepcional, como AlignBench-v2, MT-Bench, MMLU e C-Eval. O modelo suporta um comprimento de contexto máximo de 128K, adequado para pesquisa acadêmica e aplicações comerciais."
|
142
160
|
},
|
143
|
-
"
|
144
|
-
"description": "
|
161
|
+
"Pro/google/gemma-2-9b-it": {
|
162
|
+
"description": "Gemma é uma das séries de modelos abertos mais avançadas e leves desenvolvidas pelo Google. É um modelo de linguagem em larga escala apenas de decodificação, que suporta inglês, oferecendo pesos abertos, variantes pré-treinadas e variantes de ajuste fino para instruções. O modelo Gemma é adequado para várias tarefas de geração de texto, incluindo perguntas e respostas, resumos e raciocínio. Este modelo de 9B foi treinado com 80 trilhões de tokens. Seu tamanho relativamente pequeno permite que seja implantado em ambientes com recursos limitados, como laptops, desktops ou sua própria infraestrutura em nuvem, permitindo que mais pessoas acessem modelos de IA de ponta e promovam inovações."
|
163
|
+
},
|
164
|
+
"Pro/meta-llama/Meta-Llama-3.1-8B-Instruct": {
|
165
|
+
"description": "Meta Llama 3.1 é uma família de modelos de linguagem em larga escala multilíngue desenvolvida pela Meta, incluindo variantes pré-treinadas e de ajuste fino para instruções com tamanhos de parâmetros de 8B, 70B e 405B. Este modelo de 8B foi otimizado para cenários de diálogo multilíngue e se destacou em vários benchmarks da indústria. O treinamento do modelo utilizou mais de 150 trilhões de tokens de dados públicos e empregou técnicas como ajuste fino supervisionado e aprendizado por reforço com feedback humano para melhorar a utilidade e segurança do modelo. Llama 3.1 suporta geração de texto e geração de código, com data de corte de conhecimento em dezembro de 2023."
|
166
|
+
},
|
167
|
+
"Qwen/QwQ-32B-Preview": {
|
168
|
+
"description": "QwQ-32B-Preview é o mais recente modelo de pesquisa experimental da Qwen, focado em melhorar a capacidade de raciocínio da IA. Ao explorar mecanismos complexos como mistura de linguagem e raciocínio recursivo, suas principais vantagens incluem forte capacidade de análise de raciocínio, habilidades matemáticas e de programação. Ao mesmo tempo, existem questões de troca de linguagem, ciclos de raciocínio, considerações de segurança e diferenças em outras capacidades."
|
169
|
+
},
|
170
|
+
"Qwen/Qwen2-1.5B-Instruct": {
|
171
|
+
"description": "Qwen2-1.5B-Instruct é um modelo de linguagem de grande escala com ajuste fino para instruções na série Qwen2, com um tamanho de parâmetro de 1.5B. Este modelo é baseado na arquitetura Transformer, utilizando funções de ativação SwiGLU, viés de atenção QKV e atenção de consulta em grupo. Ele se destaca em compreensão de linguagem, geração, capacidade multilíngue, codificação, matemática e raciocínio em vários benchmarks, superando a maioria dos modelos de código aberto. Em comparação com o Qwen1.5-1.8B-Chat, o Qwen2-1.5B-Instruct mostrou melhorias significativas de desempenho em testes como MMLU, HumanEval, GSM8K, C-Eval e IFEval, apesar de ter um número de parâmetros ligeiramente menor."
|
145
172
|
},
|
146
173
|
"Qwen/Qwen2-72B-Instruct": {
|
147
174
|
"description": "Qwen2 é um modelo de linguagem universal avançado, suportando diversos tipos de instruções."
|
148
175
|
},
|
176
|
+
"Qwen/Qwen2-7B-Instruct": {
|
177
|
+
"description": "Qwen2-72B-Instruct é um modelo de linguagem de grande escala com ajuste fino para instruções na série Qwen2, com um tamanho de parâmetro de 72B. Este modelo é baseado na arquitetura Transformer, utilizando funções de ativação SwiGLU, viés de atenção QKV e atenção de consulta em grupo. Ele é capaz de lidar com entradas em larga escala. O modelo se destaca em compreensão de linguagem, geração, capacidade multilíngue, codificação, matemática e raciocínio em vários benchmarks, superando a maioria dos modelos de código aberto e demonstrando competitividade comparável a modelos proprietários em algumas tarefas."
|
178
|
+
},
|
149
179
|
"Qwen/Qwen2-VL-72B-Instruct": {
|
150
180
|
"description": "Qwen2-VL é a versão mais recente do modelo Qwen-VL, alcançando desempenho de ponta em testes de compreensão visual."
|
151
181
|
},
|
@@ -173,6 +203,9 @@
|
|
173
203
|
"Qwen/Qwen2.5-Coder-32B-Instruct": {
|
174
204
|
"description": "Qwen2.5-Coder foca na escrita de código."
|
175
205
|
},
|
206
|
+
"Qwen/Qwen2.5-Coder-7B-Instruct": {
|
207
|
+
"description": "Qwen2.5-Coder-7B-Instruct é a versão mais recente da série de modelos de linguagem de grande escala específicos para código lançada pela Alibaba Cloud. Este modelo, baseado no Qwen2.5, foi treinado com 55 trilhões de tokens, melhorando significativamente a capacidade de geração, raciocínio e correção de código. Ele não apenas aprimora a capacidade de codificação, mas também mantém as vantagens em matemática e habilidades gerais. O modelo fornece uma base mais abrangente para aplicações práticas, como agentes de código."
|
208
|
+
},
|
176
209
|
"Qwen/Qwen2.5-Math-72B-Instruct": {
|
177
210
|
"description": "Qwen2.5-Math foca na resolução de problemas na área de matemática, oferecendo respostas especializadas para questões de alta dificuldade."
|
178
211
|
},
|
@@ -209,12 +242,27 @@
|
|
209
242
|
"SenseChat-Turbo": {
|
210
243
|
"description": "Adequado para perguntas rápidas e cenários de ajuste fino do modelo."
|
211
244
|
},
|
245
|
+
"THUDM/chatglm3-6b": {
|
246
|
+
"description": "ChatGLM3-6B é um modelo de código aberto da série ChatGLM, desenvolvido pela Zhipu AI. Este modelo mantém as excelentes características da geração anterior, como fluência no diálogo e baixo custo de implantação, enquanto introduz novos recursos. Ele utiliza dados de treinamento mais variados, um número de passos de treinamento mais robusto e uma estratégia de treinamento mais razoável, destacando-se entre modelos pré-treinados abaixo de 10B. O ChatGLM3-6B suporta diálogos de múltiplas rodadas, chamadas de ferramentas, execução de código e tarefas de agente em cenários complexos. Além do modelo de diálogo, também foram lançados o modelo base ChatGLM-6B-Base e o modelo de diálogo de longo texto ChatGLM3-6B-32K. Este modelo está completamente aberto para pesquisa acadêmica e permite uso comercial gratuito após registro."
|
247
|
+
},
|
212
248
|
"THUDM/glm-4-9b-chat": {
|
213
249
|
"description": "GLM-4 9B é uma versão de código aberto, oferecendo uma experiência de diálogo otimizada para aplicações de conversa."
|
214
250
|
},
|
251
|
+
"TeleAI/TeleChat2": {
|
252
|
+
"description": "O modelo TeleChat2 é um modelo semântico gerador desenvolvido de forma independente pela China Telecom, que suporta funções como perguntas e respostas enciclopédicas, geração de código e geração de textos longos, oferecendo serviços de consulta de diálogo aos usuários, permitindo interações de diálogo, respondendo perguntas e auxiliando na criação, ajudando os usuários a obter informações, conhecimento e inspiração de forma eficiente e conveniente. O modelo apresenta um desempenho notável em questões de alucinação, geração de textos longos e compreensão lógica."
|
253
|
+
},
|
254
|
+
"TeleAI/TeleMM": {
|
255
|
+
"description": "O modelo TeleMM é um modelo de compreensão multimodal desenvolvido de forma independente pela China Telecom, capaz de lidar com entradas de múltiplas modalidades, como texto e imagem, suportando funções como compreensão de imagem e análise de gráficos, oferecendo serviços de compreensão multimodal aos usuários. O modelo pode interagir com os usuários de forma multimodal, compreendendo com precisão o conteúdo de entrada, respondendo perguntas, auxiliando na criação e fornecendo informações e suporte de inspiração multimodal de forma eficiente. O modelo se destaca em tarefas multimodais, como percepção de granularidade fina e raciocínio lógico."
|
256
|
+
},
|
215
257
|
"Tencent/Hunyuan-A52B-Instruct": {
|
216
258
|
"description": "Hunyuan-Large é o maior modelo MoE de arquitetura Transformer open source da indústria, com um total de 389 bilhões de parâmetros e 52 bilhões de parâmetros ativados."
|
217
259
|
},
|
260
|
+
"Vendor-A/Qwen/Qwen2-7B-Instruct": {
|
261
|
+
"description": "Qwen2-72B-Instruct é um modelo de linguagem de grande escala com ajuste fino para instruções na série Qwen2, com um tamanho de parâmetro de 72B. Este modelo é baseado na arquitetura Transformer, utilizando funções de ativação SwiGLU, viés de atenção QKV e atenção de consulta em grupo. Ele é capaz de lidar com entradas em larga escala. O modelo se destaca em compreensão de linguagem, geração, capacidade multilíngue, codificação, matemática e raciocínio em vários benchmarks, superando a maioria dos modelos de código aberto e demonstrando competitividade comparável a modelos proprietários em algumas tarefas."
|
262
|
+
},
|
263
|
+
"Vendor-A/Qwen/Qwen2.5-72B-Instruct": {
|
264
|
+
"description": "Qwen2.5-72B-Instruct é um dos mais recentes modelos de linguagem de grande escala lançados pela Alibaba Cloud. Este modelo de 72B apresenta melhorias significativas em áreas como codificação e matemática. O modelo também oferece suporte multilíngue, abrangendo mais de 29 idiomas, incluindo chinês e inglês. O modelo teve melhorias significativas em seguir instruções, entender dados estruturados e gerar saídas estruturadas (especialmente JSON)."
|
265
|
+
},
|
218
266
|
"Yi-34B-Chat": {
|
219
267
|
"description": "Yi-1.5-34B, mantendo as excelentes habilidades linguísticas do modelo original, aumentou significativamente suas capacidades de lógica matemática e codificação através de treinamento incremental com 500 bilhões de tokens de alta qualidade."
|
220
268
|
},
|
@@ -290,9 +338,15 @@
|
|
290
338
|
"accounts/fireworks/models/phi-3-vision-128k-instruct": {
|
291
339
|
"description": "O modelo Phi 3 Vision Instruct é um modelo multimodal leve, capaz de processar informações visuais e textuais complexas, com forte capacidade de raciocínio."
|
292
340
|
},
|
341
|
+
"accounts/fireworks/models/qwen-qwq-32b-preview": {
|
342
|
+
"description": "O modelo QwQ é um modelo de pesquisa experimental desenvolvido pela equipe Qwen, focado em aprimorar a capacidade de raciocínio da IA."
|
343
|
+
},
|
293
344
|
"accounts/fireworks/models/qwen2p5-72b-instruct": {
|
294
345
|
"description": "Qwen2.5 é uma série de modelos de linguagem com apenas decodificadores, desenvolvida pela equipe Qwen da Alibaba Cloud. Estes modelos têm tamanhos variados, incluindo 0.5B, 1.5B, 3B, 7B, 14B, 32B e 72B, com variantes base (base) e de instrução (instruct)."
|
295
346
|
},
|
347
|
+
"accounts/fireworks/models/qwen2p5-coder-32b-instruct": {
|
348
|
+
"description": "Qwen2.5 Coder 32B Instruct é a versão mais recente da série de modelos de linguagem de grande escala específicos para código lançada pela Alibaba Cloud. Este modelo, baseado no Qwen2.5, foi treinado com 55 trilhões de tokens, melhorando significativamente a capacidade de geração, raciocínio e correção de código. Ele não apenas aprimora a capacidade de codificação, mas também mantém as vantagens em matemática e habilidades gerais. O modelo fornece uma base mais abrangente para aplicações práticas, como agentes de código."
|
349
|
+
},
|
296
350
|
"accounts/fireworks/models/starcoder-16b": {
|
297
351
|
"description": "O modelo StarCoder 15.5B suporta tarefas de programação avançadas, com capacidade multilíngue aprimorada, adequado para geração e compreensão de código complexos."
|
298
352
|
},
|
@@ -392,6 +446,9 @@
|
|
392
446
|
"codellama": {
|
393
447
|
"description": "Code Llama é um LLM focado em geração e discussão de código, combinando suporte a uma ampla gama de linguagens de programação, adequado para ambientes de desenvolvedores."
|
394
448
|
},
|
449
|
+
"codellama/CodeLlama-34b-Instruct-hf": {
|
450
|
+
"description": "Code Llama é um LLM focado em geração e discussão de código, combinando amplo suporte a linguagens de programação, adequado para ambientes de desenvolvedores."
|
451
|
+
},
|
395
452
|
"codellama:13b": {
|
396
453
|
"description": "Code Llama é um LLM focado em geração e discussão de código, combinando suporte a uma ampla gama de linguagens de programação, adequado para ambientes de desenvolvedores."
|
397
454
|
},
|
@@ -428,6 +485,9 @@
|
|
428
485
|
"databricks/dbrx-instruct": {
|
429
486
|
"description": "DBRX Instruct oferece capacidade de processamento de instruções altamente confiável, suportando aplicações em diversos setores."
|
430
487
|
},
|
488
|
+
"deepseek-ai/DeepSeek-V2-Chat": {
|
489
|
+
"description": "DeepSeek-V2 é um poderoso e econômico modelo de linguagem de especialistas mistos (MoE). Ele foi pré-treinado em um corpus de alta qualidade de 81 trilhões de tokens e aprimorado por meio de ajuste fino supervisionado (SFT) e aprendizado por reforço (RL). Em comparação com o DeepSeek 67B, o DeepSeek-V2 não só apresenta desempenho superior, mas também economiza 42,5% nos custos de treinamento, reduz 93,3% do cache KV e aumenta a taxa de geração máxima em 5,76 vezes. Este modelo suporta um comprimento de contexto de 128k e se destaca em benchmarks padrão e avaliações de geração aberta."
|
490
|
+
},
|
431
491
|
"deepseek-ai/DeepSeek-V2.5": {
|
432
492
|
"description": "DeepSeek V2.5 combina as excelentes características das versões anteriores, aprimorando a capacidade geral e de codificação."
|
433
493
|
},
|
@@ -682,6 +742,9 @@
|
|
682
742
|
},
|
683
743
|
"jamba-1.5-large": {},
|
684
744
|
"jamba-1.5-mini": {},
|
745
|
+
"learnlm-1.5-pro-experimental": {
|
746
|
+
"description": "LearnLM é um modelo de linguagem experimental e específico para tarefas, treinado para atender aos princípios da ciência da aprendizagem, podendo seguir instruções sistemáticas em cenários de ensino e aprendizagem, atuando como um mentor especialista, entre outros."
|
747
|
+
},
|
685
748
|
"lite": {
|
686
749
|
"description": "Spark Lite é um modelo de linguagem grande leve, com latência extremamente baixa e alta eficiência de processamento, totalmente gratuito e aberto, suportando funcionalidades de busca online em tempo real. Sua característica de resposta rápida o torna excelente para aplicações de inferência em dispositivos de baixo poder computacional e ajuste fino de modelos, proporcionando aos usuários uma excelente relação custo-benefício e experiência inteligente, especialmente em cenários de perguntas e respostas, geração de conteúdo e busca."
|
687
750
|
},
|
@@ -872,6 +935,9 @@
|
|
872
935
|
"description": "Meta Llama 3 é um modelo de linguagem de grande escala (LLM) aberto voltado para desenvolvedores, pesquisadores e empresas, projetado para ajudá-los a construir, experimentar e expandir suas ideias de IA geradora de forma responsável. Como parte de um sistema de base para inovação da comunidade global, é ideal para dispositivos de borda com capacidade de computação e recursos limitados, além de tempos de treinamento mais rápidos."
|
873
936
|
},
|
874
937
|
"microsoft/Phi-3.5-mini-instruct": {},
|
938
|
+
"microsoft/WizardLM-2-8x22B": {
|
939
|
+
"description": "WizardLM 2 é um modelo de linguagem fornecido pela Microsoft AI, que se destaca em diálogos complexos, multilíngue, raciocínio e assistentes inteligentes."
|
940
|
+
},
|
875
941
|
"microsoft/wizardlm 2-7b": {
|
876
942
|
"description": "WizardLM 2 7B é o modelo leve e rápido mais recente da Microsoft AI, com desempenho próximo a 10 vezes o de modelos de código aberto existentes."
|
877
943
|
},
|
@@ -956,6 +1022,9 @@
|
|
956
1022
|
"nvidia/Llama-3.1-Nemotron-70B-Instruct": {
|
957
1023
|
"description": "Llama 3.1 Nemotron 70B é um grande modelo de linguagem personalizado pela NVIDIA, visando aumentar a utilidade das respostas geradas pelo LLM para as consultas dos usuários."
|
958
1024
|
},
|
1025
|
+
"nvidia/Llama-3.1-Nemotron-70B-Instruct-HF": {
|
1026
|
+
"description": "Llama 3.1 Nemotron 70B é um modelo de linguagem em larga escala personalizado pela NVIDIA, projetado para aumentar a utilidade das respostas geradas pelo LLM em relação às consultas dos usuários. Este modelo se destacou em benchmarks como Arena Hard, AlpacaEval 2 LC e GPT-4-Turbo MT-Bench, ocupando o primeiro lugar em todos os três benchmarks de alinhamento automático até 1º de outubro de 2024. O modelo foi treinado usando RLHF (especialmente REINFORCE), Llama-3.1-Nemotron-70B-Reward e HelpSteer2-Preference prompts, com base no modelo Llama-3.1-70B-Instruct."
|
1027
|
+
},
|
959
1028
|
"o1-mini": {
|
960
1029
|
"description": "o1-mini é um modelo de raciocínio rápido e econômico, projetado para cenários de programação, matemática e ciências. Este modelo possui um contexto de 128K e uma data limite de conhecimento em outubro de 2023."
|
961
1030
|
},
|
@@ -1052,6 +1121,9 @@
|
|
1052
1121
|
"qwen2": {
|
1053
1122
|
"description": "Qwen2 é a nova geração de modelo de linguagem em larga escala da Alibaba, oferecendo desempenho excepcional para atender a diversas necessidades de aplicação."
|
1054
1123
|
},
|
1124
|
+
"qwen2.5": {
|
1125
|
+
"description": "Qwen2.5 é a nova geração de modelo de linguagem em larga escala da Alibaba, oferecendo desempenho excepcional para atender a diversas necessidades de aplicação."
|
1126
|
+
},
|
1055
1127
|
"qwen2.5-14b-instruct": {
|
1056
1128
|
"description": "Modelo de 14B parâmetros do Qwen 2.5, disponível como código aberto."
|
1057
1129
|
},
|
@@ -1076,6 +1148,15 @@
|
|
1076
1148
|
"qwen2.5-math-7b-instruct": {
|
1077
1149
|
"description": "O modelo Qwen-Math possui uma forte capacidade de resolução de problemas matemáticos."
|
1078
1150
|
},
|
1151
|
+
"qwen2.5:0.5b": {
|
1152
|
+
"description": "Qwen2.5 é a nova geração de modelo de linguagem em larga escala da Alibaba, oferecendo desempenho excepcional para atender a diversas necessidades de aplicação."
|
1153
|
+
},
|
1154
|
+
"qwen2.5:1.5b": {
|
1155
|
+
"description": "Qwen2.5 é a nova geração de modelo de linguagem em larga escala da Alibaba, oferecendo desempenho excepcional para atender a diversas necessidades de aplicação."
|
1156
|
+
},
|
1157
|
+
"qwen2.5:72b": {
|
1158
|
+
"description": "Qwen2.5 é a nova geração de modelo de linguagem em larga escala da Alibaba, oferecendo desempenho excepcional para atender a diversas necessidades de aplicação."
|
1159
|
+
},
|
1079
1160
|
"qwen2:0.5b": {
|
1080
1161
|
"description": "Qwen2 é a nova geração de modelo de linguagem em larga escala da Alibaba, oferecendo desempenho excepcional para atender a diversas necessidades de aplicação."
|
1081
1162
|
},
|
@@ -1085,6 +1166,12 @@
|
|
1085
1166
|
"qwen2:72b": {
|
1086
1167
|
"description": "Qwen2 é a nova geração de modelo de linguagem em larga escala da Alibaba, oferecendo desempenho excepcional para atender a diversas necessidades de aplicação."
|
1087
1168
|
},
|
1169
|
+
"qwq": {
|
1170
|
+
"description": "QwQ é um modelo de pesquisa experimental, focado em melhorar a capacidade de raciocínio da IA."
|
1171
|
+
},
|
1172
|
+
"qwq-32b-preview": {
|
1173
|
+
"description": "O modelo QwQ é um modelo de pesquisa experimental desenvolvido pela equipe Qwen, focado em aprimorar a capacidade de raciocínio da IA."
|
1174
|
+
},
|
1088
1175
|
"solar-1-mini-chat": {
|
1089
1176
|
"description": "Solar Mini é um LLM compacto, com desempenho superior ao GPT-3.5, possuindo forte capacidade multilíngue, suportando inglês e coreano, oferecendo uma solução eficiente e compacta."
|
1090
1177
|
},
|
@@ -2,6 +2,9 @@
|
|
2
2
|
"01-ai/Yi-1.5-34B-Chat-16K": {
|
3
3
|
"description": "Yi-1.5 34B, с богатым набором обучающих образцов, демонстрирует превосходные результаты в отраслевых приложениях."
|
4
4
|
},
|
5
|
+
"01-ai/Yi-1.5-6B-Chat": {
|
6
|
+
"description": "Yi-1.5-6B-Chat — это вариант серии Yi-1.5, относящийся к открытым моделям для чата. Yi-1.5 является обновленной версией Yi, которая была непрерывно предобучена на 500B высококачественных корпусах и дообучена на более чем 3M разнообразных образцах. По сравнению с Yi, Yi-1.5 демонстрирует более сильные способности в кодировании, математике, выводах и соблюдении инструкций, сохраняя при этом отличные навыки понимания языка, логического вывода и понимания прочитанного. Эта модель имеет версии с длиной контекста 4K, 16K и 32K, с общим объемом предобучения 3.6T токенов."
|
7
|
+
},
|
5
8
|
"01-ai/Yi-1.5-9B-Chat-16K": {
|
6
9
|
"description": "Yi-1.5 9B поддерживает 16K токенов, обеспечивая эффективные и плавные возможности генерации языка."
|
7
10
|
},
|
@@ -91,6 +94,12 @@
|
|
91
94
|
"Gryphe/MythoMax-L2-13b": {
|
92
95
|
"description": "MythoMax-L2 (13B) — это инновационная модель, подходящая для многообластных приложений и сложных задач."
|
93
96
|
},
|
97
|
+
"LoRA/Qwen/Qwen2.5-72B-Instruct": {
|
98
|
+
"description": "Qwen2.5-72B-Instruct — это одна из последних языковых моделей, выпущенных Alibaba Cloud. Эта 72B модель значительно улучшила способности в области кодирования и математики. Модель также поддерживает множество языков, охватывающих более 29 языков, включая китайский и английский. Она значительно улучшила выполнение инструкций, понимание структурированных данных и генерацию структурированных выходных данных (особенно JSON)."
|
99
|
+
},
|
100
|
+
"LoRA/Qwen/Qwen2.5-7B-Instruct": {
|
101
|
+
"description": "Qwen2.5-7B-Instruct — это одна из последних языковых моделей, выпущенных Alibaba Cloud. Эта 7B модель значительно улучшила способности в области кодирования и математики. Модель также поддерживает множество языков, охватывающих более 29 языков, включая китайский и английский. Она значительно улучшила выполнение инструкций, понимание структурированных данных и генерацию структурированных выходных данных (особенно JSON)."
|
102
|
+
},
|
94
103
|
"Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
95
104
|
"description": "Hermes 2 Mixtral 8x7B DPO — это высокоадаптивная многомодельная комбинация, предназначенная для предоставления выдающегося творческого опыта."
|
96
105
|
},
|
@@ -98,9 +107,6 @@
|
|
98
107
|
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
99
108
|
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) — это высокоточная модель команд, подходящая для сложных вычислений."
|
100
109
|
},
|
101
|
-
"NousResearch/Nous-Hermes-2-Yi-34B": {
|
102
|
-
"description": "Nous Hermes-2 Yi (34B) предлагает оптимизированный языковой вывод и разнообразные возможности применения."
|
103
|
-
},
|
104
110
|
"OpenGVLab/InternVL2-26B": {
|
105
111
|
"description": "InternVL2 демонстрирует превосходные результаты в различных визуально-языковых задачах, включая понимание документов и графиков, понимание текстов сцены, OCR, решение научных и математических задач."
|
106
112
|
},
|
@@ -134,18 +140,42 @@
|
|
134
140
|
"Pro/OpenGVLab/InternVL2-8B": {
|
135
141
|
"description": "InternVL2 демонстрирует превосходные результаты в различных визуально-языковых задачах, включая понимание документов и графиков, понимание текстов сцены, OCR, решение научных и математических задач."
|
136
142
|
},
|
143
|
+
"Pro/Qwen/Qwen2-1.5B-Instruct": {
|
144
|
+
"description": "Qwen2-1.5B-Instruct — это языковая модель с дообучением на инструкциях в серии Qwen2, с параметрами 1.5B. Эта модель основана на архитектуре Transformer и использует такие технологии, как активационная функция SwiGLU, смещение внимания QKV и групповой запрос внимания. Она показывает отличные результаты в понимании языка, генерации, многоязычных способностях, кодировании, математике и выводах в различных бенчмарках, превосходя большинство открытых моделей. По сравнению с Qwen1.5-1.8B-Chat, Qwen2-1.5B-Instruct демонстрирует значительное улучшение производительности в тестах MMLU, HumanEval, GSM8K, C-Eval и IFEval, несмотря на немного меньшее количество параметров."
|
145
|
+
},
|
146
|
+
"Pro/Qwen/Qwen2-7B-Instruct": {
|
147
|
+
"description": "Qwen2-7B-Instruct — это языковая модель с дообучением на инструкциях в серии Qwen2, с параметрами 7B. Эта модель основана на архитектуре Transformer и использует такие технологии, как активационная функция SwiGLU, смещение внимания QKV и групповой запрос внимания. Она может обрабатывать большие объемы входных данных. Эта модель показывает отличные результаты в понимании языка, генерации, многоязычных способностях, кодировании, математике и выводах в различных бенчмарках, превосходя большинство открытых моделей и демонстрируя конкурентоспособность с проприетарными моделями в некоторых задачах. Qwen2-7B-Instruct показывает значительное улучшение производительности в нескольких оценках по сравнению с Qwen1.5-7B-Chat."
|
148
|
+
},
|
137
149
|
"Pro/Qwen/Qwen2-VL-7B-Instruct": {
|
138
150
|
"description": "Qwen2-VL - это последняя версия модели Qwen-VL, которая достигла передовых результатов в тестировании визуального понимания."
|
139
151
|
},
|
140
|
-
"Qwen/
|
141
|
-
"description": "
|
152
|
+
"Pro/Qwen/Qwen2.5-7B-Instruct": {
|
153
|
+
"description": "Qwen2.5-7B-Instruct — это одна из последних языковых моделей, выпущенных Alibaba Cloud. Эта 7B модель значительно улучшила способности в области кодирования и математики. Модель также поддерживает множество языков, охватывающих более 29 языков, включая китайский и английский. Она значительно улучшила выполнение инструкций, понимание структурированных данных и генерацию структурированных выходных данных (особенно JSON)."
|
154
|
+
},
|
155
|
+
"Pro/Qwen/Qwen2.5-Coder-7B-Instruct": {
|
156
|
+
"description": "Qwen2.5-Coder-7B-Instruct — это последняя версия серии языковых моделей, специфичных для кода, выпущенная Alibaba Cloud. Эта модель значительно улучшила способности генерации кода, вывода и исправления на основе Qwen2.5, обучаясь на 5.5 триллионах токенов. Она не только усилила кодирование, но и сохранила преимущества в математике и общих способностях. Модель предоставляет более полную основу для практических приложений, таких как интеллектуальные агенты кода."
|
157
|
+
},
|
158
|
+
"Pro/THUDM/glm-4-9b-chat": {
|
159
|
+
"description": "GLM-4-9B-Chat — это открытая версия предобученной модели из серии GLM-4, выпущенная Zhizhu AI. Эта модель показывает отличные результаты в семантике, математике, выводах, коде и знаниях. Кроме поддержки многократных диалогов, GLM-4-9B-Chat также обладает продвинутыми функциями, такими как веб-браузинг, выполнение кода, вызов пользовательских инструментов (Function Call) и вывод длинных текстов. Модель поддерживает 26 языков, включая китайский, английский, японский, корейский и немецкий. В нескольких бенчмарках GLM-4-9B-Chat демонстрирует отличные результаты, такие как AlignBench-v2, MT-Bench, MMLU и C-Eval. Эта модель поддерживает максимальную длину контекста 128K и подходит для академических исследований и коммерческих приложений."
|
142
160
|
},
|
143
|
-
"
|
144
|
-
"description": "
|
161
|
+
"Pro/google/gemma-2-9b-it": {
|
162
|
+
"description": "Gemma — это одна из легковесных, передовых открытых моделей, разработанных Google. Это крупная языковая модель с только декодером, поддерживающая английский язык, предлагающая открытые веса, предобученные варианты и варианты с дообучением на инструкциях. Модель Gemma подходит для различных задач генерации текста, включая вопросы и ответы, резюме и выводы. Эта 9B модель была обучена на 8 триллионах токенов. Ее относительно небольшой размер позволяет развертывать ее в условиях ограниченных ресурсов, таких как ноутбуки, настольные компьютеры или ваша собственная облачная инфраструктура, что позволяет большему количеству людей получить доступ к передовым моделям ИИ и способствовать инновациям."
|
163
|
+
},
|
164
|
+
"Pro/meta-llama/Meta-Llama-3.1-8B-Instruct": {
|
165
|
+
"description": "Meta Llama 3.1 — это семейство многоязычных крупных языковых моделей, разработанных Meta, включая предобученные и дообученные на инструкциях варианты с параметрами 8B, 70B и 405B. Эта 8B модель с дообучением на инструкциях оптимизирована для многоязычных диалоговых сценариев и показывает отличные результаты в нескольких отраслевых бенчмарках. Обучение модели использовало более 150 триллионов токенов открытых данных и применяло такие технологии, как контролируемое дообучение и обучение с подкреплением на основе человеческой обратной связи для повышения полезности и безопасности модели. Llama 3.1 поддерживает генерацию текста и кода, с датой окончания знаний в декабре 2023 года."
|
166
|
+
},
|
167
|
+
"Qwen/QwQ-32B-Preview": {
|
168
|
+
"description": "QwQ-32B-Preview — это последняя экспериментальная исследовательская модель Qwen, сосредоточенная на повышении возможностей вывода ИИ. Исследуя сложные механизмы, такие как смешение языков и рекурсивные выводы, основные преимущества включают мощные аналитические способности, математические и программные навыки. В то же время существуют проблемы с переключением языков, циклом вывода, соображениями безопасности и различиями в других способностях."
|
169
|
+
},
|
170
|
+
"Qwen/Qwen2-1.5B-Instruct": {
|
171
|
+
"description": "Qwen2-1.5B-Instruct — это языковая модель с дообучением на инструкциях в серии Qwen2, с параметрами 1.5B. Эта модель основана на архитектуре Transformer и использует такие технологии, как активационная функция SwiGLU, смещение внимания QKV и групповой запрос внимания. Она показывает отличные результаты в понимании языка, генерации, многоязычных способностях, кодировании, математике и выводах в различных бенчмарках, превосходя большинство открытых моделей. По сравнению с Qwen1.5-1.8B-Chat, Qwen2-1.5B-Instruct демонстрирует значительное улучшение производительности в тестах MMLU, HumanEval, GSM8K, C-Eval и IFEval, несмотря на немного меньшее количество параметров."
|
145
172
|
},
|
146
173
|
"Qwen/Qwen2-72B-Instruct": {
|
147
174
|
"description": "Qwen2 — это передовая универсальная языковая модель, поддерживающая множество типов команд."
|
148
175
|
},
|
176
|
+
"Qwen/Qwen2-7B-Instruct": {
|
177
|
+
"description": "Qwen2-72B-Instruct — это языковая модель с дообучением на инструкциях в серии Qwen2, с параметрами 72B. Эта модель основана на архитектуре Transformer и использует такие технологии, как активационная функция SwiGLU, смещение внимания QKV и групповой запрос внимания. Она может обрабатывать большие объемы входных данных. Эта модель показывает отличные результаты в понимании языка, генерации, многоязычных способностях, кодировании, математике и выводах в различных бенчмарках, превосходя большинство открытых моделей и демонстрируя конкурентоспособность с проприетарными моделями в некоторых задачах."
|
178
|
+
},
|
149
179
|
"Qwen/Qwen2-VL-72B-Instruct": {
|
150
180
|
"description": "Qwen2-VL - это последняя версия модели Qwen-VL, которая достигла передовых результатов в тестировании визуального понимания."
|
151
181
|
},
|
@@ -173,6 +203,9 @@
|
|
173
203
|
"Qwen/Qwen2.5-Coder-32B-Instruct": {
|
174
204
|
"description": "Qwen2.5-Coder сосредоточен на написании кода."
|
175
205
|
},
|
206
|
+
"Qwen/Qwen2.5-Coder-7B-Instruct": {
|
207
|
+
"description": "Qwen2.5-Coder-7B-Instruct — это последняя версия серии языковых моделей, специфичных для кода, выпущенная Alibaba Cloud. Эта модель значительно улучшила способности генерации кода, вывода и исправления на основе Qwen2.5, обучаясь на 5.5 триллионах токенов. Она не только усилила кодирование, но и сохранила преимущества в математике и общих способностях. Модель предоставляет более полную основу для практических приложений, таких как интеллектуальные агенты кода."
|
208
|
+
},
|
176
209
|
"Qwen/Qwen2.5-Math-72B-Instruct": {
|
177
210
|
"description": "Qwen2.5-Math сосредоточен на решении математических задач, предоставляя профессиональные ответы на сложные вопросы."
|
178
211
|
},
|
@@ -209,12 +242,27 @@
|
|
209
242
|
"SenseChat-Turbo": {
|
210
243
|
"description": "Подходит для быстрого ответа на вопросы и сценариев тонкой настройки модели."
|
211
244
|
},
|
245
|
+
"THUDM/chatglm3-6b": {
|
246
|
+
"description": "ChatGLM3-6B — это открытая модель из серии ChatGLM, разработанная Zhizhu AI. Эта модель сохраняет отличные характеристики предыдущих моделей, такие как плавность диалога и низкий порог развертывания, одновременно вводя новые функции. Она использует более разнообразные обучающие данные, большее количество шагов обучения и более разумную стратегию обучения, показывая отличные результаты среди предобученных моделей объемом менее 10B. ChatGLM3-6B поддерживает многократные диалоги, вызовы инструментов, выполнение кода и задачи агента в сложных сценариях. Кроме диалоговой модели, также открыты базовая модель ChatGLM-6B-Base и модель для длинных текстовых диалогов ChatGLM3-6B-32K. Эта модель полностью открыта для академических исследований и также допускает бесплатное коммерческое использование после регистрации."
|
247
|
+
},
|
212
248
|
"THUDM/glm-4-9b-chat": {
|
213
249
|
"description": "GLM-4 9B — это открытая версия, обеспечивающая оптимизированный диалоговый опыт для приложений."
|
214
250
|
},
|
251
|
+
"TeleAI/TeleChat2": {
|
252
|
+
"description": "Модель TeleChat2 была разработана China Telecom с нуля и представляет собой генеративную семантическую модель, поддерживающую функции вопросов и ответов, генерации кода, генерации длинных текстов и т.д., предоставляя пользователям услуги консультаций в диалоговом формате, способную взаимодействовать с пользователями, отвечать на вопросы, помогать в творчестве и эффективно помогать пользователям получать информацию, знания и вдохновение. Модель показывает отличные результаты в решении проблем с галлюцинациями, генерацией длинных текстов и логическим пониманием."
|
253
|
+
},
|
254
|
+
"TeleAI/TeleMM": {
|
255
|
+
"description": "Модель TeleMM — это многомодальная модель, разработанная China Telecom, способная обрабатывать текстовые, графические и другие виды входных данных, поддерживающая функции понимания изображений, анализа графиков и т.д., предоставляя пользователям услуги понимания на разных модальностях. Модель может взаимодействовать с пользователями в многомодальном формате, точно понимая входной контент, отвечая на вопросы, помогая в творчестве и эффективно предоставляя многомодальную информацию и поддержку вдохновения. Она показывает отличные результаты в задачах многомодального восприятия и логического вывода."
|
256
|
+
},
|
215
257
|
"Tencent/Hunyuan-A52B-Instruct": {
|
216
258
|
"description": "Hunyuan-Large — это крупнейшая в отрасли открытая модель Transformer архитектуры MoE с общим количеством параметров 389 миллиардов и 52 миллиарда активных параметров."
|
217
259
|
},
|
260
|
+
"Vendor-A/Qwen/Qwen2-7B-Instruct": {
|
261
|
+
"description": "Qwen2-72B-Instruct — это языковая модель с дообучением на инструкциях в серии Qwen2, с параметрами 72B. Эта модель основана на архитектуре Transformer и использует такие технологии, как активационная функция SwiGLU, смещение внимания QKV и групповой запрос внимания. Она может обрабатывать большие объемы входных данных. Эта модель показывает отличные результаты в понимании языка, генерации, многоязычных способностях, кодировании, математике и выводах в различных бенчмарках, превосходя большинство открытых моделей и демонстрируя конкурентоспособность с проприетарными моделями в некоторых задачах."
|
262
|
+
},
|
263
|
+
"Vendor-A/Qwen/Qwen2.5-72B-Instruct": {
|
264
|
+
"description": "Qwen2.5-72B-Instruct — это одна из последних языковых моделей, выпущенных Alibaba Cloud. Эта 72B модель значительно улучшила способности в области кодирования и математики. Модель также поддерживает множество языков, охватывающих более 29 языков, включая китайский и английский. Она значительно улучшила выполнение инструкций, понимание структурированных данных и генерацию структурированных выходных данных (особенно JSON)."
|
265
|
+
},
|
218
266
|
"Yi-34B-Chat": {
|
219
267
|
"description": "Yi-1.5-34B, сохраняя выдающиеся универсальные языковые способности оригинальной серии моделей, значительно улучшила математическую логику и способности к кодированию благодаря инкрементальному обучению на 500 миллиардов высококачественных токенов."
|
220
268
|
},
|
@@ -290,9 +338,15 @@
|
|
290
338
|
"accounts/fireworks/models/phi-3-vision-128k-instruct": {
|
291
339
|
"description": "Phi 3 Vision для команд, легковесная мультимодальная модель, способная обрабатывать сложную визуальную и текстовую информацию, обладая высокой способностью к выводу."
|
292
340
|
},
|
341
|
+
"accounts/fireworks/models/qwen-qwq-32b-preview": {
|
342
|
+
"description": "Модель QwQ — это экспериментальная исследовательская модель, разработанная командой Qwen, сосредоточенная на улучшении возможностей вывода ИИ."
|
343
|
+
},
|
293
344
|
"accounts/fireworks/models/qwen2p5-72b-instruct": {
|
294
345
|
"description": "Qwen2.5 - это серия языковых моделей, содержащая только декодеры, разработанная командой Qwen от Alibaba Cloud. Эти модели предлагаются в различных размерах: 0.5B, 1.5B, 3B, 7B, 14B, 32B и 72B, с вариантами базовой и инструкционной версии."
|
295
346
|
},
|
347
|
+
"accounts/fireworks/models/qwen2p5-coder-32b-instruct": {
|
348
|
+
"description": "Qwen2.5 Coder 32B Instruct — это последняя версия серии языковых моделей, специфичных для кода, выпущенная Alibaba Cloud. Эта модель значительно улучшила способности генерации кода, вывода и исправления на основе Qwen2.5, обучаясь на 5.5 триллионах токенов. Она не только усилила кодирование, но и сохранила преимущества в математике и общих способностях. Модель предоставляет более полную основу для практических приложений, таких как интеллектуальные агенты кода."
|
349
|
+
},
|
296
350
|
"accounts/fireworks/models/starcoder-16b": {
|
297
351
|
"description": "Модель StarCoder 15.5B, поддерживающая сложные задачи программирования, с улучшенными многоязычными возможностями, подходит для генерации и понимания сложного кода."
|
298
352
|
},
|
@@ -392,6 +446,9 @@
|
|
392
446
|
"codellama": {
|
393
447
|
"description": "Code Llama — это LLM, сосредоточенная на генерации и обсуждении кода, поддерживающая широкий спектр языков программирования, подходит для среды разработчиков."
|
394
448
|
},
|
449
|
+
"codellama/CodeLlama-34b-Instruct-hf": {
|
450
|
+
"description": "Code Llama — это LLM, сосредоточенная на генерации и обсуждении кода, с поддержкой широкого спектра языков программирования, подходящая для среды разработчиков."
|
451
|
+
},
|
395
452
|
"codellama:13b": {
|
396
453
|
"description": "Code Llama — это LLM, сосредоточенная на генерации и обсуждении кода, поддерживающая широкий спектр языков программирования, подходит для среды разработчиков."
|
397
454
|
},
|
@@ -428,6 +485,9 @@
|
|
428
485
|
"databricks/dbrx-instruct": {
|
429
486
|
"description": "DBRX Instruct предлагает высокую надежность в обработке команд, поддерживая приложения в различных отраслях."
|
430
487
|
},
|
488
|
+
"deepseek-ai/DeepSeek-V2-Chat": {
|
489
|
+
"description": "DeepSeek-V2 — это мощная и экономически эффективная языковая модель с гибридными экспертами (MoE). Она была предварительно обучена на высококачественном корпусе из 8.1 триллиона токенов и дополнительно улучшена с помощью контролируемой дообучения (SFT) и обучения с подкреплением (RL). По сравнению с DeepSeek 67B, DeepSeek-V2 обеспечивает более высокую производительность, экономя 42.5% затрат на обучение, снижая использование KV-кэша на 93.3% и увеличивая максимальную пропускную способность генерации в 5.76 раз. Эта модель поддерживает длину контекста до 128k и показывает отличные результаты в стандартных бенчмарках и оценках открытой генерации."
|
490
|
+
},
|
431
491
|
"deepseek-ai/DeepSeek-V2.5": {
|
432
492
|
"description": "DeepSeek V2.5 объединяет отличительные черты предыдущих версий, улучшая общие и кодировочные способности."
|
433
493
|
},
|
@@ -682,6 +742,9 @@
|
|
682
742
|
},
|
683
743
|
"jamba-1.5-large": {},
|
684
744
|
"jamba-1.5-mini": {},
|
745
|
+
"learnlm-1.5-pro-experimental": {
|
746
|
+
"description": "LearnLM — это экспериментальная языковая модель, ориентированная на конкретные задачи, обученная в соответствии с принципами науки о обучении, которая может следовать системным инструкциям в учебных и образовательных сценариях, выступая в роли эксперта-наставника и т.д."
|
747
|
+
},
|
685
748
|
"lite": {
|
686
749
|
"description": "Spark Lite — это легковесная большая языковая модель с крайне низкой задержкой и высокой эффективностью обработки, полностью бесплатная и открытая, поддерживающая функции онлайн-поиска в реальном времени. Ее быстрая реакция делает ее отличным выбором для применения в устройствах с низкой вычислительной мощностью и для тонкой настройки моделей, обеспечивая пользователям отличное соотношение цены и качества, особенно в сценариях вопросов и ответов, генерации контента и поиска."
|
687
750
|
},
|
@@ -872,6 +935,9 @@
|
|
872
935
|
"description": "Meta Llama 3 — это открытая большая языковая модель (LLM), ориентированная на разработчиков, исследователей и предприятия, предназначенная для помощи в создании, экспериментировании и ответственном масштабировании их идей по генеративному ИИ. В качестве части базовой системы для инноваций глобального сообщества она идеально подходит для устройств с ограниченными вычислительными мощностями и ресурсами, а также для более быстрого времени обучения."
|
873
936
|
},
|
874
937
|
"microsoft/Phi-3.5-mini-instruct": {},
|
938
|
+
"microsoft/WizardLM-2-8x22B": {
|
939
|
+
"description": "WizardLM 2 — это языковая модель от Microsoft AI, которая особенно хорошо справляется с сложными диалогами, многоязычностью, выводами и интеллектуальными помощниками."
|
940
|
+
},
|
875
941
|
"microsoft/wizardlm 2-7b": {
|
876
942
|
"description": "WizardLM 2 7B — это новая быстрая и легкая модель от Microsoft AI, производительность которой близка к 10-кратной производительности существующих открытых моделей."
|
877
943
|
},
|
@@ -956,6 +1022,9 @@
|
|
956
1022
|
"nvidia/Llama-3.1-Nemotron-70B-Instruct": {
|
957
1023
|
"description": "Llama 3.1 Nemotron 70B - это специализированная языковая модель от NVIDIA, предназначенная для повышения степени полезности ответов, генерируемых LLM, к пользовательским запросам."
|
958
1024
|
},
|
1025
|
+
"nvidia/Llama-3.1-Nemotron-70B-Instruct-HF": {
|
1026
|
+
"description": "Llama 3.1 Nemotron 70B — это крупная языковая модель, созданная NVIDIA, предназначенная для повышения полезности ответов, генерируемых LLM, на запросы пользователей. Эта модель показала отличные результаты в таких бенчмарках, как Arena Hard, AlpacaEval 2 LC и GPT-4-Turbo MT-Bench, и на 1 октября 2024 года занимает первое место во всех трех автоматических тестах на согласование. Модель обучалась с использованием RLHF (в частности, REINFORCE), Llama-3.1-Nemotron-70B-Reward и HelpSteer2-Preference на основе модели Llama-3.1-70B-Instruct."
|
1027
|
+
},
|
959
1028
|
"o1-mini": {
|
960
1029
|
"description": "o1-mini — это быстрое и экономичное модель вывода, разработанная для программирования, математики и научных приложений. Модель имеет контекст 128K и срок знания до октября 2023 года."
|
961
1030
|
},
|
@@ -1052,6 +1121,9 @@
|
|
1052
1121
|
"qwen2": {
|
1053
1122
|
"description": "Qwen2 — это новое поколение крупномасштабной языковой модели от Alibaba, обеспечивающее отличные результаты для разнообразных приложений."
|
1054
1123
|
},
|
1124
|
+
"qwen2.5": {
|
1125
|
+
"description": "Qwen2.5 — это новое поколение масштабной языковой модели от Alibaba, обеспечивающее отличные результаты для разнообразных потребностей приложений."
|
1126
|
+
},
|
1055
1127
|
"qwen2.5-14b-instruct": {
|
1056
1128
|
"description": "Модель Tongyi Qwen 2.5 с открытым исходным кодом объемом 14B."
|
1057
1129
|
},
|
@@ -1076,6 +1148,15 @@
|
|
1076
1148
|
"qwen2.5-math-7b-instruct": {
|
1077
1149
|
"description": "Модель Qwen-Math с мощными способностями решения математических задач."
|
1078
1150
|
},
|
1151
|
+
"qwen2.5:0.5b": {
|
1152
|
+
"description": "Qwen2.5 — это новое поколение масштабной языковой модели от Alibaba, обеспечивающее отличные результаты для разнообразных потребностей приложений."
|
1153
|
+
},
|
1154
|
+
"qwen2.5:1.5b": {
|
1155
|
+
"description": "Qwen2.5 — это новое поколение масштабной языковой модели от Alibaba, обеспечивающее отличные результаты для разнообразных потребностей приложений."
|
1156
|
+
},
|
1157
|
+
"qwen2.5:72b": {
|
1158
|
+
"description": "Qwen2.5 — это новое поколение масштабной языковой модели от Alibaba, обеспечивающее отличные результаты для разнообразных потребностей приложений."
|
1159
|
+
},
|
1079
1160
|
"qwen2:0.5b": {
|
1080
1161
|
"description": "Qwen2 — это новое поколение крупномасштабной языковой модели от Alibaba, обеспечивающее отличные результаты для разнообразных приложений."
|
1081
1162
|
},
|
@@ -1085,6 +1166,12 @@
|
|
1085
1166
|
"qwen2:72b": {
|
1086
1167
|
"description": "Qwen2 — это новое поколение крупномасштабной языковой модели от Alibaba, обеспечивающее отличные результаты для разнообразных приложений."
|
1087
1168
|
},
|
1169
|
+
"qwq": {
|
1170
|
+
"description": "QwQ — это экспериментальная исследовательская модель, сосредоточенная на повышении возможностей вывода ИИ."
|
1171
|
+
},
|
1172
|
+
"qwq-32b-preview": {
|
1173
|
+
"description": "Модель QwQ — это экспериментальная исследовательская модель, разработанная командой Qwen, сосредоточенная на улучшении возможностей вывода ИИ."
|
1174
|
+
},
|
1088
1175
|
"solar-1-mini-chat": {
|
1089
1176
|
"description": "Solar Mini — это компактная LLM, производительность которой превосходит GPT-3.5, обладая мощными многоязычными возможностями, поддерживает английский и корейский языки, предлагая эффективное и компактное решение."
|
1090
1177
|
},
|