@lobehub/chat 1.35.0 → 1.35.1
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/CHANGELOG.md +25 -0
- package/changelog/v1.json +9 -0
- package/docs/changelog/2024-07-19-gpt-4o-mini.mdx +32 -0
- package/docs/changelog/2024-07-19-gpt-4o-mini.zh-CN.mdx +5 -4
- package/docs/changelog/2024-08-02-lobe-chat-database-docker.mdx +36 -0
- package/docs/changelog/2024-08-02-lobe-chat-database-docker.zh-CN.mdx +0 -1
- package/docs/changelog/2024-08-21-file-upload-and-knowledge-base.mdx +30 -0
- package/docs/changelog/2024-08-21-file-upload-and-knowledge-base.zh-CN.mdx +0 -1
- package/docs/changelog/2024-09-13-openai-o1-models.mdx +31 -0
- package/docs/changelog/2024-09-20-artifacts.mdx +55 -0
- package/docs/changelog/2024-09-20-artifacts.zh-CN.mdx +3 -2
- package/docs/changelog/2024-10-27-pin-assistant.mdx +33 -0
- package/docs/changelog/2024-10-27-pin-assistant.zh-CN.mdx +0 -1
- package/docs/changelog/2024-11-06-share-text-json.mdx +24 -0
- package/docs/changelog/2024-11-06-share-text-json.zh-CN.mdx +3 -1
- package/docs/changelog/2024-11-25-november-providers.mdx +5 -5
- package/docs/changelog/2024-11-25-november-providers.zh-CN.mdx +5 -5
- package/docs/changelog/2024-11-27-forkable-chat.mdx +26 -0
- package/docs/changelog/2024-11-27-forkable-chat.zh-CN.mdx +16 -9
- package/docs/changelog/index.json +1 -1
- package/docs/self-hosting/environment-variables/analytics.mdx +1 -1
- package/locales/ar/models.json +94 -7
- package/locales/bg-BG/models.json +94 -7
- package/locales/de-DE/models.json +94 -7
- package/locales/en-US/models.json +94 -7
- package/locales/es-ES/models.json +94 -7
- package/locales/fa-IR/models.json +94 -7
- package/locales/fr-FR/models.json +94 -7
- package/locales/it-IT/models.json +94 -7
- package/locales/ja-JP/models.json +94 -7
- package/locales/ko-KR/models.json +94 -7
- package/locales/nl-NL/models.json +94 -7
- package/locales/pl-PL/models.json +94 -7
- package/locales/pt-BR/models.json +94 -7
- package/locales/ru-RU/models.json +94 -7
- package/locales/tr-TR/models.json +94 -7
- package/locales/vi-VN/models.json +94 -7
- package/locales/zh-CN/models.json +121 -34
- package/locales/zh-TW/models.json +94 -7
- package/package.json +1 -1
- package/src/config/modelProviders/ollama.ts +84 -35
@@ -2,6 +2,9 @@
|
|
2
2
|
"01-ai/Yi-1.5-34B-Chat-16K": {
|
3
3
|
"description": "Yi-1.5 34B, con un rico conjunto de muestras de entrenamiento, ofrece un rendimiento superior en aplicaciones industriales."
|
4
4
|
},
|
5
|
+
"01-ai/Yi-1.5-6B-Chat": {
|
6
|
+
"description": "Yi-1.5-6B-Chat es una variante de la serie Yi-1.5, que pertenece a los modelos de chat de código abierto. Yi-1.5 es una versión mejorada de Yi, que ha sido preentrenada de manera continua en 500B de corpus de alta calidad y ajustada en más de 3M de muestras de ajuste diversificadas. En comparación con Yi, Yi-1.5 muestra un rendimiento superior en codificación, matemáticas, razonamiento y capacidad de seguimiento de instrucciones, manteniendo al mismo tiempo una excelente comprensión del lenguaje, razonamiento de sentido común y comprensión de lectura. Este modelo tiene versiones con longitudes de contexto de 4K, 16K y 32K, con un total de preentrenamiento de 3.6T de tokens."
|
7
|
+
},
|
5
8
|
"01-ai/Yi-1.5-9B-Chat-16K": {
|
6
9
|
"description": "Yi-1.5 9B soporta 16K Tokens, proporcionando una capacidad de generación de lenguaje eficiente y fluida."
|
7
10
|
},
|
@@ -91,6 +94,12 @@
|
|
91
94
|
"Gryphe/MythoMax-L2-13b": {
|
92
95
|
"description": "MythoMax-L2 (13B) es un modelo innovador, adecuado para aplicaciones en múltiples campos y tareas complejas."
|
93
96
|
},
|
97
|
+
"LoRA/Qwen/Qwen2.5-72B-Instruct": {
|
98
|
+
"description": "Qwen2.5-72B-Instruct es uno de los últimos modelos de lenguaje a gran escala lanzados por Alibaba Cloud. Este modelo de 72B ha mejorado significativamente en áreas como codificación y matemáticas. También ofrece soporte multilingüe, abarcando más de 29 idiomas, incluidos chino e inglés. El modelo ha mostrado mejoras significativas en el seguimiento de instrucciones, comprensión de datos estructurados y generación de salidas estructuradas (especialmente JSON)."
|
99
|
+
},
|
100
|
+
"LoRA/Qwen/Qwen2.5-7B-Instruct": {
|
101
|
+
"description": "Qwen2.5-7B-Instruct es uno de los últimos modelos de lenguaje a gran escala lanzados por Alibaba Cloud. Este modelo de 7B ha mejorado significativamente en áreas como codificación y matemáticas. También ofrece soporte multilingüe, abarcando más de 29 idiomas, incluidos chino e inglés. El modelo ha mostrado mejoras significativas en el seguimiento de instrucciones, comprensión de datos estructurados y generación de salidas estructuradas (especialmente JSON)."
|
102
|
+
},
|
94
103
|
"Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
95
104
|
"description": "Hermes 2 Mixtral 8x7B DPO es una fusión de múltiples modelos altamente flexible, diseñada para ofrecer una experiencia creativa excepcional."
|
96
105
|
},
|
@@ -98,9 +107,6 @@
|
|
98
107
|
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
99
108
|
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) es un modelo de instrucciones de alta precisión, adecuado para cálculos complejos."
|
100
109
|
},
|
101
|
-
"NousResearch/Nous-Hermes-2-Yi-34B": {
|
102
|
-
"description": "Nous Hermes-2 Yi (34B) ofrece salidas de lenguaje optimizadas y diversas posibilidades de aplicación."
|
103
|
-
},
|
104
110
|
"OpenGVLab/InternVL2-26B": {
|
105
111
|
"description": "InternVL2 ha demostrado un rendimiento sobresaliente en diversas tareas de lenguaje visual, incluidas la comprensión de documentos y gráficos, comprensión de texto en escenas, OCR, resolución de problemas científicos y matemáticos."
|
106
112
|
},
|
@@ -134,18 +140,42 @@
|
|
134
140
|
"Pro/OpenGVLab/InternVL2-8B": {
|
135
141
|
"description": "InternVL2 ha demostrado un rendimiento sobresaliente en diversas tareas de lenguaje visual, incluidas la comprensión de documentos y gráficos, comprensión de texto en escenas, OCR, resolución de problemas científicos y matemáticos."
|
136
142
|
},
|
143
|
+
"Pro/Qwen/Qwen2-1.5B-Instruct": {
|
144
|
+
"description": "Qwen2-1.5B-Instruct es un modelo de lenguaje a gran escala de ajuste fino por instrucciones dentro de la serie Qwen2, con un tamaño de parámetros de 1.5B. Este modelo se basa en la arquitectura Transformer, utilizando funciones de activación SwiGLU, sesgos de atención QKV y atención de consulta agrupada, entre otras técnicas. Ha destacado en múltiples pruebas de referencia en comprensión del lenguaje, generación, capacidad multilingüe, codificación, matemáticas y razonamiento, superando a la mayoría de los modelos de código abierto. En comparación con Qwen1.5-1.8B-Chat, Qwen2-1.5B-Instruct ha mostrado mejoras significativas en pruebas como MMLU, HumanEval, GSM8K, C-Eval e IFEval, a pesar de tener un número de parámetros ligeramente menor."
|
145
|
+
},
|
146
|
+
"Pro/Qwen/Qwen2-7B-Instruct": {
|
147
|
+
"description": "Qwen2-7B-Instruct es un modelo de lenguaje a gran escala de ajuste fino por instrucciones dentro de la serie Qwen2, con un tamaño de parámetros de 7B. Este modelo se basa en la arquitectura Transformer, utilizando funciones de activación SwiGLU, sesgos de atención QKV y atención de consulta agrupada, entre otras técnicas. Es capaz de manejar entradas a gran escala. Este modelo ha destacado en múltiples pruebas de referencia en comprensión del lenguaje, generación, capacidad multilingüe, codificación, matemáticas y razonamiento, superando a la mayoría de los modelos de código abierto y mostrando competitividad comparable a modelos propietarios en ciertas tareas. Qwen2-7B-Instruct ha mostrado mejoras significativas en múltiples evaluaciones en comparación con Qwen1.5-7B-Chat."
|
148
|
+
},
|
137
149
|
"Pro/Qwen/Qwen2-VL-7B-Instruct": {
|
138
150
|
"description": "Qwen2-VL es la última iteración del modelo Qwen-VL, alcanzando un rendimiento de vanguardia en pruebas de comprensión visual."
|
139
151
|
},
|
140
|
-
"Qwen/
|
141
|
-
"description": "
|
152
|
+
"Pro/Qwen/Qwen2.5-7B-Instruct": {
|
153
|
+
"description": "Qwen2.5-7B-Instruct es uno de los últimos modelos de lenguaje a gran escala lanzados por Alibaba Cloud. Este modelo de 7B ha mejorado significativamente en áreas como codificación y matemáticas. También ofrece soporte multilingüe, abarcando más de 29 idiomas, incluidos chino e inglés. El modelo ha mostrado mejoras significativas en el seguimiento de instrucciones, comprensión de datos estructurados y generación de salidas estructuradas (especialmente JSON)."
|
154
|
+
},
|
155
|
+
"Pro/Qwen/Qwen2.5-Coder-7B-Instruct": {
|
156
|
+
"description": "Qwen2.5-Coder-7B-Instruct es la última versión de la serie de modelos de lenguaje a gran escala específicos para código lanzada por Alibaba Cloud. Este modelo, basado en Qwen2.5, ha mejorado significativamente la generación, razonamiento y reparación de código a través de un entrenamiento con 55 billones de tokens. No solo ha mejorado la capacidad de codificación, sino que también ha mantenido ventajas en habilidades matemáticas y generales. El modelo proporciona una base más completa para aplicaciones prácticas como agentes de código."
|
157
|
+
},
|
158
|
+
"Pro/THUDM/glm-4-9b-chat": {
|
159
|
+
"description": "GLM-4-9B-Chat es la versión de código abierto de la serie de modelos preentrenados GLM-4 lanzada por Zhipu AI. Este modelo destaca en semántica, matemáticas, razonamiento, código y conocimiento. Además de soportar diálogos de múltiples turnos, GLM-4-9B-Chat también cuenta con funciones avanzadas como navegación web, ejecución de código, llamadas a herramientas personalizadas (Function Call) y razonamiento de textos largos. El modelo admite 26 idiomas, incluidos chino, inglés, japonés, coreano y alemán. En múltiples pruebas de referencia, GLM-4-9B-Chat ha demostrado un rendimiento excepcional, como AlignBench-v2, MT-Bench, MMLU y C-Eval. Este modelo admite una longitud de contexto máxima de 128K, adecuado para investigación académica y aplicaciones comerciales."
|
142
160
|
},
|
143
|
-
"
|
144
|
-
"description": "
|
161
|
+
"Pro/google/gemma-2-9b-it": {
|
162
|
+
"description": "Gemma es una de las series de modelos abiertos más avanzados y ligeros desarrollados por Google. Es un modelo de lenguaje a gran escala solo de decodificación, que admite inglés y proporciona pesos abiertos, variantes preentrenadas y variantes de ajuste fino por instrucciones. El modelo Gemma es adecuado para diversas tareas de generación de texto, incluyendo preguntas y respuestas, resúmenes y razonamiento. Este modelo de 9B se ha entrenado con 80 billones de tokens. Su tamaño relativamente pequeño permite su implementación en entornos con recursos limitados, como computadoras portátiles, de escritorio o su propia infraestructura en la nube, lo que permite a más personas acceder a modelos de IA de vanguardia y fomentar la innovación."
|
163
|
+
},
|
164
|
+
"Pro/meta-llama/Meta-Llama-3.1-8B-Instruct": {
|
165
|
+
"description": "Meta Llama 3.1 es parte de la familia de modelos de lenguaje a gran escala multilingües desarrollados por Meta, que incluye variantes preentrenadas y de ajuste fino por instrucciones con tamaños de parámetros de 8B, 70B y 405B. Este modelo de 8B ha sido optimizado para escenarios de diálogo multilingüe y ha destacado en múltiples pruebas de referencia de la industria. El entrenamiento del modelo utilizó más de 150 billones de tokens de datos públicos y empleó técnicas como ajuste fino supervisado y aprendizaje por refuerzo con retroalimentación humana para mejorar la utilidad y seguridad del modelo. Llama 3.1 admite generación de texto y generación de código, con una fecha límite de conocimiento hasta diciembre de 2023."
|
166
|
+
},
|
167
|
+
"Qwen/QwQ-32B-Preview": {
|
168
|
+
"description": "QwQ-32B-Preview es el último modelo de investigación experimental de Qwen, enfocado en mejorar la capacidad de razonamiento de la IA. A través de la exploración de mecanismos complejos como la mezcla de lenguajes y el razonamiento recursivo, sus principales ventajas incluyen una poderosa capacidad de análisis de razonamiento, así como habilidades matemáticas y de programación. Sin embargo, también presenta problemas de cambio de idioma, ciclos de razonamiento, consideraciones de seguridad y diferencias en otras capacidades."
|
169
|
+
},
|
170
|
+
"Qwen/Qwen2-1.5B-Instruct": {
|
171
|
+
"description": "Qwen2-1.5B-Instruct es un modelo de lenguaje a gran escala de ajuste fino por instrucciones dentro de la serie Qwen2, con un tamaño de parámetros de 1.5B. Este modelo se basa en la arquitectura Transformer, utilizando funciones de activación SwiGLU, sesgos de atención QKV y atención de consulta agrupada, entre otras técnicas. Ha destacado en múltiples pruebas de referencia en comprensión del lenguaje, generación, capacidad multilingüe, codificación, matemáticas y razonamiento, superando a la mayoría de los modelos de código abierto. En comparación con Qwen1.5-1.8B-Chat, Qwen2-1.5B-Instruct ha mostrado mejoras significativas en pruebas como MMLU, HumanEval, GSM8K, C-Eval e IFEval, a pesar de tener un número de parámetros ligeramente menor."
|
145
172
|
},
|
146
173
|
"Qwen/Qwen2-72B-Instruct": {
|
147
174
|
"description": "Qwen2 es un modelo de lenguaje general avanzado, que soporta múltiples tipos de instrucciones."
|
148
175
|
},
|
176
|
+
"Qwen/Qwen2-7B-Instruct": {
|
177
|
+
"description": "Qwen2-72B-Instruct es un modelo de lenguaje a gran escala de ajuste fino por instrucciones dentro de la serie Qwen2, con un tamaño de parámetros de 72B. Este modelo se basa en la arquitectura Transformer, utilizando funciones de activación SwiGLU, sesgos de atención QKV y atención de consulta agrupada, entre otras técnicas. Es capaz de manejar entradas a gran escala. Este modelo ha destacado en múltiples pruebas de referencia en comprensión del lenguaje, generación, capacidad multilingüe, codificación, matemáticas y razonamiento, superando a la mayoría de los modelos de código abierto y mostrando competitividad comparable a modelos propietarios en ciertas tareas."
|
178
|
+
},
|
149
179
|
"Qwen/Qwen2-VL-72B-Instruct": {
|
150
180
|
"description": "Qwen2-VL es la última iteración del modelo Qwen-VL, alcanzando un rendimiento de vanguardia en pruebas de comprensión visual."
|
151
181
|
},
|
@@ -173,6 +203,9 @@
|
|
173
203
|
"Qwen/Qwen2.5-Coder-32B-Instruct": {
|
174
204
|
"description": "Qwen2.5-Coder se centra en la escritura de código."
|
175
205
|
},
|
206
|
+
"Qwen/Qwen2.5-Coder-7B-Instruct": {
|
207
|
+
"description": "Qwen2.5-Coder-7B-Instruct es la última versión de la serie de modelos de lenguaje a gran escala específicos para código lanzada por Alibaba Cloud. Este modelo, basado en Qwen2.5, ha mejorado significativamente la generación, razonamiento y reparación de código a través de un entrenamiento con 55 billones de tokens. No solo ha mejorado la capacidad de codificación, sino que también ha mantenido ventajas en habilidades matemáticas y generales. El modelo proporciona una base más completa para aplicaciones prácticas como agentes de código."
|
208
|
+
},
|
176
209
|
"Qwen/Qwen2.5-Math-72B-Instruct": {
|
177
210
|
"description": "Qwen2.5-Math se centra en la resolución de problemas en el ámbito de las matemáticas, proporcionando respuestas profesionales a preguntas de alta dificultad."
|
178
211
|
},
|
@@ -209,12 +242,27 @@
|
|
209
242
|
"SenseChat-Turbo": {
|
210
243
|
"description": "Adecuado para preguntas rápidas y escenarios de ajuste fino del modelo."
|
211
244
|
},
|
245
|
+
"THUDM/chatglm3-6b": {
|
246
|
+
"description": "ChatGLM3-6B es un modelo de código abierto de la serie ChatGLM, desarrollado por Zhipu AI. Este modelo conserva las excelentes características de su predecesor, como la fluidez en el diálogo y un bajo umbral de implementación, al tiempo que introduce nuevas características. Utiliza datos de entrenamiento más diversos, un mayor número de pasos de entrenamiento y estrategias de entrenamiento más razonables, destacando entre los modelos preentrenados de menos de 10B. ChatGLM3-6B admite diálogos de múltiples turnos, llamadas a herramientas, ejecución de código y tareas de agente en escenarios complejos. Además del modelo de diálogo, también se han lanzado el modelo base ChatGLM-6B-Base y el modelo de diálogo de texto largo ChatGLM3-6B-32K. Este modelo está completamente abierto para la investigación académica y permite el uso comercial gratuito tras el registro."
|
247
|
+
},
|
212
248
|
"THUDM/glm-4-9b-chat": {
|
213
249
|
"description": "GLM-4 9B es una versión de código abierto, que proporciona una experiencia de conversación optimizada para aplicaciones de diálogo."
|
214
250
|
},
|
251
|
+
"TeleAI/TeleChat2": {
|
252
|
+
"description": "El modelo grande TeleChat2 ha sido desarrollado de manera independiente por China Telecom desde cero, siendo un modelo semántico generativo que admite funciones como preguntas y respuestas enciclopédicas, generación de código y generación de textos largos, proporcionando servicios de consulta conversacional a los usuarios, permitiendo interacciones de diálogo, respondiendo preguntas y asistiendo en la creación, ayudando a los usuarios a obtener información, conocimiento e inspiración de manera eficiente y conveniente. El modelo ha mostrado un rendimiento destacado en problemas de alucinación, generación de textos largos y comprensión lógica."
|
253
|
+
},
|
254
|
+
"TeleAI/TeleMM": {
|
255
|
+
"description": "El modelo multimodal TeleMM ha sido desarrollado de manera independiente por China Telecom, siendo un modelo de comprensión multimodal que puede manejar entradas de múltiples modalidades como texto e imágenes, apoyando funciones como comprensión de imágenes y análisis de gráficos, proporcionando servicios de comprensión cruzada para los usuarios. El modelo puede interactuar con los usuarios de manera multimodal, entendiendo con precisión el contenido de entrada, respondiendo preguntas, asistiendo en la creación y proporcionando de manera eficiente información y apoyo inspirador multimodal. Ha mostrado un rendimiento excepcional en tareas multimodales como percepción de alta resolución y razonamiento lógico."
|
256
|
+
},
|
215
257
|
"Tencent/Hunyuan-A52B-Instruct": {
|
216
258
|
"description": "Hunyuan-Large es el modelo MoE de Transformer de código abierto más grande de la industria, con un total de 389 mil millones de parámetros y 52 mil millones de parámetros activados."
|
217
259
|
},
|
260
|
+
"Vendor-A/Qwen/Qwen2-7B-Instruct": {
|
261
|
+
"description": "Qwen2-72B-Instruct es un modelo de lenguaje a gran escala de ajuste fino por instrucciones dentro de la serie Qwen2, con un tamaño de parámetros de 72B. Este modelo se basa en la arquitectura Transformer, utilizando funciones de activación SwiGLU, sesgos de atención QKV y atención de consulta agrupada, entre otras técnicas. Es capaz de manejar entradas a gran escala. Este modelo ha destacado en múltiples pruebas de referencia en comprensión del lenguaje, generación, capacidad multilingüe, codificación, matemáticas y razonamiento, superando a la mayoría de los modelos de código abierto y mostrando competitividad comparable a modelos propietarios en ciertas tareas."
|
262
|
+
},
|
263
|
+
"Vendor-A/Qwen/Qwen2.5-72B-Instruct": {
|
264
|
+
"description": "Qwen2.5-72B-Instruct es uno de los últimos modelos de lenguaje a gran escala lanzados por Alibaba Cloud. Este modelo de 72B ha mejorado significativamente en áreas como codificación y matemáticas. También ofrece soporte multilingüe, abarcando más de 29 idiomas, incluidos chino e inglés. El modelo ha mostrado mejoras significativas en el seguimiento de instrucciones, comprensión de datos estructurados y generación de salidas estructuradas (especialmente JSON)."
|
265
|
+
},
|
218
266
|
"Yi-34B-Chat": {
|
219
267
|
"description": "Yi-1.5-34B, manteniendo la excelente capacidad de lenguaje general de la serie original, ha mejorado significativamente la lógica matemática y la capacidad de codificación mediante un entrenamiento incremental de 500 mil millones de tokens de alta calidad."
|
220
268
|
},
|
@@ -290,9 +338,15 @@
|
|
290
338
|
"accounts/fireworks/models/phi-3-vision-128k-instruct": {
|
291
339
|
"description": "El modelo de instrucciones Phi 3 Vision es un modelo multimodal ligero, capaz de manejar información visual y textual compleja, con una fuerte capacidad de razonamiento."
|
292
340
|
},
|
341
|
+
"accounts/fireworks/models/qwen-qwq-32b-preview": {
|
342
|
+
"description": "El modelo QwQ es un modelo de investigación experimental desarrollado por el equipo de Qwen, enfocado en mejorar la capacidad de razonamiento de la IA."
|
343
|
+
},
|
293
344
|
"accounts/fireworks/models/qwen2p5-72b-instruct": {
|
294
345
|
"description": "Qwen2.5 es una serie de modelos de lenguaje solo decodificadores desarrollados por el equipo Qwen de Alibaba Cloud. Estos modelos ofrecen diferentes tamaños, incluidos 0.5B, 1.5B, 3B, 7B, 14B, 32B y 72B, y tienen variantes base y de instrucciones."
|
295
346
|
},
|
347
|
+
"accounts/fireworks/models/qwen2p5-coder-32b-instruct": {
|
348
|
+
"description": "Qwen2.5 Coder 32B Instruct es la última versión de la serie de modelos de lenguaje a gran escala específicos para código lanzada por Alibaba Cloud. Este modelo, basado en Qwen2.5, ha mejorado significativamente la generación, razonamiento y reparación de código a través de un entrenamiento con 55 billones de tokens. No solo ha mejorado la capacidad de codificación, sino que también ha mantenido ventajas en habilidades matemáticas y generales. El modelo proporciona una base más completa para aplicaciones prácticas como agentes de código."
|
349
|
+
},
|
296
350
|
"accounts/fireworks/models/starcoder-16b": {
|
297
351
|
"description": "El modelo StarCoder 15.5B soporta tareas de programación avanzadas, con capacidades multilingües mejoradas, adecuado para la generación y comprensión de código complejo."
|
298
352
|
},
|
@@ -392,6 +446,9 @@
|
|
392
446
|
"codellama": {
|
393
447
|
"description": "Code Llama es un LLM enfocado en la generación y discusión de código, combinando un amplio soporte para lenguajes de programación, adecuado para entornos de desarrolladores."
|
394
448
|
},
|
449
|
+
"codellama/CodeLlama-34b-Instruct-hf": {
|
450
|
+
"description": "Code Llama es un LLM enfocado en la generación y discusión de código, que combina un amplio soporte para lenguajes de programación, adecuado para entornos de desarrolladores."
|
451
|
+
},
|
395
452
|
"codellama:13b": {
|
396
453
|
"description": "Code Llama es un LLM enfocado en la generación y discusión de código, combinando un amplio soporte para lenguajes de programación, adecuado para entornos de desarrolladores."
|
397
454
|
},
|
@@ -428,6 +485,9 @@
|
|
428
485
|
"databricks/dbrx-instruct": {
|
429
486
|
"description": "DBRX Instruct ofrece capacidades de procesamiento de instrucciones de alta fiabilidad, soportando aplicaciones en múltiples industrias."
|
430
487
|
},
|
488
|
+
"deepseek-ai/DeepSeek-V2-Chat": {
|
489
|
+
"description": "DeepSeek-V2 es un potente y rentable modelo de lenguaje de expertos mixtos (MoE). Se ha preentrenado en un corpus de alta calidad de 81 billones de tokens y ha mejorado aún más sus capacidades a través de ajuste fino supervisado (SFT) y aprendizaje por refuerzo (RL). En comparación con DeepSeek 67B, DeepSeek-V2 no solo ofrece un rendimiento superior, sino que también ahorra un 42.5% en costos de entrenamiento, reduce un 93.3% en caché KV y aumenta la máxima tasa de generación a 5.76 veces. Este modelo admite una longitud de contexto de 128k y ha destacado en pruebas de referencia estándar y evaluaciones de generación abierta."
|
490
|
+
},
|
431
491
|
"deepseek-ai/DeepSeek-V2.5": {
|
432
492
|
"description": "DeepSeek V2.5 combina las excelentes características de versiones anteriores, mejorando la capacidad general y de codificación."
|
433
493
|
},
|
@@ -682,6 +742,9 @@
|
|
682
742
|
},
|
683
743
|
"jamba-1.5-large": {},
|
684
744
|
"jamba-1.5-mini": {},
|
745
|
+
"learnlm-1.5-pro-experimental": {
|
746
|
+
"description": "LearnLM es un modelo de lenguaje experimental y específico para tareas, entrenado para cumplir con los principios de la ciencia del aprendizaje, capaz de seguir instrucciones sistemáticas en escenarios de enseñanza y aprendizaje, actuando como un tutor experto, entre otros."
|
747
|
+
},
|
685
748
|
"lite": {
|
686
749
|
"description": "Spark Lite es un modelo de lenguaje grande y ligero, con una latencia extremadamente baja y una capacidad de procesamiento eficiente, completamente gratuito y de código abierto, que admite funciones de búsqueda en línea en tiempo real. Su característica de respuesta rápida lo hace destacar en aplicaciones de inferencia y ajuste de modelos en dispositivos de baja potencia, brindando a los usuarios una excelente relación costo-beneficio y experiencia inteligente, especialmente en escenarios de preguntas y respuestas, generación de contenido y búsqueda."
|
687
750
|
},
|
@@ -872,6 +935,9 @@
|
|
872
935
|
"description": "Meta Llama 3 es un modelo de lenguaje de gran tamaño (LLM) abierto dirigido a desarrolladores, investigadores y empresas, diseñado para ayudarles a construir, experimentar y escalar de manera responsable sus ideas de IA generativa. Como parte de un sistema base para la innovación de la comunidad global, es ideal para dispositivos de borde con recursos y capacidades computacionales limitadas, así como para tiempos de entrenamiento más rápidos."
|
873
936
|
},
|
874
937
|
"microsoft/Phi-3.5-mini-instruct": {},
|
938
|
+
"microsoft/WizardLM-2-8x22B": {
|
939
|
+
"description": "WizardLM 2 es un modelo de lenguaje proporcionado por Microsoft AI, que destaca en diálogos complejos, multilingüismo, razonamiento y asistentes inteligentes."
|
940
|
+
},
|
875
941
|
"microsoft/wizardlm 2-7b": {
|
876
942
|
"description": "WizardLM 2 7B es el último modelo ligero y rápido de Microsoft AI, con un rendimiento cercano a 10 veces el de los modelos líderes de código abierto existentes."
|
877
943
|
},
|
@@ -956,6 +1022,9 @@
|
|
956
1022
|
"nvidia/Llama-3.1-Nemotron-70B-Instruct": {
|
957
1023
|
"description": "Llama 3.1 Nemotron 70B es un modelo de lenguaje de gran tamaño personalizado por NVIDIA, diseñado para aumentar el grado de ayuda que las respuestas generadas por LLM ofrecen a las consultas de los usuarios."
|
958
1024
|
},
|
1025
|
+
"nvidia/Llama-3.1-Nemotron-70B-Instruct-HF": {
|
1026
|
+
"description": "Llama 3.1 Nemotron 70B es un modelo de lenguaje a gran escala personalizado por NVIDIA, diseñado para mejorar la utilidad de las respuestas generadas por LLM a las consultas de los usuarios. Este modelo ha destacado en pruebas de referencia como Arena Hard, AlpacaEval 2 LC y GPT-4-Turbo MT-Bench, ocupando el primer lugar en los tres benchmarks de alineación automática hasta el 1 de octubre de 2024. El modelo se entrena utilizando RLHF (especialmente REINFORCE), Llama-3.1-Nemotron-70B-Reward y HelpSteer2-Preference sobre la base del modelo Llama-3.1-70B-Instruct."
|
1027
|
+
},
|
959
1028
|
"o1-mini": {
|
960
1029
|
"description": "o1-mini es un modelo de inferencia rápido y rentable diseñado para aplicaciones de programación, matemáticas y ciencias. Este modelo tiene un contexto de 128K y una fecha de corte de conocimiento en octubre de 2023."
|
961
1030
|
},
|
@@ -1052,6 +1121,9 @@
|
|
1052
1121
|
"qwen2": {
|
1053
1122
|
"description": "Qwen2 es el nuevo modelo de lenguaje a gran escala de Alibaba, que ofrece un rendimiento excepcional para satisfacer diversas necesidades de aplicación."
|
1054
1123
|
},
|
1124
|
+
"qwen2.5": {
|
1125
|
+
"description": "Qwen2.5 es la nueva generación de modelos de lenguaje a gran escala de Alibaba, que ofrece un rendimiento excepcional para satisfacer diversas necesidades de aplicación."
|
1126
|
+
},
|
1055
1127
|
"qwen2.5-14b-instruct": {
|
1056
1128
|
"description": "El modelo de 14B de Tongyi Qwen 2.5, de código abierto."
|
1057
1129
|
},
|
@@ -1076,6 +1148,15 @@
|
|
1076
1148
|
"qwen2.5-math-7b-instruct": {
|
1077
1149
|
"description": "El modelo Qwen-Math tiene una poderosa capacidad para resolver problemas matemáticos."
|
1078
1150
|
},
|
1151
|
+
"qwen2.5:0.5b": {
|
1152
|
+
"description": "Qwen2.5 es la nueva generación de modelos de lenguaje a gran escala de Alibaba, que ofrece un rendimiento excepcional para satisfacer diversas necesidades de aplicación."
|
1153
|
+
},
|
1154
|
+
"qwen2.5:1.5b": {
|
1155
|
+
"description": "Qwen2.5 es la nueva generación de modelos de lenguaje a gran escala de Alibaba, que ofrece un rendimiento excepcional para satisfacer diversas necesidades de aplicación."
|
1156
|
+
},
|
1157
|
+
"qwen2.5:72b": {
|
1158
|
+
"description": "Qwen2.5 es la nueva generación de modelos de lenguaje a gran escala de Alibaba, que ofrece un rendimiento excepcional para satisfacer diversas necesidades de aplicación."
|
1159
|
+
},
|
1079
1160
|
"qwen2:0.5b": {
|
1080
1161
|
"description": "Qwen2 es el nuevo modelo de lenguaje a gran escala de Alibaba, que ofrece un rendimiento excepcional para satisfacer diversas necesidades de aplicación."
|
1081
1162
|
},
|
@@ -1085,6 +1166,12 @@
|
|
1085
1166
|
"qwen2:72b": {
|
1086
1167
|
"description": "Qwen2 es el nuevo modelo de lenguaje a gran escala de Alibaba, que ofrece un rendimiento excepcional para satisfacer diversas necesidades de aplicación."
|
1087
1168
|
},
|
1169
|
+
"qwq": {
|
1170
|
+
"description": "QwQ es un modelo de investigación experimental que se centra en mejorar la capacidad de razonamiento de la IA."
|
1171
|
+
},
|
1172
|
+
"qwq-32b-preview": {
|
1173
|
+
"description": "El modelo QwQ es un modelo de investigación experimental desarrollado por el equipo de Qwen, enfocado en mejorar la capacidad de razonamiento de la IA."
|
1174
|
+
},
|
1088
1175
|
"solar-1-mini-chat": {
|
1089
1176
|
"description": "Solar Mini es un LLM compacto, con un rendimiento superior al de GPT-3.5, que cuenta con potentes capacidades multilingües, soportando inglés y coreano, ofreciendo una solución eficiente y compacta."
|
1090
1177
|
},
|
@@ -2,6 +2,9 @@
|
|
2
2
|
"01-ai/Yi-1.5-34B-Chat-16K": {
|
3
3
|
"description": "Yi-1.5 34B، با استفاده از نمونههای آموزشی غنی، عملکرد برتری در کاربردهای صنعتی ارائه میدهد."
|
4
4
|
},
|
5
|
+
"01-ai/Yi-1.5-6B-Chat": {
|
6
|
+
"description": "Yi-1.5-6B-Chat یک واریانت از سری Yi-1.5 است که متعلق به مدلهای گفتگویی متن باز است. Yi-1.5 نسخه بهروز شده Yi است که بر روی 500B توکن با کیفیت بالا به طور مداوم پیشآموزش دیده و بر روی 3M نمونههای متنوع تنظیم دقیق شده است. در مقایسه با Yi، Yi-1.5 در تواناییهای کدنویسی، ریاضی، استدلال و پیروی از دستورات عملکرد بهتری دارد و در عین حال تواناییهای عالی در درک زبان، استدلال عمومی و درک خواندن را حفظ کرده است. این مدل دارای نسخههای طول زمینه 4K، 16K و 32K است و مجموع پیشآموزش به 3.6T توکن میرسد."
|
7
|
+
},
|
5
8
|
"01-ai/Yi-1.5-9B-Chat-16K": {
|
6
9
|
"description": "Yi-1.5 9B از 16K توکن پشتیبانی میکند و توانایی تولید زبان بهصورت کارآمد و روان را ارائه میدهد."
|
7
10
|
},
|
@@ -91,6 +94,12 @@
|
|
91
94
|
"Gryphe/MythoMax-L2-13b": {
|
92
95
|
"description": "MythoMax-L2 (13B) یک مدل نوآورانه است که برای کاربردهای چندرشتهای و وظایف پیچیده مناسب است."
|
93
96
|
},
|
97
|
+
"LoRA/Qwen/Qwen2.5-72B-Instruct": {
|
98
|
+
"description": "Qwen2.5-72B-Instruct یکی از جدیدترین سری مدلهای زبانی بزرگ منتشر شده توسط Alibaba Cloud است. این مدل 72B در زمینههای کدنویسی و ریاضی دارای تواناییهای بهبود یافته قابل توجهی است. این مدل همچنین از پشتیبانی چند زبانه برخوردار است و بیش از 29 زبان از جمله چینی و انگلیسی را پوشش میدهد. این مدل در پیروی از دستورات، درک دادههای ساختاری و تولید خروجیهای ساختاری (به ویژه JSON) به طور قابل توجهی بهبود یافته است."
|
99
|
+
},
|
100
|
+
"LoRA/Qwen/Qwen2.5-7B-Instruct": {
|
101
|
+
"description": "Qwen2.5-7B-Instruct یکی از جدیدترین سری مدلهای زبانی بزرگ منتشر شده توسط Alibaba Cloud است. این مدل 7B در زمینههای کدنویسی و ریاضی دارای تواناییهای بهبود یافته قابل توجهی است. این مدل همچنین از پشتیبانی چند زبانه برخوردار است و بیش از 29 زبان از جمله چینی و انگلیسی را پوشش میدهد. این مدل در پیروی از دستورات، درک دادههای ساختاری و تولید خروجیهای ساختاری (به ویژه JSON) به طور قابل توجهی بهبود یافته است."
|
102
|
+
},
|
94
103
|
"Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
95
104
|
"description": "Hermes 2 Mixtral 8x7B DPO یک ترکیب چندمدلی بسیار انعطافپذیر است که برای ارائه تجربهای خلاقانه و برجسته طراحی شده است."
|
96
105
|
},
|
@@ -98,9 +107,6 @@
|
|
98
107
|
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
99
108
|
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) یک مدل دستورالعمل با دقت بالا است که برای محاسبات پیچیده مناسب است."
|
100
109
|
},
|
101
|
-
"NousResearch/Nous-Hermes-2-Yi-34B": {
|
102
|
-
"description": "Nous Hermes-2 Yi (34B) خروجی بهینه زبان و امکانات متنوع کاربردی را ارائه میدهد."
|
103
|
-
},
|
104
110
|
"OpenGVLab/InternVL2-26B": {
|
105
111
|
"description": "InternVL2 در وظایف مختلف زبان تصویری عملکرد برجستهای از خود نشان داده است، از جمله درک اسناد و نمودارها، درک متن صحنه، OCR، حل مسائل علمی و ریاضی و غیره."
|
106
112
|
},
|
@@ -134,18 +140,42 @@
|
|
134
140
|
"Pro/OpenGVLab/InternVL2-8B": {
|
135
141
|
"description": "InternVL2 در وظایف مختلف زبان تصویری عملکرد برجستهای از خود نشان داده است، از جمله درک اسناد و نمودارها، درک متن صحنه، OCR، حل مسائل علمی و ریاضی و غیره."
|
136
142
|
},
|
143
|
+
"Pro/Qwen/Qwen2-1.5B-Instruct": {
|
144
|
+
"description": "Qwen2-1.5B-Instruct یک مدل زبانی بزرگ با تنظیم دقیق دستوری در سری Qwen2 است که اندازه پارامتر آن 1.5B است. این مدل بر اساس معماری Transformer ساخته شده و از تکنیکهای SwiGLU،偏置 QKV توجه و توجه گروهی استفاده میکند. این مدل در درک زبان، تولید، توانایی چند زبانه، کدنویسی، ریاضی و استدلال در چندین آزمون معیار عملکرد عالی دارد و از اکثر مدلهای متن باز پیشی گرفته است. در مقایسه با Qwen1.5-1.8B-Chat، Qwen2-1.5B-Instruct در آزمونهای MMLU، HumanEval، GSM8K، C-Eval و IFEval بهبود قابل توجهی در عملکرد نشان داده است، هرچند که تعداد پارامترها کمی کمتر است."
|
145
|
+
},
|
146
|
+
"Pro/Qwen/Qwen2-7B-Instruct": {
|
147
|
+
"description": "Qwen2-7B-Instruct یک مدل زبانی بزرگ با تنظیم دقیق دستوری در سری Qwen2 است که اندازه پارامتر آن 7B است. این مدل بر اساس معماری Transformer ساخته شده و از تکنیکهای SwiGLU،偏置 QKV توجه و توجه گروهی استفاده میکند. این مدل قادر به پردازش ورودیهای بزرگ مقیاس است. این مدل در درک زبان، تولید، توانایی چند زبانه، کدنویسی، ریاضی و استدلال در چندین آزمون معیار عملکرد عالی دارد و از اکثر مدلهای متن باز پیشی گرفته و در برخی وظایف رقابت قابل توجهی با مدلهای اختصاصی نشان میدهد. Qwen2-7B-Instruct در چندین ارزیابی از Qwen1.5-7B-Chat پیشی گرفته و بهبود قابل توجهی در عملکرد نشان داده است."
|
148
|
+
},
|
137
149
|
"Pro/Qwen/Qwen2-VL-7B-Instruct": {
|
138
150
|
"description": "Qwen2-VL جدیدترین نسخه از مدل Qwen-VL است که در آزمونهای معیار درک بصری به پیشرفتهترین عملکرد دست یافته است."
|
139
151
|
},
|
140
|
-
"Qwen/
|
141
|
-
"description": "
|
152
|
+
"Pro/Qwen/Qwen2.5-7B-Instruct": {
|
153
|
+
"description": "Qwen2.5-7B-Instruct یکی از جدیدترین سری مدلهای زبانی بزرگ منتشر شده توسط Alibaba Cloud است. این مدل 7B در زمینههای کدنویسی و ریاضی دارای تواناییهای بهبود یافته قابل توجهی است. این مدل همچنین از پشتیبانی چند زبانه برخوردار است و بیش از 29 زبان از جمله چینی و انگلیسی را پوشش میدهد. این مدل در پیروی از دستورات، درک دادههای ساختاری و تولید خروجیهای ساختاری (به ویژه JSON) به طور قابل توجهی بهبود یافته است."
|
154
|
+
},
|
155
|
+
"Pro/Qwen/Qwen2.5-Coder-7B-Instruct": {
|
156
|
+
"description": "Qwen2.5-Coder-7B-Instruct جدیدترین نسخه از سری مدلهای زبانی بزرگ خاص کد است که توسط Alibaba Cloud منتشر شده است. این مدل بر اساس Qwen2.5 و با آموزش 5.5 تریلیون توکن، توانایی تولید کد، استدلال و اصلاح را به طور قابل توجهی افزایش داده است. این مدل نه تنها توانایی کدنویسی را تقویت کرده بلکه مزایای ریاضی و عمومی را نیز حفظ کرده است. این مدل پایهای جامعتر برای کاربردهای عملی مانند عاملهای کد فراهم میکند."
|
157
|
+
},
|
158
|
+
"Pro/THUDM/glm-4-9b-chat": {
|
159
|
+
"description": "GLM-4-9B-Chat نسخه متن باز از مدلهای پیشآموزش شده سری GLM-4 است که توسط AI Zhizhu ارائه شده است. این مدل در زمینههای معنایی، ریاضی، استدلال، کد و دانش عملکرد عالی دارد. علاوه بر پشتیبانی از گفتگوی چند دور، GLM-4-9B-Chat همچنین دارای قابلیتهای پیشرفتهای مانند مرور وب، اجرای کد، فراخوانی ابزارهای سفارشی (Function Call) و استدلال متن طولانی است. این مدل از 26 زبان پشتیبانی میکند، از جمله چینی، انگلیسی، ژاپنی، کرهای و آلمانی. در چندین آزمون معیار، GLM-4-9B-Chat عملکرد عالی نشان داده است، مانند AlignBench-v2، MT-Bench، MMLU و C-Eval. این مدل از حداکثر طول زمینه 128K پشتیبانی میکند و برای تحقیقات علمی و کاربردهای تجاری مناسب است."
|
142
160
|
},
|
143
|
-
"
|
144
|
-
"description": "
|
161
|
+
"Pro/google/gemma-2-9b-it": {
|
162
|
+
"description": "Gemma یکی از مدلهای پیشرفته و سبک وزن متن باز است که توسط Google توسعه یافته است. این یک مدل زبانی بزرگ با تنها دیکودر است که از زبان انگلیسی پشتیبانی میکند و وزنهای باز، واریانتهای پیشآموزش شده و واریانتهای تنظیم دقیق دستوری را ارائه میدهد. مدل Gemma برای انواع وظایف تولید متن، از جمله پرسش و پاسخ، خلاصهسازی و استدلال مناسب است. این مدل 9B از طریق 8 تریلیون توکن آموزش دیده است. اندازه نسبتاً کوچک آن امکان استقرار در محیطهای با منابع محدود، مانند لپتاپ، دسکتاپ یا زیرساخت ابری خود را فراهم میکند و به این ترتیب دسترسی به مدلهای پیشرفته AI را برای افراد بیشتری فراهم میکند و نوآوری را تسهیل میکند."
|
163
|
+
},
|
164
|
+
"Pro/meta-llama/Meta-Llama-3.1-8B-Instruct": {
|
165
|
+
"description": "Meta Llama 3.1 یکی از خانوادههای مدلهای زبانی بزرگ چند زبانه است که توسط Meta توسعه یافته و شامل واریانتهای پیشآموزش شده و تنظیم دقیق دستوری با اندازههای پارامتر 8B، 70B و 405B است. این مدل 8B به طور خاص برای سناریوهای گفتگوی چند زبانه بهینهسازی شده و در چندین آزمون معیار صنعتی عملکرد عالی دارد. آموزش مدل با استفاده از بیش از 15 تریلیون توکن دادههای عمومی انجام شده و از تکنیکهای تنظیم دقیق نظارتی و یادگیری تقویتی با بازخورد انسانی برای افزایش مفید بودن و ایمنی مدل استفاده شده است. Llama 3.1 از تولید متن و تولید کد پشتیبانی میکند و تاریخ قطع دانش آن دسامبر 2023 است."
|
166
|
+
},
|
167
|
+
"Qwen/QwQ-32B-Preview": {
|
168
|
+
"description": "QwQ-32B-Preview جدیدترین مدل تحقیقاتی تجربی Qwen است که بر بهبود توانایی استدلال AI تمرکز دارد. با کاوش در مکانیزمهای پیچیدهای مانند ترکیب زبان و استدلال بازگشتی، مزایای اصلی شامل توانایی تحلیل استدلال قوی، توانایی ریاضی و برنامهنویسی است. در عین حال، مشکلاتی مانند تغییر زبان، حلقههای استدلال، ملاحظات ایمنی و تفاوتهای دیگر در تواناییها وجود دارد."
|
169
|
+
},
|
170
|
+
"Qwen/Qwen2-1.5B-Instruct": {
|
171
|
+
"description": "Qwen2-1.5B-Instruct یک مدل زبانی بزرگ با تنظیم دقیق دستوری در سری Qwen2 است که اندازه پارامتر آن 1.5B است. این مدل بر اساس معماری Transformer ساخته شده و از تکنیکهای SwiGLU،偏置 QKV توجه و توجه گروهی استفاده میکند. این مدل در درک زبان، تولید، توانایی چند زبانه، کدنویسی، ریاضی و استدلال در چندین آزمون معیار عملکرد عالی دارد و از اکثر مدلهای متن باز پیشی گرفته است. در مقایسه با Qwen1.5-1.8B-Chat، Qwen2-1.5B-Instruct در آزمونهای MMLU، HumanEval، GSM8K، C-Eval و IFEval بهبود قابل توجهی در عملکرد نشان داده است، هرچند که تعداد پارامترها کمی کمتر است."
|
145
172
|
},
|
146
173
|
"Qwen/Qwen2-72B-Instruct": {
|
147
174
|
"description": "Qwen 2 Instruct (72B) دستورالعملهای دقیق برای کاربردهای سازمانی ارائه میدهد و به درستی به آنها پاسخ میدهد."
|
148
175
|
},
|
176
|
+
"Qwen/Qwen2-7B-Instruct": {
|
177
|
+
"description": "Qwen2-72B-Instruct یک مدل زبانی بزرگ با تنظیم دقیق دستوری در سری Qwen2 است که اندازه پارامتر آن 72B است. این مدل بر اساس معماری Transformer ساخته شده و از تکنیکهای SwiGLU،偏置 QKV توجه و توجه گروهی استفاده میکند. این مدل قادر به پردازش ورودیهای بزرگ مقیاس است. این مدل در درک زبان، تولید، توانایی چند زبانه، کدنویسی، ریاضی و استدلال در چندین آزمون معیار عملکرد عالی دارد و از اکثر مدلهای متن باز پیشی گرفته و در برخی وظایف رقابت قابل توجهی با مدلهای اختصاصی نشان میدهد."
|
178
|
+
},
|
149
179
|
"Qwen/Qwen2-VL-72B-Instruct": {
|
150
180
|
"description": "Qwen2-VL جدیدترین نسخه از مدل Qwen-VL است که در آزمونهای معیار درک بصری به پیشرفتهترین عملکرد دست یافته است."
|
151
181
|
},
|
@@ -173,6 +203,9 @@
|
|
173
203
|
"Qwen/Qwen2.5-Coder-32B-Instruct": {
|
174
204
|
"description": "Qwen2.5-Coder بر نوشتن کد تمرکز دارد."
|
175
205
|
},
|
206
|
+
"Qwen/Qwen2.5-Coder-7B-Instruct": {
|
207
|
+
"description": "Qwen2.5-Coder-7B-Instruct جدیدترین نسخه از سری مدلهای زبانی بزرگ خاص کد است که توسط Alibaba Cloud منتشر شده است. این مدل بر اساس Qwen2.5 و با آموزش 5.5 تریلیون توکن، توانایی تولید کد، استدلال و اصلاح را به طور قابل توجهی افزایش داده است. این مدل نه تنها توانایی کدنویسی را تقویت کرده بلکه مزایای ریاضی و عمومی را نیز حفظ کرده است. این مدل پایهای جامعتر برای کاربردهای عملی مانند عاملهای کد فراهم میکند."
|
208
|
+
},
|
176
209
|
"Qwen/Qwen2.5-Math-72B-Instruct": {
|
177
210
|
"description": "Qwen2.5-Math بر حل مسائل در حوزه ریاضیات تمرکز دارد و پاسخهای حرفهای برای مسائل پیچیده ارائه میدهد."
|
178
211
|
},
|
@@ -209,12 +242,27 @@
|
|
209
242
|
"SenseChat-Turbo": {
|
210
243
|
"description": "مناسب برای پرسش و پاسخ سریع و تنظیم دقیق مدل"
|
211
244
|
},
|
245
|
+
"THUDM/chatglm3-6b": {
|
246
|
+
"description": "ChatGLM3-6B مدل متن باز از سری ChatGLM است که توسط AI Zhizhu توسعه یافته است. این مدل ویژگیهای عالی نسل قبلی خود را حفظ کرده است، مانند روان بودن گفتگو و آستانه پایین برای استقرار، در عین حال ویژگیهای جدیدی را معرفی کرده است. این مدل از دادههای آموزشی متنوعتر، تعداد مراحل آموزشی بیشتر و استراتژیهای آموزشی منطقیتر استفاده کرده و در میان مدلهای پیشآموزش شده زیر 10B عملکرد عالی دارد. ChatGLM3-6B از گفتگوی چند دور، فراخوانی ابزار، اجرای کد و وظایف عامل در سناریوهای پیچیده پشتیبانی میکند. علاوه بر مدل گفتگویی، مدل پایه ChatGLM-6B-Base و مدل گفتگوی طولانی ChatGLM3-6B-32K نیز به صورت متن باز ارائه شده است. این مدل به طور کامل برای تحقیقات علمی باز است و پس از ثبتنام، استفاده تجاری رایگان نیز مجاز است."
|
247
|
+
},
|
212
248
|
"THUDM/glm-4-9b-chat": {
|
213
249
|
"description": "نسخه منبع باز GLM-4 9B، تجربه گفتگوی بهینهشده برای برنامههای مکالمه را ارائه میدهد."
|
214
250
|
},
|
251
|
+
"TeleAI/TeleChat2": {
|
252
|
+
"description": "مدل بزرگ TeleChat2 توسط China Telecom از صفر تا یک به طور مستقل توسعه یافته و یک مدل معنایی تولیدی است که از قابلیتهایی مانند پرسش و پاسخ دایرهالمعارف، تولید کد و تولید متن طولانی پشتیبانی میکند و خدمات مشاوره گفتگویی را به کاربران ارائه میدهد. این مدل قادر به تعامل گفتگویی با کاربران، پاسخ به سوالات و کمک به خلاقیت است و به طور کارآمد و راحت به کاربران در دستیابی به اطلاعات، دانش و الهام کمک میکند. این مدل در زمینههای مشکلات توهم، تولید متن طولانی و درک منطقی عملکرد خوبی دارد."
|
253
|
+
},
|
254
|
+
"TeleAI/TeleMM": {
|
255
|
+
"description": "مدل بزرگ چندرسانهای TeleMM یک مدل بزرگ درک چندرسانهای است که توسط China Telecom به طور مستقل توسعه یافته و قادر به پردازش ورودیهای چندرسانهای از جمله متن و تصویر است و از قابلیتهایی مانند درک تصویر و تحلیل نمودار پشتیبانی میکند و خدمات درک چندرسانهای را به کاربران ارائه میدهد. این مدل قادر به تعامل چندرسانهای با کاربران است و محتوا را به دقت درک کرده و به سوالات پاسخ میدهد، به خلاقیت کمک میکند و به طور کارآمد اطلاعات و الهام چندرسانهای را ارائه میدهد. این مدل در وظایف چندرسانهای مانند درک دقیق، استدلال منطقی و غیره عملکرد خوبی دارد."
|
256
|
+
},
|
215
257
|
"Tencent/Hunyuan-A52B-Instruct": {
|
216
258
|
"description": "Hunyuan-Large بزرگترین مدل MoE با ساختار Transformer متن باز در صنعت است که دارای ۳۸۹۰ میلیارد پارامتر کل و ۵۲۰ میلیارد پارامتر فعال است."
|
217
259
|
},
|
260
|
+
"Vendor-A/Qwen/Qwen2-7B-Instruct": {
|
261
|
+
"description": "Qwen2-72B-Instruct یک مدل زبانی بزرگ با تنظیم دقیق دستوری در سری Qwen2 است که اندازه پارامتر آن 72B است. این مدل بر اساس معماری Transformer ساخته شده و از تکنیکهای SwiGLU،偏置 QKV توجه و توجه گروهی استفاده میکند. این مدل قادر به پردازش ورودیهای بزرگ مقیاس است. این مدل در درک زبان، تولید، توانایی چند زبانه، کدنویسی، ریاضی و استدلال در چندین آزمون معیار عملکرد عالی دارد و از اکثر مدلهای متن باز پیشی گرفته و در برخی وظایف رقابت قابل توجهی با مدلهای اختصاصی نشان میدهد."
|
262
|
+
},
|
263
|
+
"Vendor-A/Qwen/Qwen2.5-72B-Instruct": {
|
264
|
+
"description": "Qwen2.5-72B-Instruct یکی از جدیدترین سری مدلهای زبانی بزرگ منتشر شده توسط Alibaba Cloud است. این مدل 72B در زمینههای کدنویسی و ریاضی دارای تواناییهای بهبود یافته قابل توجهی است. این مدل همچنین از پشتیبانی چند زبانه برخوردار است و بیش از 29 زبان از جمله چینی و انگلیسی را پوشش میدهد. این مدل در پیروی از دستورات، درک دادههای ساختاری و تولید خروجیهای ساختاری (به ویژه JSON) به طور قابل توجهی بهبود یافته است."
|
265
|
+
},
|
218
266
|
"Yi-34B-Chat": {
|
219
267
|
"description": "Yi-1.5-34B با حفظ تواناییهای زبان عمومی عالی مدلهای قبلی خود، از طریق آموزش افزایشی 500 میلیارد توکن با کیفیت بالا، به طور قابل توجهی تواناییهای منطقی ریاضی و کدنویسی را افزایش داده است."
|
220
268
|
},
|
@@ -290,9 +338,15 @@
|
|
290
338
|
"accounts/fireworks/models/phi-3-vision-128k-instruct": {
|
291
339
|
"description": "Phi-3-Vision-128K-Instruct یک مدل چندوجهی پیشرفته و سبک است که بر اساس مجموعه دادههایی شامل دادههای مصنوعی و وبسایتهای عمومی فیلتر شده ساخته شده است. این مدل بر دادههای بسیار باکیفیت و متمرکز بر استدلال، که شامل متن و تصویر هستند، تمرکز دارد. این مدل بخشی از سری مدلهای Phi-3 است و نسخه چندوجهی آن از طول زمینه 128K (بر حسب توکن) پشتیبانی میکند. این مدل از یک فرآیند تقویت دقیق عبور کرده است که ترکیبی از تنظیم دقیق تحت نظارت و بهینهسازی مستقیم ترجیحات را شامل میشود تا از پیروی دقیق از دستورات و اقدامات امنیتی قوی اطمینان حاصل شود."
|
292
340
|
},
|
341
|
+
"accounts/fireworks/models/qwen-qwq-32b-preview": {
|
342
|
+
"description": "مدل QwQ یک مدل تحقیقاتی تجربی است که توسط تیم Qwen توسعه یافته و بر تقویت توانایی استدلال AI تمرکز دارد."
|
343
|
+
},
|
293
344
|
"accounts/fireworks/models/qwen2p5-72b-instruct": {
|
294
345
|
"description": "Qwen2.5 مجموعهای از مدلهای زبانی است که تنها شامل رمزگشاها میباشد و توسط تیم Qwen علیبابا کلود توسعه یافته است. این مدلها در اندازههای مختلف از جمله 0.5B، 1.5B، 3B، 7B، 14B، 32B و 72B ارائه میشوند و دارای دو نوع پایه (base) و دستوری (instruct) هستند."
|
295
346
|
},
|
347
|
+
"accounts/fireworks/models/qwen2p5-coder-32b-instruct": {
|
348
|
+
"description": "Qwen2.5 Coder 32B Instruct جدیدترین نسخه از سری مدلهای زبانی بزرگ خاص کد است که توسط Alibaba Cloud منتشر شده است. این مدل بر اساس Qwen2.5 و با آموزش 5.5 تریلیون توکن، توانایی تولید کد، استدلال و اصلاح را به طور قابل توجهی افزایش داده است. این مدل نه تنها توانایی کدنویسی را تقویت کرده بلکه مزایای ریاضی و عمومی را نیز حفظ کرده است. این مدل پایهای جامعتر برای کاربردهای عملی مانند عاملهای کد فراهم میکند."
|
349
|
+
},
|
296
350
|
"accounts/fireworks/models/starcoder-16b": {
|
297
351
|
"description": "مدل StarCoder 15.5B، پشتیبانی از وظایف پیشرفته برنامهنویسی، با قابلیتهای چندزبانه تقویت شده، مناسب برای تولید و درک کدهای پیچیده."
|
298
352
|
},
|
@@ -392,6 +446,9 @@
|
|
392
446
|
"codellama": {
|
393
447
|
"description": "Code Llama یک مدل زبانی بزرگ (LLM) است که بر تولید و بحث در مورد کد تمرکز دارد و از زبانهای برنامهنویسی گستردهای پشتیبانی میکند و برای محیطهای توسعهدهندگان مناسب است."
|
394
448
|
},
|
449
|
+
"codellama/CodeLlama-34b-Instruct-hf": {
|
450
|
+
"description": "Code Llama یک LLM است که بر تولید و بحث کد تمرکز دارد و از پشتیبانی گسترده زبانهای برنامهنویسی برخوردار است و برای محیطهای توسعهدهنده مناسب است."
|
451
|
+
},
|
395
452
|
"codellama:13b": {
|
396
453
|
"description": "Code Llama یک مدل زبانی بزرگ (LLM) است که بر تولید و بحث در مورد کد تمرکز دارد و از زبانهای برنامهنویسی گستردهای پشتیبانی میکند و برای محیطهای توسعهدهندگان مناسب است."
|
397
454
|
},
|
@@ -428,6 +485,9 @@
|
|
428
485
|
"databricks/dbrx-instruct": {
|
429
486
|
"description": "DBRX Instruct قابلیت پردازش دستورات با قابلیت اطمینان بالا را فراهم میکند و از کاربردهای چندین صنعت پشتیبانی میکند."
|
430
487
|
},
|
488
|
+
"deepseek-ai/DeepSeek-V2-Chat": {
|
489
|
+
"description": "DeepSeek-V2 یک مدل زبانی ترکیبی (MoE) قوی و اقتصادی است. این مدل بر روی 8.1 تریلیون توکن از یک مجموعه داده با کیفیت بالا پیشآموزش دیده و از طریق تنظیم دقیق نظارتی (SFT) و یادگیری تقویتی (RL) تواناییهای مدل را بیشتر افزایش داده است. در مقایسه با DeepSeek 67B، DeepSeek-V2 در حالی که 42.5% از هزینههای آموزشی را صرفهجویی کرده و 93.3% از کش KV را کاهش داده، عملکرد بهتری دارد و حداکثر توان تولید را به 5.76 برابر افزایش داده است. این مدل از طول زمینه 128k پشتیبانی میکند و در آزمونهای معیار استاندارد و ارزیابی تولید باز عملکرد عالی دارد."
|
490
|
+
},
|
431
491
|
"deepseek-ai/DeepSeek-V2.5": {
|
432
492
|
"description": "DeepSeek V2.5 ویژگیهای برجسته نسخههای قبلی را گرد هم آورده و تواناییهای عمومی و کدنویسی را تقویت کرده است."
|
433
493
|
},
|
@@ -682,6 +742,9 @@
|
|
682
742
|
},
|
683
743
|
"jamba-1.5-large": {},
|
684
744
|
"jamba-1.5-mini": {},
|
745
|
+
"learnlm-1.5-pro-experimental": {
|
746
|
+
"description": "LearnLM یک مدل زبانی تجربی و خاص برای وظایف است که برای مطابقت با اصول علم یادگیری آموزش دیده است و میتواند در سناریوهای آموزشی و یادگیری از دستورات سیستم پیروی کند و به عنوان مربی متخصص عمل کند."
|
747
|
+
},
|
685
748
|
"lite": {
|
686
749
|
"description": "Spark Lite یک مدل زبان بزرگ سبک است که دارای تأخیر بسیار کم و توانایی پردازش کارآمد میباشد. بهطور کامل رایگان و باز است و از قابلیت جستجوی آنلاین در زمان واقعی پشتیبانی میکند. ویژگی پاسخدهی سریع آن باعث میشود که در کاربردهای استنتاجی و تنظیم مدل در دستگاههای با توان محاسباتی پایین عملکرد برجستهای داشته باشد و تجربهای هوشمند و مقرونبهصرفه برای کاربران فراهم کند. بهویژه در زمینههای پرسش و پاسخ دانش، تولید محتوا و جستجو عملکرد خوبی دارد."
|
687
750
|
},
|
@@ -872,6 +935,9 @@
|
|
872
935
|
"description": "Meta Llama 3 یک مدل زبان بزرگ باز (LLM) است که برای توسعهدهندگان، پژوهشگران و شرکتها طراحی شده است تا به آنها در ساخت، آزمایش و گسترش مسئولانه ایدههای هوش مصنوعی مولد کمک کند. به عنوان بخشی از سیستم پایه نوآوری جامعه جهانی، این مدل برای دستگاههای با توان محاسباتی و منابع محدود، دستگاههای لبه و زمانهای آموزش سریعتر بسیار مناسب است."
|
873
936
|
},
|
874
937
|
"microsoft/Phi-3.5-mini-instruct": {},
|
938
|
+
"microsoft/WizardLM-2-8x22B": {
|
939
|
+
"description": "WizardLM 2 یک مدل زبانی است که توسط AI مایکروسافت ارائه شده و در زمینههای گفتگوی پیچیده، چند زبانه، استدلال و دستیار هوشمند به ویژه عملکرد خوبی دارد."
|
940
|
+
},
|
875
941
|
"microsoft/wizardlm 2-7b": {
|
876
942
|
"description": "WizardLM 2 7B مدل جدید و سبک وزن AI مایکروسافت است که عملکرد آن نزدیک به 10 برابر مدلهای پیشرو متنباز موجود است."
|
877
943
|
},
|
@@ -956,6 +1022,9 @@
|
|
956
1022
|
"nvidia/Llama-3.1-Nemotron-70B-Instruct": {
|
957
1023
|
"description": "Llama 3.1 Nemotron 70B یک مدل زبان بزرگ است که توسط NVIDIA سفارشیسازی شده و هدف آن افزایش مفید بودن پاسخهای تولید شده توسط LLM به پرسشهای کاربران است."
|
958
1024
|
},
|
1025
|
+
"nvidia/Llama-3.1-Nemotron-70B-Instruct-HF": {
|
1026
|
+
"description": "Llama 3.1 Nemotron 70B یک مدل زبانی بزرگ سفارشی شده توسط NVIDIA است که به منظور افزایش کمک به پاسخهای تولید شده توسط LLM برای پرسشهای کاربران طراحی شده است. این مدل در آزمونهای معیار مانند Arena Hard، AlpacaEval 2 LC و GPT-4-Turbo MT-Bench عملکرد عالی داشته و تا تاریخ 1 اکتبر 2024 در تمامی سه آزمون خودکار همراستایی در رتبه اول قرار دارد. این مدل با استفاده از RLHF (به ویژه REINFORCE)، Llama-3.1-Nemotron-70B-Reward و HelpSteer2-Preference در مدل Llama-3.1-70B-Instruct آموزش دیده است."
|
1027
|
+
},
|
959
1028
|
"o1-mini": {
|
960
1029
|
"description": "کوچکتر و سریعتر از o1-preview، با ۸۰٪ هزینه کمتر، و عملکرد خوب در تولید کد و عملیات با زمینههای کوچک."
|
961
1030
|
},
|
@@ -1052,6 +1121,9 @@
|
|
1052
1121
|
"qwen2": {
|
1053
1122
|
"description": "Qwen2 مدل زبان بزرگ نسل جدید علیبابا است که با عملکرد عالی از نیازهای متنوع کاربردی پشتیبانی میکند."
|
1054
1123
|
},
|
1124
|
+
"qwen2.5": {
|
1125
|
+
"description": "Qwen2.5 نسل جدید مدل زبانی مقیاس بزرگ Alibaba است که با عملکرد عالی از نیازهای متنوع کاربردی پشتیبانی میکند."
|
1126
|
+
},
|
1055
1127
|
"qwen2.5-14b-instruct": {
|
1056
1128
|
"description": "مدل 14B مقیاس Qwen 2.5 که به صورت منبع باز ارائه شده است."
|
1057
1129
|
},
|
@@ -1076,6 +1148,15 @@
|
|
1076
1148
|
"qwen2.5-math-7b-instruct": {
|
1077
1149
|
"description": "مدل Qwen-Math دارای توانایی قوی در حل مسائل ریاضی است."
|
1078
1150
|
},
|
1151
|
+
"qwen2.5:0.5b": {
|
1152
|
+
"description": "Qwen2.5 نسل جدید مدل زبانی مقیاس بزرگ Alibaba است که با عملکرد عالی از نیازهای متنوع کاربردی پشتیبانی میکند."
|
1153
|
+
},
|
1154
|
+
"qwen2.5:1.5b": {
|
1155
|
+
"description": "Qwen2.5 نسل جدید مدل زبانی مقیاس بزرگ Alibaba است که با عملکرد عالی از نیازهای متنوع کاربردی پشتیبانی میکند."
|
1156
|
+
},
|
1157
|
+
"qwen2.5:72b": {
|
1158
|
+
"description": "Qwen2.5 نسل جدید مدل زبانی مقیاس بزرگ Alibaba است که با عملکرد عالی از نیازهای متنوع کاربردی پشتیبانی میکند."
|
1159
|
+
},
|
1079
1160
|
"qwen2:0.5b": {
|
1080
1161
|
"description": "Qwen2 مدل زبان بزرگ نسل جدید علیبابا است که با عملکرد عالی از نیازهای متنوع کاربردی پشتیبانی میکند."
|
1081
1162
|
},
|
@@ -1085,6 +1166,12 @@
|
|
1085
1166
|
"qwen2:72b": {
|
1086
1167
|
"description": "Qwen2 مدل زبان بزرگ نسل جدید علیبابا است که با عملکرد عالی از نیازهای متنوع کاربردی پشتیبانی میکند."
|
1087
1168
|
},
|
1169
|
+
"qwq": {
|
1170
|
+
"description": "QwQ یک مدل تحقیقاتی تجربی است که بر بهبود توانایی استدلال AI تمرکز دارد."
|
1171
|
+
},
|
1172
|
+
"qwq-32b-preview": {
|
1173
|
+
"description": "مدل QwQ یک مدل تحقیقاتی تجربی است که توسط تیم Qwen توسعه یافته و بر تقویت توانایی استدلال AI تمرکز دارد."
|
1174
|
+
},
|
1088
1175
|
"solar-1-mini-chat": {
|
1089
1176
|
"description": "Solar Mini یک مدل فشرده LLM است که عملکردی بهتر از GPT-3.5 دارد، دارای تواناییهای چندزبانه قوی است، از زبانهای انگلیسی و کرهای پشتیبانی میکند و یک راهحل کارآمد و کوچک ارائه میدهد."
|
1090
1177
|
},
|