@lobehub/chat 1.34.6 → 1.35.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (48) hide show
  1. package/CHANGELOG.md +50 -0
  2. package/README.md +8 -8
  3. package/README.zh-CN.md +8 -8
  4. package/changelog/v1.json +18 -0
  5. package/docs/changelog/2024-07-19-gpt-4o-mini.mdx +32 -0
  6. package/docs/changelog/2024-07-19-gpt-4o-mini.zh-CN.mdx +5 -4
  7. package/docs/changelog/2024-08-02-lobe-chat-database-docker.mdx +36 -0
  8. package/docs/changelog/2024-08-02-lobe-chat-database-docker.zh-CN.mdx +0 -1
  9. package/docs/changelog/2024-08-21-file-upload-and-knowledge-base.mdx +30 -0
  10. package/docs/changelog/2024-08-21-file-upload-and-knowledge-base.zh-CN.mdx +0 -1
  11. package/docs/changelog/2024-09-13-openai-o1-models.mdx +31 -0
  12. package/docs/changelog/2024-09-20-artifacts.mdx +55 -0
  13. package/docs/changelog/2024-09-20-artifacts.zh-CN.mdx +3 -2
  14. package/docs/changelog/2024-10-27-pin-assistant.mdx +33 -0
  15. package/docs/changelog/2024-10-27-pin-assistant.zh-CN.mdx +0 -1
  16. package/docs/changelog/2024-11-06-share-text-json.mdx +24 -0
  17. package/docs/changelog/2024-11-06-share-text-json.zh-CN.mdx +3 -1
  18. package/docs/changelog/2024-11-25-november-providers.mdx +5 -5
  19. package/docs/changelog/2024-11-25-november-providers.zh-CN.mdx +5 -5
  20. package/docs/changelog/2024-11-27-forkable-chat.mdx +26 -0
  21. package/docs/changelog/2024-11-27-forkable-chat.zh-CN.mdx +16 -9
  22. package/docs/changelog/index.json +1 -1
  23. package/docs/self-hosting/environment-variables/analytics.mdx +31 -2
  24. package/locales/ar/models.json +94 -7
  25. package/locales/bg-BG/models.json +94 -7
  26. package/locales/de-DE/models.json +94 -7
  27. package/locales/en-US/models.json +94 -7
  28. package/locales/es-ES/models.json +94 -7
  29. package/locales/fa-IR/models.json +94 -7
  30. package/locales/fr-FR/models.json +94 -7
  31. package/locales/it-IT/models.json +94 -7
  32. package/locales/ja-JP/models.json +94 -7
  33. package/locales/ko-KR/models.json +94 -7
  34. package/locales/nl-NL/models.json +94 -7
  35. package/locales/pl-PL/models.json +94 -7
  36. package/locales/pt-BR/models.json +94 -7
  37. package/locales/ru-RU/models.json +94 -7
  38. package/locales/tr-TR/models.json +94 -7
  39. package/locales/vi-VN/models.json +94 -7
  40. package/locales/zh-CN/models.json +121 -34
  41. package/locales/zh-TW/models.json +94 -7
  42. package/package.json +2 -2
  43. package/src/config/modelProviders/ollama.ts +85 -35
  44. package/src/libs/agent-runtime/ollama/index.ts +25 -9
  45. package/src/libs/agent-runtime/utils/streams/ollama.test.ts +130 -46
  46. package/src/libs/agent-runtime/utils/streams/ollama.ts +19 -4
  47. package/src/server/modules/AgentRuntime/index.test.ts +2 -1
  48. package/src/server/modules/AgentRuntime/index.ts +7 -1
@@ -2,6 +2,9 @@
2
2
  "01-ai/Yi-1.5-34B-Chat-16K": {
3
3
  "description": "Yi-1.5 34B, con un rico conjunto de muestras de entrenamiento, ofrece un rendimiento superior en aplicaciones industriales."
4
4
  },
5
+ "01-ai/Yi-1.5-6B-Chat": {
6
+ "description": "Yi-1.5-6B-Chat es una variante de la serie Yi-1.5, que pertenece a los modelos de chat de código abierto. Yi-1.5 es una versión mejorada de Yi, que ha sido preentrenada de manera continua en 500B de corpus de alta calidad y ajustada en más de 3M de muestras de ajuste diversificadas. En comparación con Yi, Yi-1.5 muestra un rendimiento superior en codificación, matemáticas, razonamiento y capacidad de seguimiento de instrucciones, manteniendo al mismo tiempo una excelente comprensión del lenguaje, razonamiento de sentido común y comprensión de lectura. Este modelo tiene versiones con longitudes de contexto de 4K, 16K y 32K, con un total de preentrenamiento de 3.6T de tokens."
7
+ },
5
8
  "01-ai/Yi-1.5-9B-Chat-16K": {
6
9
  "description": "Yi-1.5 9B soporta 16K Tokens, proporcionando una capacidad de generación de lenguaje eficiente y fluida."
7
10
  },
@@ -91,6 +94,12 @@
91
94
  "Gryphe/MythoMax-L2-13b": {
92
95
  "description": "MythoMax-L2 (13B) es un modelo innovador, adecuado para aplicaciones en múltiples campos y tareas complejas."
93
96
  },
97
+ "LoRA/Qwen/Qwen2.5-72B-Instruct": {
98
+ "description": "Qwen2.5-72B-Instruct es uno de los últimos modelos de lenguaje a gran escala lanzados por Alibaba Cloud. Este modelo de 72B ha mejorado significativamente en áreas como codificación y matemáticas. También ofrece soporte multilingüe, abarcando más de 29 idiomas, incluidos chino e inglés. El modelo ha mostrado mejoras significativas en el seguimiento de instrucciones, comprensión de datos estructurados y generación de salidas estructuradas (especialmente JSON)."
99
+ },
100
+ "LoRA/Qwen/Qwen2.5-7B-Instruct": {
101
+ "description": "Qwen2.5-7B-Instruct es uno de los últimos modelos de lenguaje a gran escala lanzados por Alibaba Cloud. Este modelo de 7B ha mejorado significativamente en áreas como codificación y matemáticas. También ofrece soporte multilingüe, abarcando más de 29 idiomas, incluidos chino e inglés. El modelo ha mostrado mejoras significativas en el seguimiento de instrucciones, comprensión de datos estructurados y generación de salidas estructuradas (especialmente JSON)."
102
+ },
94
103
  "Nous-Hermes-2-Mixtral-8x7B-DPO": {
95
104
  "description": "Hermes 2 Mixtral 8x7B DPO es una fusión de múltiples modelos altamente flexible, diseñada para ofrecer una experiencia creativa excepcional."
96
105
  },
@@ -98,9 +107,6 @@
98
107
  "NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
99
108
  "description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) es un modelo de instrucciones de alta precisión, adecuado para cálculos complejos."
100
109
  },
101
- "NousResearch/Nous-Hermes-2-Yi-34B": {
102
- "description": "Nous Hermes-2 Yi (34B) ofrece salidas de lenguaje optimizadas y diversas posibilidades de aplicación."
103
- },
104
110
  "OpenGVLab/InternVL2-26B": {
105
111
  "description": "InternVL2 ha demostrado un rendimiento sobresaliente en diversas tareas de lenguaje visual, incluidas la comprensión de documentos y gráficos, comprensión de texto en escenas, OCR, resolución de problemas científicos y matemáticos."
106
112
  },
@@ -134,18 +140,42 @@
134
140
  "Pro/OpenGVLab/InternVL2-8B": {
135
141
  "description": "InternVL2 ha demostrado un rendimiento sobresaliente en diversas tareas de lenguaje visual, incluidas la comprensión de documentos y gráficos, comprensión de texto en escenas, OCR, resolución de problemas científicos y matemáticos."
136
142
  },
143
+ "Pro/Qwen/Qwen2-1.5B-Instruct": {
144
+ "description": "Qwen2-1.5B-Instruct es un modelo de lenguaje a gran escala de ajuste fino por instrucciones dentro de la serie Qwen2, con un tamaño de parámetros de 1.5B. Este modelo se basa en la arquitectura Transformer, utilizando funciones de activación SwiGLU, sesgos de atención QKV y atención de consulta agrupada, entre otras técnicas. Ha destacado en múltiples pruebas de referencia en comprensión del lenguaje, generación, capacidad multilingüe, codificación, matemáticas y razonamiento, superando a la mayoría de los modelos de código abierto. En comparación con Qwen1.5-1.8B-Chat, Qwen2-1.5B-Instruct ha mostrado mejoras significativas en pruebas como MMLU, HumanEval, GSM8K, C-Eval e IFEval, a pesar de tener un número de parámetros ligeramente menor."
145
+ },
146
+ "Pro/Qwen/Qwen2-7B-Instruct": {
147
+ "description": "Qwen2-7B-Instruct es un modelo de lenguaje a gran escala de ajuste fino por instrucciones dentro de la serie Qwen2, con un tamaño de parámetros de 7B. Este modelo se basa en la arquitectura Transformer, utilizando funciones de activación SwiGLU, sesgos de atención QKV y atención de consulta agrupada, entre otras técnicas. Es capaz de manejar entradas a gran escala. Este modelo ha destacado en múltiples pruebas de referencia en comprensión del lenguaje, generación, capacidad multilingüe, codificación, matemáticas y razonamiento, superando a la mayoría de los modelos de código abierto y mostrando competitividad comparable a modelos propietarios en ciertas tareas. Qwen2-7B-Instruct ha mostrado mejoras significativas en múltiples evaluaciones en comparación con Qwen1.5-7B-Chat."
148
+ },
137
149
  "Pro/Qwen/Qwen2-VL-7B-Instruct": {
138
150
  "description": "Qwen2-VL es la última iteración del modelo Qwen-VL, alcanzando un rendimiento de vanguardia en pruebas de comprensión visual."
139
151
  },
140
- "Qwen/Qwen1.5-110B-Chat": {
141
- "description": "Como versión beta de Qwen2, Qwen1.5 utiliza datos a gran escala para lograr funciones de conversación más precisas."
152
+ "Pro/Qwen/Qwen2.5-7B-Instruct": {
153
+ "description": "Qwen2.5-7B-Instruct es uno de los últimos modelos de lenguaje a gran escala lanzados por Alibaba Cloud. Este modelo de 7B ha mejorado significativamente en áreas como codificación y matemáticas. También ofrece soporte multilingüe, abarcando más de 29 idiomas, incluidos chino e inglés. El modelo ha mostrado mejoras significativas en el seguimiento de instrucciones, comprensión de datos estructurados y generación de salidas estructuradas (especialmente JSON)."
154
+ },
155
+ "Pro/Qwen/Qwen2.5-Coder-7B-Instruct": {
156
+ "description": "Qwen2.5-Coder-7B-Instruct es la última versión de la serie de modelos de lenguaje a gran escala específicos para código lanzada por Alibaba Cloud. Este modelo, basado en Qwen2.5, ha mejorado significativamente la generación, razonamiento y reparación de código a través de un entrenamiento con 55 billones de tokens. No solo ha mejorado la capacidad de codificación, sino que también ha mantenido ventajas en habilidades matemáticas y generales. El modelo proporciona una base más completa para aplicaciones prácticas como agentes de código."
157
+ },
158
+ "Pro/THUDM/glm-4-9b-chat": {
159
+ "description": "GLM-4-9B-Chat es la versión de código abierto de la serie de modelos preentrenados GLM-4 lanzada por Zhipu AI. Este modelo destaca en semántica, matemáticas, razonamiento, código y conocimiento. Además de soportar diálogos de múltiples turnos, GLM-4-9B-Chat también cuenta con funciones avanzadas como navegación web, ejecución de código, llamadas a herramientas personalizadas (Function Call) y razonamiento de textos largos. El modelo admite 26 idiomas, incluidos chino, inglés, japonés, coreano y alemán. En múltiples pruebas de referencia, GLM-4-9B-Chat ha demostrado un rendimiento excepcional, como AlignBench-v2, MT-Bench, MMLU y C-Eval. Este modelo admite una longitud de contexto máxima de 128K, adecuado para investigación académica y aplicaciones comerciales."
142
160
  },
143
- "Qwen/Qwen1.5-72B-Chat": {
144
- "description": "Qwen 1.5 Chat (72B) ofrece respuestas rápidas y capacidades de conversación natural, adecuado para entornos multilingües."
161
+ "Pro/google/gemma-2-9b-it": {
162
+ "description": "Gemma es una de las series de modelos abiertos más avanzados y ligeros desarrollados por Google. Es un modelo de lenguaje a gran escala solo de decodificación, que admite inglés y proporciona pesos abiertos, variantes preentrenadas y variantes de ajuste fino por instrucciones. El modelo Gemma es adecuado para diversas tareas de generación de texto, incluyendo preguntas y respuestas, resúmenes y razonamiento. Este modelo de 9B se ha entrenado con 80 billones de tokens. Su tamaño relativamente pequeño permite su implementación en entornos con recursos limitados, como computadoras portátiles, de escritorio o su propia infraestructura en la nube, lo que permite a más personas acceder a modelos de IA de vanguardia y fomentar la innovación."
163
+ },
164
+ "Pro/meta-llama/Meta-Llama-3.1-8B-Instruct": {
165
+ "description": "Meta Llama 3.1 es parte de la familia de modelos de lenguaje a gran escala multilingües desarrollados por Meta, que incluye variantes preentrenadas y de ajuste fino por instrucciones con tamaños de parámetros de 8B, 70B y 405B. Este modelo de 8B ha sido optimizado para escenarios de diálogo multilingüe y ha destacado en múltiples pruebas de referencia de la industria. El entrenamiento del modelo utilizó más de 150 billones de tokens de datos públicos y empleó técnicas como ajuste fino supervisado y aprendizaje por refuerzo con retroalimentación humana para mejorar la utilidad y seguridad del modelo. Llama 3.1 admite generación de texto y generación de código, con una fecha límite de conocimiento hasta diciembre de 2023."
166
+ },
167
+ "Qwen/QwQ-32B-Preview": {
168
+ "description": "QwQ-32B-Preview es el último modelo de investigación experimental de Qwen, enfocado en mejorar la capacidad de razonamiento de la IA. A través de la exploración de mecanismos complejos como la mezcla de lenguajes y el razonamiento recursivo, sus principales ventajas incluyen una poderosa capacidad de análisis de razonamiento, así como habilidades matemáticas y de programación. Sin embargo, también presenta problemas de cambio de idioma, ciclos de razonamiento, consideraciones de seguridad y diferencias en otras capacidades."
169
+ },
170
+ "Qwen/Qwen2-1.5B-Instruct": {
171
+ "description": "Qwen2-1.5B-Instruct es un modelo de lenguaje a gran escala de ajuste fino por instrucciones dentro de la serie Qwen2, con un tamaño de parámetros de 1.5B. Este modelo se basa en la arquitectura Transformer, utilizando funciones de activación SwiGLU, sesgos de atención QKV y atención de consulta agrupada, entre otras técnicas. Ha destacado en múltiples pruebas de referencia en comprensión del lenguaje, generación, capacidad multilingüe, codificación, matemáticas y razonamiento, superando a la mayoría de los modelos de código abierto. En comparación con Qwen1.5-1.8B-Chat, Qwen2-1.5B-Instruct ha mostrado mejoras significativas en pruebas como MMLU, HumanEval, GSM8K, C-Eval e IFEval, a pesar de tener un número de parámetros ligeramente menor."
145
172
  },
146
173
  "Qwen/Qwen2-72B-Instruct": {
147
174
  "description": "Qwen2 es un modelo de lenguaje general avanzado, que soporta múltiples tipos de instrucciones."
148
175
  },
176
+ "Qwen/Qwen2-7B-Instruct": {
177
+ "description": "Qwen2-72B-Instruct es un modelo de lenguaje a gran escala de ajuste fino por instrucciones dentro de la serie Qwen2, con un tamaño de parámetros de 72B. Este modelo se basa en la arquitectura Transformer, utilizando funciones de activación SwiGLU, sesgos de atención QKV y atención de consulta agrupada, entre otras técnicas. Es capaz de manejar entradas a gran escala. Este modelo ha destacado en múltiples pruebas de referencia en comprensión del lenguaje, generación, capacidad multilingüe, codificación, matemáticas y razonamiento, superando a la mayoría de los modelos de código abierto y mostrando competitividad comparable a modelos propietarios en ciertas tareas."
178
+ },
149
179
  "Qwen/Qwen2-VL-72B-Instruct": {
150
180
  "description": "Qwen2-VL es la última iteración del modelo Qwen-VL, alcanzando un rendimiento de vanguardia en pruebas de comprensión visual."
151
181
  },
@@ -173,6 +203,9 @@
173
203
  "Qwen/Qwen2.5-Coder-32B-Instruct": {
174
204
  "description": "Qwen2.5-Coder se centra en la escritura de código."
175
205
  },
206
+ "Qwen/Qwen2.5-Coder-7B-Instruct": {
207
+ "description": "Qwen2.5-Coder-7B-Instruct es la última versión de la serie de modelos de lenguaje a gran escala específicos para código lanzada por Alibaba Cloud. Este modelo, basado en Qwen2.5, ha mejorado significativamente la generación, razonamiento y reparación de código a través de un entrenamiento con 55 billones de tokens. No solo ha mejorado la capacidad de codificación, sino que también ha mantenido ventajas en habilidades matemáticas y generales. El modelo proporciona una base más completa para aplicaciones prácticas como agentes de código."
208
+ },
176
209
  "Qwen/Qwen2.5-Math-72B-Instruct": {
177
210
  "description": "Qwen2.5-Math se centra en la resolución de problemas en el ámbito de las matemáticas, proporcionando respuestas profesionales a preguntas de alta dificultad."
178
211
  },
@@ -209,12 +242,27 @@
209
242
  "SenseChat-Turbo": {
210
243
  "description": "Adecuado para preguntas rápidas y escenarios de ajuste fino del modelo."
211
244
  },
245
+ "THUDM/chatglm3-6b": {
246
+ "description": "ChatGLM3-6B es un modelo de código abierto de la serie ChatGLM, desarrollado por Zhipu AI. Este modelo conserva las excelentes características de su predecesor, como la fluidez en el diálogo y un bajo umbral de implementación, al tiempo que introduce nuevas características. Utiliza datos de entrenamiento más diversos, un mayor número de pasos de entrenamiento y estrategias de entrenamiento más razonables, destacando entre los modelos preentrenados de menos de 10B. ChatGLM3-6B admite diálogos de múltiples turnos, llamadas a herramientas, ejecución de código y tareas de agente en escenarios complejos. Además del modelo de diálogo, también se han lanzado el modelo base ChatGLM-6B-Base y el modelo de diálogo de texto largo ChatGLM3-6B-32K. Este modelo está completamente abierto para la investigación académica y permite el uso comercial gratuito tras el registro."
247
+ },
212
248
  "THUDM/glm-4-9b-chat": {
213
249
  "description": "GLM-4 9B es una versión de código abierto, que proporciona una experiencia de conversación optimizada para aplicaciones de diálogo."
214
250
  },
251
+ "TeleAI/TeleChat2": {
252
+ "description": "El modelo grande TeleChat2 ha sido desarrollado de manera independiente por China Telecom desde cero, siendo un modelo semántico generativo que admite funciones como preguntas y respuestas enciclopédicas, generación de código y generación de textos largos, proporcionando servicios de consulta conversacional a los usuarios, permitiendo interacciones de diálogo, respondiendo preguntas y asistiendo en la creación, ayudando a los usuarios a obtener información, conocimiento e inspiración de manera eficiente y conveniente. El modelo ha mostrado un rendimiento destacado en problemas de alucinación, generación de textos largos y comprensión lógica."
253
+ },
254
+ "TeleAI/TeleMM": {
255
+ "description": "El modelo multimodal TeleMM ha sido desarrollado de manera independiente por China Telecom, siendo un modelo de comprensión multimodal que puede manejar entradas de múltiples modalidades como texto e imágenes, apoyando funciones como comprensión de imágenes y análisis de gráficos, proporcionando servicios de comprensión cruzada para los usuarios. El modelo puede interactuar con los usuarios de manera multimodal, entendiendo con precisión el contenido de entrada, respondiendo preguntas, asistiendo en la creación y proporcionando de manera eficiente información y apoyo inspirador multimodal. Ha mostrado un rendimiento excepcional en tareas multimodales como percepción de alta resolución y razonamiento lógico."
256
+ },
215
257
  "Tencent/Hunyuan-A52B-Instruct": {
216
258
  "description": "Hunyuan-Large es el modelo MoE de Transformer de código abierto más grande de la industria, con un total de 389 mil millones de parámetros y 52 mil millones de parámetros activados."
217
259
  },
260
+ "Vendor-A/Qwen/Qwen2-7B-Instruct": {
261
+ "description": "Qwen2-72B-Instruct es un modelo de lenguaje a gran escala de ajuste fino por instrucciones dentro de la serie Qwen2, con un tamaño de parámetros de 72B. Este modelo se basa en la arquitectura Transformer, utilizando funciones de activación SwiGLU, sesgos de atención QKV y atención de consulta agrupada, entre otras técnicas. Es capaz de manejar entradas a gran escala. Este modelo ha destacado en múltiples pruebas de referencia en comprensión del lenguaje, generación, capacidad multilingüe, codificación, matemáticas y razonamiento, superando a la mayoría de los modelos de código abierto y mostrando competitividad comparable a modelos propietarios en ciertas tareas."
262
+ },
263
+ "Vendor-A/Qwen/Qwen2.5-72B-Instruct": {
264
+ "description": "Qwen2.5-72B-Instruct es uno de los últimos modelos de lenguaje a gran escala lanzados por Alibaba Cloud. Este modelo de 72B ha mejorado significativamente en áreas como codificación y matemáticas. También ofrece soporte multilingüe, abarcando más de 29 idiomas, incluidos chino e inglés. El modelo ha mostrado mejoras significativas en el seguimiento de instrucciones, comprensión de datos estructurados y generación de salidas estructuradas (especialmente JSON)."
265
+ },
218
266
  "Yi-34B-Chat": {
219
267
  "description": "Yi-1.5-34B, manteniendo la excelente capacidad de lenguaje general de la serie original, ha mejorado significativamente la lógica matemática y la capacidad de codificación mediante un entrenamiento incremental de 500 mil millones de tokens de alta calidad."
220
268
  },
@@ -290,9 +338,15 @@
290
338
  "accounts/fireworks/models/phi-3-vision-128k-instruct": {
291
339
  "description": "El modelo de instrucciones Phi 3 Vision es un modelo multimodal ligero, capaz de manejar información visual y textual compleja, con una fuerte capacidad de razonamiento."
292
340
  },
341
+ "accounts/fireworks/models/qwen-qwq-32b-preview": {
342
+ "description": "El modelo QwQ es un modelo de investigación experimental desarrollado por el equipo de Qwen, enfocado en mejorar la capacidad de razonamiento de la IA."
343
+ },
293
344
  "accounts/fireworks/models/qwen2p5-72b-instruct": {
294
345
  "description": "Qwen2.5 es una serie de modelos de lenguaje solo decodificadores desarrollados por el equipo Qwen de Alibaba Cloud. Estos modelos ofrecen diferentes tamaños, incluidos 0.5B, 1.5B, 3B, 7B, 14B, 32B y 72B, y tienen variantes base y de instrucciones."
295
346
  },
347
+ "accounts/fireworks/models/qwen2p5-coder-32b-instruct": {
348
+ "description": "Qwen2.5 Coder 32B Instruct es la última versión de la serie de modelos de lenguaje a gran escala específicos para código lanzada por Alibaba Cloud. Este modelo, basado en Qwen2.5, ha mejorado significativamente la generación, razonamiento y reparación de código a través de un entrenamiento con 55 billones de tokens. No solo ha mejorado la capacidad de codificación, sino que también ha mantenido ventajas en habilidades matemáticas y generales. El modelo proporciona una base más completa para aplicaciones prácticas como agentes de código."
349
+ },
296
350
  "accounts/fireworks/models/starcoder-16b": {
297
351
  "description": "El modelo StarCoder 15.5B soporta tareas de programación avanzadas, con capacidades multilingües mejoradas, adecuado para la generación y comprensión de código complejo."
298
352
  },
@@ -392,6 +446,9 @@
392
446
  "codellama": {
393
447
  "description": "Code Llama es un LLM enfocado en la generación y discusión de código, combinando un amplio soporte para lenguajes de programación, adecuado para entornos de desarrolladores."
394
448
  },
449
+ "codellama/CodeLlama-34b-Instruct-hf": {
450
+ "description": "Code Llama es un LLM enfocado en la generación y discusión de código, que combina un amplio soporte para lenguajes de programación, adecuado para entornos de desarrolladores."
451
+ },
395
452
  "codellama:13b": {
396
453
  "description": "Code Llama es un LLM enfocado en la generación y discusión de código, combinando un amplio soporte para lenguajes de programación, adecuado para entornos de desarrolladores."
397
454
  },
@@ -428,6 +485,9 @@
428
485
  "databricks/dbrx-instruct": {
429
486
  "description": "DBRX Instruct ofrece capacidades de procesamiento de instrucciones de alta fiabilidad, soportando aplicaciones en múltiples industrias."
430
487
  },
488
+ "deepseek-ai/DeepSeek-V2-Chat": {
489
+ "description": "DeepSeek-V2 es un potente y rentable modelo de lenguaje de expertos mixtos (MoE). Se ha preentrenado en un corpus de alta calidad de 81 billones de tokens y ha mejorado aún más sus capacidades a través de ajuste fino supervisado (SFT) y aprendizaje por refuerzo (RL). En comparación con DeepSeek 67B, DeepSeek-V2 no solo ofrece un rendimiento superior, sino que también ahorra un 42.5% en costos de entrenamiento, reduce un 93.3% en caché KV y aumenta la máxima tasa de generación a 5.76 veces. Este modelo admite una longitud de contexto de 128k y ha destacado en pruebas de referencia estándar y evaluaciones de generación abierta."
490
+ },
431
491
  "deepseek-ai/DeepSeek-V2.5": {
432
492
  "description": "DeepSeek V2.5 combina las excelentes características de versiones anteriores, mejorando la capacidad general y de codificación."
433
493
  },
@@ -682,6 +742,9 @@
682
742
  },
683
743
  "jamba-1.5-large": {},
684
744
  "jamba-1.5-mini": {},
745
+ "learnlm-1.5-pro-experimental": {
746
+ "description": "LearnLM es un modelo de lenguaje experimental y específico para tareas, entrenado para cumplir con los principios de la ciencia del aprendizaje, capaz de seguir instrucciones sistemáticas en escenarios de enseñanza y aprendizaje, actuando como un tutor experto, entre otros."
747
+ },
685
748
  "lite": {
686
749
  "description": "Spark Lite es un modelo de lenguaje grande y ligero, con una latencia extremadamente baja y una capacidad de procesamiento eficiente, completamente gratuito y de código abierto, que admite funciones de búsqueda en línea en tiempo real. Su característica de respuesta rápida lo hace destacar en aplicaciones de inferencia y ajuste de modelos en dispositivos de baja potencia, brindando a los usuarios una excelente relación costo-beneficio y experiencia inteligente, especialmente en escenarios de preguntas y respuestas, generación de contenido y búsqueda."
687
750
  },
@@ -872,6 +935,9 @@
872
935
  "description": "Meta Llama 3 es un modelo de lenguaje de gran tamaño (LLM) abierto dirigido a desarrolladores, investigadores y empresas, diseñado para ayudarles a construir, experimentar y escalar de manera responsable sus ideas de IA generativa. Como parte de un sistema base para la innovación de la comunidad global, es ideal para dispositivos de borde con recursos y capacidades computacionales limitadas, así como para tiempos de entrenamiento más rápidos."
873
936
  },
874
937
  "microsoft/Phi-3.5-mini-instruct": {},
938
+ "microsoft/WizardLM-2-8x22B": {
939
+ "description": "WizardLM 2 es un modelo de lenguaje proporcionado por Microsoft AI, que destaca en diálogos complejos, multilingüismo, razonamiento y asistentes inteligentes."
940
+ },
875
941
  "microsoft/wizardlm 2-7b": {
876
942
  "description": "WizardLM 2 7B es el último modelo ligero y rápido de Microsoft AI, con un rendimiento cercano a 10 veces el de los modelos líderes de código abierto existentes."
877
943
  },
@@ -956,6 +1022,9 @@
956
1022
  "nvidia/Llama-3.1-Nemotron-70B-Instruct": {
957
1023
  "description": "Llama 3.1 Nemotron 70B es un modelo de lenguaje de gran tamaño personalizado por NVIDIA, diseñado para aumentar el grado de ayuda que las respuestas generadas por LLM ofrecen a las consultas de los usuarios."
958
1024
  },
1025
+ "nvidia/Llama-3.1-Nemotron-70B-Instruct-HF": {
1026
+ "description": "Llama 3.1 Nemotron 70B es un modelo de lenguaje a gran escala personalizado por NVIDIA, diseñado para mejorar la utilidad de las respuestas generadas por LLM a las consultas de los usuarios. Este modelo ha destacado en pruebas de referencia como Arena Hard, AlpacaEval 2 LC y GPT-4-Turbo MT-Bench, ocupando el primer lugar en los tres benchmarks de alineación automática hasta el 1 de octubre de 2024. El modelo se entrena utilizando RLHF (especialmente REINFORCE), Llama-3.1-Nemotron-70B-Reward y HelpSteer2-Preference sobre la base del modelo Llama-3.1-70B-Instruct."
1027
+ },
959
1028
  "o1-mini": {
960
1029
  "description": "o1-mini es un modelo de inferencia rápido y rentable diseñado para aplicaciones de programación, matemáticas y ciencias. Este modelo tiene un contexto de 128K y una fecha de corte de conocimiento en octubre de 2023."
961
1030
  },
@@ -1052,6 +1121,9 @@
1052
1121
  "qwen2": {
1053
1122
  "description": "Qwen2 es el nuevo modelo de lenguaje a gran escala de Alibaba, que ofrece un rendimiento excepcional para satisfacer diversas necesidades de aplicación."
1054
1123
  },
1124
+ "qwen2.5": {
1125
+ "description": "Qwen2.5 es la nueva generación de modelos de lenguaje a gran escala de Alibaba, que ofrece un rendimiento excepcional para satisfacer diversas necesidades de aplicación."
1126
+ },
1055
1127
  "qwen2.5-14b-instruct": {
1056
1128
  "description": "El modelo de 14B de Tongyi Qwen 2.5, de código abierto."
1057
1129
  },
@@ -1076,6 +1148,15 @@
1076
1148
  "qwen2.5-math-7b-instruct": {
1077
1149
  "description": "El modelo Qwen-Math tiene una poderosa capacidad para resolver problemas matemáticos."
1078
1150
  },
1151
+ "qwen2.5:0.5b": {
1152
+ "description": "Qwen2.5 es la nueva generación de modelos de lenguaje a gran escala de Alibaba, que ofrece un rendimiento excepcional para satisfacer diversas necesidades de aplicación."
1153
+ },
1154
+ "qwen2.5:1.5b": {
1155
+ "description": "Qwen2.5 es la nueva generación de modelos de lenguaje a gran escala de Alibaba, que ofrece un rendimiento excepcional para satisfacer diversas necesidades de aplicación."
1156
+ },
1157
+ "qwen2.5:72b": {
1158
+ "description": "Qwen2.5 es la nueva generación de modelos de lenguaje a gran escala de Alibaba, que ofrece un rendimiento excepcional para satisfacer diversas necesidades de aplicación."
1159
+ },
1079
1160
  "qwen2:0.5b": {
1080
1161
  "description": "Qwen2 es el nuevo modelo de lenguaje a gran escala de Alibaba, que ofrece un rendimiento excepcional para satisfacer diversas necesidades de aplicación."
1081
1162
  },
@@ -1085,6 +1166,12 @@
1085
1166
  "qwen2:72b": {
1086
1167
  "description": "Qwen2 es el nuevo modelo de lenguaje a gran escala de Alibaba, que ofrece un rendimiento excepcional para satisfacer diversas necesidades de aplicación."
1087
1168
  },
1169
+ "qwq": {
1170
+ "description": "QwQ es un modelo de investigación experimental que se centra en mejorar la capacidad de razonamiento de la IA."
1171
+ },
1172
+ "qwq-32b-preview": {
1173
+ "description": "El modelo QwQ es un modelo de investigación experimental desarrollado por el equipo de Qwen, enfocado en mejorar la capacidad de razonamiento de la IA."
1174
+ },
1088
1175
  "solar-1-mini-chat": {
1089
1176
  "description": "Solar Mini es un LLM compacto, con un rendimiento superior al de GPT-3.5, que cuenta con potentes capacidades multilingües, soportando inglés y coreano, ofreciendo una solución eficiente y compacta."
1090
1177
  },
@@ -2,6 +2,9 @@
2
2
  "01-ai/Yi-1.5-34B-Chat-16K": {
3
3
  "description": "Yi-1.5 34B، با استفاده از نمونه‌های آموزشی غنی، عملکرد برتری در کاربردهای صنعتی ارائه می‌دهد."
4
4
  },
5
+ "01-ai/Yi-1.5-6B-Chat": {
6
+ "description": "Yi-1.5-6B-Chat یک واریانت از سری Yi-1.5 است که متعلق به مدل‌های گفتگویی متن باز است. Yi-1.5 نسخه به‌روز شده Yi است که بر روی 500B توکن با کیفیت بالا به طور مداوم پیش‌آموزش دیده و بر روی 3M نمونه‌های متنوع تنظیم دقیق شده است. در مقایسه با Yi، Yi-1.5 در توانایی‌های کدنویسی، ریاضی، استدلال و پیروی از دستورات عملکرد بهتری دارد و در عین حال توانایی‌های عالی در درک زبان، استدلال عمومی و درک خواندن را حفظ کرده است. این مدل دارای نسخه‌های طول زمینه 4K، 16K و 32K است و مجموع پیش‌آموزش به 3.6T توکن می‌رسد."
7
+ },
5
8
  "01-ai/Yi-1.5-9B-Chat-16K": {
6
9
  "description": "Yi-1.5 9B از 16K توکن پشتیبانی می‌کند و توانایی تولید زبان به‌صورت کارآمد و روان را ارائه می‌دهد."
7
10
  },
@@ -91,6 +94,12 @@
91
94
  "Gryphe/MythoMax-L2-13b": {
92
95
  "description": "MythoMax-L2 (13B) یک مدل نوآورانه است که برای کاربردهای چندرشته‌ای و وظایف پیچیده مناسب است."
93
96
  },
97
+ "LoRA/Qwen/Qwen2.5-72B-Instruct": {
98
+ "description": "Qwen2.5-72B-Instruct یکی از جدیدترین سری مدل‌های زبانی بزرگ منتشر شده توسط Alibaba Cloud است. این مدل 72B در زمینه‌های کدنویسی و ریاضی دارای توانایی‌های بهبود یافته قابل توجهی است. این مدل همچنین از پشتیبانی چند زبانه برخوردار است و بیش از 29 زبان از جمله چینی و انگلیسی را پوشش می‌دهد. این مدل در پیروی از دستورات، درک داده‌های ساختاری و تولید خروجی‌های ساختاری (به ویژه JSON) به طور قابل توجهی بهبود یافته است."
99
+ },
100
+ "LoRA/Qwen/Qwen2.5-7B-Instruct": {
101
+ "description": "Qwen2.5-7B-Instruct یکی از جدیدترین سری مدل‌های زبانی بزرگ منتشر شده توسط Alibaba Cloud است. این مدل 7B در زمینه‌های کدنویسی و ریاضی دارای توانایی‌های بهبود یافته قابل توجهی است. این مدل همچنین از پشتیبانی چند زبانه برخوردار است و بیش از 29 زبان از جمله چینی و انگلیسی را پوشش می‌دهد. این مدل در پیروی از دستورات، درک داده‌های ساختاری و تولید خروجی‌های ساختاری (به ویژه JSON) به طور قابل توجهی بهبود یافته است."
102
+ },
94
103
  "Nous-Hermes-2-Mixtral-8x7B-DPO": {
95
104
  "description": "Hermes 2 Mixtral 8x7B DPO یک ترکیب چندمدلی بسیار انعطاف‌پذیر است که برای ارائه تجربه‌ای خلاقانه و برجسته طراحی شده است."
96
105
  },
@@ -98,9 +107,6 @@
98
107
  "NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
99
108
  "description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) یک مدل دستورالعمل با دقت بالا است که برای محاسبات پیچیده مناسب است."
100
109
  },
101
- "NousResearch/Nous-Hermes-2-Yi-34B": {
102
- "description": "Nous Hermes-2 Yi (34B) خروجی بهینه زبان و امکانات متنوع کاربردی را ارائه می‌دهد."
103
- },
104
110
  "OpenGVLab/InternVL2-26B": {
105
111
  "description": "InternVL2 در وظایف مختلف زبان تصویری عملکرد برجسته‌ای از خود نشان داده است، از جمله درک اسناد و نمودارها، درک متن صحنه، OCR، حل مسائل علمی و ریاضی و غیره."
106
112
  },
@@ -134,18 +140,42 @@
134
140
  "Pro/OpenGVLab/InternVL2-8B": {
135
141
  "description": "InternVL2 در وظایف مختلف زبان تصویری عملکرد برجسته‌ای از خود نشان داده است، از جمله درک اسناد و نمودارها، درک متن صحنه، OCR، حل مسائل علمی و ریاضی و غیره."
136
142
  },
143
+ "Pro/Qwen/Qwen2-1.5B-Instruct": {
144
+ "description": "Qwen2-1.5B-Instruct یک مدل زبانی بزرگ با تنظیم دقیق دستوری در سری Qwen2 است که اندازه پارامتر آن 1.5B است. این مدل بر اساس معماری Transformer ساخته شده و از تکنیک‌های SwiGLU،偏置 QKV توجه و توجه گروهی استفاده می‌کند. این مدل در درک زبان، تولید، توانایی چند زبانه، کدنویسی، ریاضی و استدلال در چندین آزمون معیار عملکرد عالی دارد و از اکثر مدل‌های متن باز پیشی گرفته است. در مقایسه با Qwen1.5-1.8B-Chat، Qwen2-1.5B-Instruct در آزمون‌های MMLU، HumanEval، GSM8K، C-Eval و IFEval بهبود قابل توجهی در عملکرد نشان داده است، هرچند که تعداد پارامترها کمی کمتر است."
145
+ },
146
+ "Pro/Qwen/Qwen2-7B-Instruct": {
147
+ "description": "Qwen2-7B-Instruct یک مدل زبانی بزرگ با تنظیم دقیق دستوری در سری Qwen2 است که اندازه پارامتر آن 7B است. این مدل بر اساس معماری Transformer ساخته شده و از تکنیک‌های SwiGLU،偏置 QKV توجه و توجه گروهی استفاده می‌کند. این مدل قادر به پردازش ورودی‌های بزرگ مقیاس است. این مدل در درک زبان، تولید، توانایی چند زبانه، کدنویسی، ریاضی و استدلال در چندین آزمون معیار عملکرد عالی دارد و از اکثر مدل‌های متن باز پیشی گرفته و در برخی وظایف رقابت قابل توجهی با مدل‌های اختصاصی نشان می‌دهد. Qwen2-7B-Instruct در چندین ارزیابی از Qwen1.5-7B-Chat پیشی گرفته و بهبود قابل توجهی در عملکرد نشان داده است."
148
+ },
137
149
  "Pro/Qwen/Qwen2-VL-7B-Instruct": {
138
150
  "description": "Qwen2-VL جدیدترین نسخه از مدل Qwen-VL است که در آزمون‌های معیار درک بصری به پیشرفته‌ترین عملکرد دست یافته است."
139
151
  },
140
- "Qwen/Qwen1.5-110B-Chat": {
141
- "description": "Qwen 1.5 Chat (110B) یک مدل گفتگوی با کارایی بالا است که از سناریوهای پیچیده مکالمه پشتیبانی می‌کند."
152
+ "Pro/Qwen/Qwen2.5-7B-Instruct": {
153
+ "description": "Qwen2.5-7B-Instruct یکی از جدیدترین سری مدل‌های زبانی بزرگ منتشر شده توسط Alibaba Cloud است. این مدل 7B در زمینه‌های کدنویسی و ریاضی دارای توانایی‌های بهبود یافته قابل توجهی است. این مدل همچنین از پشتیبانی چند زبانه برخوردار است و بیش از 29 زبان از جمله چینی و انگلیسی را پوشش می‌دهد. این مدل در پیروی از دستورات، درک داده‌های ساختاری و تولید خروجی‌های ساختاری (به ویژه JSON) به طور قابل توجهی بهبود یافته است."
154
+ },
155
+ "Pro/Qwen/Qwen2.5-Coder-7B-Instruct": {
156
+ "description": "Qwen2.5-Coder-7B-Instruct جدیدترین نسخه از سری مدل‌های زبانی بزرگ خاص کد است که توسط Alibaba Cloud منتشر شده است. این مدل بر اساس Qwen2.5 و با آموزش 5.5 تریلیون توکن، توانایی تولید کد، استدلال و اصلاح را به طور قابل توجهی افزایش داده است. این مدل نه تنها توانایی کدنویسی را تقویت کرده بلکه مزایای ریاضی و عمومی را نیز حفظ کرده است. این مدل پایه‌ای جامع‌تر برای کاربردهای عملی مانند عامل‌های کد فراهم می‌کند."
157
+ },
158
+ "Pro/THUDM/glm-4-9b-chat": {
159
+ "description": "GLM-4-9B-Chat نسخه متن باز از مدل‌های پیش‌آموزش شده سری GLM-4 است که توسط AI Zhizhu ارائه شده است. این مدل در زمینه‌های معنایی، ریاضی، استدلال، کد و دانش عملکرد عالی دارد. علاوه بر پشتیبانی از گفتگوی چند دور، GLM-4-9B-Chat همچنین دارای قابلیت‌های پیشرفته‌ای مانند مرور وب، اجرای کد، فراخوانی ابزارهای سفارشی (Function Call) و استدلال متن طولانی است. این مدل از 26 زبان پشتیبانی می‌کند، از جمله چینی، انگلیسی، ژاپنی، کره‌ای و آلمانی. در چندین آزمون معیار، GLM-4-9B-Chat عملکرد عالی نشان داده است، مانند AlignBench-v2، MT-Bench، MMLU و C-Eval. این مدل از حداکثر طول زمینه 128K پشتیبانی می‌کند و برای تحقیقات علمی و کاربردهای تجاری مناسب است."
142
160
  },
143
- "Qwen/Qwen1.5-72B-Chat": {
144
- "description": "Qwen 1.5 Chat (72B) پاسخگویی سریع و توانایی مکالمه طبیعی را ارائه می‌دهد و برای محیط‌های چندزبانه مناسب است."
161
+ "Pro/google/gemma-2-9b-it": {
162
+ "description": "Gemma یکی از مدل‌های پیشرفته و سبک وزن متن باز است که توسط Google توسعه یافته است. این یک مدل زبانی بزرگ با تنها دیکودر است که از زبان انگلیسی پشتیبانی می‌کند و وزن‌های باز، واریانت‌های پیش‌آموزش شده و واریانت‌های تنظیم دقیق دستوری را ارائه می‌دهد. مدل Gemma برای انواع وظایف تولید متن، از جمله پرسش و پاسخ، خلاصه‌سازی و استدلال مناسب است. این مدل 9B از طریق 8 تریلیون توکن آموزش دیده است. اندازه نسبتاً کوچک آن امکان استقرار در محیط‌های با منابع محدود، مانند لپ‌تاپ، دسکتاپ یا زیرساخت ابری خود را فراهم می‌کند و به این ترتیب دسترسی به مدل‌های پیشرفته AI را برای افراد بیشتری فراهم می‌کند و نوآوری را تسهیل می‌کند."
163
+ },
164
+ "Pro/meta-llama/Meta-Llama-3.1-8B-Instruct": {
165
+ "description": "Meta Llama 3.1 یکی از خانواده‌های مدل‌های زبانی بزرگ چند زبانه است که توسط Meta توسعه یافته و شامل واریانت‌های پیش‌آموزش شده و تنظیم دقیق دستوری با اندازه‌های پارامتر 8B، 70B و 405B است. این مدل 8B به طور خاص برای سناریوهای گفتگوی چند زبانه بهینه‌سازی شده و در چندین آزمون معیار صنعتی عملکرد عالی دارد. آموزش مدل با استفاده از بیش از 15 تریلیون توکن داده‌های عمومی انجام شده و از تکنیک‌های تنظیم دقیق نظارتی و یادگیری تقویتی با بازخورد انسانی برای افزایش مفید بودن و ایمنی مدل استفاده شده است. Llama 3.1 از تولید متن و تولید کد پشتیبانی می‌کند و تاریخ قطع دانش آن دسامبر 2023 است."
166
+ },
167
+ "Qwen/QwQ-32B-Preview": {
168
+ "description": "QwQ-32B-Preview جدیدترین مدل تحقیقاتی تجربی Qwen است که بر بهبود توانایی استدلال AI تمرکز دارد. با کاوش در مکانیزم‌های پیچیده‌ای مانند ترکیب زبان و استدلال بازگشتی، مزایای اصلی شامل توانایی تحلیل استدلال قوی، توانایی ریاضی و برنامه‌نویسی است. در عین حال، مشکلاتی مانند تغییر زبان، حلقه‌های استدلال، ملاحظات ایمنی و تفاوت‌های دیگر در توانایی‌ها وجود دارد."
169
+ },
170
+ "Qwen/Qwen2-1.5B-Instruct": {
171
+ "description": "Qwen2-1.5B-Instruct یک مدل زبانی بزرگ با تنظیم دقیق دستوری در سری Qwen2 است که اندازه پارامتر آن 1.5B است. این مدل بر اساس معماری Transformer ساخته شده و از تکنیک‌های SwiGLU،偏置 QKV توجه و توجه گروهی استفاده می‌کند. این مدل در درک زبان، تولید، توانایی چند زبانه، کدنویسی، ریاضی و استدلال در چندین آزمون معیار عملکرد عالی دارد و از اکثر مدل‌های متن باز پیشی گرفته است. در مقایسه با Qwen1.5-1.8B-Chat، Qwen2-1.5B-Instruct در آزمون‌های MMLU، HumanEval، GSM8K، C-Eval و IFEval بهبود قابل توجهی در عملکرد نشان داده است، هرچند که تعداد پارامترها کمی کمتر است."
145
172
  },
146
173
  "Qwen/Qwen2-72B-Instruct": {
147
174
  "description": "Qwen 2 Instruct (72B) دستورالعمل‌های دقیق برای کاربردهای سازمانی ارائه می‌دهد و به درستی به آن‌ها پاسخ می‌دهد."
148
175
  },
176
+ "Qwen/Qwen2-7B-Instruct": {
177
+ "description": "Qwen2-72B-Instruct یک مدل زبانی بزرگ با تنظیم دقیق دستوری در سری Qwen2 است که اندازه پارامتر آن 72B است. این مدل بر اساس معماری Transformer ساخته شده و از تکنیک‌های SwiGLU،偏置 QKV توجه و توجه گروهی استفاده می‌کند. این مدل قادر به پردازش ورودی‌های بزرگ مقیاس است. این مدل در درک زبان، تولید، توانایی چند زبانه، کدنویسی، ریاضی و استدلال در چندین آزمون معیار عملکرد عالی دارد و از اکثر مدل‌های متن باز پیشی گرفته و در برخی وظایف رقابت قابل توجهی با مدل‌های اختصاصی نشان می‌دهد."
178
+ },
149
179
  "Qwen/Qwen2-VL-72B-Instruct": {
150
180
  "description": "Qwen2-VL جدیدترین نسخه از مدل Qwen-VL است که در آزمون‌های معیار درک بصری به پیشرفته‌ترین عملکرد دست یافته است."
151
181
  },
@@ -173,6 +203,9 @@
173
203
  "Qwen/Qwen2.5-Coder-32B-Instruct": {
174
204
  "description": "Qwen2.5-Coder بر نوشتن کد تمرکز دارد."
175
205
  },
206
+ "Qwen/Qwen2.5-Coder-7B-Instruct": {
207
+ "description": "Qwen2.5-Coder-7B-Instruct جدیدترین نسخه از سری مدل‌های زبانی بزرگ خاص کد است که توسط Alibaba Cloud منتشر شده است. این مدل بر اساس Qwen2.5 و با آموزش 5.5 تریلیون توکن، توانایی تولید کد، استدلال و اصلاح را به طور قابل توجهی افزایش داده است. این مدل نه تنها توانایی کدنویسی را تقویت کرده بلکه مزایای ریاضی و عمومی را نیز حفظ کرده است. این مدل پایه‌ای جامع‌تر برای کاربردهای عملی مانند عامل‌های کد فراهم می‌کند."
208
+ },
176
209
  "Qwen/Qwen2.5-Math-72B-Instruct": {
177
210
  "description": "Qwen2.5-Math بر حل مسائل در حوزه ریاضیات تمرکز دارد و پاسخ‌های حرفه‌ای برای مسائل پیچیده ارائه می‌دهد."
178
211
  },
@@ -209,12 +242,27 @@
209
242
  "SenseChat-Turbo": {
210
243
  "description": "مناسب برای پرسش و پاسخ سریع و تنظیم دقیق مدل"
211
244
  },
245
+ "THUDM/chatglm3-6b": {
246
+ "description": "ChatGLM3-6B مدل متن باز از سری ChatGLM است که توسط AI Zhizhu توسعه یافته است. این مدل ویژگی‌های عالی نسل قبلی خود را حفظ کرده است، مانند روان بودن گفتگو و آستانه پایین برای استقرار، در عین حال ویژگی‌های جدیدی را معرفی کرده است. این مدل از داده‌های آموزشی متنوع‌تر، تعداد مراحل آموزشی بیشتر و استراتژی‌های آموزشی منطقی‌تر استفاده کرده و در میان مدل‌های پیش‌آموزش شده زیر 10B عملکرد عالی دارد. ChatGLM3-6B از گفتگوی چند دور، فراخوانی ابزار، اجرای کد و وظایف عامل در سناریوهای پیچیده پشتیبانی می‌کند. علاوه بر مدل گفتگویی، مدل پایه ChatGLM-6B-Base و مدل گفتگوی طولانی ChatGLM3-6B-32K نیز به صورت متن باز ارائه شده است. این مدل به طور کامل برای تحقیقات علمی باز است و پس از ثبت‌نام، استفاده تجاری رایگان نیز مجاز است."
247
+ },
212
248
  "THUDM/glm-4-9b-chat": {
213
249
  "description": "نسخه منبع باز GLM-4 9B، تجربه گفتگوی بهینه‌شده برای برنامه‌های مکالمه را ارائه می‌دهد."
214
250
  },
251
+ "TeleAI/TeleChat2": {
252
+ "description": "مدل بزرگ TeleChat2 توسط China Telecom از صفر تا یک به طور مستقل توسعه یافته و یک مدل معنایی تولیدی است که از قابلیت‌هایی مانند پرسش و پاسخ دایره‌المعارف، تولید کد و تولید متن طولانی پشتیبانی می‌کند و خدمات مشاوره گفتگویی را به کاربران ارائه می‌دهد. این مدل قادر به تعامل گفتگویی با کاربران، پاسخ به سوالات و کمک به خلاقیت است و به طور کارآمد و راحت به کاربران در دستیابی به اطلاعات، دانش و الهام کمک می‌کند. این مدل در زمینه‌های مشکلات توهم، تولید متن طولانی و درک منطقی عملکرد خوبی دارد."
253
+ },
254
+ "TeleAI/TeleMM": {
255
+ "description": "مدل بزرگ چندرسانه‌ای TeleMM یک مدل بزرگ درک چندرسانه‌ای است که توسط China Telecom به طور مستقل توسعه یافته و قادر به پردازش ورودی‌های چندرسانه‌ای از جمله متن و تصویر است و از قابلیت‌هایی مانند درک تصویر و تحلیل نمودار پشتیبانی می‌کند و خدمات درک چندرسانه‌ای را به کاربران ارائه می‌دهد. این مدل قادر به تعامل چندرسانه‌ای با کاربران است و محتوا را به دقت درک کرده و به سوالات پاسخ می‌دهد، به خلاقیت کمک می‌کند و به طور کارآمد اطلاعات و الهام چندرسانه‌ای را ارائه می‌دهد. این مدل در وظایف چندرسانه‌ای مانند درک دقیق، استدلال منطقی و غیره عملکرد خوبی دارد."
256
+ },
215
257
  "Tencent/Hunyuan-A52B-Instruct": {
216
258
  "description": "Hunyuan-Large بزرگترین مدل MoE با ساختار Transformer متن باز در صنعت است که دارای ۳۸۹۰ میلیارد پارامتر کل و ۵۲۰ میلیارد پارامتر فعال است."
217
259
  },
260
+ "Vendor-A/Qwen/Qwen2-7B-Instruct": {
261
+ "description": "Qwen2-72B-Instruct یک مدل زبانی بزرگ با تنظیم دقیق دستوری در سری Qwen2 است که اندازه پارامتر آن 72B است. این مدل بر اساس معماری Transformer ساخته شده و از تکنیک‌های SwiGLU،偏置 QKV توجه و توجه گروهی استفاده می‌کند. این مدل قادر به پردازش ورودی‌های بزرگ مقیاس است. این مدل در درک زبان، تولید، توانایی چند زبانه، کدنویسی، ریاضی و استدلال در چندین آزمون معیار عملکرد عالی دارد و از اکثر مدل‌های متن باز پیشی گرفته و در برخی وظایف رقابت قابل توجهی با مدل‌های اختصاصی نشان می‌دهد."
262
+ },
263
+ "Vendor-A/Qwen/Qwen2.5-72B-Instruct": {
264
+ "description": "Qwen2.5-72B-Instruct یکی از جدیدترین سری مدل‌های زبانی بزرگ منتشر شده توسط Alibaba Cloud است. این مدل 72B در زمینه‌های کدنویسی و ریاضی دارای توانایی‌های بهبود یافته قابل توجهی است. این مدل همچنین از پشتیبانی چند زبانه برخوردار است و بیش از 29 زبان از جمله چینی و انگلیسی را پوشش می‌دهد. این مدل در پیروی از دستورات، درک داده‌های ساختاری و تولید خروجی‌های ساختاری (به ویژه JSON) به طور قابل توجهی بهبود یافته است."
265
+ },
218
266
  "Yi-34B-Chat": {
219
267
  "description": "Yi-1.5-34B با حفظ توانایی‌های زبان عمومی عالی مدل‌های قبلی خود، از طریق آموزش افزایشی 500 میلیارد توکن با کیفیت بالا، به طور قابل توجهی توانایی‌های منطقی ریاضی و کدنویسی را افزایش داده است."
220
268
  },
@@ -290,9 +338,15 @@
290
338
  "accounts/fireworks/models/phi-3-vision-128k-instruct": {
291
339
  "description": "Phi-3-Vision-128K-Instruct یک مدل چندوجهی پیشرفته و سبک است که بر اساس مجموعه داده‌هایی شامل داده‌های مصنوعی و وب‌سایت‌های عمومی فیلتر شده ساخته شده است. این مدل بر داده‌های بسیار باکیفیت و متمرکز بر استدلال، که شامل متن و تصویر هستند، تمرکز دارد. این مدل بخشی از سری مدل‌های Phi-3 است و نسخه چندوجهی آن از طول زمینه 128K (بر حسب توکن) پشتیبانی می‌کند. این مدل از یک فرآیند تقویت دقیق عبور کرده است که ترکیبی از تنظیم دقیق تحت نظارت و بهینه‌سازی مستقیم ترجیحات را شامل می‌شود تا از پیروی دقیق از دستورات و اقدامات امنیتی قوی اطمینان حاصل شود."
292
340
  },
341
+ "accounts/fireworks/models/qwen-qwq-32b-preview": {
342
+ "description": "مدل QwQ یک مدل تحقیقاتی تجربی است که توسط تیم Qwen توسعه یافته و بر تقویت توانایی استدلال AI تمرکز دارد."
343
+ },
293
344
  "accounts/fireworks/models/qwen2p5-72b-instruct": {
294
345
  "description": "Qwen2.5 مجموعه‌ای از مدل‌های زبانی است که تنها شامل رمزگشاها می‌باشد و توسط تیم Qwen علی‌بابا کلود توسعه یافته است. این مدل‌ها در اندازه‌های مختلف از جمله 0.5B، 1.5B، 3B، 7B، 14B، 32B و 72B ارائه می‌شوند و دارای دو نوع پایه (base) و دستوری (instruct) هستند."
295
346
  },
347
+ "accounts/fireworks/models/qwen2p5-coder-32b-instruct": {
348
+ "description": "Qwen2.5 Coder 32B Instruct جدیدترین نسخه از سری مدل‌های زبانی بزرگ خاص کد است که توسط Alibaba Cloud منتشر شده است. این مدل بر اساس Qwen2.5 و با آموزش 5.5 تریلیون توکن، توانایی تولید کد، استدلال و اصلاح را به طور قابل توجهی افزایش داده است. این مدل نه تنها توانایی کدنویسی را تقویت کرده بلکه مزایای ریاضی و عمومی را نیز حفظ کرده است. این مدل پایه‌ای جامع‌تر برای کاربردهای عملی مانند عامل‌های کد فراهم می‌کند."
349
+ },
296
350
  "accounts/fireworks/models/starcoder-16b": {
297
351
  "description": "مدل StarCoder 15.5B، پشتیبانی از وظایف پیشرفته برنامه‌نویسی، با قابلیت‌های چندزبانه تقویت شده، مناسب برای تولید و درک کدهای پیچیده."
298
352
  },
@@ -392,6 +446,9 @@
392
446
  "codellama": {
393
447
  "description": "Code Llama یک مدل زبانی بزرگ (LLM) است که بر تولید و بحث در مورد کد تمرکز دارد و از زبان‌های برنامه‌نویسی گسترده‌ای پشتیبانی می‌کند و برای محیط‌های توسعه‌دهندگان مناسب است."
394
448
  },
449
+ "codellama/CodeLlama-34b-Instruct-hf": {
450
+ "description": "Code Llama یک LLM است که بر تولید و بحث کد تمرکز دارد و از پشتیبانی گسترده زبان‌های برنامه‌نویسی برخوردار است و برای محیط‌های توسعه‌دهنده مناسب است."
451
+ },
395
452
  "codellama:13b": {
396
453
  "description": "Code Llama یک مدل زبانی بزرگ (LLM) است که بر تولید و بحث در مورد کد تمرکز دارد و از زبان‌های برنامه‌نویسی گسترده‌ای پشتیبانی می‌کند و برای محیط‌های توسعه‌دهندگان مناسب است."
397
454
  },
@@ -428,6 +485,9 @@
428
485
  "databricks/dbrx-instruct": {
429
486
  "description": "DBRX Instruct قابلیت پردازش دستورات با قابلیت اطمینان بالا را فراهم می‌کند و از کاربردهای چندین صنعت پشتیبانی می‌کند."
430
487
  },
488
+ "deepseek-ai/DeepSeek-V2-Chat": {
489
+ "description": "DeepSeek-V2 یک مدل زبانی ترکیبی (MoE) قوی و اقتصادی است. این مدل بر روی 8.1 تریلیون توکن از یک مجموعه داده با کیفیت بالا پیش‌آموزش دیده و از طریق تنظیم دقیق نظارتی (SFT) و یادگیری تقویتی (RL) توانایی‌های مدل را بیشتر افزایش داده است. در مقایسه با DeepSeek 67B، DeepSeek-V2 در حالی که 42.5% از هزینه‌های آموزشی را صرفه‌جویی کرده و 93.3% از کش KV را کاهش داده، عملکرد بهتری دارد و حداکثر توان تولید را به 5.76 برابر افزایش داده است. این مدل از طول زمینه 128k پشتیبانی می‌کند و در آزمون‌های معیار استاندارد و ارزیابی تولید باز عملکرد عالی دارد."
490
+ },
431
491
  "deepseek-ai/DeepSeek-V2.5": {
432
492
  "description": "DeepSeek V2.5 ویژگی‌های برجسته نسخه‌های قبلی را گرد هم آورده و توانایی‌های عمومی و کدنویسی را تقویت کرده است."
433
493
  },
@@ -682,6 +742,9 @@
682
742
  },
683
743
  "jamba-1.5-large": {},
684
744
  "jamba-1.5-mini": {},
745
+ "learnlm-1.5-pro-experimental": {
746
+ "description": "LearnLM یک مدل زبانی تجربی و خاص برای وظایف است که برای مطابقت با اصول علم یادگیری آموزش دیده است و می‌تواند در سناریوهای آموزشی و یادگیری از دستورات سیستم پیروی کند و به عنوان مربی متخصص عمل کند."
747
+ },
685
748
  "lite": {
686
749
  "description": "Spark Lite یک مدل زبان بزرگ سبک است که دارای تأخیر بسیار کم و توانایی پردازش کارآمد می‌باشد. به‌طور کامل رایگان و باز است و از قابلیت جستجوی آنلاین در زمان واقعی پشتیبانی می‌کند. ویژگی پاسخ‌دهی سریع آن باعث می‌شود که در کاربردهای استنتاجی و تنظیم مدل در دستگاه‌های با توان محاسباتی پایین عملکرد برجسته‌ای داشته باشد و تجربه‌ای هوشمند و مقرون‌به‌صرفه برای کاربران فراهم کند. به‌ویژه در زمینه‌های پرسش و پاسخ دانش، تولید محتوا و جستجو عملکرد خوبی دارد."
687
750
  },
@@ -872,6 +935,9 @@
872
935
  "description": "Meta Llama 3 یک مدل زبان بزرگ باز (LLM) است که برای توسعه‌دهندگان، پژوهشگران و شرکت‌ها طراحی شده است تا به آن‌ها در ساخت، آزمایش و گسترش مسئولانه ایده‌های هوش مصنوعی مولد کمک کند. به عنوان بخشی از سیستم پایه نوآوری جامعه جهانی، این مدل برای دستگاه‌های با توان محاسباتی و منابع محدود، دستگاه‌های لبه و زمان‌های آموزش سریع‌تر بسیار مناسب است."
873
936
  },
874
937
  "microsoft/Phi-3.5-mini-instruct": {},
938
+ "microsoft/WizardLM-2-8x22B": {
939
+ "description": "WizardLM 2 یک مدل زبانی است که توسط AI مایکروسافت ارائه شده و در زمینه‌های گفتگوی پیچیده، چند زبانه، استدلال و دستیار هوشمند به ویژه عملکرد خوبی دارد."
940
+ },
875
941
  "microsoft/wizardlm 2-7b": {
876
942
  "description": "WizardLM 2 7B مدل جدید و سبک وزن AI مایکروسافت است که عملکرد آن نزدیک به 10 برابر مدل‌های پیشرو متن‌باز موجود است."
877
943
  },
@@ -956,6 +1022,9 @@
956
1022
  "nvidia/Llama-3.1-Nemotron-70B-Instruct": {
957
1023
  "description": "Llama 3.1 Nemotron 70B یک مدل زبان بزرگ است که توسط NVIDIA سفارشی‌سازی شده و هدف آن افزایش مفید بودن پاسخ‌های تولید شده توسط LLM به پرسش‌های کاربران است."
958
1024
  },
1025
+ "nvidia/Llama-3.1-Nemotron-70B-Instruct-HF": {
1026
+ "description": "Llama 3.1 Nemotron 70B یک مدل زبانی بزرگ سفارشی شده توسط NVIDIA است که به منظور افزایش کمک به پاسخ‌های تولید شده توسط LLM برای پرسش‌های کاربران طراحی شده است. این مدل در آزمون‌های معیار مانند Arena Hard، AlpacaEval 2 LC و GPT-4-Turbo MT-Bench عملکرد عالی داشته و تا تاریخ 1 اکتبر 2024 در تمامی سه آزمون خودکار هم‌راستایی در رتبه اول قرار دارد. این مدل با استفاده از RLHF (به ویژه REINFORCE)، Llama-3.1-Nemotron-70B-Reward و HelpSteer2-Preference در مدل Llama-3.1-70B-Instruct آموزش دیده است."
1027
+ },
959
1028
  "o1-mini": {
960
1029
  "description": "کوچکتر و سریعتر از o1-preview، با ۸۰٪ هزینه کمتر، و عملکرد خوب در تولید کد و عملیات با زمینه‌های کوچک."
961
1030
  },
@@ -1052,6 +1121,9 @@
1052
1121
  "qwen2": {
1053
1122
  "description": "Qwen2 مدل زبان بزرگ نسل جدید علی‌بابا است که با عملکرد عالی از نیازهای متنوع کاربردی پشتیبانی می‌کند."
1054
1123
  },
1124
+ "qwen2.5": {
1125
+ "description": "Qwen2.5 نسل جدید مدل زبانی مقیاس بزرگ Alibaba است که با عملکرد عالی از نیازهای متنوع کاربردی پشتیبانی می‌کند."
1126
+ },
1055
1127
  "qwen2.5-14b-instruct": {
1056
1128
  "description": "مدل 14B مقیاس Qwen 2.5 که به صورت منبع باز ارائه شده است."
1057
1129
  },
@@ -1076,6 +1148,15 @@
1076
1148
  "qwen2.5-math-7b-instruct": {
1077
1149
  "description": "مدل Qwen-Math دارای توانایی قوی در حل مسائل ریاضی است."
1078
1150
  },
1151
+ "qwen2.5:0.5b": {
1152
+ "description": "Qwen2.5 نسل جدید مدل زبانی مقیاس بزرگ Alibaba است که با عملکرد عالی از نیازهای متنوع کاربردی پشتیبانی می‌کند."
1153
+ },
1154
+ "qwen2.5:1.5b": {
1155
+ "description": "Qwen2.5 نسل جدید مدل زبانی مقیاس بزرگ Alibaba است که با عملکرد عالی از نیازهای متنوع کاربردی پشتیبانی می‌کند."
1156
+ },
1157
+ "qwen2.5:72b": {
1158
+ "description": "Qwen2.5 نسل جدید مدل زبانی مقیاس بزرگ Alibaba است که با عملکرد عالی از نیازهای متنوع کاربردی پشتیبانی می‌کند."
1159
+ },
1079
1160
  "qwen2:0.5b": {
1080
1161
  "description": "Qwen2 مدل زبان بزرگ نسل جدید علی‌بابا است که با عملکرد عالی از نیازهای متنوع کاربردی پشتیبانی می‌کند."
1081
1162
  },
@@ -1085,6 +1166,12 @@
1085
1166
  "qwen2:72b": {
1086
1167
  "description": "Qwen2 مدل زبان بزرگ نسل جدید علی‌بابا است که با عملکرد عالی از نیازهای متنوع کاربردی پشتیبانی می‌کند."
1087
1168
  },
1169
+ "qwq": {
1170
+ "description": "QwQ یک مدل تحقیقاتی تجربی است که بر بهبود توانایی استدلال AI تمرکز دارد."
1171
+ },
1172
+ "qwq-32b-preview": {
1173
+ "description": "مدل QwQ یک مدل تحقیقاتی تجربی است که توسط تیم Qwen توسعه یافته و بر تقویت توانایی استدلال AI تمرکز دارد."
1174
+ },
1088
1175
  "solar-1-mini-chat": {
1089
1176
  "description": "Solar Mini یک مدل فشرده LLM است که عملکردی بهتر از GPT-3.5 دارد، دارای توانایی‌های چندزبانه قوی است، از زبان‌های انگلیسی و کره‌ای پشتیبانی می‌کند و یک راه‌حل کارآمد و کوچک ارائه می‌دهد."
1090
1177
  },