@lobehub/chat 1.98.1 → 1.98.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
@@ -203,24 +203,21 @@
203
203
  "Pro/Qwen/Qwen2.5-VL-7B-Instruct": {
204
204
  "description": "Qwen2.5-VL is the newest addition to the Qwen series, featuring enhanced visual comprehension capabilities. It can analyze text, charts, and layouts within images, comprehend long videos while capturing events. The model supports reasoning, tool manipulation, multi-format object localization, and structured output generation. It incorporates optimized dynamic resolution and frame rate training for video understanding, along with improved efficiency in its visual encoder."
205
205
  },
206
+ "Pro/THUDM/GLM-4.1V-9B-Thinking": {
207
+ "description": "GLM-4.1V-9B-Thinking is an open-source vision-language model (VLM) jointly released by Zhipu AI and Tsinghua University's KEG Lab, designed specifically for handling complex multimodal cognitive tasks. Based on the GLM-4-9B-0414 foundation model, it significantly enhances cross-modal reasoning ability and stability by introducing the Chain-of-Thought reasoning mechanism and employing reinforcement learning strategies."
208
+ },
206
209
  "Pro/THUDM/glm-4-9b-chat": {
207
210
  "description": "GLM-4-9B-Chat is the open-source version of the GLM-4 series pre-trained models launched by Zhipu AI. This model excels in semantics, mathematics, reasoning, code, and knowledge. In addition to supporting multi-turn dialogues, GLM-4-9B-Chat also features advanced capabilities such as web browsing, code execution, custom tool invocation (Function Call), and long-text reasoning. The model supports 26 languages, including Chinese, English, Japanese, Korean, and German. In multiple benchmark tests, GLM-4-9B-Chat has demonstrated excellent performance, such as in AlignBench-v2, MT-Bench, MMLU, and C-Eval. The model supports a maximum context length of 128K, making it suitable for academic research and commercial applications."
208
211
  },
209
212
  "Pro/deepseek-ai/DeepSeek-R1": {
210
213
  "description": "DeepSeek-R1 is a reinforcement learning (RL) driven inference model that addresses issues of repetitiveness and readability in models. Prior to RL, DeepSeek-R1 introduced cold start data to further optimize inference performance. It performs comparably to OpenAI-o1 in mathematical, coding, and reasoning tasks, and enhances overall effectiveness through carefully designed training methods."
211
214
  },
212
- "Pro/deepseek-ai/DeepSeek-R1-0120": {
213
- "description": "DeepSeek-R1 is a reinforcement learning (RL) driven reasoning model that addresses issues of repetition and readability. Before RL, it introduced cold-start data to further optimize reasoning performance. It performs comparably to OpenAI-o1 in mathematics, coding, and reasoning tasks and improves overall effectiveness through carefully designed training methods."
214
- },
215
215
  "Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B": {
216
216
  "description": "DeepSeek-R1-Distill-Qwen-7B is a model derived from Qwen2.5-Math-7B through knowledge distillation. It was fine-tuned using 800,000 carefully selected samples generated by DeepSeek-R1, demonstrating exceptional reasoning capabilities. The model achieves outstanding performance across multiple benchmarks, including 92.8% accuracy on MATH-500, a 55.5% pass rate on AIME 2024, and a score of 1189 on CodeForces, showcasing strong mathematical and programming abilities for a 7B-scale model."
217
217
  },
218
218
  "Pro/deepseek-ai/DeepSeek-V3": {
219
219
  "description": "DeepSeek-V3 is a mixed expert (MoE) language model with 671 billion parameters, utilizing multi-head latent attention (MLA) and the DeepSeekMoE architecture, combined with a load balancing strategy without auxiliary loss to optimize inference and training efficiency. Pre-trained on 14.8 trillion high-quality tokens and fine-tuned with supervision and reinforcement learning, DeepSeek-V3 outperforms other open-source models and approaches leading closed-source models."
220
220
  },
221
- "Pro/deepseek-ai/DeepSeek-V3-1226": {
222
- "description": "DeepSeek-V3 is a mixture of experts (MoE) language model with 671 billion parameters, utilizing multi-head latent attention (MLA) and the DeepSeekMoE architecture, combined with a load balancing strategy without auxiliary loss to optimize inference and training efficiency. Pre-trained on 14.8 trillion high-quality tokens and fine-tuned with supervised learning and reinforcement learning, DeepSeek-V3 outperforms other open-source models and approaches leading closed-source models in performance."
223
- },
224
221
  "QwQ-32B-Preview": {
225
222
  "description": "QwQ-32B-Preview is an innovative natural language processing model capable of efficiently handling complex dialogue generation and context understanding tasks."
226
223
  },
@@ -383,6 +380,9 @@
383
380
  "THUDM/GLM-4-9B-0414": {
384
381
  "description": "GLM-4-9B-0414 is a small model in the GLM series, with 9 billion parameters. This model inherits the technical characteristics of the GLM-4-32B series while providing a more lightweight deployment option. Despite its smaller size, GLM-4-9B-0414 still demonstrates excellent capabilities in tasks such as code generation, web design, SVG graphics generation, and search-based writing."
385
382
  },
383
+ "THUDM/GLM-4.1V-9B-Thinking": {
384
+ "description": "GLM-4.1V-9B-Thinking is an open-source vision-language model (VLM) jointly released by Zhipu AI and Tsinghua University's KEG Lab, designed specifically for handling complex multimodal cognitive tasks. Based on the GLM-4-9B-0414 foundation model, it significantly enhances cross-modal reasoning ability and stability by introducing the Chain-of-Thought reasoning mechanism and employing reinforcement learning strategies."
385
+ },
386
386
  "THUDM/GLM-Z1-32B-0414": {
387
387
  "description": "GLM-Z1-32B-0414 is a reasoning model with deep thinking capabilities. This model is developed based on GLM-4-32B-0414 through cold start and extended reinforcement learning, with further training in mathematics, coding, and logic tasks. Compared to the base model, GLM-Z1-32B-0414 significantly enhances mathematical abilities and the capacity to solve complex tasks."
388
388
  },
@@ -539,6 +539,9 @@
539
539
  "anthropic/claude-sonnet-4": {
540
540
  "description": "Claude Sonnet 4 can generate near-instant responses or extended step-by-step reasoning, allowing users to clearly observe these processes. API users also have fine-grained control over the model's thinking time."
541
541
  },
542
+ "ascend-tribe/pangu-pro-moe": {
543
+ "description": "Pangu-Pro-MoE 72B-A16B is a sparse large language model with 72 billion parameters and 16 billion activated parameters. It is based on the Group Mixture of Experts (MoGE) architecture, which groups experts during the expert selection phase and constrains tokens to activate an equal number of experts within each group, achieving expert load balancing and significantly improving deployment efficiency on the Ascend platform."
544
+ },
542
545
  "aya": {
543
546
  "description": "Aya 23 is a multilingual model launched by Cohere, supporting 23 languages, facilitating diverse language applications."
544
547
  },
@@ -548,6 +551,9 @@
548
551
  "baichuan/baichuan2-13b-chat": {
549
552
  "description": "Baichuan-13B is an open-source, commercially usable large language model developed by Baichuan Intelligence, containing 13 billion parameters, achieving the best results in its size on authoritative Chinese and English benchmarks."
550
553
  },
554
+ "baidu/ERNIE-4.5-300B-A47B": {
555
+ "description": "ERNIE-4.5-300B-A47B is a large language model developed by Baidu based on a Mixture of Experts (MoE) architecture. The model has a total of 300 billion parameters, but only activates 47 billion parameters per token during inference, balancing powerful performance with computational efficiency. As a core model in the ERNIE 4.5 series, it demonstrates outstanding capabilities in text understanding, generation, reasoning, and programming tasks. The model employs an innovative multimodal heterogeneous MoE pretraining method, jointly training text and visual modalities to effectively enhance overall capabilities, especially excelling in instruction following and world knowledge retention."
556
+ },
551
557
  "c4ai-aya-expanse-32b": {
552
558
  "description": "Aya Expanse is a high-performance 32B multilingual model designed to challenge the performance of single-language models through innovations in instruction tuning, data arbitrage, preference training, and model merging. It supports 23 languages."
553
559
  },
@@ -1097,9 +1103,6 @@
1097
1103
  "gemini-2.5-pro": {
1098
1104
  "description": "Gemini 2.5 Pro is Google's most advanced reasoning model, capable of tackling complex problems in coding, mathematics, and STEM fields, as well as analyzing large datasets, codebases, and documents using long-context processing."
1099
1105
  },
1100
- "gemini-2.5-pro-exp-03-25": {
1101
- "description": "Gemini 2.5 Pro Experimental is Google's most advanced thinking model, capable of reasoning about complex problems in code, mathematics, and STEM fields, as well as analyzing large datasets, codebases, and documents using long context."
1102
- },
1103
1106
  "gemini-2.5-pro-preview-03-25": {
1104
1107
  "description": "Gemini 2.5 Pro Preview is Google's most advanced thinking model, capable of reasoning about complex problems in code, mathematics, and STEM fields, as well as analyzing large datasets, codebases, and documents using long-context analysis."
1105
1108
  },
@@ -1166,6 +1169,12 @@
1166
1169
  "glm-4-plus": {
1167
1170
  "description": "GLM-4-Plus, as a high-intelligence flagship, possesses strong capabilities for processing long texts and complex tasks, with overall performance improvements."
1168
1171
  },
1172
+ "glm-4.1v-thinking-flash": {
1173
+ "description": "The GLM-4.1V-Thinking series represents the most powerful vision-language models known at the 10B parameter scale, integrating state-of-the-art capabilities across various vision-language tasks such as video understanding, image question answering, academic problem solving, OCR text recognition, document and chart interpretation, GUI agents, front-end web coding, and grounding. Its performance in many tasks even surpasses that of Qwen2.5-VL-72B, which has over eight times the parameters. Leveraging advanced reinforcement learning techniques, the model masters Chain-of-Thought reasoning to improve answer accuracy and richness, significantly outperforming traditional non-thinking models in final results and interpretability."
1174
+ },
1175
+ "glm-4.1v-thinking-flashx": {
1176
+ "description": "The GLM-4.1V-Thinking series represents the most powerful vision-language models known at the 10B parameter scale, integrating state-of-the-art capabilities across various vision-language tasks such as video understanding, image question answering, academic problem solving, OCR text recognition, document and chart interpretation, GUI agents, front-end web coding, and grounding. Its performance in many tasks even surpasses that of Qwen2.5-VL-72B, which has over eight times the parameters. Leveraging advanced reinforcement learning techniques, the model masters Chain-of-Thought reasoning to improve answer accuracy and richness, significantly outperforming traditional non-thinking models in final results and interpretability."
1177
+ },
1169
1178
  "glm-4v": {
1170
1179
  "description": "GLM-4V provides strong image understanding and reasoning capabilities, supporting various visual tasks."
1171
1180
  },
@@ -1187,6 +1196,9 @@
1187
1196
  "glm-z1-flash": {
1188
1197
  "description": "The GLM-Z1 series possesses strong complex reasoning capabilities, excelling in logical reasoning, mathematics, programming, and more. The maximum context length is 32K."
1189
1198
  },
1199
+ "glm-z1-flashx": {
1200
+ "description": "High speed and low cost: Flash enhanced version with ultra-fast inference speed and improved concurrency support."
1201
+ },
1190
1202
  "glm-zero-preview": {
1191
1203
  "description": "GLM-Zero-Preview possesses strong complex reasoning abilities, excelling in logical reasoning, mathematics, programming, and other fields."
1192
1204
  },
@@ -1238,6 +1250,9 @@
1238
1250
  "google/gemma-2b-it": {
1239
1251
  "description": "Gemma Instruct (2B) provides basic instruction processing capabilities, suitable for lightweight applications."
1240
1252
  },
1253
+ "google/gemma-3-1b-it": {
1254
+ "description": "Gemma 3 1B is an open-source language model from Google that sets new standards in efficiency and performance."
1255
+ },
1241
1256
  "google/gemma-3-27b-it": {
1242
1257
  "description": "Gemma 3 27B is an open-source language model from Google that sets new standards in efficiency and performance."
1243
1258
  },
@@ -1373,6 +1388,9 @@
1373
1388
  "gryphe/mythomax-l2-13b": {
1374
1389
  "description": "MythoMax l2 13B is a language model that combines creativity and intelligence by merging multiple top models."
1375
1390
  },
1391
+ "hunyuan-a13b": {
1392
+ "description": "Hunyuan's first hybrid reasoning model, an upgraded version of hunyuan-standard-256K, with a total of 80 billion parameters and 13 billion activated parameters. The default mode is slow thinking, supporting fast and slow thinking mode switching via parameters or instructions, with the switch implemented by adding 'query' prefix or 'no_think'. Overall capabilities are comprehensively improved compared to the previous generation, especially in mathematics, science, long text comprehension, and agent abilities."
1393
+ },
1376
1394
  "hunyuan-code": {
1377
1395
  "description": "The latest code generation model from Hunyuan, trained on a base model with 200B high-quality code data, iteratively trained for six months with high-quality SFT data, increasing the context window length to 8K. It ranks among the top in automatic evaluation metrics for code generation across five major programming languages, and performs in the first tier for comprehensive human quality assessments across ten aspects of coding tasks."
1378
1396
  },
@@ -1424,6 +1442,9 @@
1424
1442
  "hunyuan-t1-vision": {
1425
1443
  "description": "Hunyuan is a multimodal deep thinking model supporting native multimodal chain-of-thought reasoning, excelling in various image reasoning scenarios and significantly outperforming fast-thinking models on science problems."
1426
1444
  },
1445
+ "hunyuan-t1-vision-20250619": {
1446
+ "description": "The latest Hunyuan t1-vision multimodal deep thinking model supports native long Chain-of-Thought reasoning across modalities, comprehensively improving over the previous default version."
1447
+ },
1427
1448
  "hunyuan-turbo": {
1428
1449
  "description": "The preview version of the next-generation Hunyuan large language model, featuring a brand-new mixed expert model (MoE) structure, which offers faster inference efficiency and stronger performance compared to Hunyuan Pro."
1429
1450
  },
@@ -1454,6 +1475,12 @@
1454
1475
  "hunyuan-turbos-role-plus": {
1455
1476
  "description": "The latest Hunyuan role-playing model, officially fine-tuned and trained by Hunyuan. It is further trained on role-playing scenario datasets based on the Hunyuan model, delivering better foundational performance in role-playing contexts."
1456
1477
  },
1478
+ "hunyuan-turbos-vision": {
1479
+ "description": "This model is designed for image-text understanding scenarios and is based on Hunyuan's latest turbos architecture. It is a next-generation flagship vision-language model focusing on image-text understanding tasks, including image-based entity recognition, knowledge Q&A, copywriting, and photo-based problem solving, with comprehensive improvements over the previous generation."
1480
+ },
1481
+ "hunyuan-turbos-vision-20250619": {
1482
+ "description": "The latest Hunyuan turbos-vision flagship vision-language model offers comprehensive improvements over the previous default version in image-text understanding tasks, including image-based entity recognition, knowledge Q&A, copywriting, and photo-based problem solving."
1483
+ },
1457
1484
  "hunyuan-vision": {
1458
1485
  "description": "The latest multimodal model from Hunyuan, supporting image + text input to generate textual content."
1459
1486
  },
@@ -203,24 +203,21 @@
203
203
  "Pro/Qwen/Qwen2.5-VL-7B-Instruct": {
204
204
  "description": "Qwen2.5-VL es el nuevo miembro de la serie Qwen, con potentes capacidades de comprensión visual. Puede analizar texto, gráficos y diseños en imágenes, comprender videos largos y capturar eventos. Es capaz de razonar, manipular herramientas, admitir el posicionamiento de objetos en múltiples formatos y generar salidas estructuradas. Optimiza la resolución dinámica y la tasa de cuadros para la comprensión de videos, además de mejorar la eficiencia del codificador visual."
205
205
  },
206
+ "Pro/THUDM/GLM-4.1V-9B-Thinking": {
207
+ "description": "GLM-4.1V-9B-Thinking es un modelo de lenguaje visual (VLM) de código abierto lanzado conjuntamente por Zhipu AI y el laboratorio KEG de la Universidad de Tsinghua, diseñado específicamente para manejar tareas cognitivas multimodales complejas. Este modelo se basa en el modelo base GLM-4-9B-0414 y mejora significativamente su capacidad y estabilidad de razonamiento multimodal mediante la introducción del mecanismo de razonamiento \"Cadena de Pensamiento\" (Chain-of-Thought) y la adopción de estrategias de aprendizaje reforzado."
208
+ },
206
209
  "Pro/THUDM/glm-4-9b-chat": {
207
210
  "description": "GLM-4-9B-Chat es la versión de código abierto de la serie de modelos preentrenados GLM-4 lanzada por Zhipu AI. Este modelo destaca en semántica, matemáticas, razonamiento, código y conocimiento. Además de soportar diálogos de múltiples turnos, GLM-4-9B-Chat también cuenta con funciones avanzadas como navegación web, ejecución de código, llamadas a herramientas personalizadas (Function Call) y razonamiento de textos largos. El modelo admite 26 idiomas, incluidos chino, inglés, japonés, coreano y alemán. En múltiples pruebas de referencia, GLM-4-9B-Chat ha demostrado un rendimiento excepcional, como AlignBench-v2, MT-Bench, MMLU y C-Eval. Este modelo admite una longitud de contexto máxima de 128K, adecuado para investigación académica y aplicaciones comerciales."
208
211
  },
209
212
  "Pro/deepseek-ai/DeepSeek-R1": {
210
213
  "description": "DeepSeek-R1 es un modelo de inferencia impulsado por aprendizaje por refuerzo (RL) que aborda problemas de repetitividad y legibilidad en el modelo. Antes del RL, DeepSeek-R1 introdujo datos de arranque en frío, optimizando aún más el rendimiento de inferencia. Se desempeña de manera comparable a OpenAI-o1 en tareas matemáticas, de código e inferencia, y mejora el rendimiento general a través de métodos de entrenamiento cuidadosamente diseñados."
211
214
  },
212
- "Pro/deepseek-ai/DeepSeek-R1-0120": {
213
- "description": "DeepSeek-R1 es un modelo de razonamiento impulsado por aprendizaje reforzado (RL) que aborda problemas de repetición y legibilidad en modelos. Antes del RL, DeepSeek-R1 introdujo datos de arranque en frío para optimizar aún más el rendimiento del razonamiento. Su desempeño en matemáticas, código y tareas de razonamiento es comparable a OpenAI-o1, y mejora el rendimiento general mediante métodos de entrenamiento cuidadosamente diseñados."
214
- },
215
215
  "Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B": {
216
216
  "description": "DeepSeek-R1-Distill-Qwen-7B es un modelo obtenido mediante destilación de conocimiento basado en Qwen2.5-Math-7B. Este modelo se ha ajustado utilizando 800.000 muestras seleccionadas generadas por DeepSeek-R1, demostrando una excelente capacidad de razonamiento. Ha mostrado un rendimiento sobresaliente en múltiples pruebas de referencia, alcanzando un 92,8% de precisión en MATH-500, un 55,5% de tasa de aprobación en AIME 2024 y una puntuación de 1189 en CodeForces, lo que demuestra una fuerte capacidad matemática y de programación para un modelo de escala 7B."
217
217
  },
218
218
  "Pro/deepseek-ai/DeepSeek-V3": {
219
219
  "description": "DeepSeek-V3 es un modelo de lenguaje de expertos mixtos (MoE) con 671 mil millones de parámetros, que utiliza atención potencial de múltiples cabezas (MLA) y la arquitectura DeepSeekMoE, combinando estrategias de balanceo de carga sin pérdidas auxiliares para optimizar la eficiencia de inferencia y entrenamiento. Preentrenado en 14.8 billones de tokens de alta calidad, y ajustado mediante supervisión y aprendizaje por refuerzo, DeepSeek-V3 supera a otros modelos de código abierto y se acerca a los modelos cerrados líderes."
220
220
  },
221
- "Pro/deepseek-ai/DeepSeek-V3-1226": {
222
- "description": "DeepSeek-V3 es un modelo de lenguaje de expertos mixtos (MoE) con 671 mil millones de parámetros, que utiliza atención latente de múltiples cabezas (MLA) y la arquitectura DeepSeekMoE, combinando una estrategia de balanceo de carga sin pérdidas auxiliares para optimizar la eficiencia de inferencia y entrenamiento. Preentrenado en 14.8 billones de tokens de alta calidad y ajustado mediante supervisión y aprendizaje por refuerzo, DeepSeek-V3 supera en rendimiento a otros modelos de código abierto, acercándose a los modelos cerrados líderes."
223
- },
224
221
  "QwQ-32B-Preview": {
225
222
  "description": "QwQ-32B-Preview es un modelo de procesamiento de lenguaje natural innovador, capaz de manejar de manera eficiente tareas complejas de generación de diálogos y comprensión del contexto."
226
223
  },
@@ -383,6 +380,9 @@
383
380
  "THUDM/GLM-4-9B-0414": {
384
381
  "description": "GLM-4-9B-0414 es un modelo pequeño de la serie GLM, con 9 mil millones de parámetros. Este modelo hereda las características técnicas de la serie GLM-4-32B, pero ofrece opciones de implementación más ligeras. A pesar de su menor tamaño, GLM-4-9B-0414 sigue mostrando habilidades sobresalientes en tareas de generación de código, diseño web, generación de gráficos SVG y redacción basada en búsqueda."
385
382
  },
383
+ "THUDM/GLM-4.1V-9B-Thinking": {
384
+ "description": "GLM-4.1V-9B-Thinking es un modelo de lenguaje visual (VLM) de código abierto lanzado conjuntamente por Zhipu AI y el laboratorio KEG de la Universidad de Tsinghua, diseñado específicamente para manejar tareas cognitivas multimodales complejas. Este modelo se basa en el modelo base GLM-4-9B-0414 y mejora significativamente su capacidad y estabilidad de razonamiento multimodal mediante la introducción del mecanismo de razonamiento \"Cadena de Pensamiento\" (Chain-of-Thought) y la adopción de estrategias de aprendizaje reforzado."
385
+ },
386
386
  "THUDM/GLM-Z1-32B-0414": {
387
387
  "description": "GLM-Z1-32B-0414 es un modelo de inferencia con capacidad de pensamiento profundo. Este modelo se desarrolló a partir de GLM-4-32B-0414 mediante un arranque en frío y aprendizaje por refuerzo ampliado, y se entrenó adicionalmente en tareas de matemáticas, código y lógica. En comparación con el modelo base, GLM-Z1-32B-0414 mejora significativamente la capacidad matemática y la habilidad para resolver tareas complejas."
388
388
  },
@@ -539,6 +539,9 @@
539
539
  "anthropic/claude-sonnet-4": {
540
540
  "description": "Claude Sonnet 4 puede generar respuestas casi instantáneas o razonamientos prolongados paso a paso, que los usuarios pueden seguir claramente. Los usuarios de la API también pueden controlar con precisión el tiempo de reflexión del modelo."
541
541
  },
542
+ "ascend-tribe/pangu-pro-moe": {
543
+ "description": "Pangu-Pro-MoE 72B-A16B es un modelo de lenguaje grande disperso con 72 mil millones de parámetros y 16 mil millones de parámetros activados. Está basado en la arquitectura de expertos mixtos agrupados (MoGE), que agrupa expertos durante la selección y restringe la activación de un número igual de expertos por grupo para cada token, logrando un balance de carga entre expertos y mejorando significativamente la eficiencia de despliegue en la plataforma Ascend."
544
+ },
542
545
  "aya": {
543
546
  "description": "Aya 23 es un modelo multilingüe lanzado por Cohere, que admite 23 idiomas, facilitando aplicaciones de lenguaje diversas."
544
547
  },
@@ -548,6 +551,9 @@
548
551
  "baichuan/baichuan2-13b-chat": {
549
552
  "description": "Baichuan-13B es un modelo de lenguaje de gran escala de código abierto y comercializable desarrollado por Baichuan Intelligence, que cuenta con 13 mil millones de parámetros y ha logrado los mejores resultados en benchmarks autorizados en chino e inglés."
550
553
  },
554
+ "baidu/ERNIE-4.5-300B-A47B": {
555
+ "description": "ERNIE-4.5-300B-A47B es un modelo de lenguaje grande desarrollado por Baidu basado en la arquitectura de expertos mixtos (MoE). Cuenta con un total de 300 mil millones de parámetros, pero durante la inferencia solo activa 47 mil millones por token, equilibrando un rendimiento potente con eficiencia computacional. Como uno de los modelos centrales de la serie ERNIE 4.5, destaca en tareas de comprensión, generación, razonamiento y programación de texto. Emplea un innovador método de preentrenamiento multimodal heterogéneo MoE, que combina entrenamiento conjunto de texto y visión, mejorando la capacidad integral del modelo, especialmente en el seguimiento de instrucciones y la memoria de conocimientos del mundo."
556
+ },
551
557
  "c4ai-aya-expanse-32b": {
552
558
  "description": "Aya Expanse es un modelo multilingüe de alto rendimiento de 32B, diseñado para desafiar el rendimiento de los modelos monolingües a través de innovaciones en ajuste por instrucciones, arbitraje de datos, entrenamiento de preferencias y fusión de modelos. Soporta 23 idiomas."
553
559
  },
@@ -1097,9 +1103,6 @@
1097
1103
  "gemini-2.5-pro": {
1098
1104
  "description": "Gemini 2.5 Pro es el modelo de pensamiento más avanzado de Google, capaz de razonar sobre problemas complejos en código, matemáticas y áreas STEM, así como de analizar grandes conjuntos de datos, bases de código y documentos utilizando contextos largos."
1099
1105
  },
1100
- "gemini-2.5-pro-exp-03-25": {
1101
- "description": "Gemini 2.5 Pro Experimental es el modelo de pensamiento más avanzado de Google, capaz de razonar sobre problemas complejos en código, matemáticas y campos STEM, además de utilizar contextos largos para analizar grandes conjuntos de datos, bibliotecas de código y documentos."
1102
- },
1103
1106
  "gemini-2.5-pro-preview-03-25": {
1104
1107
  "description": "Gemini 2.5 Pro Preview es el modelo de pensamiento más avanzado de Google, capaz de razonar sobre problemas complejos en código, matemáticas y campos STEM, así como de analizar grandes conjuntos de datos, bibliotecas de código y documentos utilizando un contexto largo."
1105
1108
  },
@@ -1166,6 +1169,12 @@
1166
1169
  "glm-4-plus": {
1167
1170
  "description": "GLM-4-Plus, como buque insignia de alta inteligencia, tiene una poderosa capacidad para manejar textos largos y tareas complejas, con un rendimiento mejorado en general."
1168
1171
  },
1172
+ "glm-4.1v-thinking-flash": {
1173
+ "description": "La serie GLM-4.1V-Thinking es el modelo visual más potente conocido en la categoría de VLMs de 10 mil millones de parámetros, integrando tareas de lenguaje visual de última generación (SOTA) en su nivel, incluyendo comprensión de video, preguntas sobre imágenes, resolución de problemas académicos, reconocimiento OCR, interpretación de documentos y gráficos, agentes GUI, codificación web frontend, grounding, entre otros. En muchas tareas, supera incluso a modelos con 8 veces más parámetros como Qwen2.5-VL-72B. Gracias a técnicas avanzadas de aprendizaje reforzado, el modelo domina el razonamiento mediante cadenas de pensamiento para mejorar la precisión y riqueza de las respuestas, superando significativamente a los modelos tradicionales sin pensamiento en términos de resultados y explicabilidad."
1174
+ },
1175
+ "glm-4.1v-thinking-flashx": {
1176
+ "description": "La serie GLM-4.1V-Thinking es el modelo visual más potente conocido en la categoría de VLMs de 10 mil millones de parámetros, integrando tareas de lenguaje visual de última generación (SOTA) en su nivel, incluyendo comprensión de video, preguntas sobre imágenes, resolución de problemas académicos, reconocimiento OCR, interpretación de documentos y gráficos, agentes GUI, codificación web frontend, grounding, entre otros. En muchas tareas, supera incluso a modelos con 8 veces más parámetros como Qwen2.5-VL-72B. Gracias a técnicas avanzadas de aprendizaje reforzado, el modelo domina el razonamiento mediante cadenas de pensamiento para mejorar la precisión y riqueza de las respuestas, superando significativamente a los modelos tradicionales sin pensamiento en términos de resultados y explicabilidad."
1177
+ },
1169
1178
  "glm-4v": {
1170
1179
  "description": "GLM-4V proporciona una poderosa capacidad de comprensión e inferencia de imágenes, soportando diversas tareas visuales."
1171
1180
  },
@@ -1187,6 +1196,9 @@
1187
1196
  "glm-z1-flash": {
1188
1197
  "description": "La serie GLM-Z1 posee una poderosa capacidad de razonamiento complejo, destacando en áreas como razonamiento lógico, matemáticas y programación. La longitud máxima del contexto es de 32K."
1189
1198
  },
1199
+ "glm-z1-flashx": {
1200
+ "description": "Alta velocidad y bajo costo: versión mejorada Flash, con velocidad de inferencia ultrarrápida y mejor garantía de concurrencia."
1201
+ },
1190
1202
  "glm-zero-preview": {
1191
1203
  "description": "GLM-Zero-Preview posee una poderosa capacidad de razonamiento complejo, destacándose en áreas como razonamiento lógico, matemáticas y programación."
1192
1204
  },
@@ -1238,6 +1250,9 @@
1238
1250
  "google/gemma-2b-it": {
1239
1251
  "description": "Gemma Instruct (2B) ofrece capacidades básicas de procesamiento de instrucciones, adecuado para aplicaciones ligeras."
1240
1252
  },
1253
+ "google/gemma-3-1b-it": {
1254
+ "description": "Gemma 3 1B es un modelo de lenguaje de código abierto de Google que establece nuevos estándares en eficiencia y rendimiento."
1255
+ },
1241
1256
  "google/gemma-3-27b-it": {
1242
1257
  "description": "Gemma 3 27B es un modelo de lenguaje de código abierto de Google, que establece nuevos estándares en eficiencia y rendimiento."
1243
1258
  },
@@ -1373,6 +1388,9 @@
1373
1388
  "gryphe/mythomax-l2-13b": {
1374
1389
  "description": "MythoMax l2 13B es un modelo de lenguaje que combina creatividad e inteligencia, fusionando múltiples modelos de vanguardia."
1375
1390
  },
1391
+ "hunyuan-a13b": {
1392
+ "description": "El primer modelo de razonamiento híbrido de Hunyuan, una versión mejorada de hunyuan-standard-256K, con un total de 80 mil millones de parámetros y 13 mil millones activados. Por defecto opera en modo de pensamiento lento, pero soporta cambio entre modos rápido y lento mediante parámetros o instrucciones, añadiendo / no_think antes de la consulta para alternar. Su capacidad general mejora integralmente respecto a la generación anterior, con avances notables en matemáticas, ciencias, comprensión de textos largos y habilidades de agente."
1393
+ },
1376
1394
  "hunyuan-code": {
1377
1395
  "description": "El último modelo de generación de código de Hunyuan, entrenado con 200B de datos de código de alta calidad, con medio año de entrenamiento de datos SFT de alta calidad, aumentando la longitud de la ventana de contexto a 8K, destacándose en métricas automáticas de generación de código en cinco lenguajes; en evaluaciones de calidad humana de tareas de código en diez aspectos en cinco lenguajes, su rendimiento se encuentra en la primera categoría."
1378
1396
  },
@@ -1424,6 +1442,9 @@
1424
1442
  "hunyuan-t1-vision": {
1425
1443
  "description": "Modelo de pensamiento profundo multimodal Hunyuan, que soporta cadenas de pensamiento nativas multimodales, sobresale en diversos escenarios de razonamiento con imágenes y mejora significativamente en problemas científicos en comparación con modelos de pensamiento rápido."
1426
1444
  },
1445
+ "hunyuan-t1-vision-20250619": {
1446
+ "description": "La última versión del modelo de pensamiento profundo multimodal t1-vision de Hunyuan, que soporta cadenas de pensamiento nativas multimodales, con mejoras integrales respecto a la versión predeterminada anterior."
1447
+ },
1427
1448
  "hunyuan-turbo": {
1428
1449
  "description": "Versión preliminar de la nueva generación del modelo de lenguaje de Hunyuan, que utiliza una nueva estructura de modelo de expertos mixtos (MoE), con una eficiencia de inferencia más rápida y un rendimiento más fuerte en comparación con Hunyuan-Pro."
1429
1450
  },
@@ -1454,6 +1475,12 @@
1454
1475
  "hunyuan-turbos-role-plus": {
1455
1476
  "description": "Modelo de rol más reciente de Hunyuan, afinado oficialmente por Hunyuan, entrenado adicionalmente con conjuntos de datos de escenarios de juego de roles, ofreciendo mejores resultados básicos en dichos escenarios."
1456
1477
  },
1478
+ "hunyuan-turbos-vision": {
1479
+ "description": "Este modelo está diseñado para escenarios de comprensión de imágenes y texto, basado en la última generación de modelos insignia visual-lingüísticos turbos de Hunyuan. Se enfoca en tareas relacionadas con la comprensión de imágenes, incluyendo reconocimiento de entidades basado en imágenes, preguntas de conocimiento, creación de textos y resolución de problemas mediante fotos, con mejoras integrales respecto a la generación anterior."
1480
+ },
1481
+ "hunyuan-turbos-vision-20250619": {
1482
+ "description": "La última versión del modelo insignia visual-lingüístico turbos-vision de Hunyuan, que mejora integralmente la comprensión de imágenes y texto, incluyendo reconocimiento de entidades basado en imágenes, preguntas de conocimiento, creación de textos y resolución de problemas mediante fotos, respecto a la versión predeterminada anterior."
1483
+ },
1457
1484
  "hunyuan-vision": {
1458
1485
  "description": "El último modelo multimodal de Hunyuan, que admite la entrada de imágenes y texto para generar contenido textual."
1459
1486
  },
@@ -203,24 +203,21 @@
203
203
  "Pro/Qwen/Qwen2.5-VL-7B-Instruct": {
204
204
  "description": "Qwen2.5-VL عضو جدید سری Qwen است که توانایی قدرتمند درک بصری دارد. این مدل می‌تواند متن، نمودارها و طرح‌بندی‌های درون تصاویر را تحلیل کند و همچنین قادر به درک ویدیوهای بلند و گرفتن رویدادهاست. این مدل می‌تواند استدلال کند، ابزارها را عملیاتی کند، و از چندین فرمت برای تعیین موقعیت اشیا و تولید خروجی ساختاری پشتیبانی می‌کند. همچنین، آن از رزولوشن و نرخ فریم پویا برای درک ویدیو بهینه‌سازی شده است و کارایی کدگذار بصری آن نیز افزایش یافته است."
205
205
  },
206
+ "Pro/THUDM/GLM-4.1V-9B-Thinking": {
207
+ "description": "GLM-4.1V-9B-Thinking یک مدل زبان تصویری متن‌باز (VLM) است که به‌طور مشترک توسط Zhizhu AI و آزمایشگاه KEG دانشگاه تسینگ‌هوا منتشر شده است و به‌طور خاص برای پردازش وظایف شناختی چندرسانه‌ای پیچیده طراحی شده است. این مدل بر اساس مدل پایه GLM-4-9B-0414 ساخته شده و با معرفی مکانیزم استدلال «زنجیره تفکر» (Chain-of-Thought) و استفاده از استراتژی یادگیری تقویتی، به‌طور قابل توجهی توانایی استدلال چندرسانه‌ای و پایداری آن را بهبود بخشیده است."
208
+ },
206
209
  "Pro/THUDM/glm-4-9b-chat": {
207
210
  "description": "GLM-4-9B-Chat نسخه متن باز از مدل‌های پیش‌آموزش شده سری GLM-4 است که توسط AI Zhizhu ارائه شده است. این مدل در زمینه‌های معنایی، ریاضی، استدلال، کد و دانش عملکرد عالی دارد. علاوه بر پشتیبانی از گفتگوی چند دور، GLM-4-9B-Chat همچنین دارای قابلیت‌های پیشرفته‌ای مانند مرور وب، اجرای کد، فراخوانی ابزارهای سفارشی (Function Call) و استدلال متن طولانی است. این مدل از 26 زبان پشتیبانی می‌کند، از جمله چینی، انگلیسی، ژاپنی، کره‌ای و آلمانی. در چندین آزمون معیار، GLM-4-9B-Chat عملکرد عالی نشان داده است، مانند AlignBench-v2، MT-Bench، MMLU و C-Eval. این مدل از حداکثر طول زمینه 128K پشتیبانی می‌کند و برای تحقیقات علمی و کاربردهای تجاری مناسب است."
208
211
  },
209
212
  "Pro/deepseek-ai/DeepSeek-R1": {
210
213
  "description": "DeepSeek-R1 یک مدل استنتاجی مبتنی بر یادگیری تقویتی (RL) است که مشکلات تکرار و خوانایی را در مدل حل می‌کند. قبل از RL، DeepSeek-R1 داده‌های شروع سرد را معرفی کرده و عملکرد استنتاج را بهینه‌سازی کرده است. این مدل در وظایف ریاضی، کد و استنتاج با OpenAI-o1 عملکرد مشابهی دارد و از طریق روش‌های آموزشی به دقت طراحی شده، عملکرد کلی را بهبود می‌بخشد."
211
214
  },
212
- "Pro/deepseek-ai/DeepSeek-R1-0120": {
213
- "description": "DeepSeek-R1 مدلی استدلالی مبتنی بر یادگیری تقویتی (RL) که مشکلات تکراری بودن و خوانایی مدل را حل کرده است. پیش از RL، DeepSeek-R1 داده‌های شروع سرد را معرفی کرد تا عملکرد استدلال را بهبود بخشد. این مدل در ریاضیات، کد نویسی و وظایف استدلال عملکردی مشابه OpenAI-o1 دارد و با روش‌های آموزشی دقیق، اثر کلی را ارتقاء داده است."
214
- },
215
215
  "Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B": {
216
216
  "description": "DeepSeek-R1-Distill-Qwen-7B مدلی است که بر اساس Qwen2.5-Math-7B از طریق دستیابی به دانش (Knowledge Distillation) ساخته شده است. این مدل با استفاده از 800,000 نمونه انتخابی تولید شده توسط DeepSeek-R1 آموزش داده شده و توانایی استنتاج ممتازی نشان می‌دهد. این مدل در چندین تست استاندارد عملکرد خوبی داشته است، از جمله دقت 92.8٪ در MATH-500، نرخ موفقیت 55.5٪ در AIME 2024 و نمره 1189 در CodeForces، که نشان‌دهنده توانایی‌های قوی ریاضی و برنامه‌نویسی برای یک مدل با حجم 7B است."
217
217
  },
218
218
  "Pro/deepseek-ai/DeepSeek-V3": {
219
219
  "description": "DeepSeek-V3 یک مدل زبان با 671 میلیارد پارامتر است که از معماری متخصصان ترکیبی (MoE) و توجه چندسر (MLA) استفاده می‌کند و با استراتژی تعادل بار بدون ضرر کمکی بهینه‌سازی کارایی استنتاج و آموزش را انجام می‌دهد. این مدل با پیش‌آموزش بر روی 14.8 تریلیون توکن با کیفیت بالا و انجام تنظیم دقیق نظارتی و یادگیری تقویتی، در عملکرد از سایر مدل‌های متن‌باز پیشی می‌گیرد و به مدل‌های بسته پیشرو نزدیک می‌شود."
220
220
  },
221
- "Pro/deepseek-ai/DeepSeek-V3-1226": {
222
- "description": "DeepSeek-V3 یک مدل زبانی با ۶۷۱۰ میلیارد پارامتر و از نوع متخصص مختلط (MoE) است که از توجه چندسر (MLA) و معماری DeepSeekMoE استفاده می‌کند و با ترکیب استراتژی تعادل بار بدون ضرر کمکی، کارایی استنتاج و آموزش را بهینه می‌سازد. با پیش‌آموزش بر روی ۱۴.۸ تریلیون توکن با کیفیت بالا و انجام تنظیم دقیق نظارتی و یادگیری تقویتی، DeepSeek-V3 در عملکرد از سایر مدل‌های متن‌باز پیشی می‌گیرد و به مدل‌های بسته پیشرو نزدیک می‌شود."
223
- },
224
221
  "QwQ-32B-Preview": {
225
222
  "description": "QwQ-32B-Preview یک مدل پردازش زبان طبیعی نوآورانه است که قادر به پردازش کارآمد مکالمات پیچیده و درک زمینه است."
226
223
  },
@@ -383,6 +380,9 @@
383
380
  "THUDM/GLM-4-9B-0414": {
384
381
  "description": "GLM-4-9B-0414 یک مدل کوچک از سری GLM است که دارای 90 میلیارد پارامتر است. این مدل ویژگی‌های فنی سری GLM-4-32B را به ارث می‌برد، اما گزینه‌های استقرار سبک‌تری را ارائه می‌دهد. با وجود اندازه کوچک، GLM-4-9B-0414 در تولید کد، طراحی وب، تولید گرافیک SVG و نوشتن مبتنی بر جستجو عملکرد فوق‌العاده‌ای دارد."
385
382
  },
383
+ "THUDM/GLM-4.1V-9B-Thinking": {
384
+ "description": "GLM-4.1V-9B-Thinking یک مدل زبان تصویری متن‌باز (VLM) است که به‌طور مشترک توسط Zhizhu AI و آزمایشگاه KEG دانشگاه تسینگ‌هوا منتشر شده است و به‌طور خاص برای پردازش وظایف شناختی چندرسانه‌ای پیچیده طراحی شده است. این مدل بر اساس مدل پایه GLM-4-9B-0414 ساخته شده و با معرفی مکانیزم استدلال «زنجیره تفکر» (Chain-of-Thought) و استفاده از استراتژی یادگیری تقویتی، به‌طور قابل توجهی توانایی استدلال چندرسانه‌ای و پایداری آن را بهبود بخشیده است."
385
+ },
386
386
  "THUDM/GLM-Z1-32B-0414": {
387
387
  "description": "GLM-Z1-32B-0414 یک مدل استدلال با توانایی تفکر عمیق است. این مدل بر اساس GLM-4-32B-0414 از طریق راه‌اندازی سرد و یادگیری تقویتی توسعه یافته و در وظایف ریاضی، کدنویسی و منطقی آموزش بیشتری دیده است. نسبت به مدل پایه، GLM-Z1-32B-0414 توانایی‌های ریاضی و حل مسائل پیچیده را به‌طور قابل توجهی افزایش داده است."
388
388
  },
@@ -539,6 +539,9 @@
539
539
  "anthropic/claude-sonnet-4": {
540
540
  "description": "Claude Sonnet 4 می‌تواند پاسخ‌های تقریباً فوری یا تفکر گام به گام طولانی‌مدت تولید کند که کاربران می‌توانند این فرآیندها را به وضوح مشاهده کنند. کاربران API همچنین می‌توانند زمان تفکر مدل را به دقت کنترل کنند."
541
541
  },
542
+ "ascend-tribe/pangu-pro-moe": {
543
+ "description": "Pangu-Pro-MoE 72B-A16B یک مدل زبان بزرگ پراکنده با 72 میلیارد پارامتر و 16 میلیارد پارامتر فعال است که بر اساس معماری متخصصان ترکیبی گروه‌بندی شده (MoGE) ساخته شده است. در مرحله انتخاب متخصص، متخصصان به گروه‌هایی تقسیم می‌شوند و توکن‌ها در هر گروه به تعداد مساوی متخصصان فعال می‌شوند تا تعادل بار متخصصان حفظ شود، که به طور قابل توجهی کارایی استقرار مدل را در پلتفرم Ascend افزایش می‌دهد."
544
+ },
542
545
  "aya": {
543
546
  "description": "Aya 23 یک مدل چندزبانه است که توسط Cohere ارائه شده و از 23 زبان پشتیبانی می‌کند و برای برنامه‌های چندزبانه تسهیلات فراهم می‌آورد."
544
547
  },
@@ -548,6 +551,9 @@
548
551
  "baichuan/baichuan2-13b-chat": {
549
552
  "description": "Baichuan-13B یک مدل زبان بزرگ متن باز و قابل تجاری با 130 میلیارد پارامتر است که در آزمون‌های معتبر چینی و انگلیسی بهترین عملکرد را در اندازه مشابه به دست آورده است."
550
553
  },
554
+ "baidu/ERNIE-4.5-300B-A47B": {
555
+ "description": "ERNIE-4.5-300B-A47B یک مدل زبان بزرگ مبتنی بر معماری متخصصان ترکیبی (MoE) است که توسط شرکت بایدو توسعه یافته است. این مدل دارای 300 میلیارد پارامتر کل است، اما در زمان استنتاج تنها 47 میلیارد پارامتر برای هر توکن فعال می‌شود، که ضمن حفظ عملکرد قدرتمند، کارایی محاسباتی را نیز تضمین می‌کند. به عنوان یکی از مدل‌های اصلی سری ERNIE 4.5، این مدل در وظایف درک متن، تولید، استدلال و برنامه‌نویسی عملکرد برجسته‌ای دارد. این مدل از یک روش پیش‌آموزش نوآورانه چندرسانه‌ای ناهمگن MoE استفاده می‌کند که با آموزش مشترک متن و مدیا تصویری، توانایی کلی مدل را بهبود می‌بخشد، به‌ویژه در زمینه پیروی از دستورالعمل‌ها و حافظه دانش جهانی."
556
+ },
551
557
  "c4ai-aya-expanse-32b": {
552
558
  "description": "Aya Expanse یک مدل چندزبانه با عملکرد بالا و 32B است که با هدف به چالش کشیدن عملکرد مدل‌های تک‌زبانه از طریق بهینه‌سازی دستور، آربیتراژ داده‌ها، آموزش ترجیحات و نوآوری در ادغام مدل‌ها طراحی شده است. این مدل از 23 زبان پشتیبانی می‌کند."
553
559
  },
@@ -1097,9 +1103,6 @@
1097
1103
  "gemini-2.5-pro": {
1098
1104
  "description": "Gemini 2.5 Pro پیشرفته‌ترین مدل تفکر گوگل است که قادر به استنتاج مسائل پیچیده در حوزه کد، ریاضیات و STEM بوده و با استفاده از زمینه طولانی، تحلیل مجموعه داده‌ها، کدها و مستندات بزرگ را انجام می‌دهد."
1099
1105
  },
1100
- "gemini-2.5-pro-exp-03-25": {
1101
- "description": "Gemini 2.5 Pro Experimental پیشرفته‌ترین مدل تفکر گوگل است که قادر به استدلال در مورد مسائل پیچیده در زمینه‌های کد، ریاضیات و STEM می‌باشد و همچنین می‌تواند با استفاده از زمینه‌های طولانی، مجموعه‌های داده بزرگ، کتابخانه‌های کد و مستندات را تحلیل کند."
1102
- },
1103
1106
  "gemini-2.5-pro-preview-03-25": {
1104
1107
  "description": "پیش‌نمایش Gemini 2.5 Pro مدل پیشرفته تفکر گوگل است که قادر به استدلال در مورد کد، ریاضیات و مسائل پیچیده در زمینه STEM می‌باشد و همچنین می‌تواند با استفاده از تحلیل زمینه‌ای طولانی، مجموعه‌های داده بزرگ، کتابخانه‌های کد و مستندات را بررسی کند."
1105
1108
  },
@@ -1166,6 +1169,12 @@
1166
1169
  "glm-4-plus": {
1167
1170
  "description": "GLM-4-Plus به عنوان پرچمدار هوشمند پیشرفته، دارای توانایی پردازش متون طولانی و وظایف پیچیده است و عملکرد آن به طور کامل بهبود یافته است."
1168
1171
  },
1172
+ "glm-4.1v-thinking-flash": {
1173
+ "description": "سری مدل‌های GLM-4.1V-Thinking قوی‌ترین مدل‌های زبان تصویری (VLM) در سطح 10 میلیارد پارامتر شناخته شده تا کنون هستند که وظایف زبان تصویری پیشرفته هم‌رده SOTA را شامل می‌شوند، از جمله درک ویدئو، پرسش و پاسخ تصویری، حل مسائل علمی، شناسایی متن OCR، تفسیر اسناد و نمودارها، عامل‌های رابط کاربری گرافیکی، کدنویسی صفحات وب فرانت‌اند، و گراندینگ. توانایی‌های این مدل‌ها حتی از مدل Qwen2.5-VL-72B با 8 برابر پارامتر بیشتر نیز فراتر رفته است. با استفاده از فناوری پیشرفته یادگیری تقویتی، مدل توانسته است با استدلال زنجیره تفکر دقت و غنای پاسخ‌ها را افزایش دهد و از نظر نتایج نهایی و قابلیت تبیین به طور قابل توجهی از مدل‌های غیرتفکری سنتی پیشی بگیرد."
1174
+ },
1175
+ "glm-4.1v-thinking-flashx": {
1176
+ "description": "سری مدل‌های GLM-4.1V-Thinking قوی‌ترین مدل‌های زبان تصویری (VLM) در سطح 10 میلیارد پارامتر شناخته شده تا کنون هستند که وظایف زبان تصویری پیشرفته هم‌رده SOTA را شامل می‌شوند، از جمله درک ویدئو، پرسش و پاسخ تصویری، حل مسائل علمی، شناسایی متن OCR، تفسیر اسناد و نمودارها، عامل‌های رابط کاربری گرافیکی، کدنویسی صفحات وب فرانت‌اند، و گراندینگ. توانایی‌های این مدل‌ها حتی از مدل Qwen2.5-VL-72B با 8 برابر پارامتر بیشتر نیز فراتر رفته است. با استفاده از فناوری پیشرفته یادگیری تقویتی، مدل توانسته است با استدلال زنجیره تفکر دقت و غنای پاسخ‌ها را افزایش دهد و از نظر نتایج نهایی و قابلیت تبیین به طور قابل توجهی از مدل‌های غیرتفکری سنتی پیشی بگیرد."
1177
+ },
1169
1178
  "glm-4v": {
1170
1179
  "description": "GLM-4V قابلیت‌های قدرتمندی در درک و استدلال تصویری ارائه می‌دهد و از وظایف مختلف بصری پشتیبانی می‌کند."
1171
1180
  },
@@ -1187,6 +1196,9 @@
1187
1196
  "glm-z1-flash": {
1188
1197
  "description": "سری GLM-Z1 دارای توانایی‌های پیچیده استدلال قوی است و در زمینه‌های استدلال منطقی، ریاضی و برنامه‌نویسی عملکرد فوق‌العاده‌ای دارد. حداکثر طول متن زمینه‌ای 32K است."
1189
1198
  },
1199
+ "glm-z1-flashx": {
1200
+ "description": "سرعت بالا و قیمت پایین: نسخه تقویت‌شده Flash با سرعت استنتاج بسیار سریع‌تر و تضمین همزمانی بالاتر."
1201
+ },
1190
1202
  "glm-zero-preview": {
1191
1203
  "description": "GLM-Zero-Preview دارای توانایی‌های پیچیده استدلال است و در زمینه‌های استدلال منطقی، ریاضیات، برنامه‌نویسی و غیره عملکرد عالی دارد."
1192
1204
  },
@@ -1238,6 +1250,9 @@
1238
1250
  "google/gemma-2b-it": {
1239
1251
  "description": "Gemma Instruct (2B) توانایی پردازش دستورات پایه را فراهم می‌کند و برای برنامه‌های سبک مناسب است."
1240
1252
  },
1253
+ "google/gemma-3-1b-it": {
1254
+ "description": "Gemma 3 1B یک مدل زبان متن‌باز از گوگل است که استانداردهای جدیدی در کارایی و عملکرد ایجاد کرده است."
1255
+ },
1241
1256
  "google/gemma-3-27b-it": {
1242
1257
  "description": "Gemma 3 27B یک مدل زبان متن باز از گوگل است که استانداردهای جدیدی را در زمینه کارایی و عملکرد تعیین کرده است."
1243
1258
  },
@@ -1373,6 +1388,9 @@
1373
1388
  "gryphe/mythomax-l2-13b": {
1374
1389
  "description": "MythoMax l2 13B یک مدل زبانی است که خلاقیت و هوش را با ترکیب چندین مدل برتر به هم پیوند می‌دهد."
1375
1390
  },
1391
+ "hunyuan-a13b": {
1392
+ "description": "اولین مدل استدلال ترکیبی Hunyuan، نسخه ارتقا یافته hunyuan-standard-256K با 80 میلیارد پارامتر کل و 13 میلیارد پارامتر فعال است. حالت پیش‌فرض آن حالت تفکر کند است و از طریق پارامتر یا دستور می‌توان بین حالت‌های تفکر سریع و کند جابجا شد؛ روش جابجایی با افزودن /no_think قبل از پرسش انجام می‌شود. توانایی کلی نسبت به نسل قبلی بهبود یافته است، به‌ویژه در ریاضیات، علوم، درک متون بلند و قابلیت‌های عامل."
1393
+ },
1376
1394
  "hunyuan-code": {
1377
1395
  "description": "مدل تولید کد جدید Hunyuan، که با استفاده از 200 میلیارد داده کد با کیفیت بالا آموزش داده شده است. این مدل پایه پس از شش ماه آموزش با داده‌های SFT با کیفیت بالا به‌روزرسانی شده است. طول پنجره متن به ۸ هزار کاراکتر افزایش یافته و در شاخص‌های ارزیابی خودکار تولید کد در پنج زبان اصلی در رتبه‌های برتر قرار دارد. در ارزیابی‌های دستی با کیفیت بالا برای ۱۰ معیار مختلف در پنج زبان اصلی، عملکرد این مدل در رده اول قرار دارد."
1378
1396
  },
@@ -1424,6 +1442,9 @@
1424
1442
  "hunyuan-t1-vision": {
1425
1443
  "description": "مدل تفکر عمیق چندرسانه‌ای Hunyuan که از زنجیره تفکر بلند بومی چندرسانه‌ای پشتیبانی می‌کند، در پردازش انواع سناریوهای استدلال تصویری مهارت دارد و در مسائل علمی نسبت به مدل تفکر سریع بهبود قابل توجهی دارد."
1426
1444
  },
1445
+ "hunyuan-t1-vision-20250619": {
1446
+ "description": "جدیدترین مدل تفکر عمیق چندرسانه‌ای t1-vision از Hunyuan که از زنجیره تفکر بلند چندرسانه‌ای بومی پشتیبانی می‌کند و نسبت به نسخه پیش‌فرض نسل قبلی به طور کامل بهبود یافته است."
1447
+ },
1427
1448
  "hunyuan-turbo": {
1428
1449
  "description": "نسخه پیش‌نمایش مدل زبان بزرگ نسل جدید HunYuan که از ساختار مدل متخصص ترکیبی (MoE) جدید استفاده می‌کند. در مقایسه با hunyuan-pro، کارایی استنتاج سریع‌تر و عملکرد بهتری دارد."
1429
1450
  },
@@ -1454,6 +1475,12 @@
1454
1475
  "hunyuan-turbos-role-plus": {
1455
1476
  "description": "جدیدترین مدل نقش‌آفرینی Hunyuan، مدل نقش‌آفرینی تنظیم‌شده رسمی Hunyuan است که بر اساس مدل Hunyuan و داده‌های سناریوی نقش‌آفرینی آموزش افزایشی دیده است و در سناریوهای نقش‌آفرینی عملکرد پایه بهتری دارد."
1456
1477
  },
1478
+ "hunyuan-turbos-vision": {
1479
+ "description": "این مدل برای سناریوهای درک تصویر و متن مناسب است و بر اساس جدیدترین مدل turbos از Hunyuan ساخته شده است. این مدل پرچمدار زبان تصویری نسل جدید است که بر وظایف مرتبط با درک تصویر و متن تمرکز دارد، از جمله شناسایی موجودیت‌های مبتنی بر تصویر، پرسش و پاسخ دانش، خلق متن تبلیغاتی و حل مسائل با عکس‌برداری. نسبت به نسل قبلی به طور کامل بهبود یافته است."
1480
+ },
1481
+ "hunyuan-turbos-vision-20250619": {
1482
+ "description": "جدیدترین مدل پرچمدار زبان تصویری turbos-vision از Hunyuan که در وظایف مرتبط با درک تصویر و متن، از جمله شناسایی موجودیت‌های مبتنی بر تصویر، پرسش و پاسخ دانش، خلق متن تبلیغاتی و حل مسائل با عکس‌برداری، نسبت به نسخه پیش‌فرض نسل قبلی به طور کامل بهبود یافته است."
1483
+ },
1457
1484
  "hunyuan-vision": {
1458
1485
  "description": "جدیدترین مدل چندوجهی هون‌یوان، پشتیبانی از ورودی تصویر + متن برای تولید محتوای متنی."
1459
1486
  },
@@ -203,24 +203,21 @@
203
203
  "Pro/Qwen/Qwen2.5-VL-7B-Instruct": {
204
204
  "description": "Qwen2.5-VL est le nouveau membre de la série Qwen, doté de puissantes capacités de compréhension visuelle. Il peut analyser le texte, les graphiques et la mise en page dans les images, comprendre les vidéos longues et capturer des événements. Il est capable de raisonner, d'utiliser des outils, de prendre en charge le positionnement d'objets multiformats et de générer des sorties structurées. Il optimise la résolution dynamique et la fréquence d'images pour la compréhension vidéo, et améliore l'efficacité de l'encodeur visuel."
205
205
  },
206
+ "Pro/THUDM/GLM-4.1V-9B-Thinking": {
207
+ "description": "GLM-4.1V-9B-Thinking est un modèle de langage visuel open source (VLM) publié conjointement par Zhipu AI et le laboratoire KEG de l'Université Tsinghua, conçu pour traiter des tâches cognitives multimodales complexes. Ce modèle est basé sur le modèle de base GLM-4-9B-0414 et intègre un mécanisme de raisonnement « chaîne de pensée » (Chain-of-Thought) ainsi qu'une stratégie d'apprentissage par renforcement, améliorant significativement ses capacités de raisonnement intermodal et sa stabilité."
208
+ },
206
209
  "Pro/THUDM/glm-4-9b-chat": {
207
210
  "description": "GLM-4-9B-Chat est la version open source de la série de modèles pré-entraînés GLM-4 lancée par Zhipu AI. Ce modèle excelle dans plusieurs domaines tels que la sémantique, les mathématiques, le raisonnement, le code et les connaissances. En plus de prendre en charge des dialogues multi-tours, GLM-4-9B-Chat dispose également de fonctionnalités avancées telles que la navigation sur le web, l'exécution de code, l'appel d'outils personnalisés (Function Call) et le raisonnement sur de longs textes. Le modèle prend en charge 26 langues, y compris le chinois, l'anglais, le japonais, le coréen et l'allemand. Dans plusieurs tests de référence, GLM-4-9B-Chat a montré d'excellentes performances, comme AlignBench-v2, MT-Bench, MMLU et C-Eval. Ce modèle prend en charge une longueur de contexte maximale de 128K, adapté à la recherche académique et aux applications commerciales."
208
211
  },
209
212
  "Pro/deepseek-ai/DeepSeek-R1": {
210
213
  "description": "DeepSeek-R1 est un modèle d'inférence piloté par l'apprentissage par renforcement (RL), qui résout les problèmes de répétition et de lisibilité dans le modèle. Avant le RL, DeepSeek-R1 a introduit des données de démarrage à froid, optimisant encore les performances d'inférence. Il se compare à OpenAI-o1 dans les tâches mathématiques, de code et d'inférence, et améliore l'ensemble des performances grâce à des méthodes d'entraînement soigneusement conçues."
211
214
  },
212
- "Pro/deepseek-ai/DeepSeek-R1-0120": {
213
- "description": "DeepSeek-R1 est un modèle de raisonnement piloté par apprentissage par renforcement (RL), résolvant les problèmes de répétitivité et de lisibilité dans les modèles. Avant le RL, DeepSeek-R1 a introduit des données de démarrage à froid pour optimiser davantage les performances de raisonnement. Il offre des performances comparables à OpenAI-o1 en mathématiques, code et tâches de raisonnement, avec une amélioration globale grâce à une méthode d’entraînement soigneusement conçue."
214
- },
215
215
  "Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B": {
216
216
  "description": "DeepSeek-R1-Distill-Qwen-7B est un modèle obtenu par distillation de connaissances à partir de Qwen2.5-Math-7B. Ce modèle a été affiné à l'aide de 800 000 échantillons sélectionnés générés par DeepSeek-R1, démontrant d'excellentes capacités de raisonnement. Il obtient des performances remarquables dans plusieurs benchmarks, atteignant une précision de 92,8 % sur MATH-500, un taux de réussite de 55,5 % sur AIME 2024 et un score de 1189 sur CodeForces, montrant ainsi de solides compétences en mathématiques et en programmation pour un modèle de taille 7B."
217
217
  },
218
218
  "Pro/deepseek-ai/DeepSeek-V3": {
219
219
  "description": "DeepSeek-V3 est un modèle de langage à experts mixtes (MoE) avec 671 milliards de paramètres, utilisant une attention potentielle multi-tête (MLA) et une architecture DeepSeekMoE, combinant une stratégie d'équilibrage de charge sans perte auxiliaire pour optimiser l'efficacité d'inférence et d'entraînement. Pré-entraîné sur 14,8 billions de tokens de haute qualité, et affiné par supervision et apprentissage par renforcement, DeepSeek-V3 surpasse d'autres modèles open source et se rapproche des modèles fermés de premier plan."
220
220
  },
221
- "Pro/deepseek-ai/DeepSeek-V3-1226": {
222
- "description": "DeepSeek-V3 est un modèle de langage hybride d'experts (MoE) avec 6710 milliards de paramètres, utilisant une attention latente multi-têtes (MLA) et l'architecture DeepSeekMoE, combinée à une stratégie d'équilibrage de charge sans perte auxiliaire, optimisant l'efficacité de l'inférence et de l'entraînement. Pré-entraîné sur 14,8 trillions de tokens de haute qualité, suivi d'un ajustement supervisé et d'un apprentissage par renforcement, DeepSeek-V3 surpasse les autres modèles open source en termes de performance, se rapprochant des modèles fermés de pointe."
223
- },
224
221
  "QwQ-32B-Preview": {
225
222
  "description": "QwQ-32B-Preview est un modèle de traitement du langage naturel innovant, capable de gérer efficacement des tâches complexes de génération de dialogues et de compréhension contextuelle."
226
223
  },
@@ -383,6 +380,9 @@
383
380
  "THUDM/GLM-4-9B-0414": {
384
381
  "description": "GLM-4-9B-0414 est un modèle de petite taille de la série GLM, avec 9 milliards de paramètres. Ce modèle hérite des caractéristiques techniques de la série GLM-4-32B, tout en offrant une option de déploiement plus légère. Bien que de taille réduite, GLM-4-9B-0414 excelle toujours dans des tâches telles que la génération de code, la conception de sites web, la génération de graphiques SVG et l'écriture basée sur la recherche."
385
382
  },
383
+ "THUDM/GLM-4.1V-9B-Thinking": {
384
+ "description": "GLM-4.1V-9B-Thinking est un modèle de langage visuel open source (VLM) publié conjointement par Zhipu AI et le laboratoire KEG de l'Université Tsinghua, conçu pour traiter des tâches cognitives multimodales complexes. Ce modèle est basé sur le modèle de base GLM-4-9B-0414 et intègre un mécanisme de raisonnement « chaîne de pensée » (Chain-of-Thought) ainsi qu'une stratégie d'apprentissage par renforcement, améliorant significativement ses capacités de raisonnement intermodal et sa stabilité."
385
+ },
386
386
  "THUDM/GLM-Z1-32B-0414": {
387
387
  "description": "GLM-Z1-32B-0414 est un modèle de raisonnement avec des capacités de réflexion profonde. Ce modèle est basé sur GLM-4-32B-0414, développé par un démarrage à froid et un apprentissage par renforcement étendu, et a été formé davantage sur des tâches de mathématiques, de code et de logique. Par rapport au modèle de base, GLM-Z1-32B-0414 améliore considérablement les capacités mathématiques et la résolution de tâches complexes."
388
388
  },
@@ -539,6 +539,9 @@
539
539
  "anthropic/claude-sonnet-4": {
540
540
  "description": "Claude Sonnet 4 peut générer des réponses quasi instantanées ou des réflexions prolongées étape par étape, que l'utilisateur peut suivre clairement. Les utilisateurs de l'API peuvent également contrôler précisément la durée de réflexion du modèle."
541
541
  },
542
+ "ascend-tribe/pangu-pro-moe": {
543
+ "description": "Pangu-Pro-MoE 72B-A16B est un grand modèle de langage sparse à 72 milliards de paramètres, avec 16 milliards de paramètres activés. Il repose sur une architecture Mixture of Experts groupée (MoGE), qui regroupe les experts lors de la sélection et contraint chaque token à activer un nombre égal d'experts dans chaque groupe, assurant ainsi un équilibre de charge entre les experts et améliorant considérablement l'efficacité de déploiement sur la plateforme Ascend."
544
+ },
542
545
  "aya": {
543
546
  "description": "Aya 23 est un modèle multilingue lancé par Cohere, prenant en charge 23 langues, facilitant les applications linguistiques diversifiées."
544
547
  },
@@ -548,6 +551,9 @@
548
551
  "baichuan/baichuan2-13b-chat": {
549
552
  "description": "Baichuan-13B est un modèle de langage open source et commercialisable développé par Baichuan Intelligence, contenant 13 milliards de paramètres, qui a obtenu les meilleurs résultats dans des benchmarks chinois et anglais de référence."
550
553
  },
554
+ "baidu/ERNIE-4.5-300B-A47B": {
555
+ "description": "ERNIE-4.5-300B-A47B est un grand modèle de langage développé par Baidu, basé sur une architecture Mixture of Experts (MoE). Avec un total de 300 milliards de paramètres, il n'active que 47 milliards de paramètres par token lors de l'inférence, garantissant ainsi une performance puissante tout en optimisant l'efficacité de calcul. En tant que modèle central de la série ERNIE 4.5, il excelle dans la compréhension, la génération, le raisonnement textuel et la programmation. Ce modèle utilise une méthode innovante de pré-entraînement multimodal hétérogène MoE, combinant entraînement sur texte et vision, ce qui améliore ses capacités globales, notamment dans le suivi des instructions et la mémoire des connaissances mondiales."
556
+ },
551
557
  "c4ai-aya-expanse-32b": {
552
558
  "description": "Aya Expanse est un modèle multilingue haute performance de 32B, conçu pour défier les performances des modèles monolingues grâce à des innovations en matière d'optimisation par instructions, d'arbitrage de données, d'entraînement de préférences et de fusion de modèles. Il prend en charge 23 langues."
553
559
  },
@@ -1097,9 +1103,6 @@
1097
1103
  "gemini-2.5-pro": {
1098
1104
  "description": "Gemini 2.5 Pro est le modèle de raisonnement le plus avancé de Google, capable de traiter des problèmes complexes en code, mathématiques et domaines STEM, ainsi que d'analyser de grands ensembles de données, des bases de code et des documents avec un contexte étendu."
1099
1105
  },
1100
- "gemini-2.5-pro-exp-03-25": {
1101
- "description": "Gemini 2.5 Pro Experimental est le modèle de pensée le plus avancé de Google, capable de raisonner sur des problèmes complexes en code, mathématiques et dans les domaines STEM, tout en utilisant un long contexte pour analyser de grands ensembles de données, des bibliothèques de code et des documents."
1102
- },
1103
1106
  "gemini-2.5-pro-preview-03-25": {
1104
1107
  "description": "Gemini 2.5 Pro Preview est le modèle de pensée le plus avancé de Google, capable de raisonner sur des problèmes complexes en code, mathématiques et domaines STEM, ainsi que d'analyser de grands ensembles de données, bibliothèques de code et documents en utilisant un long contexte."
1105
1108
  },
@@ -1166,6 +1169,12 @@
1166
1169
  "glm-4-plus": {
1167
1170
  "description": "GLM-4-Plus, en tant que modèle phare de haute intelligence, possède de puissantes capacités de traitement de longs textes et de tâches complexes, avec des performances globalement améliorées."
1168
1171
  },
1172
+ "glm-4.1v-thinking-flash": {
1173
+ "description": "La série GLM-4.1V-Thinking est actuellement le modèle visuel le plus performant connu dans la catégorie des VLM de 10 milliards de paramètres. Elle intègre les meilleures performances SOTA dans diverses tâches de langage visuel, incluant la compréhension vidéo, les questions-réponses sur images, la résolution de problèmes disciplinaires, la reconnaissance OCR, l'interprétation de documents et graphiques, les agents GUI, le codage web frontal, le grounding, etc. Ses capacités surpassent même celles du Qwen2.5-VL-72B, qui possède plus de huit fois plus de paramètres. Grâce à des techniques avancées d'apprentissage par renforcement, le modèle maîtrise le raisonnement par chaîne de pensée, améliorant la précision et la richesse des réponses, surpassant nettement les modèles traditionnels sans mécanisme de pensée en termes de résultats finaux et d'explicabilité."
1174
+ },
1175
+ "glm-4.1v-thinking-flashx": {
1176
+ "description": "La série GLM-4.1V-Thinking est actuellement le modèle visuel le plus performant connu dans la catégorie des VLM de 10 milliards de paramètres. Elle intègre les meilleures performances SOTA dans diverses tâches de langage visuel, incluant la compréhension vidéo, les questions-réponses sur images, la résolution de problèmes disciplinaires, la reconnaissance OCR, l'interprétation de documents et graphiques, les agents GUI, le codage web frontal, le grounding, etc. Ses capacités surpassent même celles du Qwen2.5-VL-72B, qui possède plus de huit fois plus de paramètres. Grâce à des techniques avancées d'apprentissage par renforcement, le modèle maîtrise le raisonnement par chaîne de pensée, améliorant la précision et la richesse des réponses, surpassant nettement les modèles traditionnels sans mécanisme de pensée en termes de résultats finaux et d'explicabilité."
1177
+ },
1169
1178
  "glm-4v": {
1170
1179
  "description": "GLM-4V offre de puissantes capacités de compréhension et de raisonnement d'image, prenant en charge diverses tâches visuelles."
1171
1180
  },
@@ -1187,6 +1196,9 @@
1187
1196
  "glm-z1-flash": {
1188
1197
  "description": "La série GLM-Z1 possède de puissantes capacités de raisonnement complexe, excelling dans des domaines tels que le raisonnement logique, les mathématiques et la programmation. La longueur maximale du contexte est de 32K."
1189
1198
  },
1199
+ "glm-z1-flashx": {
1200
+ "description": "Haute vitesse et faible coût : version améliorée Flash, vitesse d'inférence ultra-rapide, meilleure garantie de concurrence."
1201
+ },
1190
1202
  "glm-zero-preview": {
1191
1203
  "description": "GLM-Zero-Preview possède de puissantes capacités de raisonnement complexe, se distinguant dans les domaines du raisonnement logique, des mathématiques et de la programmation."
1192
1204
  },
@@ -1238,6 +1250,9 @@
1238
1250
  "google/gemma-2b-it": {
1239
1251
  "description": "Gemma Instruct (2B) offre des capacités de traitement d'instructions de base, adapté aux applications légères."
1240
1252
  },
1253
+ "google/gemma-3-1b-it": {
1254
+ "description": "Gemma 3 1B est un modèle de langage open source de Google, établissant de nouvelles normes en matière d'efficacité et de performance."
1255
+ },
1241
1256
  "google/gemma-3-27b-it": {
1242
1257
  "description": "Gemma 3 27B est un modèle de langage open source de Google, qui a établi de nouvelles normes en matière d'efficacité et de performance."
1243
1258
  },
@@ -1373,6 +1388,9 @@
1373
1388
  "gryphe/mythomax-l2-13b": {
1374
1389
  "description": "MythoMax l2 13B est un modèle linguistique combinant créativité et intelligence, intégrant plusieurs modèles de pointe."
1375
1390
  },
1391
+ "hunyuan-a13b": {
1392
+ "description": "Hunyuan est le premier modèle de raisonnement hybride, une version améliorée de hunyuan-standard-256K, avec un total de 80 milliards de paramètres et 13 milliards activés. Par défaut, il fonctionne en mode de réflexion lente, mais supporte le basculement entre modes de réflexion rapide et lente via paramètres ou instructions, en ajoutant / no_think avant la requête. Ses capacités globales sont améliorées par rapport à la génération précédente, notamment en mathématiques, sciences, compréhension de longs textes et capacités d'agent."
1393
+ },
1376
1394
  "hunyuan-code": {
1377
1395
  "description": "Dernier modèle de génération de code Hunyuan, formé sur un modèle de base avec 200B de données de code de haute qualité, entraîné pendant six mois avec des données SFT de haute qualité, avec une longueur de fenêtre contextuelle augmentée à 8K, se classant parmi les meilleurs sur les indicateurs d'évaluation automatique de génération de code dans cinq langages ; en première ligne des évaluations de qualité humaine sur dix aspects de tâches de code dans cinq langages."
1378
1396
  },
@@ -1424,6 +1442,9 @@
1424
1442
  "hunyuan-t1-vision": {
1425
1443
  "description": "Modèle de réflexion profonde multimodal Hunyuan, supportant des chaînes de pensée natives multimodales longues, excellent dans divers scénarios d'inférence d'images, avec une amélioration globale par rapport aux modèles de pensée rapide dans les problèmes scientifiques."
1426
1444
  },
1445
+ "hunyuan-t1-vision-20250619": {
1446
+ "description": "La dernière version du modèle de réflexion profonde multimodale t1-vision de Hunyuan, supportant une chaîne de pensée native multimodale, avec des améliorations globales par rapport à la version par défaut précédente."
1447
+ },
1427
1448
  "hunyuan-turbo": {
1428
1449
  "description": "Version préliminaire du nouveau modèle de langage de génération Hunyuan, utilisant une nouvelle structure de modèle d'experts mixtes (MoE), offrant une efficacité d'inférence plus rapide et de meilleures performances par rapport à Hunyuan-Pro."
1429
1450
  },
@@ -1454,6 +1475,12 @@
1454
1475
  "hunyuan-turbos-role-plus": {
1455
1476
  "description": "Dernière version du modèle de jeu de rôle Hunyuan, finement ajusté par l’équipe officielle Hunyuan. Ce modèle est entraîné en supplément avec un jeu de données spécifique aux scénarios de jeu de rôle, offrant de meilleures performances de base dans ces contextes."
1456
1477
  },
1478
+ "hunyuan-turbos-vision": {
1479
+ "description": "Ce modèle est adapté aux scénarios de compréhension image-texte. Basé sur la dernière génération turbos de Hunyuan, c'est un grand modèle phare de langage visuel, focalisé sur les tâches liées à la compréhension image-texte, incluant la reconnaissance d'entités basée sur l'image, les questions-réponses de connaissances, la création de contenu, la résolution de problèmes par photo, etc., avec des améliorations globales par rapport à la génération précédente."
1480
+ },
1481
+ "hunyuan-turbos-vision-20250619": {
1482
+ "description": "La dernière version du grand modèle phare de langage visuel turbos-vision de Hunyuan, avec des améliorations globales par rapport à la version par défaut précédente dans les tâches liées à la compréhension image-texte, incluant la reconnaissance d'entités basée sur l'image, les questions-réponses de connaissances, la création de contenu, la résolution de problèmes par photo, etc."
1483
+ },
1457
1484
  "hunyuan-vision": {
1458
1485
  "description": "Dernier modèle multimodal Hunyuan, prenant en charge l'entrée d'images et de textes pour générer du contenu textuel."
1459
1486
  },