@lobehub/chat 1.106.3 → 1.106.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
@@ -32,6 +32,9 @@
32
32
  "4.0Ultra": {
33
33
  "description": "Spark4.0 Ultra es la versión más poderosa de la serie de modelos grandes de Xinghuo, mejorando la comprensión y capacidad de resumen de contenido textual al actualizar la conexión de búsqueda en línea. Es una solución integral para mejorar la productividad en la oficina y responder con precisión a las necesidades, siendo un producto inteligente líder en la industria."
34
34
  },
35
+ "AnimeSharp": {
36
+ "description": "AnimeSharp (también conocido como “4x‑AnimeSharp”) es un modelo de superresolución de código abierto desarrollado por Kim2091 basado en la arquitectura ESRGAN, enfocado en la ampliación y el afilado de imágenes con estilo anime. Fue renombrado en febrero de 2022 desde “4x-TextSharpV1”, originalmente también aplicable a imágenes de texto, pero con un rendimiento significativamente optimizado para contenido anime."
37
+ },
35
38
  "Baichuan2-Turbo": {
36
39
  "description": "Utiliza tecnología de búsqueda mejorada para lograr un enlace completo entre el gran modelo y el conocimiento del dominio, así como el conocimiento de toda la red. Soporta la carga de documentos en PDF, Word y otros formatos, así como la entrada de URL, proporcionando información oportuna y completa, con resultados precisos y profesionales."
37
40
  },
@@ -89,6 +92,9 @@
89
92
  "Doubao-pro-4k": {
90
93
  "description": "El modelo principal con mejor rendimiento, adecuado para tareas complejas, con excelentes resultados en preguntas de referencia, resúmenes, creación, clasificación de texto, juegos de rol y otros escenarios. Soporta inferencia y ajuste fino con una ventana de contexto de 4k."
91
94
  },
95
+ "DreamO": {
96
+ "description": "DreamO es un modelo de generación de imágenes personalizado de código abierto desarrollado conjuntamente por ByteDance y la Universidad de Pekín, diseñado para soportar generación de imágenes multitarea mediante una arquitectura unificada. Utiliza un método eficiente de modelado combinado para generar imágenes altamente coherentes y personalizadas según múltiples condiciones especificadas por el usuario, como identidad, sujeto, estilo y fondo."
97
+ },
92
98
  "ERNIE-3.5-128K": {
93
99
  "description": "Modelo de lenguaje a gran escala de primera línea desarrollado por Baidu, que abarca una vasta cantidad de corpus en chino y en inglés, con potentes capacidades generales que pueden satisfacer la mayoría de los requisitos de preguntas y respuestas en diálogos, generación de contenido y aplicaciones de plugins; soporta la integración automática con el plugin de búsqueda de Baidu, garantizando la actualidad de la información en las respuestas."
94
100
  },
@@ -122,15 +128,39 @@
122
128
  "ERNIE-Speed-Pro-128K": {
123
129
  "description": "Modelo de lenguaje de alto rendimiento desarrollado por Baidu, lanzado en 2024, con capacidades generales excepcionales, superando a ERNIE Speed, adecuado como modelo base para ajustes finos, manejando mejor problemas en escenarios específicos, y con un rendimiento de inferencia excelente."
124
130
  },
131
+ "FLUX.1-Kontext-dev": {
132
+ "description": "FLUX.1-Kontext-dev es un modelo multimodal de generación y edición de imágenes desarrollado por Black Forest Labs, basado en la arquitectura Rectified Flow Transformer, con una escala de 12 mil millones de parámetros. Se especializa en generar, reconstruir, mejorar o editar imágenes bajo condiciones contextuales dadas. Combina las ventajas de generación controlada de modelos de difusión con la capacidad de modelado contextual de Transformers, soportando salidas de alta calidad y aplicándose ampliamente en tareas como restauración de imágenes, completado y reconstrucción de escenas visuales."
133
+ },
134
+ "FLUX.1-dev": {
135
+ "description": "FLUX.1-dev es un modelo multimodal de lenguaje (MLLM) de código abierto desarrollado por Black Forest Labs, optimizado para tareas de texto e imagen, integrando capacidades de comprensión y generación tanto visual como textual. Está basado en avanzados modelos de lenguaje grande (como Mistral-7B) y mediante un codificador visual cuidadosamente diseñado y un ajuste fino por etapas con instrucciones, logra procesamiento colaborativo de texto e imagen y razonamiento para tareas complejas."
136
+ },
125
137
  "Gryphe/MythoMax-L2-13b": {
126
138
  "description": "MythoMax-L2 (13B) es un modelo innovador, adecuado para aplicaciones en múltiples campos y tareas complejas."
127
139
  },
140
+ "HelloMeme": {
141
+ "description": "HelloMeme es una herramienta de IA que puede generar automáticamente memes, GIFs o videos cortos basados en las imágenes o acciones que proporciones. No requiere conocimientos de dibujo o programación; solo necesitas preparar una imagen de referencia y la herramienta te ayudará a crear contenido atractivo, divertido y con estilo coherente."
142
+ },
143
+ "HiDream-I1-Full": {
144
+ "description": "HiDream-E1-Full es un modelo de edición de imágenes multimodal de código abierto lanzado por HiDream.ai, basado en la avanzada arquitectura Diffusion Transformer y potenciado con una fuerte capacidad de comprensión del lenguaje (incorporando LLaMA 3.1-8B-Instruct). Soporta generación de imágenes, transferencia de estilo, edición local y redibujo de contenido mediante instrucciones en lenguaje natural, con excelentes habilidades de comprensión y ejecución texto-imagen."
145
+ },
146
+ "HunyuanDiT-v1.2-Diffusers-Distilled": {
147
+ "description": "hunyuandit-v1.2-distilled es un modelo ligero de generación de imágenes a partir de texto, optimizado mediante destilación para generar imágenes de alta calidad rápidamente, especialmente adecuado para entornos con recursos limitados y tareas de generación en tiempo real."
148
+ },
149
+ "InstantCharacter": {
150
+ "description": "InstantCharacter es un modelo de generación de personajes personalizados sin necesidad de ajuste fino, lanzado por el equipo de IA de Tencent en 2025, diseñado para lograr generación consistente y de alta fidelidad en múltiples escenarios. El modelo permite modelar un personaje basándose únicamente en una imagen de referencia y transferirlo de forma flexible a diversos estilos, acciones y fondos."
151
+ },
128
152
  "InternVL2-8B": {
129
153
  "description": "InternVL2-8B es un potente modelo de lenguaje visual, que admite el procesamiento multimodal de imágenes y texto, capaz de identificar con precisión el contenido de las imágenes y generar descripciones o respuestas relacionadas."
130
154
  },
131
155
  "InternVL2.5-26B": {
132
156
  "description": "InternVL2.5-26B es un potente modelo de lenguaje visual, que admite el procesamiento multimodal de imágenes y texto, capaz de identificar con precisión el contenido de las imágenes y generar descripciones o respuestas relacionadas."
133
157
  },
158
+ "Kolors": {
159
+ "description": "Kolors es un modelo de generación de imágenes a partir de texto desarrollado por el equipo Kolors de Kuaishou. Entrenado con miles de millones de parámetros, destaca en calidad visual, comprensión semántica del chino y renderizado de texto."
160
+ },
161
+ "Kwai-Kolors/Kolors": {
162
+ "description": "Kolors es un modelo de generación de imágenes a partir de texto a gran escala basado en difusión latente, desarrollado por el equipo Kolors de Kuaishou. Entrenado con miles de millones de pares texto-imagen, muestra ventajas significativas en calidad visual, precisión semántica compleja y renderizado de caracteres en chino e inglés. Soporta entradas en ambos idiomas y sobresale en la comprensión y generación de contenido específico en chino."
163
+ },
134
164
  "Llama-3.2-11B-Vision-Instruct": {
135
165
  "description": "Capacidad de razonamiento de imágenes excepcional en imágenes de alta resolución, adecuada para aplicaciones de comprensión visual."
136
166
  },
@@ -164,9 +194,15 @@
164
194
  "MiniMaxAI/MiniMax-M1-80k": {
165
195
  "description": "MiniMax-M1 es un modelo de inferencia de atención mixta a gran escala con pesos de código abierto, que cuenta con 456 mil millones de parámetros, activando aproximadamente 45.9 mil millones de parámetros por token. El modelo soporta de forma nativa contextos ultra largos de hasta 1 millón de tokens y, gracias a su mecanismo de atención relámpago, reduce en un 75 % las operaciones de punto flotante en tareas de generación de 100 mil tokens en comparación con DeepSeek R1. Además, MiniMax-M1 utiliza una arquitectura MoE (Mezcla de Expertos), combinando el algoritmo CISPO y un diseño de atención mixta para un entrenamiento eficiente mediante aprendizaje reforzado, logrando un rendimiento líder en la industria en inferencia con entradas largas y escenarios reales de ingeniería de software."
166
196
  },
197
+ "Moonshot-Kimi-K2-Instruct": {
198
+ "description": "Con un total de 1 billón de parámetros y 32 mil millones de parámetros activados, este modelo no reflexivo alcanza niveles de vanguardia en conocimiento avanzado, matemáticas y codificación, destacando en tareas generales de agentes. Optimizado para tareas de agentes, no solo responde preguntas sino que también puede actuar. Ideal para conversaciones improvisadas, chat general y experiencias de agentes, es un modelo de nivel reflexivo que no requiere largos tiempos de pensamiento."
199
+ },
167
200
  "NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
168
201
  "description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) es un modelo de instrucciones de alta precisión, adecuado para cálculos complejos."
169
202
  },
203
+ "OmniConsistency": {
204
+ "description": "OmniConsistency mejora la consistencia de estilo y la capacidad de generalización en tareas de imagen a imagen mediante la introducción de grandes Diffusion Transformers (DiTs) y datos estilizados emparejados, evitando la degradación del estilo."
205
+ },
170
206
  "Phi-3-medium-128k-instruct": {
171
207
  "description": "El mismo modelo Phi-3-medium, pero con un tamaño de contexto más grande para RAG o indicaciones de pocos disparos."
172
208
  },
@@ -218,6 +254,9 @@
218
254
  "Pro/deepseek-ai/DeepSeek-V3": {
219
255
  "description": "DeepSeek-V3 es un modelo de lenguaje de expertos mixtos (MoE) con 671 mil millones de parámetros, que utiliza atención potencial de múltiples cabezas (MLA) y la arquitectura DeepSeekMoE, combinando estrategias de balanceo de carga sin pérdidas auxiliares para optimizar la eficiencia de inferencia y entrenamiento. Preentrenado en 14.8 billones de tokens de alta calidad, y ajustado mediante supervisión y aprendizaje por refuerzo, DeepSeek-V3 supera a otros modelos de código abierto y se acerca a los modelos cerrados líderes."
220
256
  },
257
+ "Pro/moonshotai/Kimi-K2-Instruct": {
258
+ "description": "Kimi K2 es un modelo base con arquitectura MoE que posee capacidades avanzadas de codificación y agentes, con un total de 1 billón de parámetros y 32 mil millones de parámetros activados. En pruebas de referencia en categorías principales como razonamiento general, programación, matemáticas y agentes, el rendimiento del modelo K2 supera a otros modelos de código abierto populares."
259
+ },
221
260
  "QwQ-32B-Preview": {
222
261
  "description": "QwQ-32B-Preview es un modelo de procesamiento de lenguaje natural innovador, capaz de manejar de manera eficiente tareas complejas de generación de diálogos y comprensión del contexto."
223
262
  },
@@ -278,6 +317,12 @@
278
317
  "Qwen/Qwen3-235B-A22B": {
279
318
  "description": "Qwen3 es un nuevo modelo de Tongyi Qianwen de próxima generación con capacidades significativamente mejoradas, alcanzando niveles líderes en la industria en razonamiento, general, agente y múltiples idiomas, y admite el cambio de modo de pensamiento."
280
319
  },
320
+ "Qwen/Qwen3-235B-A22B-Instruct-2507": {
321
+ "description": "Qwen3-235B-A22B-Instruct-2507 es un modelo de lenguaje grande híbrido experto (MoE) de nivel insignia desarrollado por el equipo Tongyi Qianwen de Alibaba Cloud. Cuenta con 235 mil millones de parámetros totales y activa 22 mil millones por inferencia. Es una versión actualizada del modo no reflexivo Qwen3-235B-A22B, enfocada en mejorar significativamente el cumplimiento de instrucciones, razonamiento lógico, comprensión textual, matemáticas, ciencias, programación y uso de herramientas. Además, amplía la cobertura de conocimientos multilingües y mejora la alineación con las preferencias del usuario en tareas subjetivas y abiertas para generar textos más útiles y de alta calidad."
322
+ },
323
+ "Qwen/Qwen3-235B-A22B-Thinking-2507": {
324
+ "description": "Qwen3-235B-A22B-Thinking-2507 es un modelo de lenguaje grande de la serie Qwen3 desarrollado por el equipo Tongyi Qianwen de Alibaba, especializado en tareas complejas de razonamiento avanzado. Basado en arquitectura MoE, cuenta con 235 mil millones de parámetros totales y activa aproximadamente 22 mil millones por token, mejorando la eficiencia computacional sin sacrificar rendimiento. Como modelo dedicado al “pensamiento”, destaca en razonamiento lógico, matemáticas, ciencias, programación y pruebas académicas que requieren conocimiento experto, alcanzando niveles líderes en modelos reflexivos de código abierto. También mejora capacidades generales como cumplimiento de instrucciones, uso de herramientas y generación de texto, y soporta nativamente comprensión de contexto largo de hasta 256K tokens, ideal para escenarios que requieren razonamiento profundo y manejo de documentos extensos."
325
+ },
281
326
  "Qwen/Qwen3-30B-A3B": {
282
327
  "description": "Qwen3 es un nuevo modelo de Tongyi Qianwen de próxima generación con capacidades significativamente mejoradas, alcanzando niveles líderes en la industria en razonamiento, general, agente y múltiples idiomas, y admite el cambio de modo de pensamiento."
283
328
  },
@@ -944,6 +989,9 @@
944
989
  "doubao-seed-1.6-thinking": {
945
990
  "description": "El modelo Doubao-Seed-1.6-thinking tiene una capacidad de pensamiento significativamente mejorada. En comparación con Doubao-1.5-thinking-pro, mejora aún más en habilidades básicas como programación, matemáticas y razonamiento lógico, y soporta comprensión visual. Soporta una ventana de contexto de 256k y una longitud máxima de salida de 16k tokens."
946
991
  },
992
+ "doubao-seedream-3-0-t2i-250415": {
993
+ "description": "El modelo de generación de imágenes Doubao fue desarrollado por el equipo Seed de ByteDance, soporta entrada de texto e imagen, y ofrece una experiencia de generación de imágenes altamente controlable y de alta calidad. Genera imágenes basadas en indicaciones textuales."
994
+ },
947
995
  "doubao-vision-lite-32k": {
948
996
  "description": "El modelo Doubao-vision es un modelo multimodal desarrollado por Doubao, con potentes capacidades de comprensión e inferencia de imágenes, así como una precisa comprensión de instrucciones. El modelo muestra un rendimiento destacado en extracción de información texto-imagen y tareas de inferencia basadas en imágenes, aplicable a tareas de preguntas visuales más complejas y amplias."
949
997
  },
@@ -995,6 +1043,9 @@
995
1043
  "ernie-char-fiction-8k": {
996
1044
  "description": "Modelo de lenguaje grande de escenario vertical desarrollado internamente por Baidu, adecuado para aplicaciones como NPC de juegos, diálogos de servicio al cliente y juegos de rol de diálogos, con un estilo de personaje más distintivo y consistente, y una mayor capacidad de seguimiento de instrucciones y rendimiento de inferencia."
997
1045
  },
1046
+ "ernie-irag-edit": {
1047
+ "description": "El modelo de edición de imágenes ERNIE iRAG desarrollado por Baidu soporta operaciones como borrar objetos, repintar objetos y generar variaciones basadas en imágenes."
1048
+ },
998
1049
  "ernie-lite-8k": {
999
1050
  "description": "ERNIE Lite es un modelo de lenguaje grande ligero desarrollado internamente por Baidu, que combina un excelente rendimiento del modelo con una buena capacidad de inferencia, adecuado para su uso en tarjetas de aceleración de IA de bajo consumo."
1000
1051
  },
@@ -1022,12 +1073,27 @@
1022
1073
  "ernie-x1-turbo-32k": {
1023
1074
  "description": "Mejora en comparación con ERNIE-X1-32K, con mejores resultados y rendimiento."
1024
1075
  },
1076
+ "flux-1-schnell": {
1077
+ "description": "Modelo de generación de imágenes a partir de texto con 12 mil millones de parámetros desarrollado por Black Forest Labs, que utiliza tecnología de destilación de difusión adversarial latente, capaz de generar imágenes de alta calidad en 1 a 4 pasos. Su rendimiento es comparable a alternativas propietarias y se publica bajo licencia Apache-2.0, apto para uso personal, investigación y comercial."
1078
+ },
1079
+ "flux-dev": {
1080
+ "description": "FLUX.1 [dev] es un modelo refinado y de pesos abiertos para aplicaciones no comerciales. Mantiene una calidad de imagen y capacidad de seguimiento de instrucciones similar a la versión profesional de FLUX, pero con mayor eficiencia operativa. En comparación con modelos estándar de tamaño similar, es más eficiente en el uso de recursos."
1081
+ },
1025
1082
  "flux-kontext/dev": {
1026
1083
  "description": "Modelo de edición de imágenes Frontier."
1027
1084
  },
1085
+ "flux-merged": {
1086
+ "description": "El modelo FLUX.1-merged combina las características profundas exploradas durante la fase de desarrollo de “DEV” con las ventajas de ejecución rápida representadas por “Schnell”. Esta combinación no solo amplía los límites de rendimiento del modelo, sino que también amplía su rango de aplicaciones."
1087
+ },
1028
1088
  "flux-pro/kontext": {
1029
1089
  "description": "FLUX.1 Kontext [pro] puede procesar texto e imágenes de referencia como entrada, logrando sin problemas ediciones locales específicas y transformaciones complejas de escenas completas."
1030
1090
  },
1091
+ "flux-schnell": {
1092
+ "description": "FLUX.1 [schnell], como el modelo de pocos pasos más avanzado de código abierto actualmente, supera no solo a competidores similares sino también a potentes modelos no refinados como Midjourney v6.0 y DALL·E 3 (HD). Este modelo ha sido ajustado específicamente para conservar toda la diversidad de salida de la etapa de preentrenamiento. En comparación con los modelos más avanzados del mercado, FLUX.1 [schnell] mejora significativamente la calidad visual, el cumplimiento de instrucciones, la variación de tamaño/proporción, el manejo de fuentes y la diversidad de salida, ofreciendo a los usuarios una experiencia de generación de imágenes creativas más rica y variada."
1093
+ },
1094
+ "flux.1-schnell": {
1095
+ "description": "Transformador de flujo rectificado con 12 mil millones de parámetros, capaz de generar imágenes basadas en descripciones textuales."
1096
+ },
1031
1097
  "flux/schnell": {
1032
1098
  "description": "FLUX.1 [schnell] es un modelo transformador de flujo con 12 mil millones de parámetros, capaz de generar imágenes de alta calidad a partir de texto en 1 a 4 pasos, adecuado para uso personal y comercial."
1033
1099
  },
@@ -1109,9 +1175,6 @@
1109
1175
  "gemini-2.5-flash-preview-04-17": {
1110
1176
  "description": "Gemini 2.5 Flash Preview es el modelo más rentable de Google, que ofrece una funcionalidad completa."
1111
1177
  },
1112
- "gemini-2.5-flash-preview-04-17-thinking": {
1113
- "description": "Gemini 2.5 Flash Preview es el modelo de mejor relación calidad-precio de Google, que ofrece funcionalidades completas."
1114
- },
1115
1178
  "gemini-2.5-flash-preview-05-20": {
1116
1179
  "description": "Gemini 2.5 Flash Preview es el modelo de mejor relación calidad-precio de Google, que ofrece funcionalidades completas."
1117
1180
  },
@@ -1190,6 +1253,21 @@
1190
1253
  "glm-4.1v-thinking-flashx": {
1191
1254
  "description": "La serie GLM-4.1V-Thinking es el modelo visual más potente conocido en la categoría de VLMs de 10 mil millones de parámetros, integrando tareas de lenguaje visual de última generación (SOTA) en su nivel, incluyendo comprensión de video, preguntas sobre imágenes, resolución de problemas académicos, reconocimiento OCR, interpretación de documentos y gráficos, agentes GUI, codificación web frontend, grounding, entre otros. En muchas tareas, supera incluso a modelos con 8 veces más parámetros como Qwen2.5-VL-72B. Gracias a técnicas avanzadas de aprendizaje reforzado, el modelo domina el razonamiento mediante cadenas de pensamiento para mejorar la precisión y riqueza de las respuestas, superando significativamente a los modelos tradicionales sin pensamiento en términos de resultados y explicabilidad."
1192
1255
  },
1256
+ "glm-4.5": {
1257
+ "description": "El último modelo insignia de Zhipu, soporta modo de pensamiento, con capacidades integrales que alcanzan el nivel SOTA de modelos de código abierto y una longitud de contexto de hasta 128K."
1258
+ },
1259
+ "glm-4.5-air": {
1260
+ "description": "Versión ligera de GLM-4.5 que equilibra rendimiento y costo, con capacidad flexible para cambiar entre modelos de pensamiento híbrido."
1261
+ },
1262
+ "glm-4.5-airx": {
1263
+ "description": "Versión ultra rápida de GLM-4.5-Air, con respuesta más rápida, diseñada para demandas de gran escala y alta velocidad."
1264
+ },
1265
+ "glm-4.5-flash": {
1266
+ "description": "Versión gratuita de GLM-4.5, con un desempeño destacado en tareas de inferencia, codificación y agentes inteligentes."
1267
+ },
1268
+ "glm-4.5-x": {
1269
+ "description": "Versión ultra rápida de GLM-4.5, que combina un rendimiento potente con una velocidad de generación de hasta 100 tokens por segundo."
1270
+ },
1193
1271
  "glm-4v": {
1194
1272
  "description": "GLM-4V proporciona una poderosa capacidad de comprensión e inferencia de imágenes, soportando diversas tareas visuales."
1195
1273
  },
@@ -1209,7 +1287,7 @@
1209
1287
  "description": "Inferencia ultrarrápida: con una velocidad de inferencia extremadamente rápida y un potente efecto de razonamiento."
1210
1288
  },
1211
1289
  "glm-z1-flash": {
1212
- "description": "La serie GLM-Z1 posee una poderosa capacidad de razonamiento complejo, destacando en áreas como razonamiento lógico, matemáticas y programación. La longitud máxima del contexto es de 32K."
1290
+ "description": "La serie GLM-Z1 posee una fuerte capacidad de razonamiento complejo, destacando en lógica, matemáticas y programación."
1213
1291
  },
1214
1292
  "glm-z1-flashx": {
1215
1293
  "description": "Alta velocidad y bajo costo: versión mejorada Flash, con velocidad de inferencia ultrarrápida y mejor garantía de concurrencia."
@@ -1385,6 +1463,9 @@
1385
1463
  "grok-2-1212": {
1386
1464
  "description": "Este modelo ha mejorado en precisión, cumplimiento de instrucciones y capacidades multilingües."
1387
1465
  },
1466
+ "grok-2-image-1212": {
1467
+ "description": "Nuestro último modelo de generación de imágenes puede crear imágenes vívidas y realistas a partir de indicaciones textuales. Destaca en generación de imágenes para marketing, redes sociales y entretenimiento."
1468
+ },
1388
1469
  "grok-2-vision-1212": {
1389
1470
  "description": "Este modelo ha mejorado en precisión, cumplimiento de instrucciones y capacidades multilingües."
1390
1471
  },
@@ -1454,6 +1535,9 @@
1454
1535
  "hunyuan-t1-20250529": {
1455
1536
  "description": "Optimiza la creación de textos, redacción de ensayos, mejora habilidades en programación frontend, matemáticas y razonamiento lógico, y aumenta la capacidad de seguir instrucciones."
1456
1537
  },
1538
+ "hunyuan-t1-20250711": {
1539
+ "description": "Mejora significativa en habilidades avanzadas de matemáticas, lógica y codificación, optimización de la estabilidad de salida del modelo y aumento de la capacidad para textos largos."
1540
+ },
1457
1541
  "hunyuan-t1-latest": {
1458
1542
  "description": "El primer modelo de inferencia híbrido de gran escala Hybrid-Transformer-Mamba de la industria, que amplía la capacidad de inferencia, ofrece una velocidad de decodificación excepcional y alinea aún más con las preferencias humanas."
1459
1543
  },
@@ -1502,6 +1586,12 @@
1502
1586
  "hunyuan-vision": {
1503
1587
  "description": "El último modelo multimodal de Hunyuan, que admite la entrada de imágenes y texto para generar contenido textual."
1504
1588
  },
1589
+ "image-01": {
1590
+ "description": "Nuevo modelo de generación de imágenes con detalles finos, soporta generación de imágenes a partir de texto e imagen."
1591
+ },
1592
+ "image-01-live": {
1593
+ "description": "Modelo de generación de imágenes con detalles finos, soporta generación a partir de texto y configuración de estilo artístico."
1594
+ },
1505
1595
  "imagen-4.0-generate-preview-06-06": {
1506
1596
  "description": "Serie de modelos de texto a imagen de cuarta generación de Imagen"
1507
1597
  },
@@ -1526,6 +1616,9 @@
1526
1616
  "internvl3-latest": {
1527
1617
  "description": "Nuestro modelo multimodal más reciente, que posee una mayor capacidad de comprensión de texto e imagen, así como una comprensión de imágenes a largo plazo, con un rendimiento comparable a los mejores modelos cerrados. Por defecto, apunta a nuestra serie de modelos InternVL más reciente, actualmente apuntando a internvl3-78b."
1528
1618
  },
1619
+ "irag-1.0": {
1620
+ "description": "iRAG (image based RAG) desarrollado por Baidu es una tecnología de generación de imágenes mejorada con recuperación, que combina los recursos de miles de millones de imágenes de búsqueda de Baidu con potentes capacidades de modelos base para generar imágenes ultra realistas. Su efecto supera ampliamente los sistemas nativos de generación de imágenes, eliminando el aspecto artificial de la IA y con costos muy bajos. iRAG se caracteriza por no generar alucinaciones, ultra realismo y resultados inmediatos."
1621
+ },
1529
1622
  "jamba-large": {
1530
1623
  "description": "Nuestro modelo más potente y avanzado, diseñado para manejar tareas complejas a nivel empresarial, con un rendimiento excepcional."
1531
1624
  },
@@ -1535,6 +1628,9 @@
1535
1628
  "jina-deepsearch-v1": {
1536
1629
  "description": "La búsqueda profunda combina la búsqueda en la web, la lectura y el razonamiento para realizar investigaciones exhaustivas. Puedes considerarlo como un agente que acepta tus tareas de investigación: realiza una búsqueda amplia y pasa por múltiples iteraciones antes de proporcionar una respuesta. Este proceso implica una investigación continua, razonamiento y resolución de problemas desde diferentes ángulos. Esto es fundamentalmente diferente de los grandes modelos estándar que generan respuestas directamente a partir de datos preentrenados y de los sistemas RAG tradicionales que dependen de búsquedas superficiales únicas."
1537
1630
  },
1631
+ "kimi-k2": {
1632
+ "description": "Kimi-K2 es un modelo base con arquitectura MoE lanzado por Moonshot AI, con capacidades avanzadas de codificación y agentes, totalizando 1 billón de parámetros y 32 mil millones de parámetros activados. En pruebas de referencia en categorías principales como razonamiento general, programación, matemáticas y agentes, el rendimiento del modelo K2 supera a otros modelos de código abierto populares."
1633
+ },
1538
1634
  "kimi-k2-0711-preview": {
1539
1635
  "description": "kimi-k2 es un modelo base con arquitectura MoE que posee capacidades excepcionales en código y agentes, con un total de 1T parámetros y 32B parámetros activados. En pruebas de rendimiento en categorías principales como razonamiento general, programación, matemáticas y agentes, el modelo K2 supera a otros modelos de código abierto populares."
1540
1636
  },
@@ -1928,6 +2024,9 @@
1928
2024
  "moonshotai/Kimi-Dev-72B": {
1929
2025
  "description": "Kimi-Dev-72B es un modelo de código abierto de gran escala, optimizado mediante aprendizaje reforzado a gran escala, capaz de generar parches robustos y listos para producción. Este modelo alcanzó un nuevo récord del 60.4 % en SWE-bench Verified, estableciendo un nuevo estándar para modelos de código abierto en tareas automatizadas de ingeniería de software como la corrección de errores y la revisión de código."
1930
2026
  },
2027
+ "moonshotai/Kimi-K2-Instruct": {
2028
+ "description": "Kimi K2 es un modelo base con arquitectura MoE que posee capacidades avanzadas de codificación y agentes, con un total de 1 billón de parámetros y 32 mil millones de parámetros activados. En pruebas de referencia en categorías principales como razonamiento general, programación, matemáticas y agentes, el rendimiento del modelo K2 supera a otros modelos de código abierto populares."
2029
+ },
1931
2030
  "moonshotai/kimi-k2-instruct": {
1932
2031
  "description": "kimi-k2 es un modelo base con arquitectura MoE que cuenta con capacidades avanzadas de código y agentes, con un total de 1T parámetros y 32B parámetros activados. En pruebas de referencia en categorías principales como razonamiento de conocimiento general, programación, matemáticas y agentes, el modelo K2 supera el rendimiento de otros modelos de código abierto populares."
1933
2032
  },
@@ -2264,6 +2363,12 @@
2264
2363
  "qwen3-235b-a22b": {
2265
2364
  "description": "Qwen3 es un modelo de nueva generación con capacidades significativamente mejoradas, alcanzando niveles líderes en la industria en razonamiento, generalidad, agentes y multilingüismo, y soporta el cambio de modo de pensamiento."
2266
2365
  },
2366
+ "qwen3-235b-a22b-instruct-2507": {
2367
+ "description": "Modelo de código abierto basado en Qwen3 en modo no reflexivo, con mejoras leves en capacidad creativa subjetiva y seguridad del modelo respecto a la versión anterior (Tongyi Qianwen 3-235B-A22B)."
2368
+ },
2369
+ "qwen3-235b-a22b-thinking-2507": {
2370
+ "description": "Modelo de código abierto basado en Qwen3 en modo reflexivo, con mejoras significativas en capacidad lógica, general, enriquecimiento de conocimiento y creatividad respecto a la versión anterior (Tongyi Qianwen 3-235B-A22B), adecuado para escenarios de razonamiento complejo y avanzado."
2371
+ },
2267
2372
  "qwen3-30b-a3b": {
2268
2373
  "description": "Qwen3 es un modelo de nueva generación con capacidades significativamente mejoradas, alcanzando niveles líderes en la industria en razonamiento, generalidad, agentes y multilingüismo, y soporta el cambio de modo de pensamiento."
2269
2374
  },
@@ -2276,6 +2381,12 @@
2276
2381
  "qwen3-8b": {
2277
2382
  "description": "Qwen3 es un modelo de nueva generación con capacidades significativamente mejoradas, alcanzando niveles líderes en la industria en razonamiento, generalidad, agentes y multilingüismo, y soporta el cambio de modo de pensamiento."
2278
2383
  },
2384
+ "qwen3-coder-480b-a35b-instruct": {
2385
+ "description": "Versión de código abierto del modelo de código Tongyi Qianwen. El más reciente qwen3-coder-480b-a35b-instruct está basado en Qwen3, con fuertes capacidades de agente de codificación, experto en llamadas a herramientas e interacción con entornos, capaz de programación autónoma y con habilidades sobresalientes de código y capacidades generales."
2386
+ },
2387
+ "qwen3-coder-plus": {
2388
+ "description": "Modelo de código Tongyi Qianwen. La serie más reciente Qwen3-Coder-Plus está basada en Qwen3, con fuertes capacidades de agente de codificación, experto en llamadas a herramientas e interacción con entornos, capaz de programación autónoma y con habilidades sobresalientes de código y capacidades generales."
2389
+ },
2279
2390
  "qwq": {
2280
2391
  "description": "QwQ es un modelo de investigación experimental que se centra en mejorar la capacidad de razonamiento de la IA."
2281
2392
  },
@@ -2318,6 +2429,24 @@
2318
2429
  "sonar-reasoning-pro": {
2319
2430
  "description": "Un nuevo producto API respaldado por el modelo de razonamiento DeepSeek."
2320
2431
  },
2432
+ "stable-diffusion-3-medium": {
2433
+ "description": "El último gran modelo de generación de imágenes a partir de texto lanzado por Stability AI. Esta versión mejora significativamente la calidad de imagen, comprensión textual y diversidad de estilos, heredando las ventajas de generaciones anteriores. Puede interpretar con mayor precisión indicaciones complejas en lenguaje natural y generar imágenes más precisas y variadas."
2434
+ },
2435
+ "stable-diffusion-3.5-large": {
2436
+ "description": "stable-diffusion-3.5-large es un modelo generativo multimodal de difusión transformadora (MMDiT) con 800 millones de parámetros, que ofrece calidad de imagen sobresaliente y alta correspondencia con las indicaciones. Soporta generación de imágenes de alta resolución de hasta 1 millón de píxeles y funciona eficientemente en hardware de consumo común."
2437
+ },
2438
+ "stable-diffusion-3.5-large-turbo": {
2439
+ "description": "stable-diffusion-3.5-large-turbo es un modelo basado en stable-diffusion-3.5-large que utiliza tecnología de destilación de difusión adversarial (ADD) para lograr mayor velocidad."
2440
+ },
2441
+ "stable-diffusion-v1.5": {
2442
+ "description": "stable-diffusion-v1.5 se inicializa con pesos del punto de control stable-diffusion-v1.2 y se ajusta finamente durante 595k pasos a resolución 512x512 sobre \"laion-aesthetics v2 5+\", reduciendo en un 10% la condicionamiento textual para mejorar el muestreo guiado sin clasificador."
2443
+ },
2444
+ "stable-diffusion-xl": {
2445
+ "description": "stable-diffusion-xl presenta mejoras significativas respecto a la versión v1.5 y ofrece resultados comparables al modelo SOTA de código abierto midjourney. Las mejoras incluyen un backbone unet tres veces mayor, un módulo de refinamiento para mejorar la calidad de las imágenes generadas y técnicas de entrenamiento más eficientes."
2446
+ },
2447
+ "stable-diffusion-xl-base-1.0": {
2448
+ "description": "Modelo generativo de imágenes a partir de texto desarrollado y liberado por Stability AI, con capacidades creativas líderes en la industria. Posee excelente comprensión de instrucciones y soporta definiciones de contenido mediante prompts inversos para generación precisa."
2449
+ },
2321
2450
  "step-1-128k": {
2322
2451
  "description": "Equilibrio entre rendimiento y costo, adecuado para escenarios generales."
2323
2452
  },
@@ -2348,6 +2477,12 @@
2348
2477
  "step-1v-8k": {
2349
2478
  "description": "Modelo visual pequeño, adecuado para tareas básicas de texto e imagen."
2350
2479
  },
2480
+ "step-1x-edit": {
2481
+ "description": "Modelo especializado en tareas de edición de imágenes, capaz de modificar y mejorar imágenes según descripciones textuales e imágenes de ejemplo proporcionadas por el usuario. Entiende la intención del usuario y genera resultados de edición de imagen que cumplen con los requisitos."
2482
+ },
2483
+ "step-1x-medium": {
2484
+ "description": "Modelo con fuerte capacidad de generación de imágenes, que soporta entrada mediante descripciones textuales. Posee soporte nativo para chino, comprendiendo y procesando mejor descripciones en este idioma, capturando con mayor precisión la semántica para convertirla en características visuales y lograr generación de imágenes más precisa. Puede generar imágenes de alta resolución y calidad, con cierta capacidad de transferencia de estilo."
2485
+ },
2351
2486
  "step-2-16k": {
2352
2487
  "description": "Soporta interacciones de contexto a gran escala, adecuado para escenarios de diálogo complejos."
2353
2488
  },
@@ -2357,6 +2492,9 @@
2357
2492
  "step-2-mini": {
2358
2493
  "description": "Un modelo de gran velocidad basado en la nueva arquitectura de atención autogestionada MFA, que logra efectos similares a los de step1 a un costo muy bajo, manteniendo al mismo tiempo un mayor rendimiento y tiempos de respuesta más rápidos. Capaz de manejar tareas generales, con habilidades destacadas en programación."
2359
2494
  },
2495
+ "step-2x-large": {
2496
+ "description": "Nueva generación del modelo Step Star para generación de imágenes, enfocado en tareas de generación basadas en texto, capaz de crear imágenes de alta calidad según descripciones proporcionadas por el usuario. El nuevo modelo produce imágenes con texturas más realistas y mejor capacidad para generar texto en chino e inglés."
2497
+ },
2360
2498
  "step-r1-v-mini": {
2361
2499
  "description": "Este modelo es un gran modelo de inferencia con una poderosa capacidad de comprensión de imágenes, capaz de procesar información de imágenes y texto, generando contenido textual tras un profundo razonamiento. Este modelo destaca en el campo del razonamiento visual, además de poseer capacidades de razonamiento matemático, de código y textual de primer nivel. La longitud del contexto es de 100k."
2362
2500
  },
@@ -2432,8 +2570,23 @@
2432
2570
  "v0-1.5-md": {
2433
2571
  "description": "El modelo v0-1.5-md es adecuado para tareas cotidianas y generación de interfaces de usuario (UI)"
2434
2572
  },
2573
+ "wan2.2-t2i-flash": {
2574
+ "description": "Versión ultra rápida Wanxiang 2.2, el modelo más reciente. Mejora integral en creatividad, estabilidad y realismo, con velocidad de generación rápida y alta relación calidad-precio."
2575
+ },
2576
+ "wan2.2-t2i-plus": {
2577
+ "description": "Versión profesional Wanxiang 2.2, el modelo más reciente. Mejora integral en creatividad, estabilidad y realismo, con generación de detalles ricos."
2578
+ },
2579
+ "wanx-v1": {
2580
+ "description": "Modelo base de generación de imágenes a partir de texto, correspondiente al modelo general 1.0 del sitio oficial Tongyi Wanxiang."
2581
+ },
2582
+ "wanx2.0-t2i-turbo": {
2583
+ "description": "Especializado en retratos con textura, velocidad media y bajo costo. Corresponde al modelo ultra rápido 2.0 del sitio oficial Tongyi Wanxiang."
2584
+ },
2585
+ "wanx2.1-t2i-plus": {
2586
+ "description": "Versión completamente mejorada. Genera imágenes con detalles más ricos, velocidad ligeramente más lenta. Corresponde al modelo profesional 2.1 del sitio oficial Tongyi Wanxiang."
2587
+ },
2435
2588
  "wanx2.1-t2i-turbo": {
2436
- "description": "Modelo de generación de imágenes de texto a imagen de Tongyi de Alibaba Cloud"
2589
+ "description": "Versión completamente mejorada. Generación rápida, resultados completos y alta relación calidad-precio. Corresponde al modelo ultra rápido 2.1 del sitio oficial Tongyi Wanxiang."
2437
2590
  },
2438
2591
  "whisper-1": {
2439
2592
  "description": "Modelo universal de reconocimiento de voz que soporta reconocimiento de voz multilingüe, traducción de voz y detección de idioma."
@@ -2485,5 +2638,11 @@
2485
2638
  },
2486
2639
  "yi-vision-v2": {
2487
2640
  "description": "Modelo para tareas visuales complejas, que ofrece capacidades de comprensión y análisis de alto rendimiento basadas en múltiples imágenes."
2641
+ },
2642
+ "zai-org/GLM-4.5": {
2643
+ "description": "GLM-4.5 es un modelo base diseñado para aplicaciones de agentes inteligentes, utilizando arquitectura Mixture-of-Experts (MoE). Está profundamente optimizado para llamadas a herramientas, navegación web, ingeniería de software y programación frontend, soportando integración fluida con agentes de código como Claude Code y Roo Code. GLM-4.5 emplea un modo de inferencia híbrido que se adapta a escenarios de razonamiento complejo y uso cotidiano."
2644
+ },
2645
+ "zai-org/GLM-4.5-Air": {
2646
+ "description": "GLM-4.5-Air es un modelo base diseñado para aplicaciones de agentes inteligentes, utilizando arquitectura Mixture-of-Experts (MoE). Está profundamente optimizado para llamadas a herramientas, navegación web, ingeniería de software y programación frontend, soportando integración fluida con agentes de código como Claude Code y Roo Code. GLM-4.5 emplea un modo de inferencia híbrido que se adapta a escenarios de razonamiento complejo y uso cotidiano."
2488
2647
  }
2489
2648
  }