@lobehub/chat 1.97.14 → 1.97.16

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
@@ -71,44 +71,23 @@
71
71
  "DeepSeek-V3": {
72
72
  "description": "DeepSeek-V3 is a MoE model developed in-house by Deep Seek Company. Its performance surpasses that of other open-source models such as Qwen2.5-72B and Llama-3.1-405B in multiple assessments, and it stands on par with the world's top proprietary models like GPT-4o and Claude-3.5-Sonnet."
73
73
  },
74
- "Doubao-1.5-thinking-pro-m": {
75
- "description": "Doubao-1.5 is a new deep thinking model (the m version comes with native multimodal deep reasoning capabilities) that excels in specialized fields such as mathematics, programming, scientific reasoning, and general tasks like creative writing, achieving or nearing top-tier performance in authoritative benchmarks such as AIME 2024, Codeforces, and GPQA. It supports a 128k context window and 16k output."
76
- },
77
- "Doubao-1.5-thinking-vision-pro": {
78
- "description": "A brand new visual deep thinking model, equipped with stronger general multimodal understanding and reasoning capabilities, achieving SOTA performance in 37 out of 59 public evaluation benchmarks."
79
- },
80
- "Doubao-1.5-vision-pro": {
81
- "description": "Doubao-1.5-vision-pro is a newly upgraded multimodal large model that supports image recognition at any resolution and extreme aspect ratios, enhancing visual reasoning, document recognition, detail comprehension, and instruction following capabilities."
82
- },
83
- "Doubao-1.5-vision-pro-32k": {
84
- "description": "Doubao-1.5-vision-pro is a newly upgraded multimodal large model that supports image recognition at any resolution and extreme aspect ratios, enhancing visual reasoning, document recognition, detail understanding, and instruction-following capabilities."
85
- },
86
74
  "Doubao-lite-128k": {
87
- "description": "Doubao-lite provides extreme response speed and better cost-effectiveness, offering flexible options for various customer scenarios. It supports inference and fine-tuning with a 128k context window."
75
+ "description": "Doubao-lite offers ultra-fast response times and better cost-effectiveness, providing customers with more flexible options for different scenarios. Supports inference and fine-tuning with a 128k context window."
88
76
  },
89
77
  "Doubao-lite-32k": {
90
- "description": "Doubao-lite offers extreme response speed and better cost-effectiveness, providing flexible options for various customer scenarios. It supports inference and fine-tuning with a 32k context window."
78
+ "description": "Doubao-lite offers ultra-fast response times and better cost-effectiveness, providing customers with more flexible options for different scenarios. Supports inference and fine-tuning with a 32k context window."
91
79
  },
92
80
  "Doubao-lite-4k": {
93
- "description": "Doubao-lite boasts extreme response speed and better cost-effectiveness, providing flexible options for various customer scenarios. It supports inference and fine-tuning with a 4k context window."
81
+ "description": "Doubao-lite offers ultra-fast response times and better cost-effectiveness, providing customers with more flexible options for different scenarios. Supports inference and fine-tuning with a 4k context window."
94
82
  },
95
83
  "Doubao-pro-128k": {
96
- "description": "The best-performing primary model designed to handle complex tasks, achieving strong performance in scenarios such as reference Q&A, summarization, creative writing, text classification, and role-playing. It supports inference and fine-tuning with a 128k context window."
97
- },
98
- "Doubao-pro-256k": {
99
- "description": "The best-performing flagship model, suitable for handling complex tasks, with excellent results in reference Q&A, summarization, creative writing, text classification, role-playing, and more. It supports reasoning and fine-tuning with a 256k context window."
84
+ "description": "The best-performing flagship model, suitable for handling complex tasks. It excels in scenarios such as reference Q&A, summarization, creative writing, text classification, and role-playing. Supports inference and fine-tuning with a 128k context window."
100
85
  },
101
86
  "Doubao-pro-32k": {
102
- "description": "The best-performing primary model suited for complex tasks, showing great results in reference Q&A, summarization, creative writing, text classification, and role-playing. It supports inference and fine-tuning with a 32k context window."
87
+ "description": "The best-performing flagship model, suitable for handling complex tasks. It excels in scenarios such as reference Q&A, summarization, creative writing, text classification, and role-playing. Supports inference and fine-tuning with a 32k context window."
103
88
  },
104
89
  "Doubao-pro-4k": {
105
- "description": "The best-performing primary model suitable for handling complex tasks, demonstrating excellent performance in scenarios such as reference Q&A, summarization, creative writing, text classification, and role-playing. It supports inference and fine-tuning with a 4k context window."
106
- },
107
- "Doubao-vision-lite-32k": {
108
- "description": "The Doubao-vision model is a multimodal large model launched by Doubao, featuring powerful image understanding and reasoning capabilities, as well as precise instruction comprehension. The model has demonstrated strong performance in image-text information extraction and image-based reasoning tasks, making it applicable to more complex and broader visual question-answering tasks."
109
- },
110
- "Doubao-vision-pro-32k": {
111
- "description": "The Doubao-vision model is a multimodal large model launched by Doubao, featuring powerful image understanding and reasoning capabilities, as well as precise instruction comprehension. The model has demonstrated strong performance in image-text information extraction and image-based reasoning tasks, making it applicable to more complex and broader visual question-answering tasks."
90
+ "description": "The best-performing flagship model, suitable for handling complex tasks. It excels in scenarios such as reference Q&A, summarization, creative writing, text classification, and role-playing. Supports inference and fine-tuning with a 4k context window."
112
91
  },
113
92
  "ERNIE-3.5-128K": {
114
93
  "description": "Baidu's self-developed flagship large-scale language model, covering a vast amount of Chinese and English corpus. It possesses strong general capabilities, meeting the requirements for most dialogue Q&A, creative generation, and plugin application scenarios; it supports automatic integration with Baidu's search plugin to ensure the timeliness of Q&A information."
@@ -914,9 +893,39 @@
914
893
  "doubao-1.5-thinking-pro": {
915
894
  "description": "Doubao-1.5 is a brand new deep thinking model that excels in specialized fields such as mathematics, programming, and scientific reasoning, as well as in general tasks like creative writing. It has achieved or is close to the top tier of industry standards in several authoritative benchmarks, including AIME 2024, Codeforces, and GPQA. It supports a 128k context window and 16k output."
916
895
  },
896
+ "doubao-1.5-thinking-pro-m": {
897
+ "description": "Doubao-1.5 is a brand-new deep thinking model (the m version comes with native multimodal deep reasoning capabilities). It performs outstandingly in specialized fields such as mathematics, programming, scientific reasoning, as well as general tasks like creative writing. It achieves or approaches top-tier industry benchmarks on AIME 2024, Codeforces, GPQA, and more. Supports a 128k context window and 16k output."
898
+ },
899
+ "doubao-1.5-thinking-vision-pro": {
900
+ "description": "A new visual deep thinking model with enhanced general multimodal understanding and reasoning capabilities, achieving state-of-the-art (SOTA) results on 37 out of 59 public evaluation benchmarks."
901
+ },
902
+ "doubao-1.5-ui-tars": {
903
+ "description": "Doubao-1.5-UI-TARS is a native agent model designed for graphical user interface (GUI) interaction. It seamlessly interacts with GUIs through human-like abilities such as perception, reasoning, and action."
904
+ },
917
905
  "doubao-1.5-vision-lite": {
918
906
  "description": "Doubao-1.5-vision-lite is a newly upgraded multimodal large model that supports image recognition at any resolution and extreme aspect ratios, enhancing visual reasoning, document recognition, detail comprehension, and instruction following capabilities. It supports a context window of 128k and an output length of up to 16k tokens."
919
907
  },
908
+ "doubao-1.5-vision-pro": {
909
+ "description": "Doubao-1.5-vision-pro is a newly upgraded multimodal large model supporting image recognition at any resolution and extreme aspect ratios. It enhances visual reasoning, document recognition, detailed information understanding, and instruction compliance."
910
+ },
911
+ "doubao-1.5-vision-pro-32k": {
912
+ "description": "Doubao-1.5-vision-pro is a newly upgraded multimodal large model supporting image recognition at any resolution and extreme aspect ratios. It enhances visual reasoning, document recognition, detailed information understanding, and instruction compliance."
913
+ },
914
+ "doubao-lite-128k": {
915
+ "description": "Offers ultra-fast response times and better cost-effectiveness, providing customers with more flexible options for different scenarios. Supports inference and fine-tuning with a 128k context window."
916
+ },
917
+ "doubao-lite-32k": {
918
+ "description": "Offers ultra-fast response times and better cost-effectiveness, providing customers with more flexible options for different scenarios. Supports inference and fine-tuning with a 32k context window."
919
+ },
920
+ "doubao-lite-4k": {
921
+ "description": "Offers ultra-fast response times and better cost-effectiveness, providing customers with more flexible options for different scenarios. Supports inference and fine-tuning with a 4k context window."
922
+ },
923
+ "doubao-pro-256k": {
924
+ "description": "The best-performing flagship model, suitable for handling complex tasks. It excels in scenarios such as reference Q&A, summarization, creative writing, text classification, and role-playing. Supports inference and fine-tuning with a 256k context window."
925
+ },
926
+ "doubao-pro-32k": {
927
+ "description": "The best-performing flagship model, suitable for handling complex tasks. It excels in scenarios such as reference Q&A, summarization, creative writing, text classification, and role-playing. Supports inference and fine-tuning with a 32k context window."
928
+ },
920
929
  "doubao-seed-1.6": {
921
930
  "description": "Doubao-Seed-1.6 is a brand-new multimodal deep thinking model supporting auto, thinking, and non-thinking modes. In non-thinking mode, its performance significantly surpasses Doubao-1.5-pro/250115. It supports a 256k context window and output lengths up to 16k tokens."
922
931
  },
@@ -926,6 +935,12 @@
926
935
  "doubao-seed-1.6-thinking": {
927
936
  "description": "Doubao-Seed-1.6-thinking features greatly enhanced thinking capabilities. Compared to Doubao-1.5-thinking-pro, it further improves foundational skills such as coding, math, and logical reasoning, and supports visual understanding. It supports a 256k context window and output lengths up to 16k tokens."
928
937
  },
938
+ "doubao-vision-lite-32k": {
939
+ "description": "The Doubao-vision model is a multimodal large model launched by Doubao, featuring powerful image understanding and reasoning capabilities along with precise instruction comprehension. It demonstrates strong performance in image-text information extraction and image-based reasoning tasks, applicable to more complex and diverse visual question answering scenarios."
940
+ },
941
+ "doubao-vision-pro-32k": {
942
+ "description": "The Doubao-vision model is a multimodal large model launched by Doubao, featuring powerful image understanding and reasoning capabilities along with precise instruction comprehension. It demonstrates strong performance in image-text information extraction and image-based reasoning tasks, applicable to more complex and diverse visual question answering scenarios."
943
+ },
929
944
  "emohaa": {
930
945
  "description": "Emohaa is a psychological model with professional counseling capabilities, helping users understand emotional issues."
931
946
  },
@@ -1313,6 +1328,9 @@
1313
1328
  "gpt-4o-mini-search-preview": {
1314
1329
  "description": "GPT-4o mini Search Preview is a model specifically trained to understand and execute web search queries, using the Chat Completions API. In addition to token fees, web search queries incur charges per tool invocation."
1315
1330
  },
1331
+ "gpt-4o-mini-transcribe": {
1332
+ "description": "GPT-4o Mini Transcribe is a speech-to-text model that uses GPT-4o to transcribe audio. Compared to the original Whisper model, it improves word error rate, language recognition, and accuracy. Use it for more precise transcriptions."
1333
+ },
1316
1334
  "gpt-4o-mini-tts": {
1317
1335
  "description": "GPT-4o mini TTS is a text-to-speech model based on GPT-4o mini, providing high-quality speech generation at a lower cost."
1318
1336
  },
@@ -1322,12 +1340,15 @@
1322
1340
  "gpt-4o-realtime-preview-2024-10-01": {
1323
1341
  "description": "GPT-4o real-time version, supporting real-time audio and text input and output."
1324
1342
  },
1325
- "gpt-4o-realtime-preview-2024-12-17": {
1326
- "description": "GPT-4o real-time version, supporting real-time audio and text input and output."
1343
+ "gpt-4o-realtime-preview-2025-06-03": {
1344
+ "description": "GPT-4o real-time version supporting real-time audio and text input and output."
1327
1345
  },
1328
1346
  "gpt-4o-search-preview": {
1329
1347
  "description": "GPT-4o Search Preview is a model specifically trained to understand and execute web search queries, using the Chat Completions API. In addition to token fees, web search queries incur charges per tool invocation."
1330
1348
  },
1349
+ "gpt-4o-transcribe": {
1350
+ "description": "GPT-4o Transcribe is a speech-to-text model that uses GPT-4o to transcribe audio. Compared to the original Whisper model, it improves word error rate, language recognition, and accuracy. Use it for more precise transcriptions."
1351
+ },
1331
1352
  "grok-2-1212": {
1332
1353
  "description": "This model has improved in accuracy, instruction adherence, and multilingual capabilities."
1333
1354
  },
@@ -1460,6 +1481,9 @@
1460
1481
  "jina-deepsearch-v1": {
1461
1482
  "description": "DeepSearch combines web search, reading, and reasoning for comprehensive investigations. You can think of it as an agent that takes on your research tasks—it conducts extensive searches and iterates multiple times before providing answers. This process involves ongoing research, reasoning, and problem-solving from various angles. This fundamentally differs from standard large models that generate answers directly from pre-trained data and traditional RAG systems that rely on one-time surface searches."
1462
1483
  },
1484
+ "kimi-k2-0711-preview": {
1485
+ "description": "kimi-k2 is a MoE architecture base model with powerful coding and agent capabilities, totaling 1 trillion parameters with 32 billion active parameters. In benchmark tests across general knowledge reasoning, programming, mathematics, and agent tasks, the K2 model outperforms other mainstream open-source models."
1486
+ },
1463
1487
  "kimi-latest": {
1464
1488
  "description": "The Kimi Smart Assistant product uses the latest Kimi large model, which may include features that are not yet stable. It supports image understanding and will automatically select the 8k/32k/128k model as the billing model based on the length of the request context."
1465
1489
  },
@@ -2352,7 +2376,7 @@
2352
2376
  "description": "The v0-1.5-md model is suitable for everyday tasks and user interface (UI) generation."
2353
2377
  },
2354
2378
  "whisper-1": {
2355
- "description": "A universal speech recognition model that supports multilingual speech recognition, speech translation, and language identification."
2379
+ "description": "A general-purpose speech recognition model supporting multilingual speech recognition, speech translation, and language identification."
2356
2380
  },
2357
2381
  "wizardlm2": {
2358
2382
  "description": "WizardLM 2 is a language model provided by Microsoft AI, excelling in complex dialogues, multilingual capabilities, reasoning, and intelligent assistant applications."
@@ -71,44 +71,23 @@
71
71
  "DeepSeek-V3": {
72
72
  "description": "DeepSeek-V3 es un modelo MoE desarrollado internamente por la empresa DeepSeek. Los resultados de DeepSeek-V3 en múltiples evaluaciones superan a otros modelos de código abierto como Qwen2.5-72B y Llama-3.1-405B, y su rendimiento es comparable al de los modelos cerrados de primer nivel mundial como GPT-4o y Claude-3.5-Sonnet."
73
73
  },
74
- "Doubao-1.5-thinking-pro-m": {
75
- "description": "Doubao-1.5 es un nuevo modelo de pensamiento profundo (la versión m incluye capacidades de razonamiento multimodal nativas), destacándose en campos profesionales como matemáticas, programación, razonamiento científico y tareas generales como la escritura creativa, alcanzando o acercándose a los niveles de élite en múltiples pruebas de referencia como AIME 2024, Codeforces y GPQA. Soporta una ventana de contexto de 128k y una salida de 16k."
76
- },
77
- "Doubao-1.5-thinking-vision-pro": {
78
- "description": "Modelo de pensamiento profundo visual completamente nuevo, que posee una mayor capacidad de comprensión y razonamiento multimodal general, logrando un rendimiento SOTA en 37 de los 59 estándares de evaluación pública."
79
- },
80
- "Doubao-1.5-vision-pro": {
81
- "description": "Doubao-1.5-vision-pro es un modelo multimodal de gran escala actualizado, que soporta el reconocimiento de imágenes de cualquier resolución y proporciones extremas, mejorando la capacidad de razonamiento visual, reconocimiento de documentos, comprensión de información detallada y seguimiento de instrucciones."
82
- },
83
- "Doubao-1.5-vision-pro-32k": {
84
- "description": "Doubao-1.5-vision-pro es un modelo multimodal de gran tamaño, actualizado, que soporta el reconocimiento de imágenes de cualquier resolución y proporciones extremas, mejorando la capacidad de razonamiento visual, reconocimiento de documentos, comprensión de información detallada y cumplimiento de instrucciones."
85
- },
86
74
  "Doubao-lite-128k": {
87
- "description": "Doubao-lite presenta una velocidad de respuesta extrema y una mejor relación calidad-precio, ofreciendo opciones más flexibles para diferentes escenarios de clientes. Admite inferencia y ajuste fino con ventanas de contexto de 128k."
75
+ "description": "Doubao-lite ofrece una velocidad de respuesta excepcional y una mejor relación calidad-precio, proporcionando opciones más flexibles para diferentes escenarios de los clientes. Soporta inferencia y ajuste fino con una ventana de contexto de 128k."
88
76
  },
89
77
  "Doubao-lite-32k": {
90
- "description": "Doubao-lite presenta una velocidad de respuesta extrema y una mejor relación calidad-precio, ofreciendo opciones más flexibles para diferentes escenarios de clientes. Admite inferencia y ajuste fino con ventanas de contexto de 32k."
78
+ "description": "Doubao-lite ofrece una velocidad de respuesta excepcional y una mejor relación calidad-precio, proporcionando opciones más flexibles para diferentes escenarios de los clientes. Soporta inferencia y ajuste fino con una ventana de contexto de 32k."
91
79
  },
92
80
  "Doubao-lite-4k": {
93
- "description": "Doubao-lite presenta una velocidad de respuesta extrema y una mejor relación calidad-precio, ofreciendo opciones más flexibles para diferentes escenarios de clientes. Admite inferencia y ajuste fino con ventanas de contexto de 4k."
81
+ "description": "Doubao-lite ofrece una velocidad de respuesta excepcional y una mejor relación calidad-precio, proporcionando opciones más flexibles para diferentes escenarios de los clientes. Soporta inferencia y ajuste fino con una ventana de contexto de 4k."
94
82
  },
95
83
  "Doubao-pro-128k": {
96
- "description": "El modelo principal más eficaz, adecuado para manejar tareas complejas, con un excelente rendimiento en escenarios como preguntas y respuestas de referencia, resúmenes, creación de contenido, clasificación de textos y juegos de roles. Admite inferencia y ajuste fino con ventanas de contexto de 128k."
97
- },
98
- "Doubao-pro-256k": {
99
- "description": "El modelo principal con el mejor rendimiento, adecuado para manejar tareas complejas, mostrando buenos resultados en escenarios como preguntas y respuestas de referencia, resúmenes, creación, clasificación de textos y juegos de roles. Soporta razonamiento y ajuste fino con una ventana de contexto de 256k."
84
+ "description": "El modelo principal con mejor rendimiento, adecuado para tareas complejas, con excelentes resultados en preguntas de referencia, resúmenes, creación, clasificación de texto, juegos de rol y otros escenarios. Soporta inferencia y ajuste fino con una ventana de contexto de 128k."
100
85
  },
101
86
  "Doubao-pro-32k": {
102
- "description": "El modelo principal más eficaz, adecuado para manejar tareas complejas, con un excelente rendimiento en escenarios como preguntas y respuestas de referencia, resúmenes, creación de contenido, clasificación de textos y juegos de roles. Admite inferencia y ajuste fino con ventanas de contexto de 32k."
87
+ "description": "El modelo principal con mejor rendimiento, adecuado para tareas complejas, con excelentes resultados en preguntas de referencia, resúmenes, creación, clasificación de texto, juegos de rol y otros escenarios. Soporta inferencia y ajuste fino con una ventana de contexto de 32k."
103
88
  },
104
89
  "Doubao-pro-4k": {
105
- "description": "El modelo principal más eficaz, adecuado para manejar tareas complejas, con un excelente rendimiento en escenarios como preguntas y respuestas de referencia, resúmenes, creación de contenido, clasificación de textos y juegos de roles. Admite inferencia y ajuste fino con ventanas de contexto de 4k."
106
- },
107
- "Doubao-vision-lite-32k": {
108
- "description": "El modelo Doubao-vision es un modelo multimodal lanzado por Doubao, que cuenta con potentes capacidades de comprensión e inferencia de imágenes, así como una precisa capacidad de comprensión de instrucciones. El modelo ha demostrado un rendimiento excepcional en la extracción de información textual de imágenes y en tareas de razonamiento basadas en imágenes, siendo aplicable a tareas de preguntas y respuestas visuales más complejas y amplias."
109
- },
110
- "Doubao-vision-pro-32k": {
111
- "description": "El modelo Doubao-vision es un modelo multimodal lanzado por Doubao, que cuenta con potentes capacidades de comprensión e inferencia de imágenes, así como una precisa capacidad de comprensión de instrucciones. El modelo ha demostrado un rendimiento excepcional en la extracción de información textual de imágenes y en tareas de razonamiento basadas en imágenes, siendo aplicable a tareas de preguntas y respuestas visuales más complejas y amplias."
90
+ "description": "El modelo principal con mejor rendimiento, adecuado para tareas complejas, con excelentes resultados en preguntas de referencia, resúmenes, creación, clasificación de texto, juegos de rol y otros escenarios. Soporta inferencia y ajuste fino con una ventana de contexto de 4k."
112
91
  },
113
92
  "ERNIE-3.5-128K": {
114
93
  "description": "Modelo de lenguaje a gran escala de primera línea desarrollado por Baidu, que abarca una vasta cantidad de corpus en chino y en inglés, con potentes capacidades generales que pueden satisfacer la mayoría de los requisitos de preguntas y respuestas en diálogos, generación de contenido y aplicaciones de plugins; soporta la integración automática con el plugin de búsqueda de Baidu, garantizando la actualidad de la información en las respuestas."
@@ -914,9 +893,39 @@
914
893
  "doubao-1.5-thinking-pro": {
915
894
  "description": "El modelo de pensamiento profundo Doubao-1.5, completamente nuevo, destaca en campos especializados como matemáticas, programación y razonamiento científico, así como en tareas generales como la escritura creativa, alcanzando o acercándose al nivel de élite de la industria en múltiples estándares de referencia, como AIME 2024, Codeforces y GPQA. Soporta una ventana de contexto de 128k y una salida de 16k."
916
895
  },
896
+ "doubao-1.5-thinking-pro-m": {
897
+ "description": "Doubao-1.5 es un nuevo modelo de pensamiento profundo (la versión m incluye capacidades nativas de inferencia multimodal profunda), que destaca en matemáticas, programación, razonamiento científico y tareas generales como escritura creativa. Alcanza o se acerca al nivel de élite en benchmarks reconocidos como AIME 2024, Codeforces y GPQA. Soporta ventana de contexto de 128k y salida de 16k."
898
+ },
899
+ "doubao-1.5-thinking-vision-pro": {
900
+ "description": "Nuevo modelo de pensamiento profundo visual con capacidades avanzadas de comprensión e inferencia multimodal general, logrando resultados SOTA en 37 de 59 benchmarks públicos."
901
+ },
902
+ "doubao-1.5-ui-tars": {
903
+ "description": "Doubao-1.5-UI-TARS es un modelo agente nativo orientado a la interacción con interfaces gráficas (GUI). Mediante capacidades humanas de percepción, razonamiento y acción, interactúa de forma fluida con la GUI."
904
+ },
917
905
  "doubao-1.5-vision-lite": {
918
906
  "description": "Doubao-1.5-vision-lite es un modelo multimodal de gran escala actualizado, que soporta el reconocimiento de imágenes de cualquier resolución y proporciones extremas, mejorando la capacidad de razonamiento visual, reconocimiento de documentos, comprensión de información detallada y seguimiento de instrucciones. Soporta una ventana de contexto de 128k, con una longitud de salida que admite hasta 16k tokens."
919
907
  },
908
+ "doubao-1.5-vision-pro": {
909
+ "description": "Doubao-1.5-vision-pro es un modelo multimodal avanzado que soporta reconocimiento de imágenes con cualquier resolución y proporciones extremas, mejorando el razonamiento visual, reconocimiento de documentos, comprensión de detalles y seguimiento de instrucciones."
910
+ },
911
+ "doubao-1.5-vision-pro-32k": {
912
+ "description": "Doubao-1.5-vision-pro es un modelo multimodal avanzado que soporta reconocimiento de imágenes con cualquier resolución y proporciones extremas, mejorando el razonamiento visual, reconocimiento de documentos, comprensión de detalles y seguimiento de instrucciones."
913
+ },
914
+ "doubao-lite-128k": {
915
+ "description": "Ofrece una velocidad de respuesta excepcional y una mejor relación calidad-precio, proporcionando opciones más flexibles para diferentes escenarios de los clientes. Soporta inferencia y ajuste fino con una ventana de contexto de 128k."
916
+ },
917
+ "doubao-lite-32k": {
918
+ "description": "Ofrece una velocidad de respuesta excepcional y una mejor relación calidad-precio, proporcionando opciones más flexibles para diferentes escenarios de los clientes. Soporta inferencia y ajuste fino con una ventana de contexto de 32k."
919
+ },
920
+ "doubao-lite-4k": {
921
+ "description": "Ofrece una velocidad de respuesta excepcional y una mejor relación calidad-precio, proporcionando opciones más flexibles para diferentes escenarios de los clientes. Soporta inferencia y ajuste fino con una ventana de contexto de 4k."
922
+ },
923
+ "doubao-pro-256k": {
924
+ "description": "El modelo principal con mejor rendimiento, adecuado para tareas complejas, con excelentes resultados en preguntas de referencia, resúmenes, creación, clasificación de texto, juegos de rol y otros escenarios. Soporta inferencia y ajuste fino con una ventana de contexto de 256k."
925
+ },
926
+ "doubao-pro-32k": {
927
+ "description": "El modelo principal con mejor rendimiento, adecuado para tareas complejas, con excelentes resultados en preguntas de referencia, resúmenes, creación, clasificación de texto, juegos de rol y otros escenarios. Soporta inferencia y ajuste fino con una ventana de contexto de 32k."
928
+ },
920
929
  "doubao-seed-1.6": {
921
930
  "description": "Doubao-Seed-1.6 es un nuevo modelo multimodal de pensamiento profundo que soporta tres modos de pensamiento: automático, reflexivo y no reflexivo. En modo no reflexivo, el rendimiento del modelo mejora significativamente en comparación con Doubao-1.5-pro/250115. Soporta una ventana de contexto de 256k y una longitud máxima de salida de 16k tokens."
922
931
  },
@@ -926,6 +935,12 @@
926
935
  "doubao-seed-1.6-thinking": {
927
936
  "description": "El modelo Doubao-Seed-1.6-thinking tiene una capacidad de pensamiento significativamente mejorada. En comparación con Doubao-1.5-thinking-pro, mejora aún más en habilidades básicas como programación, matemáticas y razonamiento lógico, y soporta comprensión visual. Soporta una ventana de contexto de 256k y una longitud máxima de salida de 16k tokens."
928
937
  },
938
+ "doubao-vision-lite-32k": {
939
+ "description": "El modelo Doubao-vision es un modelo multimodal desarrollado por Doubao, con potentes capacidades de comprensión e inferencia de imágenes, así como una precisa comprensión de instrucciones. El modelo muestra un rendimiento destacado en extracción de información texto-imagen y tareas de inferencia basadas en imágenes, aplicable a tareas de preguntas visuales más complejas y amplias."
940
+ },
941
+ "doubao-vision-pro-32k": {
942
+ "description": "El modelo Doubao-vision es un modelo multimodal desarrollado por Doubao, con potentes capacidades de comprensión e inferencia de imágenes, así como una precisa comprensión de instrucciones. El modelo muestra un rendimiento destacado en extracción de información texto-imagen y tareas de inferencia basadas en imágenes, aplicable a tareas de preguntas visuales más complejas y amplias."
943
+ },
929
944
  "emohaa": {
930
945
  "description": "Emohaa es un modelo psicológico con capacidades de consulta profesional, ayudando a los usuarios a comprender problemas emocionales."
931
946
  },
@@ -1313,6 +1328,9 @@
1313
1328
  "gpt-4o-mini-search-preview": {
1314
1329
  "description": "GPT-4o mini versión preliminar de búsqueda es un modelo entrenado específicamente para comprender y ejecutar consultas de búsqueda web, utilizando la API de Chat Completions. Además de los costos por tokens, las consultas de búsqueda web incurren en cargos por cada llamada a la herramienta."
1315
1330
  },
1331
+ "gpt-4o-mini-transcribe": {
1332
+ "description": "GPT-4o Mini Transcribe es un modelo de conversión de voz a texto que utiliza GPT-4o para transcribir audio. En comparación con el modelo Whisper original, mejora la tasa de error de palabras y aumenta la precisión y el reconocimiento del idioma. Úselo para obtener transcripciones más precisas."
1333
+ },
1316
1334
  "gpt-4o-mini-tts": {
1317
1335
  "description": "GPT-4o mini TTS es un modelo de texto a voz basado en GPT-4o mini, que ofrece generación de voz de alta calidad a un costo más bajo."
1318
1336
  },
@@ -1322,12 +1340,15 @@
1322
1340
  "gpt-4o-realtime-preview-2024-10-01": {
1323
1341
  "description": "Versión en tiempo real de GPT-4o, que admite entrada y salida de audio y texto en tiempo real."
1324
1342
  },
1325
- "gpt-4o-realtime-preview-2024-12-17": {
1326
- "description": "Versión en tiempo real de GPT-4o, que admite entrada y salida de audio y texto en tiempo real."
1343
+ "gpt-4o-realtime-preview-2025-06-03": {
1344
+ "description": "Versión en tiempo real de GPT-4o, que soporta entrada y salida de audio y texto en tiempo real."
1327
1345
  },
1328
1346
  "gpt-4o-search-preview": {
1329
1347
  "description": "GPT-4o versión preliminar de búsqueda es un modelo entrenado específicamente para comprender y ejecutar consultas de búsqueda web, utilizando la API de Chat Completions. Además de los costos por tokens, las consultas de búsqueda web incurren en cargos por cada llamada a la herramienta."
1330
1348
  },
1349
+ "gpt-4o-transcribe": {
1350
+ "description": "GPT-4o Transcribe es un modelo de conversión de voz a texto que utiliza GPT-4o para transcribir audio. En comparación con el modelo Whisper original, mejora la tasa de error de palabras y aumenta la precisión y el reconocimiento del idioma. Úselo para obtener transcripciones más precisas."
1351
+ },
1331
1352
  "grok-2-1212": {
1332
1353
  "description": "Este modelo ha mejorado en precisión, cumplimiento de instrucciones y capacidades multilingües."
1333
1354
  },
@@ -1460,6 +1481,9 @@
1460
1481
  "jina-deepsearch-v1": {
1461
1482
  "description": "La búsqueda profunda combina la búsqueda en la web, la lectura y el razonamiento para realizar investigaciones exhaustivas. Puedes considerarlo como un agente que acepta tus tareas de investigación: realiza una búsqueda amplia y pasa por múltiples iteraciones antes de proporcionar una respuesta. Este proceso implica una investigación continua, razonamiento y resolución de problemas desde diferentes ángulos. Esto es fundamentalmente diferente de los grandes modelos estándar que generan respuestas directamente a partir de datos preentrenados y de los sistemas RAG tradicionales que dependen de búsquedas superficiales únicas."
1462
1483
  },
1484
+ "kimi-k2-0711-preview": {
1485
+ "description": "kimi-k2 es un modelo base con arquitectura MoE que posee capacidades excepcionales en código y agentes, con un total de 1T parámetros y 32B parámetros activados. En pruebas de rendimiento en categorías principales como razonamiento general, programación, matemáticas y agentes, el modelo K2 supera a otros modelos de código abierto populares."
1486
+ },
1463
1487
  "kimi-latest": {
1464
1488
  "description": "El producto asistente inteligente Kimi utiliza el último modelo grande de Kimi, que puede incluir características que aún no están estables. Soporta la comprensión de imágenes y seleccionará automáticamente el modelo de facturación de 8k/32k/128k según la longitud del contexto de la solicitud."
1465
1489
  },
@@ -2352,7 +2376,7 @@
2352
2376
  "description": "El modelo v0-1.5-md es adecuado para tareas cotidianas y generación de interfaces de usuario (UI)"
2353
2377
  },
2354
2378
  "whisper-1": {
2355
- "description": "Modelo de reconocimiento de voz general, que admite reconocimiento de voz multilingüe, traducción de voz y reconocimiento de idiomas."
2379
+ "description": "Modelo universal de reconocimiento de voz que soporta reconocimiento de voz multilingüe, traducción de voz y detección de idioma."
2356
2380
  },
2357
2381
  "wizardlm2": {
2358
2382
  "description": "WizardLM 2 es un modelo de lenguaje proporcionado por Microsoft AI, que destaca en diálogos complejos, multilingües, razonamiento y asistentes inteligentes."
@@ -71,44 +71,23 @@
71
71
  "DeepSeek-V3": {
72
72
  "description": "DeepSeek-V3 یک مدل MoE است که توسط شرکت DeepSeek توسعه یافته است. نتایج ارزیابی‌های متعدد DeepSeek-V3 از مدل‌های متن باز دیگر مانند Qwen2.5-72B و Llama-3.1-405B فراتر رفته و از نظر عملکرد با مدل‌های بسته جهانی برتر مانند GPT-4o و Claude-3.5-Sonnet برابری می‌کند."
73
73
  },
74
- "Doubao-1.5-thinking-pro-m": {
75
- "description": "Doubao-1.5 مدل جدید تفکر عمیق (نسخه m دارای قابلیت استدلال عمیق چندرسانه‌ای بومی است) است که در زمینه‌های تخصصی مانند ریاضیات، برنامه‌نویسی، استدلال علمی و همچنین وظایف عمومی مانند نوشتن خلاقانه عملکرد برجسته‌ای دارد و در چندین معیار معتبر مانند AIME 2024، Codeforces، GPQA به سطح اول صنعت دست یافته یا نزدیک شده است. این مدل از پنجره زمینه 128k و خروجی 16k پشتیبانی می‌کند."
76
- },
77
- "Doubao-1.5-thinking-vision-pro": {
78
- "description": "مدل جدید تفکر عمیق بصری که دارای توانایی‌های قوی‌تر در درک و استدلال چندرسانه‌ای عمومی است و در 37 مورد از 59 معیار ارزیابی عمومی عملکرد SOTA را به دست آورده است."
79
- },
80
- "Doubao-1.5-vision-pro": {
81
- "description": "Doubao-1.5-vision-pro مدل بزرگ چندرسانه‌ای به‌روز شده است که از شناسایی تصاویر با هر وضوح و نسبت ابعاد بسیار طولانی پشتیبانی می‌کند و توانایی‌های استدلال بصری، شناسایی مستندات، درک اطلاعات جزئی و پیروی از دستورات را تقویت می‌کند."
82
- },
83
- "Doubao-1.5-vision-pro-32k": {
84
- "description": "مدل بزرگ چندرسانه‌ای ارتقاء یافته Doubao-1.5-vision-pro، از شناسایی تصاویر با هر وضوح و نسبت ابعاد بسیار طولانی پشتیبانی می‌کند و توانایی‌های استدلال بصری، شناسایی اسناد، درک اطلاعات جزئی و پیروی از دستورات را تقویت می‌کند."
85
- },
86
74
  "Doubao-lite-128k": {
87
- "description": "Doubao-lite دارای سرعت پاسخ‌دهی بسیار بالا و قیمت مناسب‌تر است و برای سناریوهای مختلف مشتریان گزینه‌های منعطف‌تری ارائه می‌دهد. این مدل از استنتاج و تنظیم 128k پنجره متنی پشتیبانی می‌کند."
75
+ "description": "Doubao-lite دارای سرعت پاسخگویی بی‌نظیر و نسبت قیمت به کارایی بهتر است و گزینه‌های انعطاف‌پذیرتری را برای سناریوهای مختلف مشتریان ارائه می‌دهد. از پنجره متنی 128k برای استدلال و تنظیم دقیق پشتیبانی می‌کند."
88
76
  },
89
77
  "Doubao-lite-32k": {
90
- "description": "Doubao-lite دارای سرعت پاسخ‌دهی بسیار بالا و قیمت مناسب‌تر است و برای سناریوهای مختلف مشتریان گزینه‌های منعطف‌تری ارائه می‌دهد. این مدل از استنتاج و تنظیم 32k پنجره متنی پشتیبانی می‌کند."
78
+ "description": "Doubao-lite دارای سرعت پاسخگویی بی‌نظیر و نسبت قیمت به کارایی بهتر است و گزینه‌های انعطاف‌پذیرتری را برای سناریوهای مختلف مشتریان ارائه می‌دهد. از پنجره متنی 32k برای استدلال و تنظیم دقیق پشتیبانی می‌کند."
91
79
  },
92
80
  "Doubao-lite-4k": {
93
- "description": "Doubao-lite دارای سرعت پاسخ‌دهی بسیار بالا و قیمت مناسب‌تر است و برای سناریوهای مختلف مشتریان گزینه‌های منعطف‌تری ارائه می‌دهد. این مدل از استنتاج و تنظیم 4k پنجره متنی پشتیبانی می‌کند."
81
+ "description": "Doubao-lite دارای سرعت پاسخگویی بی‌نظیر و نسبت قیمت به کارایی بهتر است و گزینه‌های انعطاف‌پذیرتری را برای سناریوهای مختلف مشتریان ارائه می‌دهد. از پنجره متنی 4k برای استدلال و تنظیم دقیق پشتیبانی می‌کند."
94
82
  },
95
83
  "Doubao-pro-128k": {
96
- "description": "بهترین مدل اصلی با عملکرد بسیار خوب برای پردازش وظایف پیچیده است و در سناریوهایی مانند پرسش و پاسخ مدل مرجع، خلاصه‌نویسی، خلاقیت، طبقه‌بندی متن و بازی نقش عملکرد خوبی دارد. این مدل از استنتاج و تنظیم 128k پنجره متنی پشتیبانی می‌کند."
97
- },
98
- "Doubao-pro-256k": {
99
- "description": "بهترین مدل اصلی از نظر عملکرد، مناسب برای پردازش وظایف پیچیده، در زمینه‌های پرسش و پاسخ مرجع، خلاصه‌سازی، خلاقیت، طبقه‌بندی متن و نقش‌آفرینی عملکرد خوبی دارد. از استدلال و تنظیم دقیق با پنجره زمینه 256k پشتیبانی می‌کند."
84
+ "description": "مدل اصلی با بهترین عملکرد، مناسب برای انجام وظایف پیچیده است و در زمینه‌هایی مانند پاسخ به سوالات مرجع، خلاصه‌سازی، خلق محتوا، دسته‌بندی متن و نقش‌آفرینی عملکرد بسیار خوبی دارد. از پنجره متنی 128k برای استدلال و تنظیم دقیق پشتیبانی می‌کند."
100
85
  },
101
86
  "Doubao-pro-32k": {
102
- "description": "بهترین مدل اصلی با عملکرد بسیار خوب برای پردازش وظایف پیچیده است و در سناریوهایی مانند پرسش و پاسخ مدل مرجع، خلاصه‌نویسی، خلاقیت، طبقه‌بندی متن و بازی نقش عملکرد خوبی دارد. این مدل از استنتاج و تنظیم 32k پنجره متنی پشتیبانی می‌کند."
87
+ "description": "مدل اصلی با بهترین عملکرد، مناسب برای انجام وظایف پیچیده است و در زمینه‌هایی مانند پاسخ به سوالات مرجع، خلاصه‌سازی، خلق محتوا، دسته‌بندی متن و نقش‌آفرینی عملکرد بسیار خوبی دارد. از پنجره متنی 32k برای استدلال و تنظیم دقیق پشتیبانی می‌کند."
103
88
  },
104
89
  "Doubao-pro-4k": {
105
- "description": "بهترین مدل اصلی با عملکرد بسیار خوب برای پردازش وظایف پیچیده است و در سناریوهایی مانند پرسش و پاسخ مدل مرجع، خلاصه‌نویسی، خلاقیت، طبقه‌بندی متن و بازی نقش عملکرد خوبی دارد. این مدل از استنتاج و تنظیم 4k پنجره متنی پشتیبانی می‌کند."
106
- },
107
- "Doubao-vision-lite-32k": {
108
- "description": "مدل Doubao-vision یک مدل بزرگ چندرسانه‌ای است که توسط Doubao ارائه شده و دارای توانایی‌های قوی در درک و استدلال تصاویر و همچنین درک دقیق دستورات است. این مدل در استخراج اطلاعات متنی از تصاویر و وظایف استدلال مبتنی بر تصویر عملکرد قوی از خود نشان داده و می‌تواند در وظایف پیچیده‌تر و گسترده‌تر پرسش و پاسخ بصری به کار رود."
109
- },
110
- "Doubao-vision-pro-32k": {
111
- "description": "مدل Doubao-vision یک مدل بزرگ چندرسانه‌ای است که توسط Doubao ارائه شده و دارای توانایی‌های قوی در درک و استدلال تصاویر و همچنین درک دقیق دستورات است. این مدل در استخراج اطلاعات متنی از تصاویر و وظایف استدلال مبتنی بر تصویر عملکرد قوی از خود نشان داده و می‌تواند در وظایف پیچیده‌تر و گسترده‌تر پرسش و پاسخ بصری به کار رود."
90
+ "description": "مدل اصلی با بهترین عملکرد، مناسب برای انجام وظایف پیچیده است و در زمینه‌هایی مانند پاسخ به سوالات مرجع، خلاصه‌سازی، خلق محتوا، دسته‌بندی متن و نقش‌آفرینی عملکرد بسیار خوبی دارد. از پنجره متنی 4k برای استدلال و تنظیم دقیق پشتیبانی می‌کند."
112
91
  },
113
92
  "ERNIE-3.5-128K": {
114
93
  "description": "مدل زبان بزرگ پرچمدار توسعه‌یافته توسط بایدو، که حجم عظیمی از متون چینی و انگلیسی را پوشش می‌دهد و دارای توانایی‌های عمومی قدرتمندی است. این مدل می‌تواند نیازهای اکثر سناریوهای پرسش و پاسخ، تولید محتوا و استفاده از افزونه‌ها را برآورده کند؛ همچنین از اتصال خودکار به افزونه جستجوی بایدو پشتیبانی می‌کند تا به‌روز بودن اطلاعات پرسش و پاسخ را تضمین کند."
@@ -914,9 +893,39 @@
914
893
  "doubao-1.5-thinking-pro": {
915
894
  "description": "مدل تفکر عمیق جدید Doubao-1.5، در زمینه‌های تخصصی مانند ریاضیات، برنامه‌نویسی، استدلال علمی و همچنین در وظایف عمومی مانند نوشتن خلاقانه عملکرد برجسته‌ای دارد و در معیارهای معتبر مانند AIME 2024، Codeforces و GPQA به سطح اول صنعت نزدیک یا در آن قرار دارد. از پنجره زمینه 128k و خروجی 16k پشتیبانی می‌کند."
916
895
  },
896
+ "doubao-1.5-thinking-pro-m": {
897
+ "description": "مدل تفکر عمیق جدید Doubao-1.5 (نسخه m دارای قابلیت استدلال چندرسانه‌ای بومی) است که در حوزه‌های تخصصی مانند ریاضیات، برنامه‌نویسی، استدلال علمی و همچنین وظایف عمومی مانند نوشتن خلاقانه عملکرد برجسته‌ای دارد و در معیارهای معتبر AIME 2024، Codeforces، GPQA و غیره به سطح اول صنعت نزدیک یا در آن قرار دارد. از پنجره متنی 128k و خروجی 16k پشتیبانی می‌کند."
898
+ },
899
+ "doubao-1.5-thinking-vision-pro": {
900
+ "description": "مدل جدید تفکر عمیق بصری با توانایی‌های قوی‌تر در درک و استدلال چندرسانه‌ای عمومی، که در 37 مورد از 59 معیار ارزیابی عمومی به عملکرد برتر (SOTA) دست یافته است."
901
+ },
902
+ "doubao-1.5-ui-tars": {
903
+ "description": "Doubao-1.5-UI-TARS یک مدل عامل بومی برای تعامل با رابط‌های گرافیکی کاربری (GUI) است. با توانایی‌های انسانی مانند ادراک، استدلال و اقدام، تعامل بی‌وقفه با GUI را فراهم می‌کند."
904
+ },
917
905
  "doubao-1.5-vision-lite": {
918
906
  "description": "Doubao-1.5-vision-lite مدل بزرگ چندرسانه‌ای به‌روز شده است که از شناسایی تصاویر با هر وضوح و نسبت ابعاد بسیار طولانی پشتیبانی می‌کند و توانایی‌های استدلال بصری، شناسایی مستندات، درک اطلاعات جزئی و پیروی از دستورات را تقویت می‌کند. از پنجره متن 128k و حداکثر طول خروجی 16k توکن پشتیبانی می‌کند."
919
907
  },
908
+ "doubao-1.5-vision-pro": {
909
+ "description": "مدل چندرسانه‌ای بزرگ Doubao-1.5-vision-pro به‌روزرسانی شده که از شناسایی تصاویر با هر وضوح و نسبت ابعاد بسیار طولانی پشتیبانی می‌کند و توانایی‌های استدلال بصری، شناسایی اسناد، درک جزئیات و پیروی از دستورات را تقویت می‌کند."
910
+ },
911
+ "doubao-1.5-vision-pro-32k": {
912
+ "description": "مدل چندرسانه‌ای بزرگ Doubao-1.5-vision-pro به‌روزرسانی شده که از شناسایی تصاویر با هر وضوح و نسبت ابعاد بسیار طولانی پشتیبانی می‌کند و توانایی‌های استدلال بصری، شناسایی اسناد، درک جزئیات و پیروی از دستورات را تقویت می‌کند."
913
+ },
914
+ "doubao-lite-128k": {
915
+ "description": "دارای سرعت پاسخگویی بی‌نظیر و نسبت قیمت به کارایی بهتر است و گزینه‌های انعطاف‌پذیرتری را برای سناریوهای مختلف مشتریان ارائه می‌دهد. از پنجره متنی 128k برای استدلال و تنظیم دقیق پشتیبانی می‌کند."
916
+ },
917
+ "doubao-lite-32k": {
918
+ "description": "دارای سرعت پاسخگویی بی‌نظیر و نسبت قیمت به کارایی بهتر است و گزینه‌های انعطاف‌پذیرتری را برای سناریوهای مختلف مشتریان ارائه می‌دهد. از پنجره متنی 32k برای استدلال و تنظیم دقیق پشتیبانی می‌کند."
919
+ },
920
+ "doubao-lite-4k": {
921
+ "description": "دارای سرعت پاسخگویی بی‌نظیر و نسبت قیمت به کارایی بهتر است و گزینه‌های انعطاف‌پذیرتری را برای سناریوهای مختلف مشتریان ارائه می‌دهد. از پنجره متنی 4k برای استدلال و تنظیم دقیق پشتیبانی می‌کند."
922
+ },
923
+ "doubao-pro-256k": {
924
+ "description": "مدل اصلی با بهترین عملکرد، مناسب برای انجام وظایف پیچیده است و در زمینه‌هایی مانند پاسخ به سوالات مرجع، خلاصه‌سازی، خلق محتوا، دسته‌بندی متن و نقش‌آفرینی عملکرد بسیار خوبی دارد. از پنجره متنی 256k برای استدلال و تنظیم دقیق پشتیبانی می‌کند."
925
+ },
926
+ "doubao-pro-32k": {
927
+ "description": "مدل اصلی با بهترین عملکرد، مناسب برای انجام وظایف پیچیده است و در زمینه‌هایی مانند پاسخ به سوالات مرجع، خلاصه‌سازی، خلق محتوا، دسته‌بندی متن و نقش‌آفرینی عملکرد بسیار خوبی دارد. از پنجره متنی 32k برای استدلال و تنظیم دقیق پشتیبانی می‌کند."
928
+ },
920
929
  "doubao-seed-1.6": {
921
930
  "description": "مدل تفکر عمیق چندرسانه‌ای جدید Doubao-Seed-1.6 که از سه حالت تفکر auto/thinking/non-thinking پشتیبانی می‌کند. در حالت non-thinking، عملکرد مدل نسبت به Doubao-1.5-pro/250115 به‌طور قابل توجهی بهبود یافته است. از پنجره متنی ۲۵۶ هزار توکنی پشتیبانی می‌کند و طول خروجی تا ۱۶ هزار توکن را امکان‌پذیر می‌سازد."
922
931
  },
@@ -926,6 +935,12 @@
926
935
  "doubao-seed-1.6-thinking": {
927
936
  "description": "مدل Doubao-Seed-1.6-thinking با توانایی تفکر به‌طور قابل توجهی تقویت شده است، نسبت به Doubao-1.5-thinking-pro در مهارت‌های پایه‌ای مانند برنامه‌نویسی، ریاضیات و استدلال منطقی پیشرفت داشته و از درک تصویری پشتیبانی می‌کند. از پنجره متنی ۲۵۶ هزار توکنی پشتیبانی می‌کند و طول خروجی تا ۱۶ هزار توکن را امکان‌پذیر می‌سازد."
928
937
  },
938
+ "doubao-vision-lite-32k": {
939
+ "description": "مدل Doubao-vision یک مدل چندرسانه‌ای بزرگ است که توسط Doubao ارائه شده و دارای توانایی‌های قوی در درک و استدلال تصاویر و همچنین درک دقیق دستورات است. این مدل در استخراج اطلاعات متنی از تصاویر و وظایف استدلال مبتنی بر تصویر عملکرد قدرتمندی نشان داده و می‌تواند در وظایف پیچیده‌تر و گسترده‌تر پرسش و پاسخ بصری به کار رود."
940
+ },
941
+ "doubao-vision-pro-32k": {
942
+ "description": "مدل Doubao-vision یک مدل چندرسانه‌ای بزرگ است که توسط Doubao ارائه شده و دارای توانایی‌های قوی در درک و استدلال تصاویر و همچنین درک دقیق دستورات است. این مدل در استخراج اطلاعات متنی از تصاویر و وظایف استدلال مبتنی بر تصویر عملکرد قدرتمندی نشان داده و می‌تواند در وظایف پیچیده‌تر و گسترده‌تر پرسش و پاسخ بصری به کار رود."
943
+ },
929
944
  "emohaa": {
930
945
  "description": "Emohaa یک مدل روان‌شناختی است که دارای توانایی مشاوره حرفه‌ای بوده و به کاربران در درک مسائل احساسی کمک می‌کند."
931
946
  },
@@ -1313,6 +1328,9 @@
1313
1328
  "gpt-4o-mini-search-preview": {
1314
1329
  "description": "نسخه پیش‌نمایش جستجوی GPT-4o mini مدلی است که به طور خاص برای درک و اجرای پرسش‌های جستجوی وب آموزش دیده است و از API تکمیل چت استفاده می‌کند. علاوه بر هزینه توکن‌ها، هر پرسش جستجوی وب بر اساس هر بار فراخوانی ابزار هزینه دریافت می‌کند."
1315
1330
  },
1331
+ "gpt-4o-mini-transcribe": {
1332
+ "description": "GPT-4o Mini Transcribe یک مدل تبدیل گفتار به متن است که از GPT-4o برای رونویسی صوت استفاده می‌کند. نسبت به مدل اصلی Whisper، نرخ خطای کلمات را کاهش داده و دقت و شناسایی زبان را بهبود بخشیده است. از آن برای دریافت رونویسی دقیق‌تر استفاده کنید."
1333
+ },
1316
1334
  "gpt-4o-mini-tts": {
1317
1335
  "description": "GPT-4o mini TTS یک مدل تبدیل متن به گفتار است که بر اساس GPT-4o mini ساخته شده است و با قیمت پایین تری از GPT-4o mini ارائه می‌دهد."
1318
1336
  },
@@ -1322,12 +1340,15 @@
1322
1340
  "gpt-4o-realtime-preview-2024-10-01": {
1323
1341
  "description": "نسخه زنده GPT-4o، پشتیبانی از ورودی و خروجی صوتی و متنی به صورت زنده."
1324
1342
  },
1325
- "gpt-4o-realtime-preview-2024-12-17": {
1326
- "description": "نسخه زنده GPT-4o، پشتیبانی از ورودی و خروجی صوتی و متنی به صورت زنده."
1343
+ "gpt-4o-realtime-preview-2025-06-03": {
1344
+ "description": "نسخه بلادرنگ GPT-4o که از ورودی و خروجی همزمان صوت و متن پشتیبانی می‌کند."
1327
1345
  },
1328
1346
  "gpt-4o-search-preview": {
1329
1347
  "description": "نسخه پیش‌نمایش جستجوی GPT-4o مدلی است که به طور خاص برای درک و اجرای پرسش‌های جستجوی وب آموزش دیده است و از API تکمیل چت استفاده می‌کند. علاوه بر هزینه توکن‌ها، هر پرسش جستجوی وب بر اساس هر بار فراخوانی ابزار هزینه دریافت می‌کند."
1330
1348
  },
1349
+ "gpt-4o-transcribe": {
1350
+ "description": "GPT-4o Transcribe یک مدل تبدیل گفتار به متن است که از GPT-4o برای رونویسی صوت استفاده می‌کند. نسبت به مدل اصلی Whisper، نرخ خطای کلمات را کاهش داده و دقت و شناسایی زبان را بهبود بخشیده است. از آن برای دریافت رونویسی دقیق‌تر استفاده کنید."
1351
+ },
1331
1352
  "grok-2-1212": {
1332
1353
  "description": "این مدل در دقت، پیروی از دستورات و توانایی چند زبانه بهبود یافته است."
1333
1354
  },
@@ -1460,6 +1481,9 @@
1460
1481
  "jina-deepsearch-v1": {
1461
1482
  "description": "جستجوی عمیق ترکیبی از جستجوی اینترنتی، خواندن و استدلال است که می‌تواند تحقیقات جامع را انجام دهد. می‌توانید آن را به عنوان یک نماینده در نظر بگیرید که وظایف تحقیق شما را می‌پذیرد - این نماینده جستجوی گسترده‌ای انجام می‌دهد و پس از چندین بار تکرار، پاسخ را ارائه می‌دهد. این فرآیند شامل تحقیق مداوم، استدلال و حل مسئله از زوایای مختلف است. این با مدل‌های بزرگ استاندارد که مستقیماً از داده‌های پیش‌آموزش شده پاسخ تولید می‌کنند و سیستم‌های RAG سنتی که به جستجوی سطحی یک‌باره وابسته‌اند، تفاوت اساسی دارد."
1462
1483
  },
1484
+ "kimi-k2-0711-preview": {
1485
+ "description": "kimi-k2 یک مدل پایه با معماری MoE است که دارای توانایی‌های بسیار قوی در کدنویسی و عامل‌سازی است، با مجموع یک تریلیون پارامتر و 32 میلیارد پارامتر فعال. در تست‌های معیار عملکرد در حوزه‌های دانش عمومی، برنامه‌نویسی، ریاضیات و عامل‌ها، مدل K2 عملکردی فراتر از سایر مدل‌های متن‌باز اصلی دارد."
1486
+ },
1463
1487
  "kimi-latest": {
1464
1488
  "description": "محصول دستیار هوشمند کیمی از جدیدترین مدل بزرگ کیمی استفاده می‌کند و ممکن است شامل ویژگی‌های ناپایدار باشد. از درک تصویر پشتیبانی می‌کند و به‌طور خودکار بر اساس طول متن درخواست، مدل‌های 8k/32k/128k را به‌عنوان مدل محاسبه انتخاب می‌کند."
1465
1489
  },
@@ -2352,7 +2376,7 @@
2352
2376
  "description": "مدل v0-1.5-md برای وظایف روزمره و تولید رابط کاربری (UI) مناسب است"
2353
2377
  },
2354
2378
  "whisper-1": {
2355
- "description": "مدل شناسایی گفتار عمومی، پشتیبانی از شناسایی گفتار چند زبانه، ترجمه گفتار و شناسایی زبان."
2379
+ "description": "مدل شناسایی گفتار عمومی که از شناسایی گفتار چندزبانه، ترجمه گفتار و شناسایی زبان پشتیبانی می‌کند."
2356
2380
  },
2357
2381
  "wizardlm2": {
2358
2382
  "description": "WizardLM 2 یک مدل زبانی ارائه شده توسط هوش مصنوعی مایکروسافت است که در مکالمات پیچیده، چندزبانه، استدلال و دستیارهای هوشمند عملکرد برجسته‌ای دارد."