@lobehub/chat 1.97.14 → 1.97.16
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/CHANGELOG.md +50 -0
- package/changelog/v1.json +18 -0
- package/locales/ar/models.json +54 -30
- package/locales/bg-BG/models.json +54 -30
- package/locales/de-DE/models.json +54 -30
- package/locales/en-US/models.json +54 -30
- package/locales/es-ES/models.json +54 -30
- package/locales/fa-IR/models.json +54 -30
- package/locales/fr-FR/models.json +54 -30
- package/locales/it-IT/models.json +53 -29
- package/locales/ja-JP/models.json +54 -30
- package/locales/ko-KR/models.json +53 -29
- package/locales/nl-NL/models.json +53 -29
- package/locales/pl-PL/models.json +54 -30
- package/locales/pt-BR/models.json +72 -30
- package/locales/ru-RU/models.json +54 -30
- package/locales/tr-TR/models.json +54 -30
- package/locales/vi-VN/models.json +54 -30
- package/locales/zh-CN/models.json +53 -29
- package/locales/zh-TW/models.json +54 -30
- package/package.json +1 -1
- package/src/config/aiModels/xai.ts +1 -1
@@ -71,44 +71,23 @@
|
|
71
71
|
"DeepSeek-V3": {
|
72
72
|
"description": "DeepSeek-V3 is a MoE model developed in-house by Deep Seek Company. Its performance surpasses that of other open-source models such as Qwen2.5-72B and Llama-3.1-405B in multiple assessments, and it stands on par with the world's top proprietary models like GPT-4o and Claude-3.5-Sonnet."
|
73
73
|
},
|
74
|
-
"Doubao-1.5-thinking-pro-m": {
|
75
|
-
"description": "Doubao-1.5 is a new deep thinking model (the m version comes with native multimodal deep reasoning capabilities) that excels in specialized fields such as mathematics, programming, scientific reasoning, and general tasks like creative writing, achieving or nearing top-tier performance in authoritative benchmarks such as AIME 2024, Codeforces, and GPQA. It supports a 128k context window and 16k output."
|
76
|
-
},
|
77
|
-
"Doubao-1.5-thinking-vision-pro": {
|
78
|
-
"description": "A brand new visual deep thinking model, equipped with stronger general multimodal understanding and reasoning capabilities, achieving SOTA performance in 37 out of 59 public evaluation benchmarks."
|
79
|
-
},
|
80
|
-
"Doubao-1.5-vision-pro": {
|
81
|
-
"description": "Doubao-1.5-vision-pro is a newly upgraded multimodal large model that supports image recognition at any resolution and extreme aspect ratios, enhancing visual reasoning, document recognition, detail comprehension, and instruction following capabilities."
|
82
|
-
},
|
83
|
-
"Doubao-1.5-vision-pro-32k": {
|
84
|
-
"description": "Doubao-1.5-vision-pro is a newly upgraded multimodal large model that supports image recognition at any resolution and extreme aspect ratios, enhancing visual reasoning, document recognition, detail understanding, and instruction-following capabilities."
|
85
|
-
},
|
86
74
|
"Doubao-lite-128k": {
|
87
|
-
"description": "Doubao-lite
|
75
|
+
"description": "Doubao-lite offers ultra-fast response times and better cost-effectiveness, providing customers with more flexible options for different scenarios. Supports inference and fine-tuning with a 128k context window."
|
88
76
|
},
|
89
77
|
"Doubao-lite-32k": {
|
90
|
-
"description": "Doubao-lite offers
|
78
|
+
"description": "Doubao-lite offers ultra-fast response times and better cost-effectiveness, providing customers with more flexible options for different scenarios. Supports inference and fine-tuning with a 32k context window."
|
91
79
|
},
|
92
80
|
"Doubao-lite-4k": {
|
93
|
-
"description": "Doubao-lite
|
81
|
+
"description": "Doubao-lite offers ultra-fast response times and better cost-effectiveness, providing customers with more flexible options for different scenarios. Supports inference and fine-tuning with a 4k context window."
|
94
82
|
},
|
95
83
|
"Doubao-pro-128k": {
|
96
|
-
"description": "The best-performing
|
97
|
-
},
|
98
|
-
"Doubao-pro-256k": {
|
99
|
-
"description": "The best-performing flagship model, suitable for handling complex tasks, with excellent results in reference Q&A, summarization, creative writing, text classification, role-playing, and more. It supports reasoning and fine-tuning with a 256k context window."
|
84
|
+
"description": "The best-performing flagship model, suitable for handling complex tasks. It excels in scenarios such as reference Q&A, summarization, creative writing, text classification, and role-playing. Supports inference and fine-tuning with a 128k context window."
|
100
85
|
},
|
101
86
|
"Doubao-pro-32k": {
|
102
|
-
"description": "The best-performing
|
87
|
+
"description": "The best-performing flagship model, suitable for handling complex tasks. It excels in scenarios such as reference Q&A, summarization, creative writing, text classification, and role-playing. Supports inference and fine-tuning with a 32k context window."
|
103
88
|
},
|
104
89
|
"Doubao-pro-4k": {
|
105
|
-
"description": "The best-performing
|
106
|
-
},
|
107
|
-
"Doubao-vision-lite-32k": {
|
108
|
-
"description": "The Doubao-vision model is a multimodal large model launched by Doubao, featuring powerful image understanding and reasoning capabilities, as well as precise instruction comprehension. The model has demonstrated strong performance in image-text information extraction and image-based reasoning tasks, making it applicable to more complex and broader visual question-answering tasks."
|
109
|
-
},
|
110
|
-
"Doubao-vision-pro-32k": {
|
111
|
-
"description": "The Doubao-vision model is a multimodal large model launched by Doubao, featuring powerful image understanding and reasoning capabilities, as well as precise instruction comprehension. The model has demonstrated strong performance in image-text information extraction and image-based reasoning tasks, making it applicable to more complex and broader visual question-answering tasks."
|
90
|
+
"description": "The best-performing flagship model, suitable for handling complex tasks. It excels in scenarios such as reference Q&A, summarization, creative writing, text classification, and role-playing. Supports inference and fine-tuning with a 4k context window."
|
112
91
|
},
|
113
92
|
"ERNIE-3.5-128K": {
|
114
93
|
"description": "Baidu's self-developed flagship large-scale language model, covering a vast amount of Chinese and English corpus. It possesses strong general capabilities, meeting the requirements for most dialogue Q&A, creative generation, and plugin application scenarios; it supports automatic integration with Baidu's search plugin to ensure the timeliness of Q&A information."
|
@@ -914,9 +893,39 @@
|
|
914
893
|
"doubao-1.5-thinking-pro": {
|
915
894
|
"description": "Doubao-1.5 is a brand new deep thinking model that excels in specialized fields such as mathematics, programming, and scientific reasoning, as well as in general tasks like creative writing. It has achieved or is close to the top tier of industry standards in several authoritative benchmarks, including AIME 2024, Codeforces, and GPQA. It supports a 128k context window and 16k output."
|
916
895
|
},
|
896
|
+
"doubao-1.5-thinking-pro-m": {
|
897
|
+
"description": "Doubao-1.5 is a brand-new deep thinking model (the m version comes with native multimodal deep reasoning capabilities). It performs outstandingly in specialized fields such as mathematics, programming, scientific reasoning, as well as general tasks like creative writing. It achieves or approaches top-tier industry benchmarks on AIME 2024, Codeforces, GPQA, and more. Supports a 128k context window and 16k output."
|
898
|
+
},
|
899
|
+
"doubao-1.5-thinking-vision-pro": {
|
900
|
+
"description": "A new visual deep thinking model with enhanced general multimodal understanding and reasoning capabilities, achieving state-of-the-art (SOTA) results on 37 out of 59 public evaluation benchmarks."
|
901
|
+
},
|
902
|
+
"doubao-1.5-ui-tars": {
|
903
|
+
"description": "Doubao-1.5-UI-TARS is a native agent model designed for graphical user interface (GUI) interaction. It seamlessly interacts with GUIs through human-like abilities such as perception, reasoning, and action."
|
904
|
+
},
|
917
905
|
"doubao-1.5-vision-lite": {
|
918
906
|
"description": "Doubao-1.5-vision-lite is a newly upgraded multimodal large model that supports image recognition at any resolution and extreme aspect ratios, enhancing visual reasoning, document recognition, detail comprehension, and instruction following capabilities. It supports a context window of 128k and an output length of up to 16k tokens."
|
919
907
|
},
|
908
|
+
"doubao-1.5-vision-pro": {
|
909
|
+
"description": "Doubao-1.5-vision-pro is a newly upgraded multimodal large model supporting image recognition at any resolution and extreme aspect ratios. It enhances visual reasoning, document recognition, detailed information understanding, and instruction compliance."
|
910
|
+
},
|
911
|
+
"doubao-1.5-vision-pro-32k": {
|
912
|
+
"description": "Doubao-1.5-vision-pro is a newly upgraded multimodal large model supporting image recognition at any resolution and extreme aspect ratios. It enhances visual reasoning, document recognition, detailed information understanding, and instruction compliance."
|
913
|
+
},
|
914
|
+
"doubao-lite-128k": {
|
915
|
+
"description": "Offers ultra-fast response times and better cost-effectiveness, providing customers with more flexible options for different scenarios. Supports inference and fine-tuning with a 128k context window."
|
916
|
+
},
|
917
|
+
"doubao-lite-32k": {
|
918
|
+
"description": "Offers ultra-fast response times and better cost-effectiveness, providing customers with more flexible options for different scenarios. Supports inference and fine-tuning with a 32k context window."
|
919
|
+
},
|
920
|
+
"doubao-lite-4k": {
|
921
|
+
"description": "Offers ultra-fast response times and better cost-effectiveness, providing customers with more flexible options for different scenarios. Supports inference and fine-tuning with a 4k context window."
|
922
|
+
},
|
923
|
+
"doubao-pro-256k": {
|
924
|
+
"description": "The best-performing flagship model, suitable for handling complex tasks. It excels in scenarios such as reference Q&A, summarization, creative writing, text classification, and role-playing. Supports inference and fine-tuning with a 256k context window."
|
925
|
+
},
|
926
|
+
"doubao-pro-32k": {
|
927
|
+
"description": "The best-performing flagship model, suitable for handling complex tasks. It excels in scenarios such as reference Q&A, summarization, creative writing, text classification, and role-playing. Supports inference and fine-tuning with a 32k context window."
|
928
|
+
},
|
920
929
|
"doubao-seed-1.6": {
|
921
930
|
"description": "Doubao-Seed-1.6 is a brand-new multimodal deep thinking model supporting auto, thinking, and non-thinking modes. In non-thinking mode, its performance significantly surpasses Doubao-1.5-pro/250115. It supports a 256k context window and output lengths up to 16k tokens."
|
922
931
|
},
|
@@ -926,6 +935,12 @@
|
|
926
935
|
"doubao-seed-1.6-thinking": {
|
927
936
|
"description": "Doubao-Seed-1.6-thinking features greatly enhanced thinking capabilities. Compared to Doubao-1.5-thinking-pro, it further improves foundational skills such as coding, math, and logical reasoning, and supports visual understanding. It supports a 256k context window and output lengths up to 16k tokens."
|
928
937
|
},
|
938
|
+
"doubao-vision-lite-32k": {
|
939
|
+
"description": "The Doubao-vision model is a multimodal large model launched by Doubao, featuring powerful image understanding and reasoning capabilities along with precise instruction comprehension. It demonstrates strong performance in image-text information extraction and image-based reasoning tasks, applicable to more complex and diverse visual question answering scenarios."
|
940
|
+
},
|
941
|
+
"doubao-vision-pro-32k": {
|
942
|
+
"description": "The Doubao-vision model is a multimodal large model launched by Doubao, featuring powerful image understanding and reasoning capabilities along with precise instruction comprehension. It demonstrates strong performance in image-text information extraction and image-based reasoning tasks, applicable to more complex and diverse visual question answering scenarios."
|
943
|
+
},
|
929
944
|
"emohaa": {
|
930
945
|
"description": "Emohaa is a psychological model with professional counseling capabilities, helping users understand emotional issues."
|
931
946
|
},
|
@@ -1313,6 +1328,9 @@
|
|
1313
1328
|
"gpt-4o-mini-search-preview": {
|
1314
1329
|
"description": "GPT-4o mini Search Preview is a model specifically trained to understand and execute web search queries, using the Chat Completions API. In addition to token fees, web search queries incur charges per tool invocation."
|
1315
1330
|
},
|
1331
|
+
"gpt-4o-mini-transcribe": {
|
1332
|
+
"description": "GPT-4o Mini Transcribe is a speech-to-text model that uses GPT-4o to transcribe audio. Compared to the original Whisper model, it improves word error rate, language recognition, and accuracy. Use it for more precise transcriptions."
|
1333
|
+
},
|
1316
1334
|
"gpt-4o-mini-tts": {
|
1317
1335
|
"description": "GPT-4o mini TTS is a text-to-speech model based on GPT-4o mini, providing high-quality speech generation at a lower cost."
|
1318
1336
|
},
|
@@ -1322,12 +1340,15 @@
|
|
1322
1340
|
"gpt-4o-realtime-preview-2024-10-01": {
|
1323
1341
|
"description": "GPT-4o real-time version, supporting real-time audio and text input and output."
|
1324
1342
|
},
|
1325
|
-
"gpt-4o-realtime-preview-
|
1326
|
-
"description": "GPT-4o real-time version
|
1343
|
+
"gpt-4o-realtime-preview-2025-06-03": {
|
1344
|
+
"description": "GPT-4o real-time version supporting real-time audio and text input and output."
|
1327
1345
|
},
|
1328
1346
|
"gpt-4o-search-preview": {
|
1329
1347
|
"description": "GPT-4o Search Preview is a model specifically trained to understand and execute web search queries, using the Chat Completions API. In addition to token fees, web search queries incur charges per tool invocation."
|
1330
1348
|
},
|
1349
|
+
"gpt-4o-transcribe": {
|
1350
|
+
"description": "GPT-4o Transcribe is a speech-to-text model that uses GPT-4o to transcribe audio. Compared to the original Whisper model, it improves word error rate, language recognition, and accuracy. Use it for more precise transcriptions."
|
1351
|
+
},
|
1331
1352
|
"grok-2-1212": {
|
1332
1353
|
"description": "This model has improved in accuracy, instruction adherence, and multilingual capabilities."
|
1333
1354
|
},
|
@@ -1460,6 +1481,9 @@
|
|
1460
1481
|
"jina-deepsearch-v1": {
|
1461
1482
|
"description": "DeepSearch combines web search, reading, and reasoning for comprehensive investigations. You can think of it as an agent that takes on your research tasks—it conducts extensive searches and iterates multiple times before providing answers. This process involves ongoing research, reasoning, and problem-solving from various angles. This fundamentally differs from standard large models that generate answers directly from pre-trained data and traditional RAG systems that rely on one-time surface searches."
|
1462
1483
|
},
|
1484
|
+
"kimi-k2-0711-preview": {
|
1485
|
+
"description": "kimi-k2 is a MoE architecture base model with powerful coding and agent capabilities, totaling 1 trillion parameters with 32 billion active parameters. In benchmark tests across general knowledge reasoning, programming, mathematics, and agent tasks, the K2 model outperforms other mainstream open-source models."
|
1486
|
+
},
|
1463
1487
|
"kimi-latest": {
|
1464
1488
|
"description": "The Kimi Smart Assistant product uses the latest Kimi large model, which may include features that are not yet stable. It supports image understanding and will automatically select the 8k/32k/128k model as the billing model based on the length of the request context."
|
1465
1489
|
},
|
@@ -2352,7 +2376,7 @@
|
|
2352
2376
|
"description": "The v0-1.5-md model is suitable for everyday tasks and user interface (UI) generation."
|
2353
2377
|
},
|
2354
2378
|
"whisper-1": {
|
2355
|
-
"description": "A
|
2379
|
+
"description": "A general-purpose speech recognition model supporting multilingual speech recognition, speech translation, and language identification."
|
2356
2380
|
},
|
2357
2381
|
"wizardlm2": {
|
2358
2382
|
"description": "WizardLM 2 is a language model provided by Microsoft AI, excelling in complex dialogues, multilingual capabilities, reasoning, and intelligent assistant applications."
|
@@ -71,44 +71,23 @@
|
|
71
71
|
"DeepSeek-V3": {
|
72
72
|
"description": "DeepSeek-V3 es un modelo MoE desarrollado internamente por la empresa DeepSeek. Los resultados de DeepSeek-V3 en múltiples evaluaciones superan a otros modelos de código abierto como Qwen2.5-72B y Llama-3.1-405B, y su rendimiento es comparable al de los modelos cerrados de primer nivel mundial como GPT-4o y Claude-3.5-Sonnet."
|
73
73
|
},
|
74
|
-
"Doubao-1.5-thinking-pro-m": {
|
75
|
-
"description": "Doubao-1.5 es un nuevo modelo de pensamiento profundo (la versión m incluye capacidades de razonamiento multimodal nativas), destacándose en campos profesionales como matemáticas, programación, razonamiento científico y tareas generales como la escritura creativa, alcanzando o acercándose a los niveles de élite en múltiples pruebas de referencia como AIME 2024, Codeforces y GPQA. Soporta una ventana de contexto de 128k y una salida de 16k."
|
76
|
-
},
|
77
|
-
"Doubao-1.5-thinking-vision-pro": {
|
78
|
-
"description": "Modelo de pensamiento profundo visual completamente nuevo, que posee una mayor capacidad de comprensión y razonamiento multimodal general, logrando un rendimiento SOTA en 37 de los 59 estándares de evaluación pública."
|
79
|
-
},
|
80
|
-
"Doubao-1.5-vision-pro": {
|
81
|
-
"description": "Doubao-1.5-vision-pro es un modelo multimodal de gran escala actualizado, que soporta el reconocimiento de imágenes de cualquier resolución y proporciones extremas, mejorando la capacidad de razonamiento visual, reconocimiento de documentos, comprensión de información detallada y seguimiento de instrucciones."
|
82
|
-
},
|
83
|
-
"Doubao-1.5-vision-pro-32k": {
|
84
|
-
"description": "Doubao-1.5-vision-pro es un modelo multimodal de gran tamaño, actualizado, que soporta el reconocimiento de imágenes de cualquier resolución y proporciones extremas, mejorando la capacidad de razonamiento visual, reconocimiento de documentos, comprensión de información detallada y cumplimiento de instrucciones."
|
85
|
-
},
|
86
74
|
"Doubao-lite-128k": {
|
87
|
-
"description": "Doubao-lite
|
75
|
+
"description": "Doubao-lite ofrece una velocidad de respuesta excepcional y una mejor relación calidad-precio, proporcionando opciones más flexibles para diferentes escenarios de los clientes. Soporta inferencia y ajuste fino con una ventana de contexto de 128k."
|
88
76
|
},
|
89
77
|
"Doubao-lite-32k": {
|
90
|
-
"description": "Doubao-lite
|
78
|
+
"description": "Doubao-lite ofrece una velocidad de respuesta excepcional y una mejor relación calidad-precio, proporcionando opciones más flexibles para diferentes escenarios de los clientes. Soporta inferencia y ajuste fino con una ventana de contexto de 32k."
|
91
79
|
},
|
92
80
|
"Doubao-lite-4k": {
|
93
|
-
"description": "Doubao-lite
|
81
|
+
"description": "Doubao-lite ofrece una velocidad de respuesta excepcional y una mejor relación calidad-precio, proporcionando opciones más flexibles para diferentes escenarios de los clientes. Soporta inferencia y ajuste fino con una ventana de contexto de 4k."
|
94
82
|
},
|
95
83
|
"Doubao-pro-128k": {
|
96
|
-
"description": "El modelo principal
|
97
|
-
},
|
98
|
-
"Doubao-pro-256k": {
|
99
|
-
"description": "El modelo principal con el mejor rendimiento, adecuado para manejar tareas complejas, mostrando buenos resultados en escenarios como preguntas y respuestas de referencia, resúmenes, creación, clasificación de textos y juegos de roles. Soporta razonamiento y ajuste fino con una ventana de contexto de 256k."
|
84
|
+
"description": "El modelo principal con mejor rendimiento, adecuado para tareas complejas, con excelentes resultados en preguntas de referencia, resúmenes, creación, clasificación de texto, juegos de rol y otros escenarios. Soporta inferencia y ajuste fino con una ventana de contexto de 128k."
|
100
85
|
},
|
101
86
|
"Doubao-pro-32k": {
|
102
|
-
"description": "El modelo principal
|
87
|
+
"description": "El modelo principal con mejor rendimiento, adecuado para tareas complejas, con excelentes resultados en preguntas de referencia, resúmenes, creación, clasificación de texto, juegos de rol y otros escenarios. Soporta inferencia y ajuste fino con una ventana de contexto de 32k."
|
103
88
|
},
|
104
89
|
"Doubao-pro-4k": {
|
105
|
-
"description": "El modelo principal
|
106
|
-
},
|
107
|
-
"Doubao-vision-lite-32k": {
|
108
|
-
"description": "El modelo Doubao-vision es un modelo multimodal lanzado por Doubao, que cuenta con potentes capacidades de comprensión e inferencia de imágenes, así como una precisa capacidad de comprensión de instrucciones. El modelo ha demostrado un rendimiento excepcional en la extracción de información textual de imágenes y en tareas de razonamiento basadas en imágenes, siendo aplicable a tareas de preguntas y respuestas visuales más complejas y amplias."
|
109
|
-
},
|
110
|
-
"Doubao-vision-pro-32k": {
|
111
|
-
"description": "El modelo Doubao-vision es un modelo multimodal lanzado por Doubao, que cuenta con potentes capacidades de comprensión e inferencia de imágenes, así como una precisa capacidad de comprensión de instrucciones. El modelo ha demostrado un rendimiento excepcional en la extracción de información textual de imágenes y en tareas de razonamiento basadas en imágenes, siendo aplicable a tareas de preguntas y respuestas visuales más complejas y amplias."
|
90
|
+
"description": "El modelo principal con mejor rendimiento, adecuado para tareas complejas, con excelentes resultados en preguntas de referencia, resúmenes, creación, clasificación de texto, juegos de rol y otros escenarios. Soporta inferencia y ajuste fino con una ventana de contexto de 4k."
|
112
91
|
},
|
113
92
|
"ERNIE-3.5-128K": {
|
114
93
|
"description": "Modelo de lenguaje a gran escala de primera línea desarrollado por Baidu, que abarca una vasta cantidad de corpus en chino y en inglés, con potentes capacidades generales que pueden satisfacer la mayoría de los requisitos de preguntas y respuestas en diálogos, generación de contenido y aplicaciones de plugins; soporta la integración automática con el plugin de búsqueda de Baidu, garantizando la actualidad de la información en las respuestas."
|
@@ -914,9 +893,39 @@
|
|
914
893
|
"doubao-1.5-thinking-pro": {
|
915
894
|
"description": "El modelo de pensamiento profundo Doubao-1.5, completamente nuevo, destaca en campos especializados como matemáticas, programación y razonamiento científico, así como en tareas generales como la escritura creativa, alcanzando o acercándose al nivel de élite de la industria en múltiples estándares de referencia, como AIME 2024, Codeforces y GPQA. Soporta una ventana de contexto de 128k y una salida de 16k."
|
916
895
|
},
|
896
|
+
"doubao-1.5-thinking-pro-m": {
|
897
|
+
"description": "Doubao-1.5 es un nuevo modelo de pensamiento profundo (la versión m incluye capacidades nativas de inferencia multimodal profunda), que destaca en matemáticas, programación, razonamiento científico y tareas generales como escritura creativa. Alcanza o se acerca al nivel de élite en benchmarks reconocidos como AIME 2024, Codeforces y GPQA. Soporta ventana de contexto de 128k y salida de 16k."
|
898
|
+
},
|
899
|
+
"doubao-1.5-thinking-vision-pro": {
|
900
|
+
"description": "Nuevo modelo de pensamiento profundo visual con capacidades avanzadas de comprensión e inferencia multimodal general, logrando resultados SOTA en 37 de 59 benchmarks públicos."
|
901
|
+
},
|
902
|
+
"doubao-1.5-ui-tars": {
|
903
|
+
"description": "Doubao-1.5-UI-TARS es un modelo agente nativo orientado a la interacción con interfaces gráficas (GUI). Mediante capacidades humanas de percepción, razonamiento y acción, interactúa de forma fluida con la GUI."
|
904
|
+
},
|
917
905
|
"doubao-1.5-vision-lite": {
|
918
906
|
"description": "Doubao-1.5-vision-lite es un modelo multimodal de gran escala actualizado, que soporta el reconocimiento de imágenes de cualquier resolución y proporciones extremas, mejorando la capacidad de razonamiento visual, reconocimiento de documentos, comprensión de información detallada y seguimiento de instrucciones. Soporta una ventana de contexto de 128k, con una longitud de salida que admite hasta 16k tokens."
|
919
907
|
},
|
908
|
+
"doubao-1.5-vision-pro": {
|
909
|
+
"description": "Doubao-1.5-vision-pro es un modelo multimodal avanzado que soporta reconocimiento de imágenes con cualquier resolución y proporciones extremas, mejorando el razonamiento visual, reconocimiento de documentos, comprensión de detalles y seguimiento de instrucciones."
|
910
|
+
},
|
911
|
+
"doubao-1.5-vision-pro-32k": {
|
912
|
+
"description": "Doubao-1.5-vision-pro es un modelo multimodal avanzado que soporta reconocimiento de imágenes con cualquier resolución y proporciones extremas, mejorando el razonamiento visual, reconocimiento de documentos, comprensión de detalles y seguimiento de instrucciones."
|
913
|
+
},
|
914
|
+
"doubao-lite-128k": {
|
915
|
+
"description": "Ofrece una velocidad de respuesta excepcional y una mejor relación calidad-precio, proporcionando opciones más flexibles para diferentes escenarios de los clientes. Soporta inferencia y ajuste fino con una ventana de contexto de 128k."
|
916
|
+
},
|
917
|
+
"doubao-lite-32k": {
|
918
|
+
"description": "Ofrece una velocidad de respuesta excepcional y una mejor relación calidad-precio, proporcionando opciones más flexibles para diferentes escenarios de los clientes. Soporta inferencia y ajuste fino con una ventana de contexto de 32k."
|
919
|
+
},
|
920
|
+
"doubao-lite-4k": {
|
921
|
+
"description": "Ofrece una velocidad de respuesta excepcional y una mejor relación calidad-precio, proporcionando opciones más flexibles para diferentes escenarios de los clientes. Soporta inferencia y ajuste fino con una ventana de contexto de 4k."
|
922
|
+
},
|
923
|
+
"doubao-pro-256k": {
|
924
|
+
"description": "El modelo principal con mejor rendimiento, adecuado para tareas complejas, con excelentes resultados en preguntas de referencia, resúmenes, creación, clasificación de texto, juegos de rol y otros escenarios. Soporta inferencia y ajuste fino con una ventana de contexto de 256k."
|
925
|
+
},
|
926
|
+
"doubao-pro-32k": {
|
927
|
+
"description": "El modelo principal con mejor rendimiento, adecuado para tareas complejas, con excelentes resultados en preguntas de referencia, resúmenes, creación, clasificación de texto, juegos de rol y otros escenarios. Soporta inferencia y ajuste fino con una ventana de contexto de 32k."
|
928
|
+
},
|
920
929
|
"doubao-seed-1.6": {
|
921
930
|
"description": "Doubao-Seed-1.6 es un nuevo modelo multimodal de pensamiento profundo que soporta tres modos de pensamiento: automático, reflexivo y no reflexivo. En modo no reflexivo, el rendimiento del modelo mejora significativamente en comparación con Doubao-1.5-pro/250115. Soporta una ventana de contexto de 256k y una longitud máxima de salida de 16k tokens."
|
922
931
|
},
|
@@ -926,6 +935,12 @@
|
|
926
935
|
"doubao-seed-1.6-thinking": {
|
927
936
|
"description": "El modelo Doubao-Seed-1.6-thinking tiene una capacidad de pensamiento significativamente mejorada. En comparación con Doubao-1.5-thinking-pro, mejora aún más en habilidades básicas como programación, matemáticas y razonamiento lógico, y soporta comprensión visual. Soporta una ventana de contexto de 256k y una longitud máxima de salida de 16k tokens."
|
928
937
|
},
|
938
|
+
"doubao-vision-lite-32k": {
|
939
|
+
"description": "El modelo Doubao-vision es un modelo multimodal desarrollado por Doubao, con potentes capacidades de comprensión e inferencia de imágenes, así como una precisa comprensión de instrucciones. El modelo muestra un rendimiento destacado en extracción de información texto-imagen y tareas de inferencia basadas en imágenes, aplicable a tareas de preguntas visuales más complejas y amplias."
|
940
|
+
},
|
941
|
+
"doubao-vision-pro-32k": {
|
942
|
+
"description": "El modelo Doubao-vision es un modelo multimodal desarrollado por Doubao, con potentes capacidades de comprensión e inferencia de imágenes, así como una precisa comprensión de instrucciones. El modelo muestra un rendimiento destacado en extracción de información texto-imagen y tareas de inferencia basadas en imágenes, aplicable a tareas de preguntas visuales más complejas y amplias."
|
943
|
+
},
|
929
944
|
"emohaa": {
|
930
945
|
"description": "Emohaa es un modelo psicológico con capacidades de consulta profesional, ayudando a los usuarios a comprender problemas emocionales."
|
931
946
|
},
|
@@ -1313,6 +1328,9 @@
|
|
1313
1328
|
"gpt-4o-mini-search-preview": {
|
1314
1329
|
"description": "GPT-4o mini versión preliminar de búsqueda es un modelo entrenado específicamente para comprender y ejecutar consultas de búsqueda web, utilizando la API de Chat Completions. Además de los costos por tokens, las consultas de búsqueda web incurren en cargos por cada llamada a la herramienta."
|
1315
1330
|
},
|
1331
|
+
"gpt-4o-mini-transcribe": {
|
1332
|
+
"description": "GPT-4o Mini Transcribe es un modelo de conversión de voz a texto que utiliza GPT-4o para transcribir audio. En comparación con el modelo Whisper original, mejora la tasa de error de palabras y aumenta la precisión y el reconocimiento del idioma. Úselo para obtener transcripciones más precisas."
|
1333
|
+
},
|
1316
1334
|
"gpt-4o-mini-tts": {
|
1317
1335
|
"description": "GPT-4o mini TTS es un modelo de texto a voz basado en GPT-4o mini, que ofrece generación de voz de alta calidad a un costo más bajo."
|
1318
1336
|
},
|
@@ -1322,12 +1340,15 @@
|
|
1322
1340
|
"gpt-4o-realtime-preview-2024-10-01": {
|
1323
1341
|
"description": "Versión en tiempo real de GPT-4o, que admite entrada y salida de audio y texto en tiempo real."
|
1324
1342
|
},
|
1325
|
-
"gpt-4o-realtime-preview-
|
1326
|
-
"description": "Versión en tiempo real de GPT-4o, que
|
1343
|
+
"gpt-4o-realtime-preview-2025-06-03": {
|
1344
|
+
"description": "Versión en tiempo real de GPT-4o, que soporta entrada y salida de audio y texto en tiempo real."
|
1327
1345
|
},
|
1328
1346
|
"gpt-4o-search-preview": {
|
1329
1347
|
"description": "GPT-4o versión preliminar de búsqueda es un modelo entrenado específicamente para comprender y ejecutar consultas de búsqueda web, utilizando la API de Chat Completions. Además de los costos por tokens, las consultas de búsqueda web incurren en cargos por cada llamada a la herramienta."
|
1330
1348
|
},
|
1349
|
+
"gpt-4o-transcribe": {
|
1350
|
+
"description": "GPT-4o Transcribe es un modelo de conversión de voz a texto que utiliza GPT-4o para transcribir audio. En comparación con el modelo Whisper original, mejora la tasa de error de palabras y aumenta la precisión y el reconocimiento del idioma. Úselo para obtener transcripciones más precisas."
|
1351
|
+
},
|
1331
1352
|
"grok-2-1212": {
|
1332
1353
|
"description": "Este modelo ha mejorado en precisión, cumplimiento de instrucciones y capacidades multilingües."
|
1333
1354
|
},
|
@@ -1460,6 +1481,9 @@
|
|
1460
1481
|
"jina-deepsearch-v1": {
|
1461
1482
|
"description": "La búsqueda profunda combina la búsqueda en la web, la lectura y el razonamiento para realizar investigaciones exhaustivas. Puedes considerarlo como un agente que acepta tus tareas de investigación: realiza una búsqueda amplia y pasa por múltiples iteraciones antes de proporcionar una respuesta. Este proceso implica una investigación continua, razonamiento y resolución de problemas desde diferentes ángulos. Esto es fundamentalmente diferente de los grandes modelos estándar que generan respuestas directamente a partir de datos preentrenados y de los sistemas RAG tradicionales que dependen de búsquedas superficiales únicas."
|
1462
1483
|
},
|
1484
|
+
"kimi-k2-0711-preview": {
|
1485
|
+
"description": "kimi-k2 es un modelo base con arquitectura MoE que posee capacidades excepcionales en código y agentes, con un total de 1T parámetros y 32B parámetros activados. En pruebas de rendimiento en categorías principales como razonamiento general, programación, matemáticas y agentes, el modelo K2 supera a otros modelos de código abierto populares."
|
1486
|
+
},
|
1463
1487
|
"kimi-latest": {
|
1464
1488
|
"description": "El producto asistente inteligente Kimi utiliza el último modelo grande de Kimi, que puede incluir características que aún no están estables. Soporta la comprensión de imágenes y seleccionará automáticamente el modelo de facturación de 8k/32k/128k según la longitud del contexto de la solicitud."
|
1465
1489
|
},
|
@@ -2352,7 +2376,7 @@
|
|
2352
2376
|
"description": "El modelo v0-1.5-md es adecuado para tareas cotidianas y generación de interfaces de usuario (UI)"
|
2353
2377
|
},
|
2354
2378
|
"whisper-1": {
|
2355
|
-
"description": "Modelo de reconocimiento de voz
|
2379
|
+
"description": "Modelo universal de reconocimiento de voz que soporta reconocimiento de voz multilingüe, traducción de voz y detección de idioma."
|
2356
2380
|
},
|
2357
2381
|
"wizardlm2": {
|
2358
2382
|
"description": "WizardLM 2 es un modelo de lenguaje proporcionado por Microsoft AI, que destaca en diálogos complejos, multilingües, razonamiento y asistentes inteligentes."
|
@@ -71,44 +71,23 @@
|
|
71
71
|
"DeepSeek-V3": {
|
72
72
|
"description": "DeepSeek-V3 یک مدل MoE است که توسط شرکت DeepSeek توسعه یافته است. نتایج ارزیابیهای متعدد DeepSeek-V3 از مدلهای متن باز دیگر مانند Qwen2.5-72B و Llama-3.1-405B فراتر رفته و از نظر عملکرد با مدلهای بسته جهانی برتر مانند GPT-4o و Claude-3.5-Sonnet برابری میکند."
|
73
73
|
},
|
74
|
-
"Doubao-1.5-thinking-pro-m": {
|
75
|
-
"description": "Doubao-1.5 مدل جدید تفکر عمیق (نسخه m دارای قابلیت استدلال عمیق چندرسانهای بومی است) است که در زمینههای تخصصی مانند ریاضیات، برنامهنویسی، استدلال علمی و همچنین وظایف عمومی مانند نوشتن خلاقانه عملکرد برجستهای دارد و در چندین معیار معتبر مانند AIME 2024، Codeforces، GPQA به سطح اول صنعت دست یافته یا نزدیک شده است. این مدل از پنجره زمینه 128k و خروجی 16k پشتیبانی میکند."
|
76
|
-
},
|
77
|
-
"Doubao-1.5-thinking-vision-pro": {
|
78
|
-
"description": "مدل جدید تفکر عمیق بصری که دارای تواناییهای قویتر در درک و استدلال چندرسانهای عمومی است و در 37 مورد از 59 معیار ارزیابی عمومی عملکرد SOTA را به دست آورده است."
|
79
|
-
},
|
80
|
-
"Doubao-1.5-vision-pro": {
|
81
|
-
"description": "Doubao-1.5-vision-pro مدل بزرگ چندرسانهای بهروز شده است که از شناسایی تصاویر با هر وضوح و نسبت ابعاد بسیار طولانی پشتیبانی میکند و تواناییهای استدلال بصری، شناسایی مستندات، درک اطلاعات جزئی و پیروی از دستورات را تقویت میکند."
|
82
|
-
},
|
83
|
-
"Doubao-1.5-vision-pro-32k": {
|
84
|
-
"description": "مدل بزرگ چندرسانهای ارتقاء یافته Doubao-1.5-vision-pro، از شناسایی تصاویر با هر وضوح و نسبت ابعاد بسیار طولانی پشتیبانی میکند و تواناییهای استدلال بصری، شناسایی اسناد، درک اطلاعات جزئی و پیروی از دستورات را تقویت میکند."
|
85
|
-
},
|
86
74
|
"Doubao-lite-128k": {
|
87
|
-
"description": "Doubao-lite دارای سرعت
|
75
|
+
"description": "Doubao-lite دارای سرعت پاسخگویی بینظیر و نسبت قیمت به کارایی بهتر است و گزینههای انعطافپذیرتری را برای سناریوهای مختلف مشتریان ارائه میدهد. از پنجره متنی 128k برای استدلال و تنظیم دقیق پشتیبانی میکند."
|
88
76
|
},
|
89
77
|
"Doubao-lite-32k": {
|
90
|
-
"description": "Doubao-lite دارای سرعت
|
78
|
+
"description": "Doubao-lite دارای سرعت پاسخگویی بینظیر و نسبت قیمت به کارایی بهتر است و گزینههای انعطافپذیرتری را برای سناریوهای مختلف مشتریان ارائه میدهد. از پنجره متنی 32k برای استدلال و تنظیم دقیق پشتیبانی میکند."
|
91
79
|
},
|
92
80
|
"Doubao-lite-4k": {
|
93
|
-
"description": "Doubao-lite دارای سرعت
|
81
|
+
"description": "Doubao-lite دارای سرعت پاسخگویی بینظیر و نسبت قیمت به کارایی بهتر است و گزینههای انعطافپذیرتری را برای سناریوهای مختلف مشتریان ارائه میدهد. از پنجره متنی 4k برای استدلال و تنظیم دقیق پشتیبانی میکند."
|
94
82
|
},
|
95
83
|
"Doubao-pro-128k": {
|
96
|
-
"description": "
|
97
|
-
},
|
98
|
-
"Doubao-pro-256k": {
|
99
|
-
"description": "بهترین مدل اصلی از نظر عملکرد، مناسب برای پردازش وظایف پیچیده، در زمینههای پرسش و پاسخ مرجع، خلاصهسازی، خلاقیت، طبقهبندی متن و نقشآفرینی عملکرد خوبی دارد. از استدلال و تنظیم دقیق با پنجره زمینه 256k پشتیبانی میکند."
|
84
|
+
"description": "مدل اصلی با بهترین عملکرد، مناسب برای انجام وظایف پیچیده است و در زمینههایی مانند پاسخ به سوالات مرجع، خلاصهسازی، خلق محتوا، دستهبندی متن و نقشآفرینی عملکرد بسیار خوبی دارد. از پنجره متنی 128k برای استدلال و تنظیم دقیق پشتیبانی میکند."
|
100
85
|
},
|
101
86
|
"Doubao-pro-32k": {
|
102
|
-
"description": "
|
87
|
+
"description": "مدل اصلی با بهترین عملکرد، مناسب برای انجام وظایف پیچیده است و در زمینههایی مانند پاسخ به سوالات مرجع، خلاصهسازی، خلق محتوا، دستهبندی متن و نقشآفرینی عملکرد بسیار خوبی دارد. از پنجره متنی 32k برای استدلال و تنظیم دقیق پشتیبانی میکند."
|
103
88
|
},
|
104
89
|
"Doubao-pro-4k": {
|
105
|
-
"description": "
|
106
|
-
},
|
107
|
-
"Doubao-vision-lite-32k": {
|
108
|
-
"description": "مدل Doubao-vision یک مدل بزرگ چندرسانهای است که توسط Doubao ارائه شده و دارای تواناییهای قوی در درک و استدلال تصاویر و همچنین درک دقیق دستورات است. این مدل در استخراج اطلاعات متنی از تصاویر و وظایف استدلال مبتنی بر تصویر عملکرد قوی از خود نشان داده و میتواند در وظایف پیچیدهتر و گستردهتر پرسش و پاسخ بصری به کار رود."
|
109
|
-
},
|
110
|
-
"Doubao-vision-pro-32k": {
|
111
|
-
"description": "مدل Doubao-vision یک مدل بزرگ چندرسانهای است که توسط Doubao ارائه شده و دارای تواناییهای قوی در درک و استدلال تصاویر و همچنین درک دقیق دستورات است. این مدل در استخراج اطلاعات متنی از تصاویر و وظایف استدلال مبتنی بر تصویر عملکرد قوی از خود نشان داده و میتواند در وظایف پیچیدهتر و گستردهتر پرسش و پاسخ بصری به کار رود."
|
90
|
+
"description": "مدل اصلی با بهترین عملکرد، مناسب برای انجام وظایف پیچیده است و در زمینههایی مانند پاسخ به سوالات مرجع، خلاصهسازی، خلق محتوا، دستهبندی متن و نقشآفرینی عملکرد بسیار خوبی دارد. از پنجره متنی 4k برای استدلال و تنظیم دقیق پشتیبانی میکند."
|
112
91
|
},
|
113
92
|
"ERNIE-3.5-128K": {
|
114
93
|
"description": "مدل زبان بزرگ پرچمدار توسعهیافته توسط بایدو، که حجم عظیمی از متون چینی و انگلیسی را پوشش میدهد و دارای تواناییهای عمومی قدرتمندی است. این مدل میتواند نیازهای اکثر سناریوهای پرسش و پاسخ، تولید محتوا و استفاده از افزونهها را برآورده کند؛ همچنین از اتصال خودکار به افزونه جستجوی بایدو پشتیبانی میکند تا بهروز بودن اطلاعات پرسش و پاسخ را تضمین کند."
|
@@ -914,9 +893,39 @@
|
|
914
893
|
"doubao-1.5-thinking-pro": {
|
915
894
|
"description": "مدل تفکر عمیق جدید Doubao-1.5، در زمینههای تخصصی مانند ریاضیات، برنامهنویسی، استدلال علمی و همچنین در وظایف عمومی مانند نوشتن خلاقانه عملکرد برجستهای دارد و در معیارهای معتبر مانند AIME 2024، Codeforces و GPQA به سطح اول صنعت نزدیک یا در آن قرار دارد. از پنجره زمینه 128k و خروجی 16k پشتیبانی میکند."
|
916
895
|
},
|
896
|
+
"doubao-1.5-thinking-pro-m": {
|
897
|
+
"description": "مدل تفکر عمیق جدید Doubao-1.5 (نسخه m دارای قابلیت استدلال چندرسانهای بومی) است که در حوزههای تخصصی مانند ریاضیات، برنامهنویسی، استدلال علمی و همچنین وظایف عمومی مانند نوشتن خلاقانه عملکرد برجستهای دارد و در معیارهای معتبر AIME 2024، Codeforces، GPQA و غیره به سطح اول صنعت نزدیک یا در آن قرار دارد. از پنجره متنی 128k و خروجی 16k پشتیبانی میکند."
|
898
|
+
},
|
899
|
+
"doubao-1.5-thinking-vision-pro": {
|
900
|
+
"description": "مدل جدید تفکر عمیق بصری با تواناییهای قویتر در درک و استدلال چندرسانهای عمومی، که در 37 مورد از 59 معیار ارزیابی عمومی به عملکرد برتر (SOTA) دست یافته است."
|
901
|
+
},
|
902
|
+
"doubao-1.5-ui-tars": {
|
903
|
+
"description": "Doubao-1.5-UI-TARS یک مدل عامل بومی برای تعامل با رابطهای گرافیکی کاربری (GUI) است. با تواناییهای انسانی مانند ادراک، استدلال و اقدام، تعامل بیوقفه با GUI را فراهم میکند."
|
904
|
+
},
|
917
905
|
"doubao-1.5-vision-lite": {
|
918
906
|
"description": "Doubao-1.5-vision-lite مدل بزرگ چندرسانهای بهروز شده است که از شناسایی تصاویر با هر وضوح و نسبت ابعاد بسیار طولانی پشتیبانی میکند و تواناییهای استدلال بصری، شناسایی مستندات، درک اطلاعات جزئی و پیروی از دستورات را تقویت میکند. از پنجره متن 128k و حداکثر طول خروجی 16k توکن پشتیبانی میکند."
|
919
907
|
},
|
908
|
+
"doubao-1.5-vision-pro": {
|
909
|
+
"description": "مدل چندرسانهای بزرگ Doubao-1.5-vision-pro بهروزرسانی شده که از شناسایی تصاویر با هر وضوح و نسبت ابعاد بسیار طولانی پشتیبانی میکند و تواناییهای استدلال بصری، شناسایی اسناد، درک جزئیات و پیروی از دستورات را تقویت میکند."
|
910
|
+
},
|
911
|
+
"doubao-1.5-vision-pro-32k": {
|
912
|
+
"description": "مدل چندرسانهای بزرگ Doubao-1.5-vision-pro بهروزرسانی شده که از شناسایی تصاویر با هر وضوح و نسبت ابعاد بسیار طولانی پشتیبانی میکند و تواناییهای استدلال بصری، شناسایی اسناد، درک جزئیات و پیروی از دستورات را تقویت میکند."
|
913
|
+
},
|
914
|
+
"doubao-lite-128k": {
|
915
|
+
"description": "دارای سرعت پاسخگویی بینظیر و نسبت قیمت به کارایی بهتر است و گزینههای انعطافپذیرتری را برای سناریوهای مختلف مشتریان ارائه میدهد. از پنجره متنی 128k برای استدلال و تنظیم دقیق پشتیبانی میکند."
|
916
|
+
},
|
917
|
+
"doubao-lite-32k": {
|
918
|
+
"description": "دارای سرعت پاسخگویی بینظیر و نسبت قیمت به کارایی بهتر است و گزینههای انعطافپذیرتری را برای سناریوهای مختلف مشتریان ارائه میدهد. از پنجره متنی 32k برای استدلال و تنظیم دقیق پشتیبانی میکند."
|
919
|
+
},
|
920
|
+
"doubao-lite-4k": {
|
921
|
+
"description": "دارای سرعت پاسخگویی بینظیر و نسبت قیمت به کارایی بهتر است و گزینههای انعطافپذیرتری را برای سناریوهای مختلف مشتریان ارائه میدهد. از پنجره متنی 4k برای استدلال و تنظیم دقیق پشتیبانی میکند."
|
922
|
+
},
|
923
|
+
"doubao-pro-256k": {
|
924
|
+
"description": "مدل اصلی با بهترین عملکرد، مناسب برای انجام وظایف پیچیده است و در زمینههایی مانند پاسخ به سوالات مرجع، خلاصهسازی، خلق محتوا، دستهبندی متن و نقشآفرینی عملکرد بسیار خوبی دارد. از پنجره متنی 256k برای استدلال و تنظیم دقیق پشتیبانی میکند."
|
925
|
+
},
|
926
|
+
"doubao-pro-32k": {
|
927
|
+
"description": "مدل اصلی با بهترین عملکرد، مناسب برای انجام وظایف پیچیده است و در زمینههایی مانند پاسخ به سوالات مرجع، خلاصهسازی، خلق محتوا، دستهبندی متن و نقشآفرینی عملکرد بسیار خوبی دارد. از پنجره متنی 32k برای استدلال و تنظیم دقیق پشتیبانی میکند."
|
928
|
+
},
|
920
929
|
"doubao-seed-1.6": {
|
921
930
|
"description": "مدل تفکر عمیق چندرسانهای جدید Doubao-Seed-1.6 که از سه حالت تفکر auto/thinking/non-thinking پشتیبانی میکند. در حالت non-thinking، عملکرد مدل نسبت به Doubao-1.5-pro/250115 بهطور قابل توجهی بهبود یافته است. از پنجره متنی ۲۵۶ هزار توکنی پشتیبانی میکند و طول خروجی تا ۱۶ هزار توکن را امکانپذیر میسازد."
|
922
931
|
},
|
@@ -926,6 +935,12 @@
|
|
926
935
|
"doubao-seed-1.6-thinking": {
|
927
936
|
"description": "مدل Doubao-Seed-1.6-thinking با توانایی تفکر بهطور قابل توجهی تقویت شده است، نسبت به Doubao-1.5-thinking-pro در مهارتهای پایهای مانند برنامهنویسی، ریاضیات و استدلال منطقی پیشرفت داشته و از درک تصویری پشتیبانی میکند. از پنجره متنی ۲۵۶ هزار توکنی پشتیبانی میکند و طول خروجی تا ۱۶ هزار توکن را امکانپذیر میسازد."
|
928
937
|
},
|
938
|
+
"doubao-vision-lite-32k": {
|
939
|
+
"description": "مدل Doubao-vision یک مدل چندرسانهای بزرگ است که توسط Doubao ارائه شده و دارای تواناییهای قوی در درک و استدلال تصاویر و همچنین درک دقیق دستورات است. این مدل در استخراج اطلاعات متنی از تصاویر و وظایف استدلال مبتنی بر تصویر عملکرد قدرتمندی نشان داده و میتواند در وظایف پیچیدهتر و گستردهتر پرسش و پاسخ بصری به کار رود."
|
940
|
+
},
|
941
|
+
"doubao-vision-pro-32k": {
|
942
|
+
"description": "مدل Doubao-vision یک مدل چندرسانهای بزرگ است که توسط Doubao ارائه شده و دارای تواناییهای قوی در درک و استدلال تصاویر و همچنین درک دقیق دستورات است. این مدل در استخراج اطلاعات متنی از تصاویر و وظایف استدلال مبتنی بر تصویر عملکرد قدرتمندی نشان داده و میتواند در وظایف پیچیدهتر و گستردهتر پرسش و پاسخ بصری به کار رود."
|
943
|
+
},
|
929
944
|
"emohaa": {
|
930
945
|
"description": "Emohaa یک مدل روانشناختی است که دارای توانایی مشاوره حرفهای بوده و به کاربران در درک مسائل احساسی کمک میکند."
|
931
946
|
},
|
@@ -1313,6 +1328,9 @@
|
|
1313
1328
|
"gpt-4o-mini-search-preview": {
|
1314
1329
|
"description": "نسخه پیشنمایش جستجوی GPT-4o mini مدلی است که به طور خاص برای درک و اجرای پرسشهای جستجوی وب آموزش دیده است و از API تکمیل چت استفاده میکند. علاوه بر هزینه توکنها، هر پرسش جستجوی وب بر اساس هر بار فراخوانی ابزار هزینه دریافت میکند."
|
1315
1330
|
},
|
1331
|
+
"gpt-4o-mini-transcribe": {
|
1332
|
+
"description": "GPT-4o Mini Transcribe یک مدل تبدیل گفتار به متن است که از GPT-4o برای رونویسی صوت استفاده میکند. نسبت به مدل اصلی Whisper، نرخ خطای کلمات را کاهش داده و دقت و شناسایی زبان را بهبود بخشیده است. از آن برای دریافت رونویسی دقیقتر استفاده کنید."
|
1333
|
+
},
|
1316
1334
|
"gpt-4o-mini-tts": {
|
1317
1335
|
"description": "GPT-4o mini TTS یک مدل تبدیل متن به گفتار است که بر اساس GPT-4o mini ساخته شده است و با قیمت پایین تری از GPT-4o mini ارائه میدهد."
|
1318
1336
|
},
|
@@ -1322,12 +1340,15 @@
|
|
1322
1340
|
"gpt-4o-realtime-preview-2024-10-01": {
|
1323
1341
|
"description": "نسخه زنده GPT-4o، پشتیبانی از ورودی و خروجی صوتی و متنی به صورت زنده."
|
1324
1342
|
},
|
1325
|
-
"gpt-4o-realtime-preview-
|
1326
|
-
"description": "نسخه
|
1343
|
+
"gpt-4o-realtime-preview-2025-06-03": {
|
1344
|
+
"description": "نسخه بلادرنگ GPT-4o که از ورودی و خروجی همزمان صوت و متن پشتیبانی میکند."
|
1327
1345
|
},
|
1328
1346
|
"gpt-4o-search-preview": {
|
1329
1347
|
"description": "نسخه پیشنمایش جستجوی GPT-4o مدلی است که به طور خاص برای درک و اجرای پرسشهای جستجوی وب آموزش دیده است و از API تکمیل چت استفاده میکند. علاوه بر هزینه توکنها، هر پرسش جستجوی وب بر اساس هر بار فراخوانی ابزار هزینه دریافت میکند."
|
1330
1348
|
},
|
1349
|
+
"gpt-4o-transcribe": {
|
1350
|
+
"description": "GPT-4o Transcribe یک مدل تبدیل گفتار به متن است که از GPT-4o برای رونویسی صوت استفاده میکند. نسبت به مدل اصلی Whisper، نرخ خطای کلمات را کاهش داده و دقت و شناسایی زبان را بهبود بخشیده است. از آن برای دریافت رونویسی دقیقتر استفاده کنید."
|
1351
|
+
},
|
1331
1352
|
"grok-2-1212": {
|
1332
1353
|
"description": "این مدل در دقت، پیروی از دستورات و توانایی چند زبانه بهبود یافته است."
|
1333
1354
|
},
|
@@ -1460,6 +1481,9 @@
|
|
1460
1481
|
"jina-deepsearch-v1": {
|
1461
1482
|
"description": "جستجوی عمیق ترکیبی از جستجوی اینترنتی، خواندن و استدلال است که میتواند تحقیقات جامع را انجام دهد. میتوانید آن را به عنوان یک نماینده در نظر بگیرید که وظایف تحقیق شما را میپذیرد - این نماینده جستجوی گستردهای انجام میدهد و پس از چندین بار تکرار، پاسخ را ارائه میدهد. این فرآیند شامل تحقیق مداوم، استدلال و حل مسئله از زوایای مختلف است. این با مدلهای بزرگ استاندارد که مستقیماً از دادههای پیشآموزش شده پاسخ تولید میکنند و سیستمهای RAG سنتی که به جستجوی سطحی یکباره وابستهاند، تفاوت اساسی دارد."
|
1462
1483
|
},
|
1484
|
+
"kimi-k2-0711-preview": {
|
1485
|
+
"description": "kimi-k2 یک مدل پایه با معماری MoE است که دارای تواناییهای بسیار قوی در کدنویسی و عاملسازی است، با مجموع یک تریلیون پارامتر و 32 میلیارد پارامتر فعال. در تستهای معیار عملکرد در حوزههای دانش عمومی، برنامهنویسی، ریاضیات و عاملها، مدل K2 عملکردی فراتر از سایر مدلهای متنباز اصلی دارد."
|
1486
|
+
},
|
1463
1487
|
"kimi-latest": {
|
1464
1488
|
"description": "محصول دستیار هوشمند کیمی از جدیدترین مدل بزرگ کیمی استفاده میکند و ممکن است شامل ویژگیهای ناپایدار باشد. از درک تصویر پشتیبانی میکند و بهطور خودکار بر اساس طول متن درخواست، مدلهای 8k/32k/128k را بهعنوان مدل محاسبه انتخاب میکند."
|
1465
1489
|
},
|
@@ -2352,7 +2376,7 @@
|
|
2352
2376
|
"description": "مدل v0-1.5-md برای وظایف روزمره و تولید رابط کاربری (UI) مناسب است"
|
2353
2377
|
},
|
2354
2378
|
"whisper-1": {
|
2355
|
-
"description": "مدل شناسایی گفتار
|
2379
|
+
"description": "مدل شناسایی گفتار عمومی که از شناسایی گفتار چندزبانه، ترجمه گفتار و شناسایی زبان پشتیبانی میکند."
|
2356
2380
|
},
|
2357
2381
|
"wizardlm2": {
|
2358
2382
|
"description": "WizardLM 2 یک مدل زبانی ارائه شده توسط هوش مصنوعی مایکروسافت است که در مکالمات پیچیده، چندزبانه، استدلال و دستیارهای هوشمند عملکرد برجستهای دارد."
|