@lobehub/chat 1.142.0 → 1.142.2
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/CHANGELOG.md +50 -0
- package/Dockerfile +3 -3
- package/Dockerfile.database +3 -3
- package/Dockerfile.pglite +3 -3
- package/README.md +1 -1
- package/README.zh-CN.md +1 -1
- package/changelog/v1.json +18 -0
- package/docs/self-hosting/advanced/model-list.mdx +11 -0
- package/docs/self-hosting/advanced/model-list.zh-CN.mdx +11 -0
- package/docs/self-hosting/environment-variables/model-provider.mdx +23 -14
- package/docs/self-hosting/environment-variables/model-provider.zh-CN.mdx +23 -14
- package/docs/usage/providers/aihubmix.zh-CN.mdx +1 -4
- package/locales/ar/models.json +17 -8
- package/locales/bg-BG/models.json +17 -8
- package/locales/de-DE/models.json +17 -8
- package/locales/en-US/models.json +17 -8
- package/locales/es-ES/models.json +17 -8
- package/locales/fa-IR/models.json +17 -8
- package/locales/fr-FR/models.json +17 -8
- package/locales/it-IT/models.json +17 -8
- package/locales/ja-JP/models.json +17 -8
- package/locales/ko-KR/models.json +17 -8
- package/locales/nl-NL/models.json +17 -8
- package/locales/pl-PL/models.json +17 -8
- package/locales/pt-BR/models.json +17 -8
- package/locales/ru-RU/models.json +17 -8
- package/locales/tr-TR/models.json +17 -8
- package/locales/vi-VN/models.json +17 -8
- package/locales/zh-CN/models.json +17 -8
- package/locales/zh-TW/models.json +17 -8
- package/package.json +2 -2
- package/packages/context-engine/src/processors/__tests__/MessageContent.test.ts +17 -17
- package/packages/context-engine/src/types.ts +4 -4
- package/packages/database/src/models/__tests__/generation.test.ts +2 -2
- package/packages/database/src/models/__tests__/generationBatch.test.ts +1 -1
- package/packages/database/src/models/__tests__/generationTopic.test.ts +2 -4
- package/packages/database/src/models/__tests__/message.test.ts +2 -2
- package/packages/database/src/models/asyncTask.ts +3 -4
- package/packages/database/src/models/chatGroup.ts +2 -2
- package/packages/database/src/models/chunk.ts +2 -3
- package/packages/database/src/models/drizzleMigration.ts +1 -1
- package/packages/database/src/models/file.ts +1 -2
- package/packages/database/src/models/generation.ts +8 -4
- package/packages/database/src/models/generationBatch.ts +1 -1
- package/packages/database/src/models/generationTopic.ts +2 -2
- package/packages/database/src/models/knowledgeBase.ts +2 -3
- package/packages/database/src/models/message.ts +9 -9
- package/packages/database/src/models/session.ts +8 -10
- package/packages/database/src/models/thread.ts +2 -3
- package/packages/database/src/models/topic.ts +2 -4
- package/packages/database/src/models/user.ts +1 -2
- package/packages/database/src/schemas/generation.ts +1 -2
- package/packages/database/src/schemas/message.ts +1 -3
- package/packages/model-runtime/src/core/streams/anthropic.ts +1 -2
- package/packages/model-runtime/src/core/streams/protocol.ts +1 -2
- package/packages/model-runtime/src/core/usageConverters/anthropic.ts +1 -2
- package/packages/model-runtime/src/core/usageConverters/google-ai.ts +1 -2
- package/packages/model-runtime/src/core/usageConverters/utils/computeChatCost.test.ts +1 -2
- package/packages/model-runtime/src/core/usageConverters/utils/computeChatCost.ts +1 -2
- package/packages/model-runtime/src/core/usageConverters/utils/withUsageCost.ts +1 -2
- package/packages/model-runtime/src/types/image.ts +1 -2
- package/packages/prompts/src/chains/__tests__/summaryHistory.test.ts +2 -2
- package/packages/prompts/src/chains/summaryHistory.ts +2 -2
- package/packages/prompts/src/chains/summaryTitle.ts +2 -3
- package/packages/prompts/src/contexts/supervisor/makeDecision.ts +2 -2
- package/packages/prompts/src/prompts/chatMessages/index.test.ts +11 -11
- package/packages/prompts/src/prompts/chatMessages/index.ts +13 -10
- package/packages/prompts/src/prompts/groupChat/index.test.ts +3 -4
- package/packages/prompts/src/prompts/groupChat/index.ts +3 -3
- package/packages/types/src/aiChat.ts +2 -2
- package/packages/types/src/exportConfig.ts +6 -6
- package/packages/types/src/importer.ts +2 -2
- package/packages/types/src/index.ts +2 -0
- package/packages/types/src/message/common/base.ts +27 -0
- package/packages/types/src/message/common/index.ts +5 -0
- package/packages/types/src/message/common/metadata.ts +67 -0
- package/packages/types/src/message/{tools.ts → common/tools.ts} +1 -1
- package/packages/types/src/message/common/translate.ts +8 -0
- package/packages/types/src/message/db/index.ts +2 -0
- package/packages/types/src/message/db/item.ts +29 -0
- package/packages/types/src/message/db/params.ts +57 -0
- package/packages/types/src/message/index.ts +3 -6
- package/packages/types/src/message/{chat.ts → ui/chat.ts} +13 -40
- package/packages/types/src/message/ui/extra.ts +16 -0
- package/packages/types/src/message/ui/index.ts +4 -0
- package/packages/types/src/message/{rag.ts → ui/rag.ts} +11 -1
- package/src/app/[variants]/(main)/chat/(workspace)/@conversation/features/ChatInput/V1Mobile/useSend.ts +1 -1
- package/src/app/[variants]/(main)/chat/(workspace)/features/ShareButton/index.tsx +0 -3
- package/src/app/[variants]/(main)/profile/stats/features/ModelsRank.tsx +1 -1
- package/src/app/[variants]/(main)/settings/llm/components/Checker.tsx +1 -2
- package/src/app/[variants]/(main)/settings/provider/detail/ollama/CheckError.tsx +1 -2
- package/src/app/[variants]/(main)/settings/provider/features/CreateNewProvider/index.tsx +1 -2
- package/src/app/[variants]/(main)/settings/provider/features/ProviderConfig/Checker.tsx +1 -2
- package/src/database/_deprecated/models/__tests__/message.test.ts +6 -7
- package/src/database/_deprecated/models/message.ts +13 -13
- package/src/features/AgentSetting/AgentTTS/SelectWithTTSPreview.tsx +1 -1
- package/src/features/ChatInput/ActionBar/STT/browser.tsx +1 -1
- package/src/features/ChatInput/ActionBar/STT/common.tsx +1 -2
- package/src/features/ChatInput/ActionBar/STT/openai.tsx +1 -1
- package/src/features/ChatItem/components/ErrorContent.tsx +5 -0
- package/src/features/Conversation/Error/ErrorJsonViewer.tsx +1 -2
- package/src/features/Conversation/Error/OllamaBizError/index.tsx +2 -3
- package/src/features/Conversation/Error/index.tsx +3 -4
- package/src/features/Conversation/Error/style.tsx +5 -1
- package/src/features/Conversation/Messages/Assistant/Actions/index.tsx +2 -2
- package/src/features/Conversation/Messages/Assistant/Block.tsx +1 -1
- package/src/features/Conversation/Messages/Assistant/Extra/index.test.tsx +2 -2
- package/src/features/Conversation/Messages/Assistant/Extra/index.tsx +1 -1
- package/src/features/Conversation/Messages/Assistant/FileChunks/Item/index.tsx +1 -1
- package/src/features/Conversation/Messages/Assistant/FileChunks/index.tsx +1 -2
- package/src/features/Conversation/Messages/Assistant/MessageContent.tsx +2 -2
- package/src/features/Conversation/Messages/Assistant/Tool/Render/CustomRender.tsx +2 -2
- package/src/features/Conversation/Messages/Assistant/Tool/Render/ErrorResponse.tsx +1 -2
- package/src/features/Conversation/Messages/Assistant/Tool/Render/PluginSettings.tsx +1 -1
- package/src/features/Conversation/Messages/Assistant/index.tsx +2 -2
- package/src/features/Conversation/Messages/Default.tsx +3 -3
- package/src/features/Conversation/Messages/Supervisor/index.tsx +2 -2
- package/src/features/Conversation/Messages/User/Actions.tsx +2 -2
- package/src/features/Conversation/Messages/User/FileListViewer/Item.tsx +1 -1
- package/src/features/Conversation/Messages/User/FileListViewer/index.tsx +1 -2
- package/src/features/Conversation/Messages/User/MessageContent.tsx +2 -3
- package/src/features/Conversation/Messages/User/VideoFileListViewer.tsx +1 -2
- package/src/features/Conversation/Messages/User/index.tsx +2 -2
- package/src/features/Conversation/components/ChatItem/ShareMessageModal/SharePdf/index.tsx +2 -2
- package/src/features/Conversation/components/ChatItem/ShareMessageModal/SharePdf/template.ts +2 -2
- package/src/features/Conversation/components/Extras/TTS/InitPlayer.tsx +1 -1
- package/src/features/Conversation/components/Extras/TTS/Player.tsx +1 -2
- package/src/features/Conversation/components/Extras/Translate.tsx +1 -1
- package/src/features/Conversation/components/Extras/Usage/UsageDetail/index.tsx +1 -1
- package/src/features/Conversation/components/Extras/Usage/UsageDetail/tokens.ts +1 -1
- package/src/features/Conversation/components/Extras/Usage/index.tsx +1 -2
- package/src/features/Conversation/components/ShareMessageModal/ShareImage/Preview.tsx +2 -2
- package/src/features/Conversation/components/ShareMessageModal/ShareImage/index.tsx +2 -2
- package/src/features/Conversation/components/ShareMessageModal/ShareText/index.tsx +2 -2
- package/src/features/Conversation/components/ShareMessageModal/ShareText/template.test.ts +3 -3
- package/src/features/Conversation/components/ShareMessageModal/ShareText/template.ts +2 -2
- package/src/features/Conversation/components/ShareMessageModal/index.tsx +3 -3
- package/src/features/Conversation/types/index.ts +5 -5
- package/src/features/Portal/Home/Body/Files/FileList/Item.tsx +1 -1
- package/src/features/Portal/Home/Body/Plugins/ArtifactList/Item/index.tsx +1 -1
- package/src/features/Portal/Thread/Chat/ChatInput/useSend.ts +1 -1
- package/src/features/ShareModal/ShareJSON/generateMessages.test.ts +3 -3
- package/src/features/ShareModal/ShareJSON/generateMessages.ts +3 -2
- package/src/features/ShareModal/SharePdf/index.tsx +2 -2
- package/src/features/ShareModal/ShareText/template.test.ts +3 -3
- package/src/features/ShareModal/ShareText/template.ts +2 -2
- package/src/libs/langchain/loaders/code/__tests__/long.json +1 -1
- package/src/libs/langchain/loaders/code/__tests__/long.txt +1 -1
- package/src/server/routers/lambda/__tests__/message.test.ts +2 -3
- package/src/server/routers/lambda/message.ts +2 -4
- package/src/services/chat/chat.test.ts +27 -25
- package/src/services/chat/contextEngineering.test.ts +21 -21
- package/src/services/chat/contextEngineering.ts +2 -2
- package/src/services/chat/index.ts +5 -8
- package/src/services/message/_deprecated.test.ts +7 -7
- package/src/services/message/_deprecated.ts +10 -10
- package/src/services/message/client.test.ts +10 -10
- package/src/services/message/client.ts +6 -5
- package/src/services/message/server.ts +4 -3
- package/src/services/message/type.ts +10 -11
- package/src/services/thread/type.ts +2 -1
- package/src/store/chat/helpers.test.ts +5 -5
- package/src/store/chat/helpers.ts +5 -5
- package/src/store/chat/initialState.ts +0 -3
- package/src/store/chat/slices/aiChat/actions/__tests__/fixtures.ts +5 -4
- package/src/store/chat/slices/aiChat/actions/__tests__/generateAIChatV2.test.ts +4 -4
- package/src/store/chat/slices/aiChat/actions/__tests__/rag.test.ts +6 -6
- package/src/store/chat/slices/aiChat/actions/generateAIChat.ts +17 -12
- package/src/store/chat/slices/aiChat/actions/generateAIChatV2.ts +7 -8
- package/src/store/chat/slices/aiChat/actions/generateAIGroupChat.ts +10 -6
- package/src/store/chat/slices/aiChat/actions/memory.ts +2 -3
- package/src/store/chat/slices/builtinTool/actions/__tests__/dalle.test.ts +3 -3
- package/src/store/chat/slices/builtinTool/actions/__tests__/search.test.ts +3 -3
- package/src/store/chat/slices/message/action.test.ts +13 -8
- package/src/store/chat/slices/message/action.ts +19 -18
- package/src/store/chat/slices/message/initialState.ts +3 -2
- package/src/store/chat/slices/message/reducer.test.ts +6 -6
- package/src/store/chat/slices/message/reducer.ts +11 -8
- package/src/store/chat/slices/message/selectors.test.ts +9 -9
- package/src/store/chat/slices/message/selectors.ts +10 -9
- package/src/store/chat/slices/message/supervisor.ts +2 -2
- package/src/store/chat/slices/plugin/action.test.ts +16 -13
- package/src/store/chat/slices/plugin/action.ts +11 -11
- package/src/store/chat/slices/portal/selectors.test.ts +8 -8
- package/src/store/chat/slices/thread/action.test.ts +2 -2
- package/src/store/chat/slices/thread/action.ts +9 -5
- package/src/store/chat/slices/thread/selectors/index.ts +11 -11
- package/src/store/chat/slices/thread/selectors/util.ts +2 -3
- package/src/store/chat/slices/topic/action.test.ts +6 -6
- package/src/store/chat/slices/topic/action.ts +2 -3
- package/src/store/chat/slices/translate/action.ts +2 -3
- package/src/store/chat/slices/tts/action.ts +1 -1
- package/src/store/chat/store.ts +0 -3
- package/src/store/image/slices/createImage/action.test.ts +9 -2
- package/src/store/image/slices/createImage/action.ts +6 -4
- package/src/tools/local-system/Render/ListFiles/Result.tsx +1 -1
- package/src/tools/local-system/Render/ListFiles/index.tsx +1 -1
- package/src/tools/local-system/Render/ReadLocalFile/index.tsx +1 -1
- package/src/tools/local-system/Render/RenameLocalFile/index.tsx +1 -1
- package/src/tools/local-system/Render/RunCommand/index.tsx +1 -1
- package/src/tools/local-system/Render/SearchFiles/index.tsx +1 -1
- package/src/tools/local-system/Render/WriteFile/index.tsx +1 -1
- package/src/tools/web-browsing/Render/Search/index.tsx +1 -3
- package/packages/types/src/message/base.ts +0 -173
- package/packages/types/src/message/translate.ts +0 -4
- package/src/store/chat/slices/share/action.test.ts +0 -22
- package/src/store/chat/slices/share/action.ts +0 -18
- package/src/store/chat/slices/share/initialState.ts +0 -7
- /package/packages/types/src/message/{image.ts → common/image.ts} +0 -0
- /package/packages/types/src/message/{video.ts → ui/video.ts} +0 -0
|
@@ -290,12 +290,12 @@
|
|
|
290
290
|
"Pro/deepseek-ai/DeepSeek-V3": {
|
|
291
291
|
"description": "DeepSeek-V3 is a mixed expert (MoE) language model with 671 billion parameters, utilizing multi-head latent attention (MLA) and the DeepSeekMoE architecture, combined with a load balancing strategy without auxiliary loss to optimize inference and training efficiency. Pre-trained on 14.8 trillion high-quality tokens and fine-tuned with supervision and reinforcement learning, DeepSeek-V3 outperforms other open-source models and approaches leading closed-source models."
|
|
292
292
|
},
|
|
293
|
-
"Pro/deepseek-ai/DeepSeek-V3.1": {
|
|
294
|
-
"description": "DeepSeek-V3.1 is a hybrid large language model released by DeepSeek AI, featuring multiple significant upgrades over its predecessor. A key innovation of this model is the integration of both \"Thinking Mode\" and \"Non-thinking Mode,\" allowing users to flexibly switch between modes by adjusting chat templates to suit different task requirements. Through dedicated post-training optimization, V3.1 significantly enhances performance in tool invocation and Agent tasks, better supporting external search tools and executing complex multi-step tasks. Based on DeepSeek-V3.1-Base, it employs a two-stage long-text extension method to greatly increase training data volume, improving its handling of long documents and extensive code. As an open-source model, DeepSeek-V3.1 demonstrates capabilities comparable to top closed-source models across benchmarks in coding, mathematics, and reasoning. Its Mixture of Experts (MoE) architecture maintains a massive model capacity while effectively reducing inference costs."
|
|
295
|
-
},
|
|
296
293
|
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
297
294
|
"description": "DeepSeek-V3.1-Terminus is an updated version of the V3.1 model released by DeepSeek, positioned as a hybrid agent large language model. This update focuses on fixing user-reported issues and improving stability while maintaining the model's original capabilities. It significantly enhances language consistency, reducing the mixing of Chinese and English and the occurrence of abnormal characters. The model integrates both \"Thinking Mode\" and \"Non-thinking Mode,\" allowing users to switch flexibly between chat templates to suit different tasks. As a key optimization, V3.1-Terminus improves the performance of the Code Agent and Search Agent, making tool invocation and multi-step complex task execution more reliable."
|
|
298
295
|
},
|
|
296
|
+
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
297
|
+
"description": "DeepSeek-V3.2-Exp is an experimental version released by DeepSeek as an intermediate step toward the next-generation architecture. Building on V3.1-Terminus, it introduces the DeepSeek Sparse Attention (DSA) mechanism to enhance training and inference efficiency for long-context scenarios. It features targeted optimizations for tool use, long-document comprehension, and multi-step reasoning. V3.2-Exp serves as a bridge between research and production, ideal for users seeking higher inference efficiency in high-context-budget applications."
|
|
298
|
+
},
|
|
299
299
|
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
|
|
300
300
|
"description": "Kimi K2-Instruct-0905 is the latest and most powerful version of Kimi K2. It is a top-tier Mixture of Experts (MoE) language model with a total of 1 trillion parameters and 32 billion activated parameters. Key features of this model include enhanced agent coding intelligence, demonstrating significant performance improvements in public benchmark tests and real-world agent coding tasks; and an improved frontend coding experience, with advancements in both aesthetics and practicality for frontend programming."
|
|
301
301
|
},
|
|
@@ -398,6 +398,18 @@
|
|
|
398
398
|
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
|
|
399
399
|
"description": "Qwen3-Next-80B-A3B-Thinking is the next-generation foundational model released by Alibaba's Tongyi Qianwen team, specifically designed for complex reasoning tasks. It is based on the innovative Qwen3-Next architecture, which integrates a hybrid attention mechanism (Gated DeltaNet and Gated Attention) and a highly sparse mixture-of-experts (MoE) structure, aiming for ultimate training and inference efficiency. As a sparse model with a total of 80 billion parameters, it activates only about 3 billion parameters during inference, greatly reducing computational costs. When processing long-context tasks exceeding 32K tokens, its throughput is more than 10 times higher than the Qwen3-32B model. This \"Thinking\" version is optimized for executing challenging multi-step tasks such as mathematical proofs, code synthesis, logical analysis, and planning, and by default outputs the reasoning process in a structured \"chain-of-thought\" format. In terms of performance, it not only surpasses higher-cost models like Qwen3-32B-Thinking but also outperforms Gemini-2.5-Flash-Thinking on multiple benchmarks."
|
|
400
400
|
},
|
|
401
|
+
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
|
|
402
|
+
"description": "Qwen3-VL-235B-A22B-Instruct is a large instruction-tuned model in the Qwen3-VL series. Based on a Mixture of Experts (MoE) architecture, it offers exceptional multimodal understanding and generation capabilities. With native support for 256K context length, it is well-suited for high-concurrency, production-grade multimodal services."
|
|
403
|
+
},
|
|
404
|
+
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
|
|
405
|
+
"description": "Qwen3-VL-235B-A22B-Thinking is the flagship reasoning model in the Qwen3-VL series. It is specially optimized for complex multimodal reasoning, long-context inference, and agent interaction, making it ideal for enterprise-level scenarios that demand deep reasoning and visual understanding."
|
|
406
|
+
},
|
|
407
|
+
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
|
|
408
|
+
"description": "Qwen3-VL-30B-A3B-Instruct is an instruction-tuned model in the Qwen3-VL series, featuring powerful vision-language understanding and generation capabilities. With native support for 256K context length, it is suitable for multimodal dialogue and image-conditioned generation tasks."
|
|
409
|
+
},
|
|
410
|
+
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
|
|
411
|
+
"description": "Qwen3-VL-30B-A3B-Thinking is the reasoning-enhanced version of Qwen3-VL. It is optimized for multimodal reasoning, image-to-code tasks, and complex visual understanding. Supporting 256K context length, it offers stronger chain-of-thought capabilities."
|
|
412
|
+
},
|
|
401
413
|
"Qwen/Qwen3-VL-8B-Instruct": {
|
|
402
414
|
"description": "Qwen3-VL-8B-Instruct is a vision-language model from the Qwen3 series, built on Qwen3-8B-Instruct and trained on a large corpus of image-text data. It excels at general visual understanding, vision-centric dialogue, and multilingual text recognition within images. It is well-suited for tasks such as visual question answering, image captioning, multimodal instruction following, and tool invocation."
|
|
403
415
|
},
|
|
@@ -978,13 +990,13 @@
|
|
|
978
990
|
"description": "DeepSeek-V3 is a mixture of experts (MoE) language model with 671 billion parameters, utilizing multi-head latent attention (MLA) and the DeepSeekMoE architecture, combined with a load balancing strategy that does not rely on auxiliary loss, optimizing inference and training efficiency. Pre-trained on 14.8 trillion high-quality tokens and fine-tuned with supervision and reinforcement learning, DeepSeek-V3 outperforms other open-source models and approaches leading closed-source models in performance."
|
|
979
991
|
},
|
|
980
992
|
"deepseek-ai/DeepSeek-V3.1": {
|
|
981
|
-
"description": "
|
|
993
|
+
"description": "The DeepSeek V3.1 model features a hybrid reasoning architecture that supports both reasoning and non-reasoning modes."
|
|
982
994
|
},
|
|
983
995
|
"deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
984
996
|
"description": "DeepSeek-V3.1-Terminus is an updated version of the V3.1 model released by DeepSeek, positioned as a hybrid agent large language model. This update focuses on fixing user-reported issues and improving stability while maintaining the model's original capabilities. It significantly enhances language consistency, reducing the mixing of Chinese and English and the occurrence of abnormal characters. The model integrates both \"Thinking Mode\" and \"Non-thinking Mode,\" allowing users to switch flexibly between chat templates to suit different tasks. As a key optimization, V3.1-Terminus improves the performance of the Code Agent and Search Agent, making tool invocation and multi-step complex task execution more reliable."
|
|
985
997
|
},
|
|
986
998
|
"deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
987
|
-
"description": "
|
|
999
|
+
"description": "DeepSeek-V3.2-Exp is an experimental version released by DeepSeek as an intermediate step toward the next-generation architecture. Building on V3.1-Terminus, it introduces the DeepSeek Sparse Attention (DSA) mechanism to enhance training and inference efficiency for long-context scenarios. It features targeted optimizations for tool use, long-document comprehension, and multi-step reasoning. V3.2-Exp serves as a bridge between research and production, ideal for users seeking higher inference efficiency in high-context-budget applications."
|
|
988
1000
|
},
|
|
989
1001
|
"deepseek-ai/deepseek-llm-67b-chat": {
|
|
990
1002
|
"description": "DeepSeek 67B is an advanced model trained for highly complex conversations."
|
|
@@ -2474,9 +2486,6 @@
|
|
|
2474
2486
|
"mistralai/Mixtral-8x7B-v0.1": {
|
|
2475
2487
|
"description": "Mixtral 8x7B is a sparse expert model that utilizes multiple parameters to enhance reasoning speed, suitable for multilingual and code generation tasks."
|
|
2476
2488
|
},
|
|
2477
|
-
"mistralai/mistral-7b-instruct": {
|
|
2478
|
-
"description": "Mistral 7B Instruct is a high-performance industry-standard model optimized for speed and long context support."
|
|
2479
|
-
},
|
|
2480
2489
|
"mistralai/mistral-nemo": {
|
|
2481
2490
|
"description": "Mistral Nemo is a multilingual model with 7.3 billion parameters, designed for high-performance programming."
|
|
2482
2491
|
},
|
|
@@ -290,12 +290,12 @@
|
|
|
290
290
|
"Pro/deepseek-ai/DeepSeek-V3": {
|
|
291
291
|
"description": "DeepSeek-V3 es un modelo de lenguaje de expertos mixtos (MoE) con 671 mil millones de parámetros, que utiliza atención potencial de múltiples cabezas (MLA) y la arquitectura DeepSeekMoE, combinando estrategias de balanceo de carga sin pérdidas auxiliares para optimizar la eficiencia de inferencia y entrenamiento. Preentrenado en 14.8 billones de tokens de alta calidad, y ajustado mediante supervisión y aprendizaje por refuerzo, DeepSeek-V3 supera a otros modelos de código abierto y se acerca a los modelos cerrados líderes."
|
|
292
292
|
},
|
|
293
|
-
"Pro/deepseek-ai/DeepSeek-V3.1": {
|
|
294
|
-
"description": "DeepSeek-V3.1 es un modelo de lenguaje grande híbrido lanzado por DeepSeek AI, que incorpora múltiples mejoras importantes sobre su predecesor. Una innovación clave es la integración de los modos \"Pensamiento\" y \"No pensamiento\" en un solo modelo, permitiendo a los usuarios alternar flexiblemente mediante la configuración de plantillas de chat para adaptarse a diferentes tareas. Gracias a una optimización post-entrenamiento especializada, V3.1 mejora significativamente el rendimiento en llamadas a herramientas y tareas Agent, soportando mejor herramientas de búsqueda externas y la ejecución de tareas complejas en múltiples pasos. Basado en DeepSeek-V3.1-Base, se amplió considerablemente la cantidad de datos de entrenamiento mediante un método de extensión de texto largo en dos fases, mejorando su desempeño en documentos extensos y código largo. Como modelo de código abierto, DeepSeek-V3.1 demuestra capacidades comparables a los mejores modelos cerrados en benchmarks de codificación, matemáticas y razonamiento, y gracias a su arquitectura de expertos mixtos (MoE), mantiene una gran capacidad de modelo mientras reduce eficazmente los costos de inferencia."
|
|
295
|
-
},
|
|
296
293
|
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
297
294
|
"description": "DeepSeek-V3.1-Terminus es una versión actualizada del modelo V3.1 lanzado por DeepSeek, posicionada como un modelo de lenguaje grande con agentes híbridos. Esta actualización mantiene las capacidades originales del modelo, enfocándose en corregir problemas reportados por los usuarios y mejorar la estabilidad. Mejora significativamente la coherencia del lenguaje, reduciendo la mezcla de chino e inglés y la aparición de caracteres anómalos. El modelo integra el “Modo de pensamiento” y el “Modo sin pensamiento”, permitiendo a los usuarios cambiar flexiblemente mediante plantillas de chat para adaptarse a diferentes tareas. Como optimización importante, V3.1-Terminus mejora el rendimiento del agente de código y del agente de búsqueda, haciéndolos más confiables en la invocación de herramientas y en la ejecución de tareas complejas de múltiples pasos."
|
|
298
295
|
},
|
|
296
|
+
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
297
|
+
"description": "DeepSeek-V3.2-Exp es una versión experimental lanzada por DeepSeek como un paso intermedio hacia una arquitectura de próxima generación. Basado en V3.1-Terminus, introduce el mecanismo de Atención Dispersa de DeepSeek (DeepSeek Sparse Attention, DSA) para mejorar la eficiencia en el entrenamiento e inferencia con contextos largos. Ha sido especialmente optimizado para la invocación de herramientas, la comprensión de documentos extensos y el razonamiento en múltiples pasos. V3.2-Exp actúa como un puente entre la investigación y la producción, ideal para usuarios que buscan explorar una mayor eficiencia de razonamiento en escenarios con presupuestos de contexto elevados."
|
|
298
|
+
},
|
|
299
299
|
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
|
|
300
300
|
"description": "Kimi K2-Instruct-0905 es la versión más reciente y potente de Kimi K2. Es un modelo de lenguaje de expertos mixtos (MoE) de primer nivel, con un total de un billón de parámetros y 32 mil millones de parámetros activados. Las principales características de este modelo incluyen: inteligencia mejorada para agentes de codificación, mostrando un rendimiento notable en pruebas de referencia públicas y en tareas reales de agentes de codificación; y una experiencia mejorada en la codificación frontend, con avances tanto en la estética como en la funcionalidad de la programación frontend."
|
|
301
301
|
},
|
|
@@ -398,6 +398,18 @@
|
|
|
398
398
|
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
|
|
399
399
|
"description": "Qwen3-Next-80B-A3B-Thinking es un modelo base de próxima generación lanzado por el equipo Tongyi Qianwen de Alibaba, diseñado específicamente para tareas complejas de razonamiento. Basado en la innovadora arquitectura Qwen3-Next, que integra mecanismos de atención híbrida (Gated DeltaNet y Gated Attention) y una estructura de expertos mixtos altamente dispersos (MoE), busca alcanzar una eficiencia extrema en entrenamiento e inferencia. Como modelo disperso con 80 mil millones de parámetros totales, solo activa alrededor de 3 mil millones durante la inferencia, reduciendo considerablemente el costo computacional. En tareas de contexto largo que superan los 32K tokens, su rendimiento es más de 10 veces superior al modelo Qwen3-32B. Esta versión “Thinking” está optimizada para ejecutar tareas complejas de múltiples pasos como demostraciones matemáticas, síntesis de código, análisis lógico y planificación, y por defecto produce el proceso de razonamiento en forma estructurada de “cadena de pensamiento”. En rendimiento, supera no solo a modelos más costosos como Qwen3-32B-Thinking, sino también a Gemini-2.5-Flash-Thinking en múltiples benchmarks."
|
|
400
400
|
},
|
|
401
|
+
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
|
|
402
|
+
"description": "Qwen3-VL-235B-A22B-Instruct es un modelo de ajuste fino basado en instrucciones de gran escala de la serie Qwen3-VL. Basado en una arquitectura de expertos mixtos (MoE), ofrece una capacidad sobresaliente de comprensión y generación multimodal, con soporte nativo para contextos de hasta 256K, ideal para servicios multimodales de nivel de producción con alta concurrencia."
|
|
403
|
+
},
|
|
404
|
+
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
|
|
405
|
+
"description": "Qwen3-VL-235B-A22B-Thinking es la versión insignia de razonamiento de la serie Qwen3-VL, especialmente optimizada para el razonamiento multimodal complejo, el razonamiento con contextos largos y la interacción con agentes inteligentes. Es adecuada para escenarios empresariales que requieren razonamiento profundo y capacidades avanzadas de inferencia visual."
|
|
406
|
+
},
|
|
407
|
+
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
|
|
408
|
+
"description": "Qwen3-VL-30B-A3B-Instruct es una versión de ajuste fino basada en instrucciones de la serie Qwen3-VL, con potentes capacidades de comprensión y generación visual-lingüística. Soporta de forma nativa contextos de hasta 256K, siendo ideal para diálogos multimodales y tareas de generación condicionada por imágenes."
|
|
409
|
+
},
|
|
410
|
+
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
|
|
411
|
+
"description": "Qwen3-VL-30B-A3B-Thinking es la versión mejorada para razonamiento (Thinking) de Qwen3-VL, optimizada para tareas de razonamiento multimodal, conversión de imágenes a código y comprensión visual compleja. Soporta contextos de hasta 256K y posee una capacidad mejorada de razonamiento en cadena."
|
|
412
|
+
},
|
|
401
413
|
"Qwen/Qwen3-VL-8B-Instruct": {
|
|
402
414
|
"description": "Qwen3-VL-8B-Instruct es un modelo de lenguaje visual de la serie Qwen3, desarrollado a partir de Qwen3-8B-Instruct y entrenado con grandes volúmenes de datos de texto e imagen. Se especializa en comprensión visual general, diálogos centrados en lo visual y reconocimiento multilingüe de texto en imágenes. Es adecuado para tareas como preguntas y respuestas visuales, descripción de imágenes, seguimiento de instrucciones multimodales y activación de herramientas."
|
|
403
415
|
},
|
|
@@ -978,13 +990,13 @@
|
|
|
978
990
|
"description": "DeepSeek-V3 es un modelo de lenguaje de expertos mixtos (MoE) con 6710 millones de parámetros, que utiliza atención latente de múltiples cabezas (MLA) y la arquitectura DeepSeekMoE, combinando una estrategia de balanceo de carga sin pérdidas auxiliares para optimizar la eficiencia de inferencia y entrenamiento. Al ser preentrenado en 14.8 billones de tokens de alta calidad y realizar ajustes supervisados y aprendizaje reforzado, DeepSeek-V3 supera en rendimiento a otros modelos de código abierto, acercándose a los modelos cerrados líderes."
|
|
979
991
|
},
|
|
980
992
|
"deepseek-ai/DeepSeek-V3.1": {
|
|
981
|
-
"description": "
|
|
993
|
+
"description": "El modelo DeepSeek V3.1 adopta una arquitectura de inferencia híbrida, compatible tanto con el modo de razonamiento como con el modo no razonante."
|
|
982
994
|
},
|
|
983
995
|
"deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
984
996
|
"description": "DeepSeek-V3.1-Terminus es una versión actualizada del modelo V3.1 lanzado por DeepSeek, posicionada como un modelo de lenguaje grande con agentes híbridos. Esta actualización mantiene las capacidades originales del modelo, enfocándose en corregir problemas reportados por los usuarios y mejorar la estabilidad. Mejora significativamente la coherencia del lenguaje, reduciendo la mezcla de chino e inglés y la aparición de caracteres anómalos. El modelo integra el “Modo de pensamiento” y el “Modo sin pensamiento”, permitiendo a los usuarios cambiar flexiblemente mediante plantillas de chat para adaptarse a diferentes tareas. Como optimización importante, V3.1-Terminus mejora el rendimiento del agente de código y del agente de búsqueda, haciéndolos más confiables en la invocación de herramientas y en la ejecución de tareas complejas de múltiples pasos."
|
|
985
997
|
},
|
|
986
998
|
"deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
987
|
-
"description": "
|
|
999
|
+
"description": "DeepSeek-V3.2-Exp es una versión experimental lanzada por DeepSeek como un paso intermedio hacia una arquitectura de próxima generación. Basado en V3.1-Terminus, introduce el mecanismo de Atención Dispersa de DeepSeek (DeepSeek Sparse Attention, DSA) para mejorar la eficiencia en el entrenamiento e inferencia con contextos largos. Ha sido especialmente optimizado para la invocación de herramientas, la comprensión de documentos extensos y el razonamiento en múltiples pasos. V3.2-Exp actúa como un puente entre la investigación y la producción, ideal para usuarios que buscan explorar una mayor eficiencia de razonamiento en escenarios con presupuestos de contexto elevados."
|
|
988
1000
|
},
|
|
989
1001
|
"deepseek-ai/deepseek-llm-67b-chat": {
|
|
990
1002
|
"description": "DeepSeek 67B es un modelo avanzado entrenado para diálogos de alta complejidad."
|
|
@@ -2474,9 +2486,6 @@
|
|
|
2474
2486
|
"mistralai/Mixtral-8x7B-v0.1": {
|
|
2475
2487
|
"description": "Mixtral 8x7B es un modelo de expertos dispersos que utiliza múltiples parámetros para aumentar la velocidad de razonamiento, adecuado para tareas de generación de múltiples idiomas y códigos."
|
|
2476
2488
|
},
|
|
2477
|
-
"mistralai/mistral-7b-instruct": {
|
|
2478
|
-
"description": "Mistral 7B Instruct es un modelo de estándar industrial de alto rendimiento, optimizado para velocidad y soporte de contexto largo."
|
|
2479
|
-
},
|
|
2480
2489
|
"mistralai/mistral-nemo": {
|
|
2481
2490
|
"description": "Mistral Nemo es un modelo de 7.3B parámetros con soporte multilingüe y programación de alto rendimiento."
|
|
2482
2491
|
},
|
|
@@ -290,12 +290,12 @@
|
|
|
290
290
|
"Pro/deepseek-ai/DeepSeek-V3": {
|
|
291
291
|
"description": "DeepSeek-V3 یک مدل زبان با 671 میلیارد پارامتر است که از معماری متخصصان ترکیبی (MoE) و توجه چندسر (MLA) استفاده میکند و با استراتژی تعادل بار بدون ضرر کمکی بهینهسازی کارایی استنتاج و آموزش را انجام میدهد. این مدل با پیشآموزش بر روی 14.8 تریلیون توکن با کیفیت بالا و انجام تنظیم دقیق نظارتی و یادگیری تقویتی، در عملکرد از سایر مدلهای متنباز پیشی میگیرد و به مدلهای بسته پیشرو نزدیک میشود."
|
|
292
292
|
},
|
|
293
|
-
"Pro/deepseek-ai/DeepSeek-V3.1": {
|
|
294
|
-
"description": "DeepSeek-V3.1 یک مدل زبان بزرگ با حالت ترکیبی است که توسط DeepSeek AI منتشر شده و در مقایسه با نسخههای قبلی خود بهروزرسانیهای مهمی را تجربه کرده است. نوآوری اصلی این مدل ادغام «حالت تفکر» و «حالت غیرتفکر» در یک مدل است که کاربران میتوانند با تنظیم قالب گفتگو به صورت انعطافپذیر بین آنها جابجا شوند تا نیازهای مختلف وظایف را برآورده کنند. با بهینهسازی پس از آموزش تخصصی، عملکرد V3.1 در فراخوانی ابزارها و وظایف Agent به طور قابل توجهی افزایش یافته و پشتیبانی بهتری از ابزارهای جستجوی خارجی و اجرای وظایف پیچیده چندمرحلهای ارائه میدهد. این مدل بر پایه DeepSeek-V3.1-Base آموزش داده شده و با روش توسعه متن بلند دو مرحلهای، حجم دادههای آموزشی را به طور چشمگیری افزایش داده است که باعث بهبود عملکرد در پردازش اسناد طولانی و کدهای بلند میشود. به عنوان یک مدل متنباز، DeepSeek-V3.1 در آزمونهای معیار مختلفی مانند کدنویسی، ریاضیات و استدلال تواناییهایی در حد مدلهای بسته پیشرفته نشان میدهد و با معماری متخصص ترکیبی (MoE) خود، ضمن حفظ ظرفیت عظیم مدل، هزینههای استدلال را به طور موثری کاهش میدهد."
|
|
295
|
-
},
|
|
296
293
|
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
297
294
|
"description": "DeepSeek-V3.1-Terminus نسخه بهروزرسانی شده مدل V3.1 منتشر شده توسط DeepSeek است که به عنوان یک مدل زبان بزرگ با عامل ترکیبی شناخته میشود. این بهروزرسانی ضمن حفظ قابلیتهای اصلی مدل، بر رفع مشکلات گزارش شده توسط کاربران و افزایش پایداری تمرکز دارد. این نسخه به طور قابل توجهی انسجام زبانی را بهبود بخشیده و از بروز ترکیب زبان چینی و انگلیسی و کاراکترهای نامتعارف کاسته است. مدل شامل حالت «تفکر» (Thinking Mode) و «غیرتفکر» (Non-thinking Mode) است که کاربران میتوانند از طریق قالبهای گفتگو به صورت انعطافپذیر بین آنها جابجا شوند تا با وظایف مختلف سازگار شوند. به عنوان یک بهینهسازی مهم، V3.1-Terminus عملکرد عامل کد (Code Agent) و عامل جستجو (Search Agent) را تقویت کرده است تا در فراخوانی ابزارها و اجرای وظایف پیچیده چندمرحلهای قابل اعتمادتر باشد."
|
|
298
295
|
},
|
|
296
|
+
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
297
|
+
"description": "DeepSeek-V3.2-Exp نسخه آزمایشی V3.2 است که توسط DeepSeek منتشر شده و به عنوان گامی میانی در مسیر توسعه معماری نسل بعدی طراحی شده است. این نسخه با افزودن مکانیزم توجه پراکنده DeepSeek (DeepSeek Sparse Attention یا DSA) بر پایه V3.1-Terminus، کارایی آموزش و استنتاج در زمینههای متنی طولانی را بهبود میبخشد. همچنین بهطور ویژه برای فراخوانی ابزارها، درک اسناد بلند و استدلال چندمرحلهای بهینهسازی شده است. V3.2-Exp پلی میان تحقیق و تولید است و برای کاربرانی مناسب است که به دنبال بهرهوری بالاتر در سناریوهایی با بودجه متنی بالا هستند."
|
|
298
|
+
},
|
|
299
299
|
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
|
|
300
300
|
"description": "Kimi K2-Instruct-0905 جدیدترین و قدرتمندترین نسخه Kimi K2 است. این مدل یک مدل زبان برتر با معماری متخصص ترکیبی (MoE) است که دارای ۱ تریلیون پارامتر کل و ۳۲ میلیارد پارامتر فعال میباشد. ویژگیهای اصلی این مدل شامل: هوش کدگذاری عامل بهبود یافته که در آزمونهای معیار عمومی و وظایف واقعی کدگذاری عامل عملکرد قابل توجهی نشان میدهد؛ تجربه کدگذاری فرانتاند بهبود یافته که از نظر زیبایی و کاربردی بودن برنامهنویسی فرانتاند پیشرفت داشته است."
|
|
301
301
|
},
|
|
@@ -398,6 +398,18 @@
|
|
|
398
398
|
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
|
|
399
399
|
"description": "Qwen3-Next-80B-A3B-Thinking مدلی پایه نسل بعدی است که توسط تیم Tongyi Qianwen شرکت علیبابا برای وظایف استنتاج پیچیده طراحی شده است. این مدل بر اساس معماری نوآورانه Qwen3-Next ساخته شده که مکانیزم توجه ترکیبی (Gated DeltaNet و Gated Attention) و ساختار متخصص ترکیبی با پراکندگی بالا (MoE) را ادغام میکند تا به بالاترین کارایی در آموزش و استنتاج دست یابد. به عنوان یک مدل پراکنده با ۸۰ میلیارد پارامتر کل، در زمان استنتاج تنها حدود ۳ میلیارد پارامتر فعال میشوند که هزینه محاسباتی را به طور چشمگیری کاهش میدهد و در پردازش وظایف با زمینه طولانی بیش از ۳۲ هزار توکن، توان عملیاتی آن بیش از ۱۰ برابر مدل Qwen3-32B است. این نسخه «Thinking» به طور خاص برای انجام وظایف چندمرحلهای دشوار مانند اثبات ریاضی، ترکیب کد، تحلیل منطقی و برنامهریزی بهینه شده و به طور پیشفرض فرایند استنتاج را به صورت ساختاریافته و در قالب «زنجیره فکری» ارائه میدهد. از نظر عملکرد، این مدل نه تنها از مدلهای پرهزینهتر مانند Qwen3-32B-Thinking پیشی گرفته، بلکه در چندین بنچمارک از Gemini-2.5-Flash-Thinking نیز بهتر عمل میکند."
|
|
400
400
|
},
|
|
401
|
+
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
|
|
402
|
+
"description": "Qwen3-VL-235B-A22B-Instruct یک مدل بزرگ تنظیمشده با دستورالعمل از سری Qwen3-VL است که بر پایه معماری متخصصان ترکیبی (MoE) ساخته شده و توانایی برجستهای در درک و تولید چندرسانهای دارد. این مدل بهصورت بومی از زمینه متنی ۲۵۶ هزار توکن پشتیبانی میکند و برای خدمات چندرسانهای در سطح تولید با همزمانی بالا مناسب است."
|
|
403
|
+
},
|
|
404
|
+
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
|
|
405
|
+
"description": "Qwen3-VL-235B-A22B-Thinking نسخه پرچمدار تفکر از سری Qwen3-VL است که بهطور خاص برای استدلال پیچیده چندرسانهای، استدلال در زمینههای متنی طولانی و تعامل با عاملهای هوشمند بهینهسازی شده است. این مدل برای سناریوهای سازمانی که نیاز به تفکر عمیق و استدلال بصری دارند، مناسب است."
|
|
406
|
+
},
|
|
407
|
+
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
|
|
408
|
+
"description": "Qwen3-VL-30B-A3B-Instruct نسخه تنظیمشده با دستورالعمل از سری Qwen3-VL است که توانایی بالایی در درک و تولید زبان-تصویر دارد. این مدل بهصورت بومی از زمینه متنی ۲۵۶ هزار توکن پشتیبانی میکند و برای گفتگوهای چندرسانهای و تولید محتوا بر اساس تصویر مناسب است."
|
|
409
|
+
},
|
|
410
|
+
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
|
|
411
|
+
"description": "Qwen3-VL-30B-A3B-Thinking نسخه تقویتشده برای استدلال (Thinking) از سری Qwen3-VL است که برای وظایف استدلال چندرسانهای، تبدیل تصویر به کد و درک پیچیده بصری بهینهسازی شده است. این مدل از زمینه متنی ۲۵۶ هزار توکن پشتیبانی میکند و توانایی بالایی در تفکر زنجیرهای دارد."
|
|
412
|
+
},
|
|
401
413
|
"Qwen/Qwen3-VL-8B-Instruct": {
|
|
402
414
|
"description": "Qwen3-VL-8B-Instruct یکی از مدلهای زبان-بینایی از سری Qwen3 است که بر پایه Qwen3-8B-Instruct توسعه یافته و با حجم زیادی از دادههای متنی-تصویری آموزش دیده است. این مدل در درک عمومی بصری، گفتوگوهای مبتنی بر تصویر و شناسایی متون چندزبانه در تصاویر مهارت دارد. مناسب برای کاربردهایی مانند پرسش و پاسخ بصری، توصیف تصویر، پیروی از دستورات چندوجهی و فراخوانی ابزارها میباشد."
|
|
403
415
|
},
|
|
@@ -978,13 +990,13 @@
|
|
|
978
990
|
"description": "DeepSeek-V3 یک مدل زبانی ترکیبی از متخصصان (MoE) با 671 میلیارد پارامتر است که از توجه چندسر (MLA) و معماری DeepSeekMoE استفاده میکند و با ترکیب استراتژی تعادل بار بدون ضرر کمکی، کارایی استنتاج و آموزش را بهینه میکند. با پیشآموزش بر روی 14.8 تریلیون توکن با کیفیت بالا و انجام تنظیم دقیق نظارتی و یادگیری تقویتی، DeepSeek-V3 در عملکرد از سایر مدلهای متنباز پیشی میگیرد و به مدلهای بسته پیشرو نزدیک میشود."
|
|
979
991
|
},
|
|
980
992
|
"deepseek-ai/DeepSeek-V3.1": {
|
|
981
|
-
"description": "DeepSeek
|
|
993
|
+
"description": "مدل DeepSeek V3.1 دارای معماری استنتاج ترکیبی است که از هر دو حالت تفکر و غیرتفکر پشتیبانی میکند."
|
|
982
994
|
},
|
|
983
995
|
"deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
984
996
|
"description": "DeepSeek-V3.1-Terminus نسخه بهروزرسانی شده مدل V3.1 منتشر شده توسط DeepSeek است که به عنوان یک مدل زبان بزرگ با عامل ترکیبی شناخته میشود. این بهروزرسانی ضمن حفظ قابلیتهای اصلی مدل، بر رفع مشکلات گزارش شده توسط کاربران و افزایش پایداری تمرکز دارد. این نسخه به طور قابل توجهی انسجام زبانی را بهبود بخشیده و از بروز ترکیب زبان چینی و انگلیسی و کاراکترهای نامتعارف کاسته است. مدل شامل حالت «تفکر» (Thinking Mode) و «غیرتفکر» (Non-thinking Mode) است که کاربران میتوانند از طریق قالبهای گفتگو به صورت انعطافپذیر بین آنها جابجا شوند تا با وظایف مختلف سازگار شوند. به عنوان یک بهینهسازی مهم، V3.1-Terminus عملکرد عامل کد (Code Agent) و عامل جستجو (Search Agent) را تقویت کرده است تا در فراخوانی ابزارها و اجرای وظایف پیچیده چندمرحلهای قابل اعتمادتر باشد."
|
|
985
997
|
},
|
|
986
998
|
"deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
987
|
-
"description": "
|
|
999
|
+
"description": "DeepSeek-V3.2-Exp نسخه آزمایشی V3.2 است که توسط DeepSeek منتشر شده و به عنوان گامی میانی در مسیر توسعه معماری نسل بعدی طراحی شده است. این نسخه با افزودن مکانیزم توجه پراکنده DeepSeek (DeepSeek Sparse Attention یا DSA) بر پایه V3.1-Terminus، کارایی آموزش و استنتاج در زمینههای متنی طولانی را بهبود میبخشد. همچنین بهطور ویژه برای فراخوانی ابزارها، درک اسناد بلند و استدلال چندمرحلهای بهینهسازی شده است. V3.2-Exp پلی میان تحقیق و تولید است و برای کاربرانی مناسب است که به دنبال بهرهوری بالاتر در سناریوهایی با بودجه متنی بالا هستند."
|
|
988
1000
|
},
|
|
989
1001
|
"deepseek-ai/deepseek-llm-67b-chat": {
|
|
990
1002
|
"description": "DeepSeek LLM Chat (67B) یک مدل نوآورانه هوش مصنوعی است که توانایی درک عمیق زبان و تعامل را فراهم میکند."
|
|
@@ -2474,9 +2486,6 @@
|
|
|
2474
2486
|
"mistralai/Mixtral-8x7B-v0.1": {
|
|
2475
2487
|
"description": "Mixtral 8x7B یک مدل متخصص پراکنده است که با استفاده از پارامترهای متعدد سرعت استنتاج را افزایش میدهد و برای انجام وظایف چندزبانه و تولید کد مناسب است."
|
|
2476
2488
|
},
|
|
2477
|
-
"mistralai/mistral-7b-instruct": {
|
|
2478
|
-
"description": "Mistral 7B Instruct یک مدل استاندارد صنعتی با عملکرد بالا است که بهینهسازی سرعت و پشتیبانی از متن طولانی را ترکیب میکند."
|
|
2479
|
-
},
|
|
2480
2489
|
"mistralai/mistral-nemo": {
|
|
2481
2490
|
"description": "Mistral Nemo یک مدل با 7.3 میلیارد پارامتر است که از برنامهنویسی با عملکرد بالا و پشتیبانی چندزبانه برخوردار است."
|
|
2482
2491
|
},
|
|
@@ -290,12 +290,12 @@
|
|
|
290
290
|
"Pro/deepseek-ai/DeepSeek-V3": {
|
|
291
291
|
"description": "DeepSeek-V3 est un modèle de langage à experts mixtes (MoE) avec 671 milliards de paramètres, utilisant une attention potentielle multi-tête (MLA) et une architecture DeepSeekMoE, combinant une stratégie d'équilibrage de charge sans perte auxiliaire pour optimiser l'efficacité d'inférence et d'entraînement. Pré-entraîné sur 14,8 billions de tokens de haute qualité, et affiné par supervision et apprentissage par renforcement, DeepSeek-V3 surpasse d'autres modèles open source et se rapproche des modèles fermés de premier plan."
|
|
292
292
|
},
|
|
293
|
-
"Pro/deepseek-ai/DeepSeek-V3.1": {
|
|
294
|
-
"description": "DeepSeek-V3.1 est un grand modèle de langage hybride publié par DeepSeek AI, intégrant de nombreuses améliorations majeures par rapport à la génération précédente. Une innovation clé de ce modèle est l'intégration des modes « réflexion » (Thinking Mode) et « non-réflexion » (Non-thinking Mode), permettant aux utilisateurs de basculer facilement entre eux via des modèles de conversation adaptés aux différents besoins. Grâce à une optimisation post-entraînement spécifique, la version V3.1 améliore significativement les performances dans l'appel d'outils et les tâches d'agent, supportant mieux les outils de recherche externes et l'exécution de tâches complexes en plusieurs étapes. Basé sur DeepSeek-V3.1-Base, il bénéficie d'un entraînement supplémentaire avec une méthode d'extension de texte long en deux phases, augmentant considérablement la quantité de données d'entraînement pour une meilleure gestion des documents longs et des codes étendus. En tant que modèle open source, DeepSeek-V3.1 démontre des capacités comparables aux meilleurs modèles propriétaires dans plusieurs benchmarks en codage, mathématiques et raisonnement, tout en réduisant efficacement les coûts d'inférence grâce à son architecture à experts mixtes (MoE) qui maintient une grande capacité de modèle."
|
|
295
|
-
},
|
|
296
293
|
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
297
294
|
"description": "DeepSeek-V3.1-Terminus est une version mise à jour du modèle V3.1 publiée par DeepSeek, positionnée comme un grand modèle de langage hybride pour agents intelligents. Cette mise à jour conserve les capacités originales du modèle tout en se concentrant sur la correction des problèmes signalés par les utilisateurs et l'amélioration de la stabilité. Elle améliore significativement la cohérence linguistique, réduisant le mélange de chinois et d'anglais ainsi que l'apparition de caractères anormaux. Le modèle intègre un « mode réflexion » (Thinking Mode) et un « mode non-réflexion » (Non-thinking Mode), permettant aux utilisateurs de basculer facilement entre ces modes via des modèles de conversation adaptés à différentes tâches. En tant qu'optimisation majeure, V3.1-Terminus renforce les performances des agents de code (Code Agent) et de recherche (Search Agent), rendant leur appel d'outils et l'exécution de tâches complexes en plusieurs étapes plus fiables."
|
|
298
295
|
},
|
|
296
|
+
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
297
|
+
"description": "DeepSeek-V3.2-Exp est une version expérimentale V3.2 publiée par DeepSeek, servant d'étape intermédiaire vers une architecture de nouvelle génération. Basée sur la V3.1-Terminus, elle introduit le mécanisme d'attention clairsemée DeepSeek (DeepSeek Sparse Attention, DSA) afin d'améliorer l'efficacité de l'entraînement et de l'inférence sur de longs contextes. Elle est spécialement optimisée pour l'appel d'outils, la compréhension de longs documents et le raisonnement en plusieurs étapes. V3.2-Exp fait le lien entre la recherche et l'industrialisation, idéale pour les utilisateurs souhaitant explorer une efficacité de raisonnement accrue dans des scénarios à budget contextuel élevé."
|
|
298
|
+
},
|
|
299
299
|
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
|
|
300
300
|
"description": "Kimi K2-Instruct-0905 est la version la plus récente et la plus puissante de Kimi K2. Il s'agit d'un modèle linguistique de pointe à experts mixtes (MoE), avec un total de 1 000 milliards de paramètres et 32 milliards de paramètres activés. Les principales caractéristiques de ce modèle incluent : une intelligence de codage d'agents améliorée, démontrant des performances significatives dans les tests de référence publics et les tâches réelles d'agents de codage ; une expérience de codage frontale améliorée, avec des progrès tant en esthétique qu'en praticité pour la programmation frontale."
|
|
301
301
|
},
|
|
@@ -398,6 +398,18 @@
|
|
|
398
398
|
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
|
|
399
399
|
"description": "Qwen3-Next-80B-A3B-Thinking est un modèle de base de nouvelle génération publié par l'équipe Tongyi Qianwen d'Alibaba, spécialement conçu pour les tâches de raisonnement complexes. Il repose sur l'architecture innovante Qwen3-Next, qui intègre un mécanisme d'attention hybride (Gated DeltaNet et Gated Attention) et une structure d'experts mixtes à haute sparsité (MoE), visant une efficacité extrême en entraînement et inférence. En tant que modèle sparse totalisant 80 milliards de paramètres, il n'active qu'environ 3 milliards de paramètres lors de l'inférence, réduisant significativement les coûts de calcul. Pour les tâches à contexte long dépassant 32K tokens, son débit est plus de 10 fois supérieur à celui du modèle Qwen3-32B. Cette version « Thinking » est optimisée pour exécuter des tâches complexes à étapes multiples telles que preuves mathématiques, synthèse de code, analyse logique et planification, et produit par défaut le processus de raisonnement sous forme structurée de « chaîne de pensée ». En termes de performance, il dépasse non seulement des modèles plus coûteux comme Qwen3-32B-Thinking, mais surpasse également Gemini-2.5-Flash-Thinking sur plusieurs benchmarks."
|
|
400
400
|
},
|
|
401
|
+
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
|
|
402
|
+
"description": "Qwen3-VL-235B-A22B-Instruct est un grand modèle de la série Qwen3-VL, affiné par instructions, basé sur une architecture à experts mixtes (MoE). Il offre d'excellentes capacités de compréhension et de génération multimodales, prend en charge nativement un contexte de 256K, et convient aux services multimodaux de production à haute concurrence."
|
|
403
|
+
},
|
|
404
|
+
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
|
|
405
|
+
"description": "Qwen3-VL-235B-A22B-Thinking est la version phare de raisonnement de la série Qwen3-VL, spécialement optimisée pour le raisonnement multimodal complexe, le raisonnement sur de longs contextes et l'interaction avec des agents intelligents. Elle est adaptée aux scénarios d'entreprise nécessitant une réflexion approfondie et un raisonnement visuel avancé."
|
|
406
|
+
},
|
|
407
|
+
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
|
|
408
|
+
"description": "Qwen3-VL-30B-A3B-Instruct est une version de la série Qwen3-VL affinée par instructions, dotée de puissantes capacités de compréhension et de génération visuo-langagières. Elle prend en charge nativement une longueur de contexte de 256K, idéale pour les dialogues multimodaux et les tâches de génération conditionnée par image."
|
|
409
|
+
},
|
|
410
|
+
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
|
|
411
|
+
"description": "Qwen3-VL-30B-A3B-Thinking est une version renforcée pour le raisonnement (Thinking) de Qwen3-VL, optimisée pour le raisonnement multimodal, la génération de code à partir d'images et les tâches complexes de compréhension visuelle. Elle prend en charge un contexte de 256K et dispose de capacités accrues de raisonnement en chaîne."
|
|
412
|
+
},
|
|
401
413
|
"Qwen/Qwen3-VL-8B-Instruct": {
|
|
402
414
|
"description": "Qwen3-VL-8B-Instruct est un modèle de langage visuel de la série Qwen3, développé à partir de Qwen3-8B-Instruct et entraîné sur un grand volume de données image-texte. Il excelle dans la compréhension visuelle générale, les dialogues centrés sur l’image et la reconnaissance multilingue de texte dans les images. Il est adapté aux cas d’usage tels que les questions-réponses visuelles, la description d’images, le suivi d’instructions multimodales et l’appel d’outils."
|
|
403
415
|
},
|
|
@@ -978,13 +990,13 @@
|
|
|
978
990
|
"description": "DeepSeek-V3 est un modèle de langage à experts mixtes (MoE) avec 6710 milliards de paramètres, utilisant une attention potentielle multi-tête (MLA) et l'architecture DeepSeekMoE, combinée à une stratégie d'équilibrage de charge sans perte auxiliaire, optimisant ainsi l'efficacité d'inférence et d'entraînement. En pré-entraînant sur 14,8 billions de tokens de haute qualité, suivi d'un ajustement supervisé et d'apprentissage par renforcement, DeepSeek-V3 surpasse les autres modèles open source en termes de performance, se rapprochant des modèles fermés de premier plan."
|
|
979
991
|
},
|
|
980
992
|
"deepseek-ai/DeepSeek-V3.1": {
|
|
981
|
-
"description": "
|
|
993
|
+
"description": "Le modèle DeepSeek V3.1 est basé sur une architecture de raisonnement hybride, prenant en charge à la fois les modes de réflexion et non réflexifs."
|
|
982
994
|
},
|
|
983
995
|
"deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
984
996
|
"description": "DeepSeek-V3.1-Terminus est une version mise à jour du modèle V3.1 publiée par DeepSeek, positionnée comme un grand modèle de langage hybride pour agents intelligents. Cette mise à jour conserve les capacités originales du modèle tout en se concentrant sur la correction des problèmes signalés par les utilisateurs et l'amélioration de la stabilité. Elle améliore significativement la cohérence linguistique, réduisant le mélange de chinois et d'anglais ainsi que l'apparition de caractères anormaux. Le modèle intègre un « mode réflexion » (Thinking Mode) et un « mode non-réflexion » (Non-thinking Mode), permettant aux utilisateurs de basculer facilement entre ces modes via des modèles de conversation adaptés à différentes tâches. En tant qu'optimisation majeure, V3.1-Terminus renforce les performances des agents de code (Code Agent) et de recherche (Search Agent), rendant leur appel d'outils et l'exécution de tâches complexes en plusieurs étapes plus fiables."
|
|
985
997
|
},
|
|
986
998
|
"deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
987
|
-
"description": "
|
|
999
|
+
"description": "DeepSeek-V3.2-Exp est une version expérimentale V3.2 publiée par DeepSeek, servant d'étape intermédiaire vers une architecture de nouvelle génération. Basée sur la V3.1-Terminus, elle introduit le mécanisme d'attention clairsemée DeepSeek (DeepSeek Sparse Attention, DSA) afin d'améliorer l'efficacité de l'entraînement et de l'inférence sur de longs contextes. Elle est spécialement optimisée pour l'appel d'outils, la compréhension de longs documents et le raisonnement en plusieurs étapes. V3.2-Exp fait le lien entre la recherche et l'industrialisation, idéale pour les utilisateurs souhaitant explorer une efficacité de raisonnement accrue dans des scénarios à budget contextuel élevé."
|
|
988
1000
|
},
|
|
989
1001
|
"deepseek-ai/deepseek-llm-67b-chat": {
|
|
990
1002
|
"description": "DeepSeek 67B est un modèle avancé formé pour des dialogues de haute complexité."
|
|
@@ -2474,9 +2486,6 @@
|
|
|
2474
2486
|
"mistralai/Mixtral-8x7B-v0.1": {
|
|
2475
2487
|
"description": "Mixtral 8x7B est un modèle d'experts clairsemés qui utilise de multiples paramètres pour améliorer la vitesse d'inférence, adapté au traitement des tâches multilingues et de génération de code."
|
|
2476
2488
|
},
|
|
2477
|
-
"mistralai/mistral-7b-instruct": {
|
|
2478
|
-
"description": "Mistral 7B Instruct est un modèle standard de l'industrie, alliant optimisation de la vitesse et support de longs contextes."
|
|
2479
|
-
},
|
|
2480
2489
|
"mistralai/mistral-nemo": {
|
|
2481
2490
|
"description": "Mistral Nemo est un modèle de 7,3 milliards de paramètres, offrant un support multilingue et une programmation haute performance."
|
|
2482
2491
|
},
|
|
@@ -290,12 +290,12 @@
|
|
|
290
290
|
"Pro/deepseek-ai/DeepSeek-V3": {
|
|
291
291
|
"description": "DeepSeek-V3 è un modello di linguaggio con 6710 miliardi di parametri, basato su un'architettura di esperti misti (MoE) che utilizza attenzione multilivello (MLA) e la strategia di bilanciamento del carico senza perdite ausiliarie, ottimizzando l'efficienza di inferenza e addestramento. Pre-addestrato su 14,8 trilioni di token di alta qualità e successivamente affinato tramite supervisione e apprendimento per rinforzo, DeepSeek-V3 supera altri modelli open source, avvicinandosi ai modelli chiusi di punta."
|
|
292
292
|
},
|
|
293
|
-
"Pro/deepseek-ai/DeepSeek-V3.1": {
|
|
294
|
-
"description": "DeepSeek-V3.1 è un modello linguistico di grandi dimensioni a modalità mista rilasciato da DeepSeek AI, che presenta numerosi aggiornamenti significativi rispetto alla generazione precedente. Una delle innovazioni principali è l'integrazione delle modalità “Thinking Mode” e “Non-thinking Mode” in un unico modello, permettendo agli utenti di passare agevolmente da una modalità all'altra modificando il template di chat, per adattarsi a diverse esigenze di compito. Grazie a un'ottimizzazione post-addestramento dedicata, la versione V3.1 ha migliorato significativamente le prestazioni nell'uso degli strumenti e nelle attività degli agenti, supportando meglio strumenti di ricerca esterni e l'esecuzione di compiti complessi a più fasi. Basato su DeepSeek-V3.1-Base, il modello è stato ulteriormente addestrato con un metodo di estensione in due fasi per testi lunghi, aumentando notevolmente la quantità di dati di addestramento e migliorando la gestione di documenti lunghi e codice esteso. Essendo un modello open source, DeepSeek-V3.1 dimostra capacità comparabili ai migliori modelli proprietari in benchmark di codifica, matematica e ragionamento, e grazie alla sua architettura a esperti misti (MoE), mantiene una grande capacità del modello riducendo efficacemente i costi di inferenza."
|
|
295
|
-
},
|
|
296
293
|
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
297
294
|
"description": "DeepSeek-V3.1-Terminus è una versione aggiornata del modello V3.1 rilasciata da DeepSeek, concepita come un modello linguistico di grandi dimensioni con agenti ibridi. Questo aggiornamento mantiene le capacità originali del modello, concentrandosi sulla risoluzione dei problemi segnalati dagli utenti e sul miglioramento della stabilità. Migliora significativamente la coerenza linguistica, riducendo l'uso misto di cinese e inglese e la presenza di caratteri anomali. Il modello integra la “Modalità di pensiero” (Thinking Mode) e la “Modalità non di pensiero” (Non-thinking Mode), permettendo agli utenti di passare agevolmente tra le modalità tramite template di chat per adattarsi a diversi compiti. Come ottimizzazione importante, V3.1-Terminus potenzia le prestazioni degli agenti di codice (Code Agent) e di ricerca (Search Agent), rendendoli più affidabili nell'invocazione di strumenti e nell'esecuzione di compiti complessi multi-step."
|
|
298
295
|
},
|
|
296
|
+
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
297
|
+
"description": "DeepSeek-V3.2-Exp è la versione sperimentale V3.2 rilasciata da DeepSeek, concepita come una tappa intermedia verso la prossima generazione di architettura. Basata su V3.1-Terminus, introduce il meccanismo DeepSeek Sparse Attention (DSA) per migliorare l'efficienza nell'addestramento e nel ragionamento su contesti lunghi. È stata ottimizzata specificamente per l'invocazione di strumenti, la comprensione di documenti estesi e il ragionamento multi-step. V3.2-Exp funge da ponte tra ricerca e applicazione commerciale, ideale per utenti che desiderano esplorare una maggiore efficienza di ragionamento in scenari con ampio budget di contesto."
|
|
298
|
+
},
|
|
299
299
|
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
|
|
300
300
|
"description": "Kimi K2-Instruct-0905 è l'ultima e più potente versione di Kimi K2. Si tratta di un modello linguistico di esperti misti (MoE) all'avanguardia, con un totale di 1 trilione di parametri e 32 miliardi di parametri attivi. Le caratteristiche principali del modello includono: intelligenza potenziata per la codifica degli agenti, con miglioramenti significativi nelle prestazioni sia nei test di riferimento pubblici sia nelle attività di codifica degli agenti nel mondo reale; esperienza di codifica frontend migliorata, con progressi sia nell'estetica che nella praticità della programmazione frontend."
|
|
301
301
|
},
|
|
@@ -398,6 +398,18 @@
|
|
|
398
398
|
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
|
|
399
399
|
"description": "Qwen3-Next-80B-A3B-Thinking è un modello di base di nuova generazione rilasciato dal team Tongyi Qianwen di Alibaba, progettato specificamente per compiti di ragionamento complesso. Basato sull'innovativa architettura Qwen3-Next, che integra un meccanismo di attenzione ibrida (Gated DeltaNet e Gated Attention) e una struttura di esperti misti ad alta sparsità (MoE), mira a massimizzare l'efficienza di addestramento e inferenza. Come modello sparso con un totale di 80 miliardi di parametri, attiva solo circa 3 miliardi di parametri durante l'inferenza, riducendo notevolmente i costi computazionali. Nelle attività con contesti lunghi oltre 32K token, il throughput supera di oltre 10 volte quello del modello Qwen3-32B. Questa versione “Thinking” è ottimizzata per eseguire compiti multi-step complessi come dimostrazioni matematiche, sintesi di codice, analisi logica e pianificazione, e produce di default il processo di ragionamento in forma strutturata di “catena di pensiero”. In termini di prestazioni, supera non solo modelli più costosi come Qwen3-32B-Thinking, ma anche Gemini-2.5-Flash-Thinking in diversi benchmark."
|
|
400
400
|
},
|
|
401
|
+
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
|
|
402
|
+
"description": "Qwen3-VL-235B-A22B-Instruct è un modello di grandi dimensioni della serie Qwen3-VL, ottimizzato tramite fine-tuning su istruzioni. Basato su un'architettura a esperti misti (MoE), offre eccellenti capacità di comprensione e generazione multimodale, supportando nativamente un contesto di 256K token. È adatto a servizi multimodali di livello produttivo con alta concorrenza."
|
|
403
|
+
},
|
|
404
|
+
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
|
|
405
|
+
"description": "Qwen3-VL-235B-A22B-Thinking è la versione di punta della serie Qwen3-VL focalizzata sul ragionamento. Ottimizzata per il ragionamento multimodale complesso, il ragionamento su contesti lunghi e l'interazione con agenti intelligenti, è ideale per scenari aziendali che richiedono capacità avanzate di pensiero e inferenza visiva."
|
|
406
|
+
},
|
|
407
|
+
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
|
|
408
|
+
"description": "Qwen3-VL-30B-A3B-Instruct è una versione della serie Qwen3-VL ottimizzata su istruzioni, con potenti capacità di comprensione e generazione linguistico-visiva. Supporta nativamente una lunghezza di contesto di 256K token, ed è adatta a dialoghi multimodali e compiti di generazione condizionata da immagini."
|
|
409
|
+
},
|
|
410
|
+
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
|
|
411
|
+
"description": "Qwen3-VL-30B-A3B-Thinking è la versione potenziata per il ragionamento della serie Qwen3-VL. Ottimizzata per compiti di inferenza multimodale, conversione da immagine a codice e comprensione visiva complessa, supporta un contesto di 256K token e offre capacità avanzate di ragionamento a catena."
|
|
412
|
+
},
|
|
401
413
|
"Qwen/Qwen3-VL-8B-Instruct": {
|
|
402
414
|
"description": "Qwen3-VL-8B-Instruct è un modello linguistico-visivo della serie Qwen3, sviluppato a partire da Qwen3-8B-Instruct e addestrato su un ampio corpus di dati immagine-testo. È specializzato nella comprensione visiva generale, nel dialogo centrato sulla visione e nel riconoscimento multilingue del testo all'interno delle immagini. È adatto a scenari come domande e risposte visive, descrizione di immagini, esecuzione di istruzioni multimodali e utilizzo di strumenti."
|
|
403
415
|
},
|
|
@@ -978,13 +990,13 @@
|
|
|
978
990
|
"description": "DeepSeek-V3 è un modello linguistico a esperti misti (MoE) con 6710 miliardi di parametri, che utilizza attenzione latente multi-testa (MLA) e architettura DeepSeekMoE, combinando strategie di bilanciamento del carico senza perdite ausiliarie per ottimizzare l'efficienza di inferenza e addestramento. Pre-addestrato su 14,8 trilioni di token di alta qualità e successivamente affinato supervisionato e tramite apprendimento rinforzato, DeepSeek-V3 supera le prestazioni di altri modelli open source, avvicinandosi ai modelli closed source leader."
|
|
979
991
|
},
|
|
980
992
|
"deepseek-ai/DeepSeek-V3.1": {
|
|
981
|
-
"description": "
|
|
993
|
+
"description": "Il modello DeepSeek V3.1 adotta un'architettura di ragionamento ibrida, supportando sia la modalità di pensiero che quella non riflessiva."
|
|
982
994
|
},
|
|
983
995
|
"deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
984
996
|
"description": "DeepSeek-V3.1-Terminus è una versione aggiornata del modello V3.1 rilasciata da DeepSeek, concepita come un modello linguistico di grandi dimensioni con agenti ibridi. Questo aggiornamento mantiene le capacità originali del modello, concentrandosi sulla risoluzione dei problemi segnalati dagli utenti e sul miglioramento della stabilità. Migliora significativamente la coerenza linguistica, riducendo l'uso misto di cinese e inglese e la presenza di caratteri anomali. Il modello integra la “Modalità di pensiero” (Thinking Mode) e la “Modalità non di pensiero” (Non-thinking Mode), permettendo agli utenti di passare agevolmente tra le modalità tramite template di chat per adattarsi a diversi compiti. Come ottimizzazione importante, V3.1-Terminus potenzia le prestazioni degli agenti di codice (Code Agent) e di ricerca (Search Agent), rendendoli più affidabili nell'invocazione di strumenti e nell'esecuzione di compiti complessi multi-step."
|
|
985
997
|
},
|
|
986
998
|
"deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
987
|
-
"description": "
|
|
999
|
+
"description": "DeepSeek-V3.2-Exp è la versione sperimentale V3.2 rilasciata da DeepSeek, concepita come una tappa intermedia verso la prossima generazione di architettura. Basata su V3.1-Terminus, introduce il meccanismo DeepSeek Sparse Attention (DSA) per migliorare l'efficienza nell'addestramento e nel ragionamento su contesti lunghi. È stata ottimizzata specificamente per l'invocazione di strumenti, la comprensione di documenti estesi e il ragionamento multi-step. V3.2-Exp funge da ponte tra ricerca e applicazione commerciale, ideale per utenti che desiderano esplorare una maggiore efficienza di ragionamento in scenari con ampio budget di contesto."
|
|
988
1000
|
},
|
|
989
1001
|
"deepseek-ai/deepseek-llm-67b-chat": {
|
|
990
1002
|
"description": "DeepSeek 67B è un modello avanzato addestrato per dialoghi ad alta complessità."
|
|
@@ -2474,9 +2486,6 @@
|
|
|
2474
2486
|
"mistralai/Mixtral-8x7B-v0.1": {
|
|
2475
2487
|
"description": "Mixtral 8x7B è un modello di esperti sparsi che utilizza più parametri per migliorare la velocità di ragionamento, adatto a compiti di generazione multilingue e di codice."
|
|
2476
2488
|
},
|
|
2477
|
-
"mistralai/mistral-7b-instruct": {
|
|
2478
|
-
"description": "Mistral 7B Instruct è un modello standard di settore ad alte prestazioni, ottimizzato per velocità e supporto di contesti lunghi."
|
|
2479
|
-
},
|
|
2480
2489
|
"mistralai/mistral-nemo": {
|
|
2481
2490
|
"description": "Mistral Nemo è un modello con 7.3B parametri, supporta più lingue e offre prestazioni elevate nella programmazione."
|
|
2482
2491
|
},
|
|
@@ -290,12 +290,12 @@
|
|
|
290
290
|
"Pro/deepseek-ai/DeepSeek-V3": {
|
|
291
291
|
"description": "DeepSeek-V3は、6710億パラメータを持つ混合専門家(MoE)言語モデルで、多頭潜在注意力(MLA)とDeepSeekMoEアーキテクチャを採用し、無補助損失の負荷バランス戦略を組み合わせて推論とトレーニングの効率を最適化しています。14.8兆の高品質トークンで事前トレーニングを行い、監視付き微調整と強化学習を経て、DeepSeek-V3は他のオープンソースモデルを超え、先進的なクローズドモデルに近づいています。"
|
|
292
292
|
},
|
|
293
|
-
"Pro/deepseek-ai/DeepSeek-V3.1": {
|
|
294
|
-
"description": "DeepSeek-V3.1 は DeepSeek AI によってリリースされたハイブリッドモードの大規模言語モデルで、前世代モデルを基に多方面で重要なアップグレードが施されています。このモデルの大きな革新は「思考モード」と「非思考モード」を統合しており、ユーザーはチャットテンプレートを調整することで柔軟に切り替え、異なるタスクのニーズに対応できます。専用のポストトレーニング最適化により、V3.1 はツール呼び出しやエージェントタスクの性能が著しく向上し、外部検索ツールのサポートや多段階の複雑なタスクの実行がより効果的になりました。このモデルは DeepSeek-V3.1-Base をベースにポストトレーニングされ、2段階の長文拡張手法によりトレーニングデータ量を大幅に増加させ、長文ドキュメントや長大なコードの処理能力が向上しています。オープンソースモデルとして、DeepSeek-V3.1 はコーディング、数学、推論など複数のベンチマークでトップクラスのクローズドモデルに匹敵する能力を示し、混合エキスパート(MoE)アーキテクチャにより巨大なモデル容量を維持しつつ推論コストを効果的に削減しています。"
|
|
295
|
-
},
|
|
296
293
|
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
297
294
|
"description": "DeepSeek-V3.1-Terminus は深度求索(DeepSeek)による V3.1 モデルのアップデート版で、ハイブリッドエージェント大規模言語モデルとして位置付けられています。今回のアップデートはモデルの既存能力を維持しつつ、ユーザーからのフィードバックに基づく問題修正と安定性の向上に注力しています。言語の一貫性が大幅に改善され、中英混用や異常文字の出現が減少しました。モデルは「思考モード」(Thinking Mode)と「非思考モード」(Non-thinking Mode)を統合しており、ユーザーはチャットテンプレートを通じて柔軟に切り替え、異なるタスクに対応可能です。重要な最適化として、V3.1-Terminus はコードエージェント(Code Agent)と検索エージェント(Search Agent)の性能を強化し、ツール呼び出しや多段階の複雑なタスク実行においてより信頼性が高まりました。"
|
|
298
295
|
},
|
|
296
|
+
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
297
|
+
"description": "DeepSeek-V3.2-Exp は、DeepSeek によってリリースされた実験的な V3.2 バージョンであり、次世代アーキテクチャへの移行に向けた中間的な探求です。V3.1-Terminus を基盤に、長文脈の学習と推論効率を向上させるために DeepSeek スパースアテンション(DeepSeek Sparse Attention、DSA)メカニズムを導入し、ツールの呼び出し、長文書の理解、多段階推論に特化した最適化が施されています。V3.2-Exp は研究と製品化の橋渡しとなるモデルであり、高文脈予算のシナリオでより高い推論効率を追求するユーザーに適しています。"
|
|
298
|
+
},
|
|
299
299
|
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
|
|
300
300
|
"description": "Kimi K2-Instruct-0905 は Kimi K2 の最新かつ最強のバージョンです。これはトップクラスの混合専門家(MoE)言語モデルであり、総パラメータ数は1兆、活性化パラメータ数は320億を誇ります。このモデルの主な特徴は、強化されたエージェントのコーディング知能であり、公開ベンチマークテストおよび実世界のエージェントコーディングタスクで顕著な性能向上を示しています。また、フロントエンドのコーディング体験も改善され、フロントエンドプログラミングの美観と実用性の両面で進歩しています。"
|
|
301
301
|
},
|
|
@@ -398,6 +398,18 @@
|
|
|
398
398
|
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
|
|
399
399
|
"description": "Qwen3-Next-80B-A3B-Thinkingは、アリババのTongyi Qianwenチームによってリリースされた、複雑な推論タスク向けに設計された次世代基盤モデルです。革新的なQwen3-Nextアーキテクチャに基づき、ハイブリッド注意機構(Gated DeltaNetとGated Attention)と高スパース性混合エキスパート(MoE)構造を融合し、極限のトレーニングおよび推論効率を実現しています。総パラメータ数800億のスパースモデルとして、推論時には約30億パラメータのみを活性化し、計算コストを大幅に削減しています。32Kトークンを超える長文コンテキストタスクの処理においては、Qwen3-32Bモデルと比較してスループットが10倍以上向上しています。この「Thinking」バージョンは、数学的証明、コード合成、論理分析、計画などの高難度多段階タスクの実行に最適化されており、推論過程を構造化された「思考チェーン」形式で出力することをデフォルトとしています。性能面では、Qwen3-32B-Thinkingなどのコストの高いモデルを凌駕し、複数のベンチマークでGemini-2.5-Flash-Thinkingを上回る結果を示しています。"
|
|
400
400
|
},
|
|
401
|
+
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
|
|
402
|
+
"description": "Qwen3-VL-235B-A22B-Instruct は、Qwen3-VL シリーズの大規模な命令調整モデルで、混合エキスパート(MoE)アーキテクチャに基づき、卓越したマルチモーダル理解と生成能力を備えています。ネイティブで 256K の文脈長をサポートし、高負荷なマルチモーダルサービスの本番環境に適しています。"
|
|
403
|
+
},
|
|
404
|
+
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
|
|
405
|
+
"description": "Qwen3-VL-235B-A22B-Thinking は、Qwen3-VL シリーズのフラッグシップ思考モデルであり、複雑なマルチモーダル推論、長文脈推論、エージェントとの対話に特化した最適化が施されています。深い思考と視覚的推論が求められるエンタープライズ向けシナリオに最適です。"
|
|
406
|
+
},
|
|
407
|
+
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
|
|
408
|
+
"description": "Qwen3-VL-30B-A3B-Instruct は、Qwen3-VL シリーズの命令調整バージョンであり、強力な視覚と言語の理解および生成能力を備えています。ネイティブで 256K の文脈長をサポートし、マルチモーダル対話や画像条件付き生成タスクに適しています。"
|
|
409
|
+
},
|
|
410
|
+
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
|
|
411
|
+
"description": "Qwen3-VL-30B-A3B-Thinking は、Qwen3-VL の推論強化バージョン(Thinking)であり、マルチモーダル推論、画像からコードへの変換、複雑な視覚理解タスクにおいて最適化されています。256K の文脈長をサポートし、より強力な連鎖的思考能力を備えています。"
|
|
412
|
+
},
|
|
401
413
|
"Qwen/Qwen3-VL-8B-Instruct": {
|
|
402
414
|
"description": "Qwen3-VL-8B-Instruct は、Qwen3 シリーズの視覚言語モデルであり、Qwen3-8B-Instruct を基に開発され、大量の画像と言語データでトレーニングされています。一般的な視覚理解、視覚中心の対話、画像内の多言語テキスト認識に優れており、視覚質問応答、画像説明、多モーダル指示の実行やツール呼び出しといったシナリオに適しています。"
|
|
403
415
|
},
|
|
@@ -978,13 +990,13 @@
|
|
|
978
990
|
"description": "DeepSeek-V3は、6710億パラメータを持つ混合専門家(MoE)言語モデルであり、多頭潜在注意(MLA)とDeepSeekMoEアーキテクチャを採用し、補助損失なしの負荷バランス戦略を組み合わせて、推論とトレーニングの効率を最適化します。14.8兆の高品質トークンで事前トレーニングを行い、監視微調整と強化学習を経て、DeepSeek-V3は他のオープンソースモデルを超え、先進的なクローズドソースモデルに近づきました。"
|
|
979
991
|
},
|
|
980
992
|
"deepseek-ai/DeepSeek-V3.1": {
|
|
981
|
-
"description": "DeepSeek
|
|
993
|
+
"description": "DeepSeek V3.1 モデルは、思考モードと非思考モードの両方をサポートするハイブリッド推論アーキテクチャモデルです。"
|
|
982
994
|
},
|
|
983
995
|
"deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
984
996
|
"description": "DeepSeek-V3.1-Terminus は深度求索(DeepSeek)による V3.1 モデルのアップデート版で、ハイブリッドエージェント大規模言語モデルとして位置付けられています。今回のアップデートはモデルの既存能力を維持しつつ、ユーザーからのフィードバックに基づく問題修正と安定性の向上に注力しています。言語の一貫性が大幅に改善され、中英混用や異常文字の出現が減少しました。モデルは「思考モード」(Thinking Mode)と「非思考モード」(Non-thinking Mode)を統合しており、ユーザーはチャットテンプレートを通じて柔軟に切り替え、異なるタスクに対応可能です。重要な最適化として、V3.1-Terminus はコードエージェント(Code Agent)と検索エージェント(Search Agent)の性能を強化し、ツール呼び出しや多段階の複雑なタスク実行においてより信頼性が高まりました。"
|
|
985
997
|
},
|
|
986
998
|
"deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
987
|
-
"description": "DeepSeek V3.2 Exp
|
|
999
|
+
"description": "DeepSeek-V3.2-Exp は、DeepSeek によってリリースされた実験的な V3.2 バージョンであり、次世代アーキテクチャへの移行に向けた中間的な探求です。V3.1-Terminus を基盤に、長文脈の学習と推論効率を向上させるために DeepSeek スパースアテンション(DeepSeek Sparse Attention、DSA)メカニズムを導入し、ツールの呼び出し、長文書の理解、多段階推論に特化した最適化が施されています。V3.2-Exp は研究と製品化の橋渡しとなるモデルであり、高文脈予算のシナリオでより高い推論効率を追求するユーザーに適しています。"
|
|
988
1000
|
},
|
|
989
1001
|
"deepseek-ai/deepseek-llm-67b-chat": {
|
|
990
1002
|
"description": "DeepSeek 67Bは、高い複雑性の対話のために訓練された先進的なモデルです。"
|
|
@@ -2474,9 +2486,6 @@
|
|
|
2474
2486
|
"mistralai/Mixtral-8x7B-v0.1": {
|
|
2475
2487
|
"description": "Mixtral 8x7Bはスパースエキスパートモデルで、複数のパラメータを利用して推論速度を向上させ、多言語処理やコード生成タスクに適しています。"
|
|
2476
2488
|
},
|
|
2477
|
-
"mistralai/mistral-7b-instruct": {
|
|
2478
|
-
"description": "Mistral 7B Instructは速度最適化と長いコンテキストサポートを兼ね備えた高性能な業界標準モデルです。"
|
|
2479
|
-
},
|
|
2480
2489
|
"mistralai/mistral-nemo": {
|
|
2481
2490
|
"description": "Mistral Nemoは多言語サポートと高性能プログラミングを備えた7.3Bパラメータモデルです。"
|
|
2482
2491
|
},
|
|
@@ -290,12 +290,12 @@
|
|
|
290
290
|
"Pro/deepseek-ai/DeepSeek-V3": {
|
|
291
291
|
"description": "DeepSeek-V3는 6710억 개의 매개변수를 가진 혼합 전문가(MoE) 언어 모델로, 다중 헤드 잠재 주의(MLA) 및 DeepSeekMoE 아키텍처를 사용하여 보조 손실 없는 부하 균형 전략을 결합하여 추론 및 훈련 효율성을 최적화합니다. 14.8조 개의 고품질 토큰에서 사전 훈련을 수행하고 감독 미세 조정 및 강화 학습을 통해 DeepSeek-V3는 성능 면에서 다른 오픈 소스 모델을 초월하며, 선도적인 폐쇄형 모델에 근접합니다."
|
|
292
292
|
},
|
|
293
|
-
"Pro/deepseek-ai/DeepSeek-V3.1": {
|
|
294
|
-
"description": "DeepSeek-V3.1은 DeepSeek AI에서 발표한 하이브리드 모드 대형 언어 모델로, 이전 모델을 기반으로 다방면에서 중요한 업그레이드를 이루었습니다. 이 모델의 주요 혁신은 '사고 모드'(Thinking Mode)와 '비사고 모드'(Non-thinking Mode)를 통합하여 사용자가 채팅 템플릿을 조정해 다양한 작업 요구에 유연하게 대응할 수 있다는 점입니다. 전용 사후 학습 최적화를 통해 V3.1은 도구 호출과 에이전트 작업 성능이 크게 향상되어 외부 검색 도구 지원과 다단계 복잡 작업 수행에 뛰어납니다. 이 모델은 DeepSeek-V3.1-Base를 기반으로 사후 학습되었으며, 2단계 장문 확장 방식을 통해 학습 데이터 양을 대폭 늘려 긴 문서와 장문의 코드 처리에 우수한 성능을 보입니다. 오픈소스 모델로서 DeepSeek-V3.1은 코딩, 수학, 추론 등 여러 벤치마크에서 최상위 폐쇄형 모델과 견줄 만한 능력을 보여주며, 혼합 전문가(MoE) 아키텍처 덕분에 대규모 모델 용량을 유지하면서도 추론 비용을 효과적으로 낮췄습니다."
|
|
295
|
-
},
|
|
296
293
|
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
297
294
|
"description": "DeepSeek-V3.1-Terminus는 DeepSeek에서 발표한 V3.1 모델의 업데이트 버전으로, 하이브리드 에이전트 대형 언어 모델로 자리매김하고 있습니다. 이번 업데이트는 모델의 기존 능력을 유지하면서 사용자 피드백 문제를 수정하고 안정성을 향상시키는 데 중점을 두었습니다. 언어 일관성이 크게 개선되어 중영 혼용 및 이상 문자 발생이 줄어들었습니다. 모델은 '사고 모드'(Thinking Mode)와 '비사고 모드'(Non-thinking Mode)를 통합하여 사용자가 채팅 템플릿을 통해 다양한 작업에 유연하게 전환할 수 있습니다. 중요한 최적화로서 V3.1-Terminus는 코드 에이전트(Code Agent)와 검색 에이전트(Search Agent)의 성능을 강화하여 도구 호출 및 다단계 복잡 작업 수행에서 더욱 신뢰할 수 있게 되었습니다."
|
|
298
295
|
},
|
|
296
|
+
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
297
|
+
"description": "DeepSeek-V3.2-Exp는 DeepSeek에서 출시한 실험적인 V3.2 버전으로, 차세대 아키텍처로 나아가기 위한 중간 단계의 탐색입니다. V3.1-Terminus를 기반으로 DeepSeek 희소 어텐션(DeepSeek Sparse Attention, DSA) 메커니즘을 도입하여 긴 문맥에서의 학습 및 추론 효율을 향상시켰으며, 도구 호출, 장문 이해 및 다단계 추론에 대한 최적화를 진행하였습니다. V3.2-Exp는 연구와 제품화 사이의 가교 역할을 하며, 높은 문맥 예산이 필요한 환경에서 더 나은 추론 효율을 탐색하고자 하는 사용자에게 적합합니다."
|
|
298
|
+
},
|
|
299
299
|
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
|
|
300
300
|
"description": "Kimi K2-Instruct-0905는 Kimi K2의 최신이자 가장 강력한 버전입니다. 이 모델은 총 1조 개의 파라미터와 320억 개의 활성화 파라미터를 가진 최첨단 혼합 전문가(MoE) 언어 모델입니다. 주요 특징으로는 향상된 에이전트 코딩 지능으로, 공개 벤치마크 테스트와 실제 코딩 에이전트 작업에서 뛰어난 성능 향상을 보였으며, 프론트엔드 코딩 경험이 개선되어 프론트엔드 프로그래밍의 미적 측면과 실용성 모두에서 진전을 이루었습니다."
|
|
301
301
|
},
|
|
@@ -398,6 +398,18 @@
|
|
|
398
398
|
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
|
|
399
399
|
"description": "Qwen3-Next-80B-A3B-Thinking은 알리바바 통의천문 팀이 발표한 복잡한 추론 작업에 특화된 차세대 기본 모델입니다. 혁신적인 Qwen3-Next 아키텍처를 기반으로 하며, 혼합 주의 메커니즘(Gated DeltaNet 및 Gated Attention)과 고희소성 혼합 전문가(MoE) 구조를 융합하여 극대화된 학습 및 추론 효율성을 실현합니다. 총 800억 개의 파라미터를 가진 희소 모델로, 추론 시 약 30억 개의 파라미터만 활성화하여 계산 비용을 크게 줄였으며, 32K 토큰 이상의 긴 문맥 작업 처리 시 Qwen3-32B 모델보다 처리량이 10배 이상 높습니다. 이 'Thinking' 버전은 수학 증명, 코드 합성, 논리 분석 및 계획 등 고난도 다단계 작업 수행에 최적화되어 있으며, 기본적으로 구조화된 '사고 체인' 형태로 추론 과정을 출력합니다. 성능 면에서는 Qwen3-32B-Thinking 등 비용이 더 높은 모델을 능가하며, 여러 벤치마크 테스트에서 Gemini-2.5-Flash-Thinking보다 우수한 성능을 보입니다."
|
|
400
400
|
},
|
|
401
|
+
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
|
|
402
|
+
"description": "Qwen3-VL-235B-A22B-Instruct는 Qwen3-VL 시리즈의 대형 지시 기반 미세 조정 모델로, 혼합 전문가(MoE) 아키텍처를 기반으로 뛰어난 멀티모달 이해 및 생성 능력을 갖추고 있으며, 기본적으로 256K 문맥을 지원합니다. 고동시성의 생산급 멀티모달 서비스에 적합합니다."
|
|
403
|
+
},
|
|
404
|
+
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
|
|
405
|
+
"description": "Qwen3-VL-235B-A22B-Thinking은 Qwen3-VL 시리즈의 플래그십 사고 버전으로, 복잡한 멀티모달 추론, 장문 문맥 추론 및 에이전트 상호작용에 최적화되어 있으며, 심층적 사고와 시각적 추론이 요구되는 엔터프라이즈 환경에 적합합니다."
|
|
406
|
+
},
|
|
407
|
+
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
|
|
408
|
+
"description": "Qwen3-VL-30B-A3B-Instruct는 Qwen3-VL 시리즈의 지시 기반 미세 조정 버전으로, 강력한 시각-언어 이해 및 생성 능력을 갖추고 있으며, 기본적으로 256K 문맥 길이를 지원합니다. 멀티모달 대화 및 이미지 조건 생성 작업에 적합합니다."
|
|
409
|
+
},
|
|
410
|
+
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
|
|
411
|
+
"description": "Qwen3-VL-30B-A3B-Thinking은 Qwen3-VL의 추론 강화 버전(Thinking)으로, 멀티모달 추론, 이미지 기반 코드 생성 및 복잡한 시각 이해 작업에 최적화되어 있으며, 256K 문맥을 지원하고 더 강력한 연쇄적 사고 능력을 보유하고 있습니다."
|
|
412
|
+
},
|
|
401
413
|
"Qwen/Qwen3-VL-8B-Instruct": {
|
|
402
414
|
"description": "Qwen3-VL-8B-Instruct는 Qwen3 시리즈의 비전-언어 모델로, Qwen3-8B-Instruct를 기반으로 다량의 이미지-텍스트 데이터로 학습되었습니다. 일반적인 시각 이해, 시각 중심의 대화, 이미지 내 다국어 텍스트 인식에 능하며, 시각 질의응답, 이미지 설명, 멀티모달 명령 수행 및 도구 호출 등의 활용 시나리오에 적합합니다."
|
|
403
415
|
},
|
|
@@ -978,13 +990,13 @@
|
|
|
978
990
|
"description": "DeepSeek-V3는 6710억 개의 매개변수를 가진 혼합 전문가(MoE) 언어 모델로, 다중 헤드 잠재 주의(MLA) 및 DeepSeekMoE 아키텍처를 채택하여 보조 손실 없는 부하 균형 전략을 결합하여 추론 및 훈련 효율성을 최적화합니다. 14.8조 개의 고품질 토큰에서 사전 훈련을 수행하고 감독 미세 조정 및 강화 학습을 통해 DeepSeek-V3는 성능 면에서 다른 오픈 소스 모델을 초월하며, 선도적인 폐쇄형 모델에 근접합니다."
|
|
979
991
|
},
|
|
980
992
|
"deepseek-ai/DeepSeek-V3.1": {
|
|
981
|
-
"description": "DeepSeek
|
|
993
|
+
"description": "DeepSeek V3.1 모델은 혼합 추론 아키텍처를 기반으로 하며, 사고 모드와 비사고 모드를 모두 지원합니다."
|
|
982
994
|
},
|
|
983
995
|
"deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
984
996
|
"description": "DeepSeek-V3.1-Terminus는 DeepSeek에서 발표한 V3.1 모델의 업데이트 버전으로, 하이브리드 에이전트 대형 언어 모델로 자리매김하고 있습니다. 이번 업데이트는 모델의 기존 능력을 유지하면서 사용자 피드백 문제를 수정하고 안정성을 향상시키는 데 중점을 두었습니다. 언어 일관성이 크게 개선되어 중영 혼용 및 이상 문자 발생이 줄어들었습니다. 모델은 '사고 모드'(Thinking Mode)와 '비사고 모드'(Non-thinking Mode)를 통합하여 사용자가 채팅 템플릿을 통해 다양한 작업에 유연하게 전환할 수 있습니다. 중요한 최적화로서 V3.1-Terminus는 코드 에이전트(Code Agent)와 검색 에이전트(Search Agent)의 성능을 강화하여 도구 호출 및 다단계 복잡 작업 수행에서 더욱 신뢰할 수 있게 되었습니다."
|
|
985
997
|
},
|
|
986
998
|
"deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
987
|
-
"description": "DeepSeek V3.2
|
|
999
|
+
"description": "DeepSeek-V3.2-Exp는 DeepSeek에서 출시한 실험적인 V3.2 버전으로, 차세대 아키텍처로 나아가기 위한 중간 단계의 탐색입니다. V3.1-Terminus를 기반으로 DeepSeek 희소 어텐션(DeepSeek Sparse Attention, DSA) 메커니즘을 도입하여 긴 문맥에서의 학습 및 추론 효율을 향상시켰으며, 도구 호출, 장문 이해 및 다단계 추론에 대한 최적화를 진행하였습니다. V3.2-Exp는 연구와 제품화 사이의 가교 역할을 하며, 높은 문맥 예산이 필요한 환경에서 더 나은 추론 효율을 탐색하고자 하는 사용자에게 적합합니다."
|
|
988
1000
|
},
|
|
989
1001
|
"deepseek-ai/deepseek-llm-67b-chat": {
|
|
990
1002
|
"description": "DeepSeek 67B는 고복잡성 대화를 위해 훈련된 고급 모델입니다."
|
|
@@ -2474,9 +2486,6 @@
|
|
|
2474
2486
|
"mistralai/Mixtral-8x7B-v0.1": {
|
|
2475
2487
|
"description": "Mixtral 8x7B는 여러 파라미터를 활용하여 추론 속도를 높이는 희소 전문가 모델입니다. 다국어 및 코드 생성 작업 처리에 적합합니다."
|
|
2476
2488
|
},
|
|
2477
|
-
"mistralai/mistral-7b-instruct": {
|
|
2478
|
-
"description": "Mistral 7B Instruct는 속도 최적화와 긴 컨텍스트 지원을 갖춘 고성능 산업 표준 모델입니다."
|
|
2479
|
-
},
|
|
2480
2489
|
"mistralai/mistral-nemo": {
|
|
2481
2490
|
"description": "Mistral Nemo는 다국어 지원과 고성능 프로그래밍을 위한 7.3B 파라미터 모델입니다."
|
|
2482
2491
|
},
|