@lobehub/chat 1.142.0 → 1.142.2
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/CHANGELOG.md +50 -0
- package/Dockerfile +3 -3
- package/Dockerfile.database +3 -3
- package/Dockerfile.pglite +3 -3
- package/README.md +1 -1
- package/README.zh-CN.md +1 -1
- package/changelog/v1.json +18 -0
- package/docs/self-hosting/advanced/model-list.mdx +11 -0
- package/docs/self-hosting/advanced/model-list.zh-CN.mdx +11 -0
- package/docs/self-hosting/environment-variables/model-provider.mdx +23 -14
- package/docs/self-hosting/environment-variables/model-provider.zh-CN.mdx +23 -14
- package/docs/usage/providers/aihubmix.zh-CN.mdx +1 -4
- package/locales/ar/models.json +17 -8
- package/locales/bg-BG/models.json +17 -8
- package/locales/de-DE/models.json +17 -8
- package/locales/en-US/models.json +17 -8
- package/locales/es-ES/models.json +17 -8
- package/locales/fa-IR/models.json +17 -8
- package/locales/fr-FR/models.json +17 -8
- package/locales/it-IT/models.json +17 -8
- package/locales/ja-JP/models.json +17 -8
- package/locales/ko-KR/models.json +17 -8
- package/locales/nl-NL/models.json +17 -8
- package/locales/pl-PL/models.json +17 -8
- package/locales/pt-BR/models.json +17 -8
- package/locales/ru-RU/models.json +17 -8
- package/locales/tr-TR/models.json +17 -8
- package/locales/vi-VN/models.json +17 -8
- package/locales/zh-CN/models.json +17 -8
- package/locales/zh-TW/models.json +17 -8
- package/package.json +2 -2
- package/packages/context-engine/src/processors/__tests__/MessageContent.test.ts +17 -17
- package/packages/context-engine/src/types.ts +4 -4
- package/packages/database/src/models/__tests__/generation.test.ts +2 -2
- package/packages/database/src/models/__tests__/generationBatch.test.ts +1 -1
- package/packages/database/src/models/__tests__/generationTopic.test.ts +2 -4
- package/packages/database/src/models/__tests__/message.test.ts +2 -2
- package/packages/database/src/models/asyncTask.ts +3 -4
- package/packages/database/src/models/chatGroup.ts +2 -2
- package/packages/database/src/models/chunk.ts +2 -3
- package/packages/database/src/models/drizzleMigration.ts +1 -1
- package/packages/database/src/models/file.ts +1 -2
- package/packages/database/src/models/generation.ts +8 -4
- package/packages/database/src/models/generationBatch.ts +1 -1
- package/packages/database/src/models/generationTopic.ts +2 -2
- package/packages/database/src/models/knowledgeBase.ts +2 -3
- package/packages/database/src/models/message.ts +9 -9
- package/packages/database/src/models/session.ts +8 -10
- package/packages/database/src/models/thread.ts +2 -3
- package/packages/database/src/models/topic.ts +2 -4
- package/packages/database/src/models/user.ts +1 -2
- package/packages/database/src/schemas/generation.ts +1 -2
- package/packages/database/src/schemas/message.ts +1 -3
- package/packages/model-runtime/src/core/streams/anthropic.ts +1 -2
- package/packages/model-runtime/src/core/streams/protocol.ts +1 -2
- package/packages/model-runtime/src/core/usageConverters/anthropic.ts +1 -2
- package/packages/model-runtime/src/core/usageConverters/google-ai.ts +1 -2
- package/packages/model-runtime/src/core/usageConverters/utils/computeChatCost.test.ts +1 -2
- package/packages/model-runtime/src/core/usageConverters/utils/computeChatCost.ts +1 -2
- package/packages/model-runtime/src/core/usageConverters/utils/withUsageCost.ts +1 -2
- package/packages/model-runtime/src/types/image.ts +1 -2
- package/packages/prompts/src/chains/__tests__/summaryHistory.test.ts +2 -2
- package/packages/prompts/src/chains/summaryHistory.ts +2 -2
- package/packages/prompts/src/chains/summaryTitle.ts +2 -3
- package/packages/prompts/src/contexts/supervisor/makeDecision.ts +2 -2
- package/packages/prompts/src/prompts/chatMessages/index.test.ts +11 -11
- package/packages/prompts/src/prompts/chatMessages/index.ts +13 -10
- package/packages/prompts/src/prompts/groupChat/index.test.ts +3 -4
- package/packages/prompts/src/prompts/groupChat/index.ts +3 -3
- package/packages/types/src/aiChat.ts +2 -2
- package/packages/types/src/exportConfig.ts +6 -6
- package/packages/types/src/importer.ts +2 -2
- package/packages/types/src/index.ts +2 -0
- package/packages/types/src/message/common/base.ts +27 -0
- package/packages/types/src/message/common/index.ts +5 -0
- package/packages/types/src/message/common/metadata.ts +67 -0
- package/packages/types/src/message/{tools.ts → common/tools.ts} +1 -1
- package/packages/types/src/message/common/translate.ts +8 -0
- package/packages/types/src/message/db/index.ts +2 -0
- package/packages/types/src/message/db/item.ts +29 -0
- package/packages/types/src/message/db/params.ts +57 -0
- package/packages/types/src/message/index.ts +3 -6
- package/packages/types/src/message/{chat.ts → ui/chat.ts} +13 -40
- package/packages/types/src/message/ui/extra.ts +16 -0
- package/packages/types/src/message/ui/index.ts +4 -0
- package/packages/types/src/message/{rag.ts → ui/rag.ts} +11 -1
- package/src/app/[variants]/(main)/chat/(workspace)/@conversation/features/ChatInput/V1Mobile/useSend.ts +1 -1
- package/src/app/[variants]/(main)/chat/(workspace)/features/ShareButton/index.tsx +0 -3
- package/src/app/[variants]/(main)/profile/stats/features/ModelsRank.tsx +1 -1
- package/src/app/[variants]/(main)/settings/llm/components/Checker.tsx +1 -2
- package/src/app/[variants]/(main)/settings/provider/detail/ollama/CheckError.tsx +1 -2
- package/src/app/[variants]/(main)/settings/provider/features/CreateNewProvider/index.tsx +1 -2
- package/src/app/[variants]/(main)/settings/provider/features/ProviderConfig/Checker.tsx +1 -2
- package/src/database/_deprecated/models/__tests__/message.test.ts +6 -7
- package/src/database/_deprecated/models/message.ts +13 -13
- package/src/features/AgentSetting/AgentTTS/SelectWithTTSPreview.tsx +1 -1
- package/src/features/ChatInput/ActionBar/STT/browser.tsx +1 -1
- package/src/features/ChatInput/ActionBar/STT/common.tsx +1 -2
- package/src/features/ChatInput/ActionBar/STT/openai.tsx +1 -1
- package/src/features/ChatItem/components/ErrorContent.tsx +5 -0
- package/src/features/Conversation/Error/ErrorJsonViewer.tsx +1 -2
- package/src/features/Conversation/Error/OllamaBizError/index.tsx +2 -3
- package/src/features/Conversation/Error/index.tsx +3 -4
- package/src/features/Conversation/Error/style.tsx +5 -1
- package/src/features/Conversation/Messages/Assistant/Actions/index.tsx +2 -2
- package/src/features/Conversation/Messages/Assistant/Block.tsx +1 -1
- package/src/features/Conversation/Messages/Assistant/Extra/index.test.tsx +2 -2
- package/src/features/Conversation/Messages/Assistant/Extra/index.tsx +1 -1
- package/src/features/Conversation/Messages/Assistant/FileChunks/Item/index.tsx +1 -1
- package/src/features/Conversation/Messages/Assistant/FileChunks/index.tsx +1 -2
- package/src/features/Conversation/Messages/Assistant/MessageContent.tsx +2 -2
- package/src/features/Conversation/Messages/Assistant/Tool/Render/CustomRender.tsx +2 -2
- package/src/features/Conversation/Messages/Assistant/Tool/Render/ErrorResponse.tsx +1 -2
- package/src/features/Conversation/Messages/Assistant/Tool/Render/PluginSettings.tsx +1 -1
- package/src/features/Conversation/Messages/Assistant/index.tsx +2 -2
- package/src/features/Conversation/Messages/Default.tsx +3 -3
- package/src/features/Conversation/Messages/Supervisor/index.tsx +2 -2
- package/src/features/Conversation/Messages/User/Actions.tsx +2 -2
- package/src/features/Conversation/Messages/User/FileListViewer/Item.tsx +1 -1
- package/src/features/Conversation/Messages/User/FileListViewer/index.tsx +1 -2
- package/src/features/Conversation/Messages/User/MessageContent.tsx +2 -3
- package/src/features/Conversation/Messages/User/VideoFileListViewer.tsx +1 -2
- package/src/features/Conversation/Messages/User/index.tsx +2 -2
- package/src/features/Conversation/components/ChatItem/ShareMessageModal/SharePdf/index.tsx +2 -2
- package/src/features/Conversation/components/ChatItem/ShareMessageModal/SharePdf/template.ts +2 -2
- package/src/features/Conversation/components/Extras/TTS/InitPlayer.tsx +1 -1
- package/src/features/Conversation/components/Extras/TTS/Player.tsx +1 -2
- package/src/features/Conversation/components/Extras/Translate.tsx +1 -1
- package/src/features/Conversation/components/Extras/Usage/UsageDetail/index.tsx +1 -1
- package/src/features/Conversation/components/Extras/Usage/UsageDetail/tokens.ts +1 -1
- package/src/features/Conversation/components/Extras/Usage/index.tsx +1 -2
- package/src/features/Conversation/components/ShareMessageModal/ShareImage/Preview.tsx +2 -2
- package/src/features/Conversation/components/ShareMessageModal/ShareImage/index.tsx +2 -2
- package/src/features/Conversation/components/ShareMessageModal/ShareText/index.tsx +2 -2
- package/src/features/Conversation/components/ShareMessageModal/ShareText/template.test.ts +3 -3
- package/src/features/Conversation/components/ShareMessageModal/ShareText/template.ts +2 -2
- package/src/features/Conversation/components/ShareMessageModal/index.tsx +3 -3
- package/src/features/Conversation/types/index.ts +5 -5
- package/src/features/Portal/Home/Body/Files/FileList/Item.tsx +1 -1
- package/src/features/Portal/Home/Body/Plugins/ArtifactList/Item/index.tsx +1 -1
- package/src/features/Portal/Thread/Chat/ChatInput/useSend.ts +1 -1
- package/src/features/ShareModal/ShareJSON/generateMessages.test.ts +3 -3
- package/src/features/ShareModal/ShareJSON/generateMessages.ts +3 -2
- package/src/features/ShareModal/SharePdf/index.tsx +2 -2
- package/src/features/ShareModal/ShareText/template.test.ts +3 -3
- package/src/features/ShareModal/ShareText/template.ts +2 -2
- package/src/libs/langchain/loaders/code/__tests__/long.json +1 -1
- package/src/libs/langchain/loaders/code/__tests__/long.txt +1 -1
- package/src/server/routers/lambda/__tests__/message.test.ts +2 -3
- package/src/server/routers/lambda/message.ts +2 -4
- package/src/services/chat/chat.test.ts +27 -25
- package/src/services/chat/contextEngineering.test.ts +21 -21
- package/src/services/chat/contextEngineering.ts +2 -2
- package/src/services/chat/index.ts +5 -8
- package/src/services/message/_deprecated.test.ts +7 -7
- package/src/services/message/_deprecated.ts +10 -10
- package/src/services/message/client.test.ts +10 -10
- package/src/services/message/client.ts +6 -5
- package/src/services/message/server.ts +4 -3
- package/src/services/message/type.ts +10 -11
- package/src/services/thread/type.ts +2 -1
- package/src/store/chat/helpers.test.ts +5 -5
- package/src/store/chat/helpers.ts +5 -5
- package/src/store/chat/initialState.ts +0 -3
- package/src/store/chat/slices/aiChat/actions/__tests__/fixtures.ts +5 -4
- package/src/store/chat/slices/aiChat/actions/__tests__/generateAIChatV2.test.ts +4 -4
- package/src/store/chat/slices/aiChat/actions/__tests__/rag.test.ts +6 -6
- package/src/store/chat/slices/aiChat/actions/generateAIChat.ts +17 -12
- package/src/store/chat/slices/aiChat/actions/generateAIChatV2.ts +7 -8
- package/src/store/chat/slices/aiChat/actions/generateAIGroupChat.ts +10 -6
- package/src/store/chat/slices/aiChat/actions/memory.ts +2 -3
- package/src/store/chat/slices/builtinTool/actions/__tests__/dalle.test.ts +3 -3
- package/src/store/chat/slices/builtinTool/actions/__tests__/search.test.ts +3 -3
- package/src/store/chat/slices/message/action.test.ts +13 -8
- package/src/store/chat/slices/message/action.ts +19 -18
- package/src/store/chat/slices/message/initialState.ts +3 -2
- package/src/store/chat/slices/message/reducer.test.ts +6 -6
- package/src/store/chat/slices/message/reducer.ts +11 -8
- package/src/store/chat/slices/message/selectors.test.ts +9 -9
- package/src/store/chat/slices/message/selectors.ts +10 -9
- package/src/store/chat/slices/message/supervisor.ts +2 -2
- package/src/store/chat/slices/plugin/action.test.ts +16 -13
- package/src/store/chat/slices/plugin/action.ts +11 -11
- package/src/store/chat/slices/portal/selectors.test.ts +8 -8
- package/src/store/chat/slices/thread/action.test.ts +2 -2
- package/src/store/chat/slices/thread/action.ts +9 -5
- package/src/store/chat/slices/thread/selectors/index.ts +11 -11
- package/src/store/chat/slices/thread/selectors/util.ts +2 -3
- package/src/store/chat/slices/topic/action.test.ts +6 -6
- package/src/store/chat/slices/topic/action.ts +2 -3
- package/src/store/chat/slices/translate/action.ts +2 -3
- package/src/store/chat/slices/tts/action.ts +1 -1
- package/src/store/chat/store.ts +0 -3
- package/src/store/image/slices/createImage/action.test.ts +9 -2
- package/src/store/image/slices/createImage/action.ts +6 -4
- package/src/tools/local-system/Render/ListFiles/Result.tsx +1 -1
- package/src/tools/local-system/Render/ListFiles/index.tsx +1 -1
- package/src/tools/local-system/Render/ReadLocalFile/index.tsx +1 -1
- package/src/tools/local-system/Render/RenameLocalFile/index.tsx +1 -1
- package/src/tools/local-system/Render/RunCommand/index.tsx +1 -1
- package/src/tools/local-system/Render/SearchFiles/index.tsx +1 -1
- package/src/tools/local-system/Render/WriteFile/index.tsx +1 -1
- package/src/tools/web-browsing/Render/Search/index.tsx +1 -3
- package/packages/types/src/message/base.ts +0 -173
- package/packages/types/src/message/translate.ts +0 -4
- package/src/store/chat/slices/share/action.test.ts +0 -22
- package/src/store/chat/slices/share/action.ts +0 -18
- package/src/store/chat/slices/share/initialState.ts +0 -7
- /package/packages/types/src/message/{image.ts → common/image.ts} +0 -0
- /package/packages/types/src/message/{video.ts → ui/video.ts} +0 -0
|
@@ -290,12 +290,12 @@
|
|
|
290
290
|
"Pro/deepseek-ai/DeepSeek-V3": {
|
|
291
291
|
"description": "DeepSeek-V3 is een hybride expert (MoE) taalmodel met 6710 miljard parameters, dat gebruikmaakt van multi-head latent attention (MLA) en de DeepSeekMoE-architectuur, gecombineerd met een load balancing-strategie zonder extra verlies, om de inferentie- en trainingsefficiëntie te optimaliseren. Door voorgetraind te worden op 14,8 biljoen hoogwaardige tokens en vervolgens te worden fijngesteld met supervisie en versterkend leren, overtreft DeepSeek-V3 andere open-source modellen in prestaties en komt het dicht in de buurt van toonaangevende gesloten modellen."
|
|
292
292
|
},
|
|
293
|
-
"Pro/deepseek-ai/DeepSeek-V3.1": {
|
|
294
|
-
"description": "DeepSeek-V3.1 is een hybride groot taalmodel uitgebracht door DeepSeek AI, met belangrijke upgrades ten opzichte van eerdere modellen. Een belangrijke innovatie is de integratie van een 'denkenmodus' en een 'niet-denkenmodus', die gebruikers flexibel kunnen wisselen via aanpasbare chattemplates om aan verschillende taakvereisten te voldoen. Dankzij speciale post-training optimalisaties is de prestatie bij toolaanroepen en agenttaken aanzienlijk verbeterd, waardoor het beter externe zoektools ondersteunt en complexe meerstaps taken kan uitvoeren. Het model is gebaseerd op DeepSeek-V3.1-Base en uitgebreid met een tweefasige lange-tekst uitbreidingsmethode, wat de hoeveelheid trainingsdata sterk vergroot en betere prestaties levert bij het verwerken van lange documenten en uitgebreide code. Als open source model toont DeepSeek-V3.1 vergelijkbare capaciteiten als toonaangevende gesloten modellen in benchmarks voor codering, wiskunde en redeneren. Dankzij de hybride expertarchitectuur (MoE) behoudt het een enorme modelcapaciteit terwijl de redeneerkosten effectief worden verlaagd."
|
|
295
|
-
},
|
|
296
293
|
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
297
294
|
"description": "DeepSeek-V3.1-Terminus is een bijgewerkte versie van het V3.1-model uitgebracht door DeepSeek, gepositioneerd als een hybride agent groot taalmodel. Deze update richt zich op het oplossen van gebruikersfeedback en het verbeteren van de stabiliteit, terwijl de oorspronkelijke capaciteiten behouden blijven. Het verbetert aanzienlijk de taalconsistentie en vermindert het gebruik van gemengde talen en ongebruikelijke tekens. Het model integreert een 'denkmodus' en een 'niet-denkmodus', waarbij gebruikers flexibel kunnen schakelen via chattemplates om aan verschillende taken te voldoen. Als belangrijke optimalisatie versterkt V3.1-Terminus de prestaties van de code-agent en zoekagent, waardoor het betrouwbaarder wordt bij het aanroepen van tools en het uitvoeren van complexe meerstaps taken."
|
|
298
295
|
},
|
|
296
|
+
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
297
|
+
"description": "DeepSeek-V3.2-Exp is de experimentele V3.2-versie uitgebracht door DeepSeek, bedoeld als een tussenstap richting een volgende generatie architectuur. Op basis van V3.1-Terminus introduceert het het DeepSeek Sparse Attention (DSA)-mechanisme om de efficiëntie van training en redeneren met lange contexten te verbeteren. Het is speciaal geoptimaliseerd voor toolgebruik, begrip van lange documenten en meerstapsredenering. V3.2-Exp vormt een brug tussen onderzoek en productontwikkeling, en is geschikt voor gebruikers die in scenario’s met een hoog contextbudget op zoek zijn naar efficiëntere redenering."
|
|
298
|
+
},
|
|
299
299
|
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
|
|
300
300
|
"description": "Kimi K2-Instruct-0905 is de nieuwste en krachtigste versie van Kimi K2. Het is een toonaangevend hybride expert (MoE) taalmodel met in totaal 1 biljoen parameters en 32 miljard geactiveerde parameters. De belangrijkste kenmerken van dit model zijn: verbeterde agent-coderingsintelligentie, met aanzienlijke prestatieverbeteringen in openbare benchmarktests en echte agent-coderingsopdrachten; verbeterde front-end coderingservaring, met vooruitgang in zowel esthetiek als bruikbaarheid van front-end programmeren."
|
|
301
301
|
},
|
|
@@ -398,6 +398,18 @@
|
|
|
398
398
|
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
|
|
399
399
|
"description": "Qwen3-Next-80B-A3B-Thinking is een volgende generatie basis model uitgebracht door het Tongyi Qianwen-team van Alibaba, speciaal ontworpen voor complexe redeneertaken. Het is gebaseerd op de innovatieve Qwen3-Next architectuur, die een hybride aandachtmechanisme (Gated DeltaNet en Gated Attention) en een hoog-sparsity Mixture of Experts (MoE) structuur combineert, met als doel ultieme trainings- en inferentie-efficiëntie te bereiken. Als een sparsity model met in totaal 80 miljard parameters, activeert het tijdens inferentie slechts ongeveer 3 miljard parameters, wat de rekenkosten aanzienlijk verlaagt. Bij het verwerken van lange contexttaken van meer dan 32K tokens is de doorvoer meer dan 10 keer hoger dan die van het Qwen3-32B model. Deze \"Thinking\" versie is geoptimaliseerd voor het uitvoeren van wiskundige bewijzen, code synthese, logische analyse en planning, en geeft standaard de redeneerprocessen gestructureerd weer in de vorm van een \"denk-keten\". Qua prestaties overtreft het niet alleen modellen met hogere kosten zoals Qwen3-32B-Thinking, maar presteert het ook beter dan Gemini-2.5-Flash-Thinking in meerdere benchmarktests."
|
|
400
400
|
},
|
|
401
|
+
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
|
|
402
|
+
"description": "Qwen3-VL-235B-A22B-Instruct is een grootschalig instructie-afgesteld model uit de Qwen3-VL-serie. Het is gebaseerd op een Mixture of Experts (MoE)-architectuur en beschikt over uitstekende multimodale begrip- en generatiecapaciteiten. Het ondersteunt van nature een context van 256K tokens en is geschikt voor productieklare multimodale diensten met hoge gelijktijdigheid."
|
|
403
|
+
},
|
|
404
|
+
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
|
|
405
|
+
"description": "Qwen3-VL-235B-A22B-Thinking is het vlaggenschip 'Thinking'-model binnen de Qwen3-VL-serie. Het is speciaal geoptimaliseerd voor complexe multimodale redenering, lange contextverwerking en interactie met agents. Ideaal voor bedrijfstoepassingen die diepgaande analyse en visuele redenering vereisen."
|
|
406
|
+
},
|
|
407
|
+
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
|
|
408
|
+
"description": "Qwen3-VL-30B-A3B-Instruct is een instructie-afgesteld model uit de Qwen3-VL-serie met krachtige visueel-linguïstische begrip- en generatiecapaciteiten. Het ondersteunt van nature een contextlengte van 256K tokens en is geschikt voor multimodale dialogen en beeldgebaseerde generatieopdrachten."
|
|
409
|
+
},
|
|
410
|
+
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
|
|
411
|
+
"description": "Qwen3-VL-30B-A3B-Thinking is de redeneringsgerichte versie (Thinking) van Qwen3-VL. Het is geoptimaliseerd voor multimodale redenering, beeld-naar-code taken en complexe visuele interpretatie. Het ondersteunt 256K context en beschikt over geavanceerde ketenredeneringsvaardigheden."
|
|
412
|
+
},
|
|
401
413
|
"Qwen/Qwen3-VL-8B-Instruct": {
|
|
402
414
|
"description": "Qwen3-VL-8B-Instruct is een visueel-taalkundig model uit de Qwen3-serie, ontwikkeld op basis van Qwen3-8B-Instruct en getraind op grote hoeveelheden beeld- en tekstdata. Het is bedreven in algemene visuele interpretatie, visueel-centrische dialogen en meertalige tekstherkenning in afbeeldingen. Het is geschikt voor toepassingen zoals visuele vraag-en-antwoord, beeldbeschrijving, multimodale instructievolging en toolaansturing."
|
|
403
415
|
},
|
|
@@ -978,13 +990,13 @@
|
|
|
978
990
|
"description": "DeepSeek-V3 is een hybride expert (MoE) taalmodel met 6710 miljard parameters, dat gebruikmaakt van multi-head latent attention (MLA) en de DeepSeekMoE-architectuur, gecombineerd met een load balancing-strategie zonder extra verlies, om de inferentie- en trainingsefficiëntie te optimaliseren. Door voorgetraind te worden op 14,8 biljoen hoogwaardige tokens en vervolgens te worden fijngetuned met supervisie en versterkend leren, overtreft DeepSeek-V3 andere open-source modellen in prestaties en komt het dicht in de buurt van toonaangevende gesloten modellen."
|
|
979
991
|
},
|
|
980
992
|
"deepseek-ai/DeepSeek-V3.1": {
|
|
981
|
-
"description": "DeepSeek
|
|
993
|
+
"description": "Het DeepSeek V3.1-model is gebaseerd op een hybride redeneringsarchitectuur en ondersteunt zowel denk- als niet-denkmodi."
|
|
982
994
|
},
|
|
983
995
|
"deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
984
996
|
"description": "DeepSeek-V3.1-Terminus is een bijgewerkte versie van het V3.1-model uitgebracht door DeepSeek, gepositioneerd als een hybride agent groot taalmodel. Deze update richt zich op het oplossen van gebruikersfeedback en het verbeteren van de stabiliteit, terwijl de oorspronkelijke capaciteiten behouden blijven. Het verbetert aanzienlijk de taalconsistentie en vermindert het gebruik van gemengde talen en ongebruikelijke tekens. Het model integreert een 'denkmodus' en een 'niet-denkmodus', waarbij gebruikers flexibel kunnen schakelen via chattemplates om aan verschillende taken te voldoen. Als belangrijke optimalisatie versterkt V3.1-Terminus de prestaties van de code-agent en zoekagent, waardoor het betrouwbaarder wordt bij het aanroepen van tools en het uitvoeren van complexe meerstaps taken."
|
|
985
997
|
},
|
|
986
998
|
"deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
987
|
-
"description": "
|
|
999
|
+
"description": "DeepSeek-V3.2-Exp is de experimentele V3.2-versie uitgebracht door DeepSeek, bedoeld als een tussenstap richting een volgende generatie architectuur. Op basis van V3.1-Terminus introduceert het het DeepSeek Sparse Attention (DSA)-mechanisme om de efficiëntie van training en redeneren met lange contexten te verbeteren. Het is speciaal geoptimaliseerd voor toolgebruik, begrip van lange documenten en meerstapsredenering. V3.2-Exp vormt een brug tussen onderzoek en productontwikkeling, en is geschikt voor gebruikers die in scenario’s met een hoog contextbudget op zoek zijn naar efficiëntere redenering."
|
|
988
1000
|
},
|
|
989
1001
|
"deepseek-ai/deepseek-llm-67b-chat": {
|
|
990
1002
|
"description": "DeepSeek 67B is een geavanceerd model dat is getraind voor complexe gesprekken."
|
|
@@ -2474,9 +2486,6 @@
|
|
|
2474
2486
|
"mistralai/Mixtral-8x7B-v0.1": {
|
|
2475
2487
|
"description": "Mixtral 8x7B is een spaarzaam expert-model dat meerdere parameters gebruikt om de redeneringssnelheid te verhogen, ideaal voor meertalige en codegeneratietaken."
|
|
2476
2488
|
},
|
|
2477
|
-
"mistralai/mistral-7b-instruct": {
|
|
2478
|
-
"description": "Mistral 7B Instruct is een hoogwaardig industrieel standaardmodel met snelheidoptimalisatie en ondersteuning voor lange contexten."
|
|
2479
|
-
},
|
|
2480
2489
|
"mistralai/mistral-nemo": {
|
|
2481
2490
|
"description": "Mistral Nemo is een model met 7,3 miljard parameters dat meertalige ondersteuning en hoge prestaties biedt."
|
|
2482
2491
|
},
|
|
@@ -290,12 +290,12 @@
|
|
|
290
290
|
"Pro/deepseek-ai/DeepSeek-V3": {
|
|
291
291
|
"description": "DeepSeek-V3 to model językowy z 6710 miliardami parametrów, oparty na architekturze mieszanych ekspertów (MoE), wykorzystujący wielogłowicową potencjalną uwagę (MLA) oraz strategię równoważenia obciążenia bez dodatkowych strat, co optymalizuje wydajność wnioskowania i treningu. Dzięki wstępnemu treningowi na 14,8 bilionach wysokiej jakości tokenów oraz nadzorowanemu dostrajaniu i uczeniu ze wzmocnieniem, DeepSeek-V3 przewyższa inne modele open source, zbliżając się do wiodących modeli zamkniętych."
|
|
292
292
|
},
|
|
293
|
-
"Pro/deepseek-ai/DeepSeek-V3.1": {
|
|
294
|
-
"description": "DeepSeek-V3.1 to hybrydowy duży model językowy wydany przez DeepSeek AI, który wprowadza wiele istotnych ulepszeń w stosunku do poprzednich wersji. Jedną z innowacji jest integracja trybu myślenia (Thinking Mode) i trybu bezmyślnego (Non-thinking Mode), które użytkownik może elastycznie przełączać, dostosowując szablony rozmów do różnych zadań. Dzięki specjalnej optymalizacji po treningu, wersja V3.1 znacznie poprawiła wydajność w wywoływaniu narzędzi i zadaniach agenta, lepiej wspierając zewnętrzne narzędzia wyszukiwania oraz realizację wieloetapowych, złożonych zadań. Model bazuje na DeepSeek-V3.1-Base i został poddany dalszemu treningowi z zastosowaniem dwufazowej metody rozszerzania długich tekstów, co znacznie zwiększyło ilość danych treningowych i poprawiło działanie na długich dokumentach oraz rozbudowanym kodzie. Jako model open source, DeepSeek-V3.1 wykazuje zdolności porównywalne z najlepszymi zamkniętymi modelami w benchmarkach kodowania, matematyki i wnioskowania, a dzięki architekturze hybrydowych ekspertów (MoE) utrzymuje ogromną pojemność modelu przy jednoczesnym efektywnym obniżeniu kosztów wnioskowania."
|
|
295
|
-
},
|
|
296
293
|
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
297
294
|
"description": "DeepSeek-V3.1-Terminus to zaktualizowana wersja modelu V3.1 wydanego przez DeepSeek, zaprojektowana jako hybrydowy model językowy z agentami. Aktualizacja skupia się na naprawie zgłoszonych przez użytkowników problemów i poprawie stabilności, zachowując jednocześnie dotychczasowe możliwości modelu. Znacząco poprawiono spójność językową, zmniejszając mieszanie języka chińskiego i angielskiego oraz eliminując nieprawidłowe znaki. Model integruje tryb myślenia (Thinking Mode) oraz tryb bez myślenia (Non-thinking Mode), które użytkownicy mogą elastycznie przełączać za pomocą szablonów czatu, dostosowując się do różnych zadań. Ważną optymalizacją jest wzmocnienie wydajności agenta kodu (Code Agent) i agenta wyszukiwania (Search Agent), co czyni je bardziej niezawodnymi w wywoływaniu narzędzi i realizacji wieloetapowych, złożonych zadań."
|
|
298
295
|
},
|
|
296
|
+
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
297
|
+
"description": "DeepSeek-V3.2-Exp to eksperymentalna wersja V3.2 wydana przez DeepSeek, stanowiąca etap przejściowy w kierunku nowej generacji architektury. Na bazie V3.1-Terminus wprowadza mechanizm rzadkiej uwagi DeepSeek (DeepSeek Sparse Attention, DSA), który zwiększa efektywność trenowania i wnioskowania w kontekście długich sekwencji. Model został specjalnie zoptymalizowany pod kątem wywoływania narzędzi, rozumienia długich dokumentów i wieloetapowego wnioskowania. V3.2-Exp stanowi pomost między badaniami a wdrożeniem komercyjnym i jest odpowiedni dla użytkowników poszukujących wyższej efektywności wnioskowania w scenariuszach z dużym budżetem kontekstowym."
|
|
298
|
+
},
|
|
299
299
|
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
|
|
300
300
|
"description": "Kimi K2-Instruct-0905 to najnowsza i najpotężniejsza wersja Kimi K2. Jest to zaawansowany model językowy typu Mixture of Experts (MoE) z 1 bilionem parametrów ogółem i 32 miliardami aktywowanych parametrów. Główne cechy modelu to: wzmocniona inteligencja kodowania agentów, która wykazuje znaczącą poprawę wydajności w publicznych testach porównawczych oraz w rzeczywistych zadaniach kodowania agentów; ulepszone doświadczenie kodowania front-end, z postępami zarówno w estetyce, jak i funkcjonalności programowania front-endowego."
|
|
301
301
|
},
|
|
@@ -398,6 +398,18 @@
|
|
|
398
398
|
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
|
|
399
399
|
"description": "Qwen3-Next-80B-A3B-Thinking to kolejna generacja modelu bazowego wydanego przez zespół Tongyi Qianwen z Alibaba, specjalnie zaprojektowana do złożonych zadań wnioskowania. Opiera się na innowacyjnej architekturze Qwen3-Next, która łączy hybrydowy mechanizm uwagi (Gated DeltaNet i Gated Attention) oraz wysoko rzadką strukturę ekspertów mieszanych (MoE), dążąc do maksymalnej efektywności treningu i inferencji. Jako model rzadki z 80 miliardami parametrów, podczas inferencji aktywuje jedynie około 3 miliardów parametrów, co znacznie obniża koszty obliczeniowe. Przy zadaniach z bardzo długim kontekstem przekraczającym 32 tysiące tokenów, przepustowość jest ponad 10 razy wyższa niż w modelu Qwen3-32B. Wersja „Thinking” jest zoptymalizowana do wykonywania złożonych, wieloetapowych zadań takich jak dowody matematyczne, synteza kodu, analiza logiczna i planowanie, domyślnie generując proces wnioskowania w ustrukturyzowanej formie łańcucha myślenia. Pod względem wydajności przewyższa modele o wyższych kosztach, takie jak Qwen3-32B-Thinking, a także w wielu benchmarkach jest lepszy od Gemini-2.5-Flash-Thinking."
|
|
400
400
|
},
|
|
401
|
+
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
|
|
402
|
+
"description": "Qwen3-VL-235B-A22B-Instruct to duży model z serii Qwen3-VL dostrojony do wykonywania poleceń, oparty na architekturze mieszanych ekspertów (MoE). Wyróżnia się doskonałymi zdolnościami rozumienia i generowania treści multimodalnych, natywnie obsługuje kontekst o długości 256K i nadaje się do produkcyjnych usług multimodalnych o wysokiej równoległości."
|
|
403
|
+
},
|
|
404
|
+
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
|
|
405
|
+
"description": "Qwen3-VL-235B-A22B-Thinking to flagowa wersja myśląca z serii Qwen3-VL, specjalnie zoptymalizowana pod kątem złożonego wnioskowania multimodalnego, długiego kontekstu oraz interakcji z agentami. Idealna do zastosowań korporacyjnych wymagających głębokiego rozumowania i wnioskowania wizualnego."
|
|
406
|
+
},
|
|
407
|
+
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
|
|
408
|
+
"description": "Qwen3-VL-30B-A3B-Instruct to wersja modelu z serii Qwen3-VL dostrojona do wykonywania poleceń, oferująca zaawansowane możliwości rozumienia i generowania treści wizualno-językowych. Natywnie obsługuje kontekst o długości 256K i nadaje się do dialogów multimodalnych oraz zadań generowania warunkowanego obrazem."
|
|
409
|
+
},
|
|
410
|
+
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
|
|
411
|
+
"description": "Qwen3-VL-30B-A3B-Thinking to rozszerzona wersja modelu Qwen3-VL skoncentrowana na wnioskowaniu (Thinking), zoptymalizowana pod kątem zadań takich jak multimodalne wnioskowanie, konwersja obrazu na kod oraz złożone rozumienie wizualne. Obsługuje kontekst 256K i oferuje zaawansowane możliwości rozumowania łańcuchowego."
|
|
412
|
+
},
|
|
401
413
|
"Qwen/Qwen3-VL-8B-Instruct": {
|
|
402
414
|
"description": "Qwen3-VL-8B-Instruct to model językowo-wizualny z serii Qwen3, opracowany na bazie Qwen3-8B-Instruct i wytrenowany na dużej ilości danych tekstowo-obrazowych. Wyróżnia się w ogólnym rozumieniu wizualnym, dialogach skoncentrowanych na obrazie oraz rozpoznawaniu tekstu w wielu językach w obrazach. Nadaje się do zastosowań takich jak pytania i odpowiedzi wizualne, opisy obrazów, podążanie za multimodalnymi instrukcjami oraz wywoływanie narzędzi."
|
|
403
415
|
},
|
|
@@ -978,13 +990,13 @@
|
|
|
978
990
|
"description": "DeepSeek-V3 to model językowy z 6710 miliardami parametrów, oparty na mieszanych ekspertach (MoE), wykorzystujący wielogłowicową potencjalną uwagę (MLA) oraz architekturę DeepSeekMoE, łączącą strategię równoważenia obciążenia bez dodatkowych strat, co optymalizuje wydajność wnioskowania i treningu. Dzięki wstępnemu treningowi na 14,8 bilionach wysokiej jakości tokenów oraz nadzorowanemu dostrajaniu i uczeniu przez wzmacnianie, DeepSeek-V3 przewyższa inne modele open source, zbliżając się do wiodących modeli zamkniętych."
|
|
979
991
|
},
|
|
980
992
|
"deepseek-ai/DeepSeek-V3.1": {
|
|
981
|
-
"description": "DeepSeek
|
|
993
|
+
"description": "Model DeepSeek V3.1 to architektura hybrydowego wnioskowania, obsługująca zarówno tryb myślenia, jak i tryb bezmyślny."
|
|
982
994
|
},
|
|
983
995
|
"deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
984
996
|
"description": "DeepSeek-V3.1-Terminus to zaktualizowana wersja modelu V3.1 wydanego przez DeepSeek, zaprojektowana jako hybrydowy model językowy z agentami. Aktualizacja skupia się na naprawie zgłoszonych przez użytkowników problemów i poprawie stabilności, zachowując jednocześnie dotychczasowe możliwości modelu. Znacząco poprawiono spójność językową, zmniejszając mieszanie języka chińskiego i angielskiego oraz eliminując nieprawidłowe znaki. Model integruje tryb myślenia (Thinking Mode) oraz tryb bez myślenia (Non-thinking Mode), które użytkownicy mogą elastycznie przełączać za pomocą szablonów czatu, dostosowując się do różnych zadań. Ważną optymalizacją jest wzmocnienie wydajności agenta kodu (Code Agent) i agenta wyszukiwania (Search Agent), co czyni je bardziej niezawodnymi w wywoływaniu narzędzi i realizacji wieloetapowych, złożonych zadań."
|
|
985
997
|
},
|
|
986
998
|
"deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
987
|
-
"description": "
|
|
999
|
+
"description": "DeepSeek-V3.2-Exp to eksperymentalna wersja V3.2 wydana przez DeepSeek, stanowiąca etap przejściowy w kierunku nowej generacji architektury. Na bazie V3.1-Terminus wprowadza mechanizm rzadkiej uwagi DeepSeek (DeepSeek Sparse Attention, DSA), który zwiększa efektywność trenowania i wnioskowania w kontekście długich sekwencji. Model został specjalnie zoptymalizowany pod kątem wywoływania narzędzi, rozumienia długich dokumentów i wieloetapowego wnioskowania. V3.2-Exp stanowi pomost między badaniami a wdrożeniem komercyjnym i jest odpowiedni dla użytkowników poszukujących wyższej efektywności wnioskowania w scenariuszach z dużym budżetem kontekstowym."
|
|
988
1000
|
},
|
|
989
1001
|
"deepseek-ai/deepseek-llm-67b-chat": {
|
|
990
1002
|
"description": "DeepSeek 67B to zaawansowany model przeszkolony do złożonych dialogów."
|
|
@@ -2474,9 +2486,6 @@
|
|
|
2474
2486
|
"mistralai/Mixtral-8x7B-v0.1": {
|
|
2475
2487
|
"description": "Mixtral 8x7B to model sparsity expert, który korzysta z wielu parametrów, aby zwiększyć prędkość wnioskowania, idealny do przetwarzania zadań wielojęzycznych i generowania kodu."
|
|
2476
2488
|
},
|
|
2477
|
-
"mistralai/mistral-7b-instruct": {
|
|
2478
|
-
"description": "Mistral 7B Instruct to model o wysokiej wydajności, który łączy optymalizację prędkości z obsługą długiego kontekstu."
|
|
2479
|
-
},
|
|
2480
2489
|
"mistralai/mistral-nemo": {
|
|
2481
2490
|
"description": "Mistral Nemo to model z 7,3 miliardami parametrów, wspierający wiele języków i wysoką wydajność programowania."
|
|
2482
2491
|
},
|
|
@@ -290,12 +290,12 @@
|
|
|
290
290
|
"Pro/deepseek-ai/DeepSeek-V3": {
|
|
291
291
|
"description": "DeepSeek-V3 é um modelo de linguagem com 671 bilhões de parâmetros, utilizando uma arquitetura de especialistas mistos (MoE) com atenção potencial de múltiplas cabeças (MLA) e uma estratégia de balanceamento de carga sem perda auxiliar, otimizando a eficiência de inferência e treinamento. Pré-treinado em 14,8 trilhões de tokens de alta qualidade, e ajustado por supervisão e aprendizado por reforço, o DeepSeek-V3 supera outros modelos de código aberto, aproximando-se de modelos fechados líderes."
|
|
292
292
|
},
|
|
293
|
-
"Pro/deepseek-ai/DeepSeek-V3.1": {
|
|
294
|
-
"description": "DeepSeek-V3.1 é um modelo de linguagem grande em modo híbrido lançado pela DeepSeek AI, que traz várias melhorias importantes em relação à geração anterior. Uma inovação chave do modelo é a integração dos modos “Pensamento” (Thinking Mode) e “Não Pensamento” (Non-thinking Mode), permitindo que o usuário alterne flexivelmente entre eles ajustando o template de conversa para atender diferentes demandas. Com otimizações pós-treinamento específicas, o V3.1 apresenta desempenho significativamente melhorado em chamadas de ferramentas e tarefas Agent, suportando melhor ferramentas de busca externas e execução de tarefas complexas em múltiplas etapas. Baseado no DeepSeek-V3.1-Base, o modelo foi treinado adicionalmente com um método de expansão de texto longo em duas fases, aumentando substancialmente o volume de dados de treinamento, o que melhora seu desempenho no processamento de documentos longos e códigos extensos. Como modelo open source, o DeepSeek-V3.1 demonstra capacidades comparáveis a modelos fechados de ponta em benchmarks de codificação, matemática e raciocínio, e graças à sua arquitetura de especialistas mistos (MoE), mantém uma enorme capacidade de modelo enquanto reduz efetivamente os custos de inferência."
|
|
295
|
-
},
|
|
296
293
|
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
297
294
|
"description": "DeepSeek-V3.1-Terminus é uma versão atualizada do modelo V3.1 lançado pela DeepSeek, posicionada como um modelo de linguagem grande com agentes híbridos. Esta atualização mantém as capacidades originais do modelo, focando na correção de problemas reportados pelos usuários e na melhoria da estabilidade. Houve uma melhoria significativa na consistência linguística, reduzindo o uso misto de chinês e inglês e a ocorrência de caracteres anômalos. O modelo integra o “Modo de Pensamento” e o “Modo Não-Pensamento”, permitindo que os usuários alternem flexivelmente entre eles via templates de chat para diferentes tarefas. Como uma otimização importante, o V3.1-Terminus aprimora o desempenho dos agentes de código e de busca, tornando-os mais confiáveis na chamada de ferramentas e na execução de tarefas complexas em múltiplas etapas."
|
|
298
295
|
},
|
|
296
|
+
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
297
|
+
"description": "DeepSeek-V3.2-Exp é a versão experimental V3.2 lançada pela DeepSeek, representando uma etapa intermediária rumo à próxima geração de arquitetura. Baseando-se no V3.1-Terminus, ela introduz o mecanismo de Atenção Esparsa DeepSeek (DeepSeek Sparse Attention, DSA) para melhorar a eficiência de treinamento e inferência em contextos longos. Foi especialmente otimizada para chamadas de ferramentas, compreensão de documentos extensos e raciocínio em múltiplas etapas. A V3.2-Exp serve como uma ponte entre pesquisa e aplicação comercial, ideal para usuários que buscam maior eficiência de raciocínio em cenários com orçamentos de contexto elevados."
|
|
298
|
+
},
|
|
299
299
|
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
|
|
300
300
|
"description": "Kimi K2-Instruct-0905 é a versão mais recente e poderosa do Kimi K2. Trata-se de um modelo de linguagem de especialistas mistos (MoE) de ponta, com um total de 1 trilhão de parâmetros e 32 bilhões de parâmetros ativados. As principais características deste modelo incluem: inteligência aprimorada para codificação de agentes, demonstrando melhorias significativas em testes de referência públicos e em tarefas reais de codificação de agentes; experiência de codificação front-end melhorada, com avanços tanto na estética quanto na funcionalidade da programação front-end."
|
|
301
301
|
},
|
|
@@ -398,6 +398,18 @@
|
|
|
398
398
|
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
|
|
399
399
|
"description": "Qwen3-Next-80B-A3B-Thinking é o modelo base de próxima geração lançado pela equipe Tongyi Qianwen da Alibaba, projetado para tarefas complexas de raciocínio. Baseado na inovadora arquitetura Qwen3-Next, que integra mecanismos híbridos de atenção (Gated DeltaNet e Gated Attention) e uma estrutura de especialistas mistos altamente esparsos (MoE), busca máxima eficiência em treinamento e inferência. Como um modelo esparso com 80 bilhões de parâmetros totais, ativa apenas cerca de 3 bilhões durante a inferência, reduzindo significativamente o custo computacional. Em tarefas de contexto longo com mais de 32 mil tokens, sua taxa de inferência é mais de 10 vezes superior ao modelo Qwen3-32B. Esta versão “Thinking” é otimizada para executar tarefas complexas de múltiplas etapas, como provas matemáticas, síntese de código, análise lógica e planejamento, e por padrão produz o processo de raciocínio em forma estruturada de “cadeia de pensamento”. Em desempenho, supera modelos mais custosos como o Qwen3-32B-Thinking e também apresenta melhor desempenho que o Gemini-2.5-Flash-Thinking em vários benchmarks."
|
|
400
400
|
},
|
|
401
|
+
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
|
|
402
|
+
"description": "Qwen3-VL-235B-A22B-Instruct é um modelo de ajuste fino baseado em instruções da série Qwen3-VL, com arquitetura de especialistas mistos (MoE), oferecendo capacidades excepcionais de compreensão e geração multimodal. Suporta nativamente contexto de até 256K tokens, sendo adequado para serviços multimodais de produção com alta concorrência."
|
|
403
|
+
},
|
|
404
|
+
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
|
|
405
|
+
"description": "Qwen3-VL-235B-A22B-Thinking é a versão principal da série Qwen3-VL voltada para raciocínio, com otimizações específicas para inferência multimodal complexa, raciocínio com contexto longo e interações com agentes inteligentes. É ideal para cenários corporativos que exigem raciocínio profundo e interpretação visual avançada."
|
|
406
|
+
},
|
|
407
|
+
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
|
|
408
|
+
"description": "Qwen3-VL-30B-A3B-Instruct é a versão ajustada por instruções da série Qwen3-VL, com fortes capacidades de compreensão e geração visuo-linguística. Suporta nativamente contexto de até 256K tokens, sendo ideal para diálogos multimodais e tarefas de geração condicionada por imagem."
|
|
409
|
+
},
|
|
410
|
+
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
|
|
411
|
+
"description": "Qwen3-VL-30B-A3B-Thinking é a versão aprimorada para raciocínio da série Qwen3-VL, otimizada para tarefas de inferência multimodal, conversão de imagem para código e compreensão visual complexa. Suporta contexto de até 256K tokens e possui capacidades avançadas de raciocínio encadeado."
|
|
412
|
+
},
|
|
401
413
|
"Qwen/Qwen3-VL-8B-Instruct": {
|
|
402
414
|
"description": "Qwen3-VL-8B-Instruct é um modelo de linguagem visual da série Qwen3, desenvolvido com base no Qwen3-8B-Instruct e treinado com grandes volumes de dados multimodais. Ele é especializado em compreensão visual geral, diálogos centrados em imagens e reconhecimento multilíngue de texto em imagens. É ideal para tarefas como perguntas e respostas visuais, descrição de imagens, seguimento de instruções multimodais e chamadas de ferramentas."
|
|
403
415
|
},
|
|
@@ -978,13 +990,13 @@
|
|
|
978
990
|
"description": "DeepSeek-V3 é um modelo de linguagem de especialistas mistos (MoE) com 671 bilhões de parâmetros, utilizando atenção latente de múltiplas cabeças (MLA) e a arquitetura DeepSeekMoE, combinando uma estratégia de balanceamento de carga sem perda auxiliar para otimizar a eficiência de inferência e treinamento. Após ser pré-treinado em 14,8 trilhões de tokens de alta qualidade e passar por ajuste fino supervisionado e aprendizado por reforço, o DeepSeek-V3 supera outros modelos de código aberto em desempenho, aproximando-se de modelos fechados líderes."
|
|
979
991
|
},
|
|
980
992
|
"deepseek-ai/DeepSeek-V3.1": {
|
|
981
|
-
"description": "
|
|
993
|
+
"description": "O modelo DeepSeek V3.1 adota uma arquitetura de inferência híbrida, suportando tanto o modo de raciocínio quanto o modo não-racional."
|
|
982
994
|
},
|
|
983
995
|
"deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
984
996
|
"description": "DeepSeek-V3.1-Terminus é uma versão atualizada do modelo V3.1 lançado pela DeepSeek, posicionada como um modelo de linguagem grande com agentes híbridos. Esta atualização mantém as capacidades originais do modelo, focando na correção de problemas reportados pelos usuários e na melhoria da estabilidade. Houve uma melhoria significativa na consistência linguística, reduzindo o uso misto de chinês e inglês e a ocorrência de caracteres anômalos. O modelo integra o “Modo de Pensamento” e o “Modo Não-Pensamento”, permitindo que os usuários alternem flexivelmente entre eles via templates de chat para diferentes tarefas. Como uma otimização importante, o V3.1-Terminus aprimora o desempenho dos agentes de código e de busca, tornando-os mais confiáveis na chamada de ferramentas e na execução de tarefas complexas em múltiplas etapas."
|
|
985
997
|
},
|
|
986
998
|
"deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
987
|
-
"description": "
|
|
999
|
+
"description": "DeepSeek-V3.2-Exp é a versão experimental V3.2 lançada pela DeepSeek, representando uma etapa intermediária rumo à próxima geração de arquitetura. Baseando-se no V3.1-Terminus, ela introduz o mecanismo de Atenção Esparsa DeepSeek (DeepSeek Sparse Attention, DSA) para melhorar a eficiência de treinamento e inferência em contextos longos. Foi especialmente otimizada para chamadas de ferramentas, compreensão de documentos extensos e raciocínio em múltiplas etapas. A V3.2-Exp serve como uma ponte entre pesquisa e aplicação comercial, ideal para usuários que buscam maior eficiência de raciocínio em cenários com orçamentos de contexto elevados."
|
|
988
1000
|
},
|
|
989
1001
|
"deepseek-ai/deepseek-llm-67b-chat": {
|
|
990
1002
|
"description": "DeepSeek 67B é um modelo avançado treinado para diálogos de alta complexidade."
|
|
@@ -2474,9 +2486,6 @@
|
|
|
2474
2486
|
"mistralai/Mixtral-8x7B-v0.1": {
|
|
2475
2487
|
"description": "Mixtral 8x7B é um modelo de especialistas esparsos, que utiliza múltiplos parâmetros para aumentar a velocidade de raciocínio, ideal para tarefas de geração de código e multilíngues."
|
|
2476
2488
|
},
|
|
2477
|
-
"mistralai/mistral-7b-instruct": {
|
|
2478
|
-
"description": "Mistral 7B Instruct é um modelo de padrão industrial de alto desempenho, com otimização de velocidade e suporte a longos contextos."
|
|
2479
|
-
},
|
|
2480
2489
|
"mistralai/mistral-nemo": {
|
|
2481
2490
|
"description": "Mistral Nemo é um modelo de 7.3B parâmetros com suporte multilíngue e programação de alto desempenho."
|
|
2482
2491
|
},
|
|
@@ -290,12 +290,12 @@
|
|
|
290
290
|
"Pro/deepseek-ai/DeepSeek-V3": {
|
|
291
291
|
"description": "DeepSeek-V3 — это языковая модель с 6710 миллиардами параметров, использующая архитектуру смешанных экспертов (MoE) и многофункциональное внимание (MLA), в сочетании с стратегией балансировки нагрузки без вспомогательных потерь, оптимизирующая эффективность вывода и обучения. После предобучения на 14.8 триллионах высококачественных токенов и последующей контролируемой донастройки и обучения с подкреплением, DeepSeek-V3 превосходит другие открытые модели и приближается к ведущим закрытым моделям."
|
|
292
292
|
},
|
|
293
|
-
"Pro/deepseek-ai/DeepSeek-V3.1": {
|
|
294
|
-
"description": "DeepSeek-V3.1 — гибридная большая языковая модель, выпущенная DeepSeek AI, которая включает множество важных улучшений по сравнению с предыдущими версиями. Главной инновацией модели является интеграция режимов «мышления» (Thinking Mode) и «без мышления» (Non-thinking Mode), которые пользователь может гибко переключать, изменяя шаблоны диалога для разных задач. Благодаря специализированной посттренировочной оптимизации V3.1 значительно улучшила производительность при вызове инструментов и выполнении задач агента, обеспечивая лучшую поддержку внешних поисковых инструментов и выполнение многошаговых сложных задач. Модель основана на DeepSeek-V3.1-Base и дообучена с использованием двухэтапного расширения длинных текстов, что значительно увеличило объем тренировочных данных и улучшило работу с длинными документами и большими объемами кода. Как открытая модель, DeepSeek-V3.1 демонстрирует сопоставимые с ведущими закрытыми моделями результаты в кодировании, математике и рассуждениях, а благодаря архитектуре с экспертами (MoE) сохраняет огромную емкость модели при эффективном снижении затрат на вывод."
|
|
295
|
-
},
|
|
296
293
|
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
297
294
|
"description": "DeepSeek-V3.1-Terminus — обновлённая версия модели V3.1 от DeepSeek, позиционируемая как гибридная большая языковая модель с агентскими функциями. В этом обновлении, сохраняя прежние возможности модели, акцент сделан на исправлении проблем, выявленных пользователями, и повышении стабильности. Значительно улучшена языковая согласованность, уменьшено смешение китайского и английского языков, а также появление аномальных символов. Модель интегрирует режимы «размышления» (Thinking Mode) и «без размышления» (Non-thinking Mode), которые пользователи могут гибко переключать через шаблоны чата для разных задач. Важным улучшением является усиление производительности кодового агента (Code Agent) и поискового агента (Search Agent), что повышает надёжность при вызове инструментов и выполнении многошаговых сложных задач."
|
|
298
295
|
},
|
|
296
|
+
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
297
|
+
"description": "DeepSeek-V3.2-Exp — это экспериментальная версия V3.2, выпущенная компанией DeepSeek, представляющая собой промежуточный этап на пути к архитектуре следующего поколения. На основе V3.1-Terminus она внедряет механизм разреженного внимания DeepSeek (DeepSeek Sparse Attention, DSA) для повышения эффективности обучения и вывода в условиях длинного контекста. Модель специально оптимизирована для вызова инструментов, понимания длинных документов и многошагового рассуждения. V3.2-Exp служит мостом между исследованием и коммерческим применением, идеально подходит для пользователей, стремящихся к более высокой эффективности вывода в сценариях с большим контекстом."
|
|
298
|
+
},
|
|
299
299
|
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
|
|
300
300
|
"description": "Kimi K2-Instruct-0905 — это последняя и самая мощная версия Kimi K2. Это передовая языковая модель с архитектурой смешанных экспертов (MoE), обладающая общим числом параметров в 1 триллион и 32 миллиардами активных параметров. Основные характеристики модели включают: улучшенный интеллект кодирующих агентов, демонстрирующий значительный прирост производительности на открытых бенчмарках и в реальных задачах кодирования агентов; усовершенствованный опыт фронтенд-кодирования, с улучшениями как в эстетике, так и в практичности фронтенд-программирования."
|
|
301
301
|
},
|
|
@@ -398,6 +398,18 @@
|
|
|
398
398
|
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
|
|
399
399
|
"description": "Qwen3-Next-80B-A3B-Thinking — это следующего поколения базовая модель, выпущенная командой Alibaba Tongyi Qianwen, специально разработанная для сложных задач рассуждения. Она основана на инновационной архитектуре Qwen3-Next, которая объединяет гибридный механизм внимания (Gated DeltaNet и Gated Attention) и высокоразреженную структуру смешанных экспертов (MoE), направленную на максимальную эффективность обучения и вывода. Как разреженная модель с общим числом параметров 80 миллиардов, при выводе активируется около 3 миллиардов параметров, что значительно снижает вычислительные затраты. При обработке задач с длинным контекстом более 32K токенов пропускная способность вывода превышает модель Qwen3-32B более чем в 10 раз. Эта версия «Thinking» оптимизирована для выполнения сложных многошаговых задач, таких как математические доказательства, синтез кода, логический анализ и планирование, и по умолчанию выводит процесс рассуждения в структурированной форме «цепочки мышления». По производительности она не только превосходит более дорогие модели, такие как Qwen3-32B-Thinking, но и опережает Gemini-2.5-Flash-Thinking в нескольких бенчмарках."
|
|
400
400
|
},
|
|
401
|
+
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
|
|
402
|
+
"description": "Qwen3-VL-235B-A22B-Instruct — это крупномасштабная модель с дообучением на инструкциях из серии Qwen3-VL, основанная на архитектуре смешанных экспертов (MoE). Обладает выдающимися возможностями в области мультимодального понимания и генерации, нативно поддерживает контекст длиной до 256K токенов и подходит для высоконагруженных производственных мультимодальных сервисов."
|
|
403
|
+
},
|
|
404
|
+
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
|
|
405
|
+
"description": "Qwen3-VL-235B-A22B-Thinking — флагманская версия серии Qwen3-VL, ориентированная на сложное мультимодальное рассуждение, работу с длинным контекстом и взаимодействие с агентами. Идеально подходит для корпоративных сценариев, требующих глубокого анализа и визуального вывода."
|
|
406
|
+
},
|
|
407
|
+
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
|
|
408
|
+
"description": "Qwen3-VL-30B-A3B-Instruct — версия с дообучением на инструкциях из серии Qwen3-VL, обладающая мощными возможностями визуально-языкового понимания и генерации. Нативно поддерживает контекст длиной до 256K токенов, подходит для мультимодальных диалогов и задач генерации на основе изображений."
|
|
409
|
+
},
|
|
410
|
+
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
|
|
411
|
+
"description": "Qwen3-VL-30B-A3B-Thinking — улучшенная версия Thinking из серии Qwen3-VL, оптимизированная для мультимодального рассуждения, преобразования изображений в код и сложных задач визуального понимания. Поддерживает контекст до 256K токенов и обладает усиленными возможностями цепного мышления."
|
|
412
|
+
},
|
|
401
413
|
"Qwen/Qwen3-VL-8B-Instruct": {
|
|
402
414
|
"description": "Qwen3-VL-8B-Instruct — это модель визуально-языкового понимания из серии Qwen3, разработанная на основе Qwen3-8B-Instruct и обученная на большом объёме данных, содержащих изображения и тексты. Она хорошо справляется с задачами общего визуального понимания, визуально-ориентированного диалога и распознавания многоязычного текста на изображениях. Подходит для сценариев визуального вопросно-ответного взаимодействия, описания изображений, следования мультимодальным инструкциям и вызова инструментов."
|
|
403
415
|
},
|
|
@@ -978,13 +990,13 @@
|
|
|
978
990
|
"description": "DeepSeek-V3 — это языковая модель смешанных экспертов (MoE) с 6710 миллиардами параметров, использующая многоголовое потенциальное внимание (MLA) и архитектуру DeepSeekMoE, в сочетании с стратегией балансировки нагрузки без вспомогательных потерь, оптимизирующей эффективность вывода и обучения. После предобучения на 14,8 триллионах высококачественных токенов и последующей супервизионной донастройки и обучения с подкреплением, DeepSeek-V3 превосходит другие открытые модели и приближается к ведущим закрытым моделям."
|
|
979
991
|
},
|
|
980
992
|
"deepseek-ai/DeepSeek-V3.1": {
|
|
981
|
-
"description": "
|
|
993
|
+
"description": "Модель DeepSeek V3.1 использует гибридную архитектуру рассуждения и поддерживает как режим мышления, так и обычный режим."
|
|
982
994
|
},
|
|
983
995
|
"deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
984
996
|
"description": "DeepSeek-V3.1-Terminus — обновлённая версия модели V3.1 от DeepSeek, позиционируемая как гибридная большая языковая модель с агентскими функциями. В этом обновлении, сохраняя прежние возможности модели, акцент сделан на исправлении проблем, выявленных пользователями, и повышении стабильности. Значительно улучшена языковая согласованность, уменьшено смешение китайского и английского языков, а также появление аномальных символов. Модель интегрирует режимы «размышления» (Thinking Mode) и «без размышления» (Non-thinking Mode), которые пользователи могут гибко переключать через шаблоны чата для разных задач. Важным улучшением является усиление производительности кодового агента (Code Agent) и поискового агента (Search Agent), что повышает надёжность при вызове инструментов и выполнении многошаговых сложных задач."
|
|
985
997
|
},
|
|
986
998
|
"deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
987
|
-
"description": "
|
|
999
|
+
"description": "DeepSeek-V3.2-Exp — это экспериментальная версия V3.2, выпущенная компанией DeepSeek, представляющая собой промежуточный этап на пути к архитектуре следующего поколения. На основе V3.1-Terminus она внедряет механизм разреженного внимания DeepSeek (DeepSeek Sparse Attention, DSA) для повышения эффективности обучения и вывода в условиях длинного контекста. Модель специально оптимизирована для вызова инструментов, понимания длинных документов и многошагового рассуждения. V3.2-Exp служит мостом между исследованием и коммерческим применением, идеально подходит для пользователей, стремящихся к более высокой эффективности вывода в сценариях с большим контекстом."
|
|
988
1000
|
},
|
|
989
1001
|
"deepseek-ai/deepseek-llm-67b-chat": {
|
|
990
1002
|
"description": "DeepSeek 67B — это передовая модель, обученная для высококомплексных диалогов."
|
|
@@ -2474,9 +2486,6 @@
|
|
|
2474
2486
|
"mistralai/Mixtral-8x7B-v0.1": {
|
|
2475
2487
|
"description": "Mixtral 8x7B - это разреженная модель эксперта, использующая множество параметров для повышения скорости вывода, подходит для обработки многоязычных и генеративных задач."
|
|
2476
2488
|
},
|
|
2477
|
-
"mistralai/mistral-7b-instruct": {
|
|
2478
|
-
"description": "Mistral 7B Instruct — это высокопроизводительная модель стандартов отрасли, оптимизированная для скорости и поддержки длинного контекста."
|
|
2479
|
-
},
|
|
2480
2489
|
"mistralai/mistral-nemo": {
|
|
2481
2490
|
"description": "Mistral Nemo — это модель с 7.3B параметрами, поддерживающая несколько языков и высокопроизводительное программирование."
|
|
2482
2491
|
},
|
|
@@ -290,12 +290,12 @@
|
|
|
290
290
|
"Pro/deepseek-ai/DeepSeek-V3": {
|
|
291
291
|
"description": "DeepSeek-V3, 6710 milyar parametreye sahip bir karma uzman (MoE) dil modelidir ve çok başlı potansiyel dikkat (MLA) ve DeepSeekMoE mimarisini kullanarak, yardımcı kayıplar olmadan yük dengeleme stratejileri ile çıkarım ve eğitim verimliliğini optimize etmektedir. 14.8 trilyon yüksek kaliteli token üzerinde önceden eğitilmiş ve denetimli ince ayar ve güçlendirilmiş öğrenme ile, DeepSeek-V3 performans açısından diğer açık kaynak modelleri geride bırakmakta ve lider kapalı kaynak modellere yaklaşmaktadır."
|
|
292
292
|
},
|
|
293
|
-
"Pro/deepseek-ai/DeepSeek-V3.1": {
|
|
294
|
-
"description": "DeepSeek-V3.1, DeepSeek AI tarafından yayımlanan hibrit modlu büyük dil modelidir ve selef modellerine kıyasla birçok önemli yükseltme içermektedir. Modelin en büyük yeniliği, \"Düşünme Modu\" (Thinking Mode) ve \"Düşünmeme Modu\" (Non-thinking Mode) özelliklerini bir arada sunmasıdır; kullanıcılar sohbet şablonlarını ayarlayarak farklı görev ihtiyaçlarına esnek şekilde uyum sağlayabilirler. Özel post-training optimizasyonları sayesinde V3.1, araç çağrıları ve Agent görevlerinde performansını önemli ölçüde artırmış, dış arama araçlarını destekleme ve çok adımlı karmaşık görevleri yerine getirme kapasitesini geliştirmiştir. Model, DeepSeek-V3.1-Base üzerine post-training uygulanarak, iki aşamalı uzun metin genişletme yöntemiyle eğitim veri miktarını büyük ölçüde artırmış ve uzun belgeler ile uzun kod parçalarını işleme yeteneğini geliştirmiştir. Açık kaynaklı bir model olarak DeepSeek-V3.1, kodlama, matematik ve çıkarım gibi birçok kıyaslama testinde en iyi kapalı kaynak modellerle rekabet eden performans sergilemekte ve MoE (Mixture of Experts) mimarisi sayesinde büyük model kapasitesini korurken çıkarım maliyetlerini etkin şekilde düşürmektedir."
|
|
295
|
-
},
|
|
296
293
|
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
297
294
|
"description": "DeepSeek-V3.1-Terminus, DeepSeek tarafından yayınlanan V3.1 modelinin güncellenmiş versiyonudur ve hibrit ajan büyük dil modeli olarak konumlandırılmıştır. Bu güncelleme, modelin mevcut yeteneklerini koruyarak kullanıcı geri bildirimlerine dayalı sorunları düzeltmeye ve kararlılığı artırmaya odaklanmıştır. Dil tutarlılığını önemli ölçüde iyileştirmiş, Çince ve İngilizce karışımı ile anormal karakterlerin görünümünü azaltmıştır. Model, farklı görevler için sohbet şablonları aracılığıyla esnek geçiş yapılabilen “Düşünme Modu” ve “Düşünmeme Modu”nu entegre etmiştir. Önemli bir iyileştirme olarak, V3.1-Terminus, kod ajanı (Code Agent) ve arama ajanı (Search Agent) performansını artırarak araç çağrıları ve çok adımlı karmaşık görevlerin yürütülmesinde daha güvenilir hale getirmiştir."
|
|
298
295
|
},
|
|
296
|
+
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
297
|
+
"description": "DeepSeek-V3.2-Exp, DeepSeek tarafından yayınlanan deneysel V3.2 sürümüdür ve yeni nesil mimariye geçişte bir ara keşif niteliğindedir. Bu sürüm, V3.1-Terminus temelinde geliştirilmiş olup, uzun bağlamlı eğitim ve çıkarım verimliliğini artırmak amacıyla DeepSeek Seyrek Dikkat (DeepSeek Sparse Attention, DSA) mekanizmasını entegre eder. Araç kullanımı, uzun belge anlama ve çok adımlı akıl yürütme gibi alanlarda özel optimizasyonlar yapılmıştır. V3.2-Exp, araştırma ile ürünleştirme arasında bir köprü görevi görür ve yüksek bağlam bütçesi gerektiren senaryolarda daha verimli çıkarım arayan kullanıcılar için uygundur."
|
|
298
|
+
},
|
|
299
299
|
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
|
|
300
300
|
"description": "Kimi K2-Instruct-0905, Kimi K2'nin en yeni ve en güçlü versiyonudur. Bu, toplamda 1 trilyon parametreye ve 32 milyar aktif parametreye sahip, üst düzey bir Hibrit Uzman (MoE) dil modelidir. Modelin başlıca özellikleri şunlardır: geliştirilmiş ajan kodlama zekası, açık benchmark testlerinde ve gerçek dünya ajan kodlama görevlerinde belirgin performans artışı; ön uç kodlama deneyiminde iyileştirmeler, ön uç programlamada estetik ve işlevsellik açısından ilerlemeler."
|
|
301
301
|
},
|
|
@@ -398,6 +398,18 @@
|
|
|
398
398
|
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
|
|
399
399
|
"description": "Qwen3-Next-80B-A3B-Thinking, Alibaba Tongyi Qianwen ekibi tarafından karmaşık çıkarım görevleri için tasarlanmış yeni nesil temel modeldir. Yenilikçi Qwen3-Next mimarisi üzerine kurulmuş olup, hibrit dikkat mekanizması (Gated DeltaNet ve Gated Attention) ve yüksek seyrekli hibrit uzman (MoE) yapısını birleştirerek en üst düzey eğitim ve çıkarım verimliliğini hedefler. 80 milyar toplam parametreye sahip seyrek bir model olarak, çıkarım sırasında yalnızca yaklaşık 3 milyar parametreyi aktive ederek hesaplama maliyetlerini önemli ölçüde düşürür ve 32K token’dan uzun bağlam görevlerinde çıkarım verimliliği Qwen3-32B modeline kıyasla 10 kat daha fazladır. Bu “Thinking” versiyonu, matematiksel ispatlar, kod sentezi, mantıksal analiz ve planlama gibi zorlu çok adımlı görevler için optimize edilmiştir ve çıkarım sürecini varsayılan olarak yapılandırılmış “düşünce zinciri” biçiminde sunar. Performans açısından, yalnızca daha maliyetli modeller olan Qwen3-32B-Thinking’i değil, aynı zamanda Gemini-2.5-Flash-Thinking’i de birçok kıyaslama testinde geride bırakır."
|
|
400
400
|
},
|
|
401
|
+
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
|
|
402
|
+
"description": "Qwen3-VL-235B-A22B-Instruct, Qwen3-VL serisinin büyük ölçekli talimatla ince ayarlanmış modelidir. Karışık uzman (MoE) mimarisi üzerine kuruludur ve üstün çok modlu anlama ve üretim yeteneklerine sahiptir. Doğal olarak 256K bağlamı destekler ve yüksek eşzamanlı üretim düzeyinde çok modlu hizmetler için uygundur."
|
|
403
|
+
},
|
|
404
|
+
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
|
|
405
|
+
"description": "Qwen3-VL-235B-A22B-Thinking, Qwen3-VL serisinin amiral gemisi düşünme sürümüdür. Karmaşık çok modlu akıl yürütme, uzun bağlamlı çıkarım ve yapay zeka etkileşimleri için özel olarak optimize edilmiştir. Derin düşünme ve görsel akıl yürütme gerektiren kurumsal düzeydeki senaryolar için uygundur."
|
|
406
|
+
},
|
|
407
|
+
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
|
|
408
|
+
"description": "Qwen3-VL-30B-A3B-Instruct, Qwen3-VL serisinin talimatla ince ayarlanmış sürümüdür. Güçlü görsel-dil anlama ve üretim yeteneklerine sahiptir, doğal olarak 256K bağlam uzunluğunu destekler ve çok modlu diyaloglar ile görsel koşullu üretim görevleri için uygundur."
|
|
409
|
+
},
|
|
410
|
+
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
|
|
411
|
+
"description": "Qwen3-VL-30B-A3B-Thinking, Qwen3-VL serisinin akıl yürütme yetenekleri geliştirilmiş (Thinking) sürümüdür. Çok modlu akıl yürütme, görselden koda dönüşüm ve karmaşık görsel anlama görevlerinde optimize edilmiştir. 256K bağlam desteği sunar ve daha güçlü zincirleme düşünme yeteneğine sahiptir."
|
|
412
|
+
},
|
|
401
413
|
"Qwen/Qwen3-VL-8B-Instruct": {
|
|
402
414
|
"description": "Qwen3-VL-8B-Instruct, Qwen3 serisinin bir görsel-dil modelidir. Qwen3-8B-Instruct temel alınarak geliştirilmiş ve büyük miktarda görsel-metin verisiyle eğitilmiştir. Genel görsel anlama, görsel odaklı diyaloglar ve görsellerde çok dilli metin tanıma konularında uzmandır. Görsel soru-cevap, görsel betimleme, çok modlu komut takibi ve araç çağırma gibi senaryolarda kullanılabilir."
|
|
403
415
|
},
|
|
@@ -978,13 +990,13 @@
|
|
|
978
990
|
"description": "DeepSeek-V3, 6710 milyar parametreye sahip bir karma uzman (MoE) dil modelidir. Çok başlı potansiyel dikkat (MLA) ve DeepSeekMoE mimarisini kullanarak, yardımcı kayıplar olmadan yük dengeleme stratejisi ile çıkarım ve eğitim verimliliğini optimize etmektedir. 14.8 trilyon yüksek kaliteli token üzerinde önceden eğitilmiş ve denetimli ince ayar ile tekrarlayan öğrenme gerçekleştirilmiştir; DeepSeek-V3, performans açısından diğer açık kaynaklı modelleri geride bırakmakta ve lider kapalı kaynaklı modellere yaklaşmaktadır."
|
|
979
991
|
},
|
|
980
992
|
"deepseek-ai/DeepSeek-V3.1": {
|
|
981
|
-
"description": "DeepSeek
|
|
993
|
+
"description": "DeepSeek V3.1 modeli, hem düşünme hem de düşünme dışı modları destekleyen hibrit akıl yürütme mimarisine sahip bir modeldir."
|
|
982
994
|
},
|
|
983
995
|
"deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
984
996
|
"description": "DeepSeek-V3.1-Terminus, DeepSeek tarafından yayınlanan V3.1 modelinin güncellenmiş versiyonudur ve hibrit ajan büyük dil modeli olarak konumlandırılmıştır. Bu güncelleme, modelin mevcut yeteneklerini koruyarak kullanıcı geri bildirimlerine dayalı sorunları düzeltmeye ve kararlılığı artırmaya odaklanmıştır. Dil tutarlılığını önemli ölçüde iyileştirmiş, Çince ve İngilizce karışımı ile anormal karakterlerin görünümünü azaltmıştır. Model, farklı görevler için sohbet şablonları aracılığıyla esnek geçiş yapılabilen “Düşünme Modu” ve “Düşünmeme Modu”nu entegre etmiştir. Önemli bir iyileştirme olarak, V3.1-Terminus, kod ajanı (Code Agent) ve arama ajanı (Search Agent) performansını artırarak araç çağrıları ve çok adımlı karmaşık görevlerin yürütülmesinde daha güvenilir hale getirmiştir."
|
|
985
997
|
},
|
|
986
998
|
"deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
987
|
-
"description": "DeepSeek V3.2
|
|
999
|
+
"description": "DeepSeek-V3.2-Exp, DeepSeek tarafından yayınlanan deneysel V3.2 sürümüdür ve yeni nesil mimariye geçişte bir ara keşif niteliğindedir. Bu sürüm, V3.1-Terminus temelinde geliştirilmiş olup, uzun bağlamlı eğitim ve çıkarım verimliliğini artırmak amacıyla DeepSeek Seyrek Dikkat (DeepSeek Sparse Attention, DSA) mekanizmasını entegre eder. Araç kullanımı, uzun belge anlama ve çok adımlı akıl yürütme gibi alanlarda özel optimizasyonlar yapılmıştır. V3.2-Exp, araştırma ile ürünleştirme arasında bir köprü görevi görür ve yüksek bağlam bütçesi gerektiren senaryolarda daha verimli çıkarım arayan kullanıcılar için uygundur."
|
|
988
1000
|
},
|
|
989
1001
|
"deepseek-ai/deepseek-llm-67b-chat": {
|
|
990
1002
|
"description": "DeepSeek 67B, yüksek karmaşıklıkta diyaloglar için eğitilmiş gelişmiş bir modeldir."
|
|
@@ -2474,9 +2486,6 @@
|
|
|
2474
2486
|
"mistralai/Mixtral-8x7B-v0.1": {
|
|
2475
2487
|
"description": "Mixtral 8x7B, birden fazla parametre kullanarak akıl yürütme hızını artıran seyrek uzman modelidir, çok dilli ve kod üretim görevleri için uygundur."
|
|
2476
2488
|
},
|
|
2477
|
-
"mistralai/mistral-7b-instruct": {
|
|
2478
|
-
"description": "Mistral 7B Instruct, hız optimizasyonu ve uzun bağlam desteği sunan yüksek performanslı bir endüstri standart modelidir."
|
|
2479
|
-
},
|
|
2480
2489
|
"mistralai/mistral-nemo": {
|
|
2481
2490
|
"description": "Mistral Nemo, çok dilli destek ve yüksek performanslı programlama sunan 7.3B parametreli bir modeldir."
|
|
2482
2491
|
},
|
|
@@ -290,12 +290,12 @@
|
|
|
290
290
|
"Pro/deepseek-ai/DeepSeek-V3": {
|
|
291
291
|
"description": "DeepSeek-V3 là một mô hình ngôn ngữ hỗn hợp chuyên gia (MoE) với 6710 tỷ tham số, sử dụng chú ý tiềm ẩn đa đầu (MLA) và kiến trúc DeepSeekMoE, kết hợp chiến lược cân bằng tải không có tổn thất phụ trợ, tối ưu hóa hiệu suất suy diễn và đào tạo. Thông qua việc được tiền huấn luyện trên 14.8 triệu tỷ token chất lượng cao, và thực hiện tinh chỉnh giám sát và học tăng cường, DeepSeek-V3 vượt trội hơn các mô hình mã nguồn mở khác, gần với các mô hình đóng kín hàng đầu."
|
|
292
292
|
},
|
|
293
|
-
"Pro/deepseek-ai/DeepSeek-V3.1": {
|
|
294
|
-
"description": "DeepSeek-V3.1 là mô hình ngôn ngữ lớn chế độ hỗn hợp do DeepSeek AI phát hành, với nhiều nâng cấp quan trọng dựa trên phiên bản trước. Một đổi mới lớn của mô hình là tích hợp \"Chế độ suy nghĩ\" (Thinking Mode) và \"Chế độ không suy nghĩ\" (Non-thinking Mode) trong cùng một mô hình, người dùng có thể linh hoạt chuyển đổi bằng cách điều chỉnh mẫu trò chuyện để phù hợp với các yêu cầu nhiệm vụ khác nhau. Qua tối ưu hóa sau huấn luyện chuyên biệt, V3.1 đã cải thiện đáng kể hiệu suất trong việc gọi công cụ và nhiệm vụ Agent, hỗ trợ tốt hơn cho các công cụ tìm kiếm bên ngoài và thực hiện các nhiệm vụ phức tạp nhiều bước. Mô hình được huấn luyện tiếp dựa trên DeepSeek-V3.1-Base, sử dụng phương pháp mở rộng văn bản dài hai giai đoạn, tăng đáng kể lượng dữ liệu huấn luyện, giúp cải thiện khả năng xử lý tài liệu dài và mã nguồn dài. Là một mô hình mã nguồn mở, DeepSeek-V3.1 thể hiện năng lực tương đương với các mô hình đóng hàng đầu trong các bài kiểm tra chuẩn về mã hóa, toán học và suy luận, đồng thời với kiến trúc chuyên gia hỗn hợp (MoE), nó duy trì dung lượng mô hình lớn trong khi giảm chi phí suy luận hiệu quả."
|
|
295
|
-
},
|
|
296
293
|
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
297
294
|
"description": "DeepSeek-V3.1-Terminus là phiên bản cập nhật của mô hình V3.1 do DeepSeek phát hành, được định vị là mô hình ngôn ngữ lớn với trí tuệ hỗn hợp. Bản cập nhật này tập trung sửa các vấn đề phản hồi từ người dùng và nâng cao độ ổn định trong khi vẫn giữ nguyên khả năng của mô hình. Nó cải thiện đáng kể tính nhất quán ngôn ngữ, giảm thiểu việc sử dụng lẫn lộn tiếng Trung và tiếng Anh cũng như các ký tự bất thường. Mô hình tích hợp \"Chế độ suy nghĩ\" (Thinking Mode) và \"Chế độ không suy nghĩ\" (Non-thinking Mode), người dùng có thể linh hoạt chuyển đổi qua các mẫu trò chuyện để phù hợp với các nhiệm vụ khác nhau. Một tối ưu quan trọng là V3.1-Terminus tăng cường hiệu suất của Agent mã (Code Agent) và Agent tìm kiếm (Search Agent), giúp chúng đáng tin cậy hơn trong việc gọi công cụ và thực hiện các nhiệm vụ phức tạp nhiều bước."
|
|
298
295
|
},
|
|
296
|
+
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
297
|
+
"description": "DeepSeek-V3.2-Exp là phiên bản thử nghiệm V3.2 do DeepSeek phát hành, đóng vai trò là bước chuyển tiếp trong hành trình hướng tới kiến trúc thế hệ tiếp theo. Dựa trên nền tảng của V3.1-Terminus, phiên bản này tích hợp cơ chế Chú ý Thưa (DeepSeek Sparse Attention - DSA) nhằm nâng cao hiệu quả huấn luyện và suy luận trong ngữ cảnh dài. Nó được tối ưu hóa đặc biệt cho việc gọi công cụ, hiểu tài liệu dài và suy luận nhiều bước. V3.2-Exp là cầu nối giữa nghiên cứu và ứng dụng thực tế, phù hợp với người dùng mong muốn khám phá hiệu suất suy luận cao hơn trong các tình huống có ngân sách ngữ cảnh lớn."
|
|
298
|
+
},
|
|
299
299
|
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
|
|
300
300
|
"description": "Kimi K2-Instruct-0905 là phiên bản mới nhất và mạnh mẽ nhất của Kimi K2. Đây là một mô hình ngôn ngữ chuyên gia hỗn hợp (MoE) hàng đầu với tổng số tham số lên đến 1 nghìn tỷ và 32 tỷ tham số kích hoạt. Các đặc điểm chính của mô hình bao gồm: tăng cường trí tuệ mã hóa tác nhân, thể hiện sự cải thiện đáng kể trong các bài kiểm tra chuẩn công khai và các nhiệm vụ mã hóa tác nhân trong thế giới thực; cải tiến trải nghiệm mã hóa giao diện người dùng, nâng cao cả về tính thẩm mỹ và tính thực tiễn trong lập trình giao diện."
|
|
301
301
|
},
|
|
@@ -398,6 +398,18 @@
|
|
|
398
398
|
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
|
|
399
399
|
"description": "Qwen3-Next-80B-A3B-Thinking là mô hình nền tảng thế hệ tiếp theo do đội ngũ Alibaba Tongyi Qianwen phát hành, được thiết kế chuyên biệt cho các tác vụ suy luận phức tạp. Nó dựa trên kiến trúc sáng tạo Qwen3-Next, kết hợp cơ chế chú ý hỗn hợp (Gated DeltaNet và Gated Attention) và cấu trúc chuyên gia hỗn hợp có độ thưa cao (MoE), nhằm đạt hiệu quả tối ưu trong huấn luyện và suy luận. Là mô hình thưa với tổng số 80 tỷ tham số, nó chỉ kích hoạt khoảng 3 tỷ tham số trong quá trình suy luận, giảm đáng kể chi phí tính toán, và khi xử lý các tác vụ ngữ cảnh dài trên 32K token, thông lượng cao hơn mô hình Qwen3-32B hơn 10 lần. Phiên bản “Thinking” này được tối ưu để thực hiện các tác vụ đa bước khó như chứng minh toán học, tổng hợp mã, phân tích logic và lập kế hoạch, và mặc định xuất ra quá trình suy luận dưới dạng chuỗi suy nghĩ có cấu trúc. Về hiệu năng, nó không chỉ vượt trội so với các mô hình có chi phí cao hơn như Qwen3-32B-Thinking mà còn vượt qua Gemini-2.5-Flash-Thinking trong nhiều bài kiểm tra chuẩn."
|
|
400
400
|
},
|
|
401
|
+
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
|
|
402
|
+
"description": "Qwen3-VL-235B-A22B-Instruct là mô hình tinh chỉnh theo chỉ dẫn quy mô lớn thuộc dòng Qwen3-VL, dựa trên kiến trúc chuyên gia hỗn hợp (MoE), sở hữu khả năng hiểu và tạo nội dung đa phương tiện vượt trội, hỗ trợ nguyên bản ngữ cảnh lên đến 256K, thích hợp cho các dịch vụ đa phương tiện cấp độ sản xuất với yêu cầu đồng thời cao."
|
|
403
|
+
},
|
|
404
|
+
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
|
|
405
|
+
"description": "Qwen3-VL-235B-A22B-Thinking là phiên bản tư duy hàng đầu trong dòng Qwen3-VL, được tối ưu hóa đặc biệt cho suy luận đa phương tiện phức tạp, suy luận ngữ cảnh dài và tương tác với tác tử thông minh, phù hợp với các tình huống doanh nghiệp đòi hỏi khả năng tư duy sâu và suy luận hình ảnh."
|
|
406
|
+
},
|
|
407
|
+
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
|
|
408
|
+
"description": "Qwen3-VL-30B-A3B-Instruct là phiên bản tinh chỉnh theo chỉ dẫn của dòng Qwen3-VL, có khả năng hiểu và tạo nội dung ngôn ngữ - hình ảnh mạnh mẽ, hỗ trợ nguyên bản độ dài ngữ cảnh lên đến 256K, phù hợp cho các tác vụ đối thoại đa phương tiện và tạo nội dung có điều kiện hình ảnh."
|
|
409
|
+
},
|
|
410
|
+
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
|
|
411
|
+
"description": "Qwen3-VL-30B-A3B-Thinking là phiên bản tăng cường suy luận (Thinking) của Qwen3-VL, được tối ưu hóa cho các tác vụ suy luận đa phương tiện, chuyển đổi hình ảnh thành mã và hiểu hình ảnh phức tạp, hỗ trợ ngữ cảnh lên đến 256K và có khả năng tư duy chuỗi mạnh mẽ hơn."
|
|
412
|
+
},
|
|
401
413
|
"Qwen/Qwen3-VL-8B-Instruct": {
|
|
402
414
|
"description": "Qwen3-VL-8B-Instruct là mô hình ngôn ngữ thị giác thuộc dòng Qwen3, được phát triển dựa trên Qwen3-8B-Instruct và huấn luyện trên lượng lớn dữ liệu hình ảnh và văn bản. Mô hình này có thế mạnh trong hiểu thị giác tổng quát, đối thoại xoay quanh hình ảnh và nhận diện văn bản đa ngôn ngữ trong ảnh. Phù hợp với các tình huống như hỏi đáp thị giác, mô tả hình ảnh, tuân theo chỉ dẫn đa phương thức và gọi công cụ."
|
|
403
415
|
},
|
|
@@ -978,13 +990,13 @@
|
|
|
978
990
|
"description": "DeepSeek-V3 là một mô hình ngôn ngữ hỗn hợp chuyên gia (MoE) với 6710 tỷ tham số, sử dụng chú ý tiềm ẩn đa đầu (MLA) và kiến trúc DeepSeekMoE, kết hợp với chiến lược cân bằng tải không có tổn thất phụ trợ, tối ưu hóa hiệu suất suy diễn và đào tạo. Thông qua việc được tiền huấn luyện trên 14.8 triệu tỷ token chất lượng cao, và thực hiện tinh chỉnh giám sát và học tăng cường, DeepSeek-V3 vượt trội về hiệu suất so với các mô hình mã nguồn mở khác, gần gũi với các mô hình đóng nguồn hàng đầu."
|
|
979
991
|
},
|
|
980
992
|
"deepseek-ai/DeepSeek-V3.1": {
|
|
981
|
-
"description": "
|
|
993
|
+
"description": "Mô hình DeepSeek V3.1 là mô hình kiến trúc suy luận hỗn hợp, hỗ trợ cả chế độ tư duy và không tư duy."
|
|
982
994
|
},
|
|
983
995
|
"deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
984
996
|
"description": "DeepSeek-V3.1-Terminus là phiên bản cập nhật của mô hình V3.1 do DeepSeek phát hành, được định vị là mô hình ngôn ngữ lớn với trí tuệ hỗn hợp. Bản cập nhật này tập trung sửa các vấn đề phản hồi từ người dùng và nâng cao độ ổn định trong khi vẫn giữ nguyên khả năng của mô hình. Nó cải thiện đáng kể tính nhất quán ngôn ngữ, giảm thiểu việc sử dụng lẫn lộn tiếng Trung và tiếng Anh cũng như các ký tự bất thường. Mô hình tích hợp \"Chế độ suy nghĩ\" (Thinking Mode) và \"Chế độ không suy nghĩ\" (Non-thinking Mode), người dùng có thể linh hoạt chuyển đổi qua các mẫu trò chuyện để phù hợp với các nhiệm vụ khác nhau. Một tối ưu quan trọng là V3.1-Terminus tăng cường hiệu suất của Agent mã (Code Agent) và Agent tìm kiếm (Search Agent), giúp chúng đáng tin cậy hơn trong việc gọi công cụ và thực hiện các nhiệm vụ phức tạp nhiều bước."
|
|
985
997
|
},
|
|
986
998
|
"deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
987
|
-
"description": "
|
|
999
|
+
"description": "DeepSeek-V3.2-Exp là phiên bản thử nghiệm V3.2 do DeepSeek phát hành, đóng vai trò là bước chuyển tiếp trong hành trình hướng tới kiến trúc thế hệ tiếp theo. Dựa trên nền tảng của V3.1-Terminus, phiên bản này tích hợp cơ chế Chú ý Thưa (DeepSeek Sparse Attention - DSA) nhằm nâng cao hiệu quả huấn luyện và suy luận trong ngữ cảnh dài. Nó được tối ưu hóa đặc biệt cho việc gọi công cụ, hiểu tài liệu dài và suy luận nhiều bước. V3.2-Exp là cầu nối giữa nghiên cứu và ứng dụng thực tế, phù hợp với người dùng mong muốn khám phá hiệu suất suy luận cao hơn trong các tình huống có ngân sách ngữ cảnh lớn."
|
|
988
1000
|
},
|
|
989
1001
|
"deepseek-ai/deepseek-llm-67b-chat": {
|
|
990
1002
|
"description": "DeepSeek 67B là mô hình tiên tiến được huấn luyện cho các cuộc đối thoại phức tạp."
|
|
@@ -2474,9 +2486,6 @@
|
|
|
2474
2486
|
"mistralai/Mixtral-8x7B-v0.1": {
|
|
2475
2487
|
"description": "Mixtral 8x7B là một mô hình chuyên gia thưa thớt, tận dụng nhiều tham số để tăng tốc độ suy luận, phù hợp để xử lý đa ngôn ngữ và tạo mã."
|
|
2476
2488
|
},
|
|
2477
|
-
"mistralai/mistral-7b-instruct": {
|
|
2478
|
-
"description": "Mistral 7B Instruct là mô hình tiêu chuẩn ngành với tốc độ tối ưu hóa và hỗ trợ ngữ cảnh dài."
|
|
2479
|
-
},
|
|
2480
2489
|
"mistralai/mistral-nemo": {
|
|
2481
2490
|
"description": "Mistral Nemo là mô hình 7.3B tham số hỗ trợ đa ngôn ngữ và lập trình hiệu suất cao."
|
|
2482
2491
|
},
|
|
@@ -290,12 +290,12 @@
|
|
|
290
290
|
"Pro/deepseek-ai/DeepSeek-V3": {
|
|
291
291
|
"description": "DeepSeek-V3 是一款拥有 6710 亿参数的混合专家(MoE)语言模型,采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,结合无辅助损失的负载平衡策略,优化推理和训练效率。通过在 14.8 万亿高质量tokens上预训练,并进行监督微调和强化学习,DeepSeek-V3 在性能上超越其他开源模型,接近领先闭源模型。"
|
|
292
292
|
},
|
|
293
|
-
"Pro/deepseek-ai/DeepSeek-V3.1": {
|
|
294
|
-
"description": "DeepSeek-V3.1 是由深度求索(DeepSeek AI)发布的混合模式大语言模型,它在前代模型的基础上进行了多方面的重要升级。该模型的一大创新是集成了“思考模式”(Thinking Mode)和“非思考模式”(Non-thinking Mode)于一体,用户可以通过调整聊天模板灵活切换,以适应不同的任务需求。通过专门的训练后优化,V3.1 在工具调用和 Agent 任务方面的性能得到了显著增强,能够更好地支持外部搜索工具和执行多步复杂任务。该模型基于 DeepSeek-V3.1-Base 进行后训练,通过两阶段长文本扩展方法,大幅增加了训练数据量,使其在处理长文档和长篇代码方面表现更佳。作为一个开源模型,DeepSeek-V3.1 在编码、数学和推理等多个基准测试中展现了与顶尖闭源模型相媲美的能力,同时凭借其混合专家(MoE)架构,在保持巨大模型容量的同时,有效降低了推理成本。"
|
|
295
|
-
},
|
|
296
293
|
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
297
294
|
"description": "DeepSeek-V3.1-Terminus 是由深度求索(DeepSeek)发布的 V3.1 模型的更新版本,定位为混合智能体大语言模型。此次更新在保持模型原有能力的基础上,专注于修复用户反馈的问题并提升稳定性。它显著改善了语言一致性,减少了中英文混用和异常字符的出现。模型集成了“思考模式”(Thinking Mode)和“非思考模式”(Non-thinking Mode),用户可通过聊天模板灵活切换以适应不同任务。作为一个重要的优化,V3.1-Terminus 增强了代码智能体(Code Agent)和搜索智能体(Search Agent)的性能,使其在工具调用和执行多步复杂任务方面更加可靠。"
|
|
298
295
|
},
|
|
296
|
+
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
297
|
+
"description": "DeepSeek-V3.2-Exp 是 DeepSeek 发布的实验性 V3.2 版本,作为迈向下一代架构的中间探索。它在 V3.1-Terminus 的基础上引入了 DeepSeek 稀疏注意力(DeepSeek Sparse Attention,DSA)机制以提升长上下文训练与推理效率,针对工具调用、长文档理解与多步推理进行了专项优化。V3.2-Exp 为研究与产品化之间的桥梁,适合希望在高上下文预算场景中探索更高推理效率的用户。"
|
|
298
|
+
},
|
|
299
299
|
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
|
|
300
300
|
"description": "Kimi K2-Instruct-0905 是 Kimi K2 最新、最强大的版本。它是一款顶尖的混合专家(MoE)语言模型,拥有 1 万亿的总参数和 320 亿的激活参数。该模型的主要特性包括:增强的智能体编码智能,在公开基准测试和真实世界的编码智能体任务中表现出显著的性能提升;改进的前端编码体验,在前端编程的美观性和实用性方面均有进步。"
|
|
301
301
|
},
|
|
@@ -398,6 +398,18 @@
|
|
|
398
398
|
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
|
|
399
399
|
"description": "Qwen3-Next-80B-A3B-Thinking 是由阿里巴巴通义千问团队发布的、专为复杂推理任务设计的下一代基础模型。它基于创新的 Qwen3-Next 架构,该架构融合了混合注意力机制(Gated DeltaNet 与 Gated Attention)和高稀疏度混合专家(MoE)结构,旨在实现极致的训练与推理效率。作为一个总参数达 800 亿的稀疏模型,它在推理时仅激活约 30 亿参数,大幅降低了计算成本,在处理超过 32K tokens 的长上下文任务时,吞吐量比 Qwen3-32B 模型高出 10 倍以上。此“Thinking”版本专为执行数学证明、代码综合、逻辑分析和规划等高难度多步任务而优化,并默认以结构化的“思维链”形式输出推理过程。在性能上,它不仅超越了 Qwen3-32B-Thinking 等成本更高的模型,还在多个基准测试中优于 Gemini-2.5-Flash-Thinking。"
|
|
400
400
|
},
|
|
401
|
+
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
|
|
402
|
+
"description": "Qwen3-VL-235B-A22B-Instruct 是 Qwen3-VL 系列的大型指令微调模型,基于混合专家(MoE)架构,拥有卓越的多模态理解与生成能力,原生支持 256K 上下文,适用于高并发生产级多模态服务。"
|
|
403
|
+
},
|
|
404
|
+
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
|
|
405
|
+
"description": "Qwen3-VL-235B-A22B-Thinking 是 Qwen3-VL 系列中的旗舰思考版本,针对复杂多模态推理、长上下文推理与智能体交互进行了专项优化,适合需要深度思考与视觉推理的企业级场景。"
|
|
406
|
+
},
|
|
407
|
+
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
|
|
408
|
+
"description": "Qwen3-VL-30B-A3B-Instruct 是 Qwen3-VL 系列的指令微调版本,具有强大的视觉-语言理解与生成能力,原生支持 256K 上下文长度,适合多模态对话与图像条件生成任务。"
|
|
409
|
+
},
|
|
410
|
+
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
|
|
411
|
+
"description": "Qwen3-VL-30B-A3B-Thinking 是 Qwen3-VL 的推理增强版本(Thinking),在多模态推理、图像到代码和复杂视觉理解任务上进行了优化,支持 256K 上下文并具备更强的链式思考能力。"
|
|
412
|
+
},
|
|
401
413
|
"Qwen/Qwen3-VL-8B-Instruct": {
|
|
402
414
|
"description": "Qwen3-VL-8B-Instruct 是 Qwen3 系列的视觉语言模型,基于 Qwen3-8B-Instruct 开发并在大量图文数据上训练,擅长通用视觉理解、以视觉为中心的对话以及图像中的多语言文本识别。适用于视觉问答、图像描述、多模态指令跟随与工具调用场景。"
|
|
403
415
|
},
|
|
@@ -978,13 +990,13 @@
|
|
|
978
990
|
"description": "DeepSeek-V3 是一款拥有 6710 亿参数的混合专家(MoE)语言模型,采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,结合无辅助损失的负载平衡策略,优化推理和训练效率。通过在 14.8 万亿高质量tokens上预训练,并进行监督微调和强化学习,DeepSeek-V3 在性能上超越其他开源模型,接近领先闭源模型。"
|
|
979
991
|
},
|
|
980
992
|
"deepseek-ai/DeepSeek-V3.1": {
|
|
981
|
-
"description": "DeepSeek
|
|
993
|
+
"description": "DeepSeek V3.1 模型为混合推理架构模型,同时支持思考模式与非思考模式。"
|
|
982
994
|
},
|
|
983
995
|
"deepseek-ai/DeepSeek-V3.1-Terminus": {
|
|
984
996
|
"description": "DeepSeek-V3.1-Terminus 是由深度求索(DeepSeek)发布的 V3.1 模型的更新版本,定位为混合智能体大语言模型。此次更新在保持模型原有能力的基础上,专注于修复用户反馈的问题并提升稳定性。它显著改善了语言一致性,减少了中英文混用和异常字符的出现。模型集成了“思考模式”(Thinking Mode)和“非思考模式”(Non-thinking Mode),用户可通过聊天模板灵活切换以适应不同任务。作为一个重要的优化,V3.1-Terminus 增强了代码智能体(Code Agent)和搜索智能体(Search Agent)的性能,使其在工具调用和执行多步复杂任务方面更加可靠。"
|
|
985
997
|
},
|
|
986
998
|
"deepseek-ai/DeepSeek-V3.2-Exp": {
|
|
987
|
-
"description": "DeepSeek V3.2 Exp
|
|
999
|
+
"description": "DeepSeek-V3.2-Exp 是 DeepSeek 发布的实验性 V3.2 版本,作为迈向下一代架构的中间探索。它在 V3.1-Terminus 的基础上引入了 DeepSeek 稀疏注意力(DeepSeek Sparse Attention,DSA)机制以提升长上下文训练与推理效率,针对工具调用、长文档理解与多步推理进行了专项优化。V3.2-Exp 为研究与产品化之间的桥梁,适合希望在高上下文预算场景中探索更高推理效率的用户。"
|
|
988
1000
|
},
|
|
989
1001
|
"deepseek-ai/deepseek-llm-67b-chat": {
|
|
990
1002
|
"description": "DeepSeek LLM Chat (67B) 是创新的 AI 模型 提供深度语言理解和互动能力。"
|
|
@@ -2474,9 +2486,6 @@
|
|
|
2474
2486
|
"mistralai/Mixtral-8x7B-v0.1": {
|
|
2475
2487
|
"description": "Mixtral 8x7B是一个稀疏专家模型,利用多个参数提高推理速度,适合处理多语言和代码生成任务。"
|
|
2476
2488
|
},
|
|
2477
|
-
"mistralai/mistral-7b-instruct": {
|
|
2478
|
-
"description": "Mistral 7B Instruct 是一款兼有速度优化和长上下文支持的高性能行业标准模型。"
|
|
2479
|
-
},
|
|
2480
2489
|
"mistralai/mistral-nemo": {
|
|
2481
2490
|
"description": "Mistral Nemo 是多语言支持和高性能编程的7.3B参数模型。"
|
|
2482
2491
|
},
|