@lobehub/chat 1.75.4 → 1.75.5
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/CHANGELOG.md +27 -0
- package/README.md +1 -1
- package/README.zh-CN.md +1 -1
- package/changelog/v1.json +9 -0
- package/docs/self-hosting/advanced/model-list.mdx +5 -3
- package/docs/self-hosting/advanced/model-list.zh-CN.mdx +5 -3
- package/docs/usage/providers/infiniai.zh-CN.mdx +4 -0
- package/locales/ar/models.json +51 -54
- package/locales/ar/providers.json +3 -0
- package/locales/bg-BG/models.json +51 -54
- package/locales/bg-BG/providers.json +3 -0
- package/locales/de-DE/models.json +51 -54
- package/locales/de-DE/providers.json +3 -0
- package/locales/en-US/models.json +51 -54
- package/locales/en-US/providers.json +3 -0
- package/locales/es-ES/models.json +51 -54
- package/locales/es-ES/providers.json +3 -0
- package/locales/fa-IR/models.json +51 -54
- package/locales/fa-IR/providers.json +3 -0
- package/locales/fr-FR/models.json +51 -54
- package/locales/fr-FR/providers.json +3 -0
- package/locales/it-IT/models.json +51 -54
- package/locales/it-IT/providers.json +3 -0
- package/locales/ja-JP/models.json +51 -54
- package/locales/ja-JP/providers.json +3 -0
- package/locales/ko-KR/models.json +51 -54
- package/locales/ko-KR/providers.json +3 -0
- package/locales/nl-NL/models.json +51 -54
- package/locales/nl-NL/providers.json +3 -0
- package/locales/pl-PL/models.json +51 -54
- package/locales/pl-PL/providers.json +3 -0
- package/locales/pt-BR/models.json +51 -54
- package/locales/pt-BR/providers.json +3 -0
- package/locales/ru-RU/models.json +51 -54
- package/locales/ru-RU/providers.json +3 -0
- package/locales/tr-TR/models.json +51 -54
- package/locales/tr-TR/providers.json +3 -0
- package/locales/vi-VN/models.json +51 -54
- package/locales/vi-VN/providers.json +3 -0
- package/locales/zh-CN/models.json +55 -58
- package/locales/zh-CN/providers.json +3 -0
- package/locales/zh-TW/models.json +51 -54
- package/locales/zh-TW/providers.json +3 -0
- package/package.json +1 -1
- package/src/config/aiModels/infiniai.ts +52 -55
- package/src/config/aiModels/siliconcloud.ts +17 -1
- package/src/config/aiModels/tencentcloud.ts +17 -0
- package/src/libs/agent-runtime/infiniai/index.ts +38 -3
- package/src/utils/format.ts +1 -1
- package/src/utils/parseModels.test.ts +14 -0
- package/src/utils/parseModels.ts +4 -0
@@ -1,13 +1,4 @@
|
|
1
1
|
{
|
2
|
-
"01-ai/Yi-1.5-34B-Chat-16K": {
|
3
|
-
"description": "Yi-1.5 34B biedt superieure prestaties in de industrie met rijke trainingsvoorbeelden."
|
4
|
-
},
|
5
|
-
"01-ai/Yi-1.5-6B-Chat": {
|
6
|
-
"description": "Yi-1.5-6B-Chat is een variant van de Yi-1.5-serie, die behoort tot de open-source chatmodellen. Yi-1.5 is een upgrade van Yi, die is voorgetraind op 500B hoogwaardige corpus en is fijn afgesteld op meer dan 3M diverse voorbeelden. In vergelijking met Yi presteert Yi-1.5 beter in coderings-, wiskundige, redenerings- en instructievolgcapaciteiten, terwijl het uitstekende taalbegrip, algemene redenering en leesbegrip behoudt. Dit model heeft versies met contextlengtes van 4K, 16K en 32K, met een totale voortraining van 3.6T tokens."
|
7
|
-
},
|
8
|
-
"01-ai/Yi-1.5-9B-Chat-16K": {
|
9
|
-
"description": "Yi-1.5 9B ondersteunt 16K tokens en biedt efficiënte, vloeiende taalgeneratiecapaciteiten."
|
10
|
-
},
|
11
2
|
"01-ai/yi-1.5-34b-chat": {
|
12
3
|
"description": "Zero One Everything, het nieuwste open-source fine-tuning model, met 34 miljard parameters, dat fine-tuning ondersteunt voor verschillende dialoogscenario's, met hoogwaardige trainingsdata die zijn afgestemd op menselijke voorkeuren."
|
13
4
|
},
|
@@ -149,12 +140,6 @@
|
|
149
140
|
"Llama-3.2-90B-Vision-Instruct\t": {
|
150
141
|
"description": "Geavanceerde beeldredeneringscapaciteiten voor visuele begripstoepassingen."
|
151
142
|
},
|
152
|
-
"LoRA/Qwen/Qwen2.5-72B-Instruct": {
|
153
|
-
"description": "Qwen2.5-72B-Instruct is een van de nieuwste grote taalmodellen die door Alibaba Cloud is uitgebracht. Dit 72B-model heeft aanzienlijke verbeteringen in coderings- en wiskundige vaardigheden. Het model biedt ook meertalige ondersteuning, met meer dan 29 ondersteunde talen, waaronder Chinees en Engels. Het model heeft aanzienlijke verbeteringen in het volgen van instructies, het begrijpen van gestructureerde gegevens en het genereren van gestructureerde uitvoer (vooral JSON)."
|
154
|
-
},
|
155
|
-
"LoRA/Qwen/Qwen2.5-7B-Instruct": {
|
156
|
-
"description": "Qwen2.5-7B-Instruct is een van de nieuwste grote taalmodellen die door Alibaba Cloud is uitgebracht. Dit 7B-model heeft aanzienlijke verbeteringen in coderings- en wiskundige vaardigheden. Het model biedt ook meertalige ondersteuning, met meer dan 29 ondersteunde talen, waaronder Chinees en Engels. Het model heeft aanzienlijke verbeteringen in het volgen van instructies, het begrijpen van gestructureerde gegevens en het genereren van gestructureerde uitvoer (vooral JSON)."
|
157
|
-
},
|
158
143
|
"Meta-Llama-3.1-405B-Instruct": {
|
159
144
|
"description": "Llama 3.1 instructie-geoptimaliseerd tekstmodel, geoptimaliseerd voor meertalige gesprekstoepassingen, presteert uitstekend op veel beschikbare open-source en gesloten chatmodellen op veelvoorkomende industriële benchmarks."
|
160
145
|
},
|
@@ -179,9 +164,6 @@
|
|
179
164
|
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
180
165
|
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) is een hoogprecisie instructiemodel, geschikt voor complexe berekeningen."
|
181
166
|
},
|
182
|
-
"OpenGVLab/InternVL2-26B": {
|
183
|
-
"description": "InternVL2 toont uitstekende prestaties bij diverse visuele taaltaken, waaronder document- en grafiekbegrip, scène-tekstbegrip, OCR, en het oplossen van wetenschappelijke en wiskundige problemen."
|
184
|
-
},
|
185
167
|
"Phi-3-medium-128k-instruct": {
|
186
168
|
"description": "Hetzelfde Phi-3-medium model, maar met een grotere contextgrootte voor RAG of few shot prompting."
|
187
169
|
},
|
@@ -206,9 +188,6 @@
|
|
206
188
|
"Phi-3.5-vision-instrust": {
|
207
189
|
"description": "Een geüpdatete versie van het Phi-3-vision model."
|
208
190
|
},
|
209
|
-
"Pro/OpenGVLab/InternVL2-8B": {
|
210
|
-
"description": "InternVL2 toont uitstekende prestaties bij diverse visuele taaltaken, waaronder document- en grafiekbegrip, scène-tekstbegrip, OCR, en het oplossen van wetenschappelijke en wiskundige problemen."
|
211
|
-
},
|
212
191
|
"Pro/Qwen/Qwen2-1.5B-Instruct": {
|
213
192
|
"description": "Qwen2-1.5B-Instruct is een instructie-fijn afgesteld groot taalmodel in de Qwen2-serie, met een parameter grootte van 1.5B. Dit model is gebaseerd op de Transformer-architectuur en maakt gebruik van technieken zoals de SwiGLU-activeringsfunctie, aandacht QKV-bias en groepsquery-aandacht. Het presteert uitstekend in taalbegrip, generatie, meertalige capaciteiten, codering, wiskunde en redenering in verschillende benchmarktests, en overtreft de meeste open-source modellen. In vergelijking met Qwen1.5-1.8B-Chat toont Qwen2-1.5B-Instruct aanzienlijke prestatieverbeteringen in tests zoals MMLU, HumanEval, GSM8K, C-Eval en IFEval, ondanks een iets lager aantal parameters."
|
214
193
|
},
|
@@ -224,20 +203,23 @@
|
|
224
203
|
"Pro/Qwen/Qwen2.5-Coder-7B-Instruct": {
|
225
204
|
"description": "Qwen2.5-Coder-7B-Instruct is de nieuwste versie van de code-specifieke grote taalmodelreeks die door Alibaba Cloud is uitgebracht. Dit model is aanzienlijk verbeterd in codegeneratie, redenering en herstelcapaciteiten door training met 55 biljoen tokens, gebaseerd op Qwen2.5. Het versterkt niet alleen de coderingscapaciteiten, maar behoudt ook de voordelen van wiskundige en algemene vaardigheden. Het model biedt een meer uitgebreide basis voor praktische toepassingen zoals code-agenten."
|
226
205
|
},
|
206
|
+
"Pro/Qwen/Qwen2.5-VL-7B-Instruct": {
|
207
|
+
"description": "Qwen2.5-VL is een nieuw lid van de Qwen-serie, met krachtige visuele inzichtscapaciteiten. Het kan tekst, grafieken en lay-outs in afbeeldingen analyseren en langere video's begrijpen en gebeurtenissen vastleggen. Het kan redeneren en tools bedienen, ondersteunt multi-formaat objectlocalisatie en structuuroutput genereren. De video-begripstraining is geoptimaliseerd voor dynamische resolutie en framesnelheid, en de efficiëntie van de visuele encoder is verbeterd."
|
208
|
+
},
|
227
209
|
"Pro/THUDM/glm-4-9b-chat": {
|
228
210
|
"description": "GLM-4-9B-Chat is de open-source versie van het GLM-4-serie voorgetrainde model, gelanceerd door Zhipu AI. Dit model presteert uitstekend in semantiek, wiskunde, redenering, code en kennis. Naast ondersteuning voor meerdaagse gesprekken, beschikt GLM-4-9B-Chat ook over geavanceerde functies zoals webbrowser, code-uitvoering, aangepaste tool-aanroepen (Function Call) en lange tekstredenering. Het model ondersteunt 26 talen, waaronder Chinees, Engels, Japans, Koreaans en Duits. In verschillende benchmarktests toont GLM-4-9B-Chat uitstekende prestaties, zoals AlignBench-v2, MT-Bench, MMLU en C-Eval. Dit model ondersteunt een maximale contextlengte van 128K, geschikt voor academisch onderzoek en commerciële toepassingen."
|
229
211
|
},
|
230
212
|
"Pro/deepseek-ai/DeepSeek-R1": {
|
231
213
|
"description": "DeepSeek-R1 is een inferentiemodel aangedreven door versterkend leren (RL), dat de problemen van herhaling en leesbaarheid in modellen aanpakt. Voor RL introduceert DeepSeek-R1 koude startdata, wat de inferentieprestaties verder optimaliseert. Het presteert vergelijkbaar met OpenAI-o1 in wiskunde, code en inferentietaken, en verbetert de algehele effectiviteit door zorgvuldig ontworpen trainingsmethoden."
|
232
214
|
},
|
233
|
-
"Pro/deepseek-ai/DeepSeek-
|
234
|
-
"description": "DeepSeek-
|
215
|
+
"Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B": {
|
216
|
+
"description": "DeepSeek-R1-Distill-Qwen-1.5B is een model dat is afgeleid van Qwen2.5-Math-1.5B door middel van kennisdistillatie. Dit model is fijn afgesteld met 800.000 zorgvuldig geselecteerde voorbeelden die zijn gegenereerd door DeepSeek-R1, en toont goede prestaties op meerdere benchmarks. Als een lichtgewicht model behaalde het een nauwkeurigheid van 83,9% op MATH-500, een doorlooptarief van 28,9% op AIME 2024 en een score van 954 op CodeForces, wat aantoont dat het inferentiecapaciteiten heeft die verder gaan dan zijn parameterschaal."
|
235
217
|
},
|
236
|
-
"Pro/
|
237
|
-
"description": "
|
218
|
+
"Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B": {
|
219
|
+
"description": "DeepSeek-R1-Distill-Qwen-7B is een model dat is afgeleid van Qwen2.5-Math-7B door middel van kennisdistillatie. Dit model is fijn afgesteld met 800.000 zorgvuldig geselecteerde voorbeelden die zijn gegenereerd door DeepSeek-R1, waardoor het uitstekende inferentiecapaciteiten vertoont. Het presteert goed op verschillende benchmarks, met een nauwkeurigheid van 92,8% op MATH-500, een doorlooptarief van 55,5% op AIME 2024 en een score van 1189 op CodeForces. Als een model van 7B schaal toont het sterke wiskundige en programmeringvaardigheden."
|
238
220
|
},
|
239
|
-
"Pro/
|
240
|
-
"description": "
|
221
|
+
"Pro/deepseek-ai/DeepSeek-V3": {
|
222
|
+
"description": "DeepSeek-V3 is een hybride expert (MoE) taalmodel met 6710 miljard parameters, dat gebruikmaakt van multi-head latent attention (MLA) en de DeepSeekMoE-architectuur, gecombineerd met een load balancing-strategie zonder extra verlies, om de inferentie- en trainingsefficiëntie te optimaliseren. Door voorgetraind te worden op 14,8 biljoen hoogwaardige tokens en vervolgens te worden fijngesteld met supervisie en versterkend leren, overtreft DeepSeek-V3 andere open-source modellen in prestaties en komt het dicht in de buurt van toonaangevende gesloten modellen."
|
241
223
|
},
|
242
224
|
"QwQ-32B-Preview": {
|
243
225
|
"description": "QwQ-32B-Preview is een innovatief natuurlijk taalverwerkingsmodel dat efficiënt complexe dialooggeneratie en contextbegripstaken kan verwerken."
|
@@ -290,6 +272,12 @@
|
|
290
272
|
"Qwen/Qwen2.5-Coder-7B-Instruct": {
|
291
273
|
"description": "Qwen2.5-Coder-7B-Instruct is de nieuwste versie van de code-specifieke grote taalmodelreeks die door Alibaba Cloud is uitgebracht. Dit model is aanzienlijk verbeterd in codegeneratie, redenering en herstelcapaciteiten door training met 55 biljoen tokens, gebaseerd op Qwen2.5. Het versterkt niet alleen de coderingscapaciteiten, maar behoudt ook de voordelen van wiskundige en algemene vaardigheden. Het model biedt een meer uitgebreide basis voor praktische toepassingen zoals code-agenten."
|
292
274
|
},
|
275
|
+
"Qwen/Qwen2.5-VL-32B-Instruct": {
|
276
|
+
"description": "Qwen2.5-VL-32B-Instruct is een multimodaal groot model dat is uitgebracht door het team van Qwen2.5-VL. Dit model is niet alleen bedreven in het herkennen van algemene objecten, maar kan ook afbeeldingen analyseren voor tekst, grafieken, pictogrammen, diagrammen en lay-outs. Het kan als een visueel intelligentieagent fungeren, in staat tot redeneren en dynamisch het besturen van tools, met de mogelijkheid om computers en smartphones te gebruiken. Bovendien kan dit model objecten in afbeeldingen nauwkeurig lokaliseren en gestructureerde uitvoer voor facturen, tabellen en dergelijke genereren. Ten opzichte van het vorige model Qwen2-VL is deze versie verder verbeterd in wiskunde en probleemoplossend vermogen door versterkend leren, en het antwoordstijl is meer in lijn met menselijke voorkeuren."
|
277
|
+
},
|
278
|
+
"Qwen/Qwen2.5-VL-72B-Instruct": {
|
279
|
+
"description": "Qwen2.5-VL is een visueel-taalmodel uit de Qwen2.5-reeks. Dit model heeft aanzienlijke verbeteringen op verschillende gebieden: het heeft een betere visuele begripscapaciteit, kan veelvoorkomende objecten herkennen, tekst, grafieken en lay-outs analyseren; als visueel agent kan het redeneren en het gebruik van tools dynamisch begeleiden; het ondersteunt het begrijpen van video's langer dan 1 uur en kan belangrijke gebeurtenissen vastleggen; het kan objecten in afbeeldingen nauwkeurig lokaliseren door bounding boxes of punten te genereren; het ondersteunt de generatie van gestructureerde uitvoer, met name geschikt voor facturen, tabellen en andere gescande gegevens."
|
280
|
+
},
|
293
281
|
"Qwen2-72B-Instruct": {
|
294
282
|
"description": "Qwen2 is de nieuwste serie van het Qwen-model, dat 128k context ondersteunt. In vergelijking met de huidige beste open-source modellen, overtreft Qwen2-72B op het gebied van natuurlijke taalbegrip, kennis, code, wiskunde en meertaligheid aanzienlijk de huidige toonaangevende modellen."
|
295
283
|
},
|
@@ -374,9 +362,6 @@
|
|
374
362
|
"TeleAI/TeleChat2": {
|
375
363
|
"description": "Het TeleChat2-model is een generatief semantisch groot model dat van de grond af aan is ontwikkeld door China Telecom, en ondersteunt functies zoals encyclopedische vraag-en-antwoord, codegeneratie en lange tekstgeneratie, en biedt gebruikers gespreksadviesdiensten. Het kan met gebruikers communiceren, vragen beantwoorden, helpen bij creatie en efficiënt en gemakkelijk informatie, kennis en inspiratie bieden. Het model presteert goed in het omgaan met hallucinatieproblemen, lange tekstgeneratie en logische begrip."
|
376
364
|
},
|
377
|
-
"TeleAI/TeleMM": {
|
378
|
-
"description": "Het TeleMM multimodale grote model is een door China Telecom ontwikkeld model voor multimodale begrip, dat verschillende modaliteiten zoals tekst en afbeeldingen kan verwerken, en ondersteunt functies zoals beeldbegrip en grafiekanalyse, en biedt gebruikers cross-modale begripdiensten. Het model kan met gebruikers communiceren in meerdere modaliteiten, de invoer nauwkeurig begrijpen, vragen beantwoorden, helpen bij creatie en efficiënt multimodale informatie en inspiratie bieden. Het presteert uitstekend in multimodale taken zoals fijne perceptie en logische redenering."
|
379
|
-
},
|
380
365
|
"Vendor-A/Qwen/Qwen2.5-72B-Instruct": {
|
381
366
|
"description": "Qwen2.5-72B-Instruct is een van de nieuwste grote taalmodellen die door Alibaba Cloud is uitgebracht. Dit 72B-model heeft aanzienlijke verbeteringen in coderings- en wiskundige vaardigheden. Het model biedt ook meertalige ondersteuning, met meer dan 29 ondersteunde talen, waaronder Chinees en Engels. Het model heeft aanzienlijke verbeteringen in het volgen van instructies, het begrijpen van gestructureerde gegevens en het genereren van gestructureerde uitvoer (vooral JSON)."
|
382
367
|
},
|
@@ -662,9 +647,6 @@
|
|
662
647
|
"deepseek-ai/DeepSeek-R1-Distill-Llama-70B": {
|
663
648
|
"description": "DeepSeek-R1 distillatiemodel, geoptimaliseerd voor inferentieprestaties door versterkend leren en koude startdata, open-source model dat de multi-taak benchmark vernieuwt."
|
664
649
|
},
|
665
|
-
"deepseek-ai/DeepSeek-R1-Distill-Llama-8B": {
|
666
|
-
"description": "DeepSeek-R1-Distill-Llama-8B is een distillatiemodel ontwikkeld op basis van Llama-3.1-8B. Dit model is fijn afgestemd met voorbeelden gegenereerd door DeepSeek-R1 en toont uitstekende inferentiecapaciteiten. Het heeft goed gepresteerd in verschillende benchmarktests, met een nauwkeurigheid van 89,1% op MATH-500, een slaagpercentage van 50,4% op AIME 2024, en een score van 1205 op CodeForces, wat sterke wiskundige en programmeercapaciteiten aantoont voor een model van 8B schaal."
|
667
|
-
},
|
668
650
|
"deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B": {
|
669
651
|
"description": "DeepSeek-R1 distillatiemodel, geoptimaliseerd voor inferentieprestaties door versterkend leren en koude startdata, open-source model dat de multi-taak benchmark vernieuwt."
|
670
652
|
},
|
@@ -713,6 +695,9 @@
|
|
713
695
|
"deepseek-r1-70b-online": {
|
714
696
|
"description": "DeepSeek R1 70B standaardversie, ondersteunt realtime online zoeken, geschikt voor dialoog- en tekstverwerkingstaken die actuele informatie vereisen."
|
715
697
|
},
|
698
|
+
"deepseek-r1-distill-llama": {
|
699
|
+
"description": "deepseek-r1-distill-llama is een model dat is gedistilleerd van Llama op basis van DeepSeek-R1."
|
700
|
+
},
|
716
701
|
"deepseek-r1-distill-llama-70b": {
|
717
702
|
"description": "DeepSeek R1 - een groter en slimmer model binnen de DeepSeek suite - is gedistilleerd naar de Llama 70B architectuur. Op basis van benchmarktests en menselijke evaluaties is dit model slimmer dan de originele Llama 70B, vooral in taken die wiskundige en feitelijke nauwkeurigheid vereisen."
|
718
703
|
},
|
@@ -725,6 +710,9 @@
|
|
725
710
|
"deepseek-r1-distill-qianfan-llama-8b": {
|
726
711
|
"description": "Eerste release op 14 februari 2025, gedistilleerd door het Qianfan grote model ontwikkelteam met Llama3_8B als basis (gebouwd met Meta Llama), waarbij ook Qianfan's corpora zijn toegevoegd aan de gedistilleerde data."
|
727
712
|
},
|
713
|
+
"deepseek-r1-distill-qwen": {
|
714
|
+
"description": "deepseek-r1-distill-qwen is een model dat is gedistilleerd van Qwen op basis van DeepSeek-R1."
|
715
|
+
},
|
728
716
|
"deepseek-r1-distill-qwen-1.5b": {
|
729
717
|
"description": "Het DeepSeek-R1-Distill model is verkregen door middel van kennisdistillatie-technologie, waarbij samples gegenereerd door DeepSeek-R1 zijn afgestemd op open-source modellen zoals Qwen en Llama."
|
730
718
|
},
|
@@ -872,6 +860,9 @@
|
|
872
860
|
"gemini-1.5-flash-8b-exp-0924": {
|
873
861
|
"description": "Gemini 1.5 Flash 8B 0924 is het nieuwste experimentele model, met aanzienlijke prestatieverbeteringen in tekst- en multimodale toepassingen."
|
874
862
|
},
|
863
|
+
"gemini-1.5-flash-8b-latest": {
|
864
|
+
"description": "Gemini 1.5 Flash 8B is een efficiënte multimodale model dat uitgebreide toepassingen ondersteunt."
|
865
|
+
},
|
875
866
|
"gemini-1.5-flash-exp-0827": {
|
876
867
|
"description": "Gemini 1.5 Flash 0827 biedt geoptimaliseerde multimodale verwerkingscapaciteiten, geschikt voor verschillende complexe taak scenario's."
|
877
868
|
},
|
@@ -914,9 +905,6 @@
|
|
914
905
|
"gemini-2.0-flash-lite-preview-02-05": {
|
915
906
|
"description": "Een Gemini 2.0 Flash-model dat is geoptimaliseerd voor kosteneffectiviteit en lage latentie."
|
916
907
|
},
|
917
|
-
"gemini-2.0-flash-thinking-exp": {
|
918
|
-
"description": "Gemini 2.0 Flash Exp is Google's nieuwste experimentele multimodale AI-model, met next-gen functies, uitstekende snelheid, native tool-aanroepen en multimodale generatie."
|
919
|
-
},
|
920
908
|
"gemini-2.0-flash-thinking-exp-01-21": {
|
921
909
|
"description": "Gemini 2.0 Flash Exp is Google's nieuwste experimentele multimodale AI-model, met next-gen functies, uitstekende snelheid, native tool-aanroepen en multimodale generatie."
|
922
910
|
},
|
@@ -1223,6 +1211,9 @@
|
|
1223
1211
|
"llama-3.1-8b-instant": {
|
1224
1212
|
"description": "Llama 3.1 8B is een hoogpresterend model dat snelle tekstgeneratiecapaciteiten biedt, zeer geschikt voor toepassingen die grootschalige efficiëntie en kosteneffectiviteit vereisen."
|
1225
1213
|
},
|
1214
|
+
"llama-3.1-instruct": {
|
1215
|
+
"description": "Llama 3.1 instructie-fijnafstemmodel is geoptimaliseerd voor gesprekssituaties en overtreft vele bestaande open-source chatmodellen op veelvoorkomende branchebenchmarks."
|
1216
|
+
},
|
1226
1217
|
"llama-3.2-11b-vision-instruct": {
|
1227
1218
|
"description": "Uitstekende beeldredeneringscapaciteiten op hoge resolutie-afbeeldingen, geschikt voor visuele begrijptoepassingen."
|
1228
1219
|
},
|
@@ -1235,12 +1226,18 @@
|
|
1235
1226
|
"llama-3.2-90b-vision-preview": {
|
1236
1227
|
"description": "Llama 3.2 is ontworpen om taken te verwerken die visuele en tekstuele gegevens combineren. Het presteert uitstekend in taken zoals afbeeldingsbeschrijving en visuele vraag-en-antwoord, en overbrugt de kloof tussen taalgeneratie en visuele redeneervaardigheden."
|
1237
1228
|
},
|
1229
|
+
"llama-3.2-vision-instruct": {
|
1230
|
+
"description": "Llama 3.2-Vision instructie-fijnafstemmodel is geoptimaliseerd voor visuele herkenning, afbeeldingsredenering, afbeeldingsbeschrijving en het beantwoorden van algemene vragen over afbeeldingen."
|
1231
|
+
},
|
1238
1232
|
"llama-3.3-70b-instruct": {
|
1239
1233
|
"description": "Llama 3.3 is het meest geavanceerde meertalige open-source grote taalmodel in de Llama-serie, dat prestaties biedt die vergelijkbaar zijn met die van het 405B-model tegen zeer lage kosten. Gebaseerd op de Transformer-structuur en verbeterd door middel van supervisie-fijnstelling (SFT) en versterkend leren met menselijke feedback (RLHF) voor gebruiksvriendelijkheid en veiligheid. De instructie-geoptimaliseerde versie is speciaal ontworpen voor meertalige dialogen en presteert beter dan veel open-source en gesloten chatmodellen op verschillende industriële benchmarks. Kennisafkapdatum is december 2023."
|
1240
1234
|
},
|
1241
1235
|
"llama-3.3-70b-versatile": {
|
1242
1236
|
"description": "Meta Llama 3.3 is een meertalige grote taalmodel (LLM) met 70B (tekstinvoer/tekstuitvoer) dat is voorgetraind en aangepast voor instructies. Het pure tekstmodel van Llama 3.3 is geoptimaliseerd voor meertalige gespreksgebruik en scoort beter dan veel beschikbare open-source en gesloten chatmodellen op gangbare industrie benchmarks."
|
1243
1237
|
},
|
1238
|
+
"llama-3.3-instruct": {
|
1239
|
+
"description": "Het Llama 3.3 instructie-fijnafstemmodel is geoptimaliseerd voor gesprekssituaties en overtreft vele bestaande open-source chatmodellen op veelvoorkomende industriebenchmarks."
|
1240
|
+
},
|
1244
1241
|
"llama3-70b-8192": {
|
1245
1242
|
"description": "Meta Llama 3 70B biedt ongeëvenaarde complexiteitsverwerkingscapaciteiten, op maat gemaakt voor veeleisende projecten."
|
1246
1243
|
},
|
@@ -1319,9 +1316,6 @@
|
|
1319
1316
|
"meta-llama/Llama-3.2-90B-Vision-Instruct-Turbo": {
|
1320
1317
|
"description": "LLaMA 3.2 is ontworpen voor taken die zowel visuele als tekstuele gegevens combineren. Het presteert uitstekend in taken zoals afbeeldingsbeschrijving en visuele vraagstukken, en overbrugt de kloof tussen taalgeneratie en visuele redenering."
|
1321
1318
|
},
|
1322
|
-
"meta-llama/Llama-3.3-70B-Instruct": {
|
1323
|
-
"description": "Llama 3.3 is het meest geavanceerde meertalige open-source grote taalmodel uit de Llama-serie, dat een vergelijkbare prestatie biedt als het 405B model tegen zeer lage kosten. Gebaseerd op de Transformer-structuur en verbeterd in bruikbaarheid en veiligheid door middel van supervisie-fijnstelling (SFT) en versterkend leren met menselijke feedback (RLHF). De instructie-geoptimaliseerde versie is speciaal ontworpen voor meertalige gesprekken en presteert beter dan veel open-source en gesloten chatmodellen op verschillende industriële benchmarks. Kennisafkapdatum is december 2023."
|
1324
|
-
},
|
1325
1319
|
"meta-llama/Llama-3.3-70B-Instruct-Turbo": {
|
1326
1320
|
"description": "Meta Llama 3.3 meertalige grote taalmodel (LLM) is een voorgetraind en instructie-aangepast generatief model van 70B (tekstinvoer/tekstuitvoer). Het Llama 3.3 instructie-aangepaste pure tekstmodel is geoptimaliseerd voor meertalige dialoogtoepassingen en presteert beter dan veel beschikbare open-source en gesloten chatmodellen op gangbare industriële benchmarks."
|
1327
1321
|
},
|
@@ -1349,15 +1343,9 @@
|
|
1349
1343
|
"meta-llama/Meta-Llama-3.1-70B": {
|
1350
1344
|
"description": "Llama 3.1 is een toonaangevend model van Meta, ondersteunt tot 405B parameters en kan worden toegepast in complexe gesprekken, meertalige vertalingen en data-analyse."
|
1351
1345
|
},
|
1352
|
-
"meta-llama/Meta-Llama-3.1-70B-Instruct": {
|
1353
|
-
"description": "LLaMA 3.1 70B biedt efficiënte gespreksondersteuning in meerdere talen."
|
1354
|
-
},
|
1355
1346
|
"meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo": {
|
1356
1347
|
"description": "Llama 3.1 70B model is fijn afgesteld voor toepassingen met hoge belasting, gekwantiseerd naar FP8 voor efficiëntere rekenkracht en nauwkeurigheid, en zorgt voor uitstekende prestaties in complexe scenario's."
|
1357
1348
|
},
|
1358
|
-
"meta-llama/Meta-Llama-3.1-8B-Instruct": {
|
1359
|
-
"description": "LLaMA 3.1 biedt meertalige ondersteuning en is een van de toonaangevende generatieve modellen in de industrie."
|
1360
|
-
},
|
1361
1349
|
"meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo": {
|
1362
1350
|
"description": "Llama 3.1 8B model maakt gebruik van FP8-kwantisering en ondersteunt tot 131.072 contexttokens, en is een van de beste open-source modellen, geschikt voor complexe taken en presteert beter dan veel industriestandaarden."
|
1363
1351
|
},
|
@@ -1451,12 +1439,18 @@
|
|
1451
1439
|
"mistral-large": {
|
1452
1440
|
"description": "Mixtral Large is het vlaggenschipmodel van Mistral, dat de capaciteiten van codegeneratie, wiskunde en inferentie combineert, ondersteunt een contextvenster van 128k."
|
1453
1441
|
},
|
1442
|
+
"mistral-large-instruct": {
|
1443
|
+
"description": "Mistral-Large-Instruct-2407 is een geavanceerd dicht grote taalmodel (LLM) met 123 miljard parameters, dat beschikt over state-of-the-art redenerings-, kennis- en coderingcapaciteiten."
|
1444
|
+
},
|
1454
1445
|
"mistral-large-latest": {
|
1455
1446
|
"description": "Mistral Large is het vlaggenschipmodel, dat uitblinkt in meertalige taken, complexe inferentie en codegeneratie, ideaal voor high-end toepassingen."
|
1456
1447
|
},
|
1457
1448
|
"mistral-nemo": {
|
1458
1449
|
"description": "Mistral Nemo is een 12B-model dat is ontwikkeld in samenwerking met Mistral AI en NVIDIA, biedt efficiënte prestaties."
|
1459
1450
|
},
|
1451
|
+
"mistral-nemo-instruct": {
|
1452
|
+
"description": "Mistral-Nemo-Instruct-2407 is een groot taalmodel (LLM) dat een instructie-finetuned versie is van Mistral-Nemo-Base-2407."
|
1453
|
+
},
|
1460
1454
|
"mistral-small": {
|
1461
1455
|
"description": "Mistral Small kan worden gebruikt voor elke taalkundige taak die hoge efficiëntie en lage latentie vereist."
|
1462
1456
|
},
|
@@ -1670,15 +1664,6 @@
|
|
1670
1664
|
"qwen/qwen2.5-coder-7b-instruct": {
|
1671
1665
|
"description": "Krachtig middelgroot codeermodel, ondersteunt 32K contextlengte, gespecialiseerd in meertalige programmering."
|
1672
1666
|
},
|
1673
|
-
"qwen1.5-14b-chat": {
|
1674
|
-
"description": "Qwen1.5 is de beta-versie van Qwen2, een op Transformer gebaseerd decoder-only taalmodel dat is voorgetraind op een enorme hoeveelheid data. Ten opzichte van eerdere Qwen-versies ondersteunen de Qwen1.5 base- en chatmodellen meerdere talen en zijn er verbeteringen doorgevoerd in de algemene chat- en basisvaardigheden. Qwen1.5-14b-chat is een 14 miljard parameters tellend model dat speciaal is ontwikkeld voor chat-scenario's."
|
1675
|
-
},
|
1676
|
-
"qwen1.5-32b-chat": {
|
1677
|
-
"description": "Qwen1.5 is de beta-versie van Qwen2, een op Transformer gebaseerd decoder-only taalmodel dat is voorgetraind op een enorme hoeveelheid data. Ten opzichte van eerdere Qwen-versies ondersteunen de Qwen1.5 base- en chatmodellen meertaligheid en zijn er verbeteringen doorgevoerd in de algemene chat- en basisvaardigheden. Qwen1.5-32b-chat is een 320 miljard parameters groot model dat speciaal is ontwikkeld voor chat-scenario's. Het is sterker in agent-scenario's dan het 14b-model en heeft lagere inferentiekosten dan het 72b-model."
|
1678
|
-
},
|
1679
|
-
"qwen1.5-72b-chat": {
|
1680
|
-
"description": "De Qwen1.5-serie is een beta-versie van Qwen2, een op Transformer gebaseerd decoder-only taalmodel dat is voorgetraind op een enorme hoeveelheid data. Ten opzichte van eerdere versies van de Qwen-serie, ondersteunen de Qwen1.5 base- en chatmodellen meertaligheid en zijn er verbeteringen doorgevoerd in de algemene chat- en basisvaardigheden. Qwen1.5-72b-chat is een specifiek voor chat-gebruik ontworpen model met 72 miljard parameters."
|
1681
|
-
},
|
1682
1667
|
"qwen2": {
|
1683
1668
|
"description": "Qwen2 is Alibaba's nieuwe generatie grootschalig taalmodel, ondersteunt diverse toepassingsbehoeften met uitstekende prestaties."
|
1684
1669
|
},
|
@@ -1715,6 +1700,12 @@
|
|
1715
1700
|
"qwen2.5-coder-7b-instruct": {
|
1716
1701
|
"description": "De open source versie van het Tongyi Qianwen codeermodel."
|
1717
1702
|
},
|
1703
|
+
"qwen2.5-coder-instruct": {
|
1704
|
+
"description": "Qwen2.5-Coder is het nieuwste grote taalmodel voor code in de Qwen-reeks (vroeger bekend als CodeQwen)."
|
1705
|
+
},
|
1706
|
+
"qwen2.5-instruct": {
|
1707
|
+
"description": "Qwen2.5 is de nieuwste reeks van het Qwen-groottaalmodel. Voor Qwen2.5 hebben we verschillende basis-taalmodellen en instructie-finetuning-taalmodellen uitgebracht, met parameters die variëren van 500 miljoen tot 7,2 miljard."
|
1708
|
+
},
|
1718
1709
|
"qwen2.5-math-1.5b-instruct": {
|
1719
1710
|
"description": "Qwen-Math model beschikt over krachtige wiskundige probleemoplossende mogelijkheden."
|
1720
1711
|
},
|
@@ -1724,12 +1715,18 @@
|
|
1724
1715
|
"qwen2.5-math-7b-instruct": {
|
1725
1716
|
"description": "Het Qwen-Math model heeft krachtige capaciteiten voor het oplossen van wiskundige problemen."
|
1726
1717
|
},
|
1718
|
+
"qwen2.5-vl-32b-instruct": {
|
1719
|
+
"description": "De Qwen2.5-VL-serie modellen verbeteren het intelligentieniveau, de praktisch toepasbaarheid en de bruikbaarheid, waardoor ze beter presteren in natuurlijke conversaties, inhoudscREATie, specialistische kennisdiensten en codeontwikkeling. De 32B-versie maakt gebruik van versterkingsleertechnieken om het model te optimaliseren, waardoor het in vergelijking met andere modellen uit de Qwen2.5 VL-serie een uitvoerstijl biedt die meer voldoet aan menselijke voorkeuren, een betere redeneringscapaciteit voor complexe wiskundige problemen, en een fijnere begrip en redenering van afbeeldingen."
|
1720
|
+
},
|
1727
1721
|
"qwen2.5-vl-72b-instruct": {
|
1728
1722
|
"description": "Verbeterde instructievolging, wiskunde, probleemoplossing en code, met verbeterde herkenningscapaciteiten voor verschillende formaten, directe en nauwkeurige lokalisatie van visuele elementen, ondersteuning voor lange videobestanden (maximaal 10 minuten) en seconde-niveau gebeurtenislocatie, kan tijdsvolgorde en snelheid begrijpen, en ondersteunt het bedienen van OS of mobiele agenten op basis van analyse- en lokalisatiecapaciteiten, sterke capaciteiten voor het extraheren van belangrijke informatie en JSON-formaat uitvoer, deze versie is de 72B versie, de krachtigste versie in deze serie."
|
1729
1723
|
},
|
1730
1724
|
"qwen2.5-vl-7b-instruct": {
|
1731
1725
|
"description": "Verbeterde instructievolging, wiskunde, probleemoplossing en code, met verbeterde herkenningscapaciteiten voor verschillende formaten, directe en nauwkeurige lokalisatie van visuele elementen, ondersteuning voor lange videobestanden (maximaal 10 minuten) en seconde-niveau gebeurtenislocatie, kan tijdsvolgorde en snelheid begrijpen, en ondersteunt het bedienen van OS of mobiele agenten op basis van analyse- en lokalisatiecapaciteiten, sterke capaciteiten voor het extraheren van belangrijke informatie en JSON-formaat uitvoer, deze versie is de 72B versie, de krachtigste versie in deze serie."
|
1732
1726
|
},
|
1727
|
+
"qwen2.5-vl-instruct": {
|
1728
|
+
"description": "Qwen2.5-VL is de nieuwste versie van het visueel-taalmodel in de Qwen-modelserie."
|
1729
|
+
},
|
1733
1730
|
"qwen2.5:0.5b": {
|
1734
1731
|
"description": "Qwen2.5 is de nieuwe generatie grootschalig taalmodel van Alibaba, dat uitstekende prestaties levert ter ondersteuning van diverse toepassingsbehoeften."
|
1735
1732
|
},
|
@@ -146,6 +146,9 @@
|
|
146
146
|
"xai": {
|
147
147
|
"description": "xAI is ein bedrijf dat zich richt op het bouwen van kunstmatige intelligentie om menselijke wetenschappelijke ontdekkingen te versnellen. Onze missie is om onze gezamenlijke begrip van het universum te bevorderen."
|
148
148
|
},
|
149
|
+
"xinference": {
|
150
|
+
"description": "Xorbits Inference (Xinference) is een open-source platform dat is ontworpen om de uitvoering en integratie van verschillende AI-modellen te vereenvoudigen. Met Xinference kunt u inferentie uitvoeren met behulp van elke open-source LLM, embeddingsmodel of multimodaal model in een cloud- of lokale omgeving, en krachtige AI-toepassingen creëren."
|
151
|
+
},
|
149
152
|
"zeroone": {
|
150
153
|
"description": "01.AI richt zich op kunstmatige intelligentietechnologie in het tijdperk van AI 2.0, en bevordert sterk de innovatie en toepassing van 'mens + kunstmatige intelligentie', met behulp van krachtige modellen en geavanceerde AI-technologie om de productiviteit van de mens te verbeteren en technologische capaciteiten te realiseren."
|
151
154
|
},
|
@@ -1,13 +1,4 @@
|
|
1
1
|
{
|
2
|
-
"01-ai/Yi-1.5-34B-Chat-16K": {
|
3
|
-
"description": "Yi-1.5 34B, dzięki bogatym próbom treningowym, oferuje doskonałe wyniki w zastosowaniach branżowych."
|
4
|
-
},
|
5
|
-
"01-ai/Yi-1.5-6B-Chat": {
|
6
|
-
"description": "Yi-1.5-6B-Chat to wariant serii Yi-1.5, należący do otwartych modeli czatu. Yi-1.5 to ulepszona wersja Yi, która była nieprzerwanie trenowana na 500B wysokiej jakości korpusie i dostosowywana na 3M zróżnicowanych próbkach. W porównaniu do Yi, Yi-1.5 wykazuje lepsze zdolności w zakresie kodowania, matematyki, wnioskowania i przestrzegania instrukcji, jednocześnie zachowując doskonałe umiejętności rozumienia języka, wnioskowania ogólnego i rozumienia tekstu. Model ten oferuje wersje o długości kontekstu 4K, 16K i 32K, a całkowita liczba tokenów w pretreningu wynosi 3.6T."
|
7
|
-
},
|
8
|
-
"01-ai/Yi-1.5-9B-Chat-16K": {
|
9
|
-
"description": "Yi-1.5 9B obsługuje 16K tokenów, oferując wydajne i płynne zdolności generowania języka."
|
10
|
-
},
|
11
2
|
"01-ai/yi-1.5-34b-chat": {
|
12
3
|
"description": "Zero One, najnowszy model open source z dostrojeniem, zawierający 34 miliardy parametrów, dostosowany do różnych scenariuszy dialogowych, z wysokiej jakości danymi treningowymi, dostosowany do preferencji ludzkich."
|
13
4
|
},
|
@@ -149,12 +140,6 @@
|
|
149
140
|
"Llama-3.2-90B-Vision-Instruct\t": {
|
150
141
|
"description": "Zaawansowane zdolności wnioskowania obrazów, odpowiednie do zastosowań w agentach rozumienia wizualnego."
|
151
142
|
},
|
152
|
-
"LoRA/Qwen/Qwen2.5-72B-Instruct": {
|
153
|
-
"description": "Qwen2.5-72B-Instruct to jeden z najnowszych modeli dużych języków wydanych przez Alibaba Cloud. Model 72B ma znacząco poprawione zdolności w zakresie kodowania i matematyki. Oferuje również wsparcie dla wielu języków, obejmując ponad 29 języków, w tym chiński i angielski. Model ten wykazuje znaczną poprawę w zakresie przestrzegania instrukcji, rozumienia danych strukturalnych oraz generowania strukturalnych wyników (szczególnie JSON)."
|
154
|
-
},
|
155
|
-
"LoRA/Qwen/Qwen2.5-7B-Instruct": {
|
156
|
-
"description": "Qwen2.5-7B-Instruct to jeden z najnowszych modeli dużych języków wydanych przez Alibaba Cloud. Model 7B ma znacząco poprawione zdolności w zakresie kodowania i matematyki. Oferuje również wsparcie dla wielu języków, obejmując ponad 29 języków, w tym chiński i angielski. Model ten wykazuje znaczną poprawę w zakresie przestrzegania instrukcji, rozumienia danych strukturalnych oraz generowania strukturalnych wyników (szczególnie JSON)."
|
157
|
-
},
|
158
143
|
"Meta-Llama-3.1-405B-Instruct": {
|
159
144
|
"description": "Model tekstowy Llama 3.1 dostosowany do instrukcji, zoptymalizowany do wielojęzycznych przypadków użycia dialogów, osiągający doskonałe wyniki w wielu dostępnych modelach czatu, zarówno otwartych, jak i zamkniętych, w powszechnych benchmarkach branżowych."
|
160
145
|
},
|
@@ -179,9 +164,6 @@
|
|
179
164
|
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
180
165
|
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) to model poleceń o wysokiej precyzji, idealny do złożonych obliczeń."
|
181
166
|
},
|
182
|
-
"OpenGVLab/InternVL2-26B": {
|
183
|
-
"description": "InternVL2 pokazuje wyjątkowe wyniki w różnych zadaniach językowych i wizualnych, w tym zrozumieniu dokumentów i wykresów, zrozumieniu tekstu w scenach, OCR, rozwiązywaniu problemów naukowych i matematycznych."
|
184
|
-
},
|
185
167
|
"Phi-3-medium-128k-instruct": {
|
186
168
|
"description": "Ten sam model Phi-3-medium, ale z większym rozmiarem kontekstu do RAG lub kilku strzałowego wywoływania."
|
187
169
|
},
|
@@ -206,9 +188,6 @@
|
|
206
188
|
"Phi-3.5-vision-instrust": {
|
207
189
|
"description": "Zaktualizowana wersja modelu Phi-3-vision."
|
208
190
|
},
|
209
|
-
"Pro/OpenGVLab/InternVL2-8B": {
|
210
|
-
"description": "InternVL2 pokazuje wyjątkowe wyniki w różnych zadaniach językowych i wizualnych, w tym zrozumieniu dokumentów i wykresów, zrozumieniu tekstu w scenach, OCR, rozwiązywaniu problemów naukowych i matematycznych."
|
211
|
-
},
|
212
191
|
"Pro/Qwen/Qwen2-1.5B-Instruct": {
|
213
192
|
"description": "Qwen2-1.5B-Instruct to model dużego języka z serii Qwen2, dostosowany do instrukcji, o rozmiarze parametrów wynoszącym 1.5B. Model ten oparty jest na architekturze Transformer, wykorzystując funkcję aktywacji SwiGLU, przesunięcia QKV w uwadze oraz grupowe zapytania uwagi. Wykazuje doskonałe wyniki w wielu testach benchmarkowych dotyczących rozumienia języka, generowania, zdolności wielojęzycznych, kodowania, matematyki i wnioskowania, przewyższając większość modeli open-source. W porównaniu do Qwen1.5-1.8B-Chat, Qwen2-1.5B-Instruct wykazuje znaczną poprawę wydajności w testach MMLU, HumanEval, GSM8K, C-Eval i IFEval, mimo że ma nieco mniejszą liczbę parametrów."
|
214
193
|
},
|
@@ -224,20 +203,23 @@
|
|
224
203
|
"Pro/Qwen/Qwen2.5-Coder-7B-Instruct": {
|
225
204
|
"description": "Qwen2.5-Coder-7B-Instruct to najnowsza wersja serii dużych modeli językowych specyficznych dla kodu wydana przez Alibaba Cloud. Model ten, oparty na Qwen2.5, został przeszkolony na 55 bilionach tokenów, znacznie poprawiając zdolności generowania kodu, wnioskowania i naprawy. Wzmacnia on nie tylko zdolności kodowania, ale także utrzymuje przewagę w zakresie matematyki i ogólnych umiejętności. Model ten stanowi bardziej kompleksową podstawę dla rzeczywistych zastosowań, takich jak inteligentne agenty kodowe."
|
226
205
|
},
|
206
|
+
"Pro/Qwen/Qwen2.5-VL-7B-Instruct": {
|
207
|
+
"description": "Qwen2.5-VL to nowa wersja serii Qwen, posiadająca zaawansowane zdolności zrozumienia wizualnego. Potrafi analizować tekst, wykresy i układ w obrazach, a także zrozumieć długie filmy i wykrywać zdarzenia. Jest zdolny do przeprowadzania wnioskowania, operowania narzędziami, obsługuje lokalizację obiektów w różnych formatach i generowanie wyjścia strukturalnego. Optymalizuje trening rozdzielczości i klatki wideo, a także zwiększa efektywność kodera wizualnego."
|
208
|
+
},
|
227
209
|
"Pro/THUDM/glm-4-9b-chat": {
|
228
210
|
"description": "GLM-4-9B-Chat to otwarta wersja modelu pretrenowanego z serii GLM-4, wydana przez Zhipu AI. Model ten wykazuje doskonałe wyniki w zakresie semantyki, matematyki, wnioskowania, kodu i wiedzy. Oprócz wsparcia dla wieloetapowych rozmów, GLM-4-9B-Chat oferuje również zaawansowane funkcje, takie jak przeglądanie stron internetowych, wykonywanie kodu, wywoływanie niestandardowych narzędzi (Function Call) oraz wnioskowanie z długich tekstów. Model obsługuje 26 języków, w tym chiński, angielski, japoński, koreański i niemiecki. W wielu testach benchmarkowych, takich jak AlignBench-v2, MT-Bench, MMLU i C-Eval, GLM-4-9B-Chat wykazuje doskonałą wydajność. Model obsługuje maksymalną długość kontekstu 128K, co czyni go odpowiednim do badań akademickich i zastosowań komercyjnych."
|
229
211
|
},
|
230
212
|
"Pro/deepseek-ai/DeepSeek-R1": {
|
231
213
|
"description": "DeepSeek-R1 to model wnioskowania napędzany uczeniem ze wzmocnieniem (RL), który rozwiązuje problemy z powtarzalnością i czytelnością modeli. Przed RL, DeepSeek-R1 wprowadził dane do zimnego startu, co dodatkowo zoptymalizowało wydajność wnioskowania. W zadaniach matematycznych, kodowych i wnioskowania, osiąga wyniki porównywalne z OpenAI-o1, a dzięki starannie zaprojektowanym metodom treningowym poprawia ogólne wyniki."
|
232
214
|
},
|
233
|
-
"Pro/deepseek-ai/DeepSeek-
|
234
|
-
"description": "DeepSeek-
|
215
|
+
"Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B": {
|
216
|
+
"description": "DeepSeek-R1-Distill-Qwen-1.5B to model stworzony na podstawie Qwen2.5-Math-1.5B poprzez proces wiedzy distylacji. Model ten został dostrajony za pomocą 800 000 wybrukowanych próbek wygenerowanych przez DeepSeek-R1, co pozwoliło osiągnąć dobre wyniki na wielu testach benchmarkowych. Jako lekki model, osiągnął 83,9% dokładności na MATH-500, 28,9% sukcesów na AIME 2024 oraz 954 punkty na CodeForces, co świadczy o zdolnościach wnioskowania przekraczających jego rozmiar parametrów."
|
235
217
|
},
|
236
|
-
"Pro/
|
237
|
-
"description": "
|
218
|
+
"Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B": {
|
219
|
+
"description": "DeepSeek-R1-Distill-Qwen-7B to model stworzony na podstawie Qwen2.5-Math-7B poprzez proces wiedzy distylacji. Model ten został wytrenowany na 800 000 wybrukowanych próbkach wygenerowanych przez DeepSeek-R1, co pozwoliło mu wykazać się doskonałymi zdolnościami wnioskowania. W wielu testach referencyjnych osiągnął znakomite wyniki, w tym 92,8% dokładności na MATH-500, 55,5% sukcesów na AIME 2024 oraz 1189 punktów na CodeForces, co potwierdza jego silne umiejętności matematyczne i programistyczne jako modelu o rozmiarze 7B."
|
238
220
|
},
|
239
|
-
"Pro/
|
240
|
-
"description": "
|
221
|
+
"Pro/deepseek-ai/DeepSeek-V3": {
|
222
|
+
"description": "DeepSeek-V3 to model językowy z 6710 miliardami parametrów, oparty na architekturze mieszanych ekspertów (MoE), wykorzystujący wielogłowicową potencjalną uwagę (MLA) oraz strategię równoważenia obciążenia bez dodatkowych strat, co optymalizuje wydajność wnioskowania i treningu. Dzięki wstępnemu treningowi na 14,8 bilionach wysokiej jakości tokenów oraz nadzorowanemu dostrajaniu i uczeniu ze wzmocnieniem, DeepSeek-V3 przewyższa inne modele open source, zbliżając się do wiodących modeli zamkniętych."
|
241
223
|
},
|
242
224
|
"QwQ-32B-Preview": {
|
243
225
|
"description": "QwQ-32B-Preview to innowacyjny model przetwarzania języka naturalnego, który efektywnie radzi sobie z złożonymi zadaniami generowania dialogów i rozumienia kontekstu."
|
@@ -290,6 +272,12 @@
|
|
290
272
|
"Qwen/Qwen2.5-Coder-7B-Instruct": {
|
291
273
|
"description": "Qwen2.5-Coder-7B-Instruct to najnowsza wersja serii dużych modeli językowych specyficznych dla kodu wydana przez Alibaba Cloud. Model ten, oparty na Qwen2.5, został przeszkolony na 55 bilionach tokenów, znacznie poprawiając zdolności generowania kodu, wnioskowania i naprawy. Wzmacnia on nie tylko zdolności kodowania, ale także utrzymuje przewagę w zakresie matematyki i ogólnych umiejętności. Model ten stanowi bardziej kompleksową podstawę dla rzeczywistych zastosowań, takich jak inteligentne agenty kodowe."
|
292
274
|
},
|
275
|
+
"Qwen/Qwen2.5-VL-32B-Instruct": {
|
276
|
+
"description": "Qwen2.5-VL-32B-Instruct to wielomodalny model stworzony przez zespół Qwen2.5-VL, który jest częścią serii Qwen2.5-VL. Ten model nie tylko doskonale rozpoznaje obiekty, ale także analizuje tekst, wykresy, ikony, rysunki i układ w obrazach. Może działać jako inteligentny agent wizualny, który potrafi rozumować i dynamicznie sterować narzędziami, posiadając umiejętności korzystania z komputerów i telefonów. Ponadto, ten model może precyzyjnie lokalizować obiekty w obrazach i generować strukturalne wyjścia dla faktur, tabel i innych dokumentów. W porównaniu do poprzedniego modelu Qwen2-VL, ta wersja została dalej rozwinięta w zakresie umiejętności matematycznych i rozwiązywania problemów poprzez uczenie wzmacnianie, a styl odpowiedzi jest bardziej zgodny z preferencjami ludzkimi."
|
277
|
+
},
|
278
|
+
"Qwen/Qwen2.5-VL-72B-Instruct": {
|
279
|
+
"description": "Qwen2.5-VL to model językowo-wizualny z serii Qwen2.5. Ten model przynosi znaczące poprawy w wielu aspektach: posiada lepsze zdolności zrozumienia wizualnego, umożliwiając rozpoznawanie powszechnych obiektów, analizowanie tekstu, wykresów i układu; jako wizualny agent może wnioskować i dynamicznie kierować użyciem narzędzi; obsługuje zrozumienie filmów o długości przekraczającej 1 godzinę i łapanie kluczowych zdarzeń; może precyzyjnie lokalizować obiekty na obrazach poprzez generowanie ramki granicznej lub punktów; obsługuje generowanie danych strukturalnych, szczególnie przydatnych dla skanowanych danych, takich jak faktury i tabele."
|
280
|
+
},
|
293
281
|
"Qwen2-72B-Instruct": {
|
294
282
|
"description": "Qwen2 to najnowsza seria modeli Qwen, obsługująca kontekst 128k. W porównaniu do obecnie najlepszych modeli open source, Qwen2-72B znacznie przewyższa w zakresie rozumienia języka naturalnego, wiedzy, kodowania, matematyki i wielu języków."
|
295
283
|
},
|
@@ -374,9 +362,6 @@
|
|
374
362
|
"TeleAI/TeleChat2": {
|
375
363
|
"description": "Model TeleChat2 to generatywny model semantyczny opracowany przez China Telecom, który wspiera funkcje takie jak pytania i odpowiedzi encyklopedyczne, generowanie kodu oraz generowanie długich tekstów, oferując użytkownikom usługi konsultacyjne. Model ten potrafi prowadzić interakcje z użytkownikami, odpowiadać na pytania, wspierać twórczość oraz efektywnie pomagać w pozyskiwaniu informacji, wiedzy i inspiracji. Model wykazuje dobre wyniki w zakresie problemów z halucynacjami, generowaniem długich tekstów oraz rozumieniem logicznym."
|
376
364
|
},
|
377
|
-
"TeleAI/TeleMM": {
|
378
|
-
"description": "Model TeleMM to model wielomodalny opracowany przez China Telecom, który potrafi przetwarzać różne rodzaje wejść, takie jak tekst i obrazy, wspierając funkcje rozumienia obrazów oraz analizy wykresów, oferując użytkownikom usługi rozumienia międzymodalnego. Model ten potrafi prowadzić interakcje wielomodalne z użytkownikami, dokładnie rozumiejąc wprowadzone treści, odpowiadając na pytania, wspierając twórczość oraz efektywnie dostarczając informacji i inspiracji w różnych modalnościach. Wykazuje doskonałe wyniki w zadaniach wielomodalnych, takich jak precyzyjne postrzeganie i rozumowanie logiczne."
|
379
|
-
},
|
380
365
|
"Vendor-A/Qwen/Qwen2.5-72B-Instruct": {
|
381
366
|
"description": "Qwen2.5-72B-Instruct to jeden z najnowszych modeli dużych języków wydanych przez Alibaba Cloud. Model 72B ma znacząco poprawione zdolności w zakresie kodowania i matematyki. Oferuje również wsparcie dla wielu języków, obejmując ponad 29 języków, w tym chiński i angielski. Model ten wykazuje znaczną poprawę w zakresie przestrzegania instrukcji, rozumienia danych strukturalnych oraz generowania strukturalnych wyników (szczególnie JSON)."
|
382
367
|
},
|
@@ -662,9 +647,6 @@
|
|
662
647
|
"deepseek-ai/DeepSeek-R1-Distill-Llama-70B": {
|
663
648
|
"description": "Model destylacyjny DeepSeek-R1, optymalizujący wydajność wnioskowania dzięki uczeniu przez wzmocnienie i danym z zimnego startu, otwarty model ustanawiający nowe standardy w wielu zadaniach."
|
664
649
|
},
|
665
|
-
"deepseek-ai/DeepSeek-R1-Distill-Llama-8B": {
|
666
|
-
"description": "DeepSeek-R1-Distill-Llama-8B to model destylacyjny oparty na Llama-3.1-8B. Model ten został dostosowany przy użyciu próbek wygenerowanych przez DeepSeek-R1, wykazując doskonałe zdolności wnioskowania. Osiągnął dobre wyniki w wielu testach referencyjnych, w tym 89,1% dokładności w MATH-500, 50,4% wskaźnika zdawalności w AIME 2024 oraz 1205 punktów w CodeForces, demonstrując silne zdolności matematyczne i programistyczne jako model o skali 8B."
|
667
|
-
},
|
668
650
|
"deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B": {
|
669
651
|
"description": "Model destylacyjny DeepSeek-R1, optymalizujący wydajność wnioskowania dzięki uczeniu przez wzmocnienie i danym z zimnego startu, otwarty model ustanawiający nowe standardy w wielu zadaniach."
|
670
652
|
},
|
@@ -713,6 +695,9 @@
|
|
713
695
|
"deepseek-r1-70b-online": {
|
714
696
|
"description": "DeepSeek R1 70B standardowa wersja, wspierająca wyszukiwanie w czasie rzeczywistym, odpowiednia do zadań konwersacyjnych i przetwarzania tekstu wymagających najnowszych informacji."
|
715
697
|
},
|
698
|
+
"deepseek-r1-distill-llama": {
|
699
|
+
"description": "deepseek-r1-distill-llama to model stworzony na podstawie Llamy, uzyskany przez destylację z DeepSeek-R1."
|
700
|
+
},
|
716
701
|
"deepseek-r1-distill-llama-70b": {
|
717
702
|
"description": "DeepSeek R1 — większy i inteligentniejszy model w zestawie DeepSeek — został destylowany do architektury Llama 70B. Na podstawie testów referencyjnych i ocen ręcznych, model ten jest bardziej inteligentny niż oryginalna Llama 70B, szczególnie w zadaniach wymagających precyzji matematycznej i faktograficznej."
|
718
703
|
},
|
@@ -725,6 +710,9 @@
|
|
725
710
|
"deepseek-r1-distill-qianfan-llama-8b": {
|
726
711
|
"description": "Pierwsze wydanie 14 lutego 2025 roku, wyodrębnione przez zespół badawczy Qianfan z modelu bazowego Llama3_8B (zbudowanego z Meta Llama), w którym dodano również korpus Qianfan."
|
727
712
|
},
|
713
|
+
"deepseek-r1-distill-qwen": {
|
714
|
+
"description": "deepseek-r1-distill-qwen to model stworzony na podstawie Qwen poprzez destylację z DeepSeek-R1."
|
715
|
+
},
|
728
716
|
"deepseek-r1-distill-qwen-1.5b": {
|
729
717
|
"description": "Modele z serii DeepSeek-R1-Distill są dostosowywane do modeli open source, takich jak Qwen i Llama, poprzez technologię destylacji wiedzy, na podstawie próbek generowanych przez DeepSeek-R1."
|
730
718
|
},
|
@@ -872,6 +860,9 @@
|
|
872
860
|
"gemini-1.5-flash-8b-exp-0924": {
|
873
861
|
"description": "Gemini 1.5 Flash 8B 0924 to najnowszy eksperymentalny model, który wykazuje znaczące poprawy wydajności w zastosowaniach tekstowych i multimodalnych."
|
874
862
|
},
|
863
|
+
"gemini-1.5-flash-8b-latest": {
|
864
|
+
"description": "Gemini 1.5 Flash 8B to wydajny model wielomodalny, który obsługuje szeroki zakres zastosowań."
|
865
|
+
},
|
875
866
|
"gemini-1.5-flash-exp-0827": {
|
876
867
|
"description": "Gemini 1.5 Flash 0827 oferuje zoptymalizowane możliwości przetwarzania multimodalnego, odpowiednie dla wielu złożonych scenariuszy."
|
877
868
|
},
|
@@ -914,9 +905,6 @@
|
|
914
905
|
"gemini-2.0-flash-lite-preview-02-05": {
|
915
906
|
"description": "Model Gemini 2.0 Flash, zoptymalizowany pod kątem efektywności kosztowej i niskiej latencji."
|
916
907
|
},
|
917
|
-
"gemini-2.0-flash-thinking-exp": {
|
918
|
-
"description": "Gemini 2.0 Flash Exp to najnowszy eksperymentalny model AI multimodalnego Google, posiadający cechy nowej generacji, doskonałą prędkość, natywne wywołania narzędzi oraz generację multimodalną."
|
919
|
-
},
|
920
908
|
"gemini-2.0-flash-thinking-exp-01-21": {
|
921
909
|
"description": "Gemini 2.0 Flash Exp to najnowszy eksperymentalny model AI multimodalnego Google, posiadający cechy nowej generacji, doskonałą prędkość, natywne wywołania narzędzi oraz generację multimodalną."
|
922
910
|
},
|
@@ -1223,6 +1211,9 @@
|
|
1223
1211
|
"llama-3.1-8b-instant": {
|
1224
1212
|
"description": "Llama 3.1 8B to model o wysokiej wydajności, oferujący szybkie możliwości generowania tekstu, idealny do zastosowań wymagających dużej efektywności i opłacalności."
|
1225
1213
|
},
|
1214
|
+
"llama-3.1-instruct": {
|
1215
|
+
"description": "Model Llama 3.1 zoptymalizowany do rozmów przewyższa wiele istniejących open-source modeli czatowych w standardowych testach branżowych."
|
1216
|
+
},
|
1226
1217
|
"llama-3.2-11b-vision-instruct": {
|
1227
1218
|
"description": "Wyjątkowe zdolności wnioskowania wizualnego na obrazach o wysokiej rozdzielczości, idealne do zastosowań związanych ze zrozumieniem wizualnym."
|
1228
1219
|
},
|
@@ -1235,12 +1226,18 @@
|
|
1235
1226
|
"llama-3.2-90b-vision-preview": {
|
1236
1227
|
"description": "Llama 3.2 jest zaprojektowana do obsługi zadań łączących dane wizualne i tekstowe. Wykazuje doskonałe wyniki w zadaniach takich jak opisywanie obrazów i wizualne pytania i odpowiedzi, przekraczając przepaść między generowaniem języka a wnioskowaniem wizualnym."
|
1237
1228
|
},
|
1229
|
+
"llama-3.2-vision-instruct": {
|
1230
|
+
"description": "Model Llama 3.2-Vision zoptymalizowany jest do rozpoznawania wizualnego, wnioskowania na podstawie obrazów, opisywania obrazów oraz odpowiadania na typowe pytania związane z obrazami."
|
1231
|
+
},
|
1238
1232
|
"llama-3.3-70b-instruct": {
|
1239
1233
|
"description": "Llama 3.3 to najnowocześniejszy wielojęzyczny, otwarty model językowy z serii Llama, który oferuje wydajność porównywalną z modelem 405B przy bardzo niskich kosztach. Opiera się na strukturze Transformer i poprawia użyteczność oraz bezpieczeństwo dzięki nadzorowanemu dostrajaniu (SFT) i uczeniu ze wzmocnieniem na podstawie ludzkich opinii (RLHF). Jego wersja dostosowana do instrukcji jest zoptymalizowana do wielojęzycznych rozmów i w wielu branżowych benchmarkach przewyższa wiele otwartych i zamkniętych modeli czatu. Data graniczna wiedzy to grudzień 2023."
|
1240
1234
|
},
|
1241
1235
|
"llama-3.3-70b-versatile": {
|
1242
1236
|
"description": "Meta Llama 3.3 to wielojęzyczny model językowy (LLM) 70B, pretrenowany i dostosowany do poleceń. Model Llama 3.3, dostosowany do poleceń, jest zoptymalizowany do zastosowań w dialogach wielojęzycznych i przewyższa wiele dostępnych modeli czatu, zarówno open source, jak i zamkniętych, w popularnych branżowych benchmarkach."
|
1243
1237
|
},
|
1238
|
+
"llama-3.3-instruct": {
|
1239
|
+
"description": "Model Llama 3.3 zoptymalizowany do rozmów, który w standardowych testach branżowych przewyższa wiele istniejących modeli czatowych o otwartym kodzie."
|
1240
|
+
},
|
1244
1241
|
"llama3-70b-8192": {
|
1245
1242
|
"description": "Meta Llama 3 70B oferuje niezrównane możliwości przetwarzania złożoności, dostosowane do projektów o wysokich wymaganiach."
|
1246
1243
|
},
|
@@ -1319,9 +1316,6 @@
|
|
1319
1316
|
"meta-llama/Llama-3.2-90B-Vision-Instruct-Turbo": {
|
1320
1317
|
"description": "LLaMA 3.2 zaprojektowana do przetwarzania zadań łączących dane wizualne i tekstowe. Doskonała w zadaniach takich jak opisywanie obrazów i wizualne pytania odpowiedzi, przekracza granice między generowaniem języka a wnioskowaniem wizualnym."
|
1321
1318
|
},
|
1322
|
-
"meta-llama/Llama-3.3-70B-Instruct": {
|
1323
|
-
"description": "Llama 3.3 to najnowocześniejszy wielojęzyczny model językowy open-source z serii Llama, oferujący wydajność porównywalną z modelem 405B przy bardzo niskich kosztach. Oparty na strukturze Transformer, poprawiony dzięki nadzorowanemu dostrajaniu (SFT) oraz uczeniu się z ludzkiego feedbacku (RLHF), co zwiększa użyteczność i bezpieczeństwo. Jego wersja dostosowana do instrukcji jest zoptymalizowana do wielojęzycznych rozmów, osiągając lepsze wyniki w wielu branżowych benchmarkach niż wiele modeli czatu open-source i zamkniętych. Data graniczna wiedzy to grudzień 2023 roku."
|
1324
|
-
},
|
1325
1319
|
"meta-llama/Llama-3.3-70B-Instruct-Turbo": {
|
1326
1320
|
"description": "Meta Llama 3.3 to wielojęzyczny model językowy (LLM) o skali 70B (wejście/wyjście tekstowe), będący modelem generacyjnym wstępnie wytrenowanym i dostosowanym do instrukcji. Model Llama 3.3 dostosowany do instrukcji jest zoptymalizowany pod kątem zastosowań w dialogach wielojęzycznych i przewyższa wiele dostępnych modeli open-source i zamkniętych w popularnych testach branżowych."
|
1327
1321
|
},
|
@@ -1349,15 +1343,9 @@
|
|
1349
1343
|
"meta-llama/Meta-Llama-3.1-70B": {
|
1350
1344
|
"description": "Llama 3.1 to wiodący model wydany przez Meta, wspierający do 405B parametrów, mogący być stosowany w złożonych rozmowach, tłumaczeniach wielojęzycznych i analizie danych."
|
1351
1345
|
},
|
1352
|
-
"meta-llama/Meta-Llama-3.1-70B-Instruct": {
|
1353
|
-
"description": "LLaMA 3.1 70B oferuje efektywne wsparcie dialogowe w wielu językach."
|
1354
|
-
},
|
1355
1346
|
"meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo": {
|
1356
1347
|
"description": "Model Llama 3.1 70B został starannie dostosowany do aplikacji o dużym obciążeniu, kwantyzowany do FP8, co zapewnia wyższą wydajność obliczeniową i dokładność, gwarantując doskonałe osiągi w złożonych scenariuszach."
|
1357
1348
|
},
|
1358
|
-
"meta-llama/Meta-Llama-3.1-8B-Instruct": {
|
1359
|
-
"description": "LLaMA 3.1 oferuje wsparcie dla wielu języków i jest jednym z wiodących modeli generacyjnych w branży."
|
1360
|
-
},
|
1361
1349
|
"meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo": {
|
1362
1350
|
"description": "Model Llama 3.1 8B wykorzystuje kwantyzację FP8, obsługując do 131,072 kontekstowych tokenów, wyróżniając się wśród modeli open source, idealny do złożonych zadań, przewyższający wiele branżowych standardów."
|
1363
1351
|
},
|
@@ -1451,12 +1439,18 @@
|
|
1451
1439
|
"mistral-large": {
|
1452
1440
|
"description": "Mixtral Large to flagowy model Mistral, łączący zdolności generowania kodu, matematyki i wnioskowania, wspierający kontekst o długości 128k."
|
1453
1441
|
},
|
1442
|
+
"mistral-large-instruct": {
|
1443
|
+
"description": "Mistral-Large-Instruct-2407 to zaawansowany gęsty model językowy o dużym rozmiarze (LLM) z 123 miliardami parametrów, posiadający najnowocześniejsze zdolności wnioskowania, wiedzy i kodowania."
|
1444
|
+
},
|
1454
1445
|
"mistral-large-latest": {
|
1455
1446
|
"description": "Mistral Large to flagowy model, doskonały w zadaniach wielojęzycznych, złożonym wnioskowaniu i generowaniu kodu, idealny do zaawansowanych zastosowań."
|
1456
1447
|
},
|
1457
1448
|
"mistral-nemo": {
|
1458
1449
|
"description": "Mistral Nemo, opracowany przez Mistral AI i NVIDIA, to model 12B o wysokiej wydajności."
|
1459
1450
|
},
|
1451
|
+
"mistral-nemo-instruct": {
|
1452
|
+
"description": "Duży model językowy (LLM) Mistral-Nemo-Instruct-2407 to wersja dostosowana do poleceń modelu Mistral-Nemo-Base-2407."
|
1453
|
+
},
|
1460
1454
|
"mistral-small": {
|
1461
1455
|
"description": "Mistral Small może być używany w każdym zadaniu opartym na języku, które wymaga wysokiej wydajności i niskiej latencji."
|
1462
1456
|
},
|
@@ -1670,15 +1664,6 @@
|
|
1670
1664
|
"qwen/qwen2.5-coder-7b-instruct": {
|
1671
1665
|
"description": "Potężny średniej wielkości model kodu, wspierający długość kontekstu 32K, specjalizujący się w programowaniu wielojęzycznym."
|
1672
1666
|
},
|
1673
|
-
"qwen1.5-14b-chat": {
|
1674
|
-
"description": "Seria Qwen1.5 to wersja Beta Qwen2, która jest modelem językowym opartym na Transformer, działającym tylko w trybie dekodowania i wytrenowanym na ogromnej ilości danych. W porównaniu z wcześniejszymi wersjami serii Qwen, modele base i chat serii Qwen1.5 obsługują wiele języków i zyskały na zdolnościach podstawowych oraz rozmowowych. Qwen1.5-14b-chat to specjalnie zaprojektowany model do zastosowań rozmowowych, posiadający 14 miliardów parametrów, co jest rozmiarem powszechnie stosowanym w branży."
|
1675
|
-
},
|
1676
|
-
"qwen1.5-32b-chat": {
|
1677
|
-
"description": "Seria Qwen1.5 to wersja Beta Qwen2, oparta na modelu językowym Transformer, który jest modelu dekodującego, przeszkolonego na ogromnej ilości danych. W porównaniu do wcześniejszych wersji serii Qwen, modele base i chat serii Qwen1.5 obsługują wiele języków i oferują poprawioną jakość rozmów i podstawowe umiejętności. Qwen1.5-32b-chat to specjalnie zaprojektowany model do zastosowań czatowych, posiadający 32 miliardy parametrów. W porównaniu do modelu 14b, jest lepszy w scenariuszach agentów inteligentnych, a w porównaniu do modelu 72b, ma niższe koszty wnioskowania."
|
1678
|
-
},
|
1679
|
-
"qwen1.5-72b-chat": {
|
1680
|
-
"description": "Seria Qwen1.5 to wersja Beta Qwen2, która jest modelem językowym opartym na Transformer, działającym tylko w trybie dekodowania, wytrenowanym na ogromnej ilości danych. W porównaniu z wcześniejszymi wersjami serii Qwen, modele base i chat serii Qwen1.5 obsługują wiele języków i zyskały na zdolnościach podstawowych oraz rozmowowych. Qwen1.5-72b-chat to specjalnie zaprojektowany model do zastosowań rozmowowych, posiadający 72 miliardy parametrów."
|
1681
|
-
},
|
1682
1667
|
"qwen2": {
|
1683
1668
|
"description": "Qwen2 to nowa generacja dużego modelu językowego Alibaba, wspierająca różnorodne potrzeby aplikacyjne dzięki doskonałej wydajności."
|
1684
1669
|
},
|
@@ -1715,6 +1700,12 @@
|
|
1715
1700
|
"qwen2.5-coder-7b-instruct": {
|
1716
1701
|
"description": "Otwarta wersja modelu kodowania Qwen."
|
1717
1702
|
},
|
1703
|
+
"qwen2.5-coder-instruct": {
|
1704
|
+
"description": "Qwen2.5-Coder to najnowszy model językowy o dużym rozmiarze z serii Qwen, specjalnie przeznaczony do obsługi kodu (wcześniej znany jako CodeQwen)."
|
1705
|
+
},
|
1706
|
+
"qwen2.5-instruct": {
|
1707
|
+
"description": "Qwen2.5 to najnowsza seria modeli językowych Qwen. W przypadku Qwen2.5 wydaliśmy wiele podstawowych modeli językowych oraz modeli językowych dostosowanych do instrukcji, z zakresem parametrów od 500 milionów do 7,2 miliarda."
|
1708
|
+
},
|
1718
1709
|
"qwen2.5-math-1.5b-instruct": {
|
1719
1710
|
"description": "Model Qwen-Math ma silne umiejętności rozwiązywania problemów matematycznych."
|
1720
1711
|
},
|
@@ -1724,12 +1715,18 @@
|
|
1724
1715
|
"qwen2.5-math-7b-instruct": {
|
1725
1716
|
"description": "Model Qwen-Math, który ma silne zdolności rozwiązywania problemów matematycznych."
|
1726
1717
|
},
|
1718
|
+
"qwen2.5-vl-32b-instruct": {
|
1719
|
+
"description": "Seria modeli Qwen2.5-VL poprawia poziom inteligencji, praktyczności i zastosowania modelu, co pozwala mu lepiej radzić sobie w naturalnej konwersacji, tworzeniu treści, usługach wiedzy specjalistycznej i programowaniu. Wersja 32B została zoptymalizowana za pomocą technologii uczenia wzmacniającego, co w porównaniu z innymi modelami serii Qwen2.5 VL, zapewnia bardziej zgodny z preferencjami ludzi styl wyjściowy, zdolność wnioskowania w złożonych problemach matematycznych oraz zdolność szczegółowej interpretacji i wnioskowania na podstawie obrazów."
|
1720
|
+
},
|
1727
1721
|
"qwen2.5-vl-72b-instruct": {
|
1728
1722
|
"description": "Zwiększona zdolność do podążania za instrukcjami, matematyki, rozwiązywania problemów i kodowania, poprawiona zdolność do rozpoznawania obiektów, wsparcie dla różnych formatów do precyzyjnego lokalizowania elementów wizualnych, zdolność do rozumienia długich plików wideo (do 10 minut) oraz lokalizowania momentów zdarzeń w czasie rzeczywistym, zdolność do rozumienia kolejności czasowej i szybkości, wsparcie dla operacji na systemach OS lub Mobile, silna zdolność do ekstrakcji kluczowych informacji i generowania wyjścia w formacie JSON. Ta wersja to wersja 72B, najsilniejsza w tej serii."
|
1729
1723
|
},
|
1730
1724
|
"qwen2.5-vl-7b-instruct": {
|
1731
1725
|
"description": "Zwiększona zdolność do podążania za instrukcjami, matematyki, rozwiązywania problemów i kodowania, poprawiona zdolność do rozpoznawania obiektów, wsparcie dla różnych formatów do precyzyjnego lokalizowania elementów wizualnych, zdolność do rozumienia długich plików wideo (do 10 minut) oraz lokalizowania momentów zdarzeń w czasie rzeczywistym, zdolność do rozumienia kolejności czasowej i szybkości, wsparcie dla operacji na systemach OS lub Mobile, silna zdolność do ekstrakcji kluczowych informacji i generowania wyjścia w formacie JSON. Ta wersja to wersja 72B, najsilniejsza w tej serii."
|
1732
1726
|
},
|
1727
|
+
"qwen2.5-vl-instruct": {
|
1728
|
+
"description": "Qwen2.5-VL to najnowsza wersja modelu wizualno-lingwistycznego rodziny Qwen."
|
1729
|
+
},
|
1733
1730
|
"qwen2.5:0.5b": {
|
1734
1731
|
"description": "Qwen2.5 to nowa generacja dużego modelu językowego Alibaba, który wspiera różnorodne potrzeby aplikacyjne dzięki doskonałej wydajności."
|
1735
1732
|
},
|