@lobehub/chat 1.35.0 → 1.35.1
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/CHANGELOG.md +25 -0
- package/changelog/v1.json +9 -0
- package/docs/changelog/2024-07-19-gpt-4o-mini.mdx +32 -0
- package/docs/changelog/2024-07-19-gpt-4o-mini.zh-CN.mdx +5 -4
- package/docs/changelog/2024-08-02-lobe-chat-database-docker.mdx +36 -0
- package/docs/changelog/2024-08-02-lobe-chat-database-docker.zh-CN.mdx +0 -1
- package/docs/changelog/2024-08-21-file-upload-and-knowledge-base.mdx +30 -0
- package/docs/changelog/2024-08-21-file-upload-and-knowledge-base.zh-CN.mdx +0 -1
- package/docs/changelog/2024-09-13-openai-o1-models.mdx +31 -0
- package/docs/changelog/2024-09-20-artifacts.mdx +55 -0
- package/docs/changelog/2024-09-20-artifacts.zh-CN.mdx +3 -2
- package/docs/changelog/2024-10-27-pin-assistant.mdx +33 -0
- package/docs/changelog/2024-10-27-pin-assistant.zh-CN.mdx +0 -1
- package/docs/changelog/2024-11-06-share-text-json.mdx +24 -0
- package/docs/changelog/2024-11-06-share-text-json.zh-CN.mdx +3 -1
- package/docs/changelog/2024-11-25-november-providers.mdx +5 -5
- package/docs/changelog/2024-11-25-november-providers.zh-CN.mdx +5 -5
- package/docs/changelog/2024-11-27-forkable-chat.mdx +26 -0
- package/docs/changelog/2024-11-27-forkable-chat.zh-CN.mdx +16 -9
- package/docs/changelog/index.json +1 -1
- package/docs/self-hosting/environment-variables/analytics.mdx +1 -1
- package/locales/ar/models.json +94 -7
- package/locales/bg-BG/models.json +94 -7
- package/locales/de-DE/models.json +94 -7
- package/locales/en-US/models.json +94 -7
- package/locales/es-ES/models.json +94 -7
- package/locales/fa-IR/models.json +94 -7
- package/locales/fr-FR/models.json +94 -7
- package/locales/it-IT/models.json +94 -7
- package/locales/ja-JP/models.json +94 -7
- package/locales/ko-KR/models.json +94 -7
- package/locales/nl-NL/models.json +94 -7
- package/locales/pl-PL/models.json +94 -7
- package/locales/pt-BR/models.json +94 -7
- package/locales/ru-RU/models.json +94 -7
- package/locales/tr-TR/models.json +94 -7
- package/locales/vi-VN/models.json +94 -7
- package/locales/zh-CN/models.json +121 -34
- package/locales/zh-TW/models.json +94 -7
- package/package.json +1 -1
- package/src/config/modelProviders/ollama.ts +84 -35
@@ -2,6 +2,9 @@
|
|
2
2
|
"01-ai/Yi-1.5-34B-Chat-16K": {
|
3
3
|
"description": "Yi-1.5 34B, zengin eğitim örnekleri ile endüstri uygulamalarında üstün performans sunar."
|
4
4
|
},
|
5
|
+
"01-ai/Yi-1.5-6B-Chat": {
|
6
|
+
"description": "Yi-1.5-6B-Chat, Yi-1.5 serisinin bir varyantıdır ve açık kaynaklı bir sohbet modelidir. Yi-1.5, 500B yüksek kaliteli veri üzerinde sürekli olarak önceden eğitilmiş ve 3M çeşitlendirilmiş ince ayar örnekleri ile ince ayar yapılmıştır. Yi'ye kıyasla, Yi-1.5, kodlama, matematik, akıl yürütme ve talimat takibi yeteneklerinde daha güçlü performans sergilemekte, aynı zamanda mükemmel dil anlama, genel bilgi akıl yürütme ve okuma anlama yeteneklerini korumaktadır. Bu model, 4K, 16K ve 32K bağlam uzunluğu versiyonlarına sahiptir ve toplam önceden eğitim miktarı 3.6T token'a ulaşmaktadır."
|
7
|
+
},
|
5
8
|
"01-ai/Yi-1.5-9B-Chat-16K": {
|
6
9
|
"description": "Yi-1.5 9B, 16K Token desteği sunar, etkili ve akıcı dil oluşturma yeteneği sağlar."
|
7
10
|
},
|
@@ -91,6 +94,12 @@
|
|
91
94
|
"Gryphe/MythoMax-L2-13b": {
|
92
95
|
"description": "MythoMax-L2 (13B), çok alanlı uygulamalar ve karmaşık görevler için uygun yenilikçi bir modeldir."
|
93
96
|
},
|
97
|
+
"LoRA/Qwen/Qwen2.5-72B-Instruct": {
|
98
|
+
"description": "Qwen2.5-72B-Instruct, Alibaba Cloud tarafından yayınlanan en son büyük dil modeli serilerinden biridir. Bu 72B modeli, kodlama ve matematik gibi alanlarda önemli ölçüde geliştirilmiş yeteneklere sahiptir. Model ayrıca, Çince, İngilizce gibi 29'dan fazla dili kapsayan çok dilli destek sunmaktadır. Model, talimat takibi, yapılandırılmış verileri anlama ve yapılandırılmış çıktı (özellikle JSON) üretme konularında önemli iyileştirmeler göstermektedir."
|
99
|
+
},
|
100
|
+
"LoRA/Qwen/Qwen2.5-7B-Instruct": {
|
101
|
+
"description": "Qwen2.5-7B-Instruct, Alibaba Cloud tarafından yayınlanan en son büyük dil modeli serilerinden biridir. Bu 7B modeli, kodlama ve matematik gibi alanlarda önemli ölçüde geliştirilmiş yeteneklere sahiptir. Model ayrıca, Çince, İngilizce gibi 29'dan fazla dili kapsayan çok dilli destek sunmaktadır. Model, talimat takibi, yapılandırılmış verileri anlama ve yapılandırılmış çıktı (özellikle JSON) üretme konularında önemli iyileştirmeler göstermektedir."
|
102
|
+
},
|
94
103
|
"Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
95
104
|
"description": "Hermes 2 Mixtral 8x7B DPO, olağanüstü yaratıcı deneyimler sunmak için tasarlanmış son derece esnek bir çoklu model birleşimidir."
|
96
105
|
},
|
@@ -98,9 +107,6 @@
|
|
98
107
|
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
99
108
|
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B), karmaşık hesaplamalar için yüksek hassasiyetli bir talimat modelidir."
|
100
109
|
},
|
101
|
-
"NousResearch/Nous-Hermes-2-Yi-34B": {
|
102
|
-
"description": "Nous Hermes-2 Yi (34B), optimize edilmiş dil çıktısı ve çeşitli uygulama olasılıkları sunar."
|
103
|
-
},
|
104
110
|
"OpenGVLab/InternVL2-26B": {
|
105
111
|
"description": "InternVL2, belgelere ve grafiklere anlama, sahne metni anlama, OCR, bilimsel ve matematik soruları çözme gibi çeşitli görsel dil görevlerinde mükemmel performans sergilemiştir."
|
106
112
|
},
|
@@ -134,18 +140,42 @@
|
|
134
140
|
"Pro/OpenGVLab/InternVL2-8B": {
|
135
141
|
"description": "InternVL2, belgelere ve grafiklere anlama, sahne metni anlama, OCR, bilimsel ve matematik soruları çözme gibi çeşitli görsel dil görevlerinde mükemmel performans sergilemiştir."
|
136
142
|
},
|
143
|
+
"Pro/Qwen/Qwen2-1.5B-Instruct": {
|
144
|
+
"description": "Qwen2-1.5B-Instruct, Qwen2 serisindeki talimat ince ayar büyük dil modelidir ve parametre ölçeği 1.5B'dir. Bu model, Transformer mimarisi temelinde, SwiGLU aktivasyon fonksiyonu, dikkat QKV önyargısı ve grup sorgu dikkati gibi teknikler kullanmaktadır. Dil anlama, üretim, çok dilli yetenek, kodlama, matematik ve akıl yürütme gibi birçok standart testte mükemmel performans sergilemekte ve çoğu açık kaynak modelini geride bırakmaktadır. Qwen1.5-1.8B-Chat ile karşılaştırıldığında, Qwen2-1.5B-Instruct, MMLU, HumanEval, GSM8K, C-Eval ve IFEval gibi testlerde belirgin bir performans artışı göstermektedir, parametre sayısı biraz daha az olmasına rağmen."
|
145
|
+
},
|
146
|
+
"Pro/Qwen/Qwen2-7B-Instruct": {
|
147
|
+
"description": "Qwen2-7B-Instruct, Qwen2 serisindeki talimat ince ayar büyük dil modelidir ve parametre ölçeği 7B'dir. Bu model, Transformer mimarisi temelinde, SwiGLU aktivasyon fonksiyonu, dikkat QKV önyargısı ve grup sorgu dikkati gibi teknikler kullanmaktadır. Büyük ölçekli girişleri işleyebilme yeteneğine sahiptir. Bu model, dil anlama, üretim, çok dilli yetenek, kodlama, matematik ve akıl yürütme gibi birçok standart testte mükemmel performans sergilemekte ve çoğu açık kaynak modelini geride bırakmakta, bazı görevlerde özel modellere karşı rekabet edebilir. Qwen2-7B-Instruct, birçok değerlendirmede Qwen1.5-7B-Chat'ten daha iyi performans göstermekte ve belirgin bir performans artışı sergilemektedir."
|
148
|
+
},
|
137
149
|
"Pro/Qwen/Qwen2-VL-7B-Instruct": {
|
138
150
|
"description": "Qwen2-VL, Qwen-VL modelinin en son yineleme versiyonudur ve görsel anlama kıyaslama testlerinde en gelişmiş performansı sergilemiştir."
|
139
151
|
},
|
140
|
-
"Qwen/
|
141
|
-
"description": "Qwen2'
|
152
|
+
"Pro/Qwen/Qwen2.5-7B-Instruct": {
|
153
|
+
"description": "Qwen2.5-7B-Instruct, Alibaba Cloud tarafından yayınlanan en son büyük dil modeli serilerinden biridir. Bu 7B modeli, kodlama ve matematik gibi alanlarda önemli ölçüde geliştirilmiş yeteneklere sahiptir. Model ayrıca, Çince, İngilizce gibi 29'dan fazla dili kapsayan çok dilli destek sunmaktadır. Model, talimat takibi, yapılandırılmış verileri anlama ve yapılandırılmış çıktı (özellikle JSON) üretme konularında önemli iyileştirmeler göstermektedir."
|
154
|
+
},
|
155
|
+
"Pro/Qwen/Qwen2.5-Coder-7B-Instruct": {
|
156
|
+
"description": "Qwen2.5-Coder-7B-Instruct, Alibaba Cloud tarafından yayınlanan kod odaklı büyük dil modeli serisinin en son versiyonudur. Bu model, Qwen2.5 temelinde, 5.5 trilyon token ile eğitilerek kod üretimi, akıl yürütme ve düzeltme yeteneklerini önemli ölçüde artırmıştır. Hem kodlama yeteneklerini geliştirmiş hem de matematik ve genel yetenek avantajlarını korumuştur. Model, kod akıllı ajanları gibi pratik uygulamalar için daha kapsamlı bir temel sunmaktadır."
|
157
|
+
},
|
158
|
+
"Pro/THUDM/glm-4-9b-chat": {
|
159
|
+
"description": "GLM-4-9B-Chat, Zhipu AI tarafından sunulan GLM-4 serisi önceden eğitilmiş modellerin açık kaynak versiyonudur. Bu model, anlam, matematik, akıl yürütme, kod ve bilgi gibi birçok alanda mükemmel performans sergilemektedir. Çoklu diyalogları desteklemenin yanı sıra, GLM-4-9B-Chat, web tarayıcı, kod yürütme, özelleştirilmiş araç çağrısı (Function Call) ve uzun metin akıl yürütme gibi gelişmiş özelliklere de sahiptir. Model, Çince, İngilizce, Japonca, Korece ve Almanca gibi 26 dili desteklemektedir. GLM-4-9B-Chat, AlignBench-v2, MT-Bench, MMLU ve C-Eval gibi birçok standart testte mükemmel performans sergilemiştir. Bu model, maksimum 128K bağlam uzunluğunu desteklemekte olup, akademik araştırmalar ve ticari uygulamalar için uygundur."
|
142
160
|
},
|
143
|
-
"
|
144
|
-
"description": "
|
161
|
+
"Pro/google/gemma-2-9b-it": {
|
162
|
+
"description": "Gemma, Google tarafından geliştirilen hafif, en son açık model serilerinden biridir. Bu, yalnızca kodlayıcıdan oluşan büyük bir dil modelidir ve İngilizceyi desteklemekte, açık ağırlıklar, önceden eğitilmiş varyantlar ve talimat ince ayar varyantları sunmaktadır. Gemma modeli, soru yanıtlama, özetleme ve akıl yürütme gibi çeşitli metin üretim görevleri için uygundur. Bu 9B modeli, 8 trilyon token ile eğitilmiştir. Göreceli olarak küçük boyutu, onu dizüstü bilgisayarlar, masaüstü bilgisayarlar veya kendi bulut altyapınız gibi kaynak sınırlı ortamlarda dağıtılabilir hale getirir ve daha fazla kişinin en son AI modellerine erişimini sağlar ve yeniliği teşvik eder."
|
163
|
+
},
|
164
|
+
"Pro/meta-llama/Meta-Llama-3.1-8B-Instruct": {
|
165
|
+
"description": "Meta Llama 3.1, Meta tarafından geliştirilen çok dilli büyük dil modeli ailesidir ve 8B, 70B ve 405B olmak üzere üç parametre ölçeği ile önceden eğitilmiş ve talimat ince ayar varyantları içermektedir. Bu 8B talimat ince ayar modeli, çok dilli diyalog senaryoları için optimize edilmiştir ve birçok endüstri standart testinde mükemmel performans sergilemektedir. Model, 15 trilyon token'dan fazla açık veriler kullanılarak eğitilmiş ve modelin faydasını ve güvenliğini artırmak için denetimli ince ayar ve insan geri bildirimi pekiştirmeli öğrenme gibi teknikler kullanılmıştır. Llama 3.1, metin üretimi ve kod üretimini desteklemekte olup, bilgi kesim tarihi 2023 Aralık'tır."
|
166
|
+
},
|
167
|
+
"Qwen/QwQ-32B-Preview": {
|
168
|
+
"description": "QwQ-32B-Preview, Qwen'in en son deneysel araştırma modelidir ve AI akıl yürütme yeteneklerini artırmaya odaklanmaktadır. Dil karışımı, özyinelemeli akıl yürütme gibi karmaşık mekanizmaları keşfederek, güçlü akıl yürütme analizi, matematik ve programlama yetenekleri gibi ana avantajlar sunmaktadır. Bununla birlikte, dil geçiş sorunları, akıl yürütme döngüleri, güvenlik endişeleri ve diğer yetenek farklılıkları gibi zorluklar da bulunmaktadır."
|
169
|
+
},
|
170
|
+
"Qwen/Qwen2-1.5B-Instruct": {
|
171
|
+
"description": "Qwen2-1.5B-Instruct, Qwen2 serisindeki talimat ince ayar büyük dil modelidir ve parametre ölçeği 1.5B'dir. Bu model, Transformer mimarisi temelinde, SwiGLU aktivasyon fonksiyonu, dikkat QKV önyargısı ve grup sorgu dikkati gibi teknikler kullanmaktadır. Dil anlama, üretim, çok dilli yetenek, kodlama, matematik ve akıl yürütme gibi birçok standart testte mükemmel performans sergilemekte ve çoğu açık kaynak modelini geride bırakmaktadır. Qwen1.5-1.8B-Chat ile karşılaştırıldığında, Qwen2-1.5B-Instruct, MMLU, HumanEval, GSM8K, C-Eval ve IFEval gibi testlerde belirgin bir performans artışı göstermektedir, parametre sayısı biraz daha az olmasına rağmen."
|
145
172
|
},
|
146
173
|
"Qwen/Qwen2-72B-Instruct": {
|
147
174
|
"description": "Qwen2, çok çeşitli talimat türlerini destekleyen gelişmiş bir genel dil modelidir."
|
148
175
|
},
|
176
|
+
"Qwen/Qwen2-7B-Instruct": {
|
177
|
+
"description": "Qwen2-72B-Instruct, Qwen2 serisindeki talimat ince ayar büyük dil modelidir ve parametre ölçeği 72B'dir. Bu model, Transformer mimarisi temelinde, SwiGLU aktivasyon fonksiyonu, dikkat QKV önyargısı ve grup sorgu dikkati gibi teknikler kullanmaktadır. Büyük ölçekli girişleri işleyebilme yeteneğine sahiptir. Bu model, dil anlama, üretim, çok dilli yetenek, kodlama, matematik ve akıl yürütme gibi birçok standart testte mükemmel performans sergilemekte ve çoğu açık kaynak modelini geride bırakmakta, bazı görevlerde özel modellere karşı rekabet edebilir."
|
178
|
+
},
|
149
179
|
"Qwen/Qwen2-VL-72B-Instruct": {
|
150
180
|
"description": "Qwen2-VL, Qwen-VL modelinin en son yineleme versiyonudur ve görsel anlama kıyaslama testlerinde en gelişmiş performansı sergilemiştir."
|
151
181
|
},
|
@@ -173,6 +203,9 @@
|
|
173
203
|
"Qwen/Qwen2.5-Coder-32B-Instruct": {
|
174
204
|
"description": "Qwen2.5-Coder, kod yazımına odaklanmaktadır."
|
175
205
|
},
|
206
|
+
"Qwen/Qwen2.5-Coder-7B-Instruct": {
|
207
|
+
"description": "Qwen2.5-Coder-7B-Instruct, Alibaba Cloud tarafından yayınlanan kod odaklı büyük dil modeli serisinin en son versiyonudur. Bu model, Qwen2.5 temelinde, 5.5 trilyon token ile eğitilerek kod üretimi, akıl yürütme ve düzeltme yeteneklerini önemli ölçüde artırmıştır. Hem kodlama yeteneklerini geliştirmiş hem de matematik ve genel yetenek avantajlarını korumuştur. Model, kod akıllı ajanları gibi pratik uygulamalar için daha kapsamlı bir temel sunmaktadır."
|
208
|
+
},
|
176
209
|
"Qwen/Qwen2.5-Math-72B-Instruct": {
|
177
210
|
"description": "Qwen2.5-Math, matematik alanındaki sorunları çözmeye odaklanır ve yüksek zorlukta sorulara profesyonel yanıtlar sunar."
|
178
211
|
},
|
@@ -209,12 +242,27 @@
|
|
209
242
|
"SenseChat-Turbo": {
|
210
243
|
"description": "Hızlı soru-cevap ve model ince ayar senaryoları için uygundur."
|
211
244
|
},
|
245
|
+
"THUDM/chatglm3-6b": {
|
246
|
+
"description": "ChatGLM3-6B, Zhipu AI tarafından geliştirilen ChatGLM serisinin açık kaynak modelidir. Bu model, önceki nesil modellerin mükemmel özelliklerini korurken, yeni özellikler de eklenmiştir. Daha çeşitli eğitim verileri, daha fazla eğitim adımı ve daha mantıklı eğitim stratejileri kullanarak, 10B altındaki önceden eğitilmiş modeller arasında mükemmel performans sergilemektedir. ChatGLM3-6B, çoklu diyalog, araç çağrısı, kod yürütme ve ajan görevleri gibi karmaşık senaryoları desteklemektedir. Diyalog modelinin yanı sıra, temel model ChatGLM-6B-Base ve uzun metin diyalog modeli ChatGLM3-6B-32K da açık kaynak olarak sunulmuştur. Bu model, akademik araştırmalara tamamen açıktır ve kayıt olduktan sonra ücretsiz ticari kullanımına da izin verilmektedir."
|
247
|
+
},
|
212
248
|
"THUDM/glm-4-9b-chat": {
|
213
249
|
"description": "GLM-4 9B açık kaynak versiyonu, diyalog uygulamaları için optimize edilmiş bir diyalog deneyimi sunar."
|
214
250
|
},
|
251
|
+
"TeleAI/TeleChat2": {
|
252
|
+
"description": "TeleChat2 büyük modeli, Çin Telekom tarafından sıfırdan geliştirilen jeneratif bir anlam büyük modelidir. Ansiklopedik soru yanıtlama, kod üretimi, uzun metin üretimi gibi işlevleri desteklemekte ve kullanıcılara diyalog danışmanlık hizmeti sunmaktadır. Kullanıcılarla diyalog etme, soruları yanıtlama, yaratımda yardımcı olma gibi yeteneklere sahiptir ve kullanıcıların bilgi, bilgi ve ilham edinmelerine etkin ve kolay bir şekilde yardımcı olmaktadır. Model, yanıltma sorunları, uzun metin üretimi, mantıksal anlama gibi alanlarda oldukça iyi performans sergilemektedir."
|
253
|
+
},
|
254
|
+
"TeleAI/TeleMM": {
|
255
|
+
"description": "TeleMM çok modlu büyük model, Çin Telekom tarafından geliştirilen çok modlu anlama büyük modelidir. Metin, görüntü gibi çeşitli modlu girdileri işleyebilmekte ve görüntü anlama, grafik analizi gibi işlevleri desteklemektedir. Kullanıcılara çok modlu anlama hizmeti sunmakta ve kullanıcılarla çok modlu etkileşimde bulunarak, girdileri doğru bir şekilde anlamakta, soruları yanıtlamakta, yaratımda yardımcı olmakta ve çok modlu bilgi ve ilham desteği sunmaktadır. İnce ayrıntılı algılama, mantıksal akıl yürütme gibi çok modlu görevlerde mükemmel performans sergilemektedir."
|
256
|
+
},
|
215
257
|
"Tencent/Hunyuan-A52B-Instruct": {
|
216
258
|
"description": "Hunyuan-Large, sektördeki en büyük açık kaynaklı Transformer mimarisi MoE modelidir ve toplam 389 milyar parametre ile 52 milyar etkin parametreye sahiptir."
|
217
259
|
},
|
260
|
+
"Vendor-A/Qwen/Qwen2-7B-Instruct": {
|
261
|
+
"description": "Qwen2-72B-Instruct, Qwen2 serisindeki talimat ince ayar büyük dil modelidir ve parametre ölçeği 72B'dir. Bu model, Transformer mimarisi temelinde, SwiGLU aktivasyon fonksiyonu, dikkat QKV önyargısı ve grup sorgu dikkati gibi teknikler kullanmaktadır. Büyük ölçekli girişleri işleyebilme yeteneğine sahiptir. Bu model, dil anlama, üretim, çok dilli yetenek, kodlama, matematik ve akıl yürütme gibi birçok standart testte mükemmel performans sergilemekte ve çoğu açık kaynak modelini geride bırakmakta, bazı görevlerde özel modellere karşı rekabet edebilir."
|
262
|
+
},
|
263
|
+
"Vendor-A/Qwen/Qwen2.5-72B-Instruct": {
|
264
|
+
"description": "Qwen2.5-72B-Instruct, Alibaba Cloud tarafından yayınlanan en son büyük dil modeli serilerinden biridir. Bu 72B modeli, kodlama ve matematik gibi alanlarda önemli ölçüde geliştirilmiş yeteneklere sahiptir. Model ayrıca, Çince, İngilizce gibi 29'dan fazla dili kapsayan çok dilli destek sunmaktadır. Model, talimat takibi, yapılandırılmış verileri anlama ve yapılandırılmış çıktı (özellikle JSON) üretme konularında önemli iyileştirmeler göstermektedir."
|
265
|
+
},
|
218
266
|
"Yi-34B-Chat": {
|
219
267
|
"description": "Yi-1.5-34B, orijinal model serisinin mükemmel genel dil yeteneklerini korurken, 500 milyar yüksek kaliteli token ile artımlı eğitim sayesinde matematiksel mantık ve kodlama yeteneklerini büyük ölçüde artırmıştır."
|
220
268
|
},
|
@@ -290,9 +338,15 @@
|
|
290
338
|
"accounts/fireworks/models/phi-3-vision-128k-instruct": {
|
291
339
|
"description": "Phi 3 Vision talimat modeli, karmaşık görsel ve metin bilgilerini işleyebilen hafif çok modlu bir modeldir ve güçlü akıl yürütme yeteneklerine sahiptir."
|
292
340
|
},
|
341
|
+
"accounts/fireworks/models/qwen-qwq-32b-preview": {
|
342
|
+
"description": "QwQ modeli, Qwen ekibi tarafından geliştirilen deneysel bir araştırma modelidir ve AI akıl yürütme yeteneklerini artırmaya odaklanmaktadır."
|
343
|
+
},
|
293
344
|
"accounts/fireworks/models/qwen2p5-72b-instruct": {
|
294
345
|
"description": "Qwen2.5, Alibaba Cloud Qwen ekibi tarafından geliştirilen yalnızca kodlayıcı içeren bir dizi dil modelidir. Bu modeller, 0.5B, 1.5B, 3B, 7B, 14B, 32B ve 72B gibi farklı boyutları sunar ve temel (base) ve komut (instruct) versiyonlarına sahiptir."
|
295
346
|
},
|
347
|
+
"accounts/fireworks/models/qwen2p5-coder-32b-instruct": {
|
348
|
+
"description": "Qwen2.5 Coder 32B Instruct, Alibaba Cloud tarafından yayınlanan kod odaklı büyük dil modeli serisinin en son versiyonudur. Bu model, Qwen2.5 temelinde, 5.5 trilyon token ile eğitilerek kod üretimi, akıl yürütme ve düzeltme yeteneklerini önemli ölçüde artırmıştır. Hem kodlama yeteneklerini geliştirmiş hem de matematik ve genel yetenek avantajlarını korumuştur. Model, kod akıllı ajanları gibi pratik uygulamalar için daha kapsamlı bir temel sunmaktadır."
|
349
|
+
},
|
296
350
|
"accounts/fireworks/models/starcoder-16b": {
|
297
351
|
"description": "StarCoder 15.5B modeli, ileri düzey programlama görevlerini destekler, çok dilli yetenekleri artırır ve karmaşık kod üretimi ve anlama için uygundur."
|
298
352
|
},
|
@@ -392,6 +446,9 @@
|
|
392
446
|
"codellama": {
|
393
447
|
"description": "Code Llama, kod üretimi ve tartışmalarına odaklanan bir LLM'dir, geniş programlama dili desteği ile geliştirici ortamları için uygundur."
|
394
448
|
},
|
449
|
+
"codellama/CodeLlama-34b-Instruct-hf": {
|
450
|
+
"description": "Code Llama, kod üretimi ve tartışmalarına odaklanan bir LLM'dir ve geniş bir programlama dili desteği sunarak geliştirici ortamları için uygundur."
|
451
|
+
},
|
395
452
|
"codellama:13b": {
|
396
453
|
"description": "Code Llama, kod üretimi ve tartışmalarına odaklanan bir LLM'dir, geniş programlama dili desteği ile geliştirici ortamları için uygundur."
|
397
454
|
},
|
@@ -428,6 +485,9 @@
|
|
428
485
|
"databricks/dbrx-instruct": {
|
429
486
|
"description": "DBRX Instruct, yüksek güvenilirlikte talimat işleme yetenekleri sunar ve çok çeşitli endüstri uygulamalarını destekler."
|
430
487
|
},
|
488
|
+
"deepseek-ai/DeepSeek-V2-Chat": {
|
489
|
+
"description": "DeepSeek-V2, güçlü ve maliyet etkin bir karışık uzman (MoE) dil modelidir. 8.1 trilyon token yüksek kaliteli veri kümesi üzerinde önceden eğitilmiş ve denetimli ince ayar (SFT) ve pekiştirmeli öğrenme (RL) ile model yetenekleri daha da geliştirilmiştir. DeepSeek 67B ile karşılaştırıldığında, DeepSeek-V2 daha güçlü performans sunarken, eğitim maliyetlerini %42.5 oranında azaltmış, KV önbelleğini %93.3 oranında azaltmış ve maksimum üretim verimliliğini 5.76 kat artırmıştır. Bu model, 128k bağlam uzunluğunu desteklemekte ve standart testlerde ve açık üretim değerlendirmelerinde mükemmel performans sergilemektedir."
|
490
|
+
},
|
431
491
|
"deepseek-ai/DeepSeek-V2.5": {
|
432
492
|
"description": "DeepSeek V2.5, önceki sürümlerin mükemmel özelliklerini bir araya getirir, genel ve kodlama yeteneklerini artırır."
|
433
493
|
},
|
@@ -682,6 +742,9 @@
|
|
682
742
|
},
|
683
743
|
"jamba-1.5-large": {},
|
684
744
|
"jamba-1.5-mini": {},
|
745
|
+
"learnlm-1.5-pro-experimental": {
|
746
|
+
"description": "LearnLM, öğrenme bilimleri ilkelerine uygun olarak eğitilmiş, görev odaklı deneysel bir dil modelidir. Eğitim ve öğrenim senaryolarında sistem talimatlarını takip edebilir ve uzman bir mentor olarak görev alabilir."
|
747
|
+
},
|
685
748
|
"lite": {
|
686
749
|
"description": "Spark Lite, son derece düşük gecikme süresi ve yüksek verimlilikle çalışan hafif bir büyük dil modelidir. Tamamen ücretsiz ve açık olup, gerçek zamanlı çevrimiçi arama işlevini desteklemektedir. Hızlı yanıt verme özelliği, düşük hesaplama gücüne sahip cihazlarda çıkarım uygulamaları ve model ince ayarlarında mükemmel performans sergileyerek, kullanıcılara maliyet etkinliği ve akıllı deneyim sunmakta, özellikle bilgi sorgulama, içerik oluşturma ve arama senaryolarında başarılı olmaktadır."
|
687
750
|
},
|
@@ -872,6 +935,9 @@
|
|
872
935
|
"description": "Meta Llama 3, geliştiriciler, araştırmacılar ve işletmeler için açık bir büyük dil modelidir (LLM) ve onların üretken AI fikirlerini inşa etmelerine, denemelerine ve sorumlu bir şekilde genişletmelerine yardımcı olmak için tasarlanmıştır. Küresel topluluk yeniliğinin temel sistemlerinden biri olarak, sınırlı hesaplama gücü ve kaynaklara sahip, kenar cihazları ve daha hızlı eğitim süreleri için son derece uygundur."
|
873
936
|
},
|
874
937
|
"microsoft/Phi-3.5-mini-instruct": {},
|
938
|
+
"microsoft/WizardLM-2-8x22B": {
|
939
|
+
"description": "WizardLM 2, Microsoft AI tarafından sağlanan bir dil modelidir ve karmaşık diyaloglar, çok dilli destek, akıl yürütme ve akıllı asistan alanlarında özellikle başarılıdır."
|
940
|
+
},
|
875
941
|
"microsoft/wizardlm 2-7b": {
|
876
942
|
"description": "WizardLM 2 7B, Microsoft AI'nın en son hızlı ve hafif modelidir ve mevcut açık kaynak lider modellerin performansına yakın bir performans sunmaktadır."
|
877
943
|
},
|
@@ -956,6 +1022,9 @@
|
|
956
1022
|
"nvidia/Llama-3.1-Nemotron-70B-Instruct": {
|
957
1023
|
"description": "Llama 3.1 Nemotron 70B, NVIDIA tarafından özelleştirilmiş büyük bir dil modelidir, LLM tarafından üretilen yanıtların kullanıcı sorgularına daha iyi yardımcı olmasını sağlamak için tasarlanmıştır."
|
958
1024
|
},
|
1025
|
+
"nvidia/Llama-3.1-Nemotron-70B-Instruct-HF": {
|
1026
|
+
"description": "Llama 3.1 Nemotron 70B, NVIDIA tarafından özelleştirilmiş büyük bir dil modelidir ve LLM tarafından üretilen yanıtların kullanıcı sorgularına yardımcı olma düzeyini artırmayı amaçlamaktadır. Bu model, Arena Hard, AlpacaEval 2 LC ve GPT-4-Turbo MT-Bench gibi standart testlerde mükemmel performans sergilemiştir ve 1 Ekim 2024 itibarıyla tüm üç otomatik hizalama testinde birinci sıradadır. Model, Llama-3.1-70B-Instruct modelinin temelinde RLHF (özellikle REINFORCE), Llama-3.1-Nemotron-70B-Reward ve HelpSteer2-Preference ipuçları kullanılarak eğitilmiştir."
|
1027
|
+
},
|
959
1028
|
"o1-mini": {
|
960
1029
|
"description": "o1-mini, programlama, matematik ve bilim uygulama senaryoları için tasarlanmış hızlı ve ekonomik bir akıl yürütme modelidir. Bu model, 128K bağlam ve Ekim 2023 bilgi kesim tarihi ile donatılmıştır."
|
961
1030
|
},
|
@@ -1052,6 +1121,9 @@
|
|
1052
1121
|
"qwen2": {
|
1053
1122
|
"description": "Qwen2, Alibaba'nın yeni nesil büyük ölçekli dil modelidir, mükemmel performans ile çeşitli uygulama ihtiyaçlarını destekler."
|
1054
1123
|
},
|
1124
|
+
"qwen2.5": {
|
1125
|
+
"description": "Qwen2.5, Alibaba'nın yeni nesil büyük ölçekli dil modelidir ve mükemmel performansıyla çeşitli uygulama ihtiyaçlarını desteklemektedir."
|
1126
|
+
},
|
1055
1127
|
"qwen2.5-14b-instruct": {
|
1056
1128
|
"description": "Tongyi Qianwen 2.5, halka açık 14B ölçeğinde bir modeldir."
|
1057
1129
|
},
|
@@ -1076,6 +1148,15 @@
|
|
1076
1148
|
"qwen2.5-math-7b-instruct": {
|
1077
1149
|
"description": "Qwen-Math modeli, güçlü matematik problem çözme yeteneklerine sahiptir."
|
1078
1150
|
},
|
1151
|
+
"qwen2.5:0.5b": {
|
1152
|
+
"description": "Qwen2.5, Alibaba'nın yeni nesil büyük ölçekli dil modelidir ve mükemmel performansıyla çeşitli uygulama ihtiyaçlarını desteklemektedir."
|
1153
|
+
},
|
1154
|
+
"qwen2.5:1.5b": {
|
1155
|
+
"description": "Qwen2.5, Alibaba'nın yeni nesil büyük ölçekli dil modelidir ve mükemmel performansıyla çeşitli uygulama ihtiyaçlarını desteklemektedir."
|
1156
|
+
},
|
1157
|
+
"qwen2.5:72b": {
|
1158
|
+
"description": "Qwen2.5, Alibaba'nın yeni nesil büyük ölçekli dil modelidir ve mükemmel performansıyla çeşitli uygulama ihtiyaçlarını desteklemektedir."
|
1159
|
+
},
|
1079
1160
|
"qwen2:0.5b": {
|
1080
1161
|
"description": "Qwen2, Alibaba'nın yeni nesil büyük ölçekli dil modelidir, mükemmel performans ile çeşitli uygulama ihtiyaçlarını destekler."
|
1081
1162
|
},
|
@@ -1085,6 +1166,12 @@
|
|
1085
1166
|
"qwen2:72b": {
|
1086
1167
|
"description": "Qwen2, Alibaba'nın yeni nesil büyük ölçekli dil modelidir, mükemmel performans ile çeşitli uygulama ihtiyaçlarını destekler."
|
1087
1168
|
},
|
1169
|
+
"qwq": {
|
1170
|
+
"description": "QwQ, AI akıl yürütme yeteneklerini artırmaya odaklanan deneysel bir araştırma modelidir."
|
1171
|
+
},
|
1172
|
+
"qwq-32b-preview": {
|
1173
|
+
"description": "QwQ modeli, Qwen ekibi tarafından geliştirilen deneysel bir araştırma modelidir ve AI akıl yürütme yeteneklerini artırmaya odaklanmaktadır."
|
1174
|
+
},
|
1088
1175
|
"solar-1-mini-chat": {
|
1089
1176
|
"description": "Solar Mini, kompakt bir LLM'dir, GPT-3.5'ten daha iyi performans gösterir, güçlü çok dilli yeteneklere sahiptir, İngilizce ve Koreceyi destekler, etkili ve hafif bir çözüm sunar."
|
1090
1177
|
},
|
@@ -2,6 +2,9 @@
|
|
2
2
|
"01-ai/Yi-1.5-34B-Chat-16K": {
|
3
3
|
"description": "Yi-1.5 34B, với mẫu huấn luyện phong phú, cung cấp hiệu suất vượt trội trong ứng dụng ngành."
|
4
4
|
},
|
5
|
+
"01-ai/Yi-1.5-6B-Chat": {
|
6
|
+
"description": "Yi-1.5-6B-Chat là một biến thể trong loạt Yi-1.5, thuộc về mô hình trò chuyện mã nguồn mở. Yi-1.5 là phiên bản nâng cấp của Yi, đã được tiền huấn luyện trên 500B dữ liệu chất lượng cao và tinh chỉnh trên 3 triệu mẫu đa dạng. So với Yi, Yi-1.5 thể hiện khả năng mạnh mẽ hơn trong mã hóa, toán học, suy luận và tuân theo chỉ dẫn, đồng thời duy trì khả năng hiểu ngôn ngữ, suy luận thông thường và hiểu đọc xuất sắc. Mô hình có các phiên bản độ dài ngữ cảnh 4K, 16K và 32K, với tổng số lượng tiền huấn luyện đạt 3.6T tokens."
|
7
|
+
},
|
5
8
|
"01-ai/Yi-1.5-9B-Chat-16K": {
|
6
9
|
"description": "Yi-1.5 9B hỗ trợ 16K Tokens, cung cấp khả năng tạo ngôn ngữ hiệu quả và mượt mà."
|
7
10
|
},
|
@@ -91,6 +94,12 @@
|
|
91
94
|
"Gryphe/MythoMax-L2-13b": {
|
92
95
|
"description": "MythoMax-L2 (13B) là một mô hình sáng tạo, phù hợp cho nhiều lĩnh vực ứng dụng và nhiệm vụ phức tạp."
|
93
96
|
},
|
97
|
+
"LoRA/Qwen/Qwen2.5-72B-Instruct": {
|
98
|
+
"description": "Qwen2.5-72B-Instruct là một trong những mô hình ngôn ngữ lớn mới nhất do Alibaba Cloud phát hành. Mô hình 72B này có khả năng cải thiện đáng kể trong các lĩnh vực mã hóa và toán học. Mô hình cũng cung cấp hỗ trợ đa ngôn ngữ, bao gồm hơn 29 ngôn ngữ, bao gồm tiếng Trung, tiếng Anh, v.v. Mô hình đã có sự cải thiện đáng kể trong việc tuân theo chỉ dẫn, hiểu dữ liệu có cấu trúc và tạo ra đầu ra có cấu trúc (đặc biệt là JSON)."
|
99
|
+
},
|
100
|
+
"LoRA/Qwen/Qwen2.5-7B-Instruct": {
|
101
|
+
"description": "Qwen2.5-7B-Instruct là một trong những mô hình ngôn ngữ lớn mới nhất do Alibaba Cloud phát hành. Mô hình 7B này có khả năng cải thiện đáng kể trong các lĩnh vực mã hóa và toán học. Mô hình cũng cung cấp hỗ trợ đa ngôn ngữ, bao gồm hơn 29 ngôn ngữ, bao gồm tiếng Trung, tiếng Anh, v.v. Mô hình đã có sự cải thiện đáng kể trong việc tuân theo chỉ dẫn, hiểu dữ liệu có cấu trúc và tạo ra đầu ra có cấu trúc (đặc biệt là JSON)."
|
102
|
+
},
|
94
103
|
"Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
95
104
|
"description": "Hermes 2 Mixtral 8x7B DPO là một mô hình kết hợp đa dạng, nhằm cung cấp trải nghiệm sáng tạo xuất sắc."
|
96
105
|
},
|
@@ -98,9 +107,6 @@
|
|
98
107
|
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
99
108
|
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) là mô hình chỉ dẫn chính xác cao, phù hợp cho tính toán phức tạp."
|
100
109
|
},
|
101
|
-
"NousResearch/Nous-Hermes-2-Yi-34B": {
|
102
|
-
"description": "Nous Hermes-2 Yi (34B) cung cấp đầu ra ngôn ngữ tối ưu và khả năng ứng dụng đa dạng."
|
103
|
-
},
|
104
110
|
"OpenGVLab/InternVL2-26B": {
|
105
111
|
"description": "InternVL2 đã thể hiện hiệu suất xuất sắc trong nhiều tác vụ ngôn ngữ hình ảnh, bao gồm hiểu tài liệu và biểu đồ, hiểu văn bản trong cảnh, OCR, giải quyết vấn đề khoa học và toán học."
|
106
112
|
},
|
@@ -134,18 +140,42 @@
|
|
134
140
|
"Pro/OpenGVLab/InternVL2-8B": {
|
135
141
|
"description": "InternVL2 đã thể hiện hiệu suất xuất sắc trong nhiều tác vụ ngôn ngữ hình ảnh, bao gồm hiểu tài liệu và biểu đồ, hiểu văn bản trong cảnh, OCR, giải quyết vấn đề khoa học và toán học."
|
136
142
|
},
|
143
|
+
"Pro/Qwen/Qwen2-1.5B-Instruct": {
|
144
|
+
"description": "Qwen2-1.5B-Instruct là mô hình ngôn ngữ lớn được tinh chỉnh theo chỉ dẫn trong loạt Qwen2, với quy mô tham số là 1.5B. Mô hình này dựa trên kiến trúc Transformer, sử dụng hàm kích hoạt SwiGLU, độ lệch QKV trong chú ý và chú ý theo nhóm. Nó thể hiện xuất sắc trong nhiều bài kiểm tra chuẩn về hiểu ngôn ngữ, sinh ngôn ngữ, khả năng đa ngôn ngữ, mã hóa, toán học và suy luận, vượt qua hầu hết các mô hình mã nguồn mở. So với Qwen1.5-1.8B-Chat, Qwen2-1.5B-Instruct cho thấy sự cải thiện đáng kể về hiệu suất trong các bài kiểm tra MMLU, HumanEval, GSM8K, C-Eval và IFEval, mặc dù số lượng tham số hơi ít hơn."
|
145
|
+
},
|
146
|
+
"Pro/Qwen/Qwen2-7B-Instruct": {
|
147
|
+
"description": "Qwen2-7B-Instruct là mô hình ngôn ngữ lớn được tinh chỉnh theo chỉ dẫn trong loạt Qwen2, với quy mô tham số là 7B. Mô hình này dựa trên kiến trúc Transformer, sử dụng hàm kích hoạt SwiGLU, độ lệch QKV trong chú ý và chú ý theo nhóm. Nó có khả năng xử lý đầu vào quy mô lớn. Mô hình thể hiện xuất sắc trong nhiều bài kiểm tra chuẩn về hiểu ngôn ngữ, sinh ngôn ngữ, khả năng đa ngôn ngữ, mã hóa, toán học và suy luận, vượt qua hầu hết các mô hình mã nguồn mở và thể hiện sức cạnh tranh tương đương với các mô hình độc quyền trong một số nhiệm vụ. Qwen2-7B-Instruct đã thể hiện sự cải thiện đáng kể về hiệu suất trong nhiều bài kiểm tra so với Qwen1.5-7B-Chat."
|
148
|
+
},
|
137
149
|
"Pro/Qwen/Qwen2-VL-7B-Instruct": {
|
138
150
|
"description": "Qwen2-VL là phiên bản mới nhất của mô hình Qwen-VL, đạt được hiệu suất hàng đầu trong các thử nghiệm chuẩn hiểu biết hình ảnh."
|
139
151
|
},
|
140
|
-
"Qwen/
|
141
|
-
"description": "
|
152
|
+
"Pro/Qwen/Qwen2.5-7B-Instruct": {
|
153
|
+
"description": "Qwen2.5-7B-Instruct là một trong những mô hình ngôn ngữ lớn mới nhất do Alibaba Cloud phát hành. Mô hình 7B này có khả năng cải thiện đáng kể trong các lĩnh vực mã hóa và toán học. Mô hình cũng cung cấp hỗ trợ đa ngôn ngữ, bao gồm hơn 29 ngôn ngữ, bao gồm tiếng Trung, tiếng Anh, v.v. Mô hình đã có sự cải thiện đáng kể trong việc tuân theo chỉ dẫn, hiểu dữ liệu có cấu trúc và tạo ra đầu ra có cấu trúc (đặc biệt là JSON)."
|
154
|
+
},
|
155
|
+
"Pro/Qwen/Qwen2.5-Coder-7B-Instruct": {
|
156
|
+
"description": "Qwen2.5-Coder-7B-Instruct là phiên bản mới nhất trong loạt mô hình ngôn ngữ lớn chuyên biệt cho mã do Alibaba Cloud phát hành. Mô hình này được cải thiện đáng kể khả năng tạo mã, suy luận và sửa chữa thông qua việc đào tạo trên 5.5 triệu tỷ tokens, không chỉ nâng cao khả năng lập trình mà còn duy trì lợi thế về khả năng toán học và tổng quát. Mô hình cung cấp nền tảng toàn diện hơn cho các ứng dụng thực tế như tác nhân mã."
|
157
|
+
},
|
158
|
+
"Pro/THUDM/glm-4-9b-chat": {
|
159
|
+
"description": "GLM-4-9B-Chat là phiên bản mã nguồn mở trong loạt mô hình tiền huấn luyện GLM-4 do Zhizhu AI phát hành. Mô hình này thể hiện xuất sắc trong nhiều lĩnh vực như ngữ nghĩa, toán học, suy luận, mã và kiến thức. Ngoài việc hỗ trợ đối thoại nhiều vòng, GLM-4-9B-Chat còn có các tính năng nâng cao như duyệt web, thực thi mã, gọi công cụ tùy chỉnh (Function Call) và suy luận văn bản dài. Mô hình hỗ trợ 26 ngôn ngữ, bao gồm tiếng Trung, tiếng Anh, tiếng Nhật, tiếng Hàn và tiếng Đức. Trong nhiều bài kiểm tra chuẩn, GLM-4-9B-Chat đã thể hiện hiệu suất xuất sắc, như AlignBench-v2, MT-Bench, MMLU và C-Eval. Mô hình hỗ trợ độ dài ngữ cảnh tối đa 128K, phù hợp cho nghiên cứu học thuật và ứng dụng thương mại."
|
142
160
|
},
|
143
|
-
"
|
144
|
-
"description": "
|
161
|
+
"Pro/google/gemma-2-9b-it": {
|
162
|
+
"description": "Gemma là một trong những loạt mô hình mở tiên tiến nhẹ của Google. Đây là một mô hình ngôn ngữ quy mô lớn chỉ có bộ giải mã, hỗ trợ tiếng Anh, cung cấp trọng số mở, biến thể tiền huấn luyện và biến thể tinh chỉnh theo chỉ dẫn. Mô hình Gemma phù hợp cho nhiều nhiệm vụ sinh văn bản, bao gồm hỏi đáp, tóm tắt và suy luận. Mô hình 9B này được đào tạo trên 8 triệu tỷ tokens. Quy mô tương đối nhỏ của nó cho phép triển khai trong các môi trường hạn chế tài nguyên, như máy tính xách tay, máy tính để bàn hoặc cơ sở hạ tầng đám mây của riêng bạn, giúp nhiều người hơn có thể tiếp cận các mô hình AI tiên tiến và thúc đẩy đổi mới."
|
163
|
+
},
|
164
|
+
"Pro/meta-llama/Meta-Llama-3.1-8B-Instruct": {
|
165
|
+
"description": "Meta Llama 3.1 là một phần của gia đình mô hình ngôn ngữ lớn đa ngôn ngữ do Meta phát triển, bao gồm các biến thể tiền huấn luyện và tinh chỉnh theo chỉ dẫn với quy mô tham số 8B, 70B và 405B. Mô hình 8B này được tối ưu hóa cho các tình huống đối thoại đa ngôn ngữ, thể hiện xuất sắc trong nhiều bài kiểm tra chuẩn ngành. Mô hình được đào tạo bằng hơn 15 triệu tỷ tokens từ dữ liệu công khai và sử dụng các kỹ thuật như tinh chỉnh giám sát và học tăng cường phản hồi của con người để nâng cao tính hữu ích và an toàn của mô hình. Llama 3.1 hỗ trợ sinh văn bản và sinh mã, với thời điểm cắt kiến thức là tháng 12 năm 2023."
|
166
|
+
},
|
167
|
+
"Qwen/QwQ-32B-Preview": {
|
168
|
+
"description": "QwQ-32B-Preview là mô hình nghiên cứu thử nghiệm mới nhất của Qwen, tập trung vào việc nâng cao khả năng suy luận của AI. Thông qua việc khám phá các cơ chế phức tạp như trộn ngôn ngữ và suy luận đệ quy, những lợi thế chính bao gồm khả năng phân tích suy luận mạnh mẽ, khả năng toán học và lập trình. Tuy nhiên, cũng có những vấn đề về chuyển đổi ngôn ngữ, vòng lặp suy luận, các vấn đề an toàn và sự khác biệt về các khả năng khác."
|
169
|
+
},
|
170
|
+
"Qwen/Qwen2-1.5B-Instruct": {
|
171
|
+
"description": "Qwen2-1.5B-Instruct là mô hình ngôn ngữ lớn được tinh chỉnh theo chỉ dẫn trong loạt Qwen2, với quy mô tham số là 1.5B. Mô hình này dựa trên kiến trúc Transformer, sử dụng hàm kích hoạt SwiGLU, độ lệch QKV trong chú ý và chú ý theo nhóm. Nó thể hiện xuất sắc trong nhiều bài kiểm tra chuẩn về hiểu ngôn ngữ, sinh ngôn ngữ, khả năng đa ngôn ngữ, mã hóa, toán học và suy luận, vượt qua hầu hết các mô hình mã nguồn mở. So với Qwen1.5-1.8B-Chat, Qwen2-1.5B-Instruct cho thấy sự cải thiện đáng kể về hiệu suất trong các bài kiểm tra MMLU, HumanEval, GSM8K, C-Eval và IFEval, mặc dù số lượng tham số hơi ít hơn."
|
145
172
|
},
|
146
173
|
"Qwen/Qwen2-72B-Instruct": {
|
147
174
|
"description": "Qwen2 là mô hình ngôn ngữ tổng quát tiên tiến, hỗ trợ nhiều loại chỉ dẫn."
|
148
175
|
},
|
176
|
+
"Qwen/Qwen2-7B-Instruct": {
|
177
|
+
"description": "Qwen2-72B-Instruct là mô hình ngôn ngữ lớn được tinh chỉnh theo chỉ dẫn trong loạt Qwen2, với quy mô tham số là 72B. Mô hình này dựa trên kiến trúc Transformer, sử dụng hàm kích hoạt SwiGLU, độ lệch QKV trong chú ý và chú ý theo nhóm. Nó có khả năng xử lý đầu vào quy mô lớn. Mô hình thể hiện xuất sắc trong nhiều bài kiểm tra chuẩn về hiểu ngôn ngữ, sinh ngôn ngữ, khả năng đa ngôn ngữ, mã hóa, toán học và suy luận, vượt qua hầu hết các mô hình mã nguồn mở và thể hiện sức cạnh tranh tương đương với các mô hình độc quyền trong một số nhiệm vụ."
|
178
|
+
},
|
149
179
|
"Qwen/Qwen2-VL-72B-Instruct": {
|
150
180
|
"description": "Qwen2-VL là phiên bản mới nhất của mô hình Qwen-VL, đạt được hiệu suất hàng đầu trong các thử nghiệm chuẩn hiểu biết hình ảnh."
|
151
181
|
},
|
@@ -173,6 +203,9 @@
|
|
173
203
|
"Qwen/Qwen2.5-Coder-32B-Instruct": {
|
174
204
|
"description": "Qwen2.5-Coder tập trung vào việc viết mã."
|
175
205
|
},
|
206
|
+
"Qwen/Qwen2.5-Coder-7B-Instruct": {
|
207
|
+
"description": "Qwen2.5-Coder-7B-Instruct là phiên bản mới nhất trong loạt mô hình ngôn ngữ lớn chuyên biệt cho mã do Alibaba Cloud phát hành. Mô hình này được cải thiện đáng kể khả năng tạo mã, suy luận và sửa chữa thông qua việc đào tạo trên 5.5 triệu tỷ tokens, không chỉ nâng cao khả năng lập trình mà còn duy trì lợi thế về khả năng toán học và tổng quát. Mô hình cung cấp nền tảng toàn diện hơn cho các ứng dụng thực tế như tác nhân mã."
|
208
|
+
},
|
176
209
|
"Qwen/Qwen2.5-Math-72B-Instruct": {
|
177
210
|
"description": "Qwen2.5-Math tập trung vào việc giải quyết các vấn đề trong lĩnh vực toán học, cung cấp giải pháp chuyên nghiệp cho các bài toán khó."
|
178
211
|
},
|
@@ -209,12 +242,27 @@
|
|
209
242
|
"SenseChat-Turbo": {
|
210
243
|
"description": "Phù hợp cho các tình huống hỏi đáp nhanh và tinh chỉnh mô hình."
|
211
244
|
},
|
245
|
+
"THUDM/chatglm3-6b": {
|
246
|
+
"description": "ChatGLM3-6B là mô hình mã nguồn mở trong loạt ChatGLM, được phát triển bởi Zhizhu AI. Mô hình này giữ lại những đặc điểm xuất sắc của thế hệ trước, như khả năng đối thoại mượt mà và ngưỡng triển khai thấp, đồng thời giới thiệu các tính năng mới. Nó sử dụng dữ liệu đào tạo đa dạng hơn, số bước đào tạo đầy đủ hơn và chiến lược đào tạo hợp lý hơn, thể hiện xuất sắc trong các mô hình tiền huấn luyện dưới 10B. ChatGLM3-6B hỗ trợ đối thoại nhiều vòng, gọi công cụ, thực thi mã và các nhiệm vụ Agent trong các tình huống phức tạp. Ngoài mô hình đối thoại, còn có mô hình cơ bản ChatGLM-6B-Base và mô hình đối thoại văn bản dài ChatGLM3-6B-32K. Mô hình hoàn toàn mở cho nghiên cứu học thuật và cho phép sử dụng thương mại miễn phí sau khi đăng ký."
|
247
|
+
},
|
212
248
|
"THUDM/glm-4-9b-chat": {
|
213
249
|
"description": "GLM-4 9B là phiên bản mã nguồn mở, cung cấp trải nghiệm đối thoại tối ưu cho các ứng dụng hội thoại."
|
214
250
|
},
|
251
|
+
"TeleAI/TeleChat2": {
|
252
|
+
"description": "Mô hình lớn TeleChat2 được phát triển độc lập từ 0 đến 1 bởi China Telecom, là một mô hình ngữ nghĩa sinh sinh, hỗ trợ các chức năng như hỏi đáp bách khoa, tạo mã, sinh văn bản dài, cung cấp dịch vụ tư vấn đối thoại cho người dùng, có khả năng tương tác đối thoại với người dùng, trả lời câu hỏi, hỗ trợ sáng tạo, giúp người dùng nhanh chóng và hiệu quả trong việc thu thập thông tin, kiến thức và cảm hứng. Mô hình thể hiện xuất sắc trong các vấn đề ảo giác, sinh văn bản dài và hiểu logic."
|
253
|
+
},
|
254
|
+
"TeleAI/TeleMM": {
|
255
|
+
"description": "Mô hình đa phương tiện TeleMM là một mô hình hiểu đa phương tiện do China Telecom phát triển, có khả năng xử lý nhiều loại đầu vào như văn bản và hình ảnh, hỗ trợ các chức năng như hiểu hình ảnh, phân tích biểu đồ, cung cấp dịch vụ hiểu đa phương tiện cho người dùng. Mô hình có khả năng tương tác đa phương tiện với người dùng, hiểu chính xác nội dung đầu vào, trả lời câu hỏi, hỗ trợ sáng tạo và cung cấp thông tin và cảm hứng đa phương tiện một cách hiệu quả. Mô hình thể hiện xuất sắc trong các nhiệm vụ đa phương tiện như nhận thức chi tiết và suy luận logic."
|
256
|
+
},
|
215
257
|
"Tencent/Hunyuan-A52B-Instruct": {
|
216
258
|
"description": "Hunyuan-Large là mô hình MoE kiến trúc Transformer mã nguồn mở lớn nhất trong ngành, với tổng số tham số là 3890 tỷ và 52 tỷ tham số kích hoạt."
|
217
259
|
},
|
260
|
+
"Vendor-A/Qwen/Qwen2-7B-Instruct": {
|
261
|
+
"description": "Qwen2-72B-Instruct là mô hình ngôn ngữ lớn được tinh chỉnh theo chỉ dẫn trong loạt Qwen2, với quy mô tham số là 72B. Mô hình này dựa trên kiến trúc Transformer, sử dụng hàm kích hoạt SwiGLU, độ lệch QKV trong chú ý và chú ý theo nhóm. Nó có khả năng xử lý đầu vào quy mô lớn. Mô hình thể hiện xuất sắc trong nhiều bài kiểm tra chuẩn về hiểu ngôn ngữ, sinh ngôn ngữ, khả năng đa ngôn ngữ, mã hóa, toán học và suy luận, vượt qua hầu hết các mô hình mã nguồn mở và thể hiện sức cạnh tranh tương đương với các mô hình độc quyền trong một số nhiệm vụ."
|
262
|
+
},
|
263
|
+
"Vendor-A/Qwen/Qwen2.5-72B-Instruct": {
|
264
|
+
"description": "Qwen2.5-72B-Instruct là một trong những mô hình ngôn ngữ lớn mới nhất do Alibaba Cloud phát hành. Mô hình 72B này có khả năng cải thiện đáng kể trong các lĩnh vực mã hóa và toán học. Mô hình cũng cung cấp hỗ trợ đa ngôn ngữ, bao gồm hơn 29 ngôn ngữ, bao gồm tiếng Trung, tiếng Anh, v.v. Mô hình đã có sự cải thiện đáng kể trong việc tuân theo chỉ dẫn, hiểu dữ liệu có cấu trúc và tạo ra đầu ra có cấu trúc (đặc biệt là JSON)."
|
265
|
+
},
|
218
266
|
"Yi-34B-Chat": {
|
219
267
|
"description": "Yi-1.5-34B, trong khi vẫn giữ được khả năng ngôn ngữ chung xuất sắc của dòng mô hình gốc, đã tăng cường đào tạo với 500 tỷ token chất lượng cao, nâng cao đáng kể khả năng logic toán học và mã."
|
220
268
|
},
|
@@ -290,9 +338,15 @@
|
|
290
338
|
"accounts/fireworks/models/phi-3-vision-128k-instruct": {
|
291
339
|
"description": "Mô hình chỉ dẫn Phi 3 Vision, mô hình đa mô hình nhẹ, có khả năng xử lý thông tin hình ảnh và văn bản phức tạp, với khả năng suy luận mạnh mẽ."
|
292
340
|
},
|
341
|
+
"accounts/fireworks/models/qwen-qwq-32b-preview": {
|
342
|
+
"description": "Mô hình QwQ là một mô hình nghiên cứu thử nghiệm được phát triển bởi đội ngũ Qwen, tập trung vào việc nâng cao khả năng suy luận của AI."
|
343
|
+
},
|
293
344
|
"accounts/fireworks/models/qwen2p5-72b-instruct": {
|
294
345
|
"description": "Qwen2.5 là một loạt mô hình ngôn ngữ chỉ chứa bộ giải mã do đội ngũ Qwen của Alibaba Cloud phát triển. Những mô hình này cung cấp các kích thước khác nhau, bao gồm 0.5B, 1.5B, 3B, 7B, 14B, 32B và 72B, và có hai biến thể: phiên bản cơ sở (base) và phiên bản chỉ dẫn (instruct)."
|
295
346
|
},
|
347
|
+
"accounts/fireworks/models/qwen2p5-coder-32b-instruct": {
|
348
|
+
"description": "Qwen2.5 Coder 32B Instruct là phiên bản mới nhất trong loạt mô hình ngôn ngữ lớn chuyên biệt cho mã do Alibaba Cloud phát hành. Mô hình này được cải thiện đáng kể khả năng tạo mã, suy luận và sửa chữa thông qua việc đào tạo trên 5.5 triệu tỷ tokens, không chỉ nâng cao khả năng lập trình mà còn duy trì lợi thế về khả năng toán học và tổng quát. Mô hình cung cấp nền tảng toàn diện hơn cho các ứng dụng thực tế như tác nhân mã."
|
349
|
+
},
|
296
350
|
"accounts/fireworks/models/starcoder-16b": {
|
297
351
|
"description": "Mô hình StarCoder 15.5B, hỗ trợ các nhiệm vụ lập trình nâng cao, khả năng đa ngôn ngữ được cải thiện, phù hợp cho việc tạo và hiểu mã phức tạp."
|
298
352
|
},
|
@@ -392,6 +446,9 @@
|
|
392
446
|
"codellama": {
|
393
447
|
"description": "Code Llama là một LLM tập trung vào việc sinh và thảo luận mã, kết hợp hỗ trợ cho nhiều ngôn ngữ lập trình, phù hợp cho môi trường phát triển."
|
394
448
|
},
|
449
|
+
"codellama/CodeLlama-34b-Instruct-hf": {
|
450
|
+
"description": "Code Llama là một LLM tập trung vào việc tạo mã và thảo luận, kết hợp hỗ trợ nhiều ngôn ngữ lập trình, phù hợp cho môi trường phát triển."
|
451
|
+
},
|
395
452
|
"codellama:13b": {
|
396
453
|
"description": "Code Llama là một LLM tập trung vào việc sinh và thảo luận mã, kết hợp hỗ trợ cho nhiều ngôn ngữ lập trình, phù hợp cho môi trường phát triển."
|
397
454
|
},
|
@@ -428,6 +485,9 @@
|
|
428
485
|
"databricks/dbrx-instruct": {
|
429
486
|
"description": "DBRX Instruct cung cấp khả năng xử lý chỉ dẫn đáng tin cậy, hỗ trợ nhiều ứng dụng trong ngành."
|
430
487
|
},
|
488
|
+
"deepseek-ai/DeepSeek-V2-Chat": {
|
489
|
+
"description": "DeepSeek-V2 là một mô hình ngôn ngữ hỗn hợp chuyên gia (MoE) mạnh mẽ và tiết kiệm chi phí. Nó đã được tiền huấn luyện trên một tập dữ liệu chất lượng cao với 8.1 triệu tỷ tokens và được cải thiện thêm thông qua tinh chỉnh giám sát (SFT) và học tăng cường (RL). So với DeepSeek 67B, DeepSeek-V2 không chỉ mạnh mẽ hơn mà còn tiết kiệm 42.5% chi phí đào tạo, giảm 93.3% bộ nhớ KV và tăng gấp 5.76 lần thông lượng sinh tối đa. Mô hình hỗ trợ độ dài ngữ cảnh 128k và thể hiện xuất sắc trong các bài kiểm tra chuẩn và đánh giá sinh mở."
|
490
|
+
},
|
431
491
|
"deepseek-ai/DeepSeek-V2.5": {
|
432
492
|
"description": "DeepSeek V2.5 kết hợp các đặc điểm xuất sắc của các phiên bản trước, tăng cường khả năng tổng quát và mã hóa."
|
433
493
|
},
|
@@ -682,6 +742,9 @@
|
|
682
742
|
},
|
683
743
|
"jamba-1.5-large": {},
|
684
744
|
"jamba-1.5-mini": {},
|
745
|
+
"learnlm-1.5-pro-experimental": {
|
746
|
+
"description": "LearnLM là một mô hình ngôn ngữ thử nghiệm, chuyên biệt cho các nhiệm vụ, được đào tạo để tuân theo các nguyên tắc khoa học học tập, có thể tuân theo các chỉ dẫn hệ thống trong các tình huống giảng dạy và học tập, đóng vai trò như một người hướng dẫn chuyên gia."
|
747
|
+
},
|
685
748
|
"lite": {
|
686
749
|
"description": "Spark Lite là một mô hình ngôn ngữ lớn nhẹ, có độ trễ cực thấp và khả năng xử lý hiệu quả, hoàn toàn miễn phí và mở, hỗ trợ chức năng tìm kiếm trực tuyến theo thời gian thực. Đặc điểm phản hồi nhanh của nó giúp nó nổi bật trong các ứng dụng suy diễn trên thiết bị có công suất thấp và tinh chỉnh mô hình, mang lại hiệu quả chi phí và trải nghiệm thông minh xuất sắc cho người dùng, đặc biệt trong các tình huống hỏi đáp kiến thức, tạo nội dung và tìm kiếm."
|
687
750
|
},
|
@@ -872,6 +935,9 @@
|
|
872
935
|
"description": "Meta Llama 3 là một mô hình ngôn ngữ lớn (LLM) mở dành cho các nhà phát triển, nhà nghiên cứu và doanh nghiệp, nhằm giúp họ xây dựng, thử nghiệm và mở rộng ý tưởng AI sinh một cách có trách nhiệm. Là một phần của hệ thống cơ sở hạ tầng đổi mới toàn cầu, nó rất phù hợp cho các thiết bị biên và thời gian huấn luyện nhanh hơn với khả năng tính toán và tài nguyên hạn chế."
|
873
936
|
},
|
874
937
|
"microsoft/Phi-3.5-mini-instruct": {},
|
938
|
+
"microsoft/WizardLM-2-8x22B": {
|
939
|
+
"description": "WizardLM 2 là mô hình ngôn ngữ do AI của Microsoft cung cấp, thể hiện xuất sắc trong các lĩnh vực đối thoại phức tạp, đa ngôn ngữ, suy luận và trợ lý thông minh."
|
940
|
+
},
|
875
941
|
"microsoft/wizardlm 2-7b": {
|
876
942
|
"description": "WizardLM 2 7B là mô hình nhẹ và nhanh mới nhất của Microsoft AI, hiệu suất gần gấp 10 lần so với các mô hình mở nguồn hiện có."
|
877
943
|
},
|
@@ -956,6 +1022,9 @@
|
|
956
1022
|
"nvidia/Llama-3.1-Nemotron-70B-Instruct": {
|
957
1023
|
"description": "Llama 3.1 Nemotron 70B là mô hình ngôn ngữ lớn được tùy chỉnh bởi NVIDIA, được thiết kế để cải thiện mức độ hỗ trợ của phản hồi do LLM tạo ra đối với các truy vấn của người dùng."
|
958
1024
|
},
|
1025
|
+
"nvidia/Llama-3.1-Nemotron-70B-Instruct-HF": {
|
1026
|
+
"description": "Llama 3.1 Nemotron 70B là một mô hình ngôn ngữ quy mô lớn tùy chỉnh bởi NVIDIA, nhằm nâng cao mức độ hỗ trợ của phản hồi do LLM tạo ra đối với các truy vấn của người dùng. Mô hình này đã thể hiện xuất sắc trong các bài kiểm tra chuẩn như Arena Hard, AlpacaEval 2 LC và GPT-4-Turbo MT-Bench, đứng đầu trong cả ba bài kiểm tra tự động cho đến ngày 1 tháng 10 năm 2024. Mô hình sử dụng RLHF (đặc biệt là REINFORCE), Llama-3.1-Nemotron-70B-Reward và HelpSteer2-Preference để đào tạo trên cơ sở mô hình Llama-3.1-70B-Instruct."
|
1027
|
+
},
|
959
1028
|
"o1-mini": {
|
960
1029
|
"description": "o1-mini là một mô hình suy diễn nhanh chóng và tiết kiệm chi phí, được thiết kế cho các ứng dụng lập trình, toán học và khoa học. Mô hình này có ngữ cảnh 128K và thời điểm cắt kiến thức vào tháng 10 năm 2023."
|
961
1030
|
},
|
@@ -1052,6 +1121,9 @@
|
|
1052
1121
|
"qwen2": {
|
1053
1122
|
"description": "Qwen2 là mô hình ngôn ngữ quy mô lớn thế hệ mới của Alibaba, hỗ trợ các nhu cầu ứng dụng đa dạng với hiệu suất xuất sắc."
|
1054
1123
|
},
|
1124
|
+
"qwen2.5": {
|
1125
|
+
"description": "Qwen2.5 là thế hệ mô hình ngôn ngữ quy mô lớn mới của Alibaba, hỗ trợ các nhu cầu ứng dụng đa dạng với hiệu suất xuất sắc."
|
1126
|
+
},
|
1055
1127
|
"qwen2.5-14b-instruct": {
|
1056
1128
|
"description": "Mô hình 14B quy mô mở nguồn của Qwen 2.5."
|
1057
1129
|
},
|
@@ -1076,6 +1148,15 @@
|
|
1076
1148
|
"qwen2.5-math-7b-instruct": {
|
1077
1149
|
"description": "Mô hình Qwen-Math có khả năng giải quyết bài toán toán học mạnh mẽ."
|
1078
1150
|
},
|
1151
|
+
"qwen2.5:0.5b": {
|
1152
|
+
"description": "Qwen2.5 là thế hệ mô hình ngôn ngữ quy mô lớn mới của Alibaba, hỗ trợ các nhu cầu ứng dụng đa dạng với hiệu suất xuất sắc."
|
1153
|
+
},
|
1154
|
+
"qwen2.5:1.5b": {
|
1155
|
+
"description": "Qwen2.5 là thế hệ mô hình ngôn ngữ quy mô lớn mới của Alibaba, hỗ trợ các nhu cầu ứng dụng đa dạng với hiệu suất xuất sắc."
|
1156
|
+
},
|
1157
|
+
"qwen2.5:72b": {
|
1158
|
+
"description": "Qwen2.5 là thế hệ mô hình ngôn ngữ quy mô lớn mới của Alibaba, hỗ trợ các nhu cầu ứng dụng đa dạng với hiệu suất xuất sắc."
|
1159
|
+
},
|
1079
1160
|
"qwen2:0.5b": {
|
1080
1161
|
"description": "Qwen2 là mô hình ngôn ngữ quy mô lớn thế hệ mới của Alibaba, hỗ trợ các nhu cầu ứng dụng đa dạng với hiệu suất xuất sắc."
|
1081
1162
|
},
|
@@ -1085,6 +1166,12 @@
|
|
1085
1166
|
"qwen2:72b": {
|
1086
1167
|
"description": "Qwen2 là mô hình ngôn ngữ quy mô lớn thế hệ mới của Alibaba, hỗ trợ các nhu cầu ứng dụng đa dạng với hiệu suất xuất sắc."
|
1087
1168
|
},
|
1169
|
+
"qwq": {
|
1170
|
+
"description": "QwQ là một mô hình nghiên cứu thử nghiệm, tập trung vào việc nâng cao khả năng suy luận của AI."
|
1171
|
+
},
|
1172
|
+
"qwq-32b-preview": {
|
1173
|
+
"description": "Mô hình QwQ là một mô hình nghiên cứu thử nghiệm được phát triển bởi đội ngũ Qwen, tập trung vào việc nâng cao khả năng suy luận của AI."
|
1174
|
+
},
|
1088
1175
|
"solar-1-mini-chat": {
|
1089
1176
|
"description": "Solar Mini là một LLM dạng nhỏ gọn, hiệu suất vượt trội hơn GPT-3.5, có khả năng đa ngôn ngữ mạnh mẽ, hỗ trợ tiếng Anh và tiếng Hàn, cung cấp giải pháp hiệu quả và nhỏ gọn."
|
1090
1177
|
},
|