@lobehub/chat 1.75.3 → 1.75.5
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/CHANGELOG.md +52 -0
- package/README.md +1 -1
- package/README.zh-CN.md +1 -1
- package/changelog/v1.json +18 -0
- package/docs/self-hosting/advanced/model-list.mdx +5 -3
- package/docs/self-hosting/advanced/model-list.zh-CN.mdx +5 -3
- package/docs/usage/providers/infiniai.zh-CN.mdx +4 -0
- package/locales/ar/models.json +51 -54
- package/locales/ar/providers.json +3 -0
- package/locales/bg-BG/models.json +51 -54
- package/locales/bg-BG/providers.json +3 -0
- package/locales/de-DE/models.json +51 -54
- package/locales/de-DE/providers.json +3 -0
- package/locales/en-US/models.json +51 -54
- package/locales/en-US/providers.json +3 -0
- package/locales/es-ES/models.json +51 -54
- package/locales/es-ES/providers.json +3 -0
- package/locales/fa-IR/models.json +51 -54
- package/locales/fa-IR/providers.json +3 -0
- package/locales/fr-FR/models.json +51 -54
- package/locales/fr-FR/providers.json +3 -0
- package/locales/it-IT/models.json +51 -54
- package/locales/it-IT/providers.json +3 -0
- package/locales/ja-JP/models.json +51 -54
- package/locales/ja-JP/providers.json +3 -0
- package/locales/ko-KR/models.json +51 -54
- package/locales/ko-KR/providers.json +3 -0
- package/locales/nl-NL/models.json +51 -54
- package/locales/nl-NL/providers.json +3 -0
- package/locales/pl-PL/models.json +51 -54
- package/locales/pl-PL/providers.json +3 -0
- package/locales/pt-BR/models.json +51 -54
- package/locales/pt-BR/providers.json +3 -0
- package/locales/ru-RU/models.json +51 -54
- package/locales/ru-RU/providers.json +3 -0
- package/locales/tr-TR/models.json +51 -54
- package/locales/tr-TR/providers.json +3 -0
- package/locales/vi-VN/models.json +51 -54
- package/locales/vi-VN/providers.json +3 -0
- package/locales/zh-CN/models.json +55 -58
- package/locales/zh-CN/providers.json +3 -0
- package/locales/zh-TW/models.json +51 -54
- package/locales/zh-TW/providers.json +3 -0
- package/package.json +1 -1
- package/src/config/aiModels/google.ts +17 -43
- package/src/config/aiModels/infiniai.ts +52 -55
- package/src/config/aiModels/qwen.ts +17 -1
- package/src/config/aiModels/siliconcloud.ts +33 -1
- package/src/config/aiModels/tencentcloud.ts +17 -0
- package/src/config/aiModels/vertexai.ts +1 -53
- package/src/config/aiModels/volcengine.ts +1 -1
- package/src/libs/agent-runtime/infiniai/index.ts +38 -3
- package/src/utils/format.ts +1 -1
- package/src/utils/parseModels.test.ts +14 -0
- package/src/utils/parseModels.ts +4 -0
@@ -1,13 +1,4 @@
|
|
1
1
|
{
|
2
|
-
"01-ai/Yi-1.5-34B-Chat-16K": {
|
3
|
-
"description": "Yi-1.5 34B، با استفاده از نمونههای آموزشی غنی، عملکرد برتری در کاربردهای صنعتی ارائه میدهد."
|
4
|
-
},
|
5
|
-
"01-ai/Yi-1.5-6B-Chat": {
|
6
|
-
"description": "Yi-1.5-6B-Chat یک واریانت از سری Yi-1.5 است که متعلق به مدلهای گفتگویی متن باز است. Yi-1.5 نسخه بهروز شده Yi است که بر روی 500B توکن با کیفیت بالا به طور مداوم پیشآموزش دیده و بر روی 3M نمونههای متنوع تنظیم دقیق شده است. در مقایسه با Yi، Yi-1.5 در تواناییهای کدنویسی، ریاضی، استدلال و پیروی از دستورات عملکرد بهتری دارد و در عین حال تواناییهای عالی در درک زبان، استدلال عمومی و درک خواندن را حفظ کرده است. این مدل دارای نسخههای طول زمینه 4K، 16K و 32K است و مجموع پیشآموزش به 3.6T توکن میرسد."
|
7
|
-
},
|
8
|
-
"01-ai/Yi-1.5-9B-Chat-16K": {
|
9
|
-
"description": "Yi-1.5 9B از 16K توکن پشتیبانی میکند و توانایی تولید زبان بهصورت کارآمد و روان را ارائه میدهد."
|
10
|
-
},
|
11
2
|
"01-ai/yi-1.5-34b-chat": {
|
12
3
|
"description": "Zero One Everything، جدیدترین مدل متن باز تنظیم شده با 34 میلیارد پارامتر، که تنظیمات آن از چندین سناریوی گفتگویی پشتیبانی میکند و دادههای آموزشی با کیفیت بالا را برای همراستایی با ترجیحات انسانی فراهم میکند."
|
13
4
|
},
|
@@ -149,12 +140,6 @@
|
|
149
140
|
"Llama-3.2-90B-Vision-Instruct\t": {
|
150
141
|
"description": "توانایی استدلال تصویری پیشرفته برای برنامههای نمایندگی درک بصری."
|
151
142
|
},
|
152
|
-
"LoRA/Qwen/Qwen2.5-72B-Instruct": {
|
153
|
-
"description": "Qwen2.5-72B-Instruct یکی از جدیدترین سری مدلهای زبانی بزرگ منتشر شده توسط Alibaba Cloud است. این مدل 72B در زمینههای کدنویسی و ریاضی دارای تواناییهای بهبود یافته قابل توجهی است. این مدل همچنین از پشتیبانی چند زبانه برخوردار است و بیش از 29 زبان از جمله چینی و انگلیسی را پوشش میدهد. این مدل در پیروی از دستورات، درک دادههای ساختاری و تولید خروجیهای ساختاری (به ویژه JSON) به طور قابل توجهی بهبود یافته است."
|
154
|
-
},
|
155
|
-
"LoRA/Qwen/Qwen2.5-7B-Instruct": {
|
156
|
-
"description": "Qwen2.5-7B-Instruct یکی از جدیدترین سری مدلهای زبانی بزرگ منتشر شده توسط Alibaba Cloud است. این مدل 7B در زمینههای کدنویسی و ریاضی دارای تواناییهای بهبود یافته قابل توجهی است. این مدل همچنین از پشتیبانی چند زبانه برخوردار است و بیش از 29 زبان از جمله چینی و انگلیسی را پوشش میدهد. این مدل در پیروی از دستورات، درک دادههای ساختاری و تولید خروجیهای ساختاری (به ویژه JSON) به طور قابل توجهی بهبود یافته است."
|
157
|
-
},
|
158
143
|
"Meta-Llama-3.1-405B-Instruct": {
|
159
144
|
"description": "مدل متنی تنظیم شده لاما 3.1 که برای موارد مکالمه چند زبانه بهینهسازی شده و در بسیاری از مدلهای چت متن باز و بسته موجود، در معیارهای صنعتی رایج عملکرد عالی دارد."
|
160
145
|
},
|
@@ -179,9 +164,6 @@
|
|
179
164
|
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
180
165
|
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) یک مدل دستورالعمل با دقت بالا است که برای محاسبات پیچیده مناسب است."
|
181
166
|
},
|
182
|
-
"OpenGVLab/InternVL2-26B": {
|
183
|
-
"description": "InternVL2 در وظایف مختلف زبان تصویری عملکرد برجستهای از خود نشان داده است، از جمله درک اسناد و نمودارها، درک متن صحنه، OCR، حل مسائل علمی و ریاضی و غیره."
|
184
|
-
},
|
185
167
|
"Phi-3-medium-128k-instruct": {
|
186
168
|
"description": "همان مدل Phi-3-medium، اما با اندازه بزرگتر زمینه، مناسب برای RAG یا تعداد کمی از دستورات."
|
187
169
|
},
|
@@ -206,9 +188,6 @@
|
|
206
188
|
"Phi-3.5-vision-instrust": {
|
207
189
|
"description": "نسخه بهروزرسانیشده مدل Phi-3-vision."
|
208
190
|
},
|
209
|
-
"Pro/OpenGVLab/InternVL2-8B": {
|
210
|
-
"description": "InternVL2 در وظایف مختلف زبان تصویری عملکرد برجستهای از خود نشان داده است، از جمله درک اسناد و نمودارها، درک متن صحنه، OCR، حل مسائل علمی و ریاضی و غیره."
|
211
|
-
},
|
212
191
|
"Pro/Qwen/Qwen2-1.5B-Instruct": {
|
213
192
|
"description": "Qwen2-1.5B-Instruct یک مدل زبانی بزرگ با تنظیم دقیق دستوری در سری Qwen2 است که اندازه پارامتر آن 1.5B است. این مدل بر اساس معماری Transformer ساخته شده و از تکنیکهای SwiGLU،偏置 QKV توجه و توجه گروهی استفاده میکند. این مدل در درک زبان، تولید، توانایی چند زبانه، کدنویسی، ریاضی و استدلال در چندین آزمون معیار عملکرد عالی دارد و از اکثر مدلهای متن باز پیشی گرفته است. در مقایسه با Qwen1.5-1.8B-Chat، Qwen2-1.5B-Instruct در آزمونهای MMLU، HumanEval، GSM8K، C-Eval و IFEval بهبود قابل توجهی در عملکرد نشان داده است، هرچند که تعداد پارامترها کمی کمتر است."
|
214
193
|
},
|
@@ -224,20 +203,23 @@
|
|
224
203
|
"Pro/Qwen/Qwen2.5-Coder-7B-Instruct": {
|
225
204
|
"description": "Qwen2.5-Coder-7B-Instruct جدیدترین نسخه از سری مدلهای زبانی بزرگ خاص کد است که توسط Alibaba Cloud منتشر شده است. این مدل بر اساس Qwen2.5 و با آموزش 5.5 تریلیون توکن، توانایی تولید کد، استدلال و اصلاح را به طور قابل توجهی افزایش داده است. این مدل نه تنها توانایی کدنویسی را تقویت کرده بلکه مزایای ریاضی و عمومی را نیز حفظ کرده است. این مدل پایهای جامعتر برای کاربردهای عملی مانند عاملهای کد فراهم میکند."
|
226
205
|
},
|
206
|
+
"Pro/Qwen/Qwen2.5-VL-7B-Instruct": {
|
207
|
+
"description": "Qwen2.5-VL عضو جدید سری Qwen است که توانایی قدرتمند درک بصری دارد. این مدل میتواند متن، نمودارها و طرحبندیهای درون تصاویر را تحلیل کند و همچنین قادر به درک ویدیوهای بلند و گرفتن رویدادهاست. این مدل میتواند استدلال کند، ابزارها را عملیاتی کند، و از چندین فرمت برای تعیین موقعیت اشیا و تولید خروجی ساختاری پشتیبانی میکند. همچنین، آن از رزولوشن و نرخ فریم پویا برای درک ویدیو بهینهسازی شده است و کارایی کدگذار بصری آن نیز افزایش یافته است."
|
208
|
+
},
|
227
209
|
"Pro/THUDM/glm-4-9b-chat": {
|
228
210
|
"description": "GLM-4-9B-Chat نسخه متن باز از مدلهای پیشآموزش شده سری GLM-4 است که توسط AI Zhizhu ارائه شده است. این مدل در زمینههای معنایی، ریاضی، استدلال، کد و دانش عملکرد عالی دارد. علاوه بر پشتیبانی از گفتگوی چند دور، GLM-4-9B-Chat همچنین دارای قابلیتهای پیشرفتهای مانند مرور وب، اجرای کد، فراخوانی ابزارهای سفارشی (Function Call) و استدلال متن طولانی است. این مدل از 26 زبان پشتیبانی میکند، از جمله چینی، انگلیسی، ژاپنی، کرهای و آلمانی. در چندین آزمون معیار، GLM-4-9B-Chat عملکرد عالی نشان داده است، مانند AlignBench-v2، MT-Bench، MMLU و C-Eval. این مدل از حداکثر طول زمینه 128K پشتیبانی میکند و برای تحقیقات علمی و کاربردهای تجاری مناسب است."
|
229
211
|
},
|
230
212
|
"Pro/deepseek-ai/DeepSeek-R1": {
|
231
213
|
"description": "DeepSeek-R1 یک مدل استنتاجی مبتنی بر یادگیری تقویتی (RL) است که مشکلات تکرار و خوانایی را در مدل حل میکند. قبل از RL، DeepSeek-R1 دادههای شروع سرد را معرفی کرده و عملکرد استنتاج را بهینهسازی کرده است. این مدل در وظایف ریاضی، کد و استنتاج با OpenAI-o1 عملکرد مشابهی دارد و از طریق روشهای آموزشی به دقت طراحی شده، عملکرد کلی را بهبود میبخشد."
|
232
214
|
},
|
233
|
-
"Pro/deepseek-ai/DeepSeek-
|
234
|
-
"description": "DeepSeek-
|
215
|
+
"Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B": {
|
216
|
+
"description": "DeepSeek-R1-Distill-Qwen-1.5B مدلی است که از Qwen2.5-Math-1.5B از طریق دستیابی به دانش (Knowledge Distillation) به دست آمده است. این مدل با استفاده از 800,000 نمونه انتخابی تولید شده توسط DeepSeek-R1 آموزش داده شده و در چندین تست استاندارد عملکرد خوبی نشان داده است. به عنوان یک مدل سبک، در MATH-500 دقت 83.9٪ را کسب کرده، در AIME 2024 نرخ موفقیت 28.9٪ داشته و در CodeForces نمره 954 به دست آورده که نشاندهنده توانایی استنتاج فراتر از حجم پارامترهای آن است."
|
235
217
|
},
|
236
|
-
"Pro/
|
237
|
-
"description": "
|
218
|
+
"Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B": {
|
219
|
+
"description": "DeepSeek-R1-Distill-Qwen-7B مدلی است که بر اساس Qwen2.5-Math-7B از طریق دستیابی به دانش (Knowledge Distillation) ساخته شده است. این مدل با استفاده از 800,000 نمونه انتخابی تولید شده توسط DeepSeek-R1 آموزش داده شده و توانایی استنتاج ممتازی نشان میدهد. این مدل در چندین تست استاندارد عملکرد خوبی داشته است، از جمله دقت 92.8٪ در MATH-500، نرخ موفقیت 55.5٪ در AIME 2024 و نمره 1189 در CodeForces، که نشاندهنده تواناییهای قوی ریاضی و برنامهنویسی برای یک مدل با حجم 7B است."
|
238
220
|
},
|
239
|
-
"Pro/
|
240
|
-
"description": "
|
221
|
+
"Pro/deepseek-ai/DeepSeek-V3": {
|
222
|
+
"description": "DeepSeek-V3 یک مدل زبان با 671 میلیارد پارامتر است که از معماری متخصصان ترکیبی (MoE) و توجه چندسر (MLA) استفاده میکند و با استراتژی تعادل بار بدون ضرر کمکی بهینهسازی کارایی استنتاج و آموزش را انجام میدهد. این مدل با پیشآموزش بر روی 14.8 تریلیون توکن با کیفیت بالا و انجام تنظیم دقیق نظارتی و یادگیری تقویتی، در عملکرد از سایر مدلهای متنباز پیشی میگیرد و به مدلهای بسته پیشرو نزدیک میشود."
|
241
223
|
},
|
242
224
|
"QwQ-32B-Preview": {
|
243
225
|
"description": "QwQ-32B-Preview یک مدل پردازش زبان طبیعی نوآورانه است که قادر به پردازش کارآمد مکالمات پیچیده و درک زمینه است."
|
@@ -290,6 +272,12 @@
|
|
290
272
|
"Qwen/Qwen2.5-Coder-7B-Instruct": {
|
291
273
|
"description": "Qwen2.5-Coder-7B-Instruct جدیدترین نسخه از سری مدلهای زبانی بزرگ خاص کد است که توسط Alibaba Cloud منتشر شده است. این مدل بر اساس Qwen2.5 و با آموزش 5.5 تریلیون توکن، توانایی تولید کد، استدلال و اصلاح را به طور قابل توجهی افزایش داده است. این مدل نه تنها توانایی کدنویسی را تقویت کرده بلکه مزایای ریاضی و عمومی را نیز حفظ کرده است. این مدل پایهای جامعتر برای کاربردهای عملی مانند عاملهای کد فراهم میکند."
|
292
274
|
},
|
275
|
+
"Qwen/Qwen2.5-VL-32B-Instruct": {
|
276
|
+
"description": "Qwen2.5-VL-32B-Instruct یک مدل چند حالتی از تیم Thousand Questions است که بخشی از سری Qwen2.5-VL میباشد. این مدل علاوه بر توانایی شناسایی اشیاء رایج، قادر به تحلیل متن، نمودار، نمادها، شکلها و طرحبندیهای درون تصاویر است. این مدل به عنوان یک هوش مصنوعی بصری عمل میکند، قادر به استدلال و کنترل ابزارها به صورت پویا است و توانایی استفاده از کامپیوتر و موبایل را دارد. علاوه بر این، این مدل میتواند اشیاء درون تصویر را با دقت بالا مکانیابی کند و برای فاکتورها، جداول و غیره خروجیهای ساختاریجادی تولید کند. نسبت به نسخه قبلی Qwen2-VL، این نسخه در تواناییهای ریاضی و حل مسئله از طریق یادگیری تقویتی پیشرفت کرده است و سبک پاسخگویی آن نیز بیشتر با ترجیحات انسانها هماهنگ است."
|
277
|
+
},
|
278
|
+
"Qwen/Qwen2.5-VL-72B-Instruct": {
|
279
|
+
"description": "Qwen2.5-VL مدل زبان و تصویر از سری Qwen2.5 است. این مدل در جنبههای مختلف بهبود یافته است: دارای توانایی تحلیل بصری قویتر، قادر به تشخیص اشیاء رایج، تحلیل متن، نمودارها و طرحبندی است؛ به عنوان یک عامل بصری میتواند استدلال کند و به طور پویا ابزارها را هدایت کند؛ از توانایی درک ویدیوهای طولانیتر از یک ساعت و شناسایی رویدادهای کلیدی برخوردار است؛ قادر به مکانیابی دقیق اشیاء در تصویر با تولید جعبههای مرزی یا نقاط است؛ و توانایی تولید خروجیهای ساختاریافته، به ویژه برای دادههای اسکن شده مانند فاکتورها و جداول را دارد."
|
280
|
+
},
|
293
281
|
"Qwen2-72B-Instruct": {
|
294
282
|
"description": "Qwen2 جدیدترین سری مدلهای Qwen است که از 128k زمینه پشتیبانی میکند. در مقایسه با بهترین مدلهای متنباز فعلی، Qwen2-72B در درک زبان طبیعی، دانش، کد، ریاضی و چندزبانگی به طور قابل توجهی از مدلهای پیشرو فعلی فراتر رفته است."
|
295
283
|
},
|
@@ -374,9 +362,6 @@
|
|
374
362
|
"TeleAI/TeleChat2": {
|
375
363
|
"description": "مدل بزرگ TeleChat2 توسط China Telecom از صفر تا یک به طور مستقل توسعه یافته و یک مدل معنایی تولیدی است که از قابلیتهایی مانند پرسش و پاسخ دایرهالمعارف، تولید کد و تولید متن طولانی پشتیبانی میکند و خدمات مشاوره گفتگویی را به کاربران ارائه میدهد. این مدل قادر به تعامل گفتگویی با کاربران، پاسخ به سوالات و کمک به خلاقیت است و به طور کارآمد و راحت به کاربران در دستیابی به اطلاعات، دانش و الهام کمک میکند. این مدل در زمینههای مشکلات توهم، تولید متن طولانی و درک منطقی عملکرد خوبی دارد."
|
376
364
|
},
|
377
|
-
"TeleAI/TeleMM": {
|
378
|
-
"description": "مدل بزرگ چندرسانهای TeleMM یک مدل بزرگ درک چندرسانهای است که توسط China Telecom به طور مستقل توسعه یافته و قادر به پردازش ورودیهای چندرسانهای از جمله متن و تصویر است و از قابلیتهایی مانند درک تصویر و تحلیل نمودار پشتیبانی میکند و خدمات درک چندرسانهای را به کاربران ارائه میدهد. این مدل قادر به تعامل چندرسانهای با کاربران است و محتوا را به دقت درک کرده و به سوالات پاسخ میدهد، به خلاقیت کمک میکند و به طور کارآمد اطلاعات و الهام چندرسانهای را ارائه میدهد. این مدل در وظایف چندرسانهای مانند درک دقیق، استدلال منطقی و غیره عملکرد خوبی دارد."
|
379
|
-
},
|
380
365
|
"Vendor-A/Qwen/Qwen2.5-72B-Instruct": {
|
381
366
|
"description": "Qwen2.5-72B-Instruct یکی از جدیدترین سری مدلهای زبانی بزرگ منتشر شده توسط Alibaba Cloud است. این مدل 72B در زمینههای کدنویسی و ریاضی دارای تواناییهای بهبود یافته قابل توجهی است. این مدل همچنین از پشتیبانی چند زبانه برخوردار است و بیش از 29 زبان از جمله چینی و انگلیسی را پوشش میدهد. این مدل در پیروی از دستورات، درک دادههای ساختاری و تولید خروجیهای ساختاری (به ویژه JSON) به طور قابل توجهی بهبود یافته است."
|
382
367
|
},
|
@@ -662,9 +647,6 @@
|
|
662
647
|
"deepseek-ai/DeepSeek-R1-Distill-Llama-70B": {
|
663
648
|
"description": "مدل تقطیر DeepSeek-R1 که با استفاده از یادگیری تقویتی و دادههای شروع سرد عملکرد استدلال را بهینهسازی کرده و مدلهای متنباز را به روز کرده است."
|
664
649
|
},
|
665
|
-
"deepseek-ai/DeepSeek-R1-Distill-Llama-8B": {
|
666
|
-
"description": "DeepSeek-R1-Distill-Llama-8B مدلی است که بر اساس Llama-3.1-8B توسعه یافته است. این مدل با استفاده از نمونههای تولید شده توسط DeepSeek-R1 برای تنظیم دقیق، توانایی استدلال عالی را نشان میدهد. در چندین آزمون معیار عملکرد خوبی داشته است، به طوری که در MATH-500 به دقت 89.1% و در AIME 2024 به نرخ قبولی 50.4% دست یافته و در CodeForces امتیاز 1205 را کسب کرده است و به عنوان مدلی با مقیاس 8B تواناییهای ریاضی و برنامهنویسی قوی را نشان میدهد."
|
667
|
-
},
|
668
650
|
"deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B": {
|
669
651
|
"description": "مدل تقطیر DeepSeek-R1 که با استفاده از یادگیری تقویتی و دادههای شروع سرد عملکرد استدلال را بهینهسازی کرده و مدلهای متنباز را به روز کرده است."
|
670
652
|
},
|
@@ -713,6 +695,9 @@
|
|
713
695
|
"deepseek-r1-70b-online": {
|
714
696
|
"description": "DeepSeek R1 70B نسخه استاندارد است که از جستجوی آنلاین زنده پشتیبانی میکند و برای گفتگوها و وظایف پردازش متنی که به اطلاعات جدید نیاز دارند، مناسب است."
|
715
697
|
},
|
698
|
+
"deepseek-r1-distill-llama": {
|
699
|
+
"description": "deepseek-r1-distill-llama مدلی است که بر اساس Llama از DeepSeek-R1 استخراج شده است."
|
700
|
+
},
|
716
701
|
"deepseek-r1-distill-llama-70b": {
|
717
702
|
"description": "DeepSeek R1 - مدل بزرگتر و هوشمندتر در مجموعه DeepSeek - به معماری Llama 70B تقطیر شده است. بر اساس آزمونهای معیار و ارزیابیهای انسانی، این مدل از Llama 70B اصلی هوشمندتر است، به ویژه در وظایفی که نیاز به دقت ریاضی و واقعی دارند."
|
718
703
|
},
|
@@ -725,6 +710,9 @@
|
|
725
710
|
"deepseek-r1-distill-qianfan-llama-8b": {
|
726
711
|
"description": "این مدل در تاریخ 14 فوریه 2025 برای اولین بار منتشر شد و توسط تیم توسعه مدل بزرگ Qianfan با استفاده از Llama3_8B به عنوان مدل پایه (ساخته شده با متا لاما) تقطیر شده است و دادههای تقطیر شده همچنین شامل متون Qianfan است."
|
727
712
|
},
|
713
|
+
"deepseek-r1-distill-qwen": {
|
714
|
+
"description": "deepseek-r1-distill-qwen مدلی است که بر اساس Qwen از DeepSeek-R1 استخراج شده است."
|
715
|
+
},
|
728
716
|
"deepseek-r1-distill-qwen-1.5b": {
|
729
717
|
"description": "مدلهای سری DeepSeek-R1-Distill از طریق تکنیک تقطیر دانش، نمونههای تولید شده توسط DeepSeek-R1 را برای تنظیم دقیق بر روی مدلهای متنباز مانند Qwen و Llama به کار میبرند."
|
730
718
|
},
|
@@ -872,6 +860,9 @@
|
|
872
860
|
"gemini-1.5-flash-8b-exp-0924": {
|
873
861
|
"description": "Gemini 1.5 Flash 8B 0924 جدیدترین مدل آزمایشی است که در موارد استفاده متنی و چندوجهی بهبود عملکرد قابل توجهی دارد."
|
874
862
|
},
|
863
|
+
"gemini-1.5-flash-8b-latest": {
|
864
|
+
"description": "جیمنی ۱.۵ فلاش ۸ب یک مدل چند حالتی کارآمد است که پشتیبانی از گسترهای وسیع از کاربردها را فراهم میکند."
|
865
|
+
},
|
875
866
|
"gemini-1.5-flash-exp-0827": {
|
876
867
|
"description": "Gemini 1.5 Flash 0827 دارای تواناییهای بهینهشده پردازش چندرسانهای است و مناسب برای انواع سناریوهای پیچیده است."
|
877
868
|
},
|
@@ -914,9 +905,6 @@
|
|
914
905
|
"gemini-2.0-flash-lite-preview-02-05": {
|
915
906
|
"description": "مدل Gemini 2.0 Flash که برای بهینهسازی هزینه و تأخیر کم طراحی شده است."
|
916
907
|
},
|
917
|
-
"gemini-2.0-flash-thinking-exp": {
|
918
|
-
"description": "Gemini 2.0 Flash Exp جدیدترین مدل AI چندرسانهای آزمایشی گوگل است که دارای ویژگیهای نسل بعدی، سرعت فوقالعاده، فراخوانی ابزار بومی و تولید چندرسانهای است."
|
919
|
-
},
|
920
908
|
"gemini-2.0-flash-thinking-exp-01-21": {
|
921
909
|
"description": "Gemini 2.0 Flash Exp جدیدترین مدل AI چندرسانهای آزمایشی گوگل است که دارای ویژگیهای نسل بعدی، سرعت فوقالعاده، فراخوانی ابزار بومی و تولید چندرسانهای است."
|
922
910
|
},
|
@@ -1223,6 +1211,9 @@
|
|
1223
1211
|
"llama-3.1-8b-instant": {
|
1224
1212
|
"description": "Llama 3.1 8B یک مدل با کارایی بالا است که توانایی تولید سریع متن را فراهم میکند و برای کاربردهایی که به بهرهوری و صرفهجویی در هزینه در مقیاس بزرگ نیاز دارند، بسیار مناسب است."
|
1225
1213
|
},
|
1214
|
+
"llama-3.1-instruct": {
|
1215
|
+
"description": "مدل آموزشی لاما 3.1 برای بهینهسازی در صحنههای گفتوگو طراحی شده است و در معیارهای صنعتی معمول، بسیاری از مدلهای چت منبع باز موجود را در برابر گذاشته است."
|
1216
|
+
},
|
1226
1217
|
"llama-3.2-11b-vision-instruct": {
|
1227
1218
|
"description": "توانایی استدلال تصویری عالی در تصاویر با وضوح بالا، مناسب برای برنامههای درک بصری."
|
1228
1219
|
},
|
@@ -1235,12 +1226,18 @@
|
|
1235
1226
|
"llama-3.2-90b-vision-preview": {
|
1236
1227
|
"description": "لاما 3.2 برای انجام وظایفی که ترکیبی از دادههای بصری و متنی هستند طراحی شده است. این مدل در وظایفی مانند توصیف تصاویر و پرسش و پاسخ بصری عملکرد بسیار خوبی دارد و فاصله بین تولید زبان و استدلال بصری را پر میکند."
|
1237
1228
|
},
|
1229
|
+
"llama-3.2-vision-instruct": {
|
1230
|
+
"description": "مدل میکروآموزش Llama 3.2-Vision برای شناسایی بصری، استدلال تصویری، توصیف تصویر و پاسخ به سوالات مربوط به تصویر بهینهسازی شده است."
|
1231
|
+
},
|
1238
1232
|
"llama-3.3-70b-instruct": {
|
1239
1233
|
"description": "Llama 3.3 پیشرفتهترین مدل زبان چندزبانه و متنباز در سری Llama است که تجربهای با هزینه بسیار پایین مشابه عملکرد مدل 405B را ارائه میدهد. این مدل بر اساس ساختار Transformer طراحی شده و از طریق تنظیم دقیق نظارتی (SFT) و یادگیری تقویتی با بازخورد انسانی (RLHF) بهبود کارایی و ایمنی یافته است. نسخه بهینهسازی شده آن برای مکالمات چندزبانه طراحی شده و در چندین معیار صنعتی از بسیاری از مدلهای چت متنباز و بسته بهتر عمل میکند. تاریخ قطع دانش آن دسامبر 2023 است."
|
1240
1234
|
},
|
1241
1235
|
"llama-3.3-70b-versatile": {
|
1242
1236
|
"description": "مدل زبان بزرگ چند زبانه Meta Llama 3.3 (LLM) یک مدل تولیدی پیشآموزش دیده و تنظیمشده در 70B (ورودی متن/خروجی متن) است. مدل متن خالص Llama 3.3 برای کاربردهای گفتگوی چند زبانه بهینهسازی شده و در معیارهای صنعتی معمول در مقایسه با بسیاری از مدلهای چت متنباز و بسته عملکرد بهتری دارد."
|
1243
1237
|
},
|
1238
|
+
"llama-3.3-instruct": {
|
1239
|
+
"description": "مدل آموزشی لاما ۳.۳ برای صحنههای گفتوگو بهینهسازی شده است و در معیارهای صنعتی معمول، بسیاری از مدلهای چت منبع باز موجود را در برمیآید."
|
1240
|
+
},
|
1244
1241
|
"llama3-70b-8192": {
|
1245
1242
|
"description": "متا لاما ۳ ۷۰B توانایی پردازش پیچیدگی بینظیری را ارائه میدهد و برای پروژههای با نیازهای بالا طراحی شده است."
|
1246
1243
|
},
|
@@ -1319,9 +1316,6 @@
|
|
1319
1316
|
"meta-llama/Llama-3.2-90B-Vision-Instruct-Turbo": {
|
1320
1317
|
"description": "LLaMA 3.2 برای انجام وظایفی که ترکیبی از دادههای بصری و متنی هستند طراحی شده است. این مدل در وظایفی مانند توصیف تصویر و پرسش و پاسخ بصری عملکرد بسیار خوبی دارد و فاصله بین تولید زبان و استدلال بصری را پر میکند."
|
1321
1318
|
},
|
1322
|
-
"meta-llama/Llama-3.3-70B-Instruct": {
|
1323
|
-
"description": "Llama 3.3 پیشرفتهترین مدل زبان بزرگ چند زبانه متن باز از سری Llama، با هزینه بسیار کم، تجربهای مشابه با عملکرد مدل 405B. بر پایه ساختار Transformer و با بهبود کارایی و ایمنی از طریق تنظیم دقیق نظارتی (SFT) و یادگیری تقویتی با بازخورد انسانی (RLHF). نسخه بهینهسازی شده برای دستورالعملها به طور خاص برای مکالمات چند زبانه بهینهسازی شده و در چندین معیار صنعتی بهتر از بسیاری از مدلهای چت متن باز و بسته عمل میکند. تاریخ قطع دانش تا دسامبر 2023."
|
1324
|
-
},
|
1325
1319
|
"meta-llama/Llama-3.3-70B-Instruct-Turbo": {
|
1326
1320
|
"description": "مدل بزرگ زبان چند زبانه Meta Llama 3.3 (LLM) یک مدل تولیدی پیشآموزش و تنظیم دستوری در 70B (ورودی متن/خروجی متن) است. مدل تنظیم دستوری Llama 3.3 به طور خاص برای موارد استفاده مکالمه چند زبانه بهینهسازی شده و در معیارهای صنعتی رایج از بسیاری از مدلهای چت متنباز و بسته موجود بهتر عمل میکند."
|
1327
1321
|
},
|
@@ -1349,15 +1343,9 @@
|
|
1349
1343
|
"meta-llama/Meta-Llama-3.1-70B": {
|
1350
1344
|
"description": "Llama 3.1 مدل پیشرو ارائه شده توسط Meta است که از حداکثر 405B پارامتر پشتیبانی میکند و میتواند در زمینههای گفتگوهای پیچیده، ترجمه چند زبانه و تحلیل دادهها استفاده شود."
|
1351
1345
|
},
|
1352
|
-
"meta-llama/Meta-Llama-3.1-70B-Instruct": {
|
1353
|
-
"description": "LLaMA 3.1 70B پشتیبانی کارآمد از مکالمات چندزبانه را ارائه میدهد."
|
1354
|
-
},
|
1355
1346
|
"meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo": {
|
1356
1347
|
"description": "مدل Llama 3.1 70B بهطور دقیق تنظیم شده است و برای برنامههای با بار سنگین مناسب است. با کمیتسازی به FP8، توان محاسباتی و دقت بیشتری ارائه میدهد و عملکرد برتری را در سناریوهای پیچیده تضمین میکند."
|
1357
1348
|
},
|
1358
|
-
"meta-llama/Meta-Llama-3.1-8B-Instruct": {
|
1359
|
-
"description": "LLaMA 3.1 پشتیبانی چندزبانه ارائه میدهد و یکی از مدلهای پیشرو در صنعت تولید محتوا است."
|
1360
|
-
},
|
1361
1349
|
"meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo": {
|
1362
1350
|
"description": "مدل Llama 3.1 8B از کوانتیزاسیون FP8 استفاده میکند و از حداکثر 131,072 توکن متنی پشتیبانی میکند. این مدل یکی از بهترینها در میان مدلهای متنباز است و برای وظایف پیچیده مناسب بوده و در بسیاری از معیارهای صنعتی عملکرد برتری دارد."
|
1363
1351
|
},
|
@@ -1451,12 +1439,18 @@
|
|
1451
1439
|
"mistral-large": {
|
1452
1440
|
"description": "Mixtral Large مدل پرچمدار Mistral است که توانایی تولید کد، ریاضیات و استدلال را ترکیب میکند و از پنجره متنی ۱۲۸k پشتیبانی میکند."
|
1453
1441
|
},
|
1442
|
+
"mistral-large-instruct": {
|
1443
|
+
"description": "Mistral-Large-Instruct-2407 یک مدل زبانی بزرگ و پیشرفته (LLM) است که ۱۲۳ میلیارد پارامتر دارد و توانایی استدلال، دانش و برنامهنویسی مدرن را در خود جمع آوری کرده است."
|
1444
|
+
},
|
1454
1445
|
"mistral-large-latest": {
|
1455
1446
|
"description": "Mistral Large یک مدل بزرگ پرچمدار است که در انجام وظایف چندزبانه، استدلال پیچیده و تولید کد مهارت دارد و انتخابی ایدهآل برای کاربردهای سطح بالا است."
|
1456
1447
|
},
|
1457
1448
|
"mistral-nemo": {
|
1458
1449
|
"description": "Mistral Nemo توسط Mistral AI و NVIDIA بهطور مشترک عرضه شده است و یک مدل ۱۲ میلیاردی با کارایی بالا میباشد."
|
1459
1450
|
},
|
1451
|
+
"mistral-nemo-instruct": {
|
1452
|
+
"description": "مدل زبانی بزرگ (LLM) میسترال-نیمو-آموزش-۲۴۰۷ نسخهای از میسترال-نیمو-پایه-۲۴۰۷ است که برای اجرای دستورالعملها آموزش داده شده است."
|
1453
|
+
},
|
1460
1454
|
"mistral-small": {
|
1461
1455
|
"description": "Mistral Small میتواند برای هر وظیفهای که نیاز به کارایی بالا و تأخیر کم دارد، مبتنی بر زبان استفاده شود."
|
1462
1456
|
},
|
@@ -1670,15 +1664,6 @@
|
|
1670
1664
|
"qwen/qwen2.5-coder-7b-instruct": {
|
1671
1665
|
"description": "مدل کد قدرتمند و متوسط که از طول زمینه 32K پشتیبانی میکند و در برنامهنویسی چند زبانه مهارت دارد."
|
1672
1666
|
},
|
1673
|
-
"qwen1.5-14b-chat": {
|
1674
|
-
"description": "سری Qwen1.5 نسخه بیتا از Qwen2 است، که یک مدل زبانی تنها دکد کننده بر پایه Transformer است که روی دادههای بسیار زیاد آموزش داده شده است. نسبت به نسخههای قبلی سری Qwen، هم مدل base و هم مدل chat سری Qwen1.5 قادر به پشتیبانی از زبانهای مختلف هستند و در مجموع در چت و تواناییهای پایه بهبود یافتهاند. Qwen1.5-14b-chat یک مدل با 14 میلیارد پارامتر است که برای صحنههای چت طراحی شده است."
|
1675
|
-
},
|
1676
|
-
"qwen1.5-32b-chat": {
|
1677
|
-
"description": "سری Qwen1.5 نسخه بتهای Qwen2 است، یک مدل زبانی تنها دیکد کننده بر پایه Transformer است که روی دادههای بسیار زیاد پیش آموزش داده شده است. نسبت به نسخههای قبلی سری Qwen، هم مدلهای base و chat سری Qwen1.5 چندین زبان را پشتیبانی میکنند و در مکالمات کلی و تواناییهای پایه بهبود یافتهاند. Qwen1.5-32b-chat مدل 32 میلیارد پارامتری است که برای صحنههای چت تخصصیتر است، نسبت به مدل 14 میلیارد پارامتری در صحنههای هوشمند تر است و نسبت به مدل 72 میلیارد پارامتری هزینه استنتاج کمتری دارد."
|
1678
|
-
},
|
1679
|
-
"qwen1.5-72b-chat": {
|
1680
|
-
"description": "سری Qwen1.5 نسخه بیتا از Qwen2 است، که یک مدل زبانی تنها دکد کننده بر پایه Transformer است و روی دادههای بسیار زیاد آموزش داده شده است. نسبت به نسخههای قبلی سری Qwen، هم مدل base و هم مدل chat سری Qwen1.5 قادر به پشتیبانی از زبانهای مختلف هستند و در مجموع در چت و تواناییهای پایه بهبود یافتهاند. Qwen1.5-72b-chat مدل گستردهای با 72 میلیارد پارامتر است که برای صحنههای چت تخصصی است."
|
1681
|
-
},
|
1682
1667
|
"qwen2": {
|
1683
1668
|
"description": "Qwen2 مدل زبان بزرگ نسل جدید علیبابا است که با عملکرد عالی از نیازهای متنوع کاربردی پشتیبانی میکند."
|
1684
1669
|
},
|
@@ -1715,6 +1700,12 @@
|
|
1715
1700
|
"qwen2.5-coder-7b-instruct": {
|
1716
1701
|
"description": "نسخه متنباز مدل کدنویسی تونگی چیانون."
|
1717
1702
|
},
|
1703
|
+
"qwen2.5-coder-instruct": {
|
1704
|
+
"description": "Qwen2.5-Coder جدیدترین مدل زبانی بزرگ مخصوص کد نویسی از سری Qwen (که قبلاً با نام CodeQwen شناخته میشد) است."
|
1705
|
+
},
|
1706
|
+
"qwen2.5-instruct": {
|
1707
|
+
"description": "Qwen2.5 جدیدترین سری مدلهای زبانی بزرگ Qwen است. برای Qwen2.5، ما چندین مدل زبانی پایه و مدلهای زبانی با تنظیم دستورالعملهای میکرو منتشر کردهایم که تعداد پارامتر آنها از 500 میلیون تا 7.2 میلیارد متفاوت است."
|
1708
|
+
},
|
1718
1709
|
"qwen2.5-math-1.5b-instruct": {
|
1719
1710
|
"description": "مدل Qwen-Math دارای قابلیتهای قوی حل مسئله ریاضی است."
|
1720
1711
|
},
|
@@ -1724,12 +1715,18 @@
|
|
1724
1715
|
"qwen2.5-math-7b-instruct": {
|
1725
1716
|
"description": "مدل Qwen-Math دارای توانایی قوی در حل مسائل ریاضی است."
|
1726
1717
|
},
|
1718
|
+
"qwen2.5-vl-32b-instruct": {
|
1719
|
+
"description": "سری مدلهای Qwen2.5-VL سطح هوش، کاربردی بودن و مناسب بودن مدل را افزایش داده است تا عملکرد بهتری در مکالمات طبیعی، خلق محتوا، ارائه خدمات دانش تخصصی و توسعه کد ارائه دهد. نسخه 32B با استفاده از تکنیکهای یادگیری تقویتی مدل را بهینه کرده است و نسبت به سایر مدلهای سری Qwen2.5 VL، سبک خروجی مطابق با ترجیحات انسانی، توانایی استدلال در مسائل ریاضی پیچیده و درک و استدلال دقیق تصاویر را فراهم میکند."
|
1720
|
+
},
|
1727
1721
|
"qwen2.5-vl-72b-instruct": {
|
1728
1722
|
"description": "پیروی از دستورات، ریاضیات، حل مسائل، بهبود کلی کد، بهبود توانایی شناسایی همه چیز، پشتیبانی از فرمتهای مختلف برای شناسایی دقیق عناصر بصری، پشتیبانی از درک فایلهای ویدیویی طولانی (حداکثر 10 دقیقه) و شناسایی لحظات رویداد در سطح ثانیه، توانایی درک زمان و سرعت، بر اساس توانایی تجزیه و تحلیل و شناسایی، پشتیبانی از کنترل عاملهای OS یا Mobile، توانایی استخراج اطلاعات کلیدی و خروجی به فرمت Json قوی، این نسخه 72B است و قویترین نسخه در این سری است."
|
1729
1723
|
},
|
1730
1724
|
"qwen2.5-vl-7b-instruct": {
|
1731
1725
|
"description": "پیروی از دستورات، ریاضیات، حل مسائل، بهبود کلی کد، بهبود توانایی شناسایی همه چیز، پشتیبانی از فرمتهای مختلف برای شناسایی دقیق عناصر بصری، پشتیبانی از درک فایلهای ویدیویی طولانی (حداکثر 10 دقیقه) و شناسایی لحظات رویداد در سطح ثانیه، توانایی درک زمان و سرعت، بر اساس توانایی تجزیه و تحلیل و شناسایی، پشتیبانی از کنترل عاملهای OS یا Mobile، توانایی استخراج اطلاعات کلیدی و خروجی به فرمت Json قوی، این نسخه 72B است و قویترین نسخه در این سری است."
|
1732
1726
|
},
|
1727
|
+
"qwen2.5-vl-instruct": {
|
1728
|
+
"description": "Qwen2.5-VL نسخه جدید مدل زبانی و بصری از خانواده مدلهای Qwen است."
|
1729
|
+
},
|
1733
1730
|
"qwen2.5:0.5b": {
|
1734
1731
|
"description": "Qwen2.5 نسل جدید مدل زبانی مقیاس بزرگ Alibaba است که با عملکرد عالی از نیازهای متنوع کاربردی پشتیبانی میکند."
|
1735
1732
|
},
|
@@ -146,6 +146,9 @@
|
|
146
146
|
"xai": {
|
147
147
|
"description": "xAI یک شرکت است که به ساخت هوش مصنوعی برای تسریع کشفیات علمی بشر اختصاص دارد. مأموریت ما پیشبرد درک مشترک ما از جهان است."
|
148
148
|
},
|
149
|
+
"xinference": {
|
150
|
+
"description": "Xorbits Inference (Xinference) یک پلتفرم اپنسورس برای سادهسازی اجرای و ادغام انواع مدلهای هوش مصنوعی است. با کمک Xinference، شما میتوانید هر مدل زبانی اپنسورس، مدلهای مبتنی بر بردار و مدلهای چندمدیا را در محیطهای ابری یا محلی اجرا کرده و برنامههای AI قدرتمند ایجاد کنید."
|
151
|
+
},
|
149
152
|
"zeroone": {
|
150
153
|
"description": "صفر و یک متعهد به پیشبرد انقلاب فناوری AI 2.0 با محوریت انسان است و هدف آن ایجاد ارزش اقتصادی و اجتماعی عظیم از طریق مدلهای زبانی بزرگ و همچنین ایجاد اکوسیستم جدید هوش مصنوعی و مدلهای تجاری است."
|
151
154
|
},
|