@lobehub/chat 1.35.0 → 1.35.1
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/CHANGELOG.md +25 -0
- package/changelog/v1.json +9 -0
- package/docs/changelog/2024-07-19-gpt-4o-mini.mdx +32 -0
- package/docs/changelog/2024-07-19-gpt-4o-mini.zh-CN.mdx +5 -4
- package/docs/changelog/2024-08-02-lobe-chat-database-docker.mdx +36 -0
- package/docs/changelog/2024-08-02-lobe-chat-database-docker.zh-CN.mdx +0 -1
- package/docs/changelog/2024-08-21-file-upload-and-knowledge-base.mdx +30 -0
- package/docs/changelog/2024-08-21-file-upload-and-knowledge-base.zh-CN.mdx +0 -1
- package/docs/changelog/2024-09-13-openai-o1-models.mdx +31 -0
- package/docs/changelog/2024-09-20-artifacts.mdx +55 -0
- package/docs/changelog/2024-09-20-artifacts.zh-CN.mdx +3 -2
- package/docs/changelog/2024-10-27-pin-assistant.mdx +33 -0
- package/docs/changelog/2024-10-27-pin-assistant.zh-CN.mdx +0 -1
- package/docs/changelog/2024-11-06-share-text-json.mdx +24 -0
- package/docs/changelog/2024-11-06-share-text-json.zh-CN.mdx +3 -1
- package/docs/changelog/2024-11-25-november-providers.mdx +5 -5
- package/docs/changelog/2024-11-25-november-providers.zh-CN.mdx +5 -5
- package/docs/changelog/2024-11-27-forkable-chat.mdx +26 -0
- package/docs/changelog/2024-11-27-forkable-chat.zh-CN.mdx +16 -9
- package/docs/changelog/index.json +1 -1
- package/docs/self-hosting/environment-variables/analytics.mdx +1 -1
- package/locales/ar/models.json +94 -7
- package/locales/bg-BG/models.json +94 -7
- package/locales/de-DE/models.json +94 -7
- package/locales/en-US/models.json +94 -7
- package/locales/es-ES/models.json +94 -7
- package/locales/fa-IR/models.json +94 -7
- package/locales/fr-FR/models.json +94 -7
- package/locales/it-IT/models.json +94 -7
- package/locales/ja-JP/models.json +94 -7
- package/locales/ko-KR/models.json +94 -7
- package/locales/nl-NL/models.json +94 -7
- package/locales/pl-PL/models.json +94 -7
- package/locales/pt-BR/models.json +94 -7
- package/locales/ru-RU/models.json +94 -7
- package/locales/tr-TR/models.json +94 -7
- package/locales/vi-VN/models.json +94 -7
- package/locales/zh-CN/models.json +121 -34
- package/locales/zh-TW/models.json +94 -7
- package/package.json +1 -1
- package/src/config/modelProviders/ollama.ts +84 -35
@@ -2,6 +2,9 @@
|
|
2
2
|
"01-ai/Yi-1.5-34B-Chat-16K": {
|
3
3
|
"description": "Yi-1.5 34Bは豊富な訓練サンプルを用いて業界アプリケーションで優れたパフォーマンスを提供します。"
|
4
4
|
},
|
5
|
+
"01-ai/Yi-1.5-6B-Chat": {
|
6
|
+
"description": "Yi-1.5-6B-ChatはYi-1.5シリーズの変種で、オープンソースのチャットモデルに属します。Yi-1.5はYiのアップグレード版で、500Bの高品質コーパスで継続的に事前訓練され、3Mの多様な微調整サンプルで微調整されています。Yiと比較して、Yi-1.5はコーディング、数学、推論、指示遵守能力においてより強力な性能を示し、優れた言語理解、常識推論、読解能力を維持しています。このモデルは4K、16K、32Kのコンテキスト長バージョンを持ち、事前訓練の総量は3.6Tトークンに達します。"
|
7
|
+
},
|
5
8
|
"01-ai/Yi-1.5-9B-Chat-16K": {
|
6
9
|
"description": "Yi-1.5 9Bは16Kトークンをサポートし、高効率でスムーズな言語生成能力を提供します。"
|
7
10
|
},
|
@@ -91,6 +94,12 @@
|
|
91
94
|
"Gryphe/MythoMax-L2-13b": {
|
92
95
|
"description": "MythoMax-L2 (13B)は、革新的なモデルであり、多分野のアプリケーションや複雑なタスクに適しています。"
|
93
96
|
},
|
97
|
+
"LoRA/Qwen/Qwen2.5-72B-Instruct": {
|
98
|
+
"description": "Qwen2.5-72B-InstructはAlibaba Cloudが発表した最新の大規模言語モデルシリーズの一つです。この72Bモデルはコーディングや数学などの分野で顕著な能力の改善を持っています。このモデルは29以上の言語をカバーする多言語サポートも提供しており、中国語、英語などが含まれています。モデルは指示の遵守、構造化データの理解、特にJSONのような構造化出力の生成において顕著な向上を示しています。"
|
99
|
+
},
|
100
|
+
"LoRA/Qwen/Qwen2.5-7B-Instruct": {
|
101
|
+
"description": "Qwen2.5-7B-InstructはAlibaba Cloudが発表した最新の大規模言語モデルシリーズの一つです。この7Bモデルはコーディングや数学などの分野で顕著な能力の改善を持っています。このモデルは29以上の言語をカバーする多言語サポートも提供しており、中国語、英語などが含まれています。モデルは指示の遵守、構造化データの理解、特にJSONのような構造化出力の生成において顕著な向上を示しています。"
|
102
|
+
},
|
94
103
|
"Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
95
104
|
"description": "Hermes 2 Mixtral 8x7B DPOは非常に柔軟なマルチモデル統合で、卓越した創造的体験を提供することを目的としています。"
|
96
105
|
},
|
@@ -98,9 +107,6 @@
|
|
98
107
|
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
99
108
|
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B)は、高精度の指示モデルであり、複雑な計算に適しています。"
|
100
109
|
},
|
101
|
-
"NousResearch/Nous-Hermes-2-Yi-34B": {
|
102
|
-
"description": "Nous Hermes-2 Yi (34B)は、最適化された言語出力と多様なアプリケーションの可能性を提供します。"
|
103
|
-
},
|
104
110
|
"OpenGVLab/InternVL2-26B": {
|
105
111
|
"description": "InternVL2はさまざまな視覚と言語タスクで卓越した性能を発揮しており、文書や図表の理解、シーンテキストの理解、OCR、科学および数学の問題解決などを含みます。"
|
106
112
|
},
|
@@ -134,18 +140,42 @@
|
|
134
140
|
"Pro/OpenGVLab/InternVL2-8B": {
|
135
141
|
"description": "InternVL2はさまざまな視覚と言語タスクで卓越した性能を発揮しており、文書や図表の理解、シーンテキストの理解、OCR、科学および数学の問題解決などを含みます。"
|
136
142
|
},
|
143
|
+
"Pro/Qwen/Qwen2-1.5B-Instruct": {
|
144
|
+
"description": "Qwen2-1.5B-InstructはQwen2シリーズの指示微調整大規模言語モデルで、パラメータ規模は1.5Bです。このモデルはTransformerアーキテクチャに基づき、SwiGLU活性化関数、注意QKVバイアス、グループクエリ注意などの技術を採用しています。言語理解、生成、多言語能力、コーディング、数学、推論などの複数のベンチマークテストで優れたパフォーマンスを示し、ほとんどのオープンソースモデルを超えています。Qwen1.5-1.8B-Chatと比較して、Qwen2-1.5B-InstructはMMLU、HumanEval、GSM8K、C-Eval、IFEvalなどのテストで顕著な性能向上を示していますが、パラメータ数はわずかに少ないです。"
|
145
|
+
},
|
146
|
+
"Pro/Qwen/Qwen2-7B-Instruct": {
|
147
|
+
"description": "Qwen2-7B-InstructはQwen2シリーズの指示微調整大規模言語モデルで、パラメータ規模は7Bです。このモデルはTransformerアーキテクチャに基づき、SwiGLU活性化関数、注意QKVバイアス、グループクエリ注意などの技術を採用しています。大規模な入力を処理することができます。このモデルは言語理解、生成、多言語能力、コーディング、数学、推論などの複数のベンチマークテストで優れたパフォーマンスを示し、ほとんどのオープンソースモデルを超え、特定のタスクでは専有モデルと同等の競争力を示しています。Qwen2-7B-Instructは多くの評価でQwen1.5-7B-Chatを上回り、顕著な性能向上を示しています。"
|
148
|
+
},
|
137
149
|
"Pro/Qwen/Qwen2-VL-7B-Instruct": {
|
138
150
|
"description": "Qwen2-VLはQwen-VLモデルの最新のイテレーションで、視覚理解のベンチマークテストで最先端の性能を達成しました。"
|
139
151
|
},
|
140
|
-
"Qwen/
|
141
|
-
"description": "Qwen2
|
152
|
+
"Pro/Qwen/Qwen2.5-7B-Instruct": {
|
153
|
+
"description": "Qwen2.5-7B-InstructはAlibaba Cloudが発表した最新の大規模言語モデルシリーズの一つです。この7Bモデルはコーディングや数学などの分野で顕著な能力の改善を持っています。このモデルは29以上の言語をカバーする多言語サポートも提供しており、中国語、英語などが含まれています。モデルは指示の遵守、構造化データの理解、特にJSONのような構造化出力の生成において顕著な向上を示しています。"
|
154
|
+
},
|
155
|
+
"Pro/Qwen/Qwen2.5-Coder-7B-Instruct": {
|
156
|
+
"description": "Qwen2.5-Coder-7B-InstructはAlibaba Cloudが発表したコード特化型大規模言語モデルシリーズの最新バージョンです。このモデルはQwen2.5を基に、55兆トークンの訓練を通じて、コード生成、推論、修正能力を大幅に向上させました。コーディング能力を強化するだけでなく、数学および一般的な能力の利点も維持しています。このモデルはコードエージェントなどの実際のアプリケーションに対して、より包括的な基盤を提供します。"
|
157
|
+
},
|
158
|
+
"Pro/THUDM/glm-4-9b-chat": {
|
159
|
+
"description": "GLM-4-9B-Chatは智譜AIが提供するGLM-4シリーズの事前訓練モデルのオープンバージョンです。このモデルは意味、数学、推論、コード、知識などの複数の側面で優れたパフォーマンスを示します。多輪対話をサポートするだけでなく、GLM-4-9B-Chatはウェブブラウジング、コード実行、カスタムツール呼び出し(Function Call)、長文推論などの高度な機能も備えています。モデルは中国語、英語、日本語、韓国語、ドイツ語など26の言語をサポートしています。多くのベンチマークテストで、GLM-4-9B-Chatは優れた性能を示し、AlignBench-v2、MT-Bench、MMLU、C-Evalなどでの評価が行われています。このモデルは最大128Kのコンテキスト長をサポートし、学術研究や商業アプリケーションに適しています。"
|
142
160
|
},
|
143
|
-
"
|
144
|
-
"description": "
|
161
|
+
"Pro/google/gemma-2-9b-it": {
|
162
|
+
"description": "GemmaはGoogleが開発した軽量で最先端のオープンモデルシリーズの一つです。これはデコーダーのみの大規模言語モデルで、英語をサポートし、オープンウェイト、事前訓練バリアント、指示微調整バリアントを提供します。Gemmaモデルは質問応答、要約、推論などのさまざまなテキスト生成タスクに適しています。この9Bモデルは8兆トークンで訓練されました。その比較的小さな規模により、リソースが限られた環境(ノートパソコン、デスクトップ、または自分のクラウドインフラストラクチャなど)でのデプロイが可能になり、より多くの人々が最先端のAIモデルにアクセスできるようになり、革新を促進します。"
|
163
|
+
},
|
164
|
+
"Pro/meta-llama/Meta-Llama-3.1-8B-Instruct": {
|
165
|
+
"description": "Meta Llama 3.1はMetaが開発した多言語大規模言語モデルファミリーで、8B、70B、405Bの3つのパラメータ規模の事前訓練および指示微調整バリアントを含みます。この8B指示微調整モデルは多言語対話シーンに最適化されており、複数の業界ベンチマークテストで優れたパフォーマンスを示しています。モデルの訓練には150兆トークン以上の公開データが使用され、監視微調整や人間のフィードバック強化学習などの技術が採用され、モデルの有用性と安全性が向上しています。Llama 3.1はテキスト生成とコード生成をサポートし、知識のカットオフ日は2023年12月です。"
|
166
|
+
},
|
167
|
+
"Qwen/QwQ-32B-Preview": {
|
168
|
+
"description": "QwQ-32B-PreviewはQwenの最新の実験的研究モデルで、AIの推論能力を向上させることに特化しています。言語の混合、再帰的推論などの複雑なメカニズムを探求することで、主な利点は強力な推論分析能力、数学およびプログラミング能力です。同時に、言語切り替えの問題、推論のループ、安全性の考慮、その他の能力の違いも存在します。"
|
169
|
+
},
|
170
|
+
"Qwen/Qwen2-1.5B-Instruct": {
|
171
|
+
"description": "Qwen2-1.5B-InstructはQwen2シリーズの指示微調整大規模言語モデルで、パラメータ規模は1.5Bです。このモデルはTransformerアーキテクチャに基づき、SwiGLU活性化関数、注意QKVバイアス、グループクエリ注意などの技術を採用しています。言語理解、生成、多言語能力、コーディング、数学、推論などの複数のベンチマークテストで優れたパフォーマンスを示し、ほとんどのオープンソースモデルを超えています。Qwen1.5-1.8B-Chatと比較して、Qwen2-1.5B-InstructはMMLU、HumanEval、GSM8K、C-Eval、IFEvalなどのテストで顕著な性能向上を示していますが、パラメータ数はわずかに少ないです。"
|
145
172
|
},
|
146
173
|
"Qwen/Qwen2-72B-Instruct": {
|
147
174
|
"description": "Qwen2は、先進的な汎用言語モデルであり、さまざまな指示タイプをサポートします。"
|
148
175
|
},
|
176
|
+
"Qwen/Qwen2-7B-Instruct": {
|
177
|
+
"description": "Qwen2-72B-InstructはQwen2シリーズの指示微調整大規模言語モデルで、パラメータ規模は72Bです。このモデルはTransformerアーキテクチャに基づき、SwiGLU活性化関数、注意QKVバイアス、グループクエリ注意などの技術を採用しています。大規模な入力を処理することができます。このモデルは言語理解、生成、多言語能力、コーディング、数学、推論などの複数のベンチマークテストで優れたパフォーマンスを示し、ほとんどのオープンソースモデルを超え、特定のタスクでは専有モデルと同等の競争力を示しています。"
|
178
|
+
},
|
149
179
|
"Qwen/Qwen2-VL-72B-Instruct": {
|
150
180
|
"description": "Qwen2-VLはQwen-VLモデルの最新のイテレーションで、視覚理解のベンチマークテストで最先端の性能を達成しました。"
|
151
181
|
},
|
@@ -173,6 +203,9 @@
|
|
173
203
|
"Qwen/Qwen2.5-Coder-32B-Instruct": {
|
174
204
|
"description": "Qwen2.5-Coderはコード作成に特化しています。"
|
175
205
|
},
|
206
|
+
"Qwen/Qwen2.5-Coder-7B-Instruct": {
|
207
|
+
"description": "Qwen2.5-Coder-7B-InstructはAlibaba Cloudが発表したコード特化型大規模言語モデルシリーズの最新バージョンです。このモデルはQwen2.5を基に、55兆トークンの訓練を通じて、コード生成、推論、修正能力を大幅に向上させました。コーディング能力を強化するだけでなく、数学および一般的な能力の利点も維持しています。このモデルはコードエージェントなどの実際のアプリケーションに対して、より包括的な基盤を提供します。"
|
208
|
+
},
|
176
209
|
"Qwen/Qwen2.5-Math-72B-Instruct": {
|
177
210
|
"description": "Qwen2.5-Mathは、数学分野の問題解決に特化しており、高難度の問題に対して専門的な解答を提供します。"
|
178
211
|
},
|
@@ -209,12 +242,27 @@
|
|
209
242
|
"SenseChat-Turbo": {
|
210
243
|
"description": "迅速な質問応答やモデルの微調整シーンに適しています。"
|
211
244
|
},
|
245
|
+
"THUDM/chatglm3-6b": {
|
246
|
+
"description": "ChatGLM3-6BはChatGLMシリーズのオープンモデルで、智譜AIによって開発されました。このモデルは前の世代の優れた特性を保持し、対話の流暢さとデプロイのハードルの低さを維持しつつ、新しい特性を導入しています。より多様な訓練データ、より十分な訓練ステップ、より合理的な訓練戦略を採用し、10B未満の事前訓練モデルの中で優れたパフォーマンスを示しています。ChatGLM3-6Bは多輪対話、ツール呼び出し、コード実行、エージェントタスクなどの複雑なシーンをサポートしています。対話モデルの他に、基礎モデルChatGLM-6B-Baseと長文対話モデルChatGLM3-6B-32Kもオープンソースとして提供されています。このモデルは学術研究に完全にオープンで、登録後は無料の商業利用も許可されています。"
|
247
|
+
},
|
212
248
|
"THUDM/glm-4-9b-chat": {
|
213
249
|
"description": "GLM-4 9Bはオープンソース版で、会話アプリケーションに最適化された対話体験を提供します。"
|
214
250
|
},
|
251
|
+
"TeleAI/TeleChat2": {
|
252
|
+
"description": "TeleChat2大モデルは中国電信が0から1まで自主開発した生成的意味大モデルで、百科問答、コード生成、長文生成などの機能をサポートし、ユーザーに対話相談サービスを提供します。ユーザーと対話し、質問に答え、創作を支援し、効率的かつ便利に情報、知識、インスピレーションを取得する手助けをします。モデルは幻覚問題、長文生成、論理理解などの面で優れたパフォーマンスを示しています。"
|
253
|
+
},
|
254
|
+
"TeleAI/TeleMM": {
|
255
|
+
"description": "TeleMM多モーダル大モデルは中国電信が自主開発した多モーダル理解大モデルで、テキスト、画像などの多様なモーダル入力を処理し、画像理解、グラフ分析などの機能をサポートし、ユーザーにクロスモーダルの理解サービスを提供します。モデルはユーザーと多モーダルでインタラクションし、入力内容を正確に理解し、質問に答え、創作を支援し、効率的に多モーダル情報とインスピレーションのサポートを提供します。細粒度の認識、論理推論などの多モーダルタスクで優れたパフォーマンスを示しています。"
|
256
|
+
},
|
215
257
|
"Tencent/Hunyuan-A52B-Instruct": {
|
216
258
|
"description": "Hunyuan-Largeは業界最大のオープンソースTransformerアーキテクチャMoEモデルで、3890億の総パラメータ数と520億のアクティブパラメータ数を持っています。"
|
217
259
|
},
|
260
|
+
"Vendor-A/Qwen/Qwen2-7B-Instruct": {
|
261
|
+
"description": "Qwen2-72B-InstructはQwen2シリーズの指示微調整大規模言語モデルで、パラメータ規模は72Bです。このモデルはTransformerアーキテクチャに基づき、SwiGLU活性化関数、注意QKVバイアス、グループクエリ注意などの技術を採用しています。大規模な入力を処理することができます。このモデルは言語理解、生成、多言語能力、コーディング、数学、推論などの複数のベンチマークテストで優れたパフォーマンスを示し、ほとんどのオープンソースモデルを超え、特定のタスクでは専有モデルと同等の競争力を示しています。"
|
262
|
+
},
|
263
|
+
"Vendor-A/Qwen/Qwen2.5-72B-Instruct": {
|
264
|
+
"description": "Qwen2.5-72B-InstructはAlibaba Cloudが発表した最新の大規模言語モデルシリーズの一つです。この72Bモデルはコーディングや数学などの分野で顕著な能力の改善を持っています。このモデルは29以上の言語をカバーする多言語サポートも提供しており、中国語、英語などが含まれています。モデルは指示の遵守、構造化データの理解、特にJSONのような構造化出力の生成において顕著な向上を示しています。"
|
265
|
+
},
|
218
266
|
"Yi-34B-Chat": {
|
219
267
|
"description": "Yi-1.5-34Bは、元のシリーズモデルの優れた汎用言語能力を維持しつつ、5000億の高品質トークンを増分トレーニングすることで、数学的論理とコーディング能力を大幅に向上させました。"
|
220
268
|
},
|
@@ -290,9 +338,15 @@
|
|
290
338
|
"accounts/fireworks/models/phi-3-vision-128k-instruct": {
|
291
339
|
"description": "Phi 3 Vision指示モデルは、軽量の多モーダルモデルであり、複雑な視覚とテキスト情報を処理でき、強力な推論能力を持っています。"
|
292
340
|
},
|
341
|
+
"accounts/fireworks/models/qwen-qwq-32b-preview": {
|
342
|
+
"description": "QwQモデルはQwenチームによって開発された実験的な研究モデルで、AIの推論能力を強化することに焦点を当てています。"
|
343
|
+
},
|
293
344
|
"accounts/fireworks/models/qwen2p5-72b-instruct": {
|
294
345
|
"description": "Qwen2.5はAlibaba Cloud Qwenチームによって開発された一連のデコーダーのみを含む言語モデルです。これらのモデルは、0.5B、1.5B、3B、7B、14B、32B、72Bなど、さまざまなサイズを提供し、ベース版と指示版の2種類のバリエーションがあります。"
|
295
346
|
},
|
347
|
+
"accounts/fireworks/models/qwen2p5-coder-32b-instruct": {
|
348
|
+
"description": "Qwen2.5 Coder 32B InstructはAlibaba Cloudが発表したコード特化型大規模言語モデルシリーズの最新バージョンです。このモデルはQwen2.5を基に、55兆トークンの訓練を通じて、コード生成、推論、修正能力を大幅に向上させました。コーディング能力を強化するだけでなく、数学および一般的な能力の利点も維持しています。このモデルはコードエージェントなどの実際のアプリケーションに対して、より包括的な基盤を提供します。"
|
349
|
+
},
|
296
350
|
"accounts/fireworks/models/starcoder-16b": {
|
297
351
|
"description": "StarCoder 15.5Bモデルは、高度なプログラミングタスクをサポートし、多言語能力を強化し、複雑なコード生成と理解に適しています。"
|
298
352
|
},
|
@@ -392,6 +446,9 @@
|
|
392
446
|
"codellama": {
|
393
447
|
"description": "Code Llamaは、コード生成と議論に特化したLLMであり、広範なプログラミング言語のサポートを組み合わせて、開発者環境に適しています。"
|
394
448
|
},
|
449
|
+
"codellama/CodeLlama-34b-Instruct-hf": {
|
450
|
+
"description": "Code Llamaはコード生成と議論に特化したLLMで、幅広いプログラミング言語のサポートを組み合わせて、開発者環境に適しています。"
|
451
|
+
},
|
395
452
|
"codellama:13b": {
|
396
453
|
"description": "Code Llamaは、コード生成と議論に特化したLLMであり、広範なプログラミング言語のサポートを組み合わせて、開発者環境に適しています。"
|
397
454
|
},
|
@@ -428,6 +485,9 @@
|
|
428
485
|
"databricks/dbrx-instruct": {
|
429
486
|
"description": "DBRX Instructは、高い信頼性の指示処理能力を提供し、多業界アプリケーションをサポートします。"
|
430
487
|
},
|
488
|
+
"deepseek-ai/DeepSeek-V2-Chat": {
|
489
|
+
"description": "DeepSeek-V2は強力でコスト効率の高い混合専門家(MoE)言語モデルです。8.1兆トークンの高品質コーパスで事前訓練され、監視微調整(SFT)と強化学習(RL)を通じてモデルの能力をさらに向上させました。DeepSeek 67Bと比較して、DeepSeek-V2は性能が向上し、42.5%の訓練コストを節約し、93.3%のKVキャッシュを削減し、最大生成スループットを5.76倍に向上させました。このモデルは128kのコンテキスト長をサポートし、標準ベンチマークテストおよびオープン生成評価で優れたパフォーマンスを示しています。"
|
490
|
+
},
|
431
491
|
"deepseek-ai/DeepSeek-V2.5": {
|
432
492
|
"description": "DeepSeek V2.5は以前のバージョンの優れた特徴を集約し、汎用性とコーディング能力を強化しました。"
|
433
493
|
},
|
@@ -682,6 +742,9 @@
|
|
682
742
|
},
|
683
743
|
"jamba-1.5-large": {},
|
684
744
|
"jamba-1.5-mini": {},
|
745
|
+
"learnlm-1.5-pro-experimental": {
|
746
|
+
"description": "LearnLMは、学習科学の原則に従って訓練された実験的なタスク特化型言語モデルで、教育や学習のシーンでシステムの指示に従い、専門的なメンターとして機能します。"
|
747
|
+
},
|
685
748
|
"lite": {
|
686
749
|
"description": "Spark Liteは軽量な大規模言語モデルで、非常に低い遅延と高い処理能力を備えています。完全に無料でオープンであり、リアルタイムのオンライン検索機能をサポートしています。その迅速な応答特性により、低算力デバイスでの推論アプリケーションやモデルの微調整において優れたパフォーマンスを発揮し、特に知識問答、コンテンツ生成、検索シーンにおいて優れたコストパフォーマンスとインテリジェントな体験を提供します。"
|
687
750
|
},
|
@@ -872,6 +935,9 @@
|
|
872
935
|
"description": "Meta Llama 3は、開発者、研究者、企業向けのオープンな大規模言語モデル(LLM)であり、生成AIのアイデアを構築、実験、責任を持って拡張するのを支援することを目的としています。世界的なコミュニティの革新の基盤システムの一部として、計算能力とリソースが限られたエッジデバイスや、より迅速なトレーニング時間に非常に適しています。"
|
873
936
|
},
|
874
937
|
"microsoft/Phi-3.5-mini-instruct": {},
|
938
|
+
"microsoft/WizardLM-2-8x22B": {
|
939
|
+
"description": "WizardLM 2はMicrosoft AIが提供する言語モデルで、複雑な対話、多言語、推論、インテリジェントアシスタントの分野で特に優れた性能を発揮します。"
|
940
|
+
},
|
875
941
|
"microsoft/wizardlm 2-7b": {
|
876
942
|
"description": "WizardLM 2 7BはMicrosoft AIの最新の高速軽量モデルで、既存のオープンソースリーダーモデルの10倍に近い性能を持っています。"
|
877
943
|
},
|
@@ -956,6 +1022,9 @@
|
|
956
1022
|
"nvidia/Llama-3.1-Nemotron-70B-Instruct": {
|
957
1023
|
"description": "Llama 3.1 Nemotron 70BはNVIDIAがカスタマイズした大型言語モデルで、LLMが生成した応答がユーザーの問い合わせをサポートする程度を向上させることを目的としています。"
|
958
1024
|
},
|
1025
|
+
"nvidia/Llama-3.1-Nemotron-70B-Instruct-HF": {
|
1026
|
+
"description": "Llama 3.1 Nemotron 70BはNVIDIAによってカスタマイズされた大規模言語モデルで、LLMが生成する応答がユーザーのクエリにどれだけ役立つかを向上させることを目的としています。このモデルはArena Hard、AlpacaEval 2 LC、GPT-4-Turbo MT-Benchなどのベンチマークテストで優れたパフォーマンスを示し、2024年10月1日現在、すべての自動整合ベンチマークテストで1位にランクされています。このモデルはRLHF(特にREINFORCE)、Llama-3.1-Nemotron-70B-Reward、HelpSteer2-Preferenceプロンプトを使用してLlama-3.1-70B-Instructモデルの基盤の上で訓練されています。"
|
1027
|
+
},
|
959
1028
|
"o1-mini": {
|
960
1029
|
"description": "o1-miniは、プログラミング、数学、科学のアプリケーションシーンに特化して設計された迅速で経済的な推論モデルです。このモデルは128Kのコンテキストを持ち、2023年10月の知識のカットオフがあります。"
|
961
1030
|
},
|
@@ -1052,6 +1121,9 @@
|
|
1052
1121
|
"qwen2": {
|
1053
1122
|
"description": "Qwen2は、Alibabaの新世代大規模言語モデルであり、優れた性能で多様なアプリケーションニーズをサポートします。"
|
1054
1123
|
},
|
1124
|
+
"qwen2.5": {
|
1125
|
+
"description": "Qwen2.5はAlibabaの次世代大規模言語モデルで、優れた性能を持ち、多様なアプリケーションのニーズをサポートします。"
|
1126
|
+
},
|
1055
1127
|
"qwen2.5-14b-instruct": {
|
1056
1128
|
"description": "通義千問2.5の対外オープンソースの14B規模のモデルです。"
|
1057
1129
|
},
|
@@ -1076,6 +1148,15 @@
|
|
1076
1148
|
"qwen2.5-math-7b-instruct": {
|
1077
1149
|
"description": "Qwen-Mathモデルは、強力な数学の問題解決能力を持っています。"
|
1078
1150
|
},
|
1151
|
+
"qwen2.5:0.5b": {
|
1152
|
+
"description": "Qwen2.5はAlibabaの次世代大規模言語モデルで、優れた性能を持ち、多様なアプリケーションのニーズをサポートします。"
|
1153
|
+
},
|
1154
|
+
"qwen2.5:1.5b": {
|
1155
|
+
"description": "Qwen2.5はAlibabaの次世代大規模言語モデルで、優れた性能を持ち、多様なアプリケーションのニーズをサポートします。"
|
1156
|
+
},
|
1157
|
+
"qwen2.5:72b": {
|
1158
|
+
"description": "Qwen2.5はAlibabaの次世代大規模言語モデルで、優れた性能を持ち、多様なアプリケーションのニーズをサポートします。"
|
1159
|
+
},
|
1079
1160
|
"qwen2:0.5b": {
|
1080
1161
|
"description": "Qwen2は、Alibabaの新世代大規模言語モデルであり、優れた性能で多様なアプリケーションニーズをサポートします。"
|
1081
1162
|
},
|
@@ -1085,6 +1166,12 @@
|
|
1085
1166
|
"qwen2:72b": {
|
1086
1167
|
"description": "Qwen2は、Alibabaの新世代大規模言語モデルであり、優れた性能で多様なアプリケーションニーズをサポートします。"
|
1087
1168
|
},
|
1169
|
+
"qwq": {
|
1170
|
+
"description": "QwQはAIの推論能力を向上させることに特化した実験的研究モデルです。"
|
1171
|
+
},
|
1172
|
+
"qwq-32b-preview": {
|
1173
|
+
"description": "QwQモデルはQwenチームによって開発された実験的な研究モデルで、AIの推論能力を強化することに焦点を当てています。"
|
1174
|
+
},
|
1088
1175
|
"solar-1-mini-chat": {
|
1089
1176
|
"description": "Solar MiniはコンパクトなLLMで、GPT-3.5を上回る性能を持ち、強力な多言語能力を備え、英語と韓国語をサポートし、高効率でコンパクトなソリューションを提供します。"
|
1090
1177
|
},
|
@@ -2,6 +2,9 @@
|
|
2
2
|
"01-ai/Yi-1.5-34B-Chat-16K": {
|
3
3
|
"description": "Yi-1.5 34B는 풍부한 훈련 샘플을 통해 산업 응용에서 우수한 성능을 제공합니다."
|
4
4
|
},
|
5
|
+
"01-ai/Yi-1.5-6B-Chat": {
|
6
|
+
"description": "Yi-1.5-6B-Chat은 Yi-1.5 시리즈의 변형으로, 오픈 소스 채팅 모델에 속합니다. Yi-1.5는 Yi의 업그레이드 버전으로, 500B 개의 고품질 코퍼스에서 지속적으로 사전 훈련되었으며, 3M의 다양한 미세 조정 샘플에서 미세 조정되었습니다. Yi에 비해 Yi-1.5는 코딩, 수학, 추론 및 지침 준수 능력에서 더 강력한 성능을 보이며, 뛰어난 언어 이해, 상식 추론 및 독해 능력을 유지합니다. 이 모델은 4K, 16K 및 32K의 컨텍스트 길이 버전을 제공하며, 총 3.6T 개의 토큰으로 사전 훈련되었습니다."
|
7
|
+
},
|
5
8
|
"01-ai/Yi-1.5-9B-Chat-16K": {
|
6
9
|
"description": "Yi-1.5 9B는 16K 토큰을 지원하며, 효율적이고 매끄러운 언어 생성 능력을 제공합니다."
|
7
10
|
},
|
@@ -91,6 +94,12 @@
|
|
91
94
|
"Gryphe/MythoMax-L2-13b": {
|
92
95
|
"description": "MythoMax-L2 (13B)는 혁신적인 모델로, 다양한 분야의 응용과 복잡한 작업에 적합합니다."
|
93
96
|
},
|
97
|
+
"LoRA/Qwen/Qwen2.5-72B-Instruct": {
|
98
|
+
"description": "Qwen2.5-72B-Instruct는 Alibaba Cloud에서 발표한 최신 대규모 언어 모델 시리즈 중 하나입니다. 이 72B 모델은 코딩 및 수학 분야에서 상당한 개선된 능력을 가지고 있습니다. 이 모델은 또한 29개 이상의 언어를 포함한 다국어 지원을 제공합니다. 모델은 지침 준수, 구조화된 데이터 이해 및 구조화된 출력 생성(특히 JSON)에서 상당한 향상을 보입니다."
|
99
|
+
},
|
100
|
+
"LoRA/Qwen/Qwen2.5-7B-Instruct": {
|
101
|
+
"description": "Qwen2.5-7B-Instruct는 Alibaba Cloud에서 발표한 최신 대규모 언어 모델 시리즈 중 하나입니다. 이 7B 모델은 코딩 및 수학 분야에서 상당한 개선된 능력을 가지고 있습니다. 이 모델은 또한 29개 이상의 언어를 포함한 다국어 지원을 제공합니다. 모델은 지침 준수, 구조화된 데이터 이해 및 구조화된 출력 생성(특히 JSON)에서 상당한 향상을 보입니다."
|
102
|
+
},
|
94
103
|
"Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
95
104
|
"description": "Hermes 2 Mixtral 8x7B DPO는 뛰어난 창의적 경험을 제공하기 위해 설계된 고도로 유연한 다중 모델 통합입니다."
|
96
105
|
},
|
@@ -98,9 +107,6 @@
|
|
98
107
|
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
99
108
|
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B)는 고정밀 지시 모델로, 복잡한 계산에 적합합니다."
|
100
109
|
},
|
101
|
-
"NousResearch/Nous-Hermes-2-Yi-34B": {
|
102
|
-
"description": "Nous Hermes-2 Yi (34B)는 최적화된 언어 출력과 다양한 응용 가능성을 제공합니다."
|
103
|
-
},
|
104
110
|
"OpenGVLab/InternVL2-26B": {
|
105
111
|
"description": "InternVL2는 문서 및 차트 이해, 장면 텍스트 이해, OCR, 과학 및 수학 문제 해결을 포함한 다양한 시각 언어 작업에서 뛰어난 성능을 보여줍니다."
|
106
112
|
},
|
@@ -134,18 +140,42 @@
|
|
134
140
|
"Pro/OpenGVLab/InternVL2-8B": {
|
135
141
|
"description": "InternVL2는 문서 및 차트 이해, 장면 텍스트 이해, OCR, 과학 및 수학 문제 해결을 포함한 다양한 시각 언어 작업에서 뛰어난 성능을 보여줍니다."
|
136
142
|
},
|
143
|
+
"Pro/Qwen/Qwen2-1.5B-Instruct": {
|
144
|
+
"description": "Qwen2-1.5B-Instruct는 Qwen2 시리즈의 지침 미세 조정 대규모 언어 모델로, 파라미터 규모는 1.5B입니다. 이 모델은 Transformer 아키텍처를 기반으로 하며, SwiGLU 활성화 함수, 주의 QKV 편향 및 그룹 쿼리 주의와 같은 기술을 사용합니다. 이 모델은 언어 이해, 생성, 다국어 능력, 코딩, 수학 및 추론 등 여러 벤치마크 테스트에서 뛰어난 성능을 보이며, 대부분의 오픈 소스 모델을 초월합니다. Qwen1.5-1.8B-Chat과 비교할 때, Qwen2-1.5B-Instruct는 MMLU, HumanEval, GSM8K, C-Eval 및 IFEval 등의 테스트에서 상당한 성능 향상을 보였습니다."
|
145
|
+
},
|
146
|
+
"Pro/Qwen/Qwen2-7B-Instruct": {
|
147
|
+
"description": "Qwen2-7B-Instruct는 Qwen2 시리즈의 지침 미세 조정 대규모 언어 모델로, 파라미터 규모는 7B입니다. 이 모델은 Transformer 아키텍처를 기반으로 하며, SwiGLU 활성화 함수, 주의 QKV 편향 및 그룹 쿼리 주의와 같은 기술을 사용합니다. 이 모델은 대규모 입력을 처리할 수 있습니다. 이 모델은 언어 이해, 생성, 다국어 능력, 코딩, 수학 및 추론 등 여러 벤치마크 테스트에서 뛰어난 성능을 보이며, 대부분의 오픈 소스 모델을 초월하고 특정 작업에서 독점 모델과 동등한 경쟁력을 보여줍니다. Qwen2-7B-Instruct는 여러 평가에서 Qwen1.5-7B-Chat보다 우수하여 상당한 성능 향상을 보였습니다."
|
148
|
+
},
|
137
149
|
"Pro/Qwen/Qwen2-VL-7B-Instruct": {
|
138
150
|
"description": "Qwen2-VL은 Qwen-VL 모델의 최신 반복 버전으로, 시각 이해 기준 테스트에서 최첨단 성능을 달성했습니다."
|
139
151
|
},
|
140
|
-
"Qwen/
|
141
|
-
"description": "Qwen2
|
152
|
+
"Pro/Qwen/Qwen2.5-7B-Instruct": {
|
153
|
+
"description": "Qwen2.5-7B-Instruct는 Alibaba Cloud에서 발표한 최신 대규모 언어 모델 시리즈 중 하나입니다. 이 7B 모델은 코딩 및 수학 분야에서 상당한 개선된 능력을 가지고 있습니다. 이 모델은 또한 29개 이상의 언어를 포함한 다국어 지원을 제공합니다. 모델은 지침 준수, 구조화된 데이터 이해 및 구조화된 출력 생성(특히 JSON)에서 상당한 향상을 보입니다."
|
154
|
+
},
|
155
|
+
"Pro/Qwen/Qwen2.5-Coder-7B-Instruct": {
|
156
|
+
"description": "Qwen2.5-Coder-7B-Instruct는 Alibaba Cloud에서 발표한 코드 특화 대규모 언어 모델 시리즈의 최신 버전입니다. 이 모델은 Qwen2.5를 기반으로 하여 55조 개의 토큰으로 훈련되어 코드 생성, 추론 및 수정 능력을 크게 향상시켰습니다. 이 모델은 코딩 능력을 강화할 뿐만 아니라 수학 및 일반 능력의 장점도 유지합니다. 모델은 코드 에이전트와 같은 실제 응용 프로그램에 더 포괄적인 기반을 제공합니다."
|
157
|
+
},
|
158
|
+
"Pro/THUDM/glm-4-9b-chat": {
|
159
|
+
"description": "GLM-4-9B-Chat은 Zhizhu AI가 출시한 GLM-4 시리즈의 사전 훈련 모델 중 오픈 소스 버전입니다. 이 모델은 의미, 수학, 추론, 코드 및 지식 등 여러 측면에서 뛰어난 성능을 보입니다. GLM-4-9B-Chat은 다중 회전 대화를 지원할 뿐만 아니라 웹 브라우징, 코드 실행, 사용자 정의 도구 호출(Function Call) 및 긴 텍스트 추론과 같은 고급 기능도 갖추고 있습니다. 이 모델은 중국어, 영어, 일본어, 한국어 및 독일어를 포함한 26개 언어를 지원합니다. 여러 벤치마크 테스트에서 GLM-4-9B-Chat은 AlignBench-v2, MT-Bench, MMLU 및 C-Eval 등에서 뛰어난 성능을 보였습니다. 이 모델은 최대 128K의 컨텍스트 길이를 지원하며, 학술 연구 및 상업적 응용에 적합합니다."
|
142
160
|
},
|
143
|
-
"
|
144
|
-
"description": "
|
161
|
+
"Pro/google/gemma-2-9b-it": {
|
162
|
+
"description": "Gemma는 Google이 개발한 경량화된 최첨단 오픈 모델 시리즈 중 하나입니다. 이는 단일 디코더 대규모 언어 모델로, 영어를 지원하며 오픈 가중치, 사전 훈련 변형 및 지침 미세 조정 변형을 제공합니다. Gemma 모델은 질문 응답, 요약 및 추론을 포함한 다양한 텍스트 생성 작업에 적합합니다. 이 9B 모델은 80조 개의 토큰으로 훈련되었습니다. 상대적으로 작은 규모로 인해 노트북, 데스크탑 또는 개인 클라우드 인프라와 같은 자원이 제한된 환경에서 배포할 수 있어 더 많은 사람들이 최첨단 AI 모델에 접근하고 혁신을 촉진할 수 있습니다."
|
163
|
+
},
|
164
|
+
"Pro/meta-llama/Meta-Llama-3.1-8B-Instruct": {
|
165
|
+
"description": "Meta Llama 3.1은 Meta가 개발한 다국어 대규모 언어 모델 가족으로, 8B, 70B 및 405B의 세 가지 파라미터 규모의 사전 훈련 및 지침 미세 조정 변형을 포함합니다. 이 8B 지침 미세 조정 모델은 다국어 대화 시나리오에 최적화되어 있으며, 여러 산업 벤치마크 테스트에서 우수한 성능을 보입니다. 모델 훈련에는 15조 개 이상의 공개 데이터 토큰이 사용되었으며, 감독 미세 조정 및 인간 피드백 강화 학습과 같은 기술을 통해 모델의 유용성과 안전성을 향상시켰습니다. Llama 3.1은 텍스트 생성 및 코드 생성을 지원하며, 지식 마감일은 2023년 12월입니다."
|
166
|
+
},
|
167
|
+
"Qwen/QwQ-32B-Preview": {
|
168
|
+
"description": "QwQ-32B-Preview는 Qwen의 최신 실험적 연구 모델로, AI 추론 능력을 향상시키는 데 중점을 두고 있습니다. 언어 혼합, 재귀 추론 등 복잡한 메커니즘을 탐구하며, 주요 장점으로는 강력한 추론 분석 능력, 수학 및 프로그래밍 능력이 포함됩니다. 동시에 언어 전환 문제, 추론 루프, 안전성 고려 및 기타 능력 차이와 같은 문제도 존재합니다."
|
169
|
+
},
|
170
|
+
"Qwen/Qwen2-1.5B-Instruct": {
|
171
|
+
"description": "Qwen2-1.5B-Instruct는 Qwen2 시리즈의 지침 미세 조정 대규모 언어 모델로, 파라미터 규모는 1.5B입니다. 이 모델은 Transformer 아키텍처를 기반으로 하며, SwiGLU 활성화 함수, 주의 QKV 편향 및 그룹 쿼리 주의와 같은 기술을 사용합니다. 이 모델은 언어 이해, 생성, 다국어 능력, 코딩, 수학 및 추론 등 여러 벤치마크 테스트에서 뛰어난 성능을 보이며, 대부분의 오픈 소스 모델을 초월합니다. Qwen1.5-1.8B-Chat과 비교할 때, Qwen2-1.5B-Instruct는 MMLU, HumanEval, GSM8K, C-Eval 및 IFEval 등의 테스트에서 상당한 성능 향상을 보였습니다."
|
145
172
|
},
|
146
173
|
"Qwen/Qwen2-72B-Instruct": {
|
147
174
|
"description": "Qwen2는 다양한 지시 유형을 지원하는 고급 범용 언어 모델입니다."
|
148
175
|
},
|
176
|
+
"Qwen/Qwen2-7B-Instruct": {
|
177
|
+
"description": "Qwen2-72B-Instruct는 Qwen2 시리즈의 지침 미세 조정 대규모 언어 모델로, 파라미터 규모는 72B입니다. 이 모델은 Transformer 아키텍처를 기반으로 하며, SwiGLU 활성화 함수, 주의 QKV 편향 및 그룹 쿼리 주의와 같은 기술을 사용합니다. 이 모델은 대규모 입력을 처리할 수 있습니다. 이 모델은 언어 이해, 생성, 다국어 능력, 코딩, 수학 및 추론 등 여러 벤치마크 테스트에서 뛰어난 성능을 보이며, 대부분의 오픈 소스 모델을 초월하고 특정 작업에서 독점 모델과 동등한 경쟁력을 보여줍니다."
|
178
|
+
},
|
149
179
|
"Qwen/Qwen2-VL-72B-Instruct": {
|
150
180
|
"description": "Qwen2-VL은 Qwen-VL 모델의 최신 반복 버전으로, 시각 이해 기준 테스트에서 최첨단 성능을 달성했습니다."
|
151
181
|
},
|
@@ -173,6 +203,9 @@
|
|
173
203
|
"Qwen/Qwen2.5-Coder-32B-Instruct": {
|
174
204
|
"description": "Qwen2.5-Coder는 코드 작성에 중점을 둡니다."
|
175
205
|
},
|
206
|
+
"Qwen/Qwen2.5-Coder-7B-Instruct": {
|
207
|
+
"description": "Qwen2.5-Coder-7B-Instruct는 Alibaba Cloud에서 발표한 코드 특화 대규모 언어 모델 시리즈의 최신 버전입니다. 이 모델은 Qwen2.5를 기반으로 하여 55조 개의 토큰으로 훈련되어 코드 생성, 추론 및 수정 능력을 크게 향상시켰습니다. 이 모델은 코딩 능력을 강화할 뿐만 아니라 수학 및 일반 능력의 장점도 유지합니다. 모델은 코드 에이전트와 같은 실제 응용 프로그램에 더 포괄적인 기반을 제공합니다."
|
208
|
+
},
|
176
209
|
"Qwen/Qwen2.5-Math-72B-Instruct": {
|
177
210
|
"description": "Qwen2.5-Math는 수학 분야의 문제 해결에 중점을 두고 있으며, 고난이도 문제에 대한 전문적인 해답을 제공합니다."
|
178
211
|
},
|
@@ -209,12 +242,27 @@
|
|
209
242
|
"SenseChat-Turbo": {
|
210
243
|
"description": "빠른 질문 응답 및 모델 미세 조정 시나리오에 적합합니다."
|
211
244
|
},
|
245
|
+
"THUDM/chatglm3-6b": {
|
246
|
+
"description": "ChatGLM3-6B는 Zhizhu AI가 개발한 ChatGLM 시리즈의 오픈 소스 모델입니다. 이 모델은 이전 모델의 우수한 특성을 유지하면서 대화의 유창함과 배포 장벽을 낮추는 새로운 기능을 도입했습니다. 더 다양한 훈련 데이터, 충분한 훈련 단계 및 합리적인 훈련 전략을 채택하여 10B 이하의 사전 훈련 모델 중에서 뛰어난 성능을 보입니다. ChatGLM3-6B는 다중 회전 대화, 도구 호출, 코드 실행 및 에이전트 작업과 같은 복잡한 시나리오를 지원합니다. 대화 모델 외에도 기본 모델 ChatGLM-6B-Base 및 긴 텍스트 대화 모델 ChatGLM3-6B-32K도 오픈 소스되었습니다. 이 모델은 학술 연구에 완전히 개방되어 있으며, 등록 후 무료 상업적 사용도 허용됩니다."
|
247
|
+
},
|
212
248
|
"THUDM/glm-4-9b-chat": {
|
213
249
|
"description": "GLM-4 9B 오픈 소스 버전으로, 대화 응용을 위한 최적화된 대화 경험을 제공합니다."
|
214
250
|
},
|
251
|
+
"TeleAI/TeleChat2": {
|
252
|
+
"description": "TeleChat2 대모델은 중국 전신이 0에서 1까지 독자적으로 개발한 생성적 의미 대모델로, 백과사전 질문 응답, 코드 생성, 긴 문서 생성 등의 기능을 지원하여 사용자에게 대화 상담 서비스를 제공합니다. 사용자가 질문에 답하고 창작을 도와주며, 효율적이고 편리하게 정보, 지식 및 영감을 얻을 수 있도록 돕습니다. 이 모델은 환각 문제, 긴 문서 생성, 논리 이해 등에서 뛰어난 성능을 보입니다."
|
253
|
+
},
|
254
|
+
"TeleAI/TeleMM": {
|
255
|
+
"description": "TeleMM 다중 모달 대모델은 중국 전신이 독자적으로 개발한 다중 모달 이해 대모델로, 텍스트, 이미지 등 다양한 모달 입력을 처리할 수 있으며, 이미지 이해, 차트 분석 등의 기능을 지원하여 사용자에게 교차 모달 이해 서비스를 제공합니다. 이 모델은 사용자와 다중 모달 상호작용을 통해 입력 내용을 정확하게 이해하고 질문에 답하며 창작을 도와주고, 효율적으로 다중 모달 정보와 영감을 제공합니다. 세밀한 인식, 논리 추론 등 다중 모달 작업에서 뛰어난 성능을 보입니다."
|
256
|
+
},
|
215
257
|
"Tencent/Hunyuan-A52B-Instruct": {
|
216
258
|
"description": "Hunyuan-Large는 업계에서 가장 큰 오픈 소스 Transformer 아키텍처 MoE 모델로, 총 3890억 개의 매개변수와 520억 개의 활성 매개변수를 가지고 있습니다."
|
217
259
|
},
|
260
|
+
"Vendor-A/Qwen/Qwen2-7B-Instruct": {
|
261
|
+
"description": "Qwen2-72B-Instruct는 Qwen2 시리즈의 지침 미세 조정 대규모 언어 모델로, 파라미터 규모는 72B입니다. 이 모델은 Transformer 아키텍처를 기반으로 하며, SwiGLU 활성화 함수, 주의 QKV 편향 및 그룹 쿼리 주의와 같은 기술을 사용합니다. 이 모델은 대규모 입력을 처리할 수 있습니다. 이 모델은 언어 이해, 생성, 다국어 능력, 코딩, 수학 및 추론 등 여러 벤치마크 테스트에서 뛰어난 성능을 보이며, 대부분의 오픈 소스 모델을 초월하고 특정 작업에서 독점 모델과 동등한 경쟁력을 보여줍니다."
|
262
|
+
},
|
263
|
+
"Vendor-A/Qwen/Qwen2.5-72B-Instruct": {
|
264
|
+
"description": "Qwen2.5-72B-Instruct는 Alibaba Cloud에서 발표한 최신 대규모 언어 모델 시리즈 중 하나입니다. 이 72B 모델은 코딩 및 수학 분야에서 상당한 개선된 능력을 가지고 있습니다. 이 모델은 또한 29개 이상의 언어를 포함한 다국어 지원을 제공합니다. 모델은 지침 준수, 구조화된 데이터 이해 및 구조화된 출력 생성(특히 JSON)에서 상당한 향상을 보입니다."
|
265
|
+
},
|
218
266
|
"Yi-34B-Chat": {
|
219
267
|
"description": "Yi-1.5-34B는 원래 시리즈 모델의 뛰어난 일반 언어 능력을 유지하면서, 5000억 개의 고품질 토큰을 통해 점진적으로 훈련하여 수학적 논리 및 코드 능력을 크게 향상시켰습니다."
|
220
268
|
},
|
@@ -290,9 +338,15 @@
|
|
290
338
|
"accounts/fireworks/models/phi-3-vision-128k-instruct": {
|
291
339
|
"description": "Phi 3 Vision 지시 모델은 경량 다중 모달 모델로, 복잡한 시각 및 텍스트 정보를 처리할 수 있으며, 강력한 추론 능력을 갖추고 있습니다."
|
292
340
|
},
|
341
|
+
"accounts/fireworks/models/qwen-qwq-32b-preview": {
|
342
|
+
"description": "QwQ 모델은 Qwen 팀이 개발한 실험적 연구 모델로, AI 추론 능력을 향상시키는 데 중점을 두고 있습니다."
|
343
|
+
},
|
293
344
|
"accounts/fireworks/models/qwen2p5-72b-instruct": {
|
294
345
|
"description": "Qwen2.5는 Alibaba Cloud Qwen 팀이 개발한 일련의 디코더 전용 언어 모델입니다. 이러한 모델은 0.5B, 1.5B, 3B, 7B, 14B, 32B 및 72B와 같은 다양한 크기를 제공하며, 기본 버전과 지시 버전 두 가지 변형이 있습니다."
|
295
346
|
},
|
347
|
+
"accounts/fireworks/models/qwen2p5-coder-32b-instruct": {
|
348
|
+
"description": "Qwen2.5 Coder 32B Instruct는 Alibaba Cloud에서 발표한 코드 특화 대규모 언어 모델 시리즈의 최신 버전입니다. 이 모델은 Qwen2.5를 기반으로 하여 55조 개의 토큰으로 훈련되어 코드 생성, 추론 및 수정 능력을 크게 향상시켰습니다. 이 모델은 코딩 능력을 강화할 뿐만 아니라 수학 및 일반 능력의 장점도 유지합니다. 모델은 코드 에이전트와 같은 실제 응용 프로그램에 더 포괄적인 기반을 제공합니다."
|
349
|
+
},
|
296
350
|
"accounts/fireworks/models/starcoder-16b": {
|
297
351
|
"description": "StarCoder 15.5B 모델은 고급 프로그래밍 작업을 지원하며, 다국어 능력이 강화되어 복잡한 코드 생성 및 이해에 적합합니다."
|
298
352
|
},
|
@@ -392,6 +446,9 @@
|
|
392
446
|
"codellama": {
|
393
447
|
"description": "Code Llama는 코드 생성 및 논의에 중점을 둔 LLM으로, 광범위한 프로그래밍 언어 지원을 결합하여 개발자 환경에 적합합니다."
|
394
448
|
},
|
449
|
+
"codellama/CodeLlama-34b-Instruct-hf": {
|
450
|
+
"description": "Code Llama는 코드 생성 및 논의에 중점을 둔 LLM으로, 광범위한 프로그래밍 언어 지원을 결합하여 개발자 환경에 적합합니다."
|
451
|
+
},
|
395
452
|
"codellama:13b": {
|
396
453
|
"description": "Code Llama는 코드 생성 및 논의에 중점을 둔 LLM으로, 광범위한 프로그래밍 언어 지원을 결합하여 개발자 환경에 적합합니다."
|
397
454
|
},
|
@@ -428,6 +485,9 @@
|
|
428
485
|
"databricks/dbrx-instruct": {
|
429
486
|
"description": "DBRX Instruct는 높은 신뢰성을 가진 지시 처리 능력을 제공하며, 다양한 산업 응용을 지원합니다."
|
430
487
|
},
|
488
|
+
"deepseek-ai/DeepSeek-V2-Chat": {
|
489
|
+
"description": "DeepSeek-V2는 강력하고 경제적인 혼합 전문가(MoE) 언어 모델입니다. 81조 개의 고품질 토큰 데이터셋에서 사전 훈련되었으며, 감독 미세 조정(SFT) 및 강화 학습(RL)을 통해 모델 능력을 더욱 향상시켰습니다. DeepSeek 67B와 비교할 때, DeepSeek-V2는 성능이 더 강력하면서도 42.5%의 훈련 비용을 절감하고 93.3%의 KV 캐시를 줄이며 최대 생성 처리량을 5.76배 향상시켰습니다. 이 모델은 128k의 컨텍스트 길이를 지원하며, 표준 벤치마크 테스트와 오픈 생성 평가에서 모두 뛰어난 성능을 보입니다."
|
490
|
+
},
|
431
491
|
"deepseek-ai/DeepSeek-V2.5": {
|
432
492
|
"description": "DeepSeek V2.5는 이전 버전의 우수한 기능을 집약하여 일반 및 인코딩 능력을 강화했습니다."
|
433
493
|
},
|
@@ -682,6 +742,9 @@
|
|
682
742
|
},
|
683
743
|
"jamba-1.5-large": {},
|
684
744
|
"jamba-1.5-mini": {},
|
745
|
+
"learnlm-1.5-pro-experimental": {
|
746
|
+
"description": "LearnLM은 학습 과학 원칙에 맞춰 훈련된 실험적이고 특정 작업에 특화된 언어 모델로, 교육 및 학습 환경에서 시스템 지침을 따르며 전문가 멘토 역할을 수행합니다."
|
747
|
+
},
|
685
748
|
"lite": {
|
686
749
|
"description": "Spark Lite는 경량 대형 언어 모델로, 매우 낮은 지연 시간과 효율적인 처리 능력을 갖추고 있으며, 완전히 무료로 제공되고 실시간 온라인 검색 기능을 지원합니다. 빠른 응답 특성 덕분에 저전력 장치에서의 추론 응용 및 모델 미세 조정에서 뛰어난 성능을 발휘하며, 사용자에게 뛰어난 비용 효율성과 스마트한 경험을 제공합니다. 특히 지식 질문 응답, 콘텐츠 생성 및 검색 시나리오에서 두각을 나타냅니다."
|
687
750
|
},
|
@@ -872,6 +935,9 @@
|
|
872
935
|
"description": "Meta Llama 3은 개발자, 연구자 및 기업을 위한 오픈 대형 언어 모델(LLM)로, 생성 AI 아이디어를 구축하고 실험하며 책임감 있게 확장하는 데 도움을 주기 위해 설계되었습니다. 전 세계 커뮤니티 혁신의 기초 시스템의 일환으로, 계산 능력과 자원이 제한된 환경, 엣지 장치 및 더 빠른 훈련 시간에 매우 적합합니다."
|
873
936
|
},
|
874
937
|
"microsoft/Phi-3.5-mini-instruct": {},
|
938
|
+
"microsoft/WizardLM-2-8x22B": {
|
939
|
+
"description": "WizardLM 2는 Microsoft AI가 제공하는 언어 모델로, 복잡한 대화, 다국어, 추론 및 스마트 어시스턴트 분야에서 특히 뛰어난 성능을 보입니다."
|
940
|
+
},
|
875
941
|
"microsoft/wizardlm 2-7b": {
|
876
942
|
"description": "WizardLM 2 7B는 Microsoft AI의 최신 경량 모델로, 기존 오픈 소스 선도 모델의 성능에 근접합니다."
|
877
943
|
},
|
@@ -956,6 +1022,9 @@
|
|
956
1022
|
"nvidia/Llama-3.1-Nemotron-70B-Instruct": {
|
957
1023
|
"description": "Llama 3.1 Nemotron 70B는 NVIDIA가 맞춤 제작한 대형 언어 모델로, LLM 생성된 응답이 사용자 쿼리에 도움이 되는 정도를 높이기 위해 설계되었습니다."
|
958
1024
|
},
|
1025
|
+
"nvidia/Llama-3.1-Nemotron-70B-Instruct-HF": {
|
1026
|
+
"description": "Llama 3.1 Nemotron 70B는 NVIDIA가 맞춤 제작한 대규모 언어 모델로, LLM이 생성한 응답이 사용자 쿼리에 얼마나 도움이 되는지를 향상시키기 위해 설계되었습니다. 이 모델은 Arena Hard, AlpacaEval 2 LC 및 GPT-4-Turbo MT-Bench와 같은 벤치마크 테스트에서 뛰어난 성능을 보였으며, 2024년 10월 1일 기준으로 모든 자동 정렬 벤치마크 테스트에서 1위를 차지했습니다. 이 모델은 RLHF(특히 REINFORCE), Llama-3.1-Nemotron-70B-Reward 및 HelpSteer2-Preference 프롬프트를 사용하여 Llama-3.1-70B-Instruct 모델을 기반으로 훈련되었습니다."
|
1027
|
+
},
|
959
1028
|
"o1-mini": {
|
960
1029
|
"description": "o1-mini는 프로그래밍, 수학 및 과학 응용 프로그램을 위해 설계된 빠르고 경제적인 추론 모델입니다. 이 모델은 128K의 컨텍스트와 2023년 10월의 지식 기준일을 가지고 있습니다."
|
961
1030
|
},
|
@@ -1052,6 +1121,9 @@
|
|
1052
1121
|
"qwen2": {
|
1053
1122
|
"description": "Qwen2는 Alibaba의 차세대 대규모 언어 모델로, 뛰어난 성능으로 다양한 응용 요구를 지원합니다."
|
1054
1123
|
},
|
1124
|
+
"qwen2.5": {
|
1125
|
+
"description": "Qwen2.5는 Alibaba의 차세대 대규모 언어 모델로, 뛰어난 성능으로 다양한 응용 요구를 지원합니다."
|
1126
|
+
},
|
1055
1127
|
"qwen2.5-14b-instruct": {
|
1056
1128
|
"description": "통의 천문 2.5 외부 오픈 소스 14B 규모 모델입니다."
|
1057
1129
|
},
|
@@ -1076,6 +1148,15 @@
|
|
1076
1148
|
"qwen2.5-math-7b-instruct": {
|
1077
1149
|
"description": "Qwen-Math 모델은 강력한 수학 문제 해결 능력을 가지고 있습니다."
|
1078
1150
|
},
|
1151
|
+
"qwen2.5:0.5b": {
|
1152
|
+
"description": "Qwen2.5는 Alibaba의 차세대 대규모 언어 모델로, 뛰어난 성능으로 다양한 응용 요구를 지원합니다."
|
1153
|
+
},
|
1154
|
+
"qwen2.5:1.5b": {
|
1155
|
+
"description": "Qwen2.5는 Alibaba의 차세대 대규모 언어 모델로, 뛰어난 성능으로 다양한 응용 요구를 지원합니다."
|
1156
|
+
},
|
1157
|
+
"qwen2.5:72b": {
|
1158
|
+
"description": "Qwen2.5는 Alibaba의 차세대 대규모 언어 모델로, 뛰어난 성능으로 다양한 응용 요구를 지원합니다."
|
1159
|
+
},
|
1079
1160
|
"qwen2:0.5b": {
|
1080
1161
|
"description": "Qwen2는 Alibaba의 차세대 대규모 언어 모델로, 뛰어난 성능으로 다양한 응용 요구를 지원합니다."
|
1081
1162
|
},
|
@@ -1085,6 +1166,12 @@
|
|
1085
1166
|
"qwen2:72b": {
|
1086
1167
|
"description": "Qwen2는 Alibaba의 차세대 대규모 언어 모델로, 뛰어난 성능으로 다양한 응용 요구를 지원합니다."
|
1087
1168
|
},
|
1169
|
+
"qwq": {
|
1170
|
+
"description": "QwQ는 AI 추론 능력을 향상시키는 데 중점을 둔 실험 연구 모델입니다."
|
1171
|
+
},
|
1172
|
+
"qwq-32b-preview": {
|
1173
|
+
"description": "QwQ 모델은 Qwen 팀이 개발한 실험적 연구 모델로, AI 추론 능력을 향상시키는 데 중점을 두고 있습니다."
|
1174
|
+
},
|
1088
1175
|
"solar-1-mini-chat": {
|
1089
1176
|
"description": "Solar Mini는 컴팩트한 LLM으로, GPT-3.5보다 성능이 우수하며, 강력한 다국어 능력을 갖추고 있어 영어와 한국어를 지원하며, 효율적이고 소형 솔루션을 제공합니다."
|
1090
1177
|
},
|