@lobehub/chat 1.106.3 → 1.106.5
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/CHANGELOG.md +58 -0
- package/apps/desktop/src/preload/routeInterceptor.ts +28 -0
- package/changelog/v1.json +21 -0
- package/locales/ar/models.json +164 -5
- package/locales/bg-BG/models.json +164 -5
- package/locales/de-DE/models.json +164 -5
- package/locales/en-US/models.json +164 -5
- package/locales/es-ES/models.json +164 -5
- package/locales/fa-IR/models.json +164 -5
- package/locales/fr-FR/models.json +164 -5
- package/locales/it-IT/models.json +164 -5
- package/locales/ja-JP/models.json +164 -5
- package/locales/ko-KR/models.json +164 -5
- package/locales/nl-NL/models.json +164 -5
- package/locales/pl-PL/models.json +164 -5
- package/locales/pt-BR/models.json +164 -5
- package/locales/ru-RU/models.json +164 -5
- package/locales/tr-TR/models.json +164 -5
- package/locales/vi-VN/models.json +164 -5
- package/locales/zh-CN/models.json +164 -5
- package/locales/zh-TW/models.json +164 -5
- package/package.json +1 -1
- package/src/features/Conversation/Messages/Assistant/Tool/Inspector/BuiltinPluginTitle.tsx +2 -9
- package/src/features/Conversation/Messages/Assistant/Tool/Inspector/PluginResultJSON.tsx +7 -2
- package/src/features/Conversation/Messages/Assistant/Tool/Inspector/ToolTitle.tsx +2 -2
- package/src/features/Conversation/Messages/Assistant/Tool/Inspector/index.tsx +5 -11
- package/src/features/Conversation/Messages/Assistant/Tool/Render/Arguments/index.tsx +37 -12
- package/src/features/Conversation/Messages/Assistant/Tool/Render/CustomRender.tsx +43 -34
- package/src/features/Conversation/Messages/Assistant/Tool/index.tsx +23 -6
- package/src/features/Conversation/Messages/Assistant/index.tsx +1 -0
- package/src/features/Conversation/components/VirtualizedList/index.tsx +0 -1
- package/src/server/services/mcp/index.test.ts +161 -0
- package/src/server/services/mcp/index.ts +4 -1
- package/src/store/chat/slices/aiChat/actions/generateAIChat.ts +10 -0
- package/src/store/chat/slices/aiChat/initialState.ts +2 -0
- package/src/store/chat/slices/message/selectors.ts +9 -0
- package/src/store/chat/slices/plugin/action.ts +2 -0
@@ -32,6 +32,9 @@
|
|
32
32
|
"4.0Ultra": {
|
33
33
|
"description": "Spark4.0 Ultraは星火大モデルシリーズの中で最も強力なバージョンで、ネットワーク検索のリンクをアップグレードし、テキストコンテンツの理解と要約能力を向上させています。これは、オフィスの生産性を向上させ、要求に正確に応えるための全方位のソリューションであり、業界をリードするインテリジェントな製品です。"
|
34
34
|
},
|
35
|
+
"AnimeSharp": {
|
36
|
+
"description": "AnimeSharp(別名「4x‑AnimeSharp」)は、Kim2091がESRGANアーキテクチャを基に開発したオープンソースの超解像モデルで、アニメスタイルの画像の拡大とシャープ化に特化しています。2022年2月に「4x-TextSharpV1」から改名され、元々は文字画像にも対応していましたが、アニメコンテンツ向けに大幅に性能が最適化されています。"
|
37
|
+
},
|
35
38
|
"Baichuan2-Turbo": {
|
36
39
|
"description": "検索強化技術を採用し、大モデルと分野知識、全網知識の全面的なリンクを実現しています。PDF、Wordなどのさまざまな文書のアップロードやURL入力をサポートし、情報取得が迅速かつ包括的で、出力結果は正確かつ専門的です。"
|
37
40
|
},
|
@@ -89,6 +92,9 @@
|
|
89
92
|
"Doubao-pro-4k": {
|
90
93
|
"description": "最も高性能な主力モデルで、複雑なタスクの処理に適しています。参考質問応答、要約、創作、テキスト分類、ロールプレイなどのシーンで優れた効果を発揮します。4kのコンテキストウィンドウでの推論と微調整をサポートします。"
|
91
94
|
},
|
95
|
+
"DreamO": {
|
96
|
+
"description": "DreamOは、ByteDanceと北京大学が共同開発したオープンソースの画像カスタマイズ生成モデルで、統一されたアーキテクチャにより多様なタスクの画像生成をサポートします。効率的な組み合わせモデリング手法を採用し、ユーザーが指定したアイデンティティ、主体、スタイル、背景など複数の条件に基づき、高度に一貫性のあるカスタマイズ画像を生成可能です。"
|
97
|
+
},
|
92
98
|
"ERNIE-3.5-128K": {
|
93
99
|
"description": "百度が独自に開発したフラッグシップの大規模言語モデルで、膨大な中英語のコーパスをカバーし、強力な汎用能力を持っています。ほとんどの対話型質問応答、創作生成、プラグインアプリケーションの要件を満たすことができます。また、百度検索プラグインとの自動接続をサポートし、質問応答情報のタイムリーさを保証します。"
|
94
100
|
},
|
@@ -122,15 +128,39 @@
|
|
122
128
|
"ERNIE-Speed-Pro-128K": {
|
123
129
|
"description": "百度が2024年に最新リリースした独自開発の高性能大規模言語モデルで、汎用能力が優れており、ERNIE Speedよりも効果が優れており、基盤モデルとして微調整に適しており、特定のシナリオの問題をより良く処理し、優れた推論性能を持っています。"
|
124
130
|
},
|
131
|
+
"FLUX.1-Kontext-dev": {
|
132
|
+
"description": "FLUX.1-Kontext-devはBlack Forest Labsが開発した、Rectified Flow Transformerアーキテクチャに基づくマルチモーダル画像生成・編集モデルで、120億パラメータ規模を持ち、与えられたコンテキスト条件下で画像の生成、再構築、強化、編集に特化しています。本モデルは拡散モデルの制御可能な生成能力とTransformerのコンテキストモデリング能力を融合し、高品質な画像出力を実現。画像修復、画像補完、視覚シーン再構築など幅広いタスクに適用可能です。"
|
133
|
+
},
|
134
|
+
"FLUX.1-dev": {
|
135
|
+
"description": "FLUX.1-devはBlack Forest Labsが開発したオープンソースのマルチモーダル言語モデル(Multimodal Language Model, MLLM)で、画像と言語の理解と生成能力を融合し、画像と言語のタスクに最適化されています。先進的な大規模言語モデル(例:Mistral-7B)を基盤に、精巧に設計された視覚エンコーダーと多段階の指示微調整を通じて、画像と言語の協調処理と複雑なタスク推論能力を実現しています。"
|
136
|
+
},
|
125
137
|
"Gryphe/MythoMax-L2-13b": {
|
126
138
|
"description": "MythoMax-L2 (13B)は、革新的なモデルであり、多分野のアプリケーションや複雑なタスクに適しています。"
|
127
139
|
},
|
140
|
+
"HelloMeme": {
|
141
|
+
"description": "HelloMemeは、提供された画像や動作に基づいて自動的にミーム画像、GIF、短い動画を生成するAIツールです。絵画やプログラミングの知識は不要で、参考画像を用意するだけで、見栄えが良く面白く、スタイルが一貫したコンテンツを作成できます。"
|
142
|
+
},
|
143
|
+
"HiDream-I1-Full": {
|
144
|
+
"description": "HiDream-E1-Fullは智象未来(HiDream.ai)が提供するオープンソースのマルチモーダル画像編集大規模モデルで、先進的なDiffusion Transformerアーキテクチャを基盤に、強力な言語理解能力(内蔵LLaMA 3.1-8B-Instruct)を組み合わせています。自然言語指示による画像生成、スタイル転送、局所編集、内容の再描画をサポートし、優れた画像と言語の理解と実行能力を備えています。"
|
145
|
+
},
|
146
|
+
"HunyuanDiT-v1.2-Diffusers-Distilled": {
|
147
|
+
"description": "hunyuandit-v1.2-distilledは軽量化されたテキストから画像生成モデルで、蒸留による最適化が施されており、高品質な画像を迅速に生成可能です。特にリソースが限られた環境やリアルタイム生成タスクに適しています。"
|
148
|
+
},
|
149
|
+
"InstantCharacter": {
|
150
|
+
"description": "InstantCharacterはTencent AIチームが2025年にリリースした、微調整不要(tuning-free)のパーソナライズキャラクター生成モデルで、高忠実度かつクロスシーンで一貫したキャラクター生成を目指しています。単一の参照画像のみでキャラクターをモデリングし、そのキャラクターを多様なスタイル、動作、背景に柔軟に適用可能です。"
|
151
|
+
},
|
128
152
|
"InternVL2-8B": {
|
129
153
|
"description": "InternVL2-8Bは、強力な視覚言語モデルで、画像とテキストのマルチモーダル処理をサポートし、画像内容を正確に認識し、関連する説明や回答を生成することができます。"
|
130
154
|
},
|
131
155
|
"InternVL2.5-26B": {
|
132
156
|
"description": "InternVL2.5-26Bは、強力な視覚言語モデルで、画像とテキストのマルチモーダル処理をサポートし、画像内容を正確に認識し、関連する説明や回答を生成することができます。"
|
133
157
|
},
|
158
|
+
"Kolors": {
|
159
|
+
"description": "KolorsはKuaishouのKolorsチームが開発したテキストから画像生成モデルで、数十億のパラメータで訓練されており、視覚品質、中国語の意味理解、テキストレンダリングにおいて顕著な優位性を持ちます。"
|
160
|
+
},
|
161
|
+
"Kwai-Kolors/Kolors": {
|
162
|
+
"description": "KolorsはKuaishouのKolorsチームが開発した潜在拡散に基づく大規模テキストから画像生成モデルです。数十億のテキスト・画像ペアで訓練され、視覚品質、複雑な意味の正確性、中英文字のレンダリングに優れています。中英両言語の入力をサポートし、中国語特有の内容の理解と生成においても高い性能を発揮します。"
|
163
|
+
},
|
134
164
|
"Llama-3.2-11B-Vision-Instruct": {
|
135
165
|
"description": "高解像度画像で優れた画像推論能力を発揮し、視覚理解アプリケーションに適しています。"
|
136
166
|
},
|
@@ -164,9 +194,15 @@
|
|
164
194
|
"MiniMaxAI/MiniMax-M1-80k": {
|
165
195
|
"description": "MiniMax-M1はオープンソースの重みを持つ大規模混合注意力推論モデルで、4560億のパラメータを有し、各トークンで約459億のパラメータが活性化されます。モデルは100万トークンの超長文コンテキストをネイティブにサポートし、ライトニングアテンション機構により10万トークンの生成タスクでDeepSeek R1と比べて75%の浮動小数点演算量を削減します。また、MiniMax-M1はMoE(混合エキスパート)アーキテクチャを採用し、CISPOアルゴリズムと混合注意力設計による効率的な強化学習トレーニングを組み合わせ、長文入力推論および実際のソフトウェア工学シナリオで業界最高の性能を実現しています。"
|
166
196
|
},
|
197
|
+
"Moonshot-Kimi-K2-Instruct": {
|
198
|
+
"description": "総パラメータ数1兆、活性化パラメータ320億。非思考モデルの中で、先端知識、数学、コーディングにおいてトップレベルの性能を持ち、汎用エージェントタスクに優れています。エージェントタスクに特化して最適化されており、質問に答えるだけでなく行動も可能です。即興的で汎用的なチャットやエージェント体験に最適で、長時間の思考を必要としない反射的モデルです。"
|
199
|
+
},
|
167
200
|
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
168
201
|
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B)は、高精度の指示モデルであり、複雑な計算に適しています。"
|
169
202
|
},
|
203
|
+
"OmniConsistency": {
|
204
|
+
"description": "OmniConsistencyは大規模なDiffusion Transformers(DiTs)とペアスタイル化データを導入することで、画像から画像へのタスクにおけるスタイルの一貫性と汎化能力を向上させ、スタイルの劣化を防止します。"
|
205
|
+
},
|
170
206
|
"Phi-3-medium-128k-instruct": {
|
171
207
|
"description": "同じPhi-3-mediumモデルですが、RAGまたは少数ショットプロンプティング用により大きなコンテキストサイズを持っています。"
|
172
208
|
},
|
@@ -218,6 +254,9 @@
|
|
218
254
|
"Pro/deepseek-ai/DeepSeek-V3": {
|
219
255
|
"description": "DeepSeek-V3は、6710億パラメータを持つ混合専門家(MoE)言語モデルで、多頭潜在注意力(MLA)とDeepSeekMoEアーキテクチャを採用し、無補助損失の負荷バランス戦略を組み合わせて推論とトレーニングの効率を最適化しています。14.8兆の高品質トークンで事前トレーニングを行い、監視付き微調整と強化学習を経て、DeepSeek-V3は他のオープンソースモデルを超え、先進的なクローズドモデルに近づいています。"
|
220
256
|
},
|
257
|
+
"Pro/moonshotai/Kimi-K2-Instruct": {
|
258
|
+
"description": "Kimi K2は超強力なコードおよびエージェント能力を持つMoEアーキテクチャの基盤モデルで、総パラメータ数1兆、活性化パラメータ320億です。汎用知識推論、プログラミング、数学、エージェントなど主要カテゴリのベンチマーク性能で他の主流オープンソースモデルを上回っています。"
|
259
|
+
},
|
221
260
|
"QwQ-32B-Preview": {
|
222
261
|
"description": "QwQ-32B-Previewは、複雑な対話生成と文脈理解タスクを効率的に処理できる革新的な自然言語処理モデルです。"
|
223
262
|
},
|
@@ -278,6 +317,12 @@
|
|
278
317
|
"Qwen/Qwen3-235B-A22B": {
|
279
318
|
"description": "Qwen3は、能力が大幅に向上した新世代の通義千問大モデルであり、推論、一般、エージェント、多言語などの複数のコア能力で業界のリーダーレベルに達し、思考モードの切り替えをサポートしています。"
|
280
319
|
},
|
320
|
+
"Qwen/Qwen3-235B-A22B-Instruct-2507": {
|
321
|
+
"description": "Qwen3シリーズのフラッグシップ混合専門家(MoE)大規模言語モデルで、Alibaba Cloud Tongyi Qianwenチームが開発。総パラメータ2350億、推論時に220億パラメータを活性化します。Qwen3-235B-A22Bの非思考モードのアップデート版で、指示遵守、論理推論、テキスト理解、数学、科学、プログラミング、ツール使用などの汎用能力が大幅に向上。多言語の長尾知識カバーを強化し、主観的かつオープンなタスクにおけるユーザーの好みにより良く整合し、より有用で高品質なテキスト生成を実現します。"
|
322
|
+
},
|
323
|
+
"Qwen/Qwen3-235B-A22B-Thinking-2507": {
|
324
|
+
"description": "Qwen3シリーズの大型言語モデルの一つで、Alibaba Tongyi Qianwenチームが開発。複雑な推論タスクに特化し、混合専門家(MoE)アーキテクチャを採用。総パラメータ2350億、トークンごとに約220億パラメータを活性化し、計算効率を高めつつ強力な性能を維持。論理推論、数学、科学、プログラミング、学術ベンチマークなど専門知識を要するタスクで顕著な性能向上を示し、オープンソースの思考モデルの中でトップレベル。指示遵守、ツール使用、テキスト生成などの汎用能力も強化し、256Kの長文コンテキスト理解をネイティブにサポート。深い推論や長文処理が必要なシナリオに最適です。"
|
325
|
+
},
|
281
326
|
"Qwen/Qwen3-30B-A3B": {
|
282
327
|
"description": "Qwen3は、能力が大幅に向上した新世代の通義千問大モデルであり、推論、一般、エージェント、多言語などの複数のコア能力で業界のリーダーレベルに達し、思考モードの切り替えをサポートしています。"
|
283
328
|
},
|
@@ -944,6 +989,9 @@
|
|
944
989
|
"doubao-seed-1.6-thinking": {
|
945
990
|
"description": "Doubao-Seed-1.6-thinking モデルは思考能力が大幅に強化されており、Doubao-1.5-thinking-pro と比較して、コーディング、数学、論理推論などの基礎能力がさらに向上しています。視覚理解もサポートしています。256k のコンテキストウィンドウをサポートし、最大 16k トークンの出力長に対応しています。"
|
946
991
|
},
|
992
|
+
"doubao-seedream-3-0-t2i-250415": {
|
993
|
+
"description": "Doubao画像生成モデルはByteDanceのSeedチームが開発し、テキストと画像の入力をサポートし、高い制御性と高品質な画像生成体験を提供します。テキストプロンプトに基づいて画像を生成します。"
|
994
|
+
},
|
947
995
|
"doubao-vision-lite-32k": {
|
948
996
|
"description": "Doubao-visionモデルは豆包が提供するマルチモーダル大規模モデルで、強力な画像理解と推論能力、正確な指示理解能力を備えています。画像テキスト情報抽出や画像に基づく推論タスクで高い性能を示し、より複雑で幅広い視覚質問応答タスクに応用可能です。"
|
949
997
|
},
|
@@ -995,6 +1043,9 @@
|
|
995
1043
|
"ernie-char-fiction-8k": {
|
996
1044
|
"description": "百度が独自に開発した垂直シーン向けの大規模言語モデルで、ゲームのNPC、カスタマーサービスの対話、対話キャラクターの役割演技などのアプリケーションシーンに適しており、キャラクターのスタイルがより鮮明で一貫しており、指示に従う能力が強く、推論性能が優れています。"
|
997
1045
|
},
|
1046
|
+
"ernie-irag-edit": {
|
1047
|
+
"description": "百度が独自開発したERNIE iRAG Edit画像編集モデルは、画像に基づく消去(erase)、再描画(repaint)、バリエーション生成(variation)などの操作をサポートします。"
|
1048
|
+
},
|
998
1049
|
"ernie-lite-8k": {
|
999
1050
|
"description": "ERNIE Liteは、百度が独自に開発した軽量級の大規模言語モデルで、優れたモデル効果と推論性能を兼ね備え、低計算能力のAIアクセラレータカードでの推論使用に適しています。"
|
1000
1051
|
},
|
@@ -1022,12 +1073,27 @@
|
|
1022
1073
|
"ernie-x1-turbo-32k": {
|
1023
1074
|
"description": "ERNIE-X1-32Kと比較して、モデルの効果と性能が向上しています。"
|
1024
1075
|
},
|
1076
|
+
"flux-1-schnell": {
|
1077
|
+
"description": "Black Forest Labsが開発した120億パラメータのテキストから画像生成モデルで、潜在的敵対的拡散蒸留技術を採用し、1~4ステップで高品質な画像を生成可能。閉源の代替品に匹敵する性能を持ち、Apache-2.0ライセンスの下で個人、研究、商用利用に適用可能です。"
|
1078
|
+
},
|
1079
|
+
"flux-dev": {
|
1080
|
+
"description": "FLUX.1 [dev]は非商用用途向けのオープンソースの重み付き精錬モデルで、FLUXプロフェッショナル版に近い画像品質と指示遵守能力を維持しつつ、より高い実行効率を実現。標準モデルと同サイズながらリソース利用効率が向上しています。"
|
1081
|
+
},
|
1025
1082
|
"flux-kontext/dev": {
|
1026
1083
|
"description": "フロンティアイメージ編集モデル。"
|
1027
1084
|
},
|
1085
|
+
"flux-merged": {
|
1086
|
+
"description": "FLUX.1-mergedモデルは、開発段階で探索された「DEV」の深層特性と「Schnell」が示す高速実行の利点を組み合わせています。この取り組みにより、FLUX.1-mergedはモデルの性能限界を押し上げ、応用範囲を拡大しました。"
|
1087
|
+
},
|
1028
1088
|
"flux-pro/kontext": {
|
1029
1089
|
"description": "FLUX.1 Kontext [pro] はテキストと参照画像を入力として処理し、目的に応じた局所編集や複雑な全体シーンの変換をシームレスに実現します。"
|
1030
1090
|
},
|
1091
|
+
"flux-schnell": {
|
1092
|
+
"description": "FLUX.1 [schnell]は現時点で最先端の少ステップモデルであり、同種の競合モデルを凌駕し、Midjourney v6.0やDALL·E 3 (HD)などの強力な非蒸留モデルよりも優れています。専用の微調整により、事前学習段階の出力多様性を完全に保持し、市場の最先端モデルと比較して視覚品質、指示遵守、サイズ・比率変化、フォント処理、出力多様性の面で大幅に向上。ユーザーにより豊かで多様な創造的画像生成体験を提供します。"
|
1093
|
+
},
|
1094
|
+
"flux.1-schnell": {
|
1095
|
+
"description": "120億パラメータを持つ修正フロートランスフォーマーで、テキスト記述に基づいて画像を生成します。"
|
1096
|
+
},
|
1031
1097
|
"flux/schnell": {
|
1032
1098
|
"description": "FLUX.1 [schnell] は120億パラメータを持つストリーミングトランスフォーマーモデルで、1〜4ステップでテキストから高品質な画像を生成し、個人および商用利用に適しています。"
|
1033
1099
|
},
|
@@ -1109,9 +1175,6 @@
|
|
1109
1175
|
"gemini-2.5-flash-preview-04-17": {
|
1110
1176
|
"description": "Gemini 2.5 Flash Previewは、Googleのコストパフォーマンスに優れたモデルで、包括的な機能を提供します。"
|
1111
1177
|
},
|
1112
|
-
"gemini-2.5-flash-preview-04-17-thinking": {
|
1113
|
-
"description": "Gemini 2.5 Flash PreviewはGoogleのコストパフォーマンスに優れたモデルで、包括的な機能を提供します。"
|
1114
|
-
},
|
1115
1178
|
"gemini-2.5-flash-preview-05-20": {
|
1116
1179
|
"description": "Gemini 2.5 Flash PreviewはGoogleのコストパフォーマンスに優れたモデルで、包括的な機能を提供します。"
|
1117
1180
|
},
|
@@ -1190,6 +1253,21 @@
|
|
1190
1253
|
"glm-4.1v-thinking-flashx": {
|
1191
1254
|
"description": "GLM-4.1V-Thinking シリーズモデルは、現時点で知られている10BクラスのVLMモデルの中で最も性能の高い視覚モデルであり、同クラスのSOTAの各種視覚言語タスクを統合しています。これには動画理解、画像質問応答、学科問題解決、OCR文字認識、文書およびグラフ解析、GUIエージェント、フロントエンドウェブコーディング、グラウンディングなどが含まれ、多くのタスク能力は8倍のパラメータを持つQwen2.5-VL-72Bをも上回ります。先進的な強化学習技術により、思考の連鎖推論を通じて回答の正確性と豊かさを向上させ、最終的な成果と説明可能性の両面で従来の非thinkingモデルを大きく凌駕しています。"
|
1192
1255
|
},
|
1256
|
+
"glm-4.5": {
|
1257
|
+
"description": "智譜の最新フラッグシップモデルで、思考モードの切り替えをサポートし、総合能力はオープンソースモデルのSOTAレベルに達し、コンテキスト長は最大128Kです。"
|
1258
|
+
},
|
1259
|
+
"glm-4.5-air": {
|
1260
|
+
"description": "GLM-4.5の軽量版で、性能とコストパフォーマンスのバランスを取り、混合思考モデルの柔軟な切り替えが可能です。"
|
1261
|
+
},
|
1262
|
+
"glm-4.5-airx": {
|
1263
|
+
"description": "GLM-4.5-Airの高速版で、応答速度がさらに向上し、大規模かつ高速なニーズに特化しています。"
|
1264
|
+
},
|
1265
|
+
"glm-4.5-flash": {
|
1266
|
+
"description": "GLM-4.5の無料版で、推論、コード生成、エージェントなどのタスクで優れた性能を発揮します。"
|
1267
|
+
},
|
1268
|
+
"glm-4.5-x": {
|
1269
|
+
"description": "GLM-4.5の高速版で、強力な性能を持ちながら、生成速度は100トークン/秒に達します。"
|
1270
|
+
},
|
1193
1271
|
"glm-4v": {
|
1194
1272
|
"description": "GLM-4Vは強力な画像理解と推論能力を提供し、さまざまな視覚タスクをサポートします。"
|
1195
1273
|
},
|
@@ -1209,7 +1287,7 @@
|
|
1209
1287
|
"description": "超高速推論:非常に速い推論速度と強力な推論効果を持っています。"
|
1210
1288
|
},
|
1211
1289
|
"glm-z1-flash": {
|
1212
|
-
"description": "GLM-Z1
|
1290
|
+
"description": "GLM-Z1シリーズは強力な複雑推論能力を備え、論理推論、数学、プログラミングなどの分野で優れた性能を示します。"
|
1213
1291
|
},
|
1214
1292
|
"glm-z1-flashx": {
|
1215
1293
|
"description": "高速かつ低価格:Flash強化版で、超高速推論速度とより速い同時処理を保証します。"
|
@@ -1385,6 +1463,9 @@
|
|
1385
1463
|
"grok-2-1212": {
|
1386
1464
|
"description": "このモデルは、精度、指示の遵守、そして多言語能力において改善されています。"
|
1387
1465
|
},
|
1466
|
+
"grok-2-image-1212": {
|
1467
|
+
"description": "最新の画像生成モデルで、テキストプロンプトに基づき生き生きとしたリアルな画像を生成します。マーケティング、ソーシャルメディア、エンターテインメント分野での画像生成に優れた性能を発揮します。"
|
1468
|
+
},
|
1388
1469
|
"grok-2-vision-1212": {
|
1389
1470
|
"description": "このモデルは、精度、指示の遵守、そして多言語能力において改善されています。"
|
1390
1471
|
},
|
@@ -1454,6 +1535,9 @@
|
|
1454
1535
|
"hunyuan-t1-20250529": {
|
1455
1536
|
"description": "テキスト作成や作文の最適化、コードのフロントエンド、数学、論理推論など理系能力の強化、指示遵守能力の向上を図っています。"
|
1456
1537
|
},
|
1538
|
+
"hunyuan-t1-20250711": {
|
1539
|
+
"description": "高難度の数学、論理、コード能力を大幅に向上させ、モデルの出力安定性を最適化し、長文処理能力を強化しました。"
|
1540
|
+
},
|
1457
1541
|
"hunyuan-t1-latest": {
|
1458
1542
|
"description": "業界初の超大規模Hybrid-Transformer-Mamba推論モデルであり、推論能力を拡張し、超高速なデコード速度を実現し、人間の好みにさらに整合します。"
|
1459
1543
|
},
|
@@ -1502,6 +1586,12 @@
|
|
1502
1586
|
"hunyuan-vision": {
|
1503
1587
|
"description": "混元の最新のマルチモーダルモデルで、画像とテキストの入力をサポートし、テキストコンテンツを生成します。"
|
1504
1588
|
},
|
1589
|
+
"image-01": {
|
1590
|
+
"description": "新しい画像生成モデルで、繊細な画質を持ち、テキストから画像、画像から画像の生成をサポートします。"
|
1591
|
+
},
|
1592
|
+
"image-01-live": {
|
1593
|
+
"description": "画像生成モデルで、繊細な画質を持ち、テキストから画像生成と画風設定をサポートします。"
|
1594
|
+
},
|
1505
1595
|
"imagen-4.0-generate-preview-06-06": {
|
1506
1596
|
"description": "Imagen 第4世代テキストから画像へのモデルシリーズ"
|
1507
1597
|
},
|
@@ -1526,6 +1616,9 @@
|
|
1526
1616
|
"internvl3-latest": {
|
1527
1617
|
"description": "私たちの最新のマルチモーダル大規模モデルは、より強力な画像と言語の理解能力と長期的な画像理解能力を備えており、トップクラスのクローズドソースモデルに匹敵する性能を持っています。デフォルトでは、私たちの最新の InternVL シリーズモデルに指向されており、現在は internvl3-78b に指向しています。"
|
1528
1618
|
},
|
1619
|
+
"irag-1.0": {
|
1620
|
+
"description": "百度が独自開発したiRAG(image based RAG)は、検索強化型のテキストから画像生成技術で、百度検索の億単位の画像リソースと強力な基盤モデル能力を組み合わせ、非常にリアルな画像を生成します。従来のテキストから画像生成システムを大きく上回る効果を持ち、AI臭さがなく、コストも低減。iRAGは幻覚がなく、超リアルで即時利用可能な特徴を備えています。"
|
1621
|
+
},
|
1529
1622
|
"jamba-large": {
|
1530
1623
|
"description": "私たちの最も強力で先進的なモデルで、企業レベルの複雑なタスクを処理するために設計されており、卓越した性能を備えています。"
|
1531
1624
|
},
|
@@ -1535,6 +1628,9 @@
|
|
1535
1628
|
"jina-deepsearch-v1": {
|
1536
1629
|
"description": "深層検索は、ウェブ検索、読解、推論を組み合わせて、包括的な調査を行います。これは、あなたの研究タスクを受け入れる代理人として考えることができ、広範な検索を行い、何度も反復してから答えを提供します。このプロセスには、継続的な研究、推論、さまざまな視点からの問題解決が含まれます。これは、事前に訓練されたデータから直接答えを生成する標準的な大規模モデルや、一度きりの表面的な検索に依存する従来のRAGシステムとは根本的に異なります。"
|
1537
1630
|
},
|
1631
|
+
"kimi-k2": {
|
1632
|
+
"description": "Kimi-K2はMoonshot AIが提供する超強力なコードおよびエージェント能力を持つMoEアーキテクチャ基盤モデルで、総パラメータ1兆、活性化パラメータ320億。汎用知識推論、プログラミング、数学、エージェントなど主要カテゴリのベンチマーク性能で他の主流オープンソースモデルを上回っています。"
|
1633
|
+
},
|
1538
1634
|
"kimi-k2-0711-preview": {
|
1539
1635
|
"description": "kimi-k2は強力なコードおよびエージェント能力を備えたMoEアーキテクチャの基盤モデルで、総パラメータ数は1兆、活性化パラメータは320億です。一般知識推論、プログラミング、数学、エージェントなどの主要カテゴリのベンチマーク性能テストで、K2モデルは他の主流オープンソースモデルを上回る性能を示しています。"
|
1540
1636
|
},
|
@@ -1928,6 +2024,9 @@
|
|
1928
2024
|
"moonshotai/Kimi-Dev-72B": {
|
1929
2025
|
"description": "Kimi-Dev-72B はオープンソースの大規模コードモデルであり、大規模な強化学習によって最適化されており、堅牢で直接本番投入可能なパッチを出力できます。このモデルは SWE-bench Verified で 60.4% の新記録を達成し、欠陥修正やコードレビューなどの自動化ソフトウェア工学タスクにおけるオープンソースモデルの記録を更新しました。"
|
1930
2026
|
},
|
2027
|
+
"moonshotai/Kimi-K2-Instruct": {
|
2028
|
+
"description": "Kimi K2は超強力なコードおよびエージェント能力を持つMoEアーキテクチャ基盤モデルで、総パラメータ1兆、活性化パラメータ320億。汎用知識推論、プログラミング、数学、エージェントなど主要カテゴリのベンチマーク性能で他の主流オープンソースモデルを上回っています。"
|
2029
|
+
},
|
1931
2030
|
"moonshotai/kimi-k2-instruct": {
|
1932
2031
|
"description": "kimi-k2 は、強力なコードおよびエージェント機能を備えたMoEアーキテクチャの基盤モデルで、総パラメータ数は1兆、活性化パラメータは320億です。一般的な知識推論、プログラミング、数学、エージェントなどの主要なベンチマーク性能テストにおいて、K2モデルは他の主流のオープンソースモデルを上回る性能を示しています。"
|
1933
2032
|
},
|
@@ -2264,6 +2363,12 @@
|
|
2264
2363
|
"qwen3-235b-a22b": {
|
2265
2364
|
"description": "Qwen3は能力が大幅に向上した新世代の通義千問大モデルで、推論、一般、エージェント、多言語などの複数のコア能力において業界のリーダーレベルに達し、思考モードの切り替えをサポートしています。"
|
2266
2365
|
},
|
2366
|
+
"qwen3-235b-a22b-instruct-2507": {
|
2367
|
+
"description": "Qwen3ベースの非思考モードオープンソースモデルで、前バージョン(通義千問3-235B-A22B)に比べ、主観的創作能力とモデルの安全性がわずかに向上しています。"
|
2368
|
+
},
|
2369
|
+
"qwen3-235b-a22b-thinking-2507": {
|
2370
|
+
"description": "Qwen3ベースの思考モードオープンソースモデルで、前バージョン(通義千問3-235B-A22B)に比べ、論理能力、汎用能力、知識強化、創作能力が大幅に向上し、高難度の強推論シナリオに適しています。"
|
2371
|
+
},
|
2267
2372
|
"qwen3-30b-a3b": {
|
2268
2373
|
"description": "Qwen3は能力が大幅に向上した新世代の通義千問大モデルで、推論、一般、エージェント、多言語などの複数のコア能力において業界のリーダーレベルに達し、思考モードの切り替えをサポートしています。"
|
2269
2374
|
},
|
@@ -2276,6 +2381,12 @@
|
|
2276
2381
|
"qwen3-8b": {
|
2277
2382
|
"description": "Qwen3は能力が大幅に向上した新世代の通義千問大モデルで、推論、一般、エージェント、多言語などの複数のコア能力において業界のリーダーレベルに達し、思考モードの切り替えをサポートしています。"
|
2278
2383
|
},
|
2384
|
+
"qwen3-coder-480b-a35b-instruct": {
|
2385
|
+
"description": "通義千問のコードモデルオープンソース版。最新のqwen3-coder-480b-a35b-instructはQwen3ベースのコード生成モデルで、強力なコーディングエージェント能力を持ち、ツール呼び出しや環境とのインタラクションに優れ、自律的なプログラミングが可能で、コード能力と汎用能力を兼ね備えています。"
|
2386
|
+
},
|
2387
|
+
"qwen3-coder-plus": {
|
2388
|
+
"description": "通義千問のコードモデル。最新のQwen3-Coder-PlusシリーズモデルはQwen3ベースのコード生成モデルで、強力なコーディングエージェント能力を持ち、ツール呼び出しや環境とのインタラクションに優れ、自律的なプログラミングが可能で、コード能力と汎用能力を兼ね備えています。"
|
2389
|
+
},
|
2279
2390
|
"qwq": {
|
2280
2391
|
"description": "QwQはAIの推論能力を向上させることに特化した実験的研究モデルです。"
|
2281
2392
|
},
|
@@ -2318,6 +2429,24 @@
|
|
2318
2429
|
"sonar-reasoning-pro": {
|
2319
2430
|
"description": "DeepSeek推論モデルによってサポートされる新しいAPI製品。"
|
2320
2431
|
},
|
2432
|
+
"stable-diffusion-3-medium": {
|
2433
|
+
"description": "Stability AIがリリースした最新のテキストから画像生成大規模モデルです。前世代の利点を継承しつつ、画像品質、テキスト理解、スタイル多様性の面で大幅に改善され、複雑な自然言語プロンプトをより正確に解釈し、より精密かつ多様な画像を生成可能です。"
|
2434
|
+
},
|
2435
|
+
"stable-diffusion-3.5-large": {
|
2436
|
+
"description": "stable-diffusion-3.5-largeは8億パラメータを持つマルチモーダル拡散トランスフォーマー(MMDiT)テキストから画像生成モデルで、卓越した画像品質とプロンプト適合性を備え、100万画素の高解像度画像生成をサポートし、一般的な消費者向けハードウェア上で効率的に動作します。"
|
2437
|
+
},
|
2438
|
+
"stable-diffusion-3.5-large-turbo": {
|
2439
|
+
"description": "stable-diffusion-3.5-large-turboはstable-diffusion-3.5-largeを基に、敵対的拡散蒸留(ADD)技術を採用したモデルで、より高速な生成速度を実現しています。"
|
2440
|
+
},
|
2441
|
+
"stable-diffusion-v1.5": {
|
2442
|
+
"description": "stable-diffusion-v1.5はstable-diffusion-v1.2のチェックポイント重みを初期化に使用し、「laion-aesthetics v2 5+」で512x512解像度にて595kステップの微調整を行い、テキスト条件付けを10%削減して無分類器ガイダンスサンプリングを改善しました。"
|
2443
|
+
},
|
2444
|
+
"stable-diffusion-xl": {
|
2445
|
+
"description": "stable-diffusion-xlはv1.5に比べ大幅な改良が施され、現行のオープンソーステキストから画像生成SOTAモデルmidjourneyと同等の効果を持ちます。具体的な改良点は、unetバックボーンが従来の3倍の大きさ、生成画像の品質向上のためのリファインメントモジュール追加、効率的なトレーニング技術の導入などです。"
|
2446
|
+
},
|
2447
|
+
"stable-diffusion-xl-base-1.0": {
|
2448
|
+
"description": "Stability AIが開発しオープンソース化したテキストから画像生成大規模モデルで、業界トップクラスの創造的画像生成能力を持ち、優れた指示理解能力を備え、逆プロンプト定義による精密な内容生成をサポートします。"
|
2449
|
+
},
|
2321
2450
|
"step-1-128k": {
|
2322
2451
|
"description": "性能とコストのバランスを取り、一般的なシナリオに適しています。"
|
2323
2452
|
},
|
@@ -2348,6 +2477,12 @@
|
|
2348
2477
|
"step-1v-8k": {
|
2349
2478
|
"description": "小型ビジュアルモデルで、基本的なテキストと画像のタスクに適しています。"
|
2350
2479
|
},
|
2480
|
+
"step-1x-edit": {
|
2481
|
+
"description": "本モデルは画像編集タスクに特化しており、ユーザーが提供した画像とテキスト記述に基づき、画像の修正や強化を行います。テキスト記述やサンプル画像など多様な入力形式をサポートし、ユーザーの意図を理解して要求に合致した画像編集結果を生成します。"
|
2482
|
+
},
|
2483
|
+
"step-1x-medium": {
|
2484
|
+
"description": "本モデルは強力な画像生成能力を持ち、テキスト記述を入力としてサポートします。ネイティブの中国語対応により、中国語テキスト記述の理解と処理が向上し、テキストの意味情報をより正確に捉えて画像特徴に変換し、より精密な画像生成を実現します。入力に基づき高解像度かつ高品質な画像を生成し、一定のスタイル転送能力も備えています。"
|
2485
|
+
},
|
2351
2486
|
"step-2-16k": {
|
2352
2487
|
"description": "大規模なコンテキストインタラクションをサポートし、複雑な対話シナリオに適しています。"
|
2353
2488
|
},
|
@@ -2357,6 +2492,9 @@
|
|
2357
2492
|
"step-2-mini": {
|
2358
2493
|
"description": "新世代の自社開発のAttentionアーキテクチャMFAに基づく超高速大モデルで、非常に低コストでstep1と同様の効果を達成しつつ、より高いスループットと迅速な応答遅延を維持しています。一般的なタスクを処理でき、コード能力において特長を持っています。"
|
2359
2494
|
},
|
2495
|
+
"step-2x-large": {
|
2496
|
+
"description": "階躍星辰の新世代画像生成モデルで、画像生成タスクに特化し、ユーザーが提供したテキスト記述に基づき高品質な画像を生成します。新モデルは画像の質感がよりリアルで、中英両言語の文字生成能力が強化されています。"
|
2497
|
+
},
|
2360
2498
|
"step-r1-v-mini": {
|
2361
2499
|
"description": "このモデルは強力な画像理解能力を持つ推論大モデルで、画像とテキスト情報を処理し、深い思考の後にテキストを生成します。このモデルは視覚推論分野で優れたパフォーマンスを発揮し、数学、コード、テキスト推論能力も第一級です。コンテキスト長は100kです。"
|
2362
2500
|
},
|
@@ -2432,8 +2570,23 @@
|
|
2432
2570
|
"v0-1.5-md": {
|
2433
2571
|
"description": "v0-1.5-md モデルは、日常的なタスクやユーザーインターフェース(UI)生成に適しています"
|
2434
2572
|
},
|
2573
|
+
"wan2.2-t2i-flash": {
|
2574
|
+
"description": "万相2.2の高速版で、現時点で最新のモデルです。創造性、安定性、写実的質感が全面的にアップグレードされ、生成速度が速く、コストパフォーマンスに優れています。"
|
2575
|
+
},
|
2576
|
+
"wan2.2-t2i-plus": {
|
2577
|
+
"description": "万相2.2のプロフェッショナル版で、現時点で最新のモデルです。創造性、安定性、写実的質感が全面的にアップグレードされ、生成される画像のディテールが豊かです。"
|
2578
|
+
},
|
2579
|
+
"wanx-v1": {
|
2580
|
+
"description": "基礎的なテキストから画像生成モデルで、通義万相公式サイトの1.0汎用モデルに対応しています。"
|
2581
|
+
},
|
2582
|
+
"wanx2.0-t2i-turbo": {
|
2583
|
+
"description": "質感の良い人物画像生成に優れ、速度は中程度でコストが低いモデル。通義万相公式サイトの2.0高速モデルに対応しています。"
|
2584
|
+
},
|
2585
|
+
"wanx2.1-t2i-plus": {
|
2586
|
+
"description": "全面的にアップグレードされたバージョンで、生成画像のディテールがより豊かで、速度はやや遅いです。通義万相公式サイトの2.1プロフェッショナルモデルに対応しています。"
|
2587
|
+
},
|
2435
2588
|
"wanx2.1-t2i-turbo": {
|
2436
|
-
"description": "
|
2589
|
+
"description": "全面的にアップグレードされたバージョンで、生成速度が速く、効果が総合的に優れており、コストパフォーマンスが高いです。通義万相公式サイトの2.1高速モデルに対応しています。"
|
2437
2590
|
},
|
2438
2591
|
"whisper-1": {
|
2439
2592
|
"description": "汎用音声認識モデルで、多言語の音声認識、音声翻訳、言語識別をサポートします。"
|
@@ -2485,5 +2638,11 @@
|
|
2485
2638
|
},
|
2486
2639
|
"yi-vision-v2": {
|
2487
2640
|
"description": "複雑な視覚タスクモデルで、複数の画像に基づく高性能な理解と分析能力を提供します。"
|
2641
|
+
},
|
2642
|
+
"zai-org/GLM-4.5": {
|
2643
|
+
"description": "GLM-4.5はエージェントアプリケーション向けに設計された基盤モデルで、混合専門家(Mixture-of-Experts)アーキテクチャを採用。ツール呼び出し、ウェブブラウジング、ソフトウェア工学、フロントエンドプログラミング分野で深く最適化され、Claude CodeやRoo Codeなどのコードエージェントへのシームレスな統合をサポートします。混合推論モードを採用し、複雑な推論や日常利用など多様なシナリオに適応可能です。"
|
2644
|
+
},
|
2645
|
+
"zai-org/GLM-4.5-Air": {
|
2646
|
+
"description": "GLM-4.5-Airはエージェントアプリケーション向けに設計された基盤モデルで、混合専門家(Mixture-of-Experts)アーキテクチャを採用。ツール呼び出し、ウェブブラウジング、ソフトウェア工学、フロントエンドプログラミング分野で深く最適化され、Claude CodeやRoo Codeなどのコードエージェントへのシームレスな統合をサポートします。混合推論モードを採用し、複雑な推論や日常利用など多様なシナリオに適応可能です。"
|
2488
2647
|
}
|
2489
2648
|
}
|