@lobehub/chat 1.106.3 → 1.106.5

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (37) hide show
  1. package/CHANGELOG.md +58 -0
  2. package/apps/desktop/src/preload/routeInterceptor.ts +28 -0
  3. package/changelog/v1.json +21 -0
  4. package/locales/ar/models.json +164 -5
  5. package/locales/bg-BG/models.json +164 -5
  6. package/locales/de-DE/models.json +164 -5
  7. package/locales/en-US/models.json +164 -5
  8. package/locales/es-ES/models.json +164 -5
  9. package/locales/fa-IR/models.json +164 -5
  10. package/locales/fr-FR/models.json +164 -5
  11. package/locales/it-IT/models.json +164 -5
  12. package/locales/ja-JP/models.json +164 -5
  13. package/locales/ko-KR/models.json +164 -5
  14. package/locales/nl-NL/models.json +164 -5
  15. package/locales/pl-PL/models.json +164 -5
  16. package/locales/pt-BR/models.json +164 -5
  17. package/locales/ru-RU/models.json +164 -5
  18. package/locales/tr-TR/models.json +164 -5
  19. package/locales/vi-VN/models.json +164 -5
  20. package/locales/zh-CN/models.json +164 -5
  21. package/locales/zh-TW/models.json +164 -5
  22. package/package.json +1 -1
  23. package/src/features/Conversation/Messages/Assistant/Tool/Inspector/BuiltinPluginTitle.tsx +2 -9
  24. package/src/features/Conversation/Messages/Assistant/Tool/Inspector/PluginResultJSON.tsx +7 -2
  25. package/src/features/Conversation/Messages/Assistant/Tool/Inspector/ToolTitle.tsx +2 -2
  26. package/src/features/Conversation/Messages/Assistant/Tool/Inspector/index.tsx +5 -11
  27. package/src/features/Conversation/Messages/Assistant/Tool/Render/Arguments/index.tsx +37 -12
  28. package/src/features/Conversation/Messages/Assistant/Tool/Render/CustomRender.tsx +43 -34
  29. package/src/features/Conversation/Messages/Assistant/Tool/index.tsx +23 -6
  30. package/src/features/Conversation/Messages/Assistant/index.tsx +1 -0
  31. package/src/features/Conversation/components/VirtualizedList/index.tsx +0 -1
  32. package/src/server/services/mcp/index.test.ts +161 -0
  33. package/src/server/services/mcp/index.ts +4 -1
  34. package/src/store/chat/slices/aiChat/actions/generateAIChat.ts +10 -0
  35. package/src/store/chat/slices/aiChat/initialState.ts +2 -0
  36. package/src/store/chat/slices/message/selectors.ts +9 -0
  37. package/src/store/chat/slices/plugin/action.ts +2 -0
@@ -32,6 +32,9 @@
32
32
  "4.0Ultra": {
33
33
  "description": "Spark4.0 Ultra는 스타크 대형 모델 시리즈 중 가장 강력한 버전으로, 업그레이드된 네트워크 검색 링크와 함께 텍스트 내용의 이해 및 요약 능력을 향상시킵니다. 사무 생산성을 높이고 정확한 요구에 응답하기 위한 종합 솔루션으로, 업계를 선도하는 스마트 제품입니다."
34
34
  },
35
+ "AnimeSharp": {
36
+ "description": "AnimeSharp(일명 “4x‑AnimeSharp”)는 Kim2091이 ESRGAN 아키텍처를 기반으로 개발한 오픈 소스 초해상도 모델로, 애니메이션 스타일 이미지의 확대 및 선명화에 중점을 두고 있습니다. 2022년 2월에 “4x-TextSharpV1”에서 이름이 변경되었으며, 원래는 텍스트 이미지에도 적용 가능했으나 애니메이션 콘텐츠에 맞게 성능이 크게 최적화되었습니다."
37
+ },
35
38
  "Baichuan2-Turbo": {
36
39
  "description": "검색 강화 기술을 통해 대형 모델과 분야 지식, 전 세계 지식의 완전한 연결을 실현합니다. PDF, Word 등 다양한 문서 업로드 및 웹사이트 입력을 지원하며, 정보 획득이 신속하고 포괄적이며, 출력 결과가 정확하고 전문적입니다."
37
40
  },
@@ -89,6 +92,9 @@
89
92
  "Doubao-pro-4k": {
90
93
  "description": "최고 성능의 주력 모델로 복잡한 작업 처리에 적합하며, 참고 질문 답변, 요약, 창작, 텍스트 분류, 역할극 등 다양한 시나리오에서 우수한 성과를 보입니다. 4k 컨텍스트 윈도우 추론 및 미세 조정을 지원합니다."
91
94
  },
95
+ "DreamO": {
96
+ "description": "DreamO는 바이트댄스와 베이징대학교가 공동 개발한 오픈 소스 이미지 맞춤 생성 모델로, 통합 아키텍처를 통해 다중 작업 이미지 생성을 지원합니다. 효율적인 조합 모델링 방식을 채택하여 사용자가 지정한 신원, 주체, 스타일, 배경 등 다양한 조건에 따라 일관성 있고 맞춤화된 이미지를 생성할 수 있습니다."
97
+ },
92
98
  "ERNIE-3.5-128K": {
93
99
  "description": "바이두가 자체 개발한 플래그십 대규모 언어 모델로, 방대한 중문 및 영문 코퍼스를 포함하고 있으며, 강력한 일반 능력을 갖추고 있어 대부분의 대화형 질문 응답, 창작 생성, 플러그인 응용 시나리오 요구를 충족할 수 있습니다. 또한 바이두 검색 플러그인과의 자동 연동을 지원하여 질문 응답 정보의 시의성을 보장합니다."
94
100
  },
@@ -122,15 +128,39 @@
122
128
  "ERNIE-Speed-Pro-128K": {
123
129
  "description": "바이두가 2024년에 최신 발표한 자체 개발 고성능 대언어 모델로, 일반 능력이 뛰어나며, ERNIE Speed보다 더 나은 성능을 보여 특정 시나리오 문제를 더 잘 처리하기 위해 기본 모델로 조정하는 데 적합하며, 뛰어난 추론 성능을 갖추고 있습니다."
124
130
  },
131
+ "FLUX.1-Kontext-dev": {
132
+ "description": "FLUX.1-Kontext-dev는 Black Forest Labs가 개발한 Rectified Flow Transformer 아키텍처 기반의 다중 모달 이미지 생성 및 편집 모델로, 120억(12B) 파라미터 규모를 갖추고 있습니다. 주어진 컨텍스트 조건 하에서 이미지 생성, 재구성, 향상 또는 편집에 특화되어 있습니다. 이 모델은 확산 모델의 제어 가능한 생성 장점과 Transformer의 컨텍스트 모델링 능력을 결합하여 고품질 이미지 출력을 지원하며, 이미지 복원, 이미지 보완, 시각적 장면 재구성 등 다양한 작업에 널리 활용됩니다."
133
+ },
134
+ "FLUX.1-dev": {
135
+ "description": "FLUX.1-dev는 Black Forest Labs가 개발한 오픈 소스 다중 모달 언어 모델(MLLM)로, 이미지와 텍스트 이해 및 생성 능력을 융합하여 이미지-텍스트 작업에 최적화되어 있습니다. Mistral-7B와 같은 최첨단 대형 언어 모델을 기반으로 정교하게 설계된 시각 인코더와 다단계 명령 미세 조정을 통해 이미지-텍스트 협업 처리 및 복잡한 작업 추론 능력을 구현합니다."
136
+ },
125
137
  "Gryphe/MythoMax-L2-13b": {
126
138
  "description": "MythoMax-L2 (13B)는 혁신적인 모델로, 다양한 분야의 응용과 복잡한 작업에 적합합니다."
127
139
  },
140
+ "HelloMeme": {
141
+ "description": "HelloMeme는 사용자가 제공한 이미지나 동작을 바탕으로 자동으로 밈, GIF 또는 짧은 동영상을 생성하는 AI 도구입니다. 그림 그리기나 프로그래밍 지식이 전혀 없어도 참고 이미지만 준비하면, 보기 좋고 재미있으며 스타일이 일관된 콘텐츠를 만들어 줍니다."
142
+ },
143
+ "HiDream-I1-Full": {
144
+ "description": "HiDream-E1-Full은 지상미래(HiDream.ai)에서 출시한 오픈 소스 다중 모달 이미지 편집 대형 모델로, 최첨단 Diffusion Transformer 아키텍처를 기반으로 강력한 언어 이해 능력(LLaMA 3.1-8B-Instruct 내장)을 결합하여 자연어 명령을 통해 이미지 생성, 스타일 전이, 부분 편집 및 내용 재구성을 지원하며 뛰어난 이미지-텍스트 이해 및 실행 능력을 갖추고 있습니다."
145
+ },
146
+ "HunyuanDiT-v1.2-Diffusers-Distilled": {
147
+ "description": "hunyuandit-v1.2-distilled는 경량화된 텍스트-이미지 생성 모델로, 증류 최적화를 거쳐 빠르게 고품질 이미지를 생성할 수 있어 저자원 환경과 실시간 생성 작업에 특히 적합합니다."
148
+ },
149
+ "InstantCharacter": {
150
+ "description": "InstantCharacter는 텐센트 AI 팀이 2025년에 발표한 튜닝 불필요(tuning-free) 개인화 캐릭터 생성 모델로, 고충실도 및 다양한 장면에서 일관된 캐릭터 생성을 목표로 합니다. 단 한 장의 참조 이미지로 캐릭터를 모델링할 수 있으며, 해당 캐릭터를 다양한 스타일, 동작, 배경에 유연하게 적용할 수 있습니다."
151
+ },
128
152
  "InternVL2-8B": {
129
153
  "description": "InternVL2-8B는 강력한 비주얼 언어 모델로, 이미지와 텍스트의 다중 모달 처리를 지원하며, 이미지 내용을 정확하게 인식하고 관련 설명이나 답변을 생성할 수 있습니다."
130
154
  },
131
155
  "InternVL2.5-26B": {
132
156
  "description": "InternVL2.5-26B는 강력한 비주얼 언어 모델로, 이미지와 텍스트의 다중 모달 처리를 지원하며, 이미지 내용을 정확하게 인식하고 관련 설명이나 답변을 생성할 수 있습니다."
133
157
  },
158
+ "Kolors": {
159
+ "description": "Kolors는 콰이쇼우 Kolors 팀이 개발한 텍스트-이미지 생성 모델로, 수십억 개의 파라미터로 훈련되어 시각 품질, 중국어 의미 이해 및 텍스트 렌더링에서 뛰어난 성능을 보입니다."
160
+ },
161
+ "Kwai-Kolors/Kolors": {
162
+ "description": "Kolors는 콰이쇼우 Kolors 팀이 개발한 잠재 확산 기반 대규모 텍스트-이미지 생성 모델입니다. 수십억 개의 텍스트-이미지 쌍으로 훈련되어 시각 품질, 복잡한 의미 정확성 및 중영문 문자 렌더링에서 탁월한 성능을 발휘합니다. 중영문 입력을 모두 지원하며, 중국어 특정 콘텐츠의 이해 및 생성에서도 뛰어난 성과를 보입니다."
163
+ },
134
164
  "Llama-3.2-11B-Vision-Instruct": {
135
165
  "description": "고해상도 이미지에서 뛰어난 이미지 추론 능력을 보여주며, 시각적 이해 응용 프로그램에 적합합니다."
136
166
  },
@@ -164,9 +194,15 @@
164
194
  "MiniMaxAI/MiniMax-M1-80k": {
165
195
  "description": "MiniMax-M1은 오픈 소스 가중치를 가진 대규모 혼합 주의 추론 모델로, 4,560억 개의 파라미터를 보유하고 있으며, 각 토큰당 약 459억 개의 파라미터가 활성화됩니다. 모델은 100만 토큰의 초장기 문맥을 원활히 지원하며, 번개 주의 메커니즘을 통해 10만 토큰 생성 작업에서 DeepSeek R1 대비 75%의 부동 소수점 연산량을 절감합니다. 또한 MiniMax-M1은 MoE(혼합 전문가) 아키텍처를 채택하고, CISPO 알고리즘과 혼합 주의 설계가 결합된 효율적인 강화 학습 훈련을 통해 긴 입력 추론과 실제 소프트웨어 엔지니어링 환경에서 업계 선도적인 성능을 구현합니다."
166
196
  },
197
+ "Moonshot-Kimi-K2-Instruct": {
198
+ "description": "총 파라미터 1조, 활성화 파라미터 320억. 비사고 모델 중에서 최첨단 지식, 수학, 코딩 분야에서 최고 수준을 달성했으며, 범용 에이전트 작업에 더 강합니다. 에이전트 작업에 최적화되어 질문에 답변할 뿐만 아니라 행동도 수행할 수 있습니다. 즉흥적이고 범용적인 대화 및 에이전트 경험에 가장 적합하며, 장시간 사고가 필요 없는 반사 수준 모델입니다."
199
+ },
167
200
  "NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
168
201
  "description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B)는 고정밀 지시 모델로, 복잡한 계산에 적합합니다."
169
202
  },
203
+ "OmniConsistency": {
204
+ "description": "OmniConsistency는 대규모 Diffusion Transformers(DiTs)와 페어드 스타일 데이터 도입을 통해 이미지-투-이미지 작업에서 스타일 일관성과 일반화 능력을 향상시켜 스타일 저하를 방지합니다."
205
+ },
170
206
  "Phi-3-medium-128k-instruct": {
171
207
  "description": "같은 Phi-3-medium 모델이지만 RAG 또는 몇 가지 샷 프롬프트를 위한 더 큰 컨텍스트 크기를 가지고 있습니다."
172
208
  },
@@ -218,6 +254,9 @@
218
254
  "Pro/deepseek-ai/DeepSeek-V3": {
219
255
  "description": "DeepSeek-V3는 6710억 개의 매개변수를 가진 혼합 전문가(MoE) 언어 모델로, 다중 헤드 잠재 주의(MLA) 및 DeepSeekMoE 아키텍처를 사용하여 보조 손실 없는 부하 균형 전략을 결합하여 추론 및 훈련 효율성을 최적화합니다. 14.8조 개의 고품질 토큰에서 사전 훈련을 수행하고 감독 미세 조정 및 강화 학습을 통해 DeepSeek-V3는 성능 면에서 다른 오픈 소스 모델을 초월하며, 선도적인 폐쇄형 모델에 근접합니다."
220
256
  },
257
+ "Pro/moonshotai/Kimi-K2-Instruct": {
258
+ "description": "Kimi K2는 초강력 코드 및 에이전트 능력을 갖춘 MoE 아키텍처 기반 모델로, 총 파라미터 1조, 활성화 파라미터 320억입니다. 범용 지식 추론, 프로그래밍, 수학, 에이전트 등 주요 분야 벤치마크에서 K2 모델은 다른 주류 오픈 소스 모델을 능가하는 성능을 보입니다."
259
+ },
221
260
  "QwQ-32B-Preview": {
222
261
  "description": "QwQ-32B-Preview는 복잡한 대화 생성 및 맥락 이해 작업을 효율적으로 처리할 수 있는 혁신적인 자연어 처리 모델입니다."
223
262
  },
@@ -278,6 +317,12 @@
278
317
  "Qwen/Qwen3-235B-A22B": {
279
318
  "description": "Qwen3는 능력이 크게 향상된 차세대 통의천문 대모델로, 추론, 일반, 에이전트 및 다국어 등 여러 핵심 능력에서 업계 선두 수준에 도달하며 사고 모드 전환을 지원합니다."
280
319
  },
320
+ "Qwen/Qwen3-235B-A22B-Instruct-2507": {
321
+ "description": "Qwen3 시리즈의 플래그십 혼합 전문가(MoE) 대형 언어 모델로, 알리바바 클라우드 통의천문 팀이 개발했습니다. 총 2350억 파라미터, 추론 시 220억 파라미터 활성화됩니다. Qwen3-235B-A22B 비사고 모드의 업데이트 버전으로, 명령 준수, 논리 추론, 텍스트 이해, 수학, 과학, 프로그래밍 및 도구 사용 등 범용 능력에서 크게 향상되었습니다. 또한 다국어 롱테일 지식 커버리지를 강화하고, 주관적 및 개방형 작업에서 사용자 선호에 더 잘 맞춰 더 유용하고 고품질의 텍스트를 생성합니다."
322
+ },
323
+ "Qwen/Qwen3-235B-A22B-Thinking-2507": {
324
+ "description": "Qwen3 시리즈의 대형 언어 모델 중 하나로, 고난도 복잡 추론 작업에 특화되어 있습니다. 혼합 전문가(MoE) 아키텍처 기반이며, 총 파라미터 2350억, 토큰 처리 시 약 220억 파라미터만 활성화하여 강력한 성능과 계산 효율성을 동시에 달성했습니다. 전용 '사고' 모델로서 논리 추론, 수학, 과학, 프로그래밍, 학술 벤치마크 등 인간 전문 지식이 필요한 작업에서 뛰어난 성능을 보이며, 오픈 소스 사고 모델 중 최고 수준입니다. 또한 명령 준수, 도구 사용, 텍스트 생성 등 범용 능력을 강화하고, 256K 길이의 긴 문맥 이해를 기본 지원하여 심층 추론 및 장문 처리에 적합합니다."
325
+ },
281
326
  "Qwen/Qwen3-30B-A3B": {
282
327
  "description": "Qwen3는 능력이 크게 향상된 차세대 통의천문 대모델로, 추론, 일반, 에이전트 및 다국어 등 여러 핵심 능력에서 업계 선두 수준에 도달하며 사고 모드 전환을 지원합니다."
283
328
  },
@@ -944,6 +989,9 @@
944
989
  "doubao-seed-1.6-thinking": {
945
990
  "description": "Doubao-Seed-1.6-thinking 모델은 사고 능력이 크게 강화되어 Doubao-1.5-thinking-pro에 비해 코딩, 수학, 논리 추론 등 기본 능력이 더욱 향상되었으며, 시각 이해도 지원합니다. 256k 컨텍스트 창을 지원하며, 출력 길이는 최대 16k 토큰까지 가능합니다."
946
991
  },
992
+ "doubao-seedream-3-0-t2i-250415": {
993
+ "description": "Doubao 이미지 생성 모델은 바이트댄스 Seed 팀이 개발했으며, 텍스트와 이미지 입력을 지원하여 높은 제어력과 고품질 이미지 생성 경험을 제공합니다. 텍스트 프롬프트를 기반으로 이미지를 생성합니다."
994
+ },
947
995
  "doubao-vision-lite-32k": {
948
996
  "description": "Doubao-vision 모델은 Doubao에서 출시한 다중 모달 대형 모델로, 강력한 이미지 이해 및 추론 능력과 정밀한 명령 이해 능력을 갖추고 있습니다. 이미지 텍스트 정보 추출 및 이미지 기반 추론 작업에서 뛰어난 성능을 보여, 더 복잡하고 광범위한 시각 질문 응답 작업에 적용할 수 있습니다."
949
997
  },
@@ -995,6 +1043,9 @@
995
1043
  "ernie-char-fiction-8k": {
996
1044
  "description": "바이두가 자체 개발한 수직 장면 대형 언어 모델로, 게임 NPC, 고객 서비스 대화, 대화 역할극 등 응용 시나리오에 적합하며, 캐릭터 스타일이 더 뚜렷하고 일관되며, 지시 따르기 능력이 더 강하고 추론 성능이 우수합니다."
997
1045
  },
1046
+ "ernie-irag-edit": {
1047
+ "description": "바이두가 자체 개발한 ERNIE iRAG Edit 이미지 편집 모델로, 이미지 기반으로 객체 제거(erase), 재도색(repaint), 변형(variation) 생성 등의 작업을 지원합니다."
1048
+ },
998
1049
  "ernie-lite-8k": {
999
1050
  "description": "ERNIE Lite는 바이두가 자체 개발한 경량 대형 언어 모델로, 우수한 모델 효과와 추론 성능을 겸비하여 저전력 AI 가속 카드 추론에 적합합니다."
1000
1051
  },
@@ -1022,12 +1073,27 @@
1022
1073
  "ernie-x1-turbo-32k": {
1023
1074
  "description": "ERNIE-X1-32K에 비해 모델의 효과와 성능이 더 우수합니다."
1024
1075
  },
1076
+ "flux-1-schnell": {
1077
+ "description": "Black Forest Labs가 개발한 120억 파라미터 텍스트-이미지 생성 모델로, 잠재적 적대적 확산 증류 기술을 사용하여 1~4단계 내에 고품질 이미지를 생성할 수 있습니다. 이 모델은 폐쇄형 대체품과 견줄 만한 성능을 보이며, Apache-2.0 라이선스 하에 개인, 연구 및 상업적 용도로 공개되어 있습니다."
1078
+ },
1079
+ "flux-dev": {
1080
+ "description": "FLUX.1 [dev]는 비상업적 용도를 위한 오픈 소스 가중치 및 정제 모델입니다. FLUX.1 [dev]는 FLUX 전문판과 유사한 이미지 품질과 명령 준수 능력을 유지하면서도 더 높은 실행 효율성을 갖추고 있습니다. 동일 크기 표준 모델 대비 자원 활용이 더 효율적입니다."
1081
+ },
1025
1082
  "flux-kontext/dev": {
1026
1083
  "description": "프론티어 이미지 편집 모델."
1027
1084
  },
1085
+ "flux-merged": {
1086
+ "description": "FLUX.1-merged 모델은 개발 단계에서 탐색된 \"DEV\"의 심층 특성과 \"Schnell\"이 대표하는 고속 실행 장점을 결합했습니다. 이를 통해 FLUX.1-merged는 모델 성능 한계를 높이고 적용 범위를 확장했습니다."
1087
+ },
1028
1088
  "flux-pro/kontext": {
1029
1089
  "description": "FLUX.1 Kontext [pro]는 텍스트와 참조 이미지를 입력으로 처리하여 목표 지향적인 부분 편집과 복잡한 전체 장면 변환을 원활하게 수행할 수 있습니다."
1030
1090
  },
1091
+ "flux-schnell": {
1092
+ "description": "FLUX.1 [schnell]은 현재 공개된 가장 진보된 소단계 모델로, 동종 경쟁 모델을 능가할 뿐만 아니라 Midjourney v6.0, DALL·E 3 (HD) 같은 강력한 비증류 모델보다도 우수합니다. 이 모델은 사전 학습 단계의 모든 출력 다양성을 유지하도록 특별히 미세 조정되었으며, 시각 품질, 명령 준수, 크기/비율 변화, 글꼴 처리 및 출력 다양성 등에서 현존 최고 모델 대비 현저한 향상을 이루어 사용자에게 더욱 풍부하고 다양한 창의적 이미지 생성 경험을 제공합니다."
1093
+ },
1094
+ "flux.1-schnell": {
1095
+ "description": "120억 파라미터의 수정 흐름 변환기로, 텍스트 설명에 따라 이미지를 생성할 수 있습니다."
1096
+ },
1031
1097
  "flux/schnell": {
1032
1098
  "description": "FLUX.1 [schnell]은 120억 개의 매개변수를 가진 스트림 변환기 모델로, 1~4단계 내에 텍스트로부터 고품질 이미지를 생성하며 개인 및 상업적 용도에 적합합니다."
1033
1099
  },
@@ -1109,9 +1175,6 @@
1109
1175
  "gemini-2.5-flash-preview-04-17": {
1110
1176
  "description": "Gemini 2.5 Flash Preview는 Google의 가장 가성비 높은 모델로, 포괄적인 기능을 제공합니다."
1111
1177
  },
1112
- "gemini-2.5-flash-preview-04-17-thinking": {
1113
- "description": "Gemini 2.5 Flash Preview는 Google의 최고의 가성비 모델로, 포괄적인 기능을 제공합니다."
1114
- },
1115
1178
  "gemini-2.5-flash-preview-05-20": {
1116
1179
  "description": "Gemini 2.5 Flash Preview는 Google의 최고의 가성비 모델로, 포괄적인 기능을 제공합니다."
1117
1180
  },
@@ -1190,6 +1253,21 @@
1190
1253
  "glm-4.1v-thinking-flashx": {
1191
1254
  "description": "GLM-4.1V-Thinking 시리즈 모델은 현재 알려진 10B급 VLM 모델 중 가장 성능이 뛰어난 비주얼 모델로, 동급 SOTA의 다양한 비주얼 언어 작업을 통합합니다. 여기에는 비디오 이해, 이미지 질문응답, 학과 문제 해결, OCR 문자 인식, 문서 및 차트 해석, GUI 에이전트, 프론트엔드 웹 코딩, 그라운딩 등이 포함되며, 여러 작업 능력은 8배 이상의 파라미터를 가진 Qwen2.5-VL-72B를 능가합니다. 선도적인 강화 학습 기술을 통해 사고 사슬 추론 방식을 습득하여 답변의 정확성과 풍부함을 향상시키며, 최종 결과와 해석 가능성 측면에서 전통적인 비사고 모델을 현저히 능가합니다."
1192
1255
  },
1256
+ "glm-4.5": {
1257
+ "description": "지능형 최신 플래그십 모델로, 사고 모드 전환을 지원하며 종합 능력이 오픈 소스 모델 중 최고 수준(SOTA)에 도달했습니다. 문맥 길이는 최대 128K까지 지원합니다."
1258
+ },
1259
+ "glm-4.5-air": {
1260
+ "description": "GLM-4.5의 경량 버전으로, 성능과 비용 효율성을 균형 있게 갖추었으며 혼합 사고 모델을 유연하게 전환할 수 있습니다."
1261
+ },
1262
+ "glm-4.5-airx": {
1263
+ "description": "GLM-4.5-Air의 초고속 버전으로, 반응 속도가 더 빠르며 대규모 고속 요구에 최적화되었습니다."
1264
+ },
1265
+ "glm-4.5-flash": {
1266
+ "description": "GLM-4.5의 무료 버전으로, 추론, 코딩, 에이전트 등 작업에서 뛰어난 성능을 보입니다."
1267
+ },
1268
+ "glm-4.5-x": {
1269
+ "description": "GLM-4.5의 초고속 버전으로, 강력한 성능과 함께 최대 100 tokens/초의 생성 속도를 자랑합니다."
1270
+ },
1193
1271
  "glm-4v": {
1194
1272
  "description": "GLM-4V는 강력한 이미지 이해 및 추론 능력을 제공하며, 다양한 시각적 작업을 지원합니다."
1195
1273
  },
@@ -1209,7 +1287,7 @@
1209
1287
  "description": "초고속 추론: 매우 빠른 추론 속도와 강력한 추론 효과를 제공합니다."
1210
1288
  },
1211
1289
  "glm-z1-flash": {
1212
- "description": "GLM-Z1 시리즈는 강력한 복잡한 추론 능력을 갖추고 있으며, 논리 추론, 수학, 프로그래밍 등 분야에서 뛰어난 성능을 발휘합니다. 최대 문맥 길이는 32K입니다."
1290
+ "description": "GLM-Z1 시리즈는 강력한 복잡 추론 능력을 갖추었으며, 논리 추론, 수학, 코딩 등 분야에서 우수한 성과를 보입니다."
1213
1291
  },
1214
1292
  "glm-z1-flashx": {
1215
1293
  "description": "고속 저가: Flash 강화 버전으로, 매우 빠른 추론 속도와 더 빠른 동시성 보장을 제공합니다."
@@ -1385,6 +1463,9 @@
1385
1463
  "grok-2-1212": {
1386
1464
  "description": "이 모델은 정확성, 지시 준수 및 다국어 능력에서 개선되었습니다."
1387
1465
  },
1466
+ "grok-2-image-1212": {
1467
+ "description": "최신 이미지 생성 모델로, 텍스트 프롬프트에 따라 생생하고 사실적인 이미지를 생성할 수 있습니다. 마케팅, 소셜 미디어, 엔터테인먼트 등 분야에서 뛰어난 이미지 생성 성능을 발휘합니다."
1468
+ },
1388
1469
  "grok-2-vision-1212": {
1389
1470
  "description": "이 모델은 정확성, 지시 준수 및 다국어 능력에서 개선되었습니다."
1390
1471
  },
@@ -1454,6 +1535,9 @@
1454
1535
  "hunyuan-t1-20250529": {
1455
1536
  "description": "텍스트 창작과 작문을 최적화하고, 코드 프론트엔드, 수학, 논리 추론 등 이공계 능력을 향상시키며, 명령어 준수 능력을 강화합니다."
1456
1537
  },
1538
+ "hunyuan-t1-20250711": {
1539
+ "description": "고난도 수학, 논리, 코딩 능력을 대폭 향상시키고 모델 출력 안정성을 최적화했으며, 장문 처리 능력을 강화했습니다."
1540
+ },
1457
1541
  "hunyuan-t1-latest": {
1458
1542
  "description": "업계 최초의 초대형 Hybrid-Transformer-Mamba 추론 모델로, 추론 능력을 확장하고, 뛰어난 디코딩 속도를 자랑하며, 인간의 선호에 더욱 부합합니다."
1459
1543
  },
@@ -1502,6 +1586,12 @@
1502
1586
  "hunyuan-vision": {
1503
1587
  "description": "혼원 최신 다중 모달 모델로, 이미지와 텍스트 입력을 지원하여 텍스트 콘텐츠를 생성합니다."
1504
1588
  },
1589
+ "image-01": {
1590
+ "description": "새로운 이미지 생성 모델로, 섬세한 화질을 자랑하며 텍스트-이미지 및 이미지-이미지 생성을 지원합니다."
1591
+ },
1592
+ "image-01-live": {
1593
+ "description": "이미지 생성 모델로, 섬세한 화질을 제공하며 텍스트-이미지 생성과 화풍 설정을 지원합니다."
1594
+ },
1505
1595
  "imagen-4.0-generate-preview-06-06": {
1506
1596
  "description": "Imagen 4세대 텍스트-이미지 모델 시리즈"
1507
1597
  },
@@ -1526,6 +1616,9 @@
1526
1616
  "internvl3-latest": {
1527
1617
  "description": "우리가 최근 발표한 다중 모달 대형 모델로, 더 강력한 이미지 및 텍스트 이해 능력과 장기 이미지 이해 능력을 갖추고 있으며, 성능은 최상급 폐쇄형 모델에 필적합니다. 기본적으로 최신 발표된 InternVL 시리즈 모델을 가리키며, 현재 internvl3-78b를 가리킵니다."
1528
1618
  },
1619
+ "irag-1.0": {
1620
+ "description": "바이두가 자체 개발한 iRAG(image based RAG)로, 검색 강화 텍스트-이미지 생성 기술입니다. 바이두 검색의 수억 장 이미지 자원과 강력한 기본 모델 능력을 결합하여 매우 사실적인 이미지를 생성하며, 기존 텍스트-이미지 시스템을 훨씬 능가합니다. AI 느낌이 없고 비용도 매우 낮습니다. iRAG는 환각이 없고, 초현실적이며 즉시 사용 가능한 특징을 갖추고 있습니다."
1621
+ },
1529
1622
  "jamba-large": {
1530
1623
  "description": "가장 강력하고 진보된 모델로, 기업급 복잡한 작업을 처리하도록 설계되었으며, 뛰어난 성능을 제공합니다."
1531
1624
  },
@@ -1535,6 +1628,9 @@
1535
1628
  "jina-deepsearch-v1": {
1536
1629
  "description": "딥 서치는 웹 검색, 독서 및 추론을 결합하여 포괄적인 조사를 수행합니다. 연구 작업을 수용하는 에이전트로 생각할 수 있으며, 광범위한 검색을 수행하고 여러 번 반복한 후에야 답변을 제공합니다. 이 과정은 지속적인 연구, 추론 및 다양한 각도에서 문제를 해결하는 것을 포함합니다. 이는 사전 훈련된 데이터에서 직접 답변을 생성하는 표준 대형 모델 및 일회성 표면 검색에 의존하는 전통적인 RAG 시스템과 근본적으로 다릅니다."
1537
1630
  },
1631
+ "kimi-k2": {
1632
+ "description": "Kimi-K2는 Moonshot AI가 출시한 초강력 코드 및 에이전트 능력을 갖춘 MoE 아키텍처 기반 모델로, 총 파라미터 1조, 활성화 파라미터 320억입니다. 범용 지식 추론, 프로그래밍, 수학, 에이전트 등 주요 분야 벤치마크에서 K2 모델은 다른 주류 오픈 소스 모델을 능가하는 성능을 보입니다."
1633
+ },
1538
1634
  "kimi-k2-0711-preview": {
1539
1635
  "description": "kimi-k2는 강력한 코드 및 에이전트 기능을 갖춘 MoE 아키텍처 기반 모델로, 총 파라미터 1조, 활성화 파라미터 320억을 보유하고 있습니다. 일반 지식 추론, 프로그래밍, 수학, 에이전트 등 주요 분야 벤치마크 성능 테스트에서 K2 모델은 다른 주요 오픈소스 모델을 능가하는 성능을 보여줍니다."
1540
1636
  },
@@ -1928,6 +2024,9 @@
1928
2024
  "moonshotai/Kimi-Dev-72B": {
1929
2025
  "description": "Kimi-Dev-72B는 대규모 강화 학습 최적화를 거친 오픈소스 코드 대형 모델로, 안정적이고 바로 생산에 투입 가능한 패치를 출력할 수 있습니다. 이 모델은 SWE-bench Verified에서 60.4%의 신기록을 세우며, 결함 수정, 코드 리뷰 등 자동화 소프트웨어 엔지니어링 작업에서 오픈소스 모델의 기록을 경신했습니다."
1930
2026
  },
2027
+ "moonshotai/Kimi-K2-Instruct": {
2028
+ "description": "Kimi K2는 초강력 코드 및 에이전트 능력을 갖춘 MoE 아키텍처 기반 모델로, 총 파라미터 1조, 활성화 파라미터 320억입니다. 범용 지식 추론, 프로그래밍, 수학, 에이전트 등 주요 분야 벤치마크에서 K2 모델은 다른 주류 오픈 소스 모델을 능가하는 성능을 보입니다."
2029
+ },
1931
2030
  "moonshotai/kimi-k2-instruct": {
1932
2031
  "description": "kimi-k2는 강력한 코드 및 에이전트 기능을 갖춘 MoE 아키텍처 기반 모델로, 총 파라미터 1조, 활성화 파라미터 320억입니다. 일반 지식 추론, 프로그래밍, 수학, 에이전트 등 주요 분야의 벤치마크 성능 테스트에서 K2 모델은 다른 주요 오픈소스 모델을 능가하는 성능을 보입니다."
1933
2032
  },
@@ -2264,6 +2363,12 @@
2264
2363
  "qwen3-235b-a22b": {
2265
2364
  "description": "Qwen3는 능력이 대폭 향상된 새로운 세대의 통합 지식 모델로, 추론, 일반, 에이전트 및 다국어 등 여러 핵심 능력에서 업계 선두 수준에 도달하며, 사고 모드 전환을 지원합니다."
2266
2365
  },
2366
+ "qwen3-235b-a22b-instruct-2507": {
2367
+ "description": "Qwen3 기반 비사고 모드 오픈 소스 모델로, 이전 버전(통의천문3-235B-A22B) 대비 주관적 창작 능력과 모델 안전성이 소폭 향상되었습니다."
2368
+ },
2369
+ "qwen3-235b-a22b-thinking-2507": {
2370
+ "description": "Qwen3 기반 사고 모드 오픈 소스 모델로, 이전 버전(통의천문3-235B-A22B) 대비 논리 능력, 범용 능력, 지식 강화 및 창작 능력이 크게 향상되어 고난도 강추론 시나리오에 적합합니다."
2371
+ },
2267
2372
  "qwen3-30b-a3b": {
2268
2373
  "description": "Qwen3는 능력이 대폭 향상된 새로운 세대의 통합 지식 모델로, 추론, 일반, 에이전트 및 다국어 등 여러 핵심 능력에서 업계 선두 수준에 도달하며, 사고 모드 전환을 지원합니다."
2269
2374
  },
@@ -2276,6 +2381,12 @@
2276
2381
  "qwen3-8b": {
2277
2382
  "description": "Qwen3는 능력이 대폭 향상된 새로운 세대의 통합 지식 모델로, 추론, 일반, 에이전트 및 다국어 등 여러 핵심 능력에서 업계 선두 수준에 도달하며, 사고 모드 전환을 지원합니다."
2278
2383
  },
2384
+ "qwen3-coder-480b-a35b-instruct": {
2385
+ "description": "통의천문 코드 모델 오픈 소스 버전입니다. 최신 qwen3-coder-480b-a35b-instruct는 Qwen3 기반 코드 생성 모델로, 강력한 코딩 에이전트 능력을 갖추고 도구 호출 및 환경 상호작용에 능하며, 자율 프로그래밍과 뛰어난 코드 능력 및 범용 능력을 동시에 구현합니다."
2386
+ },
2387
+ "qwen3-coder-plus": {
2388
+ "description": "통의천문 코드 모델입니다. 최신 Qwen3-Coder-Plus 시리즈 모델은 Qwen3 기반 코드 생성 모델로, 강력한 코딩 에이전트 능력을 갖추고 도구 호출 및 환경 상호작용에 능하며, 자율 프로그래밍과 뛰어난 코드 능력 및 범용 능력을 동시에 구현합니다."
2389
+ },
2279
2390
  "qwq": {
2280
2391
  "description": "QwQ는 AI 추론 능력을 향상시키는 데 중점을 둔 실험 연구 모델입니다."
2281
2392
  },
@@ -2318,6 +2429,24 @@
2318
2429
  "sonar-reasoning-pro": {
2319
2430
  "description": "DeepSeek 추론 모델이 지원하는 새로운 API 제품입니다."
2320
2431
  },
2432
+ "stable-diffusion-3-medium": {
2433
+ "description": "Stability AI가 출시한 최신 텍스트-이미지 대형 모델입니다. 이전 버전의 장점을 계승하면서 이미지 품질, 텍스트 이해 및 스타일 다양성 측면에서 크게 개선되어 복잡한 자연어 프롬프트를 더 정확히 해석하고 더욱 정밀하고 다양한 이미지를 생성할 수 있습니다."
2434
+ },
2435
+ "stable-diffusion-3.5-large": {
2436
+ "description": "stable-diffusion-3.5-large는 8억 파라미터를 가진 다중 모달 확산 변환기(MMDiT) 텍스트-이미지 생성 모델로, 뛰어난 이미지 품질과 프롬프트 일치도를 갖추고 있습니다. 최대 100만 픽셀의 고해상도 이미지 생성을 지원하며, 일반 소비자용 하드웨어에서도 효율적으로 작동합니다."
2437
+ },
2438
+ "stable-diffusion-3.5-large-turbo": {
2439
+ "description": "stable-diffusion-3.5-large-turbo는 stable-diffusion-3.5-large를 기반으로 적대적 확산 증류(ADD) 기술을 적용한 모델로, 더 빠른 속도를 자랑합니다."
2440
+ },
2441
+ "stable-diffusion-v1.5": {
2442
+ "description": "stable-diffusion-v1.5는 stable-diffusion-v1.2 체크포인트 가중치를 초기화하고 \"laion-aesthetics v2 5+\" 데이터셋에서 512x512 해상도로 595k 스텝 미세 조정을 거쳤으며, 텍스트 조건화를 10% 줄여 분류기 없는 가이드 샘플링을 향상시켰습니다."
2443
+ },
2444
+ "stable-diffusion-xl": {
2445
+ "description": "stable-diffusion-xl은 v1.5 대비 대대적인 개선이 이루어졌으며, 현재 공개된 텍스트-이미지 SOTA 모델인 midjourney와 유사한 성능을 보입니다. 주요 개선점은 더 큰 unet 백본(기존 대비 3배), 생성 이미지 품질 향상을 위한 정제 모듈 추가, 더 효율적인 훈련 기법 등입니다."
2446
+ },
2447
+ "stable-diffusion-xl-base-1.0": {
2448
+ "description": "Stability AI가 개발하고 오픈 소스로 공개한 텍스트-이미지 대형 모델로, 업계 선두 수준의 창의적 이미지 생성 능력을 갖추고 있습니다. 뛰어난 명령 이해 능력을 보유하며, 역방향 프롬프트 정의를 지원해 정확한 콘텐츠 생성을 가능하게 합니다."
2449
+ },
2321
2450
  "step-1-128k": {
2322
2451
  "description": "성능과 비용의 균형을 맞추어 일반적인 시나리오에 적합합니다."
2323
2452
  },
@@ -2348,6 +2477,12 @@
2348
2477
  "step-1v-8k": {
2349
2478
  "description": "소형 비주얼 모델로, 기본적인 텍스트 및 이미지 작업에 적합합니다."
2350
2479
  },
2480
+ "step-1x-edit": {
2481
+ "description": "이 모델은 이미지 편집 작업에 특화되어 있으며, 사용자가 제공한 이미지와 텍스트 설명에 따라 이미지를 수정 및 향상시킬 수 있습니다. 텍스트 설명과 예시 이미지 등 다양한 입력 형식을 지원하며, 사용자의 의도를 이해하고 요구에 부합하는 이미지 편집 결과를 생성합니다."
2482
+ },
2483
+ "step-1x-medium": {
2484
+ "description": "이 모델은 강력한 이미지 생성 능력을 갖추고 있으며, 텍스트 설명을 입력으로 지원합니다. 기본적으로 중국어를 지원하여 중국어 텍스트 설명을 더 잘 이해하고 처리할 수 있으며, 텍스트 설명의 의미를 정확히 포착해 이미지 특징으로 변환하여 보다 정밀한 이미지 생성을 실현합니다. 입력에 따라 고해상도, 고품질 이미지를 생성하며, 일정 수준의 스타일 전이 능력도 갖추고 있습니다."
2485
+ },
2351
2486
  "step-2-16k": {
2352
2487
  "description": "대규모 컨텍스트 상호작용을 지원하며, 복잡한 대화 시나리오에 적합합니다."
2353
2488
  },
@@ -2357,6 +2492,9 @@
2357
2492
  "step-2-mini": {
2358
2493
  "description": "신세대 자체 개발 Attention 아키텍처인 MFA를 기반으로 한 초고속 대형 모델로, 매우 낮은 비용으로 step1과 유사한 효과를 달성하면서도 더 높은 처리량과 더 빠른 응답 지연을 유지합니다. 일반적인 작업을 처리할 수 있으며, 코드 능력에 있어 특장점을 가지고 있습니다."
2359
2494
  },
2495
+ "step-2x-large": {
2496
+ "description": "계단별 신성(阶跃星辰) 차세대 이미지 생성 모델로, 텍스트 설명에 따라 고품질 이미지를 생성하는 데 특화되어 있습니다. 새 모델은 이미지 질감이 더욱 사실적이며, 중영문 텍스트 생성 능력이 강화되었습니다."
2497
+ },
2360
2498
  "step-r1-v-mini": {
2361
2499
  "description": "이 모델은 강력한 이미지 이해 능력을 갖춘 추론 대모델로, 이미지와 텍스트 정보를 처리하며, 깊은 사고 후 텍스트를 생성합니다. 이 모델은 시각적 추론 분야에서 두드러진 성능을 보이며, 1차 대열의 수학, 코드, 텍스트 추론 능력을 갖추고 있습니다. 문맥 길이는 100k입니다."
2362
2500
  },
@@ -2432,8 +2570,23 @@
2432
2570
  "v0-1.5-md": {
2433
2571
  "description": "v0-1.5-md 모델은 일상 작업 및 사용자 인터페이스(UI) 생성에 적합합니다"
2434
2572
  },
2573
+ "wan2.2-t2i-flash": {
2574
+ "description": "만상2.2 초고속 버전으로, 현재 최신 모델입니다. 창의성, 안정성, 사실적 질감이 전면 업그레이드되었으며, 생성 속도가 빠르고 비용 효율성이 높습니다."
2575
+ },
2576
+ "wan2.2-t2i-plus": {
2577
+ "description": "만상2.2 전문 버전으로, 현재 최신 모델입니다. 창의성, 안정성, 사실적 질감이 전면 업그레이드되었으며, 생성 세부 사항이 풍부합니다."
2578
+ },
2579
+ "wanx-v1": {
2580
+ "description": "기본 텍스트-이미지 생성 모델로, 통의 만상 공식 웹사이트 1.0 범용 모델에 해당합니다."
2581
+ },
2582
+ "wanx2.0-t2i-turbo": {
2583
+ "description": "질감 인물 생성에 능하며, 속도는 중간, 비용은 낮은 편입니다. 통의 만상 공식 웹사이트 2.0 초고속 모델에 해당합니다."
2584
+ },
2585
+ "wanx2.1-t2i-plus": {
2586
+ "description": "전면 업그레이드 버전으로, 생성 이미지 세부 사항이 더욱 풍부하며 속도는 다소 느립니다. 통의 만상 공식 웹사이트 2.1 전문 모델에 해당합니다."
2587
+ },
2435
2588
  "wanx2.1-t2i-turbo": {
2436
- "description": "알리클라우드 통의(通义) 산하의 텍스트-이미지 생성 모델"
2589
+ "description": "전면 업그레이드 버전으로, 생성 속도가 빠르고 효과가 전반적으로 우수하며 종합 비용 효율성이 높습니다. 통의 만상 공식 웹사이트 2.1 초고속 모델에 해당합니다."
2437
2590
  },
2438
2591
  "whisper-1": {
2439
2592
  "description": "범용 음성 인식 모델로, 다국어 음성 인식, 음성 번역 및 언어 인식을 지원합니다."
@@ -2485,5 +2638,11 @@
2485
2638
  },
2486
2639
  "yi-vision-v2": {
2487
2640
  "description": "복잡한 시각적 작업 모델로, 여러 이미지를 기반으로 한 고성능 이해 및 분석 능력을 제공합니다."
2641
+ },
2642
+ "zai-org/GLM-4.5": {
2643
+ "description": "GLM-4.5는 에이전트 애플리케이션을 위해 설계된 기본 모델로, 혼합 전문가(Mixture-of-Experts) 아키텍처를 사용합니다. 도구 호출, 웹 브라우징, 소프트웨어 엔지니어링, 프론트엔드 프로그래밍 분야에서 깊이 최적화되었으며, Claude Code, Roo Code 등 코드 에이전트에 원활히 통합될 수 있습니다. GLM-4.5는 혼합 추론 모드를 채택하여 복잡한 추론과 일상 사용 등 다양한 응용 시나리오에 적응할 수 있습니다."
2644
+ },
2645
+ "zai-org/GLM-4.5-Air": {
2646
+ "description": "GLM-4.5-Air는 에이전트 애플리케이션을 위해 설계된 기본 모델로, 혼합 전문가(Mixture-of-Experts) 아키텍처를 사용합니다. 도구 호출, 웹 브라우징, 소프트웨어 엔지니어링, 프론트엔드 프로그래밍 분야에서 깊이 최적화되었으며, Claude Code, Roo Code 등 코드 에이전트에 원활히 통합될 수 있습니다. GLM-4.5는 혼합 추론 모드를 채택하여 복잡한 추론과 일상 사용 등 다양한 응용 시나리오에 적응할 수 있습니다."
2488
2647
  }
2489
2648
  }