@lobehub/chat 1.136.11 → 1.136.13

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (90) hide show
  1. package/.github/workflows/claude-translator.yml +13 -1
  2. package/CHANGELOG.md +60 -0
  3. package/changelog/v1.json +21 -0
  4. package/locales/ar/modelProvider.json +12 -0
  5. package/locales/ar/models.json +39 -24
  6. package/locales/bg-BG/modelProvider.json +12 -0
  7. package/locales/bg-BG/models.json +39 -24
  8. package/locales/de-DE/modelProvider.json +12 -0
  9. package/locales/de-DE/models.json +39 -24
  10. package/locales/en-US/modelProvider.json +12 -0
  11. package/locales/en-US/models.json +39 -24
  12. package/locales/es-ES/modelProvider.json +12 -0
  13. package/locales/es-ES/models.json +39 -24
  14. package/locales/fa-IR/modelProvider.json +12 -0
  15. package/locales/fa-IR/models.json +39 -24
  16. package/locales/fr-FR/modelProvider.json +12 -0
  17. package/locales/fr-FR/models.json +39 -24
  18. package/locales/it-IT/modelProvider.json +12 -0
  19. package/locales/it-IT/models.json +39 -24
  20. package/locales/ja-JP/modelProvider.json +12 -0
  21. package/locales/ja-JP/models.json +39 -24
  22. package/locales/ko-KR/modelProvider.json +12 -0
  23. package/locales/ko-KR/models.json +39 -24
  24. package/locales/nl-NL/modelProvider.json +12 -0
  25. package/locales/nl-NL/models.json +39 -24
  26. package/locales/pl-PL/modelProvider.json +12 -0
  27. package/locales/pl-PL/models.json +39 -24
  28. package/locales/pt-BR/modelProvider.json +12 -0
  29. package/locales/pt-BR/models.json +39 -24
  30. package/locales/ru-RU/modelProvider.json +12 -0
  31. package/locales/ru-RU/models.json +39 -24
  32. package/locales/tr-TR/modelProvider.json +12 -0
  33. package/locales/tr-TR/models.json +39 -24
  34. package/locales/vi-VN/modelProvider.json +12 -0
  35. package/locales/vi-VN/models.json +39 -24
  36. package/locales/zh-CN/modelProvider.json +12 -0
  37. package/locales/zh-CN/models.json +39 -24
  38. package/locales/zh-TW/modelProvider.json +12 -0
  39. package/locales/zh-TW/models.json +39 -24
  40. package/package.json +3 -3
  41. package/packages/const/src/settings/index.ts +1 -0
  42. package/packages/database/package.json +7 -5
  43. package/packages/electron-client-ipc/src/events/index.ts +2 -2
  44. package/packages/electron-client-ipc/src/events/{localFile.ts → localSystem.ts} +25 -6
  45. package/packages/electron-client-ipc/src/types/index.ts +1 -1
  46. package/packages/electron-client-ipc/src/types/{localFile.ts → localSystem.ts} +89 -4
  47. package/packages/file-loaders/package.json +1 -2
  48. package/packages/file-loaders/src/loadFile.ts +4 -1
  49. package/packages/file-loaders/src/loaders/doc/__snapshots__/index.test.ts.snap +46 -0
  50. package/packages/file-loaders/src/loaders/doc/index.test.ts +38 -0
  51. package/packages/file-loaders/src/loaders/doc/index.ts +57 -0
  52. package/packages/file-loaders/src/loaders/docx/index.ts +36 -45
  53. package/packages/file-loaders/src/loaders/index.ts +2 -0
  54. package/packages/file-loaders/src/types/word-extractor.d.ts +9 -0
  55. package/packages/file-loaders/src/types.ts +1 -1
  56. package/packages/model-bank/src/aiModels/infiniai.ts +465 -174
  57. package/packages/model-bank/src/aiModels/modelscope.ts +10 -20
  58. package/packages/model-bank/src/aiModels/novita.ts +2 -2
  59. package/packages/model-runtime/src/core/openaiCompatibleFactory/index.test.ts +267 -38
  60. package/packages/model-runtime/src/core/openaiCompatibleFactory/index.ts +45 -0
  61. package/packages/model-runtime/src/providerTestUtils.ts +0 -5
  62. package/packages/model-runtime/src/providers/anthropic/generateObject.test.ts +57 -44
  63. package/packages/model-runtime/src/providers/anthropic/generateObject.ts +28 -20
  64. package/packages/model-runtime/src/providers/deepseek/index.ts +5 -0
  65. package/packages/model-runtime/src/providers/infiniai/index.ts +8 -54
  66. package/packages/model-runtime/src/providers/openai/index.test.ts +0 -5
  67. package/packages/model-runtime/src/providers/openrouter/index.test.ts +3 -3
  68. package/packages/model-runtime/src/providers/openrouter/index.ts +32 -20
  69. package/packages/model-runtime/src/providers/openrouter/type.ts +25 -24
  70. package/packages/model-runtime/src/providers/zhipu/index.test.ts +0 -1
  71. package/packages/model-runtime/src/types/structureOutput.ts +13 -1
  72. package/packages/model-runtime/src/utils/handleOpenAIError.test.ts +0 -5
  73. package/packages/model-runtime/src/utils/handleOpenAIError.ts +2 -2
  74. package/packages/types/src/aiChat.ts +13 -1
  75. package/packages/types/src/index.ts +1 -0
  76. package/src/app/[variants]/(main)/settings/provider/detail/bedrock/index.tsx +36 -2
  77. package/src/config/modelProviders/infiniai.ts +2 -25
  78. package/src/config/modelProviders/modelscope.ts +1 -17
  79. package/src/features/ChatInput/InputEditor/index.tsx +39 -26
  80. package/src/features/Conversation/Messages/Assistant/Tool/Render/LoadingPlaceholder/index.tsx +1 -1
  81. package/src/server/routers/lambda/agent.ts +2 -3
  82. package/src/server/routers/lambda/aiChat.ts +33 -1
  83. package/src/server/routers/lambda/chunk.ts +2 -2
  84. package/src/services/electron/file.ts +1 -2
  85. package/src/services/electron/localFileService.ts +40 -0
  86. package/src/tools/local-system/Placeholder/ListFiles.tsx +23 -0
  87. package/src/tools/local-system/Placeholder/ReadLocalFile.tsx +9 -0
  88. package/src/tools/local-system/Placeholder/SearchFiles.tsx +55 -0
  89. package/src/tools/local-system/Placeholder/index.tsx +25 -0
  90. package/src/tools/placeholders.ts +3 -0
@@ -704,6 +704,9 @@
704
704
  "azure-DeepSeek-R1-0528": {
705
705
  "description": "Bereitgestellt von Microsoft; Das DeepSeek R1 Modell wurde in einer kleinen Versionsaktualisierung verbessert, die aktuelle Version ist DeepSeek-R1-0528. Im neuesten Update wurde die Rechentiefe und Inferenzfähigkeit von DeepSeek R1 durch Erhöhung der Rechenressourcen und Einführung eines Algorithmus-Optimierungsmechanismus in der Nachtrainingsphase erheblich gesteigert. Dieses Modell zeigt hervorragende Leistungen in mehreren Benchmark-Tests wie Mathematik, Programmierung und allgemeiner Logik und nähert sich in der Gesamtleistung führenden Modellen wie O3 und Gemini 2.5 Pro an."
706
706
  },
707
+ "baichuan-m2-32b": {
708
+ "description": "Baichuan M2 32B ist ein hybrides Expertenmodell von Baichuan Intelligence mit leistungsstarken Fähigkeiten im logischen Schlussfolgern."
709
+ },
707
710
  "baichuan/baichuan2-13b-chat": {
708
711
  "description": "Baichuan-13B ist ein Open-Source-Sprachmodell mit 13 Milliarden Parametern, das von Baichuan Intelligence entwickelt wurde und in autorisierten chinesischen und englischen Benchmarks die besten Ergebnisse in seiner Größenordnung erzielt hat."
709
712
  },
@@ -728,12 +731,6 @@
728
731
  "charglm-4": {
729
732
  "description": "CharGLM-4 wurde speziell für Rollenspiele und emotionale Begleitung entwickelt, unterstützt extrem lange Mehrfachgedächtnisse und personalisierte Dialoge und findet breite Anwendung."
730
733
  },
731
- "chatglm3": {
732
- "description": "ChatGLM3 ist ein proprietäres Modell, das von der KI-Forschungsgruppe Zhipu AI und dem KEG-Labor der Tsinghua-Universität veröffentlicht wurde. Es wurde durch umfangreiche Vortrainings mit chinesischen und englischen Bezeichnern sowie durch die Anpassung an menschliche Präferenzen entwickelt. Im Vergleich zum ersten Modell erzielte es Verbesserungen von 16 %, 36 % und 280 % in den Benchmarks MMLU, C-Eval und GSM8K und steht an der Spitze der chinesischen Aufgabenliste C-Eval. Es eignet sich für Szenarien, die hohe Anforderungen an das Wissensvolumen, die Inferenzfähigkeit und die Kreativität stellen, wie z. B. die Erstellung von Werbetexten, das Schreiben von Romanen, wissensbasiertes Schreiben und die Generierung von Code."
733
- },
734
- "chatglm3-6b-base": {
735
- "description": "ChatGLM3-6b-base ist das neueste Modell der ChatGLM-Serie mit 6 Milliarden Parametern, entwickelt von Zhipu."
736
- },
737
734
  "chatgpt-4o-latest": {
738
735
  "description": "ChatGPT-4o ist ein dynamisches Modell, das in Echtzeit aktualisiert wird, um die neueste Version zu gewährleisten. Es kombiniert starke Sprachverständnis- und Generierungsfähigkeiten und eignet sich für großangelegte Anwendungsszenarien, einschließlich Kundenservice, Bildung und technische Unterstützung."
739
736
  },
@@ -938,6 +935,9 @@
938
935
  "deepseek-ai/DeepSeek-V3.1-Terminus": {
939
936
  "description": "DeepSeek-V3.1-Terminus ist eine aktualisierte Version des V3.1-Modells von DeepSeek, positioniert als hybrides Agenten-Großsprachmodell. Dieses Update konzentriert sich darauf, auf Nutzerfeedback basierende Probleme zu beheben und die Stabilität zu verbessern, während die ursprünglichen Modellfähigkeiten erhalten bleiben. Es verbessert deutlich die Sprachkonsistenz und reduziert das Vermischen von Chinesisch und Englisch sowie das Auftreten ungewöhnlicher Zeichen. Das Modell integriert den „Denkmodus“ (Thinking Mode) und den „Nicht-Denkmodus“ (Non-thinking Mode), zwischen denen Nutzer flexibel über Chatvorlagen wechseln können, um unterschiedlichen Aufgaben gerecht zu werden. Als wichtige Optimierung verbessert V3.1-Terminus die Leistung des Code-Agenten und des Such-Agenten, wodurch diese bei Werkzeugaufrufen und der Ausführung mehrstufiger komplexer Aufgaben zuverlässiger sind."
940
937
  },
938
+ "deepseek-ai/DeepSeek-V3.2-Exp": {
939
+ "description": "Das DeepSeek V3.2 Exp Modell ist eine hybride Inferenzarchitektur, die sowohl Denk- als auch Nicht-Denk-Modi unterstützt."
940
+ },
941
941
  "deepseek-ai/deepseek-llm-67b-chat": {
942
942
  "description": "DeepSeek 67B ist ein fortschrittliches Modell, das für komplexe Dialoge trainiert wurde."
943
943
  },
@@ -1031,6 +1031,9 @@
1031
1031
  "deepseek-v3.1": {
1032
1032
  "description": "DeepSeek-V3.1 ist ein neu eingeführtes hybrides Inferenzmodell von DeepSeek, das zwei Inferenzmodi unterstützt: Denkmodus und Nicht-Denkmodus. Es ist effizienter im Denkprozess als DeepSeek-R1-0528. Durch Post-Training-Optimierung wurden die Nutzung von Agenten-Tools und die Leistung bei Agentenaufgaben erheblich verbessert. Unterstützt ein Kontextfenster von 128k und eine maximale Ausgabelänge von 64k Tokens."
1033
1033
  },
1034
+ "deepseek-v3.1-terminus": {
1035
+ "description": "DeepSeek-V3.1-Terminus ist eine optimierte Version des großen Sprachmodells von DeepSeek, speziell für Endgeräte entwickelt."
1036
+ },
1034
1037
  "deepseek-v3.1:671b": {
1035
1038
  "description": "DeepSeek V3.1: Ein Inferenzmodell der nächsten Generation, das komplexe Schlussfolgerungen und verknüpfte Denkfähigkeiten verbessert und sich für Aufgaben eignet, die tiefgehende Analysen erfordern."
1036
1039
  },
@@ -1193,6 +1196,12 @@
1193
1196
  "ernie-4.0-turbo-8k-preview": {
1194
1197
  "description": "Das von Baidu entwickelte Flaggschiff-Modell für große Sprachmodelle zeigt hervorragende Gesamtergebnisse und ist weit verbreitet in komplexen Aufgabenbereichen anwendbar; es unterstützt die automatische Anbindung an das Baidu-Suchplugin, um die Aktualität der Antwortinformationen zu gewährleisten. Im Vergleich zu ERNIE 4.0 bietet es eine bessere Leistung."
1195
1198
  },
1199
+ "ernie-4.5-21b-a3b": {
1200
+ "description": "ERNIE 4.5 21B A3B ist ein hybrides Expertenmodell von Baidu Wenxin mit herausragenden Fähigkeiten im logischen Denken und in der Mehrsprachigkeit."
1201
+ },
1202
+ "ernie-4.5-300b-a47b": {
1203
+ "description": "ERNIE 4.5 300B A47B ist ein großskaliges hybrides Expertenmodell von Baidu Wenxin mit exzellenten Fähigkeiten im logischen Schlussfolgern."
1204
+ },
1196
1205
  "ernie-4.5-8k-preview": {
1197
1206
  "description": "Das ERNIE 4.5 Modell ist ein neu entwickeltes, natives multimodales Basis-Modell von Baidu, das durch die gemeinsame Modellierung mehrerer Modalitäten eine synergistische Optimierung erreicht und über hervorragende multimodale Verständnisfähigkeiten verfügt; es bietet verbesserte Sprachfähigkeiten, umfassende Verbesserungen in Verständnis, Generierung, Logik und Gedächtnis, sowie signifikante Verbesserungen in der Vermeidung von Halluzinationen, logischen Schlussfolgerungen und Programmierfähigkeiten."
1198
1207
  },
@@ -1449,7 +1458,7 @@
1449
1458
  "description": "GLM-4-0520 ist die neueste Modellversion, die für hochkomplexe und vielfältige Aufgaben konzipiert wurde und hervorragende Leistungen zeigt."
1450
1459
  },
1451
1460
  "glm-4-9b-chat": {
1452
- "description": "GLM-4-9B-Chat zeigt in den Bereichen Semantik, Mathematik, Schlussfolgerungen, Code und Wissen eine hohe Leistung. Es verfügt auch über Funktionen wie Web-Browsing, Code-Ausführung, benutzerdefinierte Toolaufrufe und langes Textverständnis. Es unterstützt 26 Sprachen, darunter Japanisch, Koreanisch und Deutsch."
1461
+ "description": "GLM-4-9B-Chat bietet hohe Leistung in Bereichen wie Semantik, Mathematik, logisches Denken, Programmierung und Wissen. Es unterstützt Web-Browsing, Code-Ausführung, benutzerdefinierte Tool-Nutzung und Langtext-Inferenz. Unterstützt 26 Sprachen, darunter Japanisch, Koreanisch und Deutsch."
1453
1462
  },
1454
1463
  "glm-4-air": {
1455
1464
  "description": "GLM-4-Air ist eine kosteneffiziente Version, die in der Leistung nahe am GLM-4 liegt und schnelle Geschwindigkeiten zu einem erschwinglichen Preis bietet."
@@ -1749,7 +1758,10 @@
1749
1758
  "description": "Kostengünstigere Version von GPT Image 1 mit nativer Unterstützung für Text- und Bildeingaben sowie Bildausgaben."
1750
1759
  },
1751
1760
  "gpt-oss-120b": {
1752
- "description": "GPT-OSS-120B MXFP4 quantisierte Transformer-Struktur, die auch bei begrenzten Ressourcen starke Leistung beibehält."
1761
+ "description": "Dieses Modell erfordert eine Zugangsanfrage. GPT-OSS-120B ist ein quelloffenes, großskaliges Sprachmodell von OpenAI mit leistungsstarken Textgenerierungsfähigkeiten."
1762
+ },
1763
+ "gpt-oss-20b": {
1764
+ "description": "Dieses Modell erfordert eine Zugangsanfrage. GPT-OSS-20B ist ein quelloffenes, mittelgroßes Sprachmodell von OpenAI mit effizienter Textgenerierung."
1753
1765
  },
1754
1766
  "gpt-oss:120b": {
1755
1767
  "description": "GPT-OSS 120B ist ein von OpenAI veröffentlichtes großes Open-Source-Sprachmodell, das die MXFP4-Quantisierungstechnologie verwendet und als Flaggschiff-Modell gilt. Es erfordert den Betrieb auf Multi-GPU- oder Hochleistungs-Workstation-Umgebungen und bietet herausragende Leistungen bei komplexen Inferenzaufgaben, Codegenerierung und mehrsprachiger Verarbeitung. Es unterstützt fortgeschrittene Funktionsaufrufe und die Integration von Werkzeugen."
@@ -1967,6 +1979,9 @@
1967
1979
  "kimi-k2-0905-preview": {
1968
1980
  "description": "Das Modell kimi-k2-0905-preview hat eine Kontextlänge von 256k, verfügt über stärkere Agentic-Coding-Fähigkeiten, eine herausragendere Ästhetik und Praktikabilität von Frontend-Code sowie ein besseres Kontextverständnis."
1969
1981
  },
1982
+ "kimi-k2-instruct": {
1983
+ "description": "Kimi K2 Instruct ist ein großes Sprachmodell von Moonshot AI mit der Fähigkeit zur Verarbeitung extrem langer Kontexte."
1984
+ },
1970
1985
  "kimi-k2-turbo-preview": {
1971
1986
  "description": "kimi-k2 ist ein Basis-Modell mit MoE-Architektur und besonders starken Fähigkeiten im Bereich Code und Agenten. Es verfügt über insgesamt 1T Parameter und 32B aktivierte Parameter. In Benchmark-Tests der wichtigsten Kategorien – allgemeines Wissens-Reasoning, Programmierung, Mathematik und Agenten – übertrifft das K2-Modell die Leistung anderer gängiger Open‑Source‑Modelle."
1972
1987
  },
@@ -1988,9 +2003,6 @@
1988
2003
  "lite": {
1989
2004
  "description": "Spark Lite ist ein leichtgewichtiges großes Sprachmodell mit extrem niedriger Latenz und effizienter Verarbeitung, das vollständig kostenlos und offen ist und Echtzeitsuchfunktionen unterstützt. Seine schnelle Reaktionsfähigkeit macht es besonders geeignet für Inferenzanwendungen und Modellanpassungen auf Geräten mit geringer Rechenleistung und bietet den Nutzern ein hervorragendes Kosten-Nutzen-Verhältnis sowie ein intelligentes Erlebnis, insbesondere in den Bereichen Wissensabfragen, Inhaltserstellung und Suchszenarien."
1990
2005
  },
1991
- "llama-2-7b-chat": {
1992
- "description": "Llama2 ist eine Serie großer Sprachmodelle (LLM), die von Meta entwickelt und als Open Source veröffentlicht wurden. Diese Serie umfasst generative Textmodelle mit einer Parameteranzahl von 7 Milliarden bis 70 Milliarden, die vortrainiert und feinjustiert wurden. Architekturtechnisch ist Llama2 ein autoregressives Sprachmodell, das eine optimierte Transformer-Architektur verwendet. Die angepassten Versionen nutzen überwachte Feinabstimmung (SFT) und Reinforcement Learning mit menschlichem Feedback (RLHF), um den menschlichen Vorlieben für Nützlichkeit und Sicherheit zu entsprechen. Llama2 übertrifft die Leistung der Llama-Serie in mehreren akademischen Datensätzen und bietet Inspiration für die Entwicklung und Gestaltung vieler anderer Modelle."
1993
- },
1994
2006
  "llama-3.1-70b-versatile": {
1995
2007
  "description": "Llama 3.1 70B bietet leistungsstarke KI-Schlussfolgerungsfähigkeiten, die für komplexe Anwendungen geeignet sind und eine hohe Rechenverarbeitung bei gleichzeitiger Effizienz und Genauigkeit unterstützen."
1996
2008
  },
@@ -2018,9 +2030,6 @@
2018
2030
  "llama-3.3-70b": {
2019
2031
  "description": "Llama 3.3 70B: Ein mittelgroßes Llama-Modell, das eine ausgewogene Kombination aus logischem Denken und hoher Verarbeitungskapazität bietet."
2020
2032
  },
2021
- "llama-3.3-70b-instruct": {
2022
- "description": "Llama 3.3 ist das fortschrittlichste mehrsprachige Open-Source-Sprachmodell der Llama-Serie, das eine Leistung bietet, die mit einem 405B-Modell vergleichbar ist, und das zu extrem niedrigen Kosten. Es basiert auf der Transformer-Architektur und verbessert die Nützlichkeit und Sicherheit durch überwachte Feinabstimmung (SFT) und verstärkendes Lernen mit menschlichem Feedback (RLHF). Die auf Anweisungen optimierte Version ist speziell für mehrsprachige Dialoge optimiert und übertrifft in mehreren Branchenbenchmarks viele Open-Source- und geschlossene Chat-Modelle. Das Wissensdatum endet im Dezember 2023."
2023
- },
2024
2033
  "llama-3.3-70b-versatile": {
2025
2034
  "description": "Das Meta Llama 3.3 ist ein mehrsprachiges, großes Sprachmodell (LLM), das aus einem vortrainierten und anweisungsorientierten generativen Modell mit 70B (Text-Eingabe/Text-Ausgabe) besteht. Das anweisungsorientierte Modell von Llama 3.3 ist für mehrsprachige Dialoganwendungen optimiert und übertrifft viele verfügbare Open-Source- und Closed-Source-Chat-Modelle bei gängigen Branchenbenchmarks."
2026
2035
  },
@@ -2082,7 +2091,7 @@
2082
2091
  "description": "Spark Max 32K bietet eine große Kontextverarbeitungsfähigkeit mit verbesserter Kontextverständnis und logischer Schlussfolgerungsfähigkeit und unterstützt Texteingaben von bis zu 32K Tokens, was es ideal für das Lesen langer Dokumente und private Wissensabfragen macht."
2083
2092
  },
2084
2093
  "megrez-3b-instruct": {
2085
- "description": "Megrez-3B-Instruct ist ein großes Sprachmodell, das vollständig von Wuxin XinQiong trainiert wurde. Megrez-3B-Instruct zielt darauf ab, durch die Idee der Hardware-Software-Kooperation eine schnelle Inferenz, ein kompaktes Design und eine benutzerfreundliche Endgerätlösung zu schaffen."
2094
+ "description": "Megrez 3B Instruct ist ein effizientes Modell mit geringer Parameteranzahl, entwickelt von Wuwen Xinqiong."
2086
2095
  },
2087
2096
  "meta-llama-3-70b-instruct": {
2088
2097
  "description": "Ein leistungsstarkes Modell mit 70 Milliarden Parametern, das in den Bereichen Schlussfolgerungen, Programmierung und breiten Sprachanwendungen herausragt."
@@ -2639,6 +2648,12 @@
2639
2648
  "pro-128k": {
2640
2649
  "description": "Spark Pro 128K verfügt über eine außergewöhnliche Kontextverarbeitungsfähigkeit und kann bis zu 128K Kontextinformationen verarbeiten, was es besonders geeignet für die Analyse langer Texte und die Verarbeitung langfristiger logischer Zusammenhänge macht. Es bietet in komplexen Textkommunikationen flüssige und konsistente Logik sowie vielfältige Unterstützung für Zitate."
2641
2650
  },
2651
+ "pro-deepseek-r1": {
2652
+ "description": "Modell für exklusive Unternehmensdienste, inklusive paralleler Serviceunterstützung."
2653
+ },
2654
+ "pro-deepseek-v3": {
2655
+ "description": "Modell für exklusive Unternehmensdienste, inklusive paralleler Serviceunterstützung."
2656
+ },
2642
2657
  "qvq-72b-preview": {
2643
2658
  "description": "Das QVQ-Modell ist ein experimentelles Forschungsmodell, das vom Qwen-Team entwickelt wurde und sich auf die Verbesserung der visuellen Schlussfolgerungsfähigkeiten konzentriert, insbesondere im Bereich der mathematischen Schlussfolgerungen."
2644
2659
  },
@@ -2774,12 +2789,6 @@
2774
2789
  "qwen2": {
2775
2790
  "description": "Qwen2 ist das neue große Sprachmodell von Alibaba, das mit hervorragender Leistung eine Vielzahl von Anwendungsanforderungen unterstützt."
2776
2791
  },
2777
- "qwen2-72b-instruct": {
2778
- "description": "Qwen2 ist die neueste Generation von Sprachmodellen, die vom Qwen-Team entwickelt wurde. Es basiert auf der Transformer-Architektur und verwendet Techniken wie die SwiGLU-Aktivierungsfunktion, die Aufmerksamkeits-QKV-Bias (attention QKV bias), die gruppenbasierte Abfrageaufmerksamkeit (group query attention) und eine Mischung aus rutschendem Fenster und voller Aufmerksamkeit (mixture of sliding window attention and full attention). Darüber hinaus hat das Qwen-Team den Tokenizer verbessert, der für die Verarbeitung von natürlicher Sprache und Code optimiert ist."
2779
- },
2780
- "qwen2-7b-instruct": {
2781
- "description": "Qwen2 ist die neueste Serie von großen Sprachmodellen, die vom Qwen-Team entwickelt wurde. Es basiert auf der Transformer-Architektur und verwendet Techniken wie die SwiGLU-Aktivierungsfunktion, die Aufmerksamkeits-QKV-Bias (attention QKV bias), die Gruppenabfrageaufmerksamkeit (group query attention) und eine Mischung aus rutschendem Fenster und voller Aufmerksamkeit (mixture of sliding window attention and full attention). Zudem hat das Qwen-Team den Tokenizer verbessert, um mehrere natürliche Sprachen und Code besser zu verarbeiten."
2782
- },
2783
2792
  "qwen2.5": {
2784
2793
  "description": "Qwen2.5 ist das neue, groß angelegte Sprachmodell der Alibaba-Gruppe, das hervorragende Leistungen zur Unterstützung vielfältiger Anwendungsbedürfnisse bietet."
2785
2794
  },
@@ -2918,6 +2927,12 @@
2918
2927
  "qwen3-next-80b-a3b-thinking": {
2919
2928
  "description": "Ein neues Open-Source-Modell der nächsten Generation im Denkmodus basierend auf Qwen3. Im Vergleich zur vorherigen Version (Tongyi Qianwen 3-235B-A22B-Thinking-2507) wurde die Befehlsbefolgung verbessert und die Modellantworten sind prägnanter zusammengefasst."
2920
2929
  },
2930
+ "qwen3-vl-235b-a22b-instruct": {
2931
+ "description": "Qwen3 VL 235B A22B Instruct ist ein multimodales Modell von Tongyi Qianwen mit Unterstützung für visuelles Verständnis und logisches Denken."
2932
+ },
2933
+ "qwen3-vl-235b-a22b-thinking": {
2934
+ "description": "Qwen3 VL 235B A22B Thinking ist ein multimodales Inferenzmodell von Tongyi Qianwen mit Unterstützung für visuelles Verständnis und logisches Denken."
2935
+ },
2921
2936
  "qwen3-vl-plus": {
2922
2937
  "description": "Tongyi Qianwen VL ist ein Textgenerierungsmodell mit visuellen (Bild-)Verständnisfähigkeiten. Es kann nicht nur OCR (Texterkennung in Bildern) durchführen, sondern auch weiterführende Zusammenfassungen und Schlussfolgerungen ziehen, z. B. Attribute aus Produktfotos extrahieren oder Aufgaben anhand von Übungsbildern lösen."
2923
2938
  },
@@ -3035,6 +3050,9 @@
3035
3050
  "step-r1-v-mini": {
3036
3051
  "description": "Dieses Modell ist ein leistungsstarkes Schlussfolgerungsmodell mit starker Bildverständnisfähigkeit, das in der Lage ist, Bild- und Textinformationen zu verarbeiten und nach tiefem Denken Textinhalte zu generieren. Es zeigt herausragende Leistungen im Bereich der visuellen Schlussfolgerung und verfügt über erstklassige Fähigkeiten in Mathematik, Programmierung und Textschlussfolgerung. Die Kontextlänge beträgt 100k."
3037
3052
  },
3053
+ "step3": {
3054
+ "description": "Step3 ist ein multimodales Modell von StepStar mit leistungsstarken Fähigkeiten im visuellen Verständnis."
3055
+ },
3038
3056
  "stepfun-ai/step3": {
3039
3057
  "description": "Step3 ist ein wegweisendes multimodales Inferenzmodell, veröffentlicht von StepFun (阶跃星辰). Es basiert auf einer Mixture-of-Experts-(MoE)-Architektur mit insgesamt 321 Milliarden Parametern und 38 Milliarden Aktivierungsparametern. Das Modell ist als End-to-End-System konzipiert, um die Decodierungskosten zu minimieren und gleichzeitig erstklassige Leistung bei visuell-sprachlicher Inferenz zu bieten. Durch die synergistische Kombination von Multi-Matrix-Factorization-Attention (MFA) und Attention-FFN-Dekopplung (AFD) erzielt Step3 sowohl auf High-End- als auch auf ressourcenbeschränkten Beschleunigern hohe Effizienz. In der Vortrainingsphase verarbeitete Step3 mehr als 20 Billionen Text-Tokens und 4 Billionen multimodale (Bild‑Text) Tokens und deckt dabei über zehn Sprachen ab. Das Modell erzielt in zahlreichen Benchmarks — etwa in Mathematik, Programmierung und Multimodalität — führende Ergebnisse unter den Open‑Source‑Modellen."
3040
3058
  },
@@ -3158,9 +3176,6 @@
3158
3176
  "xai/grok-4": {
3159
3177
  "description": "xAIs neuestes und bestes Flaggschiffmodell mit unvergleichlicher Leistung in natürlicher Sprache, Mathematik und Inferenz – der perfekte Allrounder."
3160
3178
  },
3161
- "yi-1.5-34b-chat": {
3162
- "description": "Yi-1.5 ist eine verbesserte Version von Yi. Es wurde mit einem hochwertigen Korpus von 500B Tokens auf Yi fortlaufend vortrainiert und auf 3M diversen Feinabstimmungsbeispielen feinjustiert."
3163
- },
3164
3179
  "yi-large": {
3165
3180
  "description": "Das brandneue Modell mit einer Billion Parametern bietet außergewöhnliche Frage- und Textgenerierungsfähigkeiten."
3166
3181
  },
@@ -284,11 +284,19 @@
284
284
  "placeholder": "Please enter the model ID, e.g., gpt-4o or claude-3.5-sonnet",
285
285
  "title": "Model ID"
286
286
  },
287
+ "imageOutput": {
288
+ "extra": "This setting enables the model's image generation capability only. The actual performance depends entirely on the model itself. Please test the model to determine if it supports image generation.",
289
+ "title": "Supports Image Generation"
290
+ },
287
291
  "modalTitle": "Custom Model Configuration",
288
292
  "reasoning": {
289
293
  "extra": "This configuration will enable the model's deep thinking capabilities, and the specific effects depend entirely on the model itself. Please test whether this model has usable deep thinking abilities.",
290
294
  "title": "Support Deep Thinking"
291
295
  },
296
+ "search": {
297
+ "extra": "This setting enables the model's built-in web search capability. Whether the built-in search engine is supported depends on the model itself. Please test the model to verify the availability of this feature.",
298
+ "title": "Supports Web Search"
299
+ },
292
300
  "tokens": {
293
301
  "extra": "Set the maximum number of tokens supported by the model",
294
302
  "title": "Maximum Context Window",
@@ -309,6 +317,10 @@
309
317
  "placeholder": "Please select a model type",
310
318
  "title": "Model Type"
311
319
  },
320
+ "video": {
321
+ "extra": "This setting enables video recognition configuration within the application. Whether video recognition is supported depends entirely on the model itself. Please test the model to verify the availability of this feature.",
322
+ "title": "Supports Video Recognition"
323
+ },
312
324
  "vision": {
313
325
  "extra": "This configuration will only enable image upload capabilities in the application. Whether recognition is supported depends entirely on the model itself. Please test the visual recognition capabilities of the model yourself.",
314
326
  "title": "Support Vision"
@@ -704,6 +704,9 @@
704
704
  "azure-DeepSeek-R1-0528": {
705
705
  "description": "Deployed and provided by Microsoft; the DeepSeek R1 model has undergone a minor version upgrade, currently at DeepSeek-R1-0528. In the latest update, DeepSeek R1 significantly improves inference depth and reasoning ability by increasing computational resources and introducing algorithmic optimizations in the post-training phase. This model excels in benchmarks including mathematics, programming, and general logic, with overall performance approaching leading models such as O3 and Gemini 2.5 Pro."
706
706
  },
707
+ "baichuan-m2-32b": {
708
+ "description": "Baichuan M2 32B is a Mixture of Experts model developed by Baichuan Intelligence, featuring powerful reasoning capabilities."
709
+ },
707
710
  "baichuan/baichuan2-13b-chat": {
708
711
  "description": "Baichuan-13B is an open-source, commercially usable large language model developed by Baichuan Intelligence, containing 13 billion parameters, achieving the best results in its size on authoritative Chinese and English benchmarks."
709
712
  },
@@ -728,12 +731,6 @@
728
731
  "charglm-4": {
729
732
  "description": "CharGLM-4 is designed for role-playing and emotional companionship, supporting ultra-long multi-turn memory and personalized dialogue, with wide-ranging applications."
730
733
  },
731
- "chatglm3": {
732
- "description": "ChatGLM3 is a closed-source model released by Zhipu AI and Tsinghua KEG Lab. It has been pre-trained on a massive amount of Chinese and English identifiers and fine-tuned with human preference alignment. Compared to the first-generation model, it has achieved improvements of 16%, 36%, and 280% in MMLU, C-Eval, and GSM8K, respectively, and topped the Chinese task leaderboard C-Eval. It is suitable for scenarios that require a high level of knowledge, reasoning, and creativity, such as advertising copywriting, novel writing, knowledge-based writing, and code generation."
733
- },
734
- "chatglm3-6b-base": {
735
- "description": "ChatGLM3-6b-base is the latest generation of the ChatGLM series, a 6 billion parameter open-source base model developed by Zhipu."
736
- },
737
734
  "chatgpt-4o-latest": {
738
735
  "description": "ChatGPT-4o is a dynamic model that updates in real-time to stay current with the latest version. It combines powerful language understanding and generation capabilities, making it suitable for large-scale applications, including customer service, education, and technical support."
739
736
  },
@@ -938,6 +935,9 @@
938
935
  "deepseek-ai/DeepSeek-V3.1-Terminus": {
939
936
  "description": "DeepSeek-V3.1-Terminus is an updated version of the V3.1 model released by DeepSeek, positioned as a hybrid agent large language model. This update focuses on fixing user-reported issues and improving stability while maintaining the model's original capabilities. It significantly enhances language consistency, reducing the mixing of Chinese and English and the occurrence of abnormal characters. The model integrates both \"Thinking Mode\" and \"Non-thinking Mode,\" allowing users to switch flexibly between chat templates to suit different tasks. As a key optimization, V3.1-Terminus improves the performance of the Code Agent and Search Agent, making tool invocation and multi-step complex task execution more reliable."
940
937
  },
938
+ "deepseek-ai/DeepSeek-V3.2-Exp": {
939
+ "description": "The DeepSeek V3.2 Exp model adopts a hybrid reasoning architecture, supporting both reflective and non-reflective modes."
940
+ },
941
941
  "deepseek-ai/deepseek-llm-67b-chat": {
942
942
  "description": "DeepSeek 67B is an advanced model trained for highly complex conversations."
943
943
  },
@@ -1031,6 +1031,9 @@
1031
1031
  "deepseek-v3.1": {
1032
1032
  "description": "DeepSeek-V3.1 is a newly launched hybrid reasoning model by DeepSeek, supporting two reasoning modes: thinking and non-thinking. It offers higher thinking efficiency compared to DeepSeek-R1-0528. With post-training optimization, the use of Agent tools and agent task performance have been significantly enhanced. It supports a 128k context window and an output length of up to 64k tokens."
1033
1033
  },
1034
+ "deepseek-v3.1-terminus": {
1035
+ "description": "DeepSeek-V3.1-Terminus is an optimized large language model developed by DeepSeek, specifically tailored for terminal devices."
1036
+ },
1034
1037
  "deepseek-v3.1:671b": {
1035
1038
  "description": "DeepSeek V3.1: The next-generation reasoning model that enhances complex reasoning and chain-of-thought capabilities, suitable for tasks requiring in-depth analysis."
1036
1039
  },
@@ -1193,6 +1196,12 @@
1193
1196
  "ernie-4.0-turbo-8k-preview": {
1194
1197
  "description": "Baidu's flagship ultra-large-scale language model, demonstrating outstanding overall performance, widely applicable to complex task scenarios across various fields; it supports automatic integration with Baidu search plugins to ensure the timeliness of Q&A information. It performs better than ERNIE 4.0 in terms of performance."
1195
1198
  },
1199
+ "ernie-4.5-21b-a3b": {
1200
+ "description": "ERNIE 4.5 21B A3B is a Mixture of Experts model from Baidu's Wenxin series, offering strong reasoning and multilingual capabilities."
1201
+ },
1202
+ "ernie-4.5-300b-a47b": {
1203
+ "description": "ERNIE 4.5 300B A47B is a large-scale Mixture of Experts model from Baidu's Wenxin series, delivering exceptional reasoning performance."
1204
+ },
1196
1205
  "ernie-4.5-8k-preview": {
1197
1206
  "description": "ERNIE 4.5 is Baidu's self-developed next-generation native multimodal foundational model, achieving collaborative optimization through joint modeling of multiple modalities, with excellent multimodal understanding capabilities; it features enhanced language abilities, with significant improvements in understanding, generation, logic, and memory, as well as reduced hallucinations and improved logical reasoning and coding capabilities."
1198
1207
  },
@@ -1449,7 +1458,7 @@
1449
1458
  "description": "GLM-4-0520 is the latest model version designed for highly complex and diverse tasks, demonstrating outstanding performance."
1450
1459
  },
1451
1460
  "glm-4-9b-chat": {
1452
- "description": "GLM-4-9B-Chat demonstrates high performance across various aspects, including semantics, mathematics, reasoning, coding, and knowledge. It also features web browsing, code execution, custom tool invocation, and long text reasoning, supporting 26 languages including Japanese, Korean, and German."
1461
+ "description": "GLM-4-9B-Chat demonstrates high performance across semantics, mathematics, reasoning, coding, and knowledge. It also supports web browsing, code execution, custom tool invocation, and long-text reasoning. Supports 26 languages including Japanese, Korean, and German."
1453
1462
  },
1454
1463
  "glm-4-air": {
1455
1464
  "description": "GLM-4-Air is a cost-effective version with performance close to GLM-4, offering fast speed at an affordable price."
@@ -1749,7 +1758,10 @@
1749
1758
  "description": "A more cost-effective version of GPT Image 1, natively supporting both text and image inputs with image generation output."
1750
1759
  },
1751
1760
  "gpt-oss-120b": {
1752
- "description": "GPT-OSS-120B MXFP4 quantized Transformer architecture, delivering strong performance even under resource constraints."
1761
+ "description": "Access to this model requires an application. GPT-OSS-120B is an open-source large-scale language model released by OpenAI, known for its powerful text generation capabilities."
1762
+ },
1763
+ "gpt-oss-20b": {
1764
+ "description": "Access to this model requires an application. GPT-OSS-20B is an open-source mid-sized language model from OpenAI, offering efficient text generation."
1753
1765
  },
1754
1766
  "gpt-oss:120b": {
1755
1767
  "description": "GPT-OSS 120B is a large open-source language model released by OpenAI, employing MXFP4 quantization technology as a flagship model. It requires multi-GPU or high-performance workstation environments to operate and delivers outstanding performance in complex reasoning, code generation, and multilingual processing, supporting advanced function calls and tool integration."
@@ -1967,6 +1979,9 @@
1967
1979
  "kimi-k2-0905-preview": {
1968
1980
  "description": "The kimi-k2-0905-preview model has a context length of 256k, featuring stronger Agentic Coding capabilities, more outstanding aesthetics and practicality of frontend code, and better context understanding."
1969
1981
  },
1982
+ "kimi-k2-instruct": {
1983
+ "description": "Kimi K2 Instruct is a large language model developed by Moonshot AI, featuring ultra-long context processing capabilities."
1984
+ },
1970
1985
  "kimi-k2-turbo-preview": {
1971
1986
  "description": "Kimi-K2 is a Mixture-of-Experts (MoE) foundation model with exceptional coding and agent capabilities, featuring 1T total parameters and 32B activated parameters. In benchmark evaluations across core categories — general knowledge reasoning, programming, mathematics, and agent tasks — the K2 model outperforms other leading open-source models."
1972
1987
  },
@@ -1988,9 +2003,6 @@
1988
2003
  "lite": {
1989
2004
  "description": "Spark Lite is a lightweight large language model with extremely low latency and efficient processing capabilities, completely free and open, supporting real-time online search functionality. Its quick response feature makes it excel in inference applications and model fine-tuning on low-power devices, providing users with excellent cost-effectiveness and intelligent experiences, particularly in knowledge Q&A, content generation, and search scenarios."
1990
2005
  },
1991
- "llama-2-7b-chat": {
1992
- "description": "Llama2 is a series of large language models (LLMs) developed and open-sourced by Meta. This series includes generative text models of varying sizes, ranging from 7 billion to 70 billion parameters, which have been pre-trained and fine-tuned. Architecturally, Llama2 is an autoregressive language model that uses an optimized transformer architecture. The fine-tuned versions leverage supervised fine-tuning (SFT) and reinforcement learning with human feedback (RLHF) to align with human preferences for usefulness and safety. Llama2 outperforms the Llama series on multiple academic datasets and provides valuable insights for the design and development of other models."
1993
- },
1994
2006
  "llama-3.1-70b-versatile": {
1995
2007
  "description": "Llama 3.1 70B provides enhanced AI reasoning capabilities, suitable for complex applications, supporting extensive computational processing while ensuring efficiency and accuracy."
1996
2008
  },
@@ -2018,9 +2030,6 @@
2018
2030
  "llama-3.3-70b": {
2019
2031
  "description": "Llama 3.3 70B: A mid-to-large scale Llama model that balances reasoning power and throughput."
2020
2032
  },
2021
- "llama-3.3-70b-instruct": {
2022
- "description": "Llama 3.3 is the most advanced multilingual open-source large language model in the Llama series, offering performance comparable to a 405B model at an extremely low cost. Based on the Transformer architecture, it enhances usability and safety through supervised fine-tuning (SFT) and reinforcement learning from human feedback (RLHF). Its instruction-tuned version is optimized for multilingual dialogue and outperforms many open-source and closed chat models on various industry benchmarks. Knowledge cutoff date is December 2023."
2023
- },
2024
2033
  "llama-3.3-70b-versatile": {
2025
2034
  "description": "Meta Llama 3.3 is a multilingual large language model (LLM) with 70 billion parameters (text input/text output), featuring pre-training and instruction-tuning. The instruction-tuned pure text model of Llama 3.3 is optimized for multilingual conversational use cases and outperforms many available open-source and closed chat models on common industry benchmarks."
2026
2035
  },
@@ -2082,7 +2091,7 @@
2082
2091
  "description": "Spark Max 32K is configured with large context processing capabilities, enhanced contextual understanding, and logical reasoning abilities, supporting text input of 32K tokens, suitable for long document reading, private knowledge Q&A, and other scenarios."
2083
2092
  },
2084
2093
  "megrez-3b-instruct": {
2085
- "description": "Megrez-3B-Instruct is a large language model fully trained by Wuwen Xin Qiong. Megrez-3B-Instruct aims to create an ultra-fast, compact, and easy-to-use intelligent solution for edge devices through the concept of hardware-software co-design."
2094
+ "description": "Megrez 3B Instruct is a compact and efficient model developed by Wuwen Xinqiong."
2086
2095
  },
2087
2096
  "meta-llama-3-70b-instruct": {
2088
2097
  "description": "A powerful 70-billion parameter model excelling in reasoning, coding, and broad language applications."
@@ -2639,6 +2648,12 @@
2639
2648
  "pro-128k": {
2640
2649
  "description": "Spark Pro 128K is equipped with an extra-large context processing capability, able to handle up to 128K of contextual information, making it particularly suitable for long-form content that requires comprehensive analysis and long-term logical connections, providing smooth and consistent logic and diverse citation support in complex text communication."
2641
2650
  },
2651
+ "pro-deepseek-r1": {
2652
+ "description": "Enterprise-exclusive service model with concurrent service support."
2653
+ },
2654
+ "pro-deepseek-v3": {
2655
+ "description": "Enterprise-exclusive service model with concurrent service support."
2656
+ },
2642
2657
  "qvq-72b-preview": {
2643
2658
  "description": "The QVQ model is an experimental research model developed by the Qwen team, focusing on enhancing visual reasoning capabilities, particularly in the field of mathematical reasoning."
2644
2659
  },
@@ -2774,12 +2789,6 @@
2774
2789
  "qwen2": {
2775
2790
  "description": "Qwen2 is Alibaba's next-generation large-scale language model, supporting diverse application needs with excellent performance."
2776
2791
  },
2777
- "qwen2-72b-instruct": {
2778
- "description": "Qwen2 is the new generation of large language model series introduced by the Qwen team. It is based on the Transformer architecture and incorporates technologies such as the SwiGLU activation function, attention QKV bias, group query attention, a mixture of sliding window attention, and full attention. Additionally, the Qwen team has improved the tokenizer to better adapt to multiple natural languages and code."
2779
- },
2780
- "qwen2-7b-instruct": {
2781
- "description": "Qwen2 is the new generation of large language model series introduced by the Qwen team. It is based on the Transformer architecture and incorporates technologies such as the SwiGLU activation function, attention QKV bias, group query attention, a mixture of sliding window attention, and full attention. Additionally, the Qwen team has improved the tokenizer to better adapt to multiple natural languages and code."
2782
- },
2783
2792
  "qwen2.5": {
2784
2793
  "description": "Qwen2.5 is Alibaba's next-generation large-scale language model, supporting diverse application needs with outstanding performance."
2785
2794
  },
@@ -2918,6 +2927,12 @@
2918
2927
  "qwen3-next-80b-a3b-thinking": {
2919
2928
  "description": "A new generation of thinking mode open-source model based on Qwen3. Compared to the previous version (Tongyi Qianwen 3-235B-A22B-Thinking-2507), it features improved instruction-following capabilities and more concise model-generated summaries."
2920
2929
  },
2930
+ "qwen3-vl-235b-a22b-instruct": {
2931
+ "description": "Qwen3 VL 235B A22B Instruct is a multimodal model developed by Tongyi Qianwen, supporting visual understanding and reasoning."
2932
+ },
2933
+ "qwen3-vl-235b-a22b-thinking": {
2934
+ "description": "Qwen3 VL 235B A22B Thinking is a multimodal reasoning model from Tongyi Qianwen, designed for visual understanding and reasoning tasks."
2935
+ },
2921
2936
  "qwen3-vl-plus": {
2922
2937
  "description": "Tongyi Qianwen VL is a text generation model with visual (image) understanding capabilities. It can perform OCR (image text recognition) and further summarize and reason, such as extracting attributes from product photos or solving problems based on exercise images."
2923
2938
  },
@@ -3035,6 +3050,9 @@
3035
3050
  "step-r1-v-mini": {
3036
3051
  "description": "This model is a powerful reasoning model with strong image understanding capabilities, able to process both image and text information, generating text content after deep reasoning. It excels in visual reasoning while also possessing first-tier capabilities in mathematics, coding, and text reasoning. The context length is 100k."
3037
3052
  },
3053
+ "step3": {
3054
+ "description": "Step3 is a multimodal model developed by StepStar, offering advanced visual understanding capabilities."
3055
+ },
3038
3056
  "stepfun-ai/step3": {
3039
3057
  "description": "Step3 is a cutting-edge multimodal reasoning model released by StepFun. It is built on a mixture-of-experts (MoE) architecture with 321B total parameters and 38B active parameters. The model adopts an end-to-end design to minimize decoding cost while delivering top-tier performance in visual-language reasoning. Through the combined design of Multi-Matrix Factorized Attention (MFA) and Attention-FFN Decoupling (AFD), Step3 maintains exceptional efficiency on both high-end and low-end accelerators. During pretraining, Step3 processed over 20 trillion text tokens and 4 trillion image-text mixed tokens, covering more than a dozen languages. The model achieves leading performance among open-source models across benchmarks in mathematics, code, and multimodal tasks."
3040
3058
  },
@@ -3158,9 +3176,6 @@
3158
3176
  "xai/grok-4": {
3159
3177
  "description": "xAI's latest and greatest flagship model, delivering unparalleled performance in natural language, mathematics, and reasoning—an ideal all-rounder."
3160
3178
  },
3161
- "yi-1.5-34b-chat": {
3162
- "description": "Yi-1.5 is an upgraded version of Yi. It continues pre-training on Yi using a high-quality corpus of 500B tokens and is fine-tuned on 3M diverse samples."
3163
- },
3164
3179
  "yi-large": {
3165
3180
  "description": "A new trillion-parameter model, providing super strong question-answering and text generation capabilities."
3166
3181
  },
@@ -284,11 +284,19 @@
284
284
  "placeholder": "Introduce el id del modelo, por ejemplo gpt-4o o claude-3.5-sonnet",
285
285
  "title": "ID del modelo"
286
286
  },
287
+ "imageOutput": {
288
+ "extra": "Esta configuración solo habilitará la capacidad del modelo para generar imágenes. El efecto específico depende completamente del propio modelo. Por favor, prueba si el modelo tiene la capacidad de generar imágenes de manera utilizable.",
289
+ "title": "Soporte para generación de imágenes"
290
+ },
287
291
  "modalTitle": "Configuración del modelo personalizado",
288
292
  "reasoning": {
289
293
  "extra": "Esta configuración solo activará la capacidad de pensamiento profundo del modelo, el efecto específico depende completamente del modelo en sí, por favor, pruebe si este modelo tiene la capacidad de pensamiento profundo utilizable",
290
294
  "title": "Soporte para pensamiento profundo"
291
295
  },
296
+ "search": {
297
+ "extra": "Esta configuración solo habilitará la capacidad de búsqueda en línea del motor de búsqueda incorporado del modelo. Si se admite o no depende del propio modelo. Por favor, prueba si el motor de búsqueda incorporado del modelo es utilizable.",
298
+ "title": "Soporte para búsqueda en línea"
299
+ },
292
300
  "tokens": {
293
301
  "extra": "Establecer el número máximo de tokens que el modelo puede soportar",
294
302
  "title": "Máximo de ventana de contexto",
@@ -309,6 +317,10 @@
309
317
  "placeholder": "Por favor, seleccione el tipo de modelo",
310
318
  "title": "Tipo de modelo"
311
319
  },
320
+ "video": {
321
+ "extra": "Esta configuración solo habilitará la configuración de reconocimiento de video en la aplicación. Si se admite el reconocimiento depende completamente del propio modelo. Por favor, prueba si el modelo tiene la capacidad de reconocimiento de video utilizable.",
322
+ "title": "Soporte para reconocimiento de video"
323
+ },
312
324
  "vision": {
313
325
  "extra": "Esta configuración solo habilitará la configuración de carga de imágenes en la aplicación, si se admite el reconocimiento depende completamente del modelo en sí, prueba la disponibilidad de la capacidad de reconocimiento visual de este modelo.",
314
326
  "title": "Soporte para reconocimiento visual"
@@ -704,6 +704,9 @@
704
704
  "azure-DeepSeek-R1-0528": {
705
705
  "description": "Desplegado y proporcionado por Microsoft; el modelo DeepSeek R1 ha recibido una actualización menor, la versión actual es DeepSeek-R1-0528. En la última actualización, DeepSeek R1 ha mejorado significativamente la profundidad de inferencia y la capacidad de deducción mediante el aumento de recursos computacionales y la introducción de mecanismos de optimización algorítmica en la fase posterior al entrenamiento. Este modelo destaca en múltiples pruebas de referencia en matemáticas, programación y lógica general, y su rendimiento general se acerca a modelos líderes como O3 y Gemini 2.5 Pro."
706
706
  },
707
+ "baichuan-m2-32b": {
708
+ "description": "Baichuan M2 32B es un modelo de expertos mixto desarrollado por Baichuan Intelligence, con potentes capacidades de razonamiento."
709
+ },
707
710
  "baichuan/baichuan2-13b-chat": {
708
711
  "description": "Baichuan-13B es un modelo de lenguaje de gran escala de código abierto y comercializable desarrollado por Baichuan Intelligence, que cuenta con 13 mil millones de parámetros y ha logrado los mejores resultados en benchmarks autorizados en chino e inglés."
709
712
  },
@@ -728,12 +731,6 @@
728
731
  "charglm-4": {
729
732
  "description": "CharGLM-4 está diseñado para el juego de roles y la compañía emocional, soportando memoria de múltiples turnos de larga duración y diálogos personalizados, con aplicaciones amplias."
730
733
  },
731
- "chatglm3": {
732
- "description": "ChatGLM3 es un modelo de código cerrado desarrollado por Zhipu AI y el Laboratorio KEG de Tsinghua. Ha sido preentrenado con una gran cantidad de identificadores en chino e inglés y ajustado a las preferencias humanas. En comparación con el modelo de primera generación, ha logrado mejoras del 16%, 36% y 280% en MMLU, C-Eval y GSM8K, respectivamente, y ha alcanzado el primer lugar en el ranking de tareas en chino C-Eval. Es adecuado para escenarios que requieren un alto nivel de conocimiento, capacidad de razonamiento y creatividad, como la redacción de anuncios, la escritura de novelas, la redacción de contenido de conocimiento y la generación de código."
733
- },
734
- "chatglm3-6b-base": {
735
- "description": "ChatGLM3-6b-base es el modelo base de la última generación de la serie ChatGLM, desarrollado por Zhipu, con una escala de 6.000 millones de parámetros y de código abierto."
736
- },
737
734
  "chatgpt-4o-latest": {
738
735
  "description": "ChatGPT-4o es un modelo dinámico que se actualiza en tiempo real para mantener la versión más actual. Combina una poderosa comprensión y generación de lenguaje, adecuado para aplicaciones a gran escala, incluyendo servicio al cliente, educación y soporte técnico."
739
736
  },
@@ -938,6 +935,9 @@
938
935
  "deepseek-ai/DeepSeek-V3.1-Terminus": {
939
936
  "description": "DeepSeek-V3.1-Terminus es una versión actualizada del modelo V3.1 lanzado por DeepSeek, posicionada como un modelo de lenguaje grande con agentes híbridos. Esta actualización mantiene las capacidades originales del modelo, enfocándose en corregir problemas reportados por los usuarios y mejorar la estabilidad. Mejora significativamente la coherencia del lenguaje, reduciendo la mezcla de chino e inglés y la aparición de caracteres anómalos. El modelo integra el “Modo de pensamiento” y el “Modo sin pensamiento”, permitiendo a los usuarios cambiar flexiblemente mediante plantillas de chat para adaptarse a diferentes tareas. Como optimización importante, V3.1-Terminus mejora el rendimiento del agente de código y del agente de búsqueda, haciéndolos más confiables en la invocación de herramientas y en la ejecución de tareas complejas de múltiples pasos."
940
937
  },
938
+ "deepseek-ai/DeepSeek-V3.2-Exp": {
939
+ "description": "El modelo DeepSeek V3.2 Exp es una arquitectura de inferencia híbrida que admite tanto el modo reflexivo como el no reflexivo."
940
+ },
941
941
  "deepseek-ai/deepseek-llm-67b-chat": {
942
942
  "description": "DeepSeek 67B es un modelo avanzado entrenado para diálogos de alta complejidad."
943
943
  },
@@ -1031,6 +1031,9 @@
1031
1031
  "deepseek-v3.1": {
1032
1032
  "description": "DeepSeek-V3.1 es un nuevo modelo híbrido de razonamiento lanzado por DeepSeek, que soporta dos modos de razonamiento: con pensamiento y sin pensamiento, con una eficiencia de pensamiento superior a DeepSeek-R1-0528. Tras una optimización post-entrenamiento, el uso de herramientas Agent y el rendimiento en tareas inteligentes han mejorado significativamente. Soporta una ventana de contexto de 128k y una longitud máxima de salida de 64k tokens."
1033
1033
  },
1034
+ "deepseek-v3.1-terminus": {
1035
+ "description": "DeepSeek-V3.1-Terminus es una versión optimizada del modelo de lenguaje a gran escala lanzado por DeepSeek, especialmente diseñado para dispositivos terminales."
1036
+ },
1034
1037
  "deepseek-v3.1:671b": {
1035
1038
  "description": "DeepSeek V3.1: modelo de inferencia de próxima generación que mejora las capacidades de razonamiento complejo y pensamiento en cadena, ideal para tareas que requieren análisis profundo."
1036
1039
  },
@@ -1193,6 +1196,12 @@
1193
1196
  "ernie-4.0-turbo-8k-preview": {
1194
1197
  "description": "El modelo de lenguaje grande de bandera de Baidu, desarrollado internamente, de ultra gran escala, muestra un rendimiento excepcional en general, siendo ampliamente aplicable en escenarios de tareas complejas en diversos campos; soporta la integración automática con el plugin de búsqueda de Baidu, garantizando la actualidad de la información de preguntas y respuestas. En comparación con ERNIE 4.0, presenta un rendimiento superior."
1195
1198
  },
1199
+ "ernie-4.5-21b-a3b": {
1200
+ "description": "ERNIE 4.5 21B A3B es un modelo de expertos mixto desarrollado por Wenxin de Baidu, con potentes capacidades de razonamiento y soporte multilingüe."
1201
+ },
1202
+ "ernie-4.5-300b-a47b": {
1203
+ "description": "ERNIE 4.5 300B A47B es un modelo de expertos mixto a gran escala desarrollado por Wenxin de Baidu, con capacidades de razonamiento excepcionales."
1204
+ },
1196
1205
  "ernie-4.5-8k-preview": {
1197
1206
  "description": "El modelo grande Wenxin 4.5 es un nuevo modelo base multimodal nativo desarrollado por Baidu, que logra una optimización colaborativa a través de modelado conjunto de múltiples modalidades, con excelentes capacidades de comprensión multimodal; presenta una capacidad lingüística más avanzada, con mejoras en comprensión, generación, lógica y memoria, así como una notable reducción de alucinaciones y mejoras en razonamiento lógico y capacidades de codificación."
1198
1207
  },
@@ -1449,7 +1458,7 @@
1449
1458
  "description": "GLM-4-0520 es la última versión del modelo, diseñada para tareas altamente complejas y diversas, con un rendimiento excepcional."
1450
1459
  },
1451
1460
  "glm-4-9b-chat": {
1452
- "description": "GLM-4-9B-Chat muestra un alto rendimiento en semántica, matemáticas, razonamiento, código y conocimiento. También cuenta con navegación web, ejecución de código, llamadas a herramientas personalizadas y razonamiento de textos largos. Soporta 26 idiomas, incluidos japonés, coreano y alemán."
1461
+ "description": "GLM-4-9B-Chat ofrece un alto rendimiento en semántica, matemáticas, razonamiento, programación y conocimiento. También admite navegación web, ejecución de código, uso de herramientas personalizadas e inferencia de textos largos. Compatible con 26 idiomas, incluidos japonés, coreano y alemán."
1453
1462
  },
1454
1463
  "glm-4-air": {
1455
1464
  "description": "GLM-4-Air es una versión de alto costo-beneficio, con un rendimiento cercano al GLM-4, ofreciendo velocidad y precios asequibles."
@@ -1749,7 +1758,10 @@
1749
1758
  "description": "Una versión más económica de GPT Image 1, con soporte nativo para entrada de texto e imagen y generación de salida en formato de imagen."
1750
1759
  },
1751
1760
  "gpt-oss-120b": {
1752
- "description": "GPT-OSS-120B MXFP4: estructura Transformer cuantificada que mantiene un rendimiento sólido incluso con recursos limitados."
1761
+ "description": "Este modelo requiere solicitud para su uso. GPT-OSS-120B es un modelo de lenguaje de código abierto a gran escala desarrollado por OpenAI, con potentes capacidades de generación de texto."
1762
+ },
1763
+ "gpt-oss-20b": {
1764
+ "description": "Este modelo requiere solicitud para su uso. GPT-OSS-20B es un modelo de lenguaje de código abierto de tamaño medio desarrollado por OpenAI, con capacidades eficientes de generación de texto."
1753
1765
  },
1754
1766
  "gpt-oss:120b": {
1755
1767
  "description": "GPT-OSS 120B es un modelo de lenguaje abierto de gran escala lanzado por OpenAI, que emplea la tecnología de cuantificación MXFP4, siendo un modelo insignia. Requiere múltiples GPU o estaciones de trabajo de alto rendimiento para su ejecución, y ofrece un rendimiento sobresaliente en razonamiento complejo, generación de código y procesamiento multilingüe, soportando llamadas avanzadas a funciones e integración de herramientas."
@@ -1967,6 +1979,9 @@
1967
1979
  "kimi-k2-0905-preview": {
1968
1980
  "description": "El modelo kimi-k2-0905-preview tiene una longitud de contexto de 256k, con una mayor capacidad de codificación agentiva, una estética y funcionalidad mejoradas en el código frontend, y una mejor comprensión del contexto."
1969
1981
  },
1982
+ "kimi-k2-instruct": {
1983
+ "description": "Kimi K2 Instruct es un modelo de lenguaje a gran escala desarrollado por Moonshot AI, con capacidad para manejar contextos extremadamente largos."
1984
+ },
1970
1985
  "kimi-k2-turbo-preview": {
1971
1986
  "description": "kimi-k2 es un modelo base con arquitectura MoE que ofrece potentes capacidades para código y agentes, con 1T parámetros totales y 32B parámetros activados. En las pruebas de referencia en categorías principales como razonamiento de conocimiento general, programación, matemáticas y agentes, el rendimiento del modelo K2 supera al de otros modelos de código abierto más extendidos."
1972
1987
  },
@@ -1988,9 +2003,6 @@
1988
2003
  "lite": {
1989
2004
  "description": "Spark Lite es un modelo de lenguaje grande y ligero, con una latencia extremadamente baja y una capacidad de procesamiento eficiente, completamente gratuito y de código abierto, que admite funciones de búsqueda en línea en tiempo real. Su característica de respuesta rápida lo hace destacar en aplicaciones de inferencia y ajuste de modelos en dispositivos de baja potencia, brindando a los usuarios una excelente relación costo-beneficio y experiencia inteligente, especialmente en escenarios de preguntas y respuestas, generación de contenido y búsqueda."
1990
2005
  },
1991
- "llama-2-7b-chat": {
1992
- "description": "Llama2 es una serie de modelos de lenguaje de gran escala (LLM) desarrollados y publicados por Meta, que incluye modelos de texto generativo preentrenados y ajustados de diferentes tamaños, desde 7 mil millones hasta 70 mil millones de parámetros. A nivel de arquitectura, Llama2 es un modelo de lenguaje autoregresivo que utiliza una arquitectura de transformador optimizada. Las versiones ajustadas utilizan un ajuste de fine-tuning supervisado (SFT) y aprendizaje por refuerzo con retroalimentación humana (RLHF) para alinear las preferencias de utilidad y seguridad humanas. Llama2 supera a la serie Llama en varios conjuntos de datos académicos, proporcionando ideas para el diseño y desarrollo de numerosos otros modelos."
1993
- },
1994
2006
  "llama-3.1-70b-versatile": {
1995
2007
  "description": "Llama 3.1 70B ofrece una capacidad de razonamiento AI más potente, adecuada para aplicaciones complejas, soportando un procesamiento computacional extenso y garantizando eficiencia y precisión."
1996
2008
  },
@@ -2018,9 +2030,6 @@
2018
2030
  "llama-3.3-70b": {
2019
2031
  "description": "Llama 3.3 70B: un modelo Llama de tamaño medio-grande que equilibra capacidad de razonamiento y rendimiento."
2020
2032
  },
2021
- "llama-3.3-70b-instruct": {
2022
- "description": "Llama 3.3 es el modelo de lenguaje de código abierto multilingüe más avanzado de la serie Llama, que ofrece un rendimiento comparable al modelo de 405B a un costo extremadamente bajo. Basado en la estructura Transformer, y mejorado en utilidad y seguridad a través de ajuste fino supervisado (SFT) y aprendizaje por refuerzo con retroalimentación humana (RLHF). Su versión ajustada para instrucciones está optimizada para diálogos multilingües, superando a muchos modelos de chat de código abierto y cerrado en múltiples benchmarks de la industria. La fecha límite de conocimiento es diciembre de 2023."
2023
- },
2024
2033
  "llama-3.3-70b-versatile": {
2025
2034
  "description": "El modelo de lenguaje multilingüe Meta Llama 3.3 (LLM) es un modelo generativo preentrenado y ajustado para instrucciones de 70B (entrada/salida de texto). El modelo de texto puro ajustado para instrucciones de Llama 3.3 está optimizado para casos de uso de conversación multilingüe y supera a muchos modelos de chat de código abierto y cerrado en benchmarks industriales comunes."
2026
2035
  },
@@ -2082,7 +2091,7 @@
2082
2091
  "description": "Spark Max 32K está equipado con una capacidad de procesamiento de contexto grande, con una comprensión contextual más fuerte y habilidades de razonamiento lógico, soportando entradas de texto de 32K tokens, adecuado para la lectura de documentos largos, preguntas y respuestas de conocimiento privado y otros escenarios."
2083
2092
  },
2084
2093
  "megrez-3b-instruct": {
2085
- "description": "Megrez-3B-Instruct es un modelo de lenguaje grande entrenado completamente de forma autónoma por Wúwèn Xīnqióng. Megrez-3B-Instruct tiene como objetivo crear una solución de inteligencia periférica rápida, compacta y fácil de usar, basada en el concepto de colaboración entre hardware y software."
2094
+ "description": "Megrez 3B Instruct es un modelo eficiente de bajo número de parámetros desarrollado por Wuwen Xinqiong."
2086
2095
  },
2087
2096
  "meta-llama-3-70b-instruct": {
2088
2097
  "description": "Un poderoso modelo de 70 mil millones de parámetros que sobresale en razonamiento, codificación y amplias aplicaciones de lenguaje."
@@ -2639,6 +2648,12 @@
2639
2648
  "pro-128k": {
2640
2649
  "description": "Spark Pro 128K está equipado con una capacidad de procesamiento de contexto extragrande, capaz de manejar hasta 128K de información contextual, especialmente adecuado para el análisis completo y el manejo de relaciones lógicas a largo plazo en contenido extenso, proporcionando una lógica fluida y coherente y un soporte diverso de citas en comunicaciones de texto complejas."
2641
2650
  },
2651
+ "pro-deepseek-r1": {
2652
+ "description": "Modelo exclusivo para servicios empresariales, incluye servicio concurrente."
2653
+ },
2654
+ "pro-deepseek-v3": {
2655
+ "description": "Modelo exclusivo para servicios empresariales, incluye servicio concurrente."
2656
+ },
2642
2657
  "qvq-72b-preview": {
2643
2658
  "description": "El modelo QVQ es un modelo de investigación experimental desarrollado por el equipo de Qwen, enfocado en mejorar la capacidad de razonamiento visual, especialmente en el ámbito del razonamiento matemático."
2644
2659
  },
@@ -2774,12 +2789,6 @@
2774
2789
  "qwen2": {
2775
2790
  "description": "Qwen2 es el nuevo modelo de lenguaje a gran escala de Alibaba, que ofrece un rendimiento excepcional para satisfacer diversas necesidades de aplicación."
2776
2791
  },
2777
- "qwen2-72b-instruct": {
2778
- "description": "Qwen2 es la nueva serie de modelos de lenguaje de gran escala presentada por el equipo de Qwen. Se basa en la arquitectura Transformer y utiliza funciones de activación SwiGLU, sesgo de atención QKV (attention QKV bias), atención de consulta grupal (group query attention), una mezcla de atención de ventana deslizante y atención completa (mixture of sliding window attention and full attention). Además, el equipo de Qwen ha mejorado el tokenizador para adaptarse a múltiples lenguajes naturales y códigos."
2779
- },
2780
- "qwen2-7b-instruct": {
2781
- "description": "Qwen2 es una nueva serie de modelos de lenguaje de gran escala desarrollada por el equipo de Qwen. Se basa en la arquitectura Transformer y utiliza funciones de activación SwiGLU, sesgo de atención QKV (attention QKV bias), atención de consulta grupal (group query attention), una mezcla de atención de ventana deslizante y atención completa (mixture of sliding window attention and full attention). Además, el equipo de Qwen ha mejorado el tokenizador para adaptarse a múltiples lenguajes naturales y códigos."
2782
- },
2783
2792
  "qwen2.5": {
2784
2793
  "description": "Qwen2.5 es la nueva generación de modelos de lenguaje a gran escala de Alibaba, que ofrece un rendimiento excepcional para satisfacer diversas necesidades de aplicación."
2785
2794
  },
@@ -2918,6 +2927,12 @@
2918
2927
  "qwen3-next-80b-a3b-thinking": {
2919
2928
  "description": "Modelo de código abierto de nueva generación basado en Qwen3 en modo reflexivo, que mejora la capacidad de seguir instrucciones y ofrece respuestas más concisas en comparación con la versión anterior (Tongyi Qianwen 3-235B-A22B-Thinking-2507)."
2920
2929
  },
2930
+ "qwen3-vl-235b-a22b-instruct": {
2931
+ "description": "Qwen3 VL 235B A22B Instruct es un modelo multimodal desarrollado por Tongyi Qianwen, compatible con comprensión visual y razonamiento."
2932
+ },
2933
+ "qwen3-vl-235b-a22b-thinking": {
2934
+ "description": "Qwen3 VL 235B A22B Thinking es un modelo de razonamiento multimodal desarrollado por Tongyi Qianwen, compatible con comprensión visual y razonamiento."
2935
+ },
2921
2936
  "qwen3-vl-plus": {
2922
2937
  "description": "Tongyi Qianwen VL es un modelo generativo de texto con capacidad de comprensión visual (imágenes). No solo puede realizar OCR (reconocimiento de texto en imágenes), sino también resumir y razonar, por ejemplo, extrayendo atributos de fotos de productos o resolviendo problemas a partir de imágenes de ejercicios."
2923
2938
  },
@@ -3035,6 +3050,9 @@
3035
3050
  "step-r1-v-mini": {
3036
3051
  "description": "Este modelo es un gran modelo de inferencia con una poderosa capacidad de comprensión de imágenes, capaz de procesar información de imágenes y texto, generando contenido textual tras un profundo razonamiento. Este modelo destaca en el campo del razonamiento visual, además de poseer capacidades de razonamiento matemático, de código y textual de primer nivel. La longitud del contexto es de 100k."
3037
3052
  },
3053
+ "step3": {
3054
+ "description": "Step3 es un modelo multimodal desarrollado por StepStar, con potentes capacidades de comprensión visual."
3055
+ },
3038
3056
  "stepfun-ai/step3": {
3039
3057
  "description": "Step3 es un modelo de inferencia multimodal de vanguardia publicado por 阶跃星辰 (StepFun), construido sobre una arquitectura Mixture-of-Experts (MoE) con 321B de parámetros totales y 38B de parámetros de activación. El modelo presenta un diseño de extremo a extremo orientado a minimizar el coste de decodificación, al tiempo que ofrece un rendimiento de primer nivel en razonamiento visual-lingüístico. Gracias al diseño sinérgico entre la atención por descomposición de múltiples matrices (MFA) y el desacoplamiento atención‑FFN (AFD), Step3 mantiene una eficiencia sobresaliente tanto en aceleradores de gama alta como de gama baja. En la fase de preentrenamiento, Step3 procesó más de 20T de tokens de texto y 4T de tokens mixtos imagen-texto, abarcando más de una decena de idiomas. El modelo ha alcanzado niveles líderes entre los modelos de código abierto en múltiples benchmarks, incluidos matemáticas, código y tareas multimodales."
3040
3058
  },
@@ -3158,9 +3176,6 @@
3158
3176
  "xai/grok-4": {
3159
3177
  "description": "El modelo insignia más reciente y avanzado de xAI, que ofrece un rendimiento inigualable en lenguaje natural, matemáticas y razonamiento, siendo un competidor perfecto y versátil."
3160
3178
  },
3161
- "yi-1.5-34b-chat": {
3162
- "description": "Yi-1.5 es una versión mejorada de Yi. Utiliza un corpus de alta calidad de 500B tokens para continuar el preentrenamiento de Yi y se微调 en 3M muestras de ajuste fino diversificadas."
3163
- },
3164
3179
  "yi-large": {
3165
3180
  "description": "Modelo de mil millones de parámetros completamente nuevo, que ofrece capacidades excepcionales de preguntas y respuestas y generación de texto."
3166
3181
  },