npm - ugly-app - Versions diffs - 0.1.430 → 0.1.431 - Mend

ugly-app 0.1.430 → 0.1.431

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (10) hide show

package/dist/cli/version.d.ts +1 -1
package/dist/cli/version.js +1 -1
package/dist/shared/FrameworkRequests.d.ts +1 -1
package/dist/shared/TextGen.d.ts +15 -17
package/dist/shared/TextGen.d.ts.map +1 -1
package/dist/shared/TextGen.js +248 -164
package/dist/shared/TextGen.js.map +1 -1
package/package.json +1 -1
package/src/cli/version.ts +1 -1
package/src/shared/TextGen.ts +248 -164

package/dist/shared/TextGen.js CHANGED Viewed

@@ -19,7 +19,6 @@ export const textGenTogetherModels = [
 // Note: Llama 4 models require enterprise deployment on Fireworks, use Groq/Together instead
 export const textGenFireworksModels = [
     'fireworks_gpt_oss_120b',
-    'fireworks_gpt_oss_20b',
 ];
 // DeepSeek — direct route to api.deepseek.com (OpenAI-compatible).
 // Only V4 Pro and V4 Flash are supported; the older R1/V3/V3.1/V3.2
@@ -38,11 +37,9 @@ export const textGenDeepSeekModels = [
 // Groq models
 export const textGenGroqModels = [
     'groq_llama_4_scout',
-    'groq_llama_4_maverick',
     'groq_mixtral_8x7b',
     'groq_llama_3_3_70b',
     'groq_gpt_oss_120b',
-    'groq_gpt_oss_20b',
 ];
 export const textGenGoogleModels = [
     'google_gemini_2_5',
@@ -63,7 +60,6 @@ export const textGenOpenAIModels = [
     'openai_o1_mini',
     'openai_o3',
     'openai_o4_mini',
-    'openai_gpt_41_nano',
 ];
 // MiniMax — agentic coding models (M2.5 / M2.7)
 export const textGenMiniMaxModels = [
@@ -76,8 +72,11 @@ export const textGenMiniMaxModels = [
 // us a warm path when the direct upstream is throttled or down.
 export const textGenOpenRouterModels = [
     'openrouter_glm_5_1',
+    'openrouter_glm_4_6',
     'openrouter_qwen_36_plus',
+    'openrouter_qwen3_6_27b',
     'openrouter_kimi_k2_thinking',
+    'openrouter_kimi_k2_6',
     'openrouter_gemma_4_31b',
     'openrouter_gemma_4_26b',
     'openrouter_gemma_4_26b_free',
@@ -89,6 +88,7 @@ export const textGenOpenRouterModels = [
     'openrouter_o4_mini',
     'openrouter_claude_sonnet_4_6',
     'openrouter_claude_haiku_4_5',
+    'openrouter_claude_opus_4_7',
 ];
 // DeepInfra — direct route to Gemma 4 family (and potentially other
 // open-weight models). Auto-caches on identical prefixes and reports
@@ -98,9 +98,13 @@ export const textGenDeepInfraModels = [
     'deepinfra_gemma_4_31b',
     'deepinfra_gemma_4_26b',
     'deepinfra_gpt_oss_120b',
-    'deepinfra_gpt_oss_20b',
     'deepinfra_qwen3_235b',
-    'deepinfra_kimi_k2',
+    'deepinfra_qwen3_6_27b',
+    'deepinfra_qwen3_6_35b_a3b',
+    'deepinfra_kimi_k2_6',
+    'deepinfra_glm_4_6',
+    'deepinfra_glm_5_1',
+    'deepinfra_minimax_m2_5',
     'deepinfra_deepseek_v4_pro',
     'deepinfra_deepseek_v4_flash',
 ];
@@ -129,24 +133,23 @@ const textGenProviderModelValues = [
     'openai_o1_mini',
     'openai_o3',
     'openai_o4_mini',
-    'openai_gpt_41_nano',
     // Fireworks (GPT-OSS - Llama 4 requires enterprise deployment)
     'fireworks_gpt_oss_120b',
-    'fireworks_gpt_oss_20b',
     // Groq
     'groq_llama_4_scout',
-    'groq_llama_4_maverick',
     'groq_mixtral_8x7b',
     'groq_llama_3_3_70b',
     'groq_gpt_oss_120b',
-    'groq_gpt_oss_20b',
     // MiniMax
     'minimax_m2_5',
     'minimax_m2_7',
     // OpenRouter
     'openrouter_glm_5_1',
+    'openrouter_glm_4_6',
     'openrouter_qwen_36_plus',
+    'openrouter_qwen3_6_27b',
     'openrouter_kimi_k2_thinking',
+    'openrouter_kimi_k2_6',
     'openrouter_gemma_4_31b',
     'openrouter_gemma_4_26b',
     'openrouter_gemma_4_26b_free',
@@ -157,13 +160,18 @@ const textGenProviderModelValues = [
     'openrouter_o4_mini',
     'openrouter_claude_sonnet_4_6',
     'openrouter_claude_haiku_4_5',
+    'openrouter_claude_opus_4_7',
     // DeepInfra
     'deepinfra_gemma_4_31b',
     'deepinfra_gemma_4_26b',
     'deepinfra_gpt_oss_120b',
-    'deepinfra_gpt_oss_20b',
     'deepinfra_qwen3_235b',
-    'deepinfra_kimi_k2',
+    'deepinfra_qwen3_6_27b',
+    'deepinfra_qwen3_6_35b_a3b',
+    'deepinfra_kimi_k2_6',
+    'deepinfra_glm_4_6',
+    'deepinfra_glm_5_1',
+    'deepinfra_minimax_m2_5',
     'deepinfra_deepseek_v4_pro',
     'deepinfra_deepseek_v4_flash',
     // DeepSeek (direct, BYO key, OpenAI-compatible)
@@ -181,13 +189,11 @@ export const textGenProviderModelsSet = new Set(textGenProviderModels);
 const textGenModelValues = [
     // Multi-provider routed models
     'llama_4_scout',
-    'llama_4_maverick',
     'llama_3_3_70b',
-    // DeepSeek V4 — direct route only (api.deepseek.com)
+    // DeepSeek V4 — direct (api.deepseek.com) + DeepInfra fallback
     'deepseek_v4_pro',
     'deepseek_v4_flash',
     'gpt_oss_120b',
-    'gpt_oss_20b',
     // Google
     'gemini_2_5_flash',
     'gemini_2_5',
@@ -195,24 +201,27 @@ const textGenModelValues = [
     'gpt_4o',
     'gpt_5',
     'gpt_5_mini',
-    'gpt_41_nano',
     'o3',
     'o4_mini',
     // Anthropic — coding-agent tiers (Anthropic direct + OpenRouter fallback)
     'claude_opus_4_7',
     'claude_sonnet_4_6',
-    'claude_3_sonnet',
     'claude_haiku_4_5',
     // Multi-provider open-weight (DeepInfra / OpenRouter / Together)
     'gemma_4_31b',
     'gemma_4_26b',
-    // MiniMax (direct)
+    // MiniMax — direct + DeepInfra fallback for M2.5
     'minimax_m2_5',
     'minimax_m2_7',
-    // OpenRouter-only frontier
+    // GLM — DeepInfra primary + OpenRouter fallback
     'glm_5_1',
+    'glm_4_6',
+    // Qwen 3.6 — OpenRouter + DeepInfra
     'qwen3_6_plus',
+    'qwen3_6_27b',
+    // Kimi — OpenRouter + DeepInfra
     'kimi_k2_thinking',
+    'kimi_k2_6',
     // Single-provider (Together — misc)
     'qwen2_72b',
     'qwen2_vision_72b',
@@ -419,25 +428,6 @@ export const TextGenOpenAIModelData = {
         smartness: 4,
         compactAt: 0.90,
     },
-    // GPT-4.1 Nano — cheapest viable model, 1M context
-    openai_gpt_41_nano: {
-        model: 'gpt-4.1-nano',
-        contextWindow: 1_000_000,
-        inputTokenNanoDollar: 100,
-        outputTokenNanoDollar: 400,
-        vision: true,
-        toolCalling: true,
-        jsonMode: true,
-        streaming: true,
-        parallelToolCalls: true,
-        // Coding agent
-        name: 'GPT-4.1 Nano',
-        provider: 'OpenAI',
-        speed: 'fast',
-        reasoning: 'strong',
-        smartness: 2,
-        compactAt: 0.90,
-    },
 };
 export const TextGenTogetherModelData = {
     together_meta_llama_vision_3_11b: {
@@ -578,17 +568,6 @@ export const TextGenFireworksModelData = {
         streaming: true,
         parallelToolCalls: false,
     },
-    fireworks_gpt_oss_20b: {
-        model: 'accounts/fireworks/models/gpt-oss-20b',
-        contextWindow: 128000,
-        // $0.075 input / $0.30 output per 1M tokens
-        inputTokenNanoDollar: 75,
-        outputTokenNanoDollar: 300,
-        toolCalling: true,
-        jsonMode: true,
-        streaming: true,
-        parallelToolCalls: false,
-    },
 };
 // Groq models - ultra-fast inference
 // Note: Tool calling for Llama 4 has known reliability issues
@@ -605,18 +584,6 @@ export const TextGenGroqModelData = {
         streaming: true,
         parallelToolCalls: false,
     },
-    groq_llama_4_maverick: {
-        model: 'meta-llama/llama-4-maverick-17b-128e-instruct',
-        contextWindow: 128000,
-        inputTokenNanoDollar: 200,
-        outputTokenNanoDollar: 600,
-        vision: true,
-        // Note: toolCalling marked 'unreliable' due to known 100% failure rate with structured prompts
-        toolCalling: 'unreliable',
-        jsonMode: true,
-        streaming: true,
-        parallelToolCalls: false,
-    },
     groq_mixtral_8x7b: {
         model: 'mixtral-8x7b-32768',
         contextWindow: 32768,
@@ -649,17 +616,6 @@ export const TextGenGroqModelData = {
         streaming: true,
         parallelToolCalls: false,
     },
-    groq_gpt_oss_20b: {
-        model: 'openai/gpt-oss-20b',
-        contextWindow: 128000,
-        // $0.075 input / $0.30 output per 1M tokens
-        inputTokenNanoDollar: 75,
-        outputTokenNanoDollar: 300,
-        toolCalling: true,
-        jsonMode: true,
-        streaming: true,
-        parallelToolCalls: false,
-    },
 };
 export const TextGenKieModelData = {};
 // MiniMax — agentic coding line (M2.5 / M2.7).
@@ -959,6 +915,60 @@ export const TextGenOpenRouterModelData = {
         // doesn't assume a cache discount that never materializes.
         supportsCacheControl: false,
     },
+    // Claude Opus 4.7 fallback — primary still Anthropic direct. OpenRouter
+    // list price is ~5% over upstream. Cache passthrough verified to work
+    // for sonnet-4.6; opus-4.7 not yet verified — leave conservative.
+    openrouter_claude_opus_4_7: {
+        model: 'anthropic/claude-opus-4.7',
+        contextWindow: 200_000,
+        inputTokenNanoDollar: 15_750, // ~$15/M × 1.05
+        outputTokenNanoDollar: 78_750, // ~$75/M × 1.05
+        vision: true,
+        toolCalling: true,
+        jsonMode: true,
+        streaming: true,
+        parallelToolCalls: true,
+        supportsCacheControl: false,
+    },
+    // GLM 4.6 OpenRouter route. List price is roughly the same as
+    // DeepInfra's published rate; OpenRouter wins when DeepInfra is
+    // throttled.
+    openrouter_glm_4_6: {
+        model: 'z-ai/glm-4.6',
+        contextWindow: 200_000,
+        inputTokenNanoDollar: 600,
+        outputTokenNanoDollar: 2200,
+        toolCalling: true,
+        jsonMode: true,
+        streaming: true,
+        parallelToolCalls: false,
+        supportsCacheControl: false,
+    },
+    // Qwen 3.6 27B OpenRouter route — dense (non-MoE) variant.
+    openrouter_qwen3_6_27b: {
+        model: 'qwen/qwen3.6-27b',
+        contextWindow: 262_144,
+        inputTokenNanoDollar: 350,
+        outputTokenNanoDollar: 3360,
+        vision: true,
+        toolCalling: true,
+        jsonMode: true,
+        streaming: true,
+        parallelToolCalls: false,
+        supportsCacheControl: false,
+    },
+    // Kimi K2.6 OpenRouter route.
+    openrouter_kimi_k2_6: {
+        model: 'moonshotai/kimi-k2.6',
+        contextWindow: 262_144,
+        inputTokenNanoDollar: 800,
+        outputTokenNanoDollar: 3700,
+        toolCalling: true,
+        jsonMode: true,
+        streaming: true,
+        parallelToolCalls: false,
+        supportsCacheControl: false,
+    },
 };
 // DeepInfra — direct route, bypasses OpenRouter's shared rate limits.
 // IMPORTANT: DeepInfra does NOT cache Gemma-4 prompts — probed with
@@ -1025,43 +1035,107 @@ export const TextGenDeepInfraModelData = {
         parallelToolCalls: false,
         supportsCacheControl: false,
     },
-    // GPT-OSS 20B — same model as Groq/Fireworks at lower price.
-    deepinfra_gpt_oss_20b: {
-        model: 'openai/gpt-oss-20b',
-        contextWindow: 128_000,
-        inputTokenNanoDollar: 30,
-        outputTokenNanoDollar: 150,
+    // Qwen3-235B-A22B-Instruct-2507 (live 2026-05-03 on DeepInfra).
+    deepinfra_qwen3_235b: {
+        model: 'Qwen/Qwen3-235B-A22B-Instruct-2507',
+        contextWindow: 256_000,
+        inputTokenNanoDollar: 71,
+        outputTokenNanoDollar: 100,
         toolCalling: true,
         jsonMode: true,
         streaming: true,
         parallelToolCalls: false,
         supportsCacheControl: false,
     },
-    // Qwen3-235B — DeepInfra at $0.071/$0.10 vs Together at $0.20/$0.60.
-    // ~3× cheaper input, ~6× cheaper output.
-    deepinfra_qwen3_235b: {
-        model: 'Qwen/Qwen3-235B-A22B-Instruct-2507',
-        contextWindow: 256_000,
-        inputTokenNanoDollar: 71,
-        outputTokenNanoDollar: 100,
+    // Qwen3.6 27B — $0.32/$3.20 per 1M (live 2026-05-03), 256k ctx,
+    // multimodal + reasoning. The dense, non-MoE variant.
+    deepinfra_qwen3_6_27b: {
+        model: 'Qwen/Qwen3.6-27B',
+        contextWindow: 262_144,
+        inputTokenNanoDollar: 320,
+        outputTokenNanoDollar: 3200,
+        vision: true,
         toolCalling: true,
         jsonMode: true,
         streaming: true,
         parallelToolCalls: false,
         supportsCacheControl: false,
     },
-    // Kimi K2 — DeepInfra at $0.50/$2.00 vs Together at $1.00/$3.00.
-    deepinfra_kimi_k2: {
-        model: 'moonshotai/Kimi-K2-Instruct',
-        contextWindow: 128_000,
-        inputTokenNanoDollar: 500,
-        outputTokenNanoDollar: 2000,
+    // Qwen3.6 35B-A3B — MoE variant, dramatically cheaper.
+    // $0.15/$0.95 per 1M (live 2026-05-03), 256k ctx.
+    deepinfra_qwen3_6_35b_a3b: {
+        model: 'Qwen/Qwen3.6-35B-A3B',
+        contextWindow: 262_144,
+        inputTokenNanoDollar: 150,
+        outputTokenNanoDollar: 950,
+        vision: true,
         toolCalling: true,
         jsonMode: true,
         streaming: true,
         parallelToolCalls: false,
         supportsCacheControl: false,
     },
+    // Kimi K2.6 — newer than the (now-removed) K2-Instruct. $0.75/$3.50
+    // per 1M (live 2026-05-03), 256k ctx, native reasoning. Cache-read
+    // is 20% of input → 150 nanoDollar/M.
+    deepinfra_kimi_k2_6: {
+        model: 'moonshotai/Kimi-K2.6',
+        contextWindow: 262_144,
+        inputTokenNanoDollar: 750,
+        outputTokenNanoDollar: 3500,
+        toolCalling: true,
+        jsonMode: true,
+        streaming: true,
+        parallelToolCalls: false,
+        supportsCacheControl: true,
+        cacheReadTokenNanoDollar: 150,
+    },
+    // GLM 4.6 — $0.43/$1.74 per 1M (live 2026-05-03), 200k ctx.
+    // Cache-read 18.6% of input → 80 nanoDollar/M.
+    deepinfra_glm_4_6: {
+        model: 'zai-org/GLM-4.6',
+        contextWindow: 202_752,
+        inputTokenNanoDollar: 430,
+        outputTokenNanoDollar: 1740,
+        toolCalling: true,
+        jsonMode: true,
+        streaming: true,
+        parallelToolCalls: false,
+        supportsCacheControl: true,
+        cacheReadTokenNanoDollar: 80,
+    },
+    // GLM 5.1 fallback route. Pricing $1.05/$3.50 per 1M (live
+    // 2026-05-03), 200k ctx. Slightly higher than the OpenRouter
+    // route's published list, so OpenRouter stays primary on price.
+    // Cache-read 19.5% of input → 205 nanoDollar/M.
+    deepinfra_glm_5_1: {
+        model: 'zai-org/GLM-5.1',
+        contextWindow: 202_752,
+        inputTokenNanoDollar: 1050,
+        outputTokenNanoDollar: 3500,
+        toolCalling: true,
+        jsonMode: true,
+        streaming: true,
+        parallelToolCalls: false,
+        supportsCacheControl: true,
+        cacheReadTokenNanoDollar: 205,
+    },
+    // MiniMax M2.5 fallback. Pricing $0.15/$1.15 per 1M (live
+    // 2026-05-03) — actually CHEAPER than direct MiniMax ($0.30/$1.20),
+    // so the price-priority sort prefers DeepInfra. Direct stays as a
+    // healthy backup. 196k ctx, cache-read 20% → 30 nanoDollar/M.
+    deepinfra_minimax_m2_5: {
+        model: 'MiniMaxAI/MiniMax-M2.5',
+        contextWindow: 196_608,
+        inputTokenNanoDollar: 150,
+        outputTokenNanoDollar: 1150,
+        toolCalling: true,
+        jsonMode: true,
+        streaming: true,
+        parallelToolCalls: false,
+        supportsCacheControl: true,
+        cacheReadTokenNanoDollar: 30,
+    },
     // DeepSeek V4 Pro fallback route — used when api.deepseek.com is
     // throttled or down. Pricing live-verified 2026-05-03 against
     // /models/deepseek-ai/DeepSeek-V4-Pro: $1.74 in / $3.48 out per 1M
@@ -1192,22 +1266,6 @@ export const textGenMultiProviderModels = {
             available: true,
         },
     ],
-    llama_4_maverick: [
-        // Groq deprecated llama-4-maverick-17b-128e effective March 9, 2026
-        {
-            provider: 'groq',
-            providerModel: 'groq_llama_4_maverick',
-            latencyTier: 'fast',
-            available: false,
-        },
-        // Fireworks Llama 4 requires enterprise deployment, not available on serverless
-        {
-            provider: 'together',
-            providerModel: 'together_meta_llama4_400b',
-            latencyTier: 'standard',
-            available: true,
-        },
-    ],
     // DeepSeek V4 — direct route to api.deepseek.com (BYO key, OpenAI-
     // compatible) primary, DeepInfra fallback for failover only. Direct
     // is ~6× cheaper on Pro and ~2× on Flash so the price-priority sort
@@ -1272,26 +1330,6 @@ export const textGenMultiProviderModels = {
             available: true,
         },
     ],
-    gpt_oss_20b: [
-        {
-            provider: 'deepinfra',
-            providerModel: 'deepinfra_gpt_oss_20b',
-            latencyTier: 'standard',
-            available: true,
-        },
-        {
-            provider: 'groq',
-            providerModel: 'groq_gpt_oss_20b',
-            latencyTier: 'fast',
-            available: true,
-        },
-        {
-            provider: 'fireworks',
-            providerModel: 'fireworks_gpt_oss_20b',
-            latencyTier: 'standard',
-            available: true,
-        },
-    ],
     // Single-provider Google models
     gemini_2_5_flash: [
         {
@@ -1385,19 +1423,11 @@ export const textGenMultiProviderModels = {
             available: true,
         },
     ],
-    gpt_41_nano: [
-        {
-            provider: 'openai',
-            providerModel: 'openai_gpt_41_nano',
-            latencyTier: 'fast',
-            available: true,
-        },
-    ],
     // Anthropic models — direct first, OpenRouter fallback second.
-    // claude_3_sonnet historically maps to claude-sonnet-4-20250514;
-    // the OpenRouter fallback uses claude-sonnet-4.6 (current Anthropic
-    // live model) and has verified cache_control passthrough.
-    claude_3_sonnet: [
+    // The Anthropic entry ships 4.x behind a wire-dated snapshot, and
+    // OpenRouter mirrors the same model with ~5% markup. Cache_control
+    // passthrough is verified for sonnet but unverified for opus/haiku.
+    claude_sonnet_4_6: [
         {
             provider: 'anthropic',
             providerModel: 'anthrophic_claude_3_sonnet',
@@ -1411,28 +1441,16 @@ export const textGenMultiProviderModels = {
             available: true,
         },
     ],
-    // Explicit current-version aliases so coding-agent callers can pin
-    // to 4.6 / 4.7 without depending on claude_3_sonnet's legacy label.
-    // Same offering chain — the Anthropic entry ships 4.x behind the
-    // wire-dated snapshot, and OpenRouter mirrors the same model.
-    claude_sonnet_4_6: [
+    claude_opus_4_7: [
         {
             provider: 'anthropic',
-            providerModel: 'anthrophic_claude_3_sonnet',
-            latencyTier: 'standard',
+            providerModel: 'anthrophic_claude_3_opus',
+            latencyTier: 'slow',
             available: true,
         },
         {
             provider: 'openrouter',
-            providerModel: 'openrouter_claude_sonnet_4_6',
-            latencyTier: 'standard',
-            available: true,
-        },
-    ],
-    claude_opus_4_7: [
-        {
-            provider: 'anthropic',
-            providerModel: 'anthrophic_claude_3_opus',
+            providerModel: 'openrouter_claude_opus_4_7',
             latencyTier: 'slow',
             available: true,
         },
@@ -1485,17 +1503,29 @@ export const textGenMultiProviderModels = {
             available: true,
         },
     ],
+    // Kimi K2 (original Instruct) — DeepInfra retired Kimi-K2-Instruct
+    // 2026-05-03 in favor of K2.5/K2.6 (different model). Together still
+    // serves the original K2-Instruct as the only path.
     kimi_k2: [
-        // DeepInfra at $0.50/$2.00 vs Together at $1.00/$3.00 — ~2× cheaper.
+        {
+            provider: 'together',
+            providerModel: 'together_kimi_k2',
+            latencyTier: 'standard',
+            available: true,
+        },
+    ],
+    // Kimi K2.6 — newer model. DeepInfra primary (cheaper), OpenRouter
+    // fallback. Both expose the same wire model id family.
+    kimi_k2_6: [
         {
             provider: 'deepinfra',
-            providerModel: 'deepinfra_kimi_k2',
+            providerModel: 'deepinfra_kimi_k2_6',
             latencyTier: 'standard',
             available: true,
         },
         {
-            provider: 'together',
-            providerModel: 'together_kimi_k2',
+            provider: 'openrouter',
+            providerModel: 'openrouter_kimi_k2_6',
             latencyTier: 'standard',
             available: true,
         },
@@ -1546,7 +1576,16 @@ export const textGenMultiProviderModels = {
             available: true,
         },
     ],
+    // MiniMax M2.5 — DeepInfra is cheaper than direct ($0.15/$1.15 vs
+    // $0.30/$1.20), so DeepInfra wins the price-priority sort. Direct
+    // stays as a healthy fallback.
     minimax_m2_5: [
+        {
+            provider: 'deepinfra',
+            providerModel: 'deepinfra_minimax_m2_5',
+            latencyTier: 'standard',
+            available: true,
+        },
         {
             provider: 'minimax',
             providerModel: 'minimax_m2_5',
@@ -1554,6 +1593,8 @@ export const textGenMultiProviderModels = {
             available: true,
         },
     ],
+    // MiniMax M2.7 — not on DeepInfra (only M2.5 is hosted there).
+    // Direct route only.
     minimax_m2_7: [
         {
             provider: 'minimax',
@@ -1562,6 +1603,9 @@ export const textGenMultiProviderModels = {
             available: true,
         },
     ],
+    // GLM 5.1 — OpenRouter is cheaper ($0.95/$3.15 vs DeepInfra
+    // $1.05/$3.50) and has been stable; OpenRouter primary, DeepInfra
+    // fallback when OR is throttled.
     glm_5_1: [
         {
             provider: 'openrouter',
@@ -1569,7 +1613,31 @@ export const textGenMultiProviderModels = {
             latencyTier: 'standard',
             available: true,
         },
+        {
+            provider: 'deepinfra',
+            providerModel: 'deepinfra_glm_5_1',
+            latencyTier: 'standard',
+            available: true,
+        },
     ],
+    // GLM 4.6 — DeepInfra primary at $0.43/$1.74; OpenRouter fallback.
+    glm_4_6: [
+        {
+            provider: 'deepinfra',
+            providerModel: 'deepinfra_glm_4_6',
+            latencyTier: 'standard',
+            available: true,
+        },
+        {
+            provider: 'openrouter',
+            providerModel: 'openrouter_glm_4_6',
+            latencyTier: 'standard',
+            available: true,
+        },
+    ],
+    // Qwen 3.6 Plus — OpenRouter only. The "plus" SKU isn't carried by
+    // DeepInfra (DeepInfra exposes 27B and 35B-A3B variants under
+    // separate clean names below).
     qwen3_6_plus: [
         {
             provider: 'openrouter',
@@ -1578,6 +1646,23 @@ export const textGenMultiProviderModels = {
             available: true,
         },
     ],
+    // Qwen 3.6 27B — dense (non-MoE). DeepInfra primary at $0.32/$3.20.
+    qwen3_6_27b: [
+        {
+            provider: 'deepinfra',
+            providerModel: 'deepinfra_qwen3_6_27b',
+            latencyTier: 'standard',
+            available: true,
+        },
+        {
+            provider: 'openrouter',
+            providerModel: 'openrouter_qwen3_6_27b',
+            latencyTier: 'standard',
+            available: true,
+        },
+    ],
+    // Kimi K2 Thinking — OpenRouter only. DeepInfra has K2.5/K2.6 but
+    // no specific "thinking" variant.
     kimi_k2_thinking: [
         {
             provider: 'openrouter',
@@ -1590,12 +1675,10 @@ export const textGenMultiProviderModels = {
 /** Model data keyed by clean model name. Use for billing/display lookups. */
 export const textGenModelData = {
     llama_4_scout: TextGenGroqModelData.groq_llama_4_scout,
-    llama_4_maverick: TextGenTogetherModelData.together_meta_llama4_400b,
     llama_3_3_70b: TextGenGroqModelData.groq_llama_3_3_70b,
     deepseek_v4_pro: TextGenDeepSeekModelData.deepseek_deepseek_v4_pro,
     deepseek_v4_flash: TextGenDeepSeekModelData.deepseek_deepseek_v4_flash,
     gpt_oss_120b: TextGenGroqModelData.groq_gpt_oss_120b,
-    gpt_oss_20b: TextGenGroqModelData.groq_gpt_oss_20b,
     gemini_2_5_flash: TextGenGoogleModelData.google_gemini_2_5_flash,
     gemini_2_5: TextGenGoogleModelData.google_gemini_2_5,
     gpt_4o: TextGenOpenAIModelData.openai_gpt_4o,
@@ -1603,20 +1686,21 @@ export const textGenModelData = {
     gpt_5_mini: TextGenOpenAIModelData.openai_gpt_5_mini,
     o3: TextGenOpenAIModelData.openai_o3,
     o4_mini: TextGenOpenAIModelData.openai_o4_mini,
-    gpt_41_nano: TextGenOpenAIModelData.openai_gpt_41_nano,
-    claude_3_sonnet: TextGenAnthropicModelData.anthrophic_claude_3_sonnet,
     claude_sonnet_4_6: TextGenAnthropicModelData.anthrophic_claude_3_sonnet,
     claude_opus_4_7: TextGenAnthropicModelData.anthrophic_claude_3_opus,
     claude_haiku_4_5: TextGenAnthropicModelData.anthrophic_claude_haiku_4_5,
     qwen2_72b: TextGenTogetherModelData.together_qwen2_72b,
     qwen2_vision_72b: TextGenTogetherModelData.together_qwen2_vision_72b,
     qwen3_235b: TextGenTogetherModelData.together_qwen3_235b,
+    qwen3_6_27b: TextGenDeepInfraModelData.deepinfra_qwen3_6_27b,
     kimi_k2: TextGenTogetherModelData.together_kimi_k2,
+    kimi_k2_6: TextGenDeepInfraModelData.deepinfra_kimi_k2_6,
     gemma_4_31b: TextGenTogetherModelData.together_gemma_4_31b,
     gemma_4_26b: TextGenDeepInfraModelData.deepinfra_gemma_4_26b,
-    minimax_m2_5: TextGenMiniMaxModelData.minimax_m2_5,
+    minimax_m2_5: TextGenDeepInfraModelData.deepinfra_minimax_m2_5,
     minimax_m2_7: TextGenMiniMaxModelData.minimax_m2_7,
     glm_5_1: TextGenOpenRouterModelData.openrouter_glm_5_1,
+    glm_4_6: TextGenDeepInfraModelData.deepinfra_glm_4_6,
     qwen3_6_plus: TextGenOpenRouterModelData.openrouter_qwen_36_plus,
     kimi_k2_thinking: TextGenOpenRouterModelData.openrouter_kimi_k2_thinking,
 };