npm - @qwen-code/qwen-code - Versions diffs - 0.12.5 → 0.12.6 - Mend

@qwen-code/qwen-code 0.12.5 → 0.12.6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (2) hide show

package/cli.js +73 -49
package/package.json +2 -2

package/cli.js CHANGED Viewed

@@ -133792,6 +133792,10 @@ function normalize2(model) {
   s5 = s5.replace(/-(?:\d?bit|int[48]|bf16|fp16|q[45]|quantized)$/g, "");
   return s5;
 }
+function hasExplicitOutputLimit(model) {
+  const norm = normalize2(model);
+  return OUTPUT_PATTERNS.some(([regex3]) => regex3.test(norm));
+}
 function tokenLimit(model, type = "input") {
   const norm = normalize2(model);
   const patterns = type === "output" ? OUTPUT_PATTERNS : PATTERNS;
@@ -133808,7 +133812,7 @@ var init_tokenLimits = __esm({
     "use strict";
     init_esbuild_shims();
     DEFAULT_TOKEN_LIMIT = 131072;
-    DEFAULT_OUTPUT_TOKEN_LIMIT = 16384;
+    DEFAULT_OUTPUT_TOKEN_LIMIT = 32e3;
     LIMITS = {
       "32k": 32768,
       "64k": 65536,
@@ -133932,6 +133936,7 @@ var init_tokenLimits = __esm({
       // Kimi
       [/^kimi-k2\.5/, LIMITS["32k"]]
     ];
+    __name(hasExplicitOutputLimit, "hasExplicitOutputLimit");
     __name(tokenLimit, "tokenLimit");
   }
 });
@@ -134801,18 +134806,6 @@ var init_modelsConfig = __esm({
             detail: "auto-detected from model"
           };
         }
-        if (!this._generationConfig.samplingParams?.max_tokens) {
-          const outputLimit = tokenLimit(model.id, "output");
-          if (!this._generationConfig.samplingParams) {
-            this._generationConfig.samplingParams = {};
-          }
-          this._generationConfig.samplingParams.max_tokens = outputLimit;
-          const existingSource = this.generationConfigSources["samplingParams"];
-          this.generationConfigSources["samplingParams"] = {
-            kind: "computed",
-            detail: existingSource ? `max_tokens auto-detected from model (other params from ${existingSource.kind})` : "max_tokens auto-detected from model"
-          };
-        }
         if (gc.modalities === void 0) {
           this._generationConfig.modalities = defaultModalities(model.id);
           this.generationConfigSources["modalities"] = {
@@ -142713,6 +142706,7 @@ var init_default = __esm({
     init_openai();
     init_constants2();
     init_runtimeFetchOptions();
+    init_tokenLimits();
     DefaultOpenAICompatibleProvider = class {
       static {
         __name(this, "DefaultOpenAICompatibleProvider");
@@ -142747,15 +142741,66 @@ var init_default = __esm({
       }
       buildRequest(request4, _userPromptId) {
         const extraBody = this.contentGeneratorConfig.extra_body;
+        const requestWithTokenLimits = this.applyOutputTokenLimit(request4);
         return {
-          ...request4,
-          // Preserve all original parameters including sampling params
+          ...requestWithTokenLimits,
           ...extraBody ? extraBody : {}
         };
       }
       getDefaultGenerationConfig() {
         return {};
       }
+      /**
+       * Apply output token limit to a request's max_tokens parameter.
+       *
+       * Purpose:
+       * Some APIs (e.g., OpenAI-compatible) default to a very small max_tokens value,
+       * which can cause responses to be truncated mid-output. This function ensures
+       * a reasonable default is set while respecting user configuration.
+       *
+       * Logic:
+       * 1. If user explicitly configured max_tokens:
+       *    - For known models (in OUTPUT_PATTERNS): use the user's value, but cap at
+       *      model's max output limit to avoid API errors
+       *      (input + max_output > contextWindowSize would cause 400 errors on some APIs)
+       *    - For unknown models (deployment aliases, self-hosted): respect user's
+       *      configured value entirely (backend may support larger limits)
+       * 2. If user didn't configure max_tokens:
+       *    - Use min(modelLimit, DEFAULT_OUTPUT_TOKEN_LIMIT)
+       *    - This provides a conservative default (32K) that avoids truncating output
+       *      while preserving input quota (not occupying too much context window)
+       * 3. If model has no specific limit (tokenLimit returns default):
+       *    - Still apply DEFAULT_OUTPUT_TOKEN_LIMIT as safeguard
+       *
+       * Examples:
+       * - User sets 4K, known model limit 64K → uses 4K (respects user preference)
+       * - User sets 100K, known model limit 64K → uses 64K (capped to avoid API error)
+       * - User sets 100K, unknown model → uses 100K (respects user, backend may support it)
+       * - User not set, model limit 64K → uses 32K (conservative default)
+       * - User not set, model limit 8K → uses 8K (model limit is lower)
+       *
+       * @param request - The chat completion request parameters
+       * @returns The request with max_tokens adjusted according to the logic
+       */
+      applyOutputTokenLimit(request4) {
+        const userMaxTokens = request4.max_tokens;
+        const modelLimit = tokenLimit(request4.model, "output");
+        const isKnownModel = hasExplicitOutputLimit(request4.model);
+        let effectiveMaxTokens;
+        if (userMaxTokens !== void 0 && userMaxTokens !== null) {
+          if (isKnownModel) {
+            effectiveMaxTokens = Math.min(userMaxTokens, modelLimit);
+          } else {
+            effectiveMaxTokens = userMaxTokens;
+          }
+        } else {
+          effectiveMaxTokens = Math.min(modelLimit, DEFAULT_OUTPUT_TOKEN_LIMIT);
+        }
+        return {
+          ...request4,
+          max_tokens: effectiveMaxTokens
+        };
+      }
     };
   }
 });
@@ -142802,16 +142847,13 @@ var init_dashscope = __esm({
     init_contentGenerator();
     init_constants2();
     init_runtimeFetchOptions();
-    init_tokenLimits();
-    DashScopeOpenAICompatibleProvider = class _DashScopeOpenAICompatibleProvider {
+    init_default();
+    DashScopeOpenAICompatibleProvider = class _DashScopeOpenAICompatibleProvider extends DefaultOpenAICompatibleProvider {
       static {
         __name(this, "DashScopeOpenAICompatibleProvider");
       }
-      contentGeneratorConfig;
-      cliConfig;
       constructor(contentGeneratorConfig, cliConfig) {
-        this.cliConfig = cliConfig;
-        this.contentGeneratorConfig = contentGeneratorConfig;
+        super(contentGeneratorConfig, cliConfig);
       }
       static isDashScopeProvider(contentGeneratorConfig) {
         const { authType, baseUrl } = contentGeneratorConfig;
@@ -143003,29 +143045,6 @@ var init_dashscope = __esm({
         }
         return false;
       }
-      /**
-       * Apply output token limit to a request's max_tokens parameter.
-       *
-       * Ensures that existing max_tokens parameters don't exceed the model's maximum output
-       * token limit. Only modifies max_tokens when already present in the request.
-       *
-       * @param request - The chat completion request parameters
-       * @returns The request with max_tokens adjusted to respect the model's limits (if present)
-       */
-      applyOutputTokenLimit(request4) {
-        const currentMaxTokens = request4.max_tokens;
-        if (currentMaxTokens === void 0 || currentMaxTokens === null) {
-          return request4;
-        }
-        const modelLimit = tokenLimit(request4.model, "output");
-        if (currentMaxTokens > modelLimit) {
-          return {
-            ...request4,
-            max_tokens: modelLimit
-          };
-        }
-        return request4;
-      }
       /**
        * Check if cache control should be disabled based on configuration.
        *
@@ -157264,6 +157283,7 @@ var init_anthropicContentGenerator = __esm({
     init_runtimeFetchOptions();
     init_constants2();
     init_debugLogger();
+    init_tokenLimits();
     debugLogger14 = createDebugLogger("ANTHROPIC");
     AnthropicContentGenerator = class {
       static {
@@ -157373,7 +157393,11 @@ var init_anthropicContentGenerator = __esm({
           const requestValue = requestKey ? requestConfig[requestKey] : void 0;
           return configValue !== void 0 ? configValue : requestValue;
         }, "getParam");
-        const maxTokens = getParam("max_tokens", "maxOutputTokens") ?? 1e4;
+        const userMaxTokens = getParam("max_tokens", "maxOutputTokens");
+        const modelId = this.contentGeneratorConfig.model;
+        const modelLimit = tokenLimit(modelId, "output");
+        const isKnownModel = hasExplicitOutputLimit(modelId);
+        const maxTokens = userMaxTokens !== void 0 && userMaxTokens !== null ? isKnownModel ? Math.min(userMaxTokens, modelLimit) : userMaxTokens : Math.min(modelLimit, DEFAULT_OUTPUT_TOKEN_LIMIT);
         return {
           max_tokens: maxTokens,
           temperature: getParam("temperature", "temperature") ?? 1,
@@ -157778,7 +157802,7 @@ __export(geminiContentGenerator_exports, {
   createGeminiContentGenerator: () => createGeminiContentGenerator
 });
 function createGeminiContentGenerator(config2, gcConfig) {
-  const version2 = "0.12.5";
+  const version2 = "0.12.6";
   const userAgent2 = config2.userAgent || `QwenCode/${version2} (${process.platform}; ${process.arch})`;
   const baseHeaders = {
     "User-Agent": userAgent2
@@ -390052,7 +390076,7 @@ __name(getPackageJson, "getPackageJson");
 // packages/cli/src/utils/version.ts
 async function getCliVersion() {
   const pkgJson = await getPackageJson();
-  return "0.12.5";
+  return "0.12.6";
 }
 __name(getCliVersion, "getCliVersion");
@@ -397613,7 +397637,7 @@ var formatDuration = /* @__PURE__ */ __name((milliseconds) => {
 // packages/cli/src/generated/git-commit.ts
 init_esbuild_shims();
-var GIT_COMMIT_INFO = "dbfa5b3e8";
+var GIT_COMMIT_INFO = "ac30c98a2";
 // packages/cli/src/utils/systemInfo.ts
 async function getNpmVersion() {
@@ -456290,7 +456314,7 @@ var QwenAgent = class {
   async initialize(args) {
     this.clientCapabilities = args.clientCapabilities;
     const authMethods = buildAuthMethods();
-    const version2 = "0.12.5";
+    const version2 = "0.12.6";
     return {
       protocolVersion: PROTOCOL_VERSION,
       agentInfo: {

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@qwen-code/qwen-code",
-  "version": "0.12.5",
+  "version": "0.12.6",
   "description": "Qwen Code - AI-powered coding assistant",
   "repository": {
     "type": "git",
@@ -20,7 +20,7 @@
     "locales"
   ],
   "config": {
-    "sandboxImageUri": "ghcr.io/qwenlm/qwen-code:0.12.5"
+    "sandboxImageUri": "ghcr.io/qwenlm/qwen-code:0.12.6"
   },
   "dependencies": {},
   "optionalDependencies": {