npm - claude-overnight - Versions diffs - 1.57.4 → 1.58.0 - Mend

claude-overnight 1.57.4 → 1.58.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (15) hide show

package/dist/bin/evolve.d.ts +1 -1
package/dist/bin/evolve.js +25 -2
package/dist/core/_version.d.ts +1 -1
package/dist/core/_version.js +1 -1
package/dist/prompt-evolution/evaluator-judge.js +6 -2
package/dist/prompt-evolution/evaluator.d.ts +11 -0
package/dist/prompt-evolution/evaluator.js +3 -2
package/dist/prompt-evolution/index.d.ts +6 -0
package/dist/prompt-evolution/index.js +6 -0
package/dist/prompt-evolution/transport-batch.d.ts +9 -1
package/dist/prompt-evolution/transport-batch.js +26 -7
package/dist/prompt-evolution/transport.js +15 -5
package/docs/prompt-evolution-research.md +1 -1
package/package.json +1 -1
package/plugins/claude-overnight/.claude-plugin/plugin.json +1 -1

package/dist/bin/evolve.d.ts CHANGED Viewed

@@ -8,7 +8,7 @@
  *
  * Examples:
  *   claude-overnight-evolve --prompt 10_planning/10-3_plan --eval-model claude-haiku-4-5 --generations 3
- *   claude-overnight-evolve --target mcp-browser --prompt-kind plan-supervision --eval-model kimi-k2-6
+ *   claude-overnight-evolve --target mcp-browser --prompt-kind plan-supervision --eval-model kimi-for-coding
  *
  * Requires ANTHROPIC_API_KEY (or ANTHROPIC_AUTH_TOKEN) in env. When `--target
  * mcp-browser` is used the cwd must be the MCP-browser repo root (so

package/dist/bin/evolve.js CHANGED Viewed

@@ -8,7 +8,7 @@
  *
  * Examples:
  *   claude-overnight-evolve --prompt 10_planning/10-3_plan --eval-model claude-haiku-4-5 --generations 3
- *   claude-overnight-evolve --target mcp-browser --prompt-kind plan-supervision --eval-model kimi-k2-6
+ *   claude-overnight-evolve --target mcp-browser --prompt-kind plan-supervision --eval-model kimi-for-coding
  *
  * Requires ANTHROPIC_API_KEY (or ANTHROPIC_AUTH_TOKEN) in env. When `--target
  * mcp-browser` is used the cwd must be the MCP-browser repo root (so
@@ -28,7 +28,10 @@ Options:
   --prompt <path>         Prompt file path (claude-overnight)
   --prompt-kind <kind>    MCP-browser prompt kind: planning | review | evolution |
                           goal-refinement | plan-supervision | simple-supervision | stuck-analysis
-  --eval-model <model>    Fast model for evaluation (default: claude-haiku-4-5)
+  --eval-model <model>    Fast model for evaluation (default: claude-haiku-4-5).
+                          For Kimi endpoints use "kimi-for-coding" (stable alias,
+                          auto-upgrades as flagship revs). For Moonshot platform
+                          API use "kimi-k2.6" (dot, not dash).
   --eval-models <list>    Comma-separated list to run cross-model (overrides --eval-model)
   --mutate-model <model>  Smarter model for mutation (defaults to eval-model)
   --generations <n>       Number of evolution generations (default: 10)
@@ -37,6 +40,11 @@ Options:
   --reps <n>              Repetitions per (variant, case, model) for noise floor (default: 1)
   --concurrency <n>       Max in-flight eval calls (default: 8; bump for slow endpoints)
   --batch                 Use provider batch API (50% cheaper, slower wall-clock)
+  --batch-base-url <url>  Override base URL for batch only (e.g. api.moonshot.ai/v1
+                          when online uses api.kimi.com/coding)
+  --batch-auth-token <t>  Override auth token for batch only
+  --batch-model <model>   Override model for batch only (e.g. "kimi-k2.6" for
+                          Moonshot platform when online uses "kimi-for-coding")
   --adaptive-cap <n>      Adaptive sampling: extend reps up to N when σ > threshold (default: off)
   --adaptive-threshold <x> σ threshold that triggers an extra rep (default: 0.1)
   --judge                 Use llm-judge for content scoring (costs extra API calls)
@@ -138,6 +146,18 @@ function parseArgs() {
             case "--batch":
                 opts.batch = true;
                 break;
+            case "--batch-base-url":
+                opts.batchBaseUrl = v;
+                i++;
+                break;
+            case "--batch-auth-token":
+                opts.batchAuthToken = v;
+                i++;
+                break;
+            case "--batch-model":
+                opts.batchModel = v;
+                i++;
+                break;
             case "--adaptive-cap":
                 opts.adaptiveCap = parseInt(v, 10);
                 i++;
@@ -328,6 +348,9 @@ async function evolveOne(opts) {
         repetitions: opts.reps > 1 ? opts.reps : undefined,
         concurrency: opts.concurrency,
         batch: opts.batch || undefined,
+        batchBaseUrl: opts.batchBaseUrl,
+        batchAuthToken: opts.batchAuthToken,
+        batchModel: opts.batchModel,
         adaptiveReps: opts.adaptiveCap
             ? { cap: opts.adaptiveCap, threshold: opts.adaptiveThreshold }
             : undefined,

package/dist/core/_version.d.ts CHANGED Viewed

	@@ -1 +1 @@
1	- export declare const VERSION = "1.57.4";
1	+ export declare const VERSION = "1.58.0";

package/dist/core/_version.js CHANGED Viewed

@@ -1,2 +1,2 @@
 // Auto-generated by build — do not edit manually.
-export const VERSION = "1.57.4";
+export const VERSION = "1.58.0";

package/dist/prompt-evolution/evaluator-judge.js CHANGED Viewed

@@ -82,8 +82,12 @@ async function runJudgeBatch(cells, judge, opts) {
         : null;
     const transport = opts.batchCallModel ?? batchCallModel;
     const results = await transport(batchJobs, {
-        baseUrl: judge.baseUrl ?? opts.baseUrl,
-        authToken: judge.authToken ?? opts.authToken,
+        // Judge batch follows the same override hierarchy as eval batch: if a
+        // dedicated batch endpoint is set on EvalOpts, use it; else fall back
+        // to the judge's own endpoint or the main one.
+        baseUrl: opts.batchBaseUrl ?? judge.baseUrl ?? opts.baseUrl,
+        authToken: opts.batchAuthToken ?? judge.authToken ?? opts.authToken,
+        modelOverride: opts.batchModel,
         maxTokens: judge.maxTokens ?? 2048,
         resumeBatchId: existing?.batchId,
         onSubmitted: (batchId, p) => {

package/dist/prompt-evolution/evaluator.d.ts CHANGED Viewed

@@ -53,6 +53,17 @@ export interface EvalOpts {
     callModel?: CallModel;
     /** Use provider batch API instead of online calls (50% cheaper, slower wall-clock). */
     batch?: boolean;
+    /**
+     * Override base URL for batch submissions only — lets batch hit a
+     * different endpoint than online. Key use-case: Kimi users whose online
+     * traffic runs through api.kimi.com/coding (which has no batch) but
+     * whose batch traffic should go to api.moonshot.ai/v1.
+     */
+    batchBaseUrl?: string;
+    /** Override auth token for batch when batchBaseUrl needs a different key. */
+    batchAuthToken?: string;
+    /** Override model for batch submissions (e.g., kimi-k2.6 when online uses kimi-for-coding). */
+    batchModel?: string;
     /** Run id — required when batch=true so state is crash-resumable. */
     runId?: string;
     /** Current generation number — used to key batch state. */

package/dist/prompt-evolution/evaluator.js CHANGED Viewed

@@ -268,8 +268,9 @@ async function runBatchPath(jobs, opts, rawByKey) {
         : null;
     const transport = opts.batchCallModel ?? batchCallModel;
     const results = await transport(batchJobs, {
-        baseUrl: opts.baseUrl,
-        authToken: opts.authToken,
+        baseUrl: opts.batchBaseUrl ?? opts.baseUrl,
+        authToken: opts.batchAuthToken ?? opts.authToken,
+        modelOverride: opts.batchModel,
         maxTokens: opts.maxTokens,
         resumeBatchId: existing?.batchId,
         onSubmitted: (batchId, p) => {

package/dist/prompt-evolution/index.d.ts CHANGED Viewed

@@ -56,6 +56,12 @@ export interface EvolveOpts {
     concurrency?: number;
     /** Use provider batch API instead of online calls. 50% cheaper, slower wall-clock. */
     batch?: boolean;
+    /** Override base URL for batch submissions only. */
+    batchBaseUrl?: string;
+    /** Override auth token for batch submissions only. */
+    batchAuthToken?: string;
+    /** Override model for batch submissions (e.g. kimi-k2.6 when online uses kimi-for-coding). */
+    batchModel?: string;
     /** Adaptive sampling cap (opt-in). Keeps adding reps to noisy cells up to this count. */
     adaptiveReps?: {
         cap: number;

package/dist/prompt-evolution/index.js CHANGED Viewed

@@ -74,6 +74,9 @@ export async function evolvePrompt(opts) {
             repetitions: opts.repetitions,
             judge: opts.judge,
             batch: opts.batch,
+            batchBaseUrl: opts.batchBaseUrl,
+            batchAuthToken: opts.batchAuthToken,
+            batchModel: opts.batchModel,
             adaptiveReps: opts.adaptiveReps,
             runId,
             generation: gen,
@@ -220,6 +223,9 @@ export async function evolvePrompt(opts) {
             concurrency: opts.concurrency ?? 8,
             repetitions: opts.repetitions,
             batch: opts.batch,
+            batchBaseUrl: opts.batchBaseUrl,
+            batchAuthToken: opts.batchAuthToken,
+            batchModel: opts.batchModel,
             adaptiveReps: opts.adaptiveReps,
             runId,
             generation: generations + 1,

package/dist/prompt-evolution/transport-batch.d.ts CHANGED Viewed

@@ -12,7 +12,7 @@
  *   - openrouter → NO batch support; throws (caller must fall back to online)
  *
  * Custom IDs route results back to the right (variant, case, model, rep)
- * cell. The evaluator builds ids like `v0:h_abc:kimi-k2-6:r0`.
+ * cell. The evaluator builds ids like `v0:h_abc:kimi-for-coding:r0`.
  *
  * Poll state is persisted via `persistBatchState` so a crashed or
  * restarted run can resume without resubmitting.
@@ -27,6 +27,14 @@ export interface BatchJob {
 export interface BatchOpts {
     baseUrl?: string;
     authToken?: string;
+    /**
+     * Override model for the batch submission. Moonshot's batch API only
+     * accepts kimi-k2.5 or kimi-k2.6 — NOT the kimi-for-coding alias that the
+     * coding endpoint uses. When batch is enabled against a Kimi stack, set
+     * this so online eval keeps using kimi-for-coding while batch uses the
+     * concrete version.
+     */
+    modelOverride?: string;
     maxTokens?: number;
     /** Poll interval starts here and doubles to `pollMaxMs`. Defaults 30s → 5min. */
     pollStartMs?: number;

package/dist/prompt-evolution/transport-batch.js CHANGED Viewed

@@ -12,19 +12,30 @@
  *   - openrouter → NO batch support; throws (caller must fall back to online)
  *
  * Custom IDs route results back to the right (variant, case, model, rep)
- * cell. The evaluator builds ids like `v0:h_abc:kimi-k2-6:r0`.
+ * cell. The evaluator builds ids like `v0:h_abc:kimi-for-coding:r0`.
  *
  * Poll state is persisted via `persistBatchState` so a crashed or
  * restarted run can resume without resubmitting.
  */
+import { VERSION } from "../core/_version.js";
+const USER_AGENT = `claude-overnight-evolve/${VERSION}`;
 export function detectBatchProvider(baseUrl) {
     const url = (baseUrl ?? "https://api.anthropic.com").toLowerCase();
     if (/(^|\/\/)(api\.)?anthropic\.com/.test(url))
         return "anthropic";
+    // Providers with no batch support — caller auto-falls back to online.
+    // - OpenRouter: no batch API at all.
+    // - api.kimi.com/coding: Moonshot's coding-specific endpoint; synchronous
+    //   only (30 concurrent, 300-1200 req/5hr) with no /v1/files upload flow.
+    //   Moonshot's generic platform.moonshot.ai might have batch; this one
+    //   doesn't.
     if (/openrouter/.test(url))
         return "unsupported";
-    // Everything else that speaks /v1/chat/completions — OpenAI, Kimi, Moonshot,
-    // DeepSeek — exposes an OpenAI-compatible batch endpoint.
+    if (/(api\.)?kimi\.com\/coding/.test(url))
+        return "unsupported";
+    // Everything else that speaks /v1/chat/completions — OpenAI, DeepSeek,
+    // DashScope in OpenAI-compat mode — exposes an OpenAI-compatible batch
+    // endpoint we can ride.
     return "openai-compatible";
 }
 export async function batchCallModel(jobs, opts) {
@@ -32,7 +43,11 @@ export async function batchCallModel(jobs, opts) {
         return new Map();
     const provider = detectBatchProvider(opts.baseUrl);
     if (provider === "unsupported") {
-        throw new Error(`Batch API not supported for baseUrl=${opts.baseUrl}; use online transport`);
+        throw new Error(`Batch API not supported for baseUrl=${opts.baseUrl}. ` +
+            `Options: (1) omit --batch and use online transport, or (2) point ` +
+            `the batch call at a provider with batch support (e.g. set --batch-base-url ` +
+            `https://api.moonshot.ai/v1 --batch-model kimi-k2.6 for Kimi users whose ` +
+            `online endpoint is api.kimi.com/coding).`);
     }
     if (provider === "anthropic")
         return runAnthropicBatch(jobs, opts);
@@ -45,6 +60,7 @@ async function runAnthropicBatch(jobs, opts) {
     const headers = {
         "Content-Type": "application/json",
         "Authorization": `Bearer ${authToken}`,
+        "User-Agent": USER_AGENT,
         "anthropic-version": "2023-06-01",
         "anthropic-beta": "message-batches-2024-09-24",
     };
@@ -53,7 +69,7 @@ async function runAnthropicBatch(jobs, opts) {
         const body = JSON.stringify({
             requests: jobs.map((j) => {
                 const params = {
-                    model: j.model,
+                    model: opts.modelOverride ?? j.model,
                     max_tokens: opts.maxTokens ?? 4096,
                     messages: [{ role: "user", content: j.userText }],
                 };
@@ -115,7 +131,10 @@ async function runAnthropicBatch(jobs, opts) {
 async function runOpenAIBatch(jobs, opts) {
     const baseUrl = (opts.baseUrl ?? "https://api.openai.com").replace(/\/$/, "");
     const authToken = opts.authToken ?? process.env.ANTHROPIC_AUTH_TOKEN ?? process.env.ANTHROPIC_API_KEY ?? "";
-    const authHeaders = { "Authorization": `Bearer ${authToken}` };
+    const authHeaders = {
+        "Authorization": `Bearer ${authToken}`,
+        "User-Agent": USER_AGENT,
+    };
     let batchId = opts.resumeBatchId;
     let outputFileId;
     if (!batchId) {
@@ -129,7 +148,7 @@ async function runOpenAIBatch(jobs, opts) {
                 custom_id: j.customId,
                 method: "POST",
                 url: "/v1/chat/completions",
-                body: { model: j.model, max_tokens: opts.maxTokens ?? 4096, messages },
+                body: { model: opts.modelOverride ?? j.model, max_tokens: opts.maxTokens ?? 4096, max_completion_tokens: opts.maxTokens ?? 4096, messages },
             });
         }).join("\n");
         const form = new FormData();

package/dist/prompt-evolution/transport.js CHANGED Viewed

@@ -8,17 +8,22 @@
  * Supports both Anthropic-native and OpenAI-compatible endpoints so we can
  * run the same eval against Haiku, Kimi, and OpenRouter without a rewrite.
  */
+import { VERSION } from "../core/_version.js";
+const USER_AGENT = `claude-overnight-evolve/${VERSION}`;
 export async function defaultCallModel(userText, systemText, opts) {
     const baseUrl = (opts.baseUrl ?? process.env.ANTHROPIC_BASE_URL ?? "https://api.anthropic.com").replace(/\/$/, "");
     const authToken = opts.authToken ?? process.env.ANTHROPIC_AUTH_TOKEN ?? process.env.ANTHROPIC_API_KEY ?? "";
     const isAnthropic = /^https?:\/\/(api\.)?anthropic\.com/i.test(baseUrl);
-    const isKimi = /kimi\.com/i.test(baseUrl);
+    // Identify ourselves honestly. Kimi's coding-endpoint docs explicitly say
+    // "Tampering with the client identifier (User-Agent) is considered a
+    // violation." The previous "Kilo-Code/1.0" was impersonating a third-party
+    // tool; we now send our real binary name + version.
     const headers = {
         "Content-Type": "application/json",
         "Authorization": `Bearer ${authToken}`,
+        "User-Agent": USER_AGENT,
     };
-    if (isKimi)
-        headers["User-Agent"] = "Kilo-Code/1.0";
+    const maxOut = opts.maxTokens ?? 4096;
     let endpoint;
     let body;
     if (isAnthropic) {
@@ -26,7 +31,7 @@ export async function defaultCallModel(userText, systemText, opts) {
         headers["anthropic-version"] = "2023-06-01";
         const payload = {
             model: opts.model,
-            max_tokens: opts.maxTokens ?? 4096,
+            max_tokens: maxOut, // Anthropic uses max_tokens, not max_completion_tokens.
             messages: [{ role: "user", content: userText }],
         };
         if (systemText)
@@ -39,9 +44,14 @@ export async function defaultCallModel(userText, systemText, opts) {
         if (systemText)
             messages.push({ role: "system", content: systemText });
         messages.push({ role: "user", content: userText });
+        // Platform.moonshot.ai marks max_tokens deprecated in favor of
+        // max_completion_tokens. Kimi's coding endpoint still accepts max_tokens.
+        // Sending both is safe — OpenAI, Moonshot, DeepSeek, and Kimi all tolerate
+        // the extra field, and we're future-proof against the deprecation.
         body = JSON.stringify({
             model: opts.model,
-            max_tokens: opts.maxTokens ?? 4096,
+            max_tokens: maxOut,
+            max_completion_tokens: maxOut,
             messages,
         });
     }

package/docs/prompt-evolution-research.md CHANGED Viewed

@@ -183,7 +183,7 @@ Your laptop can be off the whole time.
 npm run evolve -- --prompt 10_planning/10-3_plan --eval-model claude-haiku-4-5 --generations 10
 # Evolve an MCP-browser supervision prompt
-npm run evolve -- --target mcp-browser --prompt-kind plan-supervision --eval-model kimi-k2-6 --generations 10
+npm run evolve -- --target mcp-browser --prompt-kind plan-supervision --eval-model kimi-for-coding --generations 10
 ```
 ### Via Platform API (runs on server)

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "claude-overnight",
-  "version": "1.57.4",
+  "version": "1.58.0",
   "description": "Overnight parallel coding agents in git worktrees, with a self-curating skill memory that improves while the run is going. Mix Claude Opus as planner, Kimi 2.6 or Cursor composer-2 as cheap fast worker, Gemini or Qwen for bulk implementation. Multi-wave autonomous loop that plans, executes, reviews, and steers itself until the objective is met. Crash-safe resume, rate-limit aware, usage cap preserves headroom for your interactive Claude Code.",
   "type": "module",
   "bin": {

package/plugins/claude-overnight/.claude-plugin/plugin.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "claude-overnight",
-  "version": "1.57.4",
+  "version": "1.58.0",
   "description": "Claude Code skill for understanding, installing, and inspecting claude-overnight runs: overnight parallel coding agents in git worktrees with a self-curating skill memory, multi-wave steering, three-layer review, and crash-safe resume. Mix Opus planner with Kimi 2.6, Cursor composer-2, Gemini, Qwen, or any Anthropic-compatible worker.",
   "author": {
     "name": "Francesco Fornace"