npm - @gonzih/cc-agent - Versions diffs - 0.6.0 → 0.7.1 - Mend

@gonzih/cc-agent 0.6.0 → 0.7.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (25) hide show

package/dist/docker.js ADDED Viewed

@@ -0,0 +1,165 @@
+import { execFile, spawn } from "child_process";
+import { EventEmitter } from "events";
+import { promisify } from "util";
+import { logger } from "./logger.js";
+const execFileAsync = promisify(execFile);
+export async function isDockerAvailable() {
+    try {
+        await execFileAsync("docker", ["info"], { timeout: 5000 });
+        return true;
+    }
+    catch {
+        return false;
+    }
+}
+export async function listCcAgentContainers() {
+    try {
+        const { stdout } = await execFileAsync("docker", [
+            "ps",
+            "--filter", "name=cc-agent-",
+            "--format", "{{.ID}}\t{{.Names}}\t{{.Status}}\t{{.RunningFor}}",
+        ]);
+        return stdout
+            .trim()
+            .split("\n")
+            .filter(Boolean)
+            .map((line) => {
+            const [id, name, status, uptime] = line.split("\t");
+            return { id: id ?? "", name: name ?? "", status: status ?? "", uptime: uptime ?? "" };
+        });
+    }
+    catch {
+        return [];
+    }
+}
+/**
+ * Run a cc-agent job inside a Docker container.
+ *
+ * Emits:
+ *   "text"  (line: string)      — each line of container output
+ *   "exit"  (code: number)      — container exit code
+ *   "error" (err: unknown)      — fatal error before container starts
+ */
+export function runDockerAgent(opts) {
+    const emitter = new EventEmitter();
+    emitter.pid = undefined;
+    emitter.stdin = null;
+    let containerStarted = false;
+    let killed = false;
+    emitter.kill = () => {
+        killed = true;
+        if (containerStarted) {
+            execFile("docker", ["rm", "-f", opts.containerName], () => { });
+        }
+    };
+    void (async () => {
+        try {
+            // Build docker env args
+            const envArgs = [];
+            if (opts.anthropicToken) {
+                envArgs.push("-e", `ANTHROPIC_AUTH_TOKEN=${opts.anthropicToken}`);
+                envArgs.push("-e", `ANTHROPIC_API_KEY=${opts.anthropicToken}`);
+            }
+            if (opts.githubToken) {
+                envArgs.push("-e", `GITHUB_TOKEN=${opts.githubToken}`);
+                envArgs.push("-e", `GH_TOKEN=${opts.githubToken}`);
+            }
+            if (opts.namespace) {
+                envArgs.push("-e", `CC_AGENT_NAMESPACE=${opts.namespace}`);
+            }
+            envArgs.push("-e", "HOME=/root");
+            envArgs.push("-e", "GIT_CONFIG_GLOBAL=/dev/null");
+            // Pass task and repo via env to avoid shell quoting issues
+            envArgs.push("-e", `CC_DOCKER_TASK=${opts.task}`);
+            envArgs.push("-e", `CC_DOCKER_REPO=${opts.repoUrl}`);
+            const containerScript = [
+                "set -e",
+                // Install system deps (node:22 is Debian-based)
+                "apt-get update -qq >/dev/null 2>&1 && apt-get install -y -qq git curl >/dev/null 2>&1",
+                // Install gh CLI via direct binary download (amd64)
+                "GH_VERSION=2.65.0",
+                "ARCH=$(dpkg --print-architecture 2>/dev/null || echo amd64)",
+                "curl -fsSL \"https://github.com/cli/cli/releases/download/v${GH_VERSION}/gh_${GH_VERSION}_linux_${ARCH}.tar.gz\" -o /tmp/gh.tar.gz",
+                "tar -xzf /tmp/gh.tar.gz -C /tmp",
+                "mv /tmp/gh_${GH_VERSION}_linux_${ARCH}/bin/gh /usr/local/bin/",
+                // Install claude-code
+                "npm install -g @anthropic-ai/claude-code >/dev/null 2>&1",
+                // Configure git
+                "git config --global user.email 'cc-agent@localhost'",
+                "git config --global user.name 'cc-agent'",
+                // Configure HTTPS credential helper for GitHub token
+                "git config --global credential.helper '!f() { echo username=x-access-token; echo password=$GITHUB_TOKEN; }; f'",
+                // Clone repo
+                "git clone --depth 1 \"$CC_DOCKER_REPO\" /workspace",
+                "cd /workspace",
+                // Run Claude (dangerously-skip-permissions needed for non-interactive use)
+                "exec claude --dangerously-skip-permissions --print --output-format stream-json -p \"$CC_DOCKER_TASK\"",
+            ].join(" && ");
+            if (killed)
+                return;
+            // Start container in detached mode
+            const { stdout: dockerIdRaw } = await execFileAsync("docker", [
+                "run", "-d",
+                "--name", opts.containerName,
+                ...envArgs,
+                "node:22",
+                "/bin/sh", "-c", containerScript,
+            ]);
+            const dockerId = dockerIdRaw.trim();
+            containerStarted = true;
+            logger.info("docker:container-started", { name: opts.containerName, id: dockerId });
+            if (killed) {
+                execFile("docker", ["rm", "-f", opts.containerName], () => { });
+                emitter.emit("exit", 1);
+                return;
+            }
+            // Stream logs from container
+            const logProc = spawn("docker", ["logs", "-f", opts.containerName], {
+                stdio: ["ignore", "pipe", "pipe"],
+            });
+            let buf = "";
+            const onData = (data) => {
+                buf += data.toString();
+                const lines = buf.split("\n");
+                buf = lines.pop() ?? "";
+                for (const line of lines) {
+                    emitter.emit("text", line);
+                }
+            };
+            logProc.stdout?.on("data", onData);
+            logProc.stderr?.on("data", onData);
+            // Wait for container to finish
+            let exitCode = 0;
+            try {
+                const { stdout: waitOut } = await execFileAsync("docker", ["wait", opts.containerName]);
+                exitCode = parseInt(waitOut.trim(), 10);
+                if (isNaN(exitCode))
+                    exitCode = 0;
+            }
+            catch {
+                exitCode = 1;
+            }
+            // Drain remaining buffered output
+            if (buf.trim())
+                emitter.emit("text", buf);
+            logProc.kill();
+            // Cleanup container
+            containerStarted = false;
+            try {
+                await execFileAsync("docker", ["rm", "-f", opts.containerName]);
+            }
+            catch {
+                // Best-effort cleanup
+            }
+            logger.info("docker:container-done", { name: opts.containerName, exitCode });
+            emitter.emit("exit", exitCode);
+        }
+        catch (err) {
+            logger.error("docker:error", { name: opts.containerName, error: String(err) });
+            emitter.emit("error", err);
+            emitter.emit("exit", 1);
+        }
+    })();
+    return emitter;
+}
+//# sourceMappingURL=docker.js.map

package/dist/docker.js.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"docker.js","sourceRoot":"","sources":["../src/docker.ts"],"names":[],"mappings":"AAAA,OAAO,EAAE,QAAQ,EAAE,KAAK,EAAE,MAAM,eAAe,CAAC;AAChD,OAAO,EAAE,YAAY,EAAE,MAAM,QAAQ,CAAC;AACtC,OAAO,EAAE,SAAS,EAAE,MAAM,MAAM,CAAC;AACjC,OAAO,EAAE,MAAM,EAAE,MAAM,aAAa,CAAC;AAErC,MAAM,aAAa,GAAG,SAAS,CAAC,QAAQ,CAAC,CAAC;AAE1C,MAAM,CAAC,KAAK,UAAU,iBAAiB;IACrC,IAAI,CAAC;QACH,MAAM,aAAa,CAAC,QAAQ,EAAE,CAAC,MAAM,CAAC,EAAE,EAAE,OAAO,EAAE,IAAI,EAAyC,CAAC,CAAC;QAClG,OAAO,IAAI,CAAC;IACd,CAAC;IAAC,MAAM,CAAC;QACP,OAAO,KAAK,CAAC;IACf,CAAC;AACH,CAAC;AASD,MAAM,CAAC,KAAK,UAAU,qBAAqB;IACzC,IAAI,CAAC;QACH,MAAM,EAAE,MAAM,EAAE,GAAG,MAAM,aAAa,CAAC,QAAQ,EAAE;YAC/C,IAAI;YACJ,UAAU,EAAE,gBAAgB;YAC5B,UAAU,EAAE,mDAAmD;SAChE,CAAC,CAAC;QACH,OAAO,MAAM;aACV,IAAI,EAAE;aACN,KAAK,CAAC,IAAI,CAAC;aACX,MAAM,CAAC,OAAO,CAAC;aACf,GAAG,CAAC,CAAC,IAAI,EAAE,EAAE;YACZ,MAAM,CAAC,EAAE,EAAE,IAAI,EAAE,MAAM,EAAE,MAAM,CAAC,GAAG,IAAI,CAAC,KAAK,CAAC,IAAI,CAAC,CAAC;YACpD,OAAO,EAAE,EAAE,EAAE,EAAE,IAAI,EAAE,EAAE,IAAI,EAAE,IAAI,IAAI,EAAE,EAAE,MAAM,EAAE,MAAM,IAAI,EAAE,EAAE,MAAM,EAAE,MAAM,IAAI,EAAE,EAAE,CAAC;QACxF,CAAC,CAAC,CAAC;IACP,CAAC;IAAC,MAAM,CAAC;QACP,OAAO,EAAE,CAAC;IACZ,CAAC;AACH,CAAC;AAQD;;;;;;;GAOG;AACH,MAAM,UAAU,cAAc,CAAC,IAO9B;IACC,MAAM,OAAO,GAAG,IAAI,YAAY,EAAwB,CAAC;IACzD,OAAO,CAAC,GAAG,GAAG,SAAS,CAAC;IACxB,OAAO,CAAC,KAAK,GAAG,IAAI,CAAC;IAErB,IAAI,gBAAgB,GAAG,KAAK,CAAC;IAC7B,IAAI,MAAM,GAAG,KAAK,CAAC;IAEnB,OAAO,CAAC,IAAI,GAAG,GAAG,EAAE;QAClB,MAAM,GAAG,IAAI,CAAC;QACd,IAAI,gBAAgB,EAAE,CAAC;YACrB,QAAQ,CAAC,QAAQ,EAAE,CAAC,IAAI,EAAE,IAAI,EAAE,IAAI,CAAC,aAAa,CAAC,EAAE,GAAG,EAAE,GAAE,CAAC,CAAC,CAAC;QACjE,CAAC;IACH,CAAC,CAAC;IAEF,KAAK,CAAC,KAAK,IAAI,EAAE;QACf,IAAI,CAAC;YACH,wBAAwB;YACxB,MAAM,OAAO,GAAa,EAAE,CAAC;YAC7B,IAAI,IAAI,CAAC,cAAc,EAAE,CAAC;gBACxB,OAAO,CAAC,IAAI,CAAC,IAAI,EAAE,wBAAwB,IAAI,CAAC,cAAc,EAAE,CAAC,CAAC;gBAClE,OAAO,CAAC,IAAI,CAAC,IAAI,EAAE,qBAAqB,IAAI,CAAC,cAAc,EAAE,CAAC,CAAC;YACjE,CAAC;YACD,IAAI,IAAI,CAAC,WAAW,EAAE,CAAC;gBACrB,OAAO,CAAC,IAAI,CAAC,IAAI,EAAE,gBAAgB,IAAI,CAAC,WAAW,EAAE,CAAC,CAAC;gBACvD,OAAO,CAAC,IAAI,CAAC,IAAI,EAAE,YAAY,IAAI,CAAC,WAAW,EAAE,CAAC,CAAC;YACrD,CAAC;YACD,IAAI,IAAI,CAAC,SAAS,EAAE,CAAC;gBACnB,OAAO,CAAC,IAAI,CAAC,IAAI,EAAE,sBAAsB,IAAI,CAAC,SAAS,EAAE,CAAC,CAAC;YAC7D,CAAC;YACD,OAAO,CAAC,IAAI,CAAC,IAAI,EAAE,YAAY,CAAC,CAAC;YACjC,OAAO,CAAC,IAAI,CAAC,IAAI,EAAE,6BAA6B,CAAC,CAAC;YAClD,2DAA2D;YAC3D,OAAO,CAAC,IAAI,CAAC,IAAI,EAAE,kBAAkB,IAAI,CAAC,IAAI,EAAE,CAAC,CAAC;YAClD,OAAO,CAAC,IAAI,CAAC,IAAI,EAAE,kBAAkB,IAAI,CAAC,OAAO,EAAE,CAAC,CAAC;YAErD,MAAM,eAAe,GAAG;gBACtB,QAAQ;gBACR,gDAAgD;gBAChD,uFAAuF;gBACvF,oDAAoD;gBACpD,mBAAmB;gBACnB,6DAA6D;gBAC7D,oIAAoI;gBACpI,iCAAiC;gBACjC,+DAA+D;gBAC/D,sBAAsB;gBACtB,0DAA0D;gBAC1D,gBAAgB;gBAChB,qDAAqD;gBACrD,0CAA0C;gBAC1C,qDAAqD;gBACrD,gHAAgH;gBAChH,aAAa;gBACb,oDAAoD;gBACpD,eAAe;gBACf,2EAA2E;gBAC3E,uGAAuG;aACxG,CAAC,IAAI,CAAC,MAAM,CAAC,CAAC;YAEf,IAAI,MAAM;gBAAE,OAAO;YAEnB,mCAAmC;YACnC,MAAM,EAAE,MAAM,EAAE,WAAW,EAAE,GAAG,MAAM,aAAa,CAAC,QAAQ,EAAE;gBAC5D,KAAK,EAAE,IAAI;gBACX,QAAQ,EAAE,IAAI,CAAC,aAAa;gBAC5B,GAAG,OAAO;gBACV,SAAS;gBACT,SAAS,EAAE,IAAI,EAAE,eAAe;aACjC,CAAC,CAAC;YACH,MAAM,QAAQ,GAAG,WAAW,CAAC,IAAI,EAAE,CAAC;YACpC,gBAAgB,GAAG,IAAI,CAAC;YACxB,MAAM,CAAC,IAAI,CAAC,0BAA0B,EAAE,EAAE,IAAI,EAAE,IAAI,CAAC,aAAa,EAAE,EAAE,EAAE,QAAQ,EAAE,CAAC,CAAC;YAEpF,IAAI,MAAM,EAAE,CAAC;gBACX,QAAQ,CAAC,QAAQ,EAAE,CAAC,IAAI,EAAE,IAAI,EAAE,IAAI,CAAC,aAAa,CAAC,EAAE,GAAG,EAAE,GAAE,CAAC,CAAC,CAAC;gBAC/D,OAAO,CAAC,IAAI,CAAC,MAAM,EAAE,CAAC,CAAC,CAAC;gBACxB,OAAO;YACT,CAAC;YAED,6BAA6B;YAC7B,MAAM,OAAO,GAAG,KAAK,CAAC,QAAQ,EAAE,CAAC,MAAM,EAAE,IAAI,EAAE,IAAI,CAAC,aAAa,CAAC,EAAE;gBAClE,KAAK,EAAE,CAAC,QAAQ,EAAE,MAAM,EAAE,MAAM,CAAC;aAClC,CAAC,CAAC;YAEH,IAAI,GAAG,GAAG,EAAE,CAAC;YACb,MAAM,MAAM,GAAG,CAAC,IAAY,EAAQ,EAAE;gBACpC,GAAG,IAAI,IAAI,CAAC,QAAQ,EAAE,CAAC;gBACvB,MAAM,KAAK,GAAG,GAAG,CAAC,KAAK,CAAC,IAAI,CAAC,CAAC;gBAC9B,GAAG,GAAG,KAAK,CAAC,GAAG,EAAE,IAAI,EAAE,CAAC;gBACxB,KAAK,MAAM,IAAI,IAAI,KAAK,EAAE,CAAC;oBACzB,OAAO,CAAC,IAAI,CAAC,MAAM,EAAE,IAAI,CAAC,CAAC;gBAC7B,CAAC;YACH,CAAC,CAAC;YACF,OAAO,CAAC,MAAM,EAAE,EAAE,CAAC,MAAM,EAAE,MAAM,CAAC,CAAC;YACnC,OAAO,CAAC,MAAM,EAAE,EAAE,CAAC,MAAM,EAAE,MAAM,CAAC,CAAC;YAEnC,+BAA+B;YAC/B,IAAI,QAAQ,GAAG,CAAC,CAAC;YACjB,IAAI,CAAC;gBACH,MAAM,EAAE,MAAM,EAAE,OAAO,EAAE,GAAG,MAAM,aAAa,CAAC,QAAQ,EAAE,CAAC,MAAM,EAAE,IAAI,CAAC,aAAa,CAAC,CAAC,CAAC;gBACxF,QAAQ,GAAG,QAAQ,CAAC,OAAO,CAAC,IAAI,EAAE,EAAE,EAAE,CAAC,CAAC;gBACxC,IAAI,KAAK,CAAC,QAAQ,CAAC;oBAAE,QAAQ,GAAG,CAAC,CAAC;YACpC,CAAC;YAAC,MAAM,CAAC;gBACP,QAAQ,GAAG,CAAC,CAAC;YACf,CAAC;YAED,kCAAkC;YAClC,IAAI,GAAG,CAAC,IAAI,EAAE;gBAAE,OAAO,CAAC,IAAI,CAAC,MAAM,EAAE,GAAG,CAAC,CAAC;YAC1C,OAAO,CAAC,IAAI,EAAE,CAAC;YAEf,oBAAoB;YACpB,gBAAgB,GAAG,KAAK,CAAC;YACzB,IAAI,CAAC;gBACH,MAAM,aAAa,CAAC,QAAQ,EAAE,CAAC,IAAI,EAAE,IAAI,EAAE,IAAI,CAAC,aAAa,CAAC,CAAC,CAAC;YAClE,CAAC;YAAC,MAAM,CAAC;gBACP,sBAAsB;YACxB,CAAC;YAED,MAAM,CAAC,IAAI,CAAC,uBAAuB,EAAE,EAAE,IAAI,EAAE,IAAI,CAAC,aAAa,EAAE,QAAQ,EAAE,CAAC,CAAC;YAC7E,OAAO,CAAC,IAAI,CAAC,MAAM,EAAE,QAAQ,CAAC,CAAC;QACjC,CAAC;QAAC,OAAO,GAAG,EAAE,CAAC;YACb,MAAM,CAAC,KAAK,CAAC,cAAc,EAAE,EAAE,IAAI,EAAE,IAAI,CAAC,aAAa,EAAE,KAAK,EAAE,MAAM,CAAC,GAAG,CAAC,EAAE,CAAC,CAAC;YAC/E,OAAO,CAAC,IAAI,CAAC,OAAO,EAAE,GAAG,CAAC,CAAC;YAC3B,OAAO,CAAC,IAAI,CAAC,MAAM,EAAE,CAAC,CAAC,CAAC;QAC1B,CAAC;IACH,CAAC,CAAC,EAAE,CAAC;IAEL,OAAO,OAAO,CAAC;AACjB,CAAC"}

package/dist/evaluator.d.ts ADDED Viewed

@@ -0,0 +1,14 @@
+/**
+ * Evaluator job template — generates task text for evaluator jobs in evolutionary plans.
+ */
+export type BranchEval = "test_pass_rate" | "pr_merged" | "manual";
+export type BranchSelect = "best_score" | "score_prop" | "latest";
+export interface EvaluatorOptions {
+    variantJobIds: string[];
+    variantBranches: (string | undefined)[];
+    branchEval: BranchEval;
+    branchSelect: BranchSelect;
+    stepId: string;
+}
+export declare function buildEvaluatorTask(opts: EvaluatorOptions): string;
+//# sourceMappingURL=evaluator.d.ts.map

package/dist/evaluator.d.ts.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"evaluator.d.ts","sourceRoot":"","sources":["../src/evaluator.ts"],"names":[],"mappings":"AAAA;;GAEG;AAEH,MAAM,MAAM,UAAU,GAAG,gBAAgB,GAAG,WAAW,GAAG,QAAQ,CAAC;AACnE,MAAM,MAAM,YAAY,GAAG,YAAY,GAAG,YAAY,GAAG,QAAQ,CAAC;AAElE,MAAM,WAAW,gBAAgB;IAC/B,aAAa,EAAE,MAAM,EAAE,CAAC;IACxB,eAAe,EAAE,CAAC,MAAM,GAAG,SAAS,CAAC,EAAE,CAAC;IACxC,UAAU,EAAE,UAAU,CAAC;IACvB,YAAY,EAAE,YAAY,CAAC;IAC3B,MAAM,EAAE,MAAM,CAAC;CAChB;AAED,wBAAgB,kBAAkB,CAAC,IAAI,EAAE,gBAAgB,GAAG,MAAM,CAmDjE"}

package/dist/evaluator.js ADDED Viewed

@@ -0,0 +1,88 @@
+/**
+ * Evaluator job template — generates task text for evaluator jobs in evolutionary plans.
+ */
+export function buildEvaluatorTask(opts) {
+    const { variantJobIds, variantBranches, branchEval, branchSelect, stepId } = opts;
+    const variantList = variantJobIds
+        .map((id, i) => `  - Variant ${i + 1}: job_id=${id}${variantBranches[i] ? `, branch=${variantBranches[i]}` : ""}`)
+        .join("\n");
+    const evalInstructions = buildEvalInstructions(branchEval);
+    const selectInstructions = buildSelectInstructions(branchSelect, variantJobIds.length);
+    return `You are an evaluator agent for an evolutionary branching plan (step: ${stepId}).
+Your job is to evaluate ${variantJobIds.length} variant solutions, score them, and select the best one.
+## Variants to Evaluate
+${variantList}
+## Evaluation Instructions
+${evalInstructions}
+## Scoring
+For each variant, compute a score from 0.0 to 1.0:
+- Check the job output using get_job_output for each variant job_id
+- ${branchEval === "test_pass_rate" ? "Parse test results: look for patterns like 'X passing', 'X tests passed', 'X failed'. Score = (passing / (passing + failing)) * 0.7 + (exitCode === 0 ? 0.3 : 0)" : ""}
+- ${branchEval === "pr_merged" ? "Check if a PR was merged: score = pr_merged ? 1.0 : (pr_exists ? 0.5 : 0.0)" : ""}
+- ${branchEval === "manual" ? "Review the output quality manually and assign a score from 0.0 to 1.0 based on completeness and correctness" : ""}
+- If a variant failed (status=failed or non-zero exit), score it 0.0
+After computing each score, call set_job_score with the job_id and computed score.
+## Winner Selection
+${selectInstructions}
+## Output
+After evaluating all variants and calling set_job_score for each, output a JSON block exactly like this (on its own line):
+WINNER: {"job_id": "<winning_job_id>", "variant_index": <N>, "branch": "<branch_or_null>", "score": <score>, "reason": "<brief reason>"}
+This line will be parsed by downstream jobs to know which variant won.
+## Important Notes
+- Always call set_job_score for ALL variants, even if they scored 0.0
+- Be objective in your evaluation
+- If all variants scored 0.0, pick the one with the least errors or pick variant 1
+`;
+}
+function buildEvalInstructions(branchEval) {
+    switch (branchEval) {
+        case "test_pass_rate":
+            return `For each variant job:
+1. Call get_job_output with the variant's job_id
+2. Search output for test result patterns: "X passing", "X tests passed", "X failed", "X failures"
+3. Calculate pass rate = passing_tests / (passing_tests + failing_tests)
+4. Check job exit code (exitCode=0 means success, non-zero means failure)
+5. Score = pass_rate * 0.7 + (exitCode === 0 ? 0.3 : 0)`;
+        case "pr_merged":
+            return `For each variant job:
+1. Call get_job_output with the variant's job_id to find the PR URL
+2. Check if the PR was merged by looking for "merged" status in the output
+3. Score = pr_merged ? 1.0 : (pr_created ? 0.5 : 0.0)`;
+        case "manual":
+            return `For each variant job:
+1. Call get_job_output with the variant's job_id to review the full output
+2. Assess the quality, completeness, and correctness of the work
+3. Assign a score from 0.0 to 1.0 based on your assessment`;
+    }
+}
+function buildSelectInstructions(branchSelect, variantCount) {
+    switch (branchSelect) {
+        case "best_score":
+            return `Select the variant with the highest score. If there is a tie, pick the lowest variant index.`;
+        case "score_prop":
+            return `Select a winner using score-proportional (roulette wheel) selection:
+1. Compute selection probability for each variant: p_i = score_i / sum(all_scores)
+2. If all scores are 0, use uniform probability (1/${variantCount} each)
+3. Generate a random number between 0 and 1, then pick the variant whose cumulative probability bracket contains that number
+4. Higher score = more likely to be selected, but lower scorers can still win (prevents premature convergence)`;
+        case "latest":
+            return `Select the variant with the most recent completion time (last to finish). If unsure, pick the highest variant index.`;
+    }
+}
+//# sourceMappingURL=evaluator.js.map

package/dist/evaluator.js.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"evaluator.js","sourceRoot":"","sources":["../src/evaluator.ts"],"names":[],"mappings":"AAAA;;GAEG;AAaH,MAAM,UAAU,kBAAkB,CAAC,IAAsB;IACvD,MAAM,EAAE,aAAa,EAAE,eAAe,EAAE,UAAU,EAAE,YAAY,EAAE,MAAM,EAAE,GAAG,IAAI,CAAC;IAElF,MAAM,WAAW,GAAG,aAAa;SAC9B,GAAG,CAAC,CAAC,EAAE,EAAE,CAAC,EAAE,EAAE,CAAC,eAAe,CAAC,GAAG,CAAC,YAAY,EAAE,GAAG,eAAe,CAAC,CAAC,CAAC,CAAC,CAAC,CAAC,YAAY,eAAe,CAAC,CAAC,CAAC,EAAE,CAAC,CAAC,CAAC,EAAE,EAAE,CAAC;SACjH,IAAI,CAAC,IAAI,CAAC,CAAC;IAEd,MAAM,gBAAgB,GAAG,qBAAqB,CAAC,UAAU,CAAC,CAAC;IAC3D,MAAM,kBAAkB,GAAG,uBAAuB,CAAC,YAAY,EAAE,aAAa,CAAC,MAAM,CAAC,CAAC;IAEvF,OAAO,wEAAwE,MAAM;;0BAE7D,aAAa,CAAC,MAAM;;;;EAI5C,WAAW;;;;EAIX,gBAAgB;;;;;;IAMd,UAAU,KAAK,gBAAgB,CAAC,CAAC,CAAC,kKAAkK,CAAC,CAAC,CAAC,EAAE;IACzM,UAAU,KAAK,WAAW,CAAC,CAAC,CAAC,6EAA6E,CAAC,CAAC,CAAC,EAAE;IAC/G,UAAU,KAAK,QAAQ,CAAC,CAAC,CAAC,6GAA6G,CAAC,CAAC,CAAC,EAAE;;;;;;;EAO9I,kBAAkB;;;;;;;;;;;;;;;CAenB,CAAC;AACF,CAAC;AAED,SAAS,qBAAqB,CAAC,UAAsB;IACnD,QAAQ,UAAU,EAAE,CAAC;QACnB,KAAK,gBAAgB;YACnB,OAAO;;;;;wDAK2C,CAAC;QAErD,KAAK,WAAW;YACd,OAAO;;;sDAGyC,CAAC;QAEnD,KAAK,QAAQ;YACX,OAAO;;;2DAG8C,CAAC;IAC1D,CAAC;AACH,CAAC;AAED,SAAS,uBAAuB,CAAC,YAA0B,EAAE,YAAoB;IAC/E,QAAQ,YAAY,EAAE,CAAC;QACrB,KAAK,YAAY;YACf,OAAO,8FAA8F,CAAC;QAExG,KAAK,YAAY;YACf,OAAO;;qDAEwC,YAAY;;+GAE8C,CAAC;QAE5G,KAAK,QAAQ;YACX,OAAO,sHAAsH,CAAC;IAClI,CAAC;AACH,CAAC"}

package/dist/index.js CHANGED Viewed

@@ -20,11 +20,13 @@ import { Server } from "@modelcontextprotocol/sdk/server/index.js";
 import { StdioServerTransport } from "@modelcontextprotocol/sdk/server/stdio.js";
 import { CallToolRequestSchema, ListToolsRequestSchema, } from "@modelcontextprotocol/sdk/types.js";
 import { JobManager } from "./agent.js";
+import { buildEvaluatorTask } from "./evaluator.js";
 import { loadProfiles, upsertProfile, deleteProfile, getProfile, interpolate } from "./profiles.js";
 import { planStore, jobStore, learningsStore } from "./store.js";
 import { getNamespace } from "./namespace.js";
 import { initRedis } from "./redis.js";
 import { logger } from "./logger.js";
+import { listCcAgentContainers } from "./docker.js";
 import { v4 as uuidv4 } from "uuid";
 import { execFile } from "child_process";
 import { promisify } from "util";
@@ -115,6 +117,18 @@ server.setRequestHandler(ListToolsRequestSchema, async () => ({
                         type: "string",
                         description: "Ollama host URL (default: 'http://localhost:11434'). Only used when ollama_model is set.",
                     },
+                    docker_isolation: {
+                        type: "boolean",
+                        description: "Run the agent in a fresh Docker container for full filesystem and process isolation. Requires Docker (colima or Docker Desktop) to be running. Falls back to host mode if Docker is unavailable. Default: false.",
+                    },
+                    smoke_test: {
+                        type: "string",
+                        description: "Shell command to run as a cheap pre-check before the full task. If it exits non-zero or times out, the job fails immediately. Example: 'npm test -- --testPathPattern=smoke 2>&1 | tail -5'",
+                    },
+                    smoke_test_timeout: {
+                        type: "number",
+                        description: "Timeout for the smoke test in seconds (default 60). Only used when smoke_test is set.",
+                    },
                 },
                 required: ["repo_url", "task"],
             },
@@ -148,7 +162,15 @@ server.setRequestHandler(ListToolsRequestSchema, async () => ({
         {
             name: "list_jobs",
             description: "List all agent jobs (running, done, failed, cancelled).",
-            inputSchema: { type: "object", properties: {} },
+            inputSchema: {
+                type: "object",
+                properties: {
+                    min_score: {
+                        type: "number",
+                        description: "Only return jobs with score >= this value (0.0–1.0). Unscored jobs are excluded when this filter is set.",
+                    },
+                },
+            },
         },
         {
             name: "cancel_job",
@@ -280,6 +302,20 @@ server.setRequestHandler(ListToolsRequestSchema, async () => ({
                                     items: { type: "string" },
                                     description: "Step IDs (from this plan) that must complete before this step starts",
                                 },
+                                branches: {
+                                    type: "number",
+                                    description: "If set, spawn this many parallel variant jobs for this step instead of 1. An evaluator job is automatically added to score and select the best variant.",
+                                },
+                                branch_eval: {
+                                    type: "string",
+                                    enum: ["test_pass_rate", "pr_merged", "manual"],
+                                    description: "How to score variants: test_pass_rate (parse test output), pr_merged (check PR status), manual (evaluator uses judgment). Default: test_pass_rate",
+                                },
+                                branch_select: {
+                                    type: "string",
+                                    enum: ["best_score", "score_prop", "latest"],
+                                    description: "How to pick the winner: best_score (highest score wins), score_prop (score-proportional random selection), latest (most recently completed). Default: best_score",
+                                },
                             },
                             required: ["id", "repo_url", "task"],
                         },
@@ -381,6 +417,19 @@ server.setRequestHandler(ListToolsRequestSchema, async () => ({
                 required: ["job_id"],
             },
         },
+        {
+            name: "set_job_score",
+            description: "Set a quality score (0.0–1.0) on a completed job. Used by evaluator agents in evolutionary branching plans to record how well each variant performed.",
+            inputSchema: {
+                type: "object",
+                properties: {
+                    job_id: { type: "string", description: "Job ID to score" },
+                    score: { type: "number", description: "Score from 0.0 to 1.0" },
+                    reason: { type: "string", description: "Optional reason or explanation for the score" },
+                },
+                required: ["job_id", "score"],
+            },
+        },
         {
             name: "get_learnings",
             description: "Return accumulated learnings for a namespace. Learnings are written by agents at the end of each job and stored per-namespace. Use this to understand what prior agents have discovered.",
@@ -411,6 +460,11 @@ server.setRequestHandler(ListToolsRequestSchema, async () => ({
                 },
             },
         },
+        {
+            name: "docker_ps",
+            description: "List currently running cc-agent Docker containers. Shows container name, status, and uptime.",
+            inputSchema: { type: "object", properties: {} },
+        },
         {
             name: "spawn_from_profile",
             description: "Spawn an agent job from a saved profile. Supports variable interpolation and per-call overrides.",
@@ -466,6 +520,9 @@ server.setRequestHandler(CallToolRequestSchema, async (req) => {
                 model: a.model,
                 ollamaModel: a.ollama_model,
                 ollamaHost: a.ollama_host,
+                dockerIsolation: a.docker_isolation,
+                smokeTest: a.smoke_test,
+                smokeTestTimeout: a.smoke_test_timeout,
                 requiresApproval: !isTrusted,
             });
             if (!isTrusted && owner) {
@@ -545,6 +602,8 @@ server.setRequestHandler(CallToolRequestSchema, async (req) => {
                             cost_usd: job.costUsd,
                             usage: job.usage,
                             approval_issue_url: job.approvalIssueUrl,
+                            score: job.score ?? null,
+                            score_source: job.scoreSource ?? null,
                         }),
                     },
                 ],
@@ -572,7 +631,11 @@ server.setRequestHandler(CallToolRequestSchema, async (req) => {
         }
         case "list_jobs": {
             logger.info("tool:list_jobs");
-            const jobs = (await jobStore.listJobs()) ?? [];
+            const minScore = typeof a.min_score === "number" ? a.min_score : undefined;
+            let jobs = (await jobStore.listJobs()) ?? [];
+            if (minScore !== undefined) {
+                jobs = jobs.filter((j) => j.score != null && j.score >= minScore);
+            }
             const namespace = getNamespace();
             const learnings_count = await learningsStore.getLearningsCount(namespace);
             return {
@@ -737,16 +800,72 @@ server.setRequestHandler(CallToolRequestSchema, async (req) => {
                         throw new Error(`Step '${step.id}' depends_on unknown step '${sid}'`);
                     return jobId;
                 });
-                const jobId = await manager.spawn({
-                    repoUrl: step.repo_url,
-                    task: step.task,
-                    createBranch: step.create_branch,
-                    dependsOn: resolvedDeps,
-                });
-                stepIdToJobId.set(step.id, jobId);
-                results.push({ stepId: step.id, jobId, status: resolvedDeps?.length ? "pending" : "cloning" });
+                if (step.branches && step.branches > 1) {
+                    // Evolutionary mode: spawn N variant jobs in parallel
+                    const branchEval = step.branch_eval ?? "test_pass_rate";
+                    const branchSelect = step.branch_select ?? "best_score";
+                    const variantJobIds = [];
+                    const variantBranches = [];
+                    for (let i = 1; i <= step.branches; i++) {
+                        const branchName = step.create_branch ? `${step.create_branch}-v${i}` : undefined;
+                        variantBranches.push(branchName);
+                        const jobId = await manager.spawn({
+                            repoUrl: step.repo_url,
+                            task: step.task,
+                            createBranch: branchName,
+                            dependsOn: resolvedDeps,
+                            variantIndex: i,
+                        });
+                        variantJobIds.push(jobId);
+                    }
+                    // Update siblings on all variant jobs
+                    for (const jobId of variantJobIds) {
+                        manager.setJobSiblings(jobId, variantJobIds.filter((id) => id !== jobId));
+                    }
+                    // Build evaluator task and spawn evaluator job
+                    const evalTask = buildEvaluatorTask({
+                        variantJobIds,
+                        variantBranches,
+                        branchEval,
+                        branchSelect,
+                        stepId: step.id,
+                    });
+                    const evalJobId = await manager.spawn({
+                        repoUrl: step.repo_url,
+                        task: evalTask,
+                        dependsOn: variantJobIds,
+                    });
+                    // The logical step ID maps to the evaluator job (so subsequent steps depend on it)
+                    stepIdToJobId.set(step.id, evalJobId);
+                    // Track variant jobs
+                    for (let i = 0; i < variantJobIds.length; i++) {
+                        results.push({
+                            stepId: `${step.id}-v${i + 1}`,
+                            jobId: variantJobIds[i],
+                            status: resolvedDeps?.length ? "pending" : "cloning",
+                            role: "variant",
+                        });
+                    }
+                    // Track evaluator job
+                    results.push({
+                        stepId: step.id,
+                        jobId: evalJobId,
+                        status: "pending",
+                        role: "evaluator",
+                    });
+                }
+                else {
+                    // Standard single job
+                    const jobId = await manager.spawn({
+                        repoUrl: step.repo_url,
+                        task: step.task,
+                        createBranch: step.create_branch,
+                        dependsOn: resolvedDeps,
+                    });
+                    stepIdToJobId.set(step.id, jobId);
+                    results.push({ stepId: step.id, jobId, status: resolvedDeps?.length ? "pending" : "cloning" });
+                }
             }
-            // Persist the plan record
             const planId = uuidv4();
             planStore.savePlan({ id: planId, goal, steps: results, createdAt: new Date().toISOString() }).catch(() => { });
             return {
@@ -903,6 +1022,13 @@ server.setRequestHandler(CallToolRequestSchema, async (req) => {
                 content: [{ type: "text", text: JSON.stringify(result) }],
             };
         }
+        case "set_job_score": {
+            logger.info("tool:set_job_score", { job_id: a.job_id, score: a.score });
+            const result = manager.setJobScore(a.job_id, a.score, a.reason);
+            return {
+                content: [{ type: "text", text: JSON.stringify(result) }],
+            };
+        }
         case "get_learnings": {
             const ns = a.namespace ?? getNamespace();
             const limit = typeof a.limit === "number" ? a.limit : 10;
@@ -926,6 +1052,16 @@ server.setRequestHandler(CallToolRequestSchema, async (req) => {
                     }],
             };
         }
+        case "docker_ps": {
+            logger.info("tool:docker_ps");
+            const containers = await listCcAgentContainers();
+            return {
+                content: [{
+                        type: "text",
+                        text: JSON.stringify({ containers, total: containers.length }),
+                    }],
+            };
+        }
         default:
             throw new Error(`Unknown tool: ${name}`);
     }