npm - @workbench-ai/workbench - Versions diffs - 0.0.70 → 0.0.72 - Mend

@workbench-ai/workbench 0.0.70 → 0.0.72

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (3) hide show

package/dist/index.js CHANGED Viewed

@@ -4,10 +4,10 @@ import { createRequire } from "node:module";
 import os from "node:os";
 import path from "node:path";
 import { gzipSync } from "node:zlib";
-import { addWorkbenchCase, addWorkbenchRemote, addWorkbenchAgent, compareWorkbench, createWorkbenchAdapterAuthBundle, createWorkbenchReadOnlyInspectionSnapshot, diffWorkbenchVersions, evalWorkbenchSkill, improveWorkbenchSkill, initWorkbenchSkill, listWorkbenchCases, listWorkbenchAgents, listWorkbenchVersions, localWorkbenchAdapterAuthStore, parseWorkbenchAdapterAuthTarget, publishWorkbenchVersion, removeWorkbenchCase, removeWorkbenchAgent, showWorkbenchRef, switchWorkbenchVersion, syncWorkbenchRemote, workbenchJobEvidenceForSnapshot, workbenchStatusSnapshot, WorkbenchCodedError, WorkbenchUserError, } from "@workbench-ai/workbench-core";
+import { addWorkbenchCase, addWorkbenchRemote, addWorkbenchAgent, compareWorkbench, createWorkbenchInspectionSnapshot, createWorkbenchAdapterAuthBundle, createWorkbenchReadOnlyInspectionSnapshot, diffWorkbenchVersions, evalWorkbenchSkill, improveWorkbenchSkill, initWorkbenchSkill, listWorkbenchAgents, listWorkbenchVersions, localWorkbenchAdapterAuthStore, parseWorkbenchAdapterAuthTarget, publishWorkbenchVersion, removeWorkbenchAgent, showWorkbenchRef, switchWorkbenchVersion, syncWorkbenchRemote, workbenchJobEvidenceForSnapshot, workbenchSkillImproveCanUseQueuedAdapter, workbenchStatusSnapshot, WorkbenchCodedError, WorkbenchUserError, } from "@workbench-ai/workbench-core";
 import { normalizeWorkbenchSkillName } from "@workbench-ai/workbench-contract";
 import { emitError, emitResult } from "./output.js";
-import { installSnapshotToTargets, installTargetsToJson, normalizeInstallSnapshotPath, resolveInstallTargets, supportedInstallTargets, } from "./install-targets.js";
+import { installSnapshotToTargets, normalizeInstallSnapshotPath, resolveInstallTargets, supportedInstallTargets, } from "./install-targets.js";
 import { startWorkbenchOpenServer } from "./open-server.js";
 const require = createRequire(import.meta.url);
 const HELP = [
@@ -23,7 +23,7 @@ const HELP = [
     "  workbench improve [VERSION] [--skills LIST] [--agents LIST] [--budget N] [-n N|--samples N] [--cloud] [--json]",
     "  workbench compare [--skills all|LIST] [--agents all|LIST] [--versions all|A..B|LIST] [--json]",
     "  workbench publish [VERSION] [--as OWNER/SKILL] [--private|--team|--public] [--dry-run] [--json]",
-    "  workbench install HANDLE_OR_URL [--to codex|claude|local]... [--yes] [--list] [--dry-run] [--json]",
+    "  workbench install HANDLE_OR_URL [--to codex|claude|local]... [--yes] [--dry-run] [--json]",
     "",
     "More:",
     "  workbench help --all",
@@ -36,7 +36,7 @@ const HELP_ALL = [
     "  workbench compare [--skills all|LIST] [--agents all|LIST] [--versions all|A..B|LIST] [--json]",
     "  workbench improve [VERSION] [--skills LIST] [--agents LIST] [--budget N] [-n N|--samples N] [--cloud] [--json]",
     "  workbench publish [VERSION] [--as OWNER/SKILL] [--private|--team|--public] [--dry-run] [--json]",
-    "  workbench install HANDLE_OR_URL [--to codex|claude|local]... [--yes] [--list] [--dry-run] [--json]",
+    "  workbench install HANDLE_OR_URL [--to codex|claude|local]... [--yes] [--dry-run] [--json]",
     "",
     "Inspect:",
     "  workbench status [--dir DIR] [--json]",
@@ -44,10 +44,10 @@ const HELP_ALL = [
     "  workbench show REF[:PATH] [--json]",
     "  workbench diff [A..B] [--json]",
     "  workbench switch VERSION [--json]",
-    "  workbench open [--host HOST] [--port PORT] [--no-open] [--json]",
+    "  workbench open [--host HOST] [--port PORT] [--no-open]",
     "",
     "Configure:",
-    "  workbench case add [RUN_ID] | list | rm ID [--json]",
+    "  workbench case add RUN_ID [--json]",
     "  workbench agent add NAME --adapter X [--model M] [--with k=v]... | list | rm NAME [--json]",
     "",
     "Share and auth:",
@@ -65,28 +65,40 @@ const COMMAND_HELP = {
         "  workbench new [DIR] [--json]",
         "",
         "Creates a Workbench skill project.",
+        "",
+        "Example:",
+        "  workbench new earnings-prep",
     ].join("\n"),
     eval: [
         "Usage:",
         "  workbench eval [VERSION] [--skills all|LIST] [--agents all|LIST] [-n N|--samples N] [--rerun] [--cloud] [--json]",
         "",
         "Runs eval jobs for the selected version, measured skills, and agents. Omitted selectors use manifest defaults.",
+        "",
+        "Example:",
+        "  workbench eval -n 5",
     ].join("\n"),
     improve: [
         "Usage:",
         "  workbench improve [VERSION] [--skills LIST] [--agents LIST] [--budget N] [-n N|--samples N] [--cloud] [--json]",
         "",
         "Creates one improved child version from evidence. The selected skills and agents must resolve to exactly one entry each.",
+        "",
+        "Example:",
+        "  workbench improve --budget 1 -n 1",
     ].join("\n"),
     compare: [
         "Usage:",
         "  workbench compare [--skills all|LIST] [--agents all|LIST] [--versions all|A..B|LIST] [--json]",
         "",
         "Compares recorded eval evidence across selected skills, agents, and versions.",
+        "",
+        "Example:",
+        "  workbench compare --agents all",
     ].join("\n"),
     install: [
         "Usage:",
-        "  workbench install HANDLE_OR_URL [--to codex|claude|local]... [--yes] [--list] [--dry-run] [--json]",
+        "  workbench install HANDLE_OR_URL [--to codex|claude|local]... [--yes] [--dry-run] [--json]",
         "",
         "Installs published Workbench Cloud source into local agent targets.",
         "",
@@ -98,12 +110,18 @@ const COMMAND_HELP = {
         "  workbench status [--dir DIR] [--json]",
         "",
         "Reports project, worktree, run, per-remote sync/publication, and auth state. --json emits the workbench.status.v1 dashboard.",
+        "",
+        "Example:",
+        "  workbench status --json",
     ].join("\n"),
     logout: [
         "Usage:",
         "  workbench logout [PROVIDER] [--json]",
         "",
         "With no provider, logs out of Workbench Cloud. With a provider such as codex or claude, removes local adapter auth.",
+        "",
+        "Example:",
+        "  workbench logout claude",
     ].join("\n"),
     show: [
         "Usage:",
@@ -111,38 +129,54 @@ const COMMAND_HELP = {
         "  workbench show REF:PATH [--json]",
         "",
         "Shows a Workbench object, lists files for file-backed objects, or prints one file.",
+        "",
+        "Example:",
+        "  workbench show run_abc12345:result.json",
     ].join("\n"),
     log: [
         "Usage:",
         "  workbench log [--runs|--versions] [--json]",
         "",
         "Shows one reverse-chronological timeline of versions and runs.",
+        "",
+        "Example:",
+        "  workbench log --runs",
     ].join("\n"),
     diff: [
         "Usage:",
         "  workbench diff [A..B] [--json]",
         "",
         "Shows changed files between two Workbench source versions.",
+        "",
+        "Example:",
+        "  workbench diff 26059f9a..eac5699c",
     ].join("\n"),
     switch: [
         "Usage:",
         "  workbench switch VERSION [--json]",
         "",
         "Switches the working skill source to a recorded Workbench version.",
+        "",
+        "Example:",
+        "  workbench switch 26059f9a",
     ].join("\n"),
     open: [
         "Usage:",
-        "  workbench open [--host HOST] [--port PORT] [--no-open] [--json]",
+        "  workbench open [--host HOST] [--port PORT] [--no-open]",
         "",
-        "Serves or emits the read-only Workbench inspection snapshot.",
+        "Serves the read-only Workbench inspection UI.",
+        "",
+        "Example:",
+        "  workbench open --no-open",
     ].join("\n"),
     case: [
         "Usage:",
-        "  workbench case list [--json]",
-        "  workbench case add [RUN_ID] [--json]",
-        "  workbench case rm ID [--json]",
+        "  workbench case add RUN_ID [--json]",
+        "",
+        "Captures a regression case from a recorded run.",
         "",
-        "Lists cases, creates a draft case, or removes a case.",
+        "Example:",
+        "  workbench case add run_abc12345",
     ].join("\n"),
     agent: [
         "Usage:",
@@ -151,18 +185,27 @@ const COMMAND_HELP = {
         "  workbench agent rm NAME [--json]",
         "",
         "Lists, adds, or removes eval agent configurations.",
+        "",
+        "Example:",
+        "  workbench agent add claude --adapter claude --model sonnet",
     ].join("\n"),
     sync: [
         "Usage:",
         "  workbench sync [REMOTE] [--dry-run] [--dir DIR] [--json]",
         "",
         "Plumbing command: synchronizes local evidence and version objects with a Workbench remote.",
+        "",
+        "Example:",
+        "  workbench sync cloud --dry-run",
     ].join("\n"),
     publish: [
         "Usage:",
         "  workbench publish [VERSION] [--as OWNER/SKILL] [--private|--team|--public] [--dry-run] [--dir DIR] [--json]",
         "",
         "Publishes installable skill source to Workbench Cloud. --as sets the linked OWNER/SKILL handle.",
+        "",
+        "Example:",
+        "  workbench publish --as acme/earnings-prep --dry-run",
     ].join("\n"),
     login: [
         "Usage:",
@@ -170,14 +213,20 @@ const COMMAND_HELP = {
         "  workbench logout [PROVIDER] [--json]",
         "",
         "Connects the CLI to Workbench Cloud or captures local adapter auth for a provider.",
+        "",
+        "Example:",
+        "  workbench login --start-only --no-open",
     ].join("\n"),
 };
 const COMMON_FLAGS = {
     json: "boolean",
 };
+const DIR_FLAG = {
+    dir: "string",
+};
 const PROJECT_FLAGS = {
     ...COMMON_FLAGS,
-    dir: "string",
+    ...DIR_FLAG,
 };
 const HELP_FLAG = {
     help: "boolean",
@@ -207,7 +256,7 @@ const COMMAND_FLAGS = {
         samples: "positive-integer",
         skills: "string",
     },
-    install: { ...COMMON_FLAGS, ...HELP_FLAG, "dry-run": "boolean", list: "boolean", to: "repeat-string", yes: "boolean" },
+    install: { ...COMMON_FLAGS, ...HELP_FLAG, "dry-run": "boolean", to: "repeat-string", yes: "boolean" },
     log: { ...PROJECT_FLAGS, ...HELP_FLAG, runs: "boolean", versions: "boolean" },
     login: {
         ...COMMON_FLAGS,
@@ -224,7 +273,7 @@ const COMMAND_FLAGS = {
     },
     logout: { ...COMMON_FLAGS, ...HELP_FLAG },
     new: { ...PROJECT_FLAGS, ...HELP_FLAG },
-    open: { ...PROJECT_FLAGS, ...HELP_FLAG, host: "string", "no-open": "boolean", port: "positive-integer" },
+    open: { ...DIR_FLAG, ...HELP_FLAG, host: "string", "no-open": "boolean", port: "port" },
     publish: {
         ...PROJECT_FLAGS,
         ...HELP_FLAG,
@@ -243,9 +292,7 @@ const COMMAND_FLAGS = {
 const SUBCOMMAND_FLAGS = {
     case: {
         flags: {
-            list: { ...PROJECT_FLAGS, ...HELP_FLAG },
             add: { ...PROJECT_FLAGS, ...HELP_FLAG },
-            rm: { ...PROJECT_FLAGS, ...HELP_FLAG },
         },
     },
     agent: {
@@ -315,26 +362,31 @@ export async function runCli(argv, io = {
                 return emitEvalFailure(runs, failedRuns, artifactIds, parsed, io);
             }
             const deltas = await evalDeltas(core, runs);
-            const nextCommands = evalSuccessNextCommands(runs);
+            const coverage = await evalCoverageSummaries(core, runs);
+            const next = await evalSuccessNextCommand(core, runs);
             return emitResult("workbench.cli.eval.v1", {
                 result: runs.map((run) => runSummary(run, artifactIds.get(run.id) ?? [])),
+                coverage: coverage,
                 deltas: deltas,
-                nextCommands: nextCommands,
+                next: next,
             }, parsed, io, () => [
                 runs.map(formatRun).join("\n"),
+                ...coverage.map(formatEvalCoverage),
                 ...deltas.map(formatEvalDelta),
-                ...(nextCommands[0] ? [`next: ${nextCommands[0]}`] : []),
+                ...(next ? [`next: ${next}`] : []),
             ].filter(Boolean).join("\n"));
         }
         if (command === "improve") {
             if (parsed.flags.cloud === true) {
                 return await handleCloudImprove(parsed, io);
             }
+            const improverAgent = await resolveLocalImproverAgent(parsed, core);
             const result = await improveWorkbenchSkill({
                 ...core,
                 version: optionalPositional(parsed, 1),
                 skill: stringFlag(parsed, "skills"),
                 agent: stringFlag(parsed, "agents"),
+                ...(improverAgent ? { improverAgent } : {}),
                 budget: intFlag(parsed, "budget"),
                 samples: intFlag(parsed, "samples"),
             });
@@ -350,12 +402,12 @@ export async function runCli(argv, io = {
                 skills: stringFlag(parsed, "skills"),
                 agents: stringFlag(parsed, "agents"),
             });
-            return output(comparison, parsed, io, () => formatComparison(comparison));
+            return output(manifestOnly(comparison), parsed, io, () => formatComparison(comparison));
         }
         if (command === "switch") {
             const versionRef = requiredPositional(parsed, 1, "workbench switch requires VERSION.");
             const version = await switchWorkbenchVersion(versionRef, core);
-            return output(versionSummary(version), parsed, io, () => `Switched to ${version.id}.`);
+            return output(versionSummary(version), parsed, io, () => `Switched to ${displayRef(version.id)}.`);
         }
         if (command === "diff") {
             const range = optionalPositional(parsed, 1) ?? await defaultDiffRange(core);
@@ -390,7 +442,7 @@ export async function runCli(argv, io = {
             }, parsed, io, () => `${result.dryRun ? "Would sync" : "Synced"} ${result.remote.name}: pushed ${result.pushed}, pulled ${result.pulled}${result.upToDate ? " (up to date)" : ""}.`);
         }
         if (command === "publish") {
-            const preview = parsed.flags["dry-run"] === true && !stringFlag(parsed, "as")
+            const preview = parsed.flags["dry-run"] === true
                 ? await previewPublishWithDerivedRemote(parsed)
                 : undefined;
             if (preview) {
@@ -403,10 +455,7 @@ export async function runCli(argv, io = {
                     pinnedInstallUrl: preview.pinnedInstallUrl,
                     dryRun: true,
                 }, parsed, io, () => [
-                    `Would publish ${preview.version.id} to remote ${preview.remote.name}.`,
-                    `Visibility: ${preview.visibility}`,
-                    `Install: ${preview.installUrl}`,
-                    `Pinned: ${preview.pinnedInstallUrl}`,
+                    `Would publish ${displayRef(preview.version.id)} as ${preview.installHandle} (${preview.visibility}).`,
                     `next: workbench install ${preview.installHandle}`,
                 ].join("\n"));
             }
@@ -427,25 +476,18 @@ export async function runCli(argv, io = {
                 pinnedInstallUrl: result.pinnedInstallUrl,
                 ...(result.dryRun ? { dryRun: true } : {}),
             }, parsed, io, () => [
-                `${result.dryRun ? "Would publish" : "Published"} ${result.version.id} to remote ${result.remote.name}.`,
-                `Visibility: ${result.visibility}`,
-                `Install: ${result.installUrl}`,
-                `Pinned: ${result.pinnedInstallUrl}`,
+                `${result.dryRun ? "Would publish" : "Published"} ${displayRef(result.version.id)} as ${result.installHandle} (${result.visibility}).`,
                 `next: workbench install ${result.installHandle}`,
             ].join("\n"));
         }
         if (command === "open") {
-            if (parsed.flags.json === true) {
-                const snapshot = await createWorkbenchReadOnlyInspectionSnapshot(core);
-                return output(snapshot, parsed, io, () => "Read-only Workbench inspection data is available with --json.");
-            }
             // The browser server serves committed object state through a read-only
             // snapshot path, so long-running commands do not block page loads.
             const server = await startWorkbenchOpenServer({
                 dir: dirFlag(parsed),
                 authToken: core.authToken,
                 host: stringFlag(parsed, "host"),
-                port: intFlag(parsed, "port"),
+                port: portFlag(parsed, "port"),
             });
             io.stdout.write(`Workbench: ${server.url}\n`);
             if (parsed.flags["no-open"] !== true) {
@@ -460,16 +502,18 @@ export async function runCli(argv, io = {
     }
 }
 async function handleStatus(parsed, io) {
-    const status = await workbenchStatusSnapshot(await coreOptions(parsed));
+    const core = await coreOptions(parsed);
+    const status = await workbenchStatusSnapshot(core);
     const auth = await workbenchCliAuthStatus();
+    const cliStatus = await statusWithCausalNext(status, auth, core);
     return emitResult("workbench.status.v1", {
-        project: status.project,
-        worktree: status.worktree,
-        runs: status.runs,
-        remotes: status.remotes,
+        project: cliStatus.project,
+        worktree: cliStatus.worktree,
+        runs: cliStatus.runs,
+        remotes: cliStatus.remotes,
         auth: auth,
-        next: status.next,
-    }, parsed, io, () => formatStatusSnapshot({ ...status, auth }));
+        next: cliStatus.next,
+    }, parsed, io, () => formatStatusSnapshot({ ...cliStatus, auth }));
 }
 async function handleLog(parsed, io) {
     if (parsed.flags.runs === true && parsed.flags.versions === true) {
@@ -491,7 +535,7 @@ async function handleLog(parsed, io) {
             remediation: "Run workbench log, workbench log --runs, or workbench log --versions.",
         });
     }
-    const snapshot = await createWorkbenchReadOnlyInspectionSnapshot(await coreOptions(parsed));
+    const snapshot = await createWorkbenchInspectionSnapshot(await coreOptions(parsed));
     const includeRuns = parsed.flags.versions !== true;
     const includeVersions = parsed.flags.runs !== true;
     const entries = [
@@ -510,7 +554,7 @@ async function handleLog(parsed, io) {
             versionId: run.versionId,
             skillName: run.skillName,
             agentName: run.agentName,
-            ...(run.score !== undefined ? { score: run.score } : {}),
+            ...(scoredRunValue(run) !== undefined ? { score: scoredRunValue(run) } : {}),
         })) : []),
     ].sort((left, right) => right.createdAt.localeCompare(left.createdAt));
     return emitResult("workbench.cli.log.v1", {
@@ -534,21 +578,25 @@ async function handleShow(parsed, io) {
         return output(value, parsed, io, () => formatShow(value));
     }
     const snapshot = await createWorkbenchReadOnlyInspectionSnapshot(core);
-    const version = snapshot.versions.find((entry) => entry.id === objectRef);
+    const version = snapshotVersionByRef(snapshot, objectRef);
     if (version) {
         return output(fileListing("version", version.id, version.files), parsed, io, () => formatFileListing("version", version.id, version.files));
     }
-    const trace = snapshot.traces.find((entry) => entry.id === objectRef);
+    const trace = snapshotObjectByRef(snapshot.traces, objectRef, "trace");
     if (trace) {
         return output(fileListing("trace", trace.id, trace.files), parsed, io, () => formatFileListing("trace", trace.id, trace.files));
     }
-    const artifact = snapshot.artifacts.find((entry) => entry.id === objectRef);
+    const artifact = snapshotObjectByRef(snapshot.artifacts, objectRef, "artifact");
     if (artifact) {
         return output(fileListing("artifact", artifact.id, artifact.files), parsed, io, () => formatFileListing("artifact", artifact.id, artifact.files));
     }
     const details = evidenceDetailsForRunOrJob(snapshot, objectRef);
-    if (details.length > 0) {
-        return output(details, parsed, io, () => details.map(formatTraceDetail).join("\n"));
+    const evidenceFiles = evidenceFilesForRunOrJob(snapshot, objectRef);
+    if (details.length > 0 || evidenceFiles.length > 0) {
+        return output({
+            details: details.map(evidenceDetailSummary),
+            files: evidenceFiles.map(fileSummary),
+        }, parsed, io, () => formatRunOrJobEvidence(details, evidenceFiles));
     }
     const value = await showWorkbenchRef(ref, core);
     return output(value, parsed, io, () => formatShow(value));
@@ -581,22 +629,19 @@ async function handleAgent(parsed, io) {
     throw new WorkbenchUserError(`Unsupported agent command: ${subcommand}`);
 }
 async function handleCase(parsed, io) {
-    const subcommand = requiredPositional(parsed, 1, "workbench case requires list|add|rm.");
-    if (subcommand === "list") {
-        const cases = await listWorkbenchCases(await coreOptions(parsed));
-        return output(cases, parsed, io, () => cases.map((entry) => `${entry.id}\t${entry.path}`).join("\n") || "No cases.");
-    }
+    const subcommand = requiredPositional(parsed, 1, "workbench case requires add.");
     if (subcommand === "add") {
         const core = await coreOptions(parsed);
-        const sourceRef = optionalPositional(parsed, 2);
-        const record = await addWorkbenchCase({ ...core, fromTraceId: sourceRef ? await traceIdForCaseSource(core, sourceRef) : undefined });
-        return output(record, parsed, io, () => `Added case ${record.id}.`);
-    }
-    if (subcommand === "rm") {
-        const result = await removeWorkbenchCase(requiredPositional(parsed, 2, "workbench case rm requires CASE_ID."), await coreOptions(parsed));
-        return output(result, parsed, io, () => `Removed case ${result.removed}.`);
+        const sourceRef = requiredPositional(parsed, 2, "workbench case add requires RUN_ID.");
+        rejectExtraInput(parsed, {
+            maxPositionals: 3,
+            message: "workbench case add accepts one RUN_ID argument.",
+            remediation: "Run workbench case add RUN_ID.",
+        });
+        const record = await addWorkbenchCase({ ...core, fromTraceId: await traceIdForCaseSource(core, sourceRef) });
+        return output(record, parsed, io, () => `Added draft case ${record.id}. Edit .workbench/cases/${record.path}/case.yaml before using it as score evidence.`);
     }
-    throw new WorkbenchUserError(`Unsupported case command: ${subcommand}`);
+    throw new WorkbenchUserError(`Unknown command: workbench case ${subcommand}`);
 }
 async function handleAdapterLogin(provider, parsed, io) {
     const target = parseAuthTarget(provider, authProfileFlag(parsed));
@@ -685,11 +730,14 @@ function validateFlagValue(name, value, kind) {
     if (typeof value !== "string" || !value.trim()) {
         throw new WorkbenchUserError(`--${name} requires a value.`);
     }
-    if (kind === "positive-integer") {
+    if (kind === "positive-integer" || kind === "port") {
         const parsedValue = Number(value);
-        if (!Number.isInteger(parsedValue) || parsedValue <= 0) {
+        if (kind === "positive-integer" && (!Number.isInteger(parsedValue) || parsedValue <= 0)) {
             throw new WorkbenchUserError(`--${name} must be a positive integer.`);
         }
+        if (kind === "port" && (!Number.isInteger(parsedValue) || parsedValue < 0 || parsedValue > 65535)) {
+            throw new WorkbenchUserError(`--${name} must be an integer between 0 and 65535.`);
+        }
     }
 }
 const CONFIG_SCHEMA = "workbench.cli.config.v1";
@@ -714,7 +762,7 @@ async function handleLogin(parsed, io) {
     }
     if (parsed.flags["start-only"] === true && parsed.flags.wait === true) {
         throw new WorkbenchCodedError("usage", "workbench login accepts only one of --start-only or --wait.", {
-            remediation: "Run workbench login --start-only or workbench login --wait --timeout 120.",
+            remediation: "Run workbench login --start-only or workbench login --wait.",
             exitCode: 2,
         });
     }
@@ -723,22 +771,17 @@ async function handleLogin(parsed, io) {
     const timeoutSeconds = intFlag(parsed, "timeout");
     if (startOnly && timeoutSeconds !== undefined) {
         throw new WorkbenchCodedError("usage", "workbench login --timeout only applies with --wait.", {
-            remediation: "Run workbench login --start-only, then workbench login --wait --timeout 120.",
-            exitCode: 2,
-        });
-    }
-    if (waitOnly && timeoutSeconds === undefined) {
-        throw new WorkbenchCodedError("usage", "workbench login --wait requires --timeout N.", {
-            remediation: "Run workbench login --wait --timeout 120.",
+            remediation: "Run workbench login --start-only, then workbench login --wait.",
             exitCode: 2,
         });
     }
     const config = await loadConfig();
-    const baseUrl = selectWorkbenchBaseUrl({
-        explicitBaseUrl: stringFlag(parsed, "base-url"),
+    const explicitBaseUrl = stringFlag(parsed, "base-url");
+    const pending = waitOnly ? await readPendingDeviceAuthorization(explicitBaseUrl) : null;
+    const baseUrl = pending?.baseUrl ?? selectWorkbenchBaseUrl({
+        explicitBaseUrl,
         configBaseUrl: config.baseUrl,
     });
-    const pending = waitOnly ? await readPendingDeviceAuthorization(baseUrl) : null;
     const record = pending ?? await startDeviceAuthorization(baseUrl);
     const freshAuthorization = pending === null;
     if (startOnly) {
@@ -753,8 +796,8 @@ async function handleLogin(parsed, io) {
             verificationUriComplete: record.verification_uri_complete,
             userCode: record.user_code,
             expiresAt: record.expiresAt,
-            resume: "workbench login --wait --timeout 120",
-        }, parsed, io, () => `Open ${record.verification_uri_complete}\nCode: ${record.user_code}\nResume: workbench login --wait --timeout 120`);
+            resume: "workbench login --wait",
+        }, parsed, io, () => `Open ${record.verification_uri_complete}\nCode: ${record.user_code}\nResume: workbench login --wait`);
     }
     await writePendingDeviceAuthorization(record);
     if (freshAuthorization && !parsed.flags.json) {
@@ -801,9 +844,6 @@ async function handleLogout(parsed, io) {
     const config = await loadConfig();
     const baseUrl = optionalWorkbenchBaseUrl({ configBaseUrl: config.baseUrl });
     const tokenPresent = Boolean(config.accessToken);
-    if (tokenPresent && !baseUrl) {
-        throw new WorkbenchUserError("Missing Workbench API URL. Set WORKBENCH_API_URL or run `workbench login --base-url URL`.");
-    }
     let revoke = "skipped";
     if (config.accessToken && baseUrl) {
         try {
@@ -856,18 +896,6 @@ async function handleInstall(parsed, io) {
     const snapshot = await fetchWorkbenchInstallSourceSnapshot(workbenchSource, source);
     const sourceSummary = workbenchInstallSourceSummary(workbenchSource, snapshot);
     const config = await loadConfig();
-    if (parsed.flags.list === true) {
-        return emitResult("workbench.cli.install.v1", {
-            source: sourceSummary,
-            skills: [snapshot.name],
-            fileCount: snapshot.files.length,
-            targets: installTargetsToJson(supportedInstallTargets()),
-        }, parsed, io, () => [
-            `${snapshot.name}\t${snapshot.versionId}\tfiles=${snapshot.files.length}`,
-            "Targets:",
-            ...supportedInstallTargets().map((target) => `  ${target.agent}\t${target.destination}`),
-        ].join("\n"));
-    }
     const toTargets = stringsFlag(parsed, "to");
     const selectedTargets = toTargets.length > 0 ? normalizeInstallTargetNames(toTargets) : await defaultInstallTargetNames(config);
     const targets = resolveInstallTargets({
@@ -898,29 +926,57 @@ async function handleInstall(parsed, io) {
     ].join("\n"));
 }
 async function handleCloudEval(parsed, io) {
-    const started = await startCloudExecution("eval", parsed);
+    const started = await startCloudExecution("eval", parsed, io);
     const artifactIds = await artifactIdsByRunId(started.core, started.runs);
+    if (started.detached) {
+        const next = cloudDetachedNextCommand(started.runs);
+        emitResult("workbench.cli.eval.v1", {
+            result: started.runs.map((run) => runSummary(run, artifactIds.get(run.id) ?? [])),
+            detached: true,
+            next: next,
+            cloud: cloudExecutionSummary(started),
+        }, parsed, io, () => [
+            `Detached from hosted eval on ${started.remote.url}.`,
+            started.runs.map(formatRun).join("\n"),
+            ...(next ? [`next: ${next}`] : []),
+        ].filter(Boolean).join("\n"));
+        return 130;
+    }
     const failedRuns = started.runs.filter((run) => run.status === "failed" || run.status === "canceled");
     if (failedRuns.length > 0) {
         return emitEvalFailure(started.runs, failedRuns, artifactIds, parsed, io);
     }
     const deltas = await evalDeltas(started.core, started.runs);
-    const nextCommands = cloudEvalNextCommands(started.runs);
+    const next = await evalSuccessNextCommand(started.core, started.runs);
     return emitResult("workbench.cli.eval.v1", {
         result: started.runs.map((run) => runSummary(run, artifactIds.get(run.id) ?? [])),
         deltas: deltas,
-        nextCommands: nextCommands,
+        next: next,
         cloud: cloudExecutionSummary(started),
     }, parsed, io, () => [
         `Completed hosted eval on ${started.remote.url}.`,
         started.runs.map(formatRun).join("\n"),
         ...deltas.map(formatEvalDelta),
-        ...(nextCommands[0] ? [`next: ${nextCommands[0]}`] : []),
+        ...(next ? [`next: ${next}`] : []),
     ].filter(Boolean).join("\n"));
 }
 async function handleCloudImprove(parsed, io) {
-    const started = await startCloudExecution("improve", parsed);
+    const started = await startCloudExecution("improve", parsed, io);
     const artifactIds = await artifactIdsByRunId(started.core, started.runs);
+    if (started.detached) {
+        const next = cloudDetachedNextCommand(started.runs);
+        emitResult("workbench.cli.improve.v1", {
+            result: started.runs.map((run) => runSummary(run, artifactIds.get(run.id) ?? [])),
+            detached: true,
+            next: next,
+            cloud: cloudExecutionSummary(started),
+        }, parsed, io, () => [
+            `Detached from hosted improve on ${started.remote.url}.`,
+            started.runs.map(formatRun).join("\n"),
+            ...(next ? [`next: ${next}`] : []),
+        ].filter(Boolean).join("\n"));
+        return 130;
+    }
     const failedRuns = started.runs.filter((run) => run.status === "failed" || run.status === "canceled");
     if (failedRuns.length > 0) {
         const first = failedRuns[0];
@@ -934,17 +990,17 @@ async function handleCloudImprove(parsed, io) {
         });
     }
     const switchedVersionId = await switchHostedImproveVersionIfPromoted(started);
-    const nextCommands = cloudImproveNextCommands(started.runs);
+    const next = cloudImproveNextCommand(started.runs);
     return emitResult("workbench.cli.improve.v1", {
         result: started.runs.map((run) => runSummary(run, artifactIds.get(run.id) ?? [])),
-        nextCommands: nextCommands,
+        next: next,
         cloud: cloudExecutionSummary(started),
         ...(switchedVersionId ? { switchedVersionId } : {}),
     }, parsed, io, () => [
         `Completed hosted improve on ${started.remote.url}.`,
         started.runs.map(formatRun).join("\n"),
-        ...(switchedVersionId ? [`Switched local source to ${switchedVersionId}.`] : []),
-        ...(nextCommands[0] ? [`next: ${nextCommands[0]}`] : []),
+        ...(switchedVersionId ? [`Switched local source to ${displayRef(switchedVersionId)}.`] : []),
+        ...(next ? [`next: ${next}`] : []),
     ].filter(Boolean).join("\n"));
 }
 async function defaultInstallTargetNames(config) {
@@ -986,7 +1042,7 @@ async function pathExists(filePath) {
         return false;
     }
 }
-async function startCloudExecution(command, parsed) {
+async function startCloudExecution(command, parsed, io) {
     const root = dirFlag(parsed) ?? process.cwd();
     const remote = await ensureCloudRemoteForExecution(root, parsed);
     const source = parseWorkbenchInstallSource(remote.url);
@@ -1005,7 +1061,9 @@ async function startCloudExecution(command, parsed) {
         });
     }
     const core = { dir: root, authToken: token };
+    writeCloudProgress(io, `workbench cloud: syncing ${remote.name} before hosted ${command}.`);
     const syncBefore = await syncWorkbenchRemote({ ...core, remote: remote.name });
+    writeCloudProgress(io, `workbench cloud: synced ${remote.name} before hosted ${command} (pushed=${syncBefore.pushed}, pulled=${syncBefore.pulled}, up-to-date=${syncBefore.upToDate}).`);
     const startSnapshot = await createWorkbenchReadOnlyInspectionSnapshot(core);
     const skillId = await resolveCloudSkillId(source);
     const response = await apiRequest(`/api/workbench/skills/${encodeURIComponent(skillId)}${command === "improve" ? "/improve" : "/runs"}`, { method: "POST", body: cloudExecutionRequestBody(command, parsed) }, source.baseUrl);
@@ -1018,9 +1076,15 @@ async function startCloudExecution(command, parsed) {
             exitCode: 1,
         });
     }
+    const initialRunIds = runs.map((run) => run.id);
+    writeCloudProgress(io, `workbench cloud: scheduled hosted ${command} on ${remote.url} (${formatCloudRunStatuses(runs)}).`);
     const initialSyncAfter = await syncWorkbenchRemote({ ...core, remote: remote.name });
+    writeCloudProgress(io, `workbench cloud: synced after scheduling hosted ${command} (pushed=${initialSyncAfter.pushed}, pulled=${initialSyncAfter.pulled}, up-to-date=${initialSyncAfter.upToDate}).`);
+    writeCloudProgress(io, `workbench cloud: waiting for terminal status; press Ctrl-C to detach and resume with workbench status or workbench show ${displayRef(initialRunIds[0] ?? "run")}.`);
     const completed = await waitForCloudRuns({
+        command,
         core,
+        io,
         remote,
         runs,
         initialSync: initialSyncAfter,
@@ -1029,7 +1093,9 @@ async function startCloudExecution(command, parsed) {
         core,
         remote,
         skillId,
+        initialRunIds,
         runs: completed.runs,
+        ...(completed.detached ? { detached: true } : {}),
         startVersionId: startSnapshot.status.currentVersionId ?? startSnapshot.refs.current,
         source,
         sync: {
@@ -1053,27 +1119,59 @@ async function waitForCloudRuns(input) {
     const timeoutMs = positiveIntEnv("WORKBENCH_CLOUD_RUN_TIMEOUT_MS") ?? CLOUD_RUN_TIMEOUT_MS;
     const pollIntervalMs = positiveIntEnv("WORKBENCH_CLOUD_RUN_POLL_INTERVAL_MS") ?? CLOUD_RUN_POLL_INTERVAL_MS;
     const deadline = Date.now() + timeoutMs;
-    while (true) {
-        const snapshot = await createWorkbenchReadOnlyInspectionSnapshot(input.core);
-        const runs = runIds
-            .map((id) => snapshot.runs.find((entry) => entry.id === id))
-            .filter((run) => Boolean(run));
-        if (runs.length === runIds.length && runs.every(isTerminalRun)) {
-            return { runs, sync };
-        }
-        if (Date.now() >= deadline) {
-            throw new WorkbenchCodedError("cloud_run_pending", "Hosted Workbench run is still running.", {
-                retryable: true,
-                remediation: runIds[0] ? `Run workbench show ${runIds[0]}.` : "Run workbench log --runs.",
-                subject: {
-                    runIds,
-                    statuses: Object.fromEntries(runs.map((run) => [run.id, run.status])),
-                },
-                exitCode: 1,
-            });
+    let runs = [...input.runs];
+    let interrupted = false;
+    const onSigint = () => {
+        interrupted = true;
+        writeCloudProgress(input.io, `workbench cloud: detaching from hosted ${input.command} (${runIds.map(displayRef).join(", ")}).`);
+    };
+    process.once("SIGINT", onSigint);
+    const seenStatuses = new Map();
+    try {
+        while (true) {
+            const snapshot = await createWorkbenchReadOnlyInspectionSnapshot(input.core);
+            const snapshotRuns = runIds
+                .map((id) => snapshot.runs.find((entry) => entry.id === id))
+                .filter((run) => Boolean(run));
+            if (snapshotRuns.length > 0) {
+                runs = runIds.map((id) => snapshotRuns.find((entry) => entry.id === id) ?? runs.find((entry) => entry.id === id))
+                    .filter((run) => Boolean(run));
+            }
+            for (const run of runs) {
+                const previous = seenStatuses.get(run.id);
+                if (previous !== run.status) {
+                    seenStatuses.set(run.id, run.status);
+                    writeCloudProgress(input.io, `workbench cloud: ${displayRef(run.id)} is ${run.status}.`);
+                }
+            }
+            if (runs.length === runIds.length && runs.every(isTerminalRun)) {
+                writeCloudProgress(input.io, `workbench cloud: hosted ${input.command} finished (${formatCloudRunStatuses(runs)}).`);
+                return { runs, sync };
+            }
+            if (interrupted) {
+                return { runs, sync, detached: true };
+            }
+            if (Date.now() >= deadline) {
+                throw new WorkbenchCodedError("cloud_run_pending", "Hosted Workbench run is still running.", {
+                    retryable: true,
+                    remediation: runIds[0] ? `Run workbench show ${runIds[0]}.` : "Run workbench log --runs.",
+                    subject: {
+                        runIds,
+                        statuses: Object.fromEntries(runs.map((run) => [run.id, run.status])),
+                    },
+                    exitCode: 1,
+                });
+            }
+            await sleep(pollIntervalMs);
+            if (interrupted) {
+                return { runs, sync, detached: true };
+            }
+            sync = await syncWorkbenchRemote({ ...input.core, remote: input.remote.name });
+            writeCloudProgress(input.io, `workbench cloud: synced ${input.remote.name} while waiting (${formatCloudRunStatuses(runs)}).`);
         }
-        await sleep(pollIntervalMs);
-        sync = await syncWorkbenchRemote({ ...input.core, remote: input.remote.name });
+    }
+    finally {
+        process.off("SIGINT", onSigint);
     }
 }
 function isTerminalRun(run) {
@@ -1197,30 +1295,41 @@ function cloudExecutionRequestBody(command, parsed) {
         ...(command === "improve" ? { budget: intFlag(parsed, "budget") } : {}),
     };
 }
-function cloudEvalNextCommands(runs) {
-    return cloudExecutionNextCommands(runs, "workbench publish");
+function cloudImproveNextCommand(runs) {
+    return cloudExecutionNextCommand(runs, "workbench eval");
 }
-function cloudImproveNextCommands(runs) {
-    return cloudExecutionNextCommands(runs, "workbench eval");
+function cloudDetachedNextCommand(runs) {
+    const first = runs[0];
+    return first?.id ? `workbench show ${displayRef(first.id)}` : "workbench status";
 }
-function cloudExecutionNextCommands(runs, successCommand) {
+function cloudExecutionNextCommand(runs, successCommand) {
     const first = runs[0];
     if (!first) {
-        return ["workbench log --runs"];
+        return "workbench log --runs";
     }
     if (first.status === "running" || first.status === "failed" || first.status === "canceled") {
-        return [`workbench show ${first.id}`];
+        return `workbench show ${displayRef(first.id)}`;
     }
-    return [successCommand];
+    return successCommand;
 }
 function cloudExecutionSummary(started) {
     return {
         remote: started.remote.name,
         url: started.remote.url,
         skillId: started.skillId,
+        initialRunIds: started.initialRunIds,
+        ...(started.detached ? { detached: true } : {}),
         sync: started.sync,
     };
 }
+function writeCloudProgress(io, message) {
+    io.stderr.write(`${message}\n`);
+}
+function formatCloudRunStatuses(runs) {
+    return runs.length > 0
+        ? runs.map((run) => `${displayRef(run.id)}:${run.status}`).join(", ")
+        : "no runs";
+}
 function workbenchInstallSourceSummary(source, snapshot) {
     const installUrl = `${source.baseUrl}/skills/${encodeURIComponent(source.owner)}/${encodeURIComponent(source.skill)}`;
     return {
@@ -1294,12 +1403,13 @@ async function fetchWorkbenchInstallSourceSnapshot(source, displaySource) {
         throw new WorkbenchCodedError("auth_required", token
             ? `Workbench Cloud rejected the provided token while installing ${displaySource}.`
             : `Authentication is required to install ${displaySource}.`, {
-            remediation: `Run workbench login --base-url ${source.baseUrl}.`,
+            remediation: "Run workbench login.",
             exitCode: 1,
         });
     }
     if (!response.ok) {
-        throw new WorkbenchCodedError("install_failed", `Unable to download Workbench source ${displaySource}: ${response.status} ${readResponseError(text) ?? response.statusText}`, {
+        const excerpt = readResponseError(text);
+        throw new WorkbenchCodedError("install_failed", `Unable to download Workbench source ${displaySource}: ${response.status}${excerpt ? ` ${excerpt}` : response.statusText ? ` ${response.statusText}` : ""}`, {
             subject: { source: displaySource, status: response.status },
             exitCode: 1,
         });
@@ -1420,18 +1530,15 @@ function deviceAuthPath() {
     return process.env.WORKBENCH_DEVICE_AUTH?.trim() || path.join(path.dirname(configPath()), "device-auth.json");
 }
 function selectWorkbenchBaseUrl(input = {}) {
-    const baseUrl = optionalWorkbenchBaseUrl(input);
-    if (!baseUrl) {
-        throw new WorkbenchUserError("Missing Workbench API URL. Pass --base-url URL, set WORKBENCH_API_URL, or run `workbench login --base-url URL`.");
-    }
-    return baseUrl;
+    return optionalWorkbenchBaseUrl(input);
 }
 function optionalWorkbenchBaseUrl(input = {}) {
     const value = input.explicitBaseUrl ??
         input.originBaseUrl ??
         process.env.WORKBENCH_API_URL ??
-        input.configBaseUrl;
-    return value ? normalizeBaseUrl(value) : undefined;
+        input.configBaseUrl ??
+        DEFAULT_WORKBENCH_CLOUD_BASE_URL;
+    return normalizeBaseUrl(value);
 }
 function normalizeBaseUrl(value) {
     return value.trim().replace(/\/+$/u, "");
@@ -1449,7 +1556,8 @@ async function requestDeviceAuthorization(baseUrl) {
         });
     }
     if (!response.ok) {
-        throw new WorkbenchCodedError("login_denied", `Device login failed: ${readResponseError(text) ?? response.statusText}`, {
+        const excerpt = readResponseError(text);
+        throw new WorkbenchCodedError("login_denied", `Device login failed: ${response.status}${excerpt ? ` ${excerpt}` : response.statusText ? ` ${response.statusText}` : ""}`, {
             exitCode: 1,
         });
     }
@@ -1500,7 +1608,7 @@ async function pollDeviceToken(baseUrl, authorization, timeoutSeconds) {
     }
     throw new WorkbenchCodedError("login_pending", "Device login is still waiting for browser authorization.", {
         retryable: true,
-        remediation: "Authorize the device in the browser, then run workbench login --wait --timeout 120.",
+        remediation: "Authorize the device in the browser, then run workbench login --wait.",
         subject: {
             retryAfterSeconds: Math.max(1, Math.ceil(intervalMs / 1000)),
             verificationUri: authorization.verification_uri,
@@ -1524,7 +1632,8 @@ async function fetchWorkbenchUsername(baseUrl, accessToken) {
 }
 async function readPendingDeviceAuthorization(baseUrl) {
     const record = await readDeviceAuthorizationJson(deviceAuthPath());
-    if (!record || record.baseUrl !== baseUrl || Date.parse(record.expiresAt) <= Date.now()) {
+    const expectedBaseUrl = baseUrl ? normalizeBaseUrl(baseUrl) : undefined;
+    if (!record || (expectedBaseUrl && record.baseUrl !== expectedBaseUrl) || Date.parse(record.expiresAt) <= Date.now()) {
         return null;
     }
     return record;
@@ -1614,7 +1723,8 @@ async function apiRequest(apiPath, options = {}, baseUrlOverride) {
                 }
                 throw requestError;
             }
-            const requestError = new WorkbenchApiRequestError(response.status, readResponseError(text) ?? `Request failed with status ${response.status}${response.statusText ? ` ${response.statusText}` : ""}.`, text);
+            const excerpt = readResponseError(text);
+            const requestError = new WorkbenchApiRequestError(response.status, `Request failed with status ${response.status}${response.statusText ? ` ${response.statusText}` : ""}${excerpt ? `: ${excerpt}` : ""}.`, text);
             lastError = requestError;
             if (canRetry && attempt < API_REQUEST_MAX_ATTEMPTS && isTransientApiRequestError(requestError)) {
                 await sleep(250 * attempt);
@@ -1707,12 +1817,22 @@ function readResponseError(text) {
         const parsed = JSON.parse(text);
         const record = asRecord(parsed);
         const error = record?.error ?? record?.message;
-        return typeof error === "string" && error.trim() ? error : null;
+        return typeof error === "string" && error.trim() ? oneLineExcerpt(error) : null;
     }
     catch {
-        return text.trim() || null;
+        if (/<(?:!doctype|html|head|body)\b/iu.test(text)) {
+            return null;
+        }
+        return oneLineExcerpt(text);
     }
 }
+function oneLineExcerpt(text) {
+    const line = text.replace(/\s+/gu, " ").trim();
+    if (!line) {
+        return null;
+    }
+    return line.length > 180 ? `${line.slice(0, 177)}...` : line;
+}
 function parseWorkbenchCloudErrorBody(text) {
     try {
         const record = asRecord(JSON.parse(text));
@@ -2168,6 +2288,17 @@ function intFlag(parsed, name) {
     }
     return parsedValue;
 }
+function portFlag(parsed, name) {
+    const value = stringFlag(parsed, name);
+    if (!value) {
+        return undefined;
+    }
+    const parsedValue = Number(value);
+    if (!Number.isInteger(parsedValue) || parsedValue < 0 || parsedValue > 65535) {
+        throw new WorkbenchUserError(`--${name} must be an integer between 0 and 65535.`);
+    }
+    return parsedValue;
+}
 function optionalPositional(parsed, index) {
     return parsed.positionals[index];
 }
@@ -2227,19 +2358,15 @@ function parsePublishVisibilityFlags(parsed) {
 }
 async function previewPublishWithDerivedRemote(parsed) {
     const root = path.resolve(dirFlag(parsed) ?? process.cwd());
-    const core = await coreOptions(parsed);
-    await listWorkbenchVersions(core);
     const reconciledSnapshot = await createWorkbenchReadOnlyInspectionSnapshot({ dir: root });
     const link = cloudRemoteLinkTargetFromRemotes(reconciledSnapshot.remotes);
-    if (link.existing) {
-        return undefined;
-    }
-    const remote = await derivePublishCloudRemote(parsed, "workbench publish", link.name);
+    const remote = stringFlag(parsed, "as") || !link.existing
+        ? await derivePublishCloudRemote(parsed, "workbench publish", link.name)
+        : link.existing;
     const requestedVersion = optionalPositional(parsed, 1);
-    const versionId = requestedVersion && requestedVersion !== "current"
-        ? requestedVersion
-        : reconciledSnapshot.status.currentVersionId ?? reconciledSnapshot.refs.current;
-    const version = reconciledSnapshot.versions.find((entry) => entry.id === versionId);
+    const version = requestedVersion && requestedVersion !== "current"
+        ? snapshotVersionByRef(reconciledSnapshot, requestedVersion)
+        : snapshotVersionByRef(reconciledSnapshot, reconciledSnapshot.status.currentVersionId ?? reconciledSnapshot.refs.current ?? "");
     if (!version) {
         throw new WorkbenchCodedError("version_not_found", `Version not found: ${requestedVersion ?? "current"}`, {
             remediation: "Run workbench log --versions.",
@@ -2390,7 +2517,7 @@ async function artifactIdsByRunId(core, runs) {
     return byRun;
 }
 function emitEvalFailure(runs, failedRuns, artifactIds, parsed, io) {
-    const nextCommands = evalFailureNextCommands(failedRuns);
+    const next = evalFailureNextCommand(failedRuns);
     if (parsed.flags.json === true) {
         io.stdout.write(`${JSON.stringify({
             schema: "workbench.cli.eval.v1",
@@ -2401,14 +2528,14 @@ function emitEvalFailure(runs, failedRuns, artifactIds, parsed, io) {
             evidenceSaved: true,
             runs: runs.map((run) => runFailureSummary(run, artifactIds.get(run.id) ?? [])),
             failedRuns: failedRuns.map((run) => runFailureSummary(run, artifactIds.get(run.id) ?? [])),
-            nextCommands,
+            next,
         }, null, 2)}\n`);
         return 1;
     }
     io.stdout.write([
         "Eval failed; evidence was saved.",
         ...failedRuns.map(formatRun),
-        ...(nextCommands[0] ? [`next: ${nextCommands[0]}`] : []),
+        ...(next ? [`next: ${next}`] : []),
     ].join("\n") + "\n");
     return 1;
 }
@@ -2420,7 +2547,7 @@ function runSummary(run, artifactIds) {
         versionId: run.versionId,
         skillName: run.skillName,
         agentName: run.agentName,
-        ...(run.score !== undefined ? { score: run.score } : {}),
+        ...(scoredRunValue(run) !== undefined ? { score: scoredRunValue(run) } : {}),
         ...(run.latencyMs !== undefined ? { latencyMs: run.latencyMs } : {}),
         ...(run.error ? { error: run.error } : {}),
         ...(run.jobIds ? { jobIds: run.jobIds } : {}),
@@ -2435,23 +2562,18 @@ function runFailureSummary(run, artifactIds) {
         skill: run.skillName,
         status: run.status,
         versionId: run.versionId,
-        ...(run.score !== undefined ? { score: run.score } : {}),
+        ...(scoredRunValue(run) !== undefined ? { score: scoredRunValue(run) } : {}),
         ...(run.error ? { error: run.error } : {}),
         traceIds: run.traceIds,
         artifactIds: [...artifactIds],
     };
 }
-function evalFailureNextCommands(failedRuns) {
+function evalFailureNextCommand(failedRuns) {
     const first = failedRuns[0];
     if (!first) {
-        return ["workbench log --runs"];
+        return "workbench log --runs";
     }
-    return [
-        `workbench show ${first.id}`,
-        `workbench show ${first.id}:stderr.log`,
-        `workbench case add ${first.id}`,
-        `workbench improve --agents ${first.agentName} --budget 1 -n 1`,
-    ];
+    return `workbench show ${displayRef(first.id)}`;
 }
 function output(value, parsed, io, text) {
     return emitResult(commandSchema(parsed), { result: value }, parsed, io, text);
@@ -2484,12 +2606,285 @@ async function workbenchCliAuthStatus() {
         })),
     };
 }
+function scoredRunValue(run) {
+    return run.status === "succeeded" && typeof run.score === "number" ? run.score : undefined;
+}
+function scoredJobValue(job) {
+    return job.status === "succeeded" && typeof job.score === "number" ? job.score : undefined;
+}
+function snapshotHasWorkflowCase(snapshot) {
+    const currentVersion = snapshotVersionByRef(snapshot, snapshot.status.currentVersionId ?? snapshot.refs.current ?? "");
+    const caseFiles = currentVersion?.files.filter((file) => file.kind === "text" &&
+        /^\.workbench\/cases\/[^/]+\/case\.ya?ml$/u.test(file.path)) ?? [];
+    return caseFiles.some((file) => file.kind === "text" && !/\n\s*smoke:\s*true(?:\s|$)/u.test(`\n${file.content}`));
+}
+function installHandleFromStatusRemote(remote) {
+    const publicationUrl = remote.publication.status === "published" ? remote.publication.installUrl : undefined;
+    const source = parseWorkbenchInstallSource(publicationUrl ?? remote.url);
+    return source ? `${source.owner}/${source.skill}` : publicationUrl ?? remote.url;
+}
+async function statusWithCausalNext(status, auth, core) {
+    if (!status.project.initialized) {
+        return status;
+    }
+    const snapshot = await createWorkbenchReadOnlyInspectionSnapshot(core).catch(() => null);
+    const lastRun = snapshot?.runs
+        .slice()
+        .sort((left, right) => right.createdAt.localeCompare(left.createdAt))[0];
+    if ((lastRun?.status === "running" || lastRun?.status === "failed" || lastRun?.status === "canceled") && lastRun.id) {
+        return { ...status, next: `workbench show ${displayRef(lastRun.id)}` };
+    }
+    const failedRemote = status.remotes.find((remote) => remote.sync.status === "error");
+    const hasWorkflowCase = snapshot ? snapshotHasWorkflowCase(snapshot) : false;
+    const hasScoredRun = snapshot?.runs.some((run) => scoredRunValue(run) !== undefined) ?? false;
+    const canPublish = hasWorkflowCase && hasScoredRun;
+    const cloudAuthMissing = auth.workbenchCloud.status !== "authenticated";
+    const cloudRemoteNeedsAuth = status.remotes.some((remote) => remote.kind === "workbench-cloud" &&
+        (remote.sync.status !== "up_to_date" || remote.publication.status === "unpublished"));
+    if (cloudAuthMissing && (canPublish || cloudRemoteNeedsAuth)) {
+        return { ...status, next: "workbench login" };
+    }
+    if (failedRemote) {
+        return { ...status, next: `workbench sync ${failedRemote.name}` };
+    }
+    if ((snapshot?.runs.length ?? status.runs.total) === 0) {
+        return { ...status, next: "workbench eval" };
+    }
+    if (!hasWorkflowCase) {
+        return { ...status, next: "edit .workbench/cases, then run workbench eval" };
+    }
+    const cloudRemote = status.remotes.find((remote) => remote.kind === "workbench-cloud");
+    if (canPublish && !cloudRemote) {
+        return { ...status, next: "workbench publish" };
+    }
+    const unpublishedCloudRemote = status.remotes.find((remote) => remote.kind === "workbench-cloud" &&
+        remote.publication.status === "unpublished" &&
+        remote.sync.status === "up_to_date");
+    if (unpublishedCloudRemote) {
+        return { ...status, next: "workbench publish" };
+    }
+    const publishedCloudRemote = status.remotes.find((remote) => remote.kind === "workbench-cloud" &&
+        remote.publication.status === "published" &&
+        Boolean(remote.publication.installUrl));
+    if (publishedCloudRemote) {
+        return { ...status, next: `workbench install ${installHandleFromStatusRemote(publishedCloudRemote)}` };
+    }
+    return {
+        ...status,
+        next: null,
+    };
+}
+function displayRef(id) {
+    const version = /^v_([0-9a-f]{8,})$/iu.exec(id);
+    if (version?.[1]) {
+        return version[1].slice(0, 8);
+    }
+    const separator = id.indexOf("_");
+    if (separator > 0 && separator < id.length - 1) {
+        const prefix = id.slice(0, separator);
+        const suffix = id.slice(separator + 1);
+        return `${prefix}_${suffix.slice(0, 8)}`;
+    }
+    return id.length > 8 ? id.slice(0, 8) : id;
+}
+function shortenCommandRefs(command) {
+    return command.replace(/\b(?:v_[0-9a-f]{8,}|(?:run|job|trace|artifact)_[a-z0-9_-]+)/giu, (match) => displayRef(match));
+}
+function snapshotVersionByRef(snapshot, ref) {
+    const requested = ref.trim();
+    const normalized = requested === "current" ? snapshot.refs.current ?? "" : requested;
+    if (!normalized) {
+        return undefined;
+    }
+    const candidates = snapshot.versions.filter((version) => snapshotVersionRefMatches(version, normalized));
+    if (candidates.length > 1) {
+        throw new WorkbenchCodedError("ref_ambiguous", `Version ref is ambiguous: ${ref}. Candidates: ${candidates.map((version) => displayRef(version.id)).join(", ")}.`, {
+            subject: { ref, candidates: candidates.map((version) => version.id) },
+            exitCode: 2,
+        });
+    }
+    return candidates[0];
+}
+function snapshotVersionRefMatches(version, ref) {
+    const withoutVersionPrefix = ref.startsWith("v_") ? ref.slice(2) : ref;
+    return version.id === ref ||
+        version.hash === ref ||
+        version.id.startsWith(ref) ||
+        version.hash.startsWith(ref) ||
+        version.hash.startsWith(withoutVersionPrefix) ||
+        version.id.startsWith(`v_${withoutVersionPrefix}`);
+}
+function snapshotObjectByRef(entries, ref, kind) {
+    const normalized = ref.trim();
+    if (!normalized) {
+        return undefined;
+    }
+    const candidates = entries.filter((entry) => objectRefMatches(entry.id, normalized));
+    if (candidates.length > 1) {
+        throw new WorkbenchCodedError("ref_ambiguous", `${capitalize(kind)} ref is ambiguous: ${ref}. Candidates: ${candidates.map((entry) => displayRef(entry.id)).slice(0, 8).join(", ")}.`, {
+            subject: { ref, candidates: candidates.map((entry) => entry.id).slice(0, 20) },
+            exitCode: 2,
+        });
+    }
+    return candidates[0];
+}
+function objectRefMatches(id, ref) {
+    if (id === ref || id.startsWith(ref)) {
+        return true;
+    }
+    const separator = id.indexOf("_");
+    return separator > 0 && id.slice(separator + 1).startsWith(ref);
+}
+function capitalize(value) {
+    return value.length > 0 ? `${value[0].toUpperCase()}${value.slice(1)}` : value;
+}
+function runOrJobEvidenceSelection(snapshot, ref) {
+    const run = snapshotObjectByRef(snapshot.runs, ref, "run");
+    const job = snapshotObjectByRef(snapshot.jobs, ref, "job");
+    if (run && job) {
+        throw new WorkbenchCodedError("ref_ambiguous", `Run/job ref is ambiguous: ${ref}. Candidates: ${displayRef(run.id)}, ${displayRef(job.id)}.`, {
+            subject: { ref, candidates: [run.id, job.id] },
+            exitCode: 2,
+        });
+    }
+    if (run) {
+        return {
+            run,
+            jobs: snapshot.jobs.filter((entry) => entry.runId === run.id),
+        };
+    }
+    return job ? { jobs: [job] } : { jobs: [] };
+}
+function evidenceFilesForRunOrJob(snapshot, ref) {
+    const selection = runOrJobEvidenceSelection(snapshot, ref);
+    if (!selection.run && selection.jobs.length === 0) {
+        return [];
+    }
+    const traceById = new Map(snapshot.traces.map((trace) => [trace.id, trace]));
+    const artifactById = new Map(snapshot.artifacts.map((artifact) => [artifact.id, artifact]));
+    const files = selection.jobs.flatMap((job) => [
+        ...job.artifactIds.flatMap((artifactId) => {
+            const artifact = artifactById.get(artifactId);
+            return artifact
+                ? artifact.files.filter(isUserFacingEvidenceFile).map((file) => evidenceFileWithPath(file, `cases/${evidencePathSegment(job.caseId)}/jobs/${evidencePathSegment(job.id)}/${file.path}`))
+                : [];
+        }),
+        ...job.traceIds.flatMap((traceId) => {
+            const trace = traceById.get(traceId);
+            return trace
+                ? trace.files.filter(isUserFacingEvidenceFile).map((file) => evidenceFileWithPath(file, `cases/${evidencePathSegment(job.caseId)}/jobs/${evidencePathSegment(job.id)}/traces/${evidencePathSegment(trace.id)}/${file.path}`))
+                : [];
+        }),
+    ]);
+    const seen = new Set();
+    return files.filter((file) => {
+        if (seen.has(file.path)) {
+            return false;
+        }
+        seen.add(file.path);
+        return true;
+    });
+}
+function evidenceFileWithPath(file, filePath) {
+    return {
+        ...file,
+        path: filePath.replace(/\\/gu, "/").replace(/^\/+/u, ""),
+    };
+}
+function isUserFacingEvidenceFile(file) {
+    const normalized = file.path.replace(/\\/gu, "/").replace(/^\/+/u, "");
+    return normalized.split("/").every((segment) => segment !== ".workbench");
+}
+function evidencePathSegment(value) {
+    return value.replace(/[^A-Za-z0-9._-]+/gu, "-") || "_";
+}
+function formatRunOrJobEvidence(details, files) {
+    const detailLines = details.map(formatTraceDetail).filter(Boolean);
+    const fileLines = files.length > 0 ? ["Files:", ...files.map((file) => file.path)] : [];
+    return [...detailLines, ...fileLines].join("\n") || "No evidence.";
+}
+function evidenceDetailSummary(detail) {
+    return {
+        runId: detail.runId,
+        executions: detail.executions.map((execution) => ({
+            id: execution.id,
+            status: execution.status,
+            jobIds: execution.jobIds,
+            sessions: execution.sessions.map((session) => ({
+                label: session.label,
+            })),
+            trace: {
+                events: execution.trace.events.length,
+                spans: execution.trace.spans.length,
+                summaries: execution.trace.summaries.length,
+            },
+        })),
+    };
+}
+function manifestOnly(value) {
+    if (value === null || typeof value === "string" || typeof value === "number" || typeof value === "boolean") {
+        return value;
+    }
+    if (Array.isArray(value)) {
+        return value.map(manifestOnly);
+    }
+    if (!value || typeof value !== "object") {
+        return null;
+    }
+    const record = value;
+    if (typeof record.path === "string" && typeof record.content === "string") {
+        return fileSummary(record);
+    }
+    const out = {};
+    for (const [key, child] of Object.entries(record)) {
+        if (child === undefined) {
+            continue;
+        }
+        out[key] = manifestOnly(child);
+    }
+    return out;
+}
+async function resolveLocalImproverAgent(parsed, core) {
+    if (stringFlag(parsed, "agents")) {
+        return undefined;
+    }
+    const agents = await listWorkbenchAgents(core).catch(() => []);
+    const status = await workbenchStatusSnapshot(core).catch(() => undefined);
+    const defaultAgentName = status?.project.defaultAgent ?? agents[0]?.name;
+    const defaultAgent = agents.find((agent) => agent.name === defaultAgentName);
+    if (defaultAgent && workbenchSkillImproveCanUseQueuedAdapter(defaultAgent)) {
+        return undefined;
+    }
+    const connected = await localWorkbenchAdapterAuthStore(adapterAuthStoreRoot()).listStatus().catch(() => []);
+    const candidates = connected
+        .filter((entry) => entry.status === "connected" &&
+        (entry.adapterId === "claude" || entry.adapterId === "codex"))
+        .sort((left, right) => {
+        const adapterRank = (adapter) => adapter === "claude" ? 0 : adapter === "codex" ? 1 : 2;
+        return adapterRank(left.adapterId) - adapterRank(right.adapterId) ||
+            (Date.parse(right.updatedAt ?? "") || 0) - (Date.parse(left.updatedAt ?? "") || 0);
+    });
+    const selected = candidates[0];
+    if (!selected) {
+        throw new WorkbenchCodedError("auth_required", "workbench improve needs a connected improver.", {
+            remediation: "Run workbench login claude (or codex) to connect an improver.",
+            exitCode: 1,
+        });
+    }
+    return {
+        name: selected.adapterId,
+        adapter: selected.adapterId,
+        config: {
+            auth: selected.slot ? { [selected.slot]: selected.profile } : selected.profile,
+        },
+    };
+}
 function formatLogEntry(entry) {
     if (entry.kind === "version") {
-        return `${entry.createdAt}\tversion\t${entry.id}\tfiles=${entry.fileCount}\t${entry.message}`;
+        return `${entry.createdAt}\tversion\t${displayRef(entry.id)}\tfiles=${entry.fileCount}\t${entry.message}`;
     }
     const score = entry.score === undefined ? "n/a" : entry.score.toFixed(3);
-    return `${entry.createdAt}\trun\t${entry.id}\t${entry.status}\tversion=${entry.versionId}\tskill=${entry.skillName}\tagent=${entry.agentName}\tscore=${score}`;
+    return `${entry.createdAt}\trun\t${displayRef(entry.id)}\t${entry.status}\tversion=${displayRef(entry.versionId)}\tskill=${entry.skillName}\tagent=${entry.agentName}\tscore=${score}`;
 }
 function splitShowRef(ref) {
     const index = ref.indexOf(":");
@@ -2500,18 +2895,14 @@ function splitShowRef(ref) {
 }
 async function fileForRunOrJobRef(core, objectRef, requestedPath) {
     const snapshot = await createWorkbenchReadOnlyInspectionSnapshot(core);
-    const run = snapshot.runs.find((entry) => entry.id === objectRef);
-    const job = snapshot.jobs.find((entry) => entry.id === objectRef);
-    if (!run && !job) {
+    const selection = runOrJobEvidenceSelection(snapshot, objectRef);
+    if (!selection.run && selection.jobs.length === 0) {
         return null;
     }
-    const traceIds = run?.traceIds ?? job?.traceIds ?? [];
-    const traces = snapshot.traces.filter((trace) => traceIds.includes(trace.id));
-    for (const trace of traces) {
-        const file = findShowFile(trace.files, requestedPath);
-        if (file) {
-            return file;
-        }
+    const files = evidenceFilesForRunOrJob(snapshot, objectRef);
+    const file = findShowFile(files, requestedPath, objectRef);
+    if (file) {
+        return file;
     }
     throw new WorkbenchCodedError("ref_not_found", `File not found in ${objectRef}: ${requestedPath}`, {
         remediation: `Run workbench show ${objectRef}.`,
@@ -2520,12 +2911,8 @@ async function fileForRunOrJobRef(core, objectRef, requestedPath) {
     });
 }
 function evidenceDetailsForRunOrJob(snapshot, ref) {
-    const run = snapshot.runs.find((entry) => entry.id === ref);
-    const job = snapshot.jobs.find((entry) => entry.id === ref);
-    const jobs = run
-        ? snapshot.jobs.filter((entry) => entry.runId === run.id)
-        : job ? [job] : [];
-    return jobs.flatMap((entry) => {
+    const selection = runOrJobEvidenceSelection(snapshot, ref);
+    return selection.jobs.flatMap((entry) => {
         const detail = workbenchJobEvidenceForSnapshot(snapshot, {
             runId: entry.runId,
             jobId: entry.id,
@@ -2536,12 +2923,72 @@ function evidenceDetailsForRunOrJob(snapshot, ref) {
         execution.trace.events.length > 0 ||
         execution.trace.summaries.length > 0));
 }
-function findShowFile(files, requestedPath) {
+function findShowFile(files, requestedPath, objectRef) {
     const normalized = requestedPath.replace(/\\/gu, "/");
-    return files.find((file) => file.path === normalized) ??
-        files.find((file) => file.path.endsWith(`/${normalized}`)) ??
-        files.find((file) => path.basename(file.path) === normalized) ??
-        null;
+    const exact = files.filter((file) => file.path === normalized);
+    if (exact.length === 1) {
+        return exact[0];
+    }
+    const exactEquivalent = singleEquivalentShowFile(exact);
+    if (exactEquivalent) {
+        return exactEquivalent;
+    }
+    if (exact.length > 1) {
+        throw ambiguousShowPath(objectRef, requestedPath, exact);
+    }
+    const suffixCandidates = files.filter((file) => file.path.endsWith(`/${normalized}`) || path.basename(file.path) === normalized);
+    if (suffixCandidates.length === 0) {
+        return null;
+    }
+    const candidates = normalized === "stderr.log"
+        ? suffixCandidates.filter((file) => file.content.length > 0)
+        : suffixCandidates;
+    const canonicalCandidates = candidates.filter(isCanonicalEvidenceFileCandidate);
+    if (canonicalCandidates.length === 1) {
+        return canonicalCandidates[0];
+    }
+    const equivalentCanonicalCandidate = singleEquivalentShowFile(canonicalCandidates);
+    if (equivalentCanonicalCandidate) {
+        return equivalentCanonicalCandidate;
+    }
+    if (canonicalCandidates.length > 1) {
+        throw ambiguousShowPath(objectRef, requestedPath, canonicalCandidates);
+    }
+    if (candidates.length === 1) {
+        return candidates[0];
+    }
+    const equivalentCandidate = singleEquivalentShowFile(candidates);
+    if (equivalentCandidate) {
+        return equivalentCandidate;
+    }
+    if (candidates.length === 0 && suffixCandidates.length === 1) {
+        return suffixCandidates[0];
+    }
+    const equivalentSuffixCandidate = singleEquivalentShowFile(suffixCandidates);
+    if (equivalentSuffixCandidate) {
+        return equivalentSuffixCandidate;
+    }
+    throw ambiguousShowPath(objectRef, requestedPath, candidates.length > 0 ? candidates : suffixCandidates);
+}
+function isCanonicalEvidenceFileCandidate(file) {
+    return !file.path.includes("/traces/") && !file.path.includes("/artifacts/");
+}
+function singleEquivalentShowFile(files) {
+    if (files.length <= 1) {
+        return null;
+    }
+    const first = files[0];
+    return files.every((file) => file.kind === first.kind && file.encoding === first.encoding && file.content === first.content)
+        ? first
+        : null;
+}
+function ambiguousShowPath(objectRef, requestedPath, candidates) {
+    const candidatePaths = candidates.map((file) => file.path);
+    return new WorkbenchCodedError("ref_ambiguous", `File path is ambiguous in ${objectRef}: ${requestedPath}. Candidates: ${candidatePaths.join(", ")}.`, {
+        remediation: `Run workbench show ${objectRef}.`,
+        subject: { ref: objectRef, path: requestedPath, candidates: candidatePaths },
+        exitCode: 2,
+    });
 }
 function fileListing(kind, id, files) {
     return {
@@ -2552,17 +2999,16 @@ function fileListing(kind, id, files) {
     };
 }
 function formatFileListing(kind, id, files) {
-    return [`${kind}\t${id}\tfiles=${files.length}`, ...files.map((file) => file.path)].join("\n");
+    return [`${kind}\t${displayRef(id)}\tfiles=${files.length}`, ...files.map((file) => file.path)].join("\n");
 }
 async function traceIdForCaseSource(core, ref) {
     const snapshot = await createWorkbenchReadOnlyInspectionSnapshot(core);
-    const trace = snapshot.traces.find((entry) => entry.id === ref);
+    const trace = snapshotObjectByRef(snapshot.traces, ref, "trace");
     if (trace) {
         return trace.id;
     }
-    const run = snapshot.runs.find((entry) => entry.id === ref);
-    const job = snapshot.jobs.find((entry) => entry.id === ref);
-    const traceId = run?.traceIds[0] ?? job?.traceIds[0];
+    const selection = runOrJobEvidenceSelection(snapshot, ref);
+    const traceId = selection.run?.traceIds[0] ?? selection.jobs[0]?.traceIds[0];
     if (traceId) {
         return traceId;
     }
@@ -2572,43 +3018,85 @@ async function traceIdForCaseSource(core, ref) {
         exitCode: 1,
     });
 }
+async function evalCoverageSummaries(core, runs) {
+    const snapshot = await createWorkbenchReadOnlyInspectionSnapshot(core);
+    const jobsByRun = new Map();
+    for (const job of snapshot.jobs) {
+        const existing = jobsByRun.get(job.runId) ?? [];
+        existing.push(job);
+        jobsByRun.set(job.runId, existing);
+    }
+    return runs.map((run) => {
+        const jobs = jobsByRun.get(run.id) ?? [];
+        const cases = new Set(jobs.map((job) => job.caseId));
+        const samples = new Set(jobs.map((job) => `${job.caseId}\0${job.sample}`));
+        return {
+            runId: run.id,
+            cases: cases.size,
+            samples: samples.size,
+            jobs: jobs.length,
+            succeeded: jobs.filter((job) => job.status === "succeeded").length,
+            failed: jobs.filter((job) => job.status === "failed" || job.status === "canceled").length,
+        };
+    });
+}
+function formatEvalCoverage(coverage) {
+    return [
+        `coverage cases=${coverage.cases}`,
+        `samples=${coverage.samples}`,
+        `jobs=${coverage.jobs}`,
+        coverage.failed > 0 ? `failed=${coverage.failed}` : undefined,
+    ].filter(Boolean).join(" ");
+}
 async function evalDeltas(core, runs) {
     const snapshot = await createWorkbenchReadOnlyInspectionSnapshot(core);
     return runs.map((run) => {
+        const score = scoredRunValue(run);
         const previous = snapshot.runs
             .filter((candidate) => candidate.id !== run.id &&
             candidate.skillName === run.skillName &&
             candidate.agentName === run.agentName &&
-            typeof candidate.score === "number" &&
+            scoredRunValue(candidate) !== undefined &&
             candidate.createdAt < run.createdAt)
             .sort((left, right) => right.createdAt.localeCompare(left.createdAt))[0];
+        const previousScore = previous ? scoredRunValue(previous) : undefined;
         return {
             runId: run.id,
             versionId: run.versionId,
             skillName: run.skillName,
             agentName: run.agentName,
-            ...(run.score !== undefined ? { score: run.score } : {}),
-            ...(previous?.score !== undefined ? { previousScore: previous.score } : {}),
-            ...(run.score !== undefined && previous?.score !== undefined ? { delta: run.score - previous.score } : {}),
+            ...(score !== undefined ? { score } : {}),
+            ...(previousScore !== undefined ? { previousScore } : {}),
+            ...(score !== undefined && previousScore !== undefined ? { delta: score - previousScore } : {}),
         };
     });
 }
 function formatEvalDelta(delta) {
-    const score = delta.score === undefined ? "n/a" : delta.score.toFixed(3);
+    if (delta.score === undefined) {
+        return "";
+    }
+    const score = delta.score.toFixed(3);
     if (delta.previousScore === undefined || delta.delta === undefined) {
-        return `${delta.skillName} ${delta.versionId} ${score} (was n/a)`;
+        return `${delta.skillName} ${displayRef(delta.versionId)} ${score}`;
     }
     const sign = delta.delta >= 0 ? "+" : "";
-    return `${delta.skillName} ${delta.versionId} ${score} (was ${delta.previousScore.toFixed(3)}, ${sign}${delta.delta.toFixed(3)})`;
+    return `${delta.skillName} ${displayRef(delta.versionId)} ${score} (was ${delta.previousScore.toFixed(3)}, ${sign}${delta.delta.toFixed(3)})`;
 }
-function evalSuccessNextCommands(runs) {
-    return runs.length > 0 ? ["workbench publish"] : ["workbench eval"];
+async function evalSuccessNextCommand(core, runs) {
+    if (runs.length === 0) {
+        return "workbench eval";
+    }
+    if (!runs.some((run) => scoredRunValue(run) !== undefined)) {
+        return "edit .workbench/cases, then run workbench eval";
+    }
+    const snapshot = await createWorkbenchReadOnlyInspectionSnapshot(core);
+    return snapshotHasWorkflowCase(snapshot) ? "workbench publish" : "edit .workbench/cases, then run workbench eval";
 }
 function formatStatusSnapshot(status) {
     const lines = [
         `Root: ${status.project.root}`,
         `Initialized: ${status.project.initialized ? "yes" : "no"}`,
-        ...(status.project.currentVersionId ? [`Current version: ${status.project.currentVersionId}`] : []),
+        ...(status.project.currentVersionId ? [`Current version: ${displayRef(status.project.currentVersionId)}`] : []),
         ...(status.project.defaultSkill ? [`Default skill: ${status.project.defaultSkill}`] : []),
         ...(status.project.defaultAgent ? [`Default agent: ${status.project.defaultAgent}`] : []),
         `Runs: ${status.runs.total}${status.runs.lastStatus ? ` (last ${status.runs.lastStatus})` : ""}`,
@@ -2618,7 +3106,7 @@ function formatStatusSnapshot(status) {
                     ? [
                         "publication=published",
                         remote.publication.visibility ? `visibility=${remote.publication.visibility}` : undefined,
-                        remote.publication.versionId ? `version=${remote.publication.versionId}` : undefined,
+                        remote.publication.versionId ? `version=${displayRef(remote.publication.versionId)}` : undefined,
                         remote.publication.installUrl ? `install=${remote.publication.installUrl}` : undefined,
                         remote.publication.pinnedInstallUrl ? `pinned=${remote.publication.pinnedInstallUrl}` : undefined,
                     ].filter(Boolean).join("\t")
@@ -2629,17 +3117,16 @@ function formatStatusSnapshot(status) {
                         ? [
                             `    error[${remote.sync.lastError.code}]: ${remote.sync.lastError.message}`,
                             ...(remote.sync.lastAttemptAt ? [`    last attempt: ${remote.sync.lastAttemptAt}`] : []),
-                            ...(remote.sync.nextCommand ? [`    next: ${remote.sync.nextCommand}`] : []),
                         ]
                         : []),
                 ];
             })] : ["Remotes: none"]),
-        ...(status.next[0] ? [`next: ${status.next[0]}`] : []),
+        ...(status.next ? [`next: ${shortenCommandRefs(status.next)}`] : []),
     ];
     return lines.join("\n");
 }
 function formatVersion(version) {
-    return `${version.id}\t${version.hash.slice(0, 12)}\t${version.message}`;
+    return `${displayRef(version.id)}\t${version.hash.slice(0, 12)}\t${version.message}`;
 }
 function versionSummary(version) {
     return {
@@ -2655,50 +3142,52 @@ function formatAgent(agent) {
     return `${agent.name}\t${agent.adapter}${agent.model ? `\t${agent.model}` : ""}`;
 }
 function formatRun(run) {
-    const score = run.score === undefined ? "n/a" : run.score.toFixed(3);
+    const scoreValue = scoredRunValue(run);
+    const score = scoreValue === undefined ? "n/a" : scoreValue.toFixed(3);
     const latency = run.latencyMs === undefined ? "n/a" : `${run.latencyMs}ms`;
-    return `${run.id}\t${run.kind}\t${run.status}\tversion=${run.versionId}\tskill=${run.skillName}\tagent=${run.agentName}\tscore=${score}\tlatency=${latency}`;
+    return `${displayRef(run.id)}\t${run.kind}\t${run.status}\tversion=${displayRef(run.versionId)}\tskill=${run.skillName}\tagent=${run.agentName}\tscore=${score}\tlatency=${latency}`;
 }
 function formatImproveResult(result) {
     return [
-        `Improved ${result.version.parentIds[0] ?? "current"} -> ${result.version.id}. ${formatRun(result.run)}`,
+        `Improved ${result.version.parentIds[0] ? displayRef(result.version.parentIds[0]) : "current"} -> ${displayRef(result.version.id)}. ${formatRun(result.run)}`,
         result.switched
             ? "Switched to improved version."
             : `Did not switch: ${result.promotionReason}`,
     ].join("\n");
 }
 function formatJob(job) {
-    const score = job.score === undefined ? "n/a" : job.score.toFixed(3);
+    const scoreValue = scoredJobValue(job);
+    const score = scoreValue === undefined ? "n/a" : scoreValue.toFixed(3);
     const duration = job.durationMs === undefined ? "n/a" : `${job.durationMs}ms`;
-    return `${job.id}\trun=${job.runId}\tcase=${job.caseId}\tsample=${job.sample}\t${job.status}\tscore=${score}\tduration=${duration}`;
+    return `${displayRef(job.id)}\trun=${displayRef(job.runId)}\tcase=${job.caseId}\tsample=${job.sample}\t${job.status}\tscore=${score}\tduration=${duration}`;
 }
 function formatComparison(comparison) {
     const lines = ["version\tskill\tagent\tstatus\tscore\tcost\tlatency\trun"];
     for (const cell of comparison.cells) {
         lines.push([
-            cell.versionId,
+            displayRef(cell.versionId),
             cell.skillName,
             `${cell.agentName}@${shortObjectId(cell.agentHash)}`,
             cell.status ?? "not-run",
             cell.score === undefined ? "n/a" : cell.score.toFixed(3),
             cell.costUsd === undefined ? "n/a" : `$${cell.costUsd.toFixed(4)}`,
             cell.latencyMs === undefined ? "n/a" : `${cell.latencyMs}ms`,
-            cell.runId ?? "n/a",
+            cell.runId ? displayRef(cell.runId) : "n/a",
         ].join("\t"));
     }
     return lines.join("\n");
 }
 function shortObjectId(id) {
-    return id.length > 12 ? id.slice(0, 12) : id;
+    return id.length > 8 ? id.slice(0, 8) : id;
 }
 function formatTrace(trace) {
     const result = asRecord(trace.result);
     const status = typeof result?.status === "string" ? result.status : undefined;
-    const score = typeof result?.score === "number" ? result.score.toFixed(3) : undefined;
+    const score = status === "succeeded" && typeof result?.score === "number" ? result.score.toFixed(3) : undefined;
     const error = typeof result?.error === "string" ? result.error.split(/\r?\n/u)[0] : undefined;
     const files = trace.files.slice(0, 5).map((file) => file.path).join(",");
     return [
-        `${trace.id}\trun=${trace.runId}\tjob=${trace.jobId ?? "n/a"}\tversion=${trace.versionId}\tskill=${trace.skillName}\tagent=${trace.agentName}`,
+        `${displayRef(trace.id)}\trun=${displayRef(trace.runId)}\tjob=${trace.jobId ? displayRef(trace.jobId) : "n/a"}\tversion=${displayRef(trace.versionId)}\tskill=${trace.skillName}\tagent=${trace.agentName}`,
         status ? `status=${status}` : undefined,
         score ? `score=${score}` : undefined,
         error ? `error=${error}` : undefined,
@@ -2707,6 +3196,7 @@ function formatTrace(trace) {
 }
 function traceSummary(trace) {
     const result = asRecord(trace.result);
+    const status = typeof result?.status === "string" ? result.status : undefined;
     return {
         id: trace.id,
         runId: trace.runId,
@@ -2715,8 +3205,8 @@ function traceSummary(trace) {
         skillName: trace.skillName,
         agentName: trace.agentName,
         createdAt: trace.createdAt,
-        ...(typeof result?.status === "string" ? { status: result.status } : {}),
-        ...(typeof result?.score === "number" ? { score: result.score } : {}),
+        ...(status ? { status } : {}),
+        ...(status === "succeeded" && typeof result?.score === "number" ? { score: result.score } : {}),
         ...(typeof result?.error === "string" ? { error: singleLine(result.error) } : {}),
         fileCount: trace.files.length,
         files: trace.files.map(fileSummary),
@@ -2726,7 +3216,7 @@ function formatTraceDetail(detail) {
     return detail.executions.map((execution) => {
         const sessionLabels = execution.sessions.map((session) => session.label).join(",");
         return [
-            `${execution.id}\trun=${detail.runId}\tjobs=${execution.jobIds.join(",")}\tstatus=${execution.status}`,
+            `${execution.id}\trun=${displayRef(detail.runId)}\tjobs=${execution.jobIds.map(displayRef).join(",")}\tstatus=${execution.status}`,
             `events=${execution.trace.events.length}`,
             `spans=${execution.trace.spans.length}`,
             `summaries=${execution.trace.summaries.length}`,
@@ -2735,7 +3225,7 @@ function formatTraceDetail(detail) {
     }).join("\n");
 }
 function formatArtifact(artifact) {
-    return `${artifact.id}\trun=${artifact.runId}\tjob=${artifact.jobId}\t${artifact.kind}\tfiles=${artifact.files.length}`;
+    return `${displayRef(artifact.id)}\trun=${displayRef(artifact.runId)}\tjob=${displayRef(artifact.jobId)}\t${artifact.kind}\tfiles=${artifact.files.length}`;
 }
 function artifactSummary(artifact) {
     return {