npm - @workbench-ai/workbench - Versions diffs - 0.0.70 → 0.0.71 - Mend

@workbench-ai/workbench 0.0.70 → 0.0.71

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (3) hide show

package/dist/index.d.ts.map CHANGED Viewed

	@@ -1 +1 @@
1	- {"version":3,"file":"index.d.ts","sourceRoot":"","sources":["../src/index.ts"],"names":[],"mappings":"~~AA4DA~~,MAAM,WAAW,KAAK;IACpB,MAAM,EAAE,MAAM,CAAC,cAAc,CAAC;IAC9B,MAAM,EAAE,MAAM,CAAC,cAAc,CAAC;CAC/B;~~AAsRD~~,wBAAsB,MAAM,CAAC,IAAI,EAAE,SAAS,MAAM,EAAE,EAAE,EAAE,GAAE,KAGzD,GAAG,OAAO,CAAC,MAAM,CAAC,~~CAsMlB~~"}
1	+ {"version":3,"file":"index.d.ts","sourceRoot":"","sources":["../src/index.ts"],"names":[],"mappings":"AA2DA,MAAM,WAAW,KAAK;IACpB,MAAM,EAAE,MAAM,CAAC,cAAc,CAAC;IAC9B,MAAM,EAAE,MAAM,CAAC,cAAc,CAAC;CAC/B;AAkUD,wBAAsB,MAAM,CAAC,IAAI,EAAE,SAAS,MAAM,EAAE,EAAE,EAAE,GAAE,KAGzD,GAAG,OAAO,CAAC,MAAM,CAAC,CAwMlB"}

package/dist/index.js CHANGED Viewed

@@ -4,10 +4,10 @@ import { createRequire } from "node:module";
 import os from "node:os";
 import path from "node:path";
 import { gzipSync } from "node:zlib";
-import { addWorkbenchCase, addWorkbenchRemote, addWorkbenchAgent, compareWorkbench, createWorkbenchAdapterAuthBundle, createWorkbenchReadOnlyInspectionSnapshot, diffWorkbenchVersions, evalWorkbenchSkill, improveWorkbenchSkill, initWorkbenchSkill, listWorkbenchCases, listWorkbenchAgents, listWorkbenchVersions, localWorkbenchAdapterAuthStore, parseWorkbenchAdapterAuthTarget, publishWorkbenchVersion, removeWorkbenchCase, removeWorkbenchAgent, showWorkbenchRef, switchWorkbenchVersion, syncWorkbenchRemote, workbenchJobEvidenceForSnapshot, workbenchStatusSnapshot, WorkbenchCodedError, WorkbenchUserError, } from "@workbench-ai/workbench-core";
+import { addWorkbenchCase, addWorkbenchRemote, addWorkbenchAgent, compareWorkbench, createWorkbenchInspectionSnapshot, createWorkbenchAdapterAuthBundle, createWorkbenchReadOnlyInspectionSnapshot, diffWorkbenchVersions, evalWorkbenchSkill, improveWorkbenchSkill, initWorkbenchSkill, listWorkbenchAgents, listWorkbenchVersions, localWorkbenchAdapterAuthStore, parseWorkbenchAdapterAuthTarget, publishWorkbenchVersion, removeWorkbenchAgent, showWorkbenchRef, switchWorkbenchVersion, syncWorkbenchRemote, workbenchJobEvidenceForSnapshot, workbenchSkillImproveCanUseQueuedAdapter, workbenchStatusSnapshot, WorkbenchCodedError, WorkbenchUserError, } from "@workbench-ai/workbench-core";
 import { normalizeWorkbenchSkillName } from "@workbench-ai/workbench-contract";
 import { emitError, emitResult } from "./output.js";
-import { installSnapshotToTargets, installTargetsToJson, normalizeInstallSnapshotPath, resolveInstallTargets, supportedInstallTargets, } from "./install-targets.js";
+import { installSnapshotToTargets, normalizeInstallSnapshotPath, resolveInstallTargets, supportedInstallTargets, } from "./install-targets.js";
 import { startWorkbenchOpenServer } from "./open-server.js";
 const require = createRequire(import.meta.url);
 const HELP = [
@@ -23,7 +23,7 @@ const HELP = [
     "  workbench improve [VERSION] [--skills LIST] [--agents LIST] [--budget N] [-n N|--samples N] [--cloud] [--json]",
     "  workbench compare [--skills all|LIST] [--agents all|LIST] [--versions all|A..B|LIST] [--json]",
     "  workbench publish [VERSION] [--as OWNER/SKILL] [--private|--team|--public] [--dry-run] [--json]",
-    "  workbench install HANDLE_OR_URL [--to codex|claude|local]... [--yes] [--list] [--dry-run] [--json]",
+    "  workbench install HANDLE_OR_URL [--to codex|claude|local]... [--yes] [--dry-run] [--json]",
     "",
     "More:",
     "  workbench help --all",
@@ -36,7 +36,7 @@ const HELP_ALL = [
     "  workbench compare [--skills all|LIST] [--agents all|LIST] [--versions all|A..B|LIST] [--json]",
     "  workbench improve [VERSION] [--skills LIST] [--agents LIST] [--budget N] [-n N|--samples N] [--cloud] [--json]",
     "  workbench publish [VERSION] [--as OWNER/SKILL] [--private|--team|--public] [--dry-run] [--json]",
-    "  workbench install HANDLE_OR_URL [--to codex|claude|local]... [--yes] [--list] [--dry-run] [--json]",
+    "  workbench install HANDLE_OR_URL [--to codex|claude|local]... [--yes] [--dry-run] [--json]",
     "",
     "Inspect:",
     "  workbench status [--dir DIR] [--json]",
@@ -47,7 +47,7 @@ const HELP_ALL = [
     "  workbench open [--host HOST] [--port PORT] [--no-open] [--json]",
     "",
     "Configure:",
-    "  workbench case add [RUN_ID] | list | rm ID [--json]",
+    "  workbench case add RUN_ID [--json]",
     "  workbench agent add NAME --adapter X [--model M] [--with k=v]... | list | rm NAME [--json]",
     "",
     "Share and auth:",
@@ -65,28 +65,40 @@ const COMMAND_HELP = {
         "  workbench new [DIR] [--json]",
         "",
         "Creates a Workbench skill project.",
+        "",
+        "Example:",
+        "  workbench new earnings-prep",
     ].join("\n"),
     eval: [
         "Usage:",
         "  workbench eval [VERSION] [--skills all|LIST] [--agents all|LIST] [-n N|--samples N] [--rerun] [--cloud] [--json]",
         "",
         "Runs eval jobs for the selected version, measured skills, and agents. Omitted selectors use manifest defaults.",
+        "",
+        "Example:",
+        "  workbench eval -n 5",
     ].join("\n"),
     improve: [
         "Usage:",
         "  workbench improve [VERSION] [--skills LIST] [--agents LIST] [--budget N] [-n N|--samples N] [--cloud] [--json]",
         "",
         "Creates one improved child version from evidence. The selected skills and agents must resolve to exactly one entry each.",
+        "",
+        "Example:",
+        "  workbench improve --budget 1 -n 1",
     ].join("\n"),
     compare: [
         "Usage:",
         "  workbench compare [--skills all|LIST] [--agents all|LIST] [--versions all|A..B|LIST] [--json]",
         "",
         "Compares recorded eval evidence across selected skills, agents, and versions.",
+        "",
+        "Example:",
+        "  workbench compare --agents all",
     ].join("\n"),
     install: [
         "Usage:",
-        "  workbench install HANDLE_OR_URL [--to codex|claude|local]... [--yes] [--list] [--dry-run] [--json]",
+        "  workbench install HANDLE_OR_URL [--to codex|claude|local]... [--yes] [--dry-run] [--json]",
         "",
         "Installs published Workbench Cloud source into local agent targets.",
         "",
@@ -98,12 +110,18 @@ const COMMAND_HELP = {
         "  workbench status [--dir DIR] [--json]",
         "",
         "Reports project, worktree, run, per-remote sync/publication, and auth state. --json emits the workbench.status.v1 dashboard.",
+        "",
+        "Example:",
+        "  workbench status --json",
     ].join("\n"),
     logout: [
         "Usage:",
         "  workbench logout [PROVIDER] [--json]",
         "",
         "With no provider, logs out of Workbench Cloud. With a provider such as codex or claude, removes local adapter auth.",
+        "",
+        "Example:",
+        "  workbench logout claude",
     ].join("\n"),
     show: [
         "Usage:",
@@ -111,38 +129,54 @@ const COMMAND_HELP = {
         "  workbench show REF:PATH [--json]",
         "",
         "Shows a Workbench object, lists files for file-backed objects, or prints one file.",
+        "",
+        "Example:",
+        "  workbench show run_abc12345:result.json",
     ].join("\n"),
     log: [
         "Usage:",
         "  workbench log [--runs|--versions] [--json]",
         "",
         "Shows one reverse-chronological timeline of versions and runs.",
+        "",
+        "Example:",
+        "  workbench log --runs",
     ].join("\n"),
     diff: [
         "Usage:",
         "  workbench diff [A..B] [--json]",
         "",
         "Shows changed files between two Workbench source versions.",
+        "",
+        "Example:",
+        "  workbench diff 26059f9a..eac5699c",
     ].join("\n"),
     switch: [
         "Usage:",
         "  workbench switch VERSION [--json]",
         "",
         "Switches the working skill source to a recorded Workbench version.",
+        "",
+        "Example:",
+        "  workbench switch 26059f9a",
     ].join("\n"),
     open: [
         "Usage:",
         "  workbench open [--host HOST] [--port PORT] [--no-open] [--json]",
         "",
         "Serves or emits the read-only Workbench inspection snapshot.",
+        "",
+        "Example:",
+        "  workbench open --no-open",
     ].join("\n"),
     case: [
         "Usage:",
-        "  workbench case list [--json]",
-        "  workbench case add [RUN_ID] [--json]",
-        "  workbench case rm ID [--json]",
+        "  workbench case add RUN_ID [--json]",
         "",
-        "Lists cases, creates a draft case, or removes a case.",
+        "Captures a regression case from a recorded run.",
+        "",
+        "Example:",
+        "  workbench case add run_abc12345",
     ].join("\n"),
     agent: [
         "Usage:",
@@ -151,18 +185,27 @@ const COMMAND_HELP = {
         "  workbench agent rm NAME [--json]",
         "",
         "Lists, adds, or removes eval agent configurations.",
+        "",
+        "Example:",
+        "  workbench agent add claude --adapter claude --model sonnet",
     ].join("\n"),
     sync: [
         "Usage:",
         "  workbench sync [REMOTE] [--dry-run] [--dir DIR] [--json]",
         "",
         "Plumbing command: synchronizes local evidence and version objects with a Workbench remote.",
+        "",
+        "Example:",
+        "  workbench sync cloud --dry-run",
     ].join("\n"),
     publish: [
         "Usage:",
         "  workbench publish [VERSION] [--as OWNER/SKILL] [--private|--team|--public] [--dry-run] [--dir DIR] [--json]",
         "",
         "Publishes installable skill source to Workbench Cloud. --as sets the linked OWNER/SKILL handle.",
+        "",
+        "Example:",
+        "  workbench publish --as acme/earnings-prep --dry-run",
     ].join("\n"),
     login: [
         "Usage:",
@@ -170,6 +213,9 @@ const COMMAND_HELP = {
         "  workbench logout [PROVIDER] [--json]",
         "",
         "Connects the CLI to Workbench Cloud or captures local adapter auth for a provider.",
+        "",
+        "Example:",
+        "  workbench login --start-only --no-open",
     ].join("\n"),
 };
 const COMMON_FLAGS = {
@@ -207,7 +253,7 @@ const COMMAND_FLAGS = {
         samples: "positive-integer",
         skills: "string",
     },
-    install: { ...COMMON_FLAGS, ...HELP_FLAG, "dry-run": "boolean", list: "boolean", to: "repeat-string", yes: "boolean" },
+    install: { ...COMMON_FLAGS, ...HELP_FLAG, "dry-run": "boolean", to: "repeat-string", yes: "boolean" },
     log: { ...PROJECT_FLAGS, ...HELP_FLAG, runs: "boolean", versions: "boolean" },
     login: {
         ...COMMON_FLAGS,
@@ -243,9 +289,7 @@ const COMMAND_FLAGS = {
 const SUBCOMMAND_FLAGS = {
     case: {
         flags: {
-            list: { ...PROJECT_FLAGS, ...HELP_FLAG },
             add: { ...PROJECT_FLAGS, ...HELP_FLAG },
-            rm: { ...PROJECT_FLAGS, ...HELP_FLAG },
         },
     },
     agent: {
@@ -315,26 +359,28 @@ export async function runCli(argv, io = {
                 return emitEvalFailure(runs, failedRuns, artifactIds, parsed, io);
             }
             const deltas = await evalDeltas(core, runs);
-            const nextCommands = evalSuccessNextCommands(runs);
+            const next = await evalSuccessNextCommand(core, runs);
             return emitResult("workbench.cli.eval.v1", {
                 result: runs.map((run) => runSummary(run, artifactIds.get(run.id) ?? [])),
                 deltas: deltas,
-                nextCommands: nextCommands,
+                next: next,
             }, parsed, io, () => [
                 runs.map(formatRun).join("\n"),
                 ...deltas.map(formatEvalDelta),
-                ...(nextCommands[0] ? [`next: ${nextCommands[0]}`] : []),
+                ...(next ? [`next: ${next}`] : []),
             ].filter(Boolean).join("\n"));
         }
         if (command === "improve") {
             if (parsed.flags.cloud === true) {
                 return await handleCloudImprove(parsed, io);
             }
+            const improverAgent = await resolveLocalImproverAgent(parsed, core);
             const result = await improveWorkbenchSkill({
                 ...core,
                 version: optionalPositional(parsed, 1),
                 skill: stringFlag(parsed, "skills"),
                 agent: stringFlag(parsed, "agents"),
+                ...(improverAgent ? { improverAgent } : {}),
                 budget: intFlag(parsed, "budget"),
                 samples: intFlag(parsed, "samples"),
             });
@@ -350,12 +396,12 @@ export async function runCli(argv, io = {
                 skills: stringFlag(parsed, "skills"),
                 agents: stringFlag(parsed, "agents"),
             });
-            return output(comparison, parsed, io, () => formatComparison(comparison));
+            return output(manifestOnly(comparison), parsed, io, () => formatComparison(comparison));
         }
         if (command === "switch") {
             const versionRef = requiredPositional(parsed, 1, "workbench switch requires VERSION.");
             const version = await switchWorkbenchVersion(versionRef, core);
-            return output(versionSummary(version), parsed, io, () => `Switched to ${version.id}.`);
+            return output(versionSummary(version), parsed, io, () => `Switched to ${displayRef(version.id)}.`);
         }
         if (command === "diff") {
             const range = optionalPositional(parsed, 1) ?? await defaultDiffRange(core);
@@ -390,7 +436,7 @@ export async function runCli(argv, io = {
             }, parsed, io, () => `${result.dryRun ? "Would sync" : "Synced"} ${result.remote.name}: pushed ${result.pushed}, pulled ${result.pulled}${result.upToDate ? " (up to date)" : ""}.`);
         }
         if (command === "publish") {
-            const preview = parsed.flags["dry-run"] === true && !stringFlag(parsed, "as")
+            const preview = parsed.flags["dry-run"] === true
                 ? await previewPublishWithDerivedRemote(parsed)
                 : undefined;
             if (preview) {
@@ -403,7 +449,7 @@ export async function runCli(argv, io = {
                     pinnedInstallUrl: preview.pinnedInstallUrl,
                     dryRun: true,
                 }, parsed, io, () => [
-                    `Would publish ${preview.version.id} to remote ${preview.remote.name}.`,
+                    `Would publish ${displayRef(preview.version.id)} to remote ${preview.remote.name}.`,
                     `Visibility: ${preview.visibility}`,
                     `Install: ${preview.installUrl}`,
                     `Pinned: ${preview.pinnedInstallUrl}`,
@@ -427,7 +473,7 @@ export async function runCli(argv, io = {
                 pinnedInstallUrl: result.pinnedInstallUrl,
                 ...(result.dryRun ? { dryRun: true } : {}),
             }, parsed, io, () => [
-                `${result.dryRun ? "Would publish" : "Published"} ${result.version.id} to remote ${result.remote.name}.`,
+                `${result.dryRun ? "Would publish" : "Published"} ${displayRef(result.version.id)} to remote ${result.remote.name}.`,
                 `Visibility: ${result.visibility}`,
                 `Install: ${result.installUrl}`,
                 `Pinned: ${result.pinnedInstallUrl}`,
@@ -437,7 +483,7 @@ export async function runCli(argv, io = {
         if (command === "open") {
             if (parsed.flags.json === true) {
                 const snapshot = await createWorkbenchReadOnlyInspectionSnapshot(core);
-                return output(snapshot, parsed, io, () => "Read-only Workbench inspection data is available with --json.");
+                return output(manifestOnly(snapshot), parsed, io, () => "Read-only Workbench inspection data is available with --json.");
             }
             // The browser server serves committed object state through a read-only
             // snapshot path, so long-running commands do not block page loads.
@@ -462,14 +508,15 @@ export async function runCli(argv, io = {
 async function handleStatus(parsed, io) {
     const status = await workbenchStatusSnapshot(await coreOptions(parsed));
     const auth = await workbenchCliAuthStatus();
+    const cliStatus = statusWithCausalNext(status, auth);
     return emitResult("workbench.status.v1", {
-        project: status.project,
-        worktree: status.worktree,
-        runs: status.runs,
-        remotes: status.remotes,
+        project: cliStatus.project,
+        worktree: cliStatus.worktree,
+        runs: cliStatus.runs,
+        remotes: cliStatus.remotes,
         auth: auth,
-        next: status.next,
-    }, parsed, io, () => formatStatusSnapshot({ ...status, auth }));
+        next: cliStatus.next,
+    }, parsed, io, () => formatStatusSnapshot({ ...cliStatus, auth }));
 }
 async function handleLog(parsed, io) {
     if (parsed.flags.runs === true && parsed.flags.versions === true) {
@@ -491,7 +538,7 @@ async function handleLog(parsed, io) {
             remediation: "Run workbench log, workbench log --runs, or workbench log --versions.",
         });
     }
-    const snapshot = await createWorkbenchReadOnlyInspectionSnapshot(await coreOptions(parsed));
+    const snapshot = await createWorkbenchInspectionSnapshot(await coreOptions(parsed));
     const includeRuns = parsed.flags.versions !== true;
     const includeVersions = parsed.flags.runs !== true;
     const entries = [
@@ -534,21 +581,25 @@ async function handleShow(parsed, io) {
         return output(value, parsed, io, () => formatShow(value));
     }
     const snapshot = await createWorkbenchReadOnlyInspectionSnapshot(core);
-    const version = snapshot.versions.find((entry) => entry.id === objectRef);
+    const version = snapshotVersionByRef(snapshot, objectRef);
     if (version) {
         return output(fileListing("version", version.id, version.files), parsed, io, () => formatFileListing("version", version.id, version.files));
     }
-    const trace = snapshot.traces.find((entry) => entry.id === objectRef);
+    const trace = snapshotObjectByRef(snapshot.traces, objectRef, "trace");
     if (trace) {
         return output(fileListing("trace", trace.id, trace.files), parsed, io, () => formatFileListing("trace", trace.id, trace.files));
     }
-    const artifact = snapshot.artifacts.find((entry) => entry.id === objectRef);
+    const artifact = snapshotObjectByRef(snapshot.artifacts, objectRef, "artifact");
     if (artifact) {
         return output(fileListing("artifact", artifact.id, artifact.files), parsed, io, () => formatFileListing("artifact", artifact.id, artifact.files));
     }
     const details = evidenceDetailsForRunOrJob(snapshot, objectRef);
-    if (details.length > 0) {
-        return output(details, parsed, io, () => details.map(formatTraceDetail).join("\n"));
+    const evidenceFiles = evidenceFilesForRunOrJob(snapshot, objectRef);
+    if (details.length > 0 || evidenceFiles.length > 0) {
+        return output({
+            details: details,
+            files: evidenceFiles.map(fileSummary),
+        }, parsed, io, () => formatRunOrJobEvidence(details, evidenceFiles));
     }
     const value = await showWorkbenchRef(ref, core);
     return output(value, parsed, io, () => formatShow(value));
@@ -581,22 +632,19 @@ async function handleAgent(parsed, io) {
     throw new WorkbenchUserError(`Unsupported agent command: ${subcommand}`);
 }
 async function handleCase(parsed, io) {
-    const subcommand = requiredPositional(parsed, 1, "workbench case requires list|add|rm.");
-    if (subcommand === "list") {
-        const cases = await listWorkbenchCases(await coreOptions(parsed));
-        return output(cases, parsed, io, () => cases.map((entry) => `${entry.id}\t${entry.path}`).join("\n") || "No cases.");
-    }
+    const subcommand = requiredPositional(parsed, 1, "workbench case requires add.");
     if (subcommand === "add") {
         const core = await coreOptions(parsed);
-        const sourceRef = optionalPositional(parsed, 2);
-        const record = await addWorkbenchCase({ ...core, fromTraceId: sourceRef ? await traceIdForCaseSource(core, sourceRef) : undefined });
-        return output(record, parsed, io, () => `Added case ${record.id}.`);
-    }
-    if (subcommand === "rm") {
-        const result = await removeWorkbenchCase(requiredPositional(parsed, 2, "workbench case rm requires CASE_ID."), await coreOptions(parsed));
-        return output(result, parsed, io, () => `Removed case ${result.removed}.`);
+        const sourceRef = requiredPositional(parsed, 2, "workbench case add requires RUN_ID.");
+        rejectExtraInput(parsed, {
+            maxPositionals: 3,
+            message: "workbench case add accepts one RUN_ID argument.",
+            remediation: "Run workbench case add RUN_ID.",
+        });
+        const record = await addWorkbenchCase({ ...core, fromTraceId: await traceIdForCaseSource(core, sourceRef) });
+        return output(record, parsed, io, () => `Added draft case ${record.id}. Edit .workbench/cases/${record.path}/case.yaml before using it as score evidence.`);
     }
-    throw new WorkbenchUserError(`Unsupported case command: ${subcommand}`);
+    throw new WorkbenchUserError(`Unknown command: workbench case ${subcommand}`);
 }
 async function handleAdapterLogin(provider, parsed, io) {
     const target = parseAuthTarget(provider, authProfileFlag(parsed));
@@ -714,7 +762,7 @@ async function handleLogin(parsed, io) {
     }
     if (parsed.flags["start-only"] === true && parsed.flags.wait === true) {
         throw new WorkbenchCodedError("usage", "workbench login accepts only one of --start-only or --wait.", {
-            remediation: "Run workbench login --start-only or workbench login --wait --timeout 120.",
+            remediation: "Run workbench login --start-only or workbench login --wait.",
             exitCode: 2,
         });
     }
@@ -723,22 +771,17 @@ async function handleLogin(parsed, io) {
     const timeoutSeconds = intFlag(parsed, "timeout");
     if (startOnly && timeoutSeconds !== undefined) {
         throw new WorkbenchCodedError("usage", "workbench login --timeout only applies with --wait.", {
-            remediation: "Run workbench login --start-only, then workbench login --wait --timeout 120.",
-            exitCode: 2,
-        });
-    }
-    if (waitOnly && timeoutSeconds === undefined) {
-        throw new WorkbenchCodedError("usage", "workbench login --wait requires --timeout N.", {
-            remediation: "Run workbench login --wait --timeout 120.",
+            remediation: "Run workbench login --start-only, then workbench login --wait.",
             exitCode: 2,
         });
     }
     const config = await loadConfig();
-    const baseUrl = selectWorkbenchBaseUrl({
-        explicitBaseUrl: stringFlag(parsed, "base-url"),
+    const explicitBaseUrl = stringFlag(parsed, "base-url");
+    const pending = waitOnly ? await readPendingDeviceAuthorization(explicitBaseUrl) : null;
+    const baseUrl = pending?.baseUrl ?? selectWorkbenchBaseUrl({
+        explicitBaseUrl,
         configBaseUrl: config.baseUrl,
     });
-    const pending = waitOnly ? await readPendingDeviceAuthorization(baseUrl) : null;
     const record = pending ?? await startDeviceAuthorization(baseUrl);
     const freshAuthorization = pending === null;
     if (startOnly) {
@@ -753,8 +796,8 @@ async function handleLogin(parsed, io) {
             verificationUriComplete: record.verification_uri_complete,
             userCode: record.user_code,
             expiresAt: record.expiresAt,
-            resume: "workbench login --wait --timeout 120",
-        }, parsed, io, () => `Open ${record.verification_uri_complete}\nCode: ${record.user_code}\nResume: workbench login --wait --timeout 120`);
+            resume: "workbench login --wait",
+        }, parsed, io, () => `Open ${record.verification_uri_complete}\nCode: ${record.user_code}\nResume: workbench login --wait`);
     }
     await writePendingDeviceAuthorization(record);
     if (freshAuthorization && !parsed.flags.json) {
@@ -801,9 +844,6 @@ async function handleLogout(parsed, io) {
     const config = await loadConfig();
     const baseUrl = optionalWorkbenchBaseUrl({ configBaseUrl: config.baseUrl });
     const tokenPresent = Boolean(config.accessToken);
-    if (tokenPresent && !baseUrl) {
-        throw new WorkbenchUserError("Missing Workbench API URL. Set WORKBENCH_API_URL or run `workbench login --base-url URL`.");
-    }
     let revoke = "skipped";
     if (config.accessToken && baseUrl) {
         try {
@@ -856,18 +896,6 @@ async function handleInstall(parsed, io) {
     const snapshot = await fetchWorkbenchInstallSourceSnapshot(workbenchSource, source);
     const sourceSummary = workbenchInstallSourceSummary(workbenchSource, snapshot);
     const config = await loadConfig();
-    if (parsed.flags.list === true) {
-        return emitResult("workbench.cli.install.v1", {
-            source: sourceSummary,
-            skills: [snapshot.name],
-            fileCount: snapshot.files.length,
-            targets: installTargetsToJson(supportedInstallTargets()),
-        }, parsed, io, () => [
-            `${snapshot.name}\t${snapshot.versionId}\tfiles=${snapshot.files.length}`,
-            "Targets:",
-            ...supportedInstallTargets().map((target) => `  ${target.agent}\t${target.destination}`),
-        ].join("\n"));
-    }
     const toTargets = stringsFlag(parsed, "to");
     const selectedTargets = toTargets.length > 0 ? normalizeInstallTargetNames(toTargets) : await defaultInstallTargetNames(config);
     const targets = resolveInstallTargets({
@@ -905,17 +933,17 @@ async function handleCloudEval(parsed, io) {
         return emitEvalFailure(started.runs, failedRuns, artifactIds, parsed, io);
     }
     const deltas = await evalDeltas(started.core, started.runs);
-    const nextCommands = cloudEvalNextCommands(started.runs);
+    const next = await evalSuccessNextCommand(started.core, started.runs);
     return emitResult("workbench.cli.eval.v1", {
         result: started.runs.map((run) => runSummary(run, artifactIds.get(run.id) ?? [])),
         deltas: deltas,
-        nextCommands: nextCommands,
+        next: next,
         cloud: cloudExecutionSummary(started),
     }, parsed, io, () => [
         `Completed hosted eval on ${started.remote.url}.`,
         started.runs.map(formatRun).join("\n"),
         ...deltas.map(formatEvalDelta),
-        ...(nextCommands[0] ? [`next: ${nextCommands[0]}`] : []),
+        ...(next ? [`next: ${next}`] : []),
     ].filter(Boolean).join("\n"));
 }
 async function handleCloudImprove(parsed, io) {
@@ -934,17 +962,17 @@ async function handleCloudImprove(parsed, io) {
         });
     }
     const switchedVersionId = await switchHostedImproveVersionIfPromoted(started);
-    const nextCommands = cloudImproveNextCommands(started.runs);
+    const next = cloudImproveNextCommand(started.runs);
     return emitResult("workbench.cli.improve.v1", {
         result: started.runs.map((run) => runSummary(run, artifactIds.get(run.id) ?? [])),
-        nextCommands: nextCommands,
+        next: next,
         cloud: cloudExecutionSummary(started),
         ...(switchedVersionId ? { switchedVersionId } : {}),
     }, parsed, io, () => [
         `Completed hosted improve on ${started.remote.url}.`,
         started.runs.map(formatRun).join("\n"),
-        ...(switchedVersionId ? [`Switched local source to ${switchedVersionId}.`] : []),
-        ...(nextCommands[0] ? [`next: ${nextCommands[0]}`] : []),
+        ...(switchedVersionId ? [`Switched local source to ${displayRef(switchedVersionId)}.`] : []),
+        ...(next ? [`next: ${next}`] : []),
     ].filter(Boolean).join("\n"));
 }
 async function defaultInstallTargetNames(config) {
@@ -1197,21 +1225,18 @@ function cloudExecutionRequestBody(command, parsed) {
         ...(command === "improve" ? { budget: intFlag(parsed, "budget") } : {}),
     };
 }
-function cloudEvalNextCommands(runs) {
-    return cloudExecutionNextCommands(runs, "workbench publish");
-}
-function cloudImproveNextCommands(runs) {
-    return cloudExecutionNextCommands(runs, "workbench eval");
+function cloudImproveNextCommand(runs) {
+    return cloudExecutionNextCommand(runs, "workbench eval");
 }
-function cloudExecutionNextCommands(runs, successCommand) {
+function cloudExecutionNextCommand(runs, successCommand) {
     const first = runs[0];
     if (!first) {
-        return ["workbench log --runs"];
+        return "workbench log --runs";
     }
     if (first.status === "running" || first.status === "failed" || first.status === "canceled") {
-        return [`workbench show ${first.id}`];
+        return `workbench show ${displayRef(first.id)}`;
     }
-    return [successCommand];
+    return successCommand;
 }
 function cloudExecutionSummary(started) {
     return {
@@ -1294,12 +1319,13 @@ async function fetchWorkbenchInstallSourceSnapshot(source, displaySource) {
         throw new WorkbenchCodedError("auth_required", token
             ? `Workbench Cloud rejected the provided token while installing ${displaySource}.`
             : `Authentication is required to install ${displaySource}.`, {
-            remediation: `Run workbench login --base-url ${source.baseUrl}.`,
+            remediation: "Run workbench login.",
             exitCode: 1,
         });
     }
     if (!response.ok) {
-        throw new WorkbenchCodedError("install_failed", `Unable to download Workbench source ${displaySource}: ${response.status} ${readResponseError(text) ?? response.statusText}`, {
+        const excerpt = readResponseError(text);
+        throw new WorkbenchCodedError("install_failed", `Unable to download Workbench source ${displaySource}: ${response.status}${excerpt ? ` ${excerpt}` : response.statusText ? ` ${response.statusText}` : ""}`, {
             subject: { source: displaySource, status: response.status },
             exitCode: 1,
         });
@@ -1420,18 +1446,15 @@ function deviceAuthPath() {
     return process.env.WORKBENCH_DEVICE_AUTH?.trim() || path.join(path.dirname(configPath()), "device-auth.json");
 }
 function selectWorkbenchBaseUrl(input = {}) {
-    const baseUrl = optionalWorkbenchBaseUrl(input);
-    if (!baseUrl) {
-        throw new WorkbenchUserError("Missing Workbench API URL. Pass --base-url URL, set WORKBENCH_API_URL, or run `workbench login --base-url URL`.");
-    }
-    return baseUrl;
+    return optionalWorkbenchBaseUrl(input);
 }
 function optionalWorkbenchBaseUrl(input = {}) {
     const value = input.explicitBaseUrl ??
         input.originBaseUrl ??
         process.env.WORKBENCH_API_URL ??
-        input.configBaseUrl;
-    return value ? normalizeBaseUrl(value) : undefined;
+        input.configBaseUrl ??
+        DEFAULT_WORKBENCH_CLOUD_BASE_URL;
+    return normalizeBaseUrl(value);
 }
 function normalizeBaseUrl(value) {
     return value.trim().replace(/\/+$/u, "");
@@ -1449,7 +1472,8 @@ async function requestDeviceAuthorization(baseUrl) {
         });
     }
     if (!response.ok) {
-        throw new WorkbenchCodedError("login_denied", `Device login failed: ${readResponseError(text) ?? response.statusText}`, {
+        const excerpt = readResponseError(text);
+        throw new WorkbenchCodedError("login_denied", `Device login failed: ${response.status}${excerpt ? ` ${excerpt}` : response.statusText ? ` ${response.statusText}` : ""}`, {
             exitCode: 1,
         });
     }
@@ -1500,7 +1524,7 @@ async function pollDeviceToken(baseUrl, authorization, timeoutSeconds) {
     }
     throw new WorkbenchCodedError("login_pending", "Device login is still waiting for browser authorization.", {
         retryable: true,
-        remediation: "Authorize the device in the browser, then run workbench login --wait --timeout 120.",
+        remediation: "Authorize the device in the browser, then run workbench login --wait.",
         subject: {
             retryAfterSeconds: Math.max(1, Math.ceil(intervalMs / 1000)),
             verificationUri: authorization.verification_uri,
@@ -1524,7 +1548,8 @@ async function fetchWorkbenchUsername(baseUrl, accessToken) {
 }
 async function readPendingDeviceAuthorization(baseUrl) {
     const record = await readDeviceAuthorizationJson(deviceAuthPath());
-    if (!record || record.baseUrl !== baseUrl || Date.parse(record.expiresAt) <= Date.now()) {
+    const expectedBaseUrl = baseUrl ? normalizeBaseUrl(baseUrl) : undefined;
+    if (!record || (expectedBaseUrl && record.baseUrl !== expectedBaseUrl) || Date.parse(record.expiresAt) <= Date.now()) {
         return null;
     }
     return record;
@@ -1614,7 +1639,8 @@ async function apiRequest(apiPath, options = {}, baseUrlOverride) {
                 }
                 throw requestError;
             }
-            const requestError = new WorkbenchApiRequestError(response.status, readResponseError(text) ?? `Request failed with status ${response.status}${response.statusText ? ` ${response.statusText}` : ""}.`, text);
+            const excerpt = readResponseError(text);
+            const requestError = new WorkbenchApiRequestError(response.status, `Request failed with status ${response.status}${response.statusText ? ` ${response.statusText}` : ""}${excerpt ? `: ${excerpt}` : ""}.`, text);
             lastError = requestError;
             if (canRetry && attempt < API_REQUEST_MAX_ATTEMPTS && isTransientApiRequestError(requestError)) {
                 await sleep(250 * attempt);
@@ -1707,12 +1733,22 @@ function readResponseError(text) {
         const parsed = JSON.parse(text);
         const record = asRecord(parsed);
         const error = record?.error ?? record?.message;
-        return typeof error === "string" && error.trim() ? error : null;
+        return typeof error === "string" && error.trim() ? oneLineExcerpt(error) : null;
     }
     catch {
-        return text.trim() || null;
+        if (/<(?:!doctype|html|head|body)\b/iu.test(text)) {
+            return null;
+        }
+        return oneLineExcerpt(text);
     }
 }
+function oneLineExcerpt(text) {
+    const line = text.replace(/\s+/gu, " ").trim();
+    if (!line) {
+        return null;
+    }
+    return line.length > 180 ? `${line.slice(0, 177)}...` : line;
+}
 function parseWorkbenchCloudErrorBody(text) {
     try {
         const record = asRecord(JSON.parse(text));
@@ -2227,19 +2263,15 @@ function parsePublishVisibilityFlags(parsed) {
 }
 async function previewPublishWithDerivedRemote(parsed) {
     const root = path.resolve(dirFlag(parsed) ?? process.cwd());
-    const core = await coreOptions(parsed);
-    await listWorkbenchVersions(core);
     const reconciledSnapshot = await createWorkbenchReadOnlyInspectionSnapshot({ dir: root });
     const link = cloudRemoteLinkTargetFromRemotes(reconciledSnapshot.remotes);
-    if (link.existing) {
-        return undefined;
-    }
-    const remote = await derivePublishCloudRemote(parsed, "workbench publish", link.name);
+    const remote = stringFlag(parsed, "as") || !link.existing
+        ? await derivePublishCloudRemote(parsed, "workbench publish", link.name)
+        : link.existing;
     const requestedVersion = optionalPositional(parsed, 1);
-    const versionId = requestedVersion && requestedVersion !== "current"
-        ? requestedVersion
-        : reconciledSnapshot.status.currentVersionId ?? reconciledSnapshot.refs.current;
-    const version = reconciledSnapshot.versions.find((entry) => entry.id === versionId);
+    const version = requestedVersion && requestedVersion !== "current"
+        ? snapshotVersionByRef(reconciledSnapshot, requestedVersion)
+        : snapshotVersionByRef(reconciledSnapshot, reconciledSnapshot.status.currentVersionId ?? reconciledSnapshot.refs.current ?? "");
     if (!version) {
         throw new WorkbenchCodedError("version_not_found", `Version not found: ${requestedVersion ?? "current"}`, {
             remediation: "Run workbench log --versions.",
@@ -2390,7 +2422,7 @@ async function artifactIdsByRunId(core, runs) {
     return byRun;
 }
 function emitEvalFailure(runs, failedRuns, artifactIds, parsed, io) {
-    const nextCommands = evalFailureNextCommands(failedRuns);
+    const next = evalFailureNextCommand(failedRuns);
     if (parsed.flags.json === true) {
         io.stdout.write(`${JSON.stringify({
             schema: "workbench.cli.eval.v1",
@@ -2401,14 +2433,14 @@ function emitEvalFailure(runs, failedRuns, artifactIds, parsed, io) {
             evidenceSaved: true,
             runs: runs.map((run) => runFailureSummary(run, artifactIds.get(run.id) ?? [])),
             failedRuns: failedRuns.map((run) => runFailureSummary(run, artifactIds.get(run.id) ?? [])),
-            nextCommands,
+            next,
         }, null, 2)}\n`);
         return 1;
     }
     io.stdout.write([
         "Eval failed; evidence was saved.",
         ...failedRuns.map(formatRun),
-        ...(nextCommands[0] ? [`next: ${nextCommands[0]}`] : []),
+        ...(next ? [`next: ${next}`] : []),
     ].join("\n") + "\n");
     return 1;
 }
@@ -2441,17 +2473,12 @@ function runFailureSummary(run, artifactIds) {
         artifactIds: [...artifactIds],
     };
 }
-function evalFailureNextCommands(failedRuns) {
+function evalFailureNextCommand(failedRuns) {
     const first = failedRuns[0];
     if (!first) {
-        return ["workbench log --runs"];
+        return "workbench log --runs";
     }
-    return [
-        `workbench show ${first.id}`,
-        `workbench show ${first.id}:stderr.log`,
-        `workbench case add ${first.id}`,
-        `workbench improve --agents ${first.agentName} --budget 1 -n 1`,
-    ];
+    return `workbench show ${displayRef(first.id)}`;
 }
 function output(value, parsed, io, text) {
     return emitResult(commandSchema(parsed), { result: value }, parsed, io, text);
@@ -2484,12 +2511,207 @@ async function workbenchCliAuthStatus() {
         })),
     };
 }
+function statusWithCausalNext(status, auth) {
+    const cloudAuthMissing = auth.workbenchCloud.status !== "authenticated";
+    const needsCloudAuth = cloudAuthMissing && status.remotes.some((remote) => remote.kind === "workbench-cloud" &&
+        (remote.sync.status !== "up_to_date" || remote.publication.status === "unpublished"));
+    if (!needsCloudAuth) {
+        return status;
+    }
+    return {
+        ...status,
+        next: "workbench login",
+    };
+}
+function displayRef(id) {
+    const version = /^v_([0-9a-f]{8,})$/iu.exec(id);
+    if (version?.[1]) {
+        return version[1].slice(0, 8);
+    }
+    const separator = id.indexOf("_");
+    if (separator > 0 && separator < id.length - 1) {
+        const prefix = id.slice(0, separator);
+        const suffix = id.slice(separator + 1);
+        return `${prefix}_${suffix.slice(0, 8)}`;
+    }
+    return id.length > 8 ? id.slice(0, 8) : id;
+}
+function shortenCommandRefs(command) {
+    return command.replace(/\b(?:v_[0-9a-f]{8,}|(?:run|job|trace|artifact)_[a-z0-9_-]+)/giu, (match) => displayRef(match));
+}
+function snapshotVersionByRef(snapshot, ref) {
+    const requested = ref.trim();
+    const normalized = requested === "current" ? snapshot.refs.current ?? "" : requested;
+    if (!normalized) {
+        return undefined;
+    }
+    const candidates = snapshot.versions.filter((version) => snapshotVersionRefMatches(version, normalized));
+    if (candidates.length > 1) {
+        throw new WorkbenchCodedError("ref_ambiguous", `Version ref is ambiguous: ${ref}. Candidates: ${candidates.map((version) => displayRef(version.id)).join(", ")}.`, {
+            subject: { ref, candidates: candidates.map((version) => version.id) },
+            exitCode: 2,
+        });
+    }
+    return candidates[0];
+}
+function snapshotVersionRefMatches(version, ref) {
+    const withoutVersionPrefix = ref.startsWith("v_") ? ref.slice(2) : ref;
+    return version.id === ref ||
+        version.hash === ref ||
+        version.id.startsWith(ref) ||
+        version.hash.startsWith(ref) ||
+        version.hash.startsWith(withoutVersionPrefix) ||
+        version.id.startsWith(`v_${withoutVersionPrefix}`);
+}
+function snapshotObjectByRef(entries, ref, kind) {
+    const normalized = ref.trim();
+    if (!normalized) {
+        return undefined;
+    }
+    const candidates = entries.filter((entry) => objectRefMatches(entry.id, normalized));
+    if (candidates.length > 1) {
+        throw new WorkbenchCodedError("ref_ambiguous", `${capitalize(kind)} ref is ambiguous: ${ref}. Candidates: ${candidates.map((entry) => displayRef(entry.id)).slice(0, 8).join(", ")}.`, {
+            subject: { ref, candidates: candidates.map((entry) => entry.id).slice(0, 20) },
+            exitCode: 2,
+        });
+    }
+    return candidates[0];
+}
+function objectRefMatches(id, ref) {
+    if (id === ref || id.startsWith(ref)) {
+        return true;
+    }
+    const separator = id.indexOf("_");
+    return separator > 0 && id.slice(separator + 1).startsWith(ref);
+}
+function capitalize(value) {
+    return value.length > 0 ? `${value[0].toUpperCase()}${value.slice(1)}` : value;
+}
+function runOrJobEvidenceSelection(snapshot, ref) {
+    const run = snapshotObjectByRef(snapshot.runs, ref, "run");
+    const job = snapshotObjectByRef(snapshot.jobs, ref, "job");
+    if (run && job) {
+        throw new WorkbenchCodedError("ref_ambiguous", `Run/job ref is ambiguous: ${ref}. Candidates: ${displayRef(run.id)}, ${displayRef(job.id)}.`, {
+            subject: { ref, candidates: [run.id, job.id] },
+            exitCode: 2,
+        });
+    }
+    if (run) {
+        return {
+            run,
+            jobs: snapshot.jobs.filter((entry) => entry.runId === run.id),
+        };
+    }
+    return job ? { jobs: [job] } : { jobs: [] };
+}
+function evidenceFilesForRunOrJob(snapshot, ref) {
+    const selection = runOrJobEvidenceSelection(snapshot, ref);
+    if (!selection.run && selection.jobs.length === 0) {
+        return [];
+    }
+    const traceById = new Map(snapshot.traces.map((trace) => [trace.id, trace]));
+    const artifactById = new Map(snapshot.artifacts.map((artifact) => [artifact.id, artifact]));
+    const files = selection.jobs.flatMap((job) => [
+        ...job.traceIds.flatMap((traceId) => {
+            const trace = traceById.get(traceId);
+            return trace
+                ? trace.files.map((file) => evidenceFileWithPath(file, `cases/${evidencePathSegment(job.caseId)}/jobs/${evidencePathSegment(job.id)}/traces/${evidencePathSegment(trace.id)}/${file.path}`))
+                : [];
+        }),
+        ...job.artifactIds.flatMap((artifactId) => {
+            const artifact = artifactById.get(artifactId);
+            return artifact
+                ? artifact.files.map((file) => evidenceFileWithPath(file, `cases/${evidencePathSegment(job.caseId)}/jobs/${evidencePathSegment(job.id)}/artifacts/${evidencePathSegment(artifact.id)}/${file.path}`))
+                : [];
+        }),
+    ]);
+    const seen = new Set();
+    return files.filter((file) => {
+        if (seen.has(file.path)) {
+            return false;
+        }
+        seen.add(file.path);
+        return true;
+    });
+}
+function evidenceFileWithPath(file, filePath) {
+    return {
+        ...file,
+        path: filePath.replace(/\\/gu, "/").replace(/^\/+/u, ""),
+    };
+}
+function evidencePathSegment(value) {
+    return value.replace(/[^A-Za-z0-9._-]+/gu, "-") || "_";
+}
+function formatRunOrJobEvidence(details, files) {
+    const detailLines = details.map(formatTraceDetail).filter(Boolean);
+    const fileLines = files.length > 0 ? ["Files:", ...files.map((file) => file.path)] : [];
+    return [...detailLines, ...fileLines].join("\n") || "No evidence.";
+}
+function manifestOnly(value) {
+    if (value === null || typeof value === "string" || typeof value === "number" || typeof value === "boolean") {
+        return value;
+    }
+    if (Array.isArray(value)) {
+        return value.map(manifestOnly);
+    }
+    if (!value || typeof value !== "object") {
+        return null;
+    }
+    const record = value;
+    if (typeof record.path === "string" && typeof record.content === "string") {
+        return fileSummary(record);
+    }
+    const out = {};
+    for (const [key, child] of Object.entries(record)) {
+        if (child === undefined) {
+            continue;
+        }
+        out[key] = manifestOnly(child);
+    }
+    return out;
+}
+async function resolveLocalImproverAgent(parsed, core) {
+    if (stringFlag(parsed, "agents")) {
+        return undefined;
+    }
+    const agents = await listWorkbenchAgents(core).catch(() => []);
+    const status = await workbenchStatusSnapshot(core).catch(() => undefined);
+    const defaultAgentName = status?.project.defaultAgent ?? agents[0]?.name;
+    const defaultAgent = agents.find((agent) => agent.name === defaultAgentName);
+    if (defaultAgent && workbenchSkillImproveCanUseQueuedAdapter(defaultAgent)) {
+        return undefined;
+    }
+    const connected = await localWorkbenchAdapterAuthStore(adapterAuthStoreRoot()).listStatus().catch(() => []);
+    const candidates = connected
+        .filter((entry) => entry.status === "connected" &&
+        (entry.adapterId === "claude" || entry.adapterId === "codex"))
+        .sort((left, right) => {
+        const adapterRank = (adapter) => adapter === "claude" ? 0 : adapter === "codex" ? 1 : 2;
+        return adapterRank(left.adapterId) - adapterRank(right.adapterId) ||
+            (Date.parse(right.updatedAt ?? "") || 0) - (Date.parse(left.updatedAt ?? "") || 0);
+    });
+    const selected = candidates[0];
+    if (!selected) {
+        throw new WorkbenchCodedError("auth_required", "workbench improve needs a connected improver.", {
+            remediation: "Run workbench login claude (or codex) to connect an improver.",
+            exitCode: 1,
+        });
+    }
+    return {
+        name: selected.adapterId,
+        adapter: selected.adapterId,
+        config: {
+            auth: selected.slot ? { [selected.slot]: selected.profile } : selected.profile,
+        },
+    };
+}
 function formatLogEntry(entry) {
     if (entry.kind === "version") {
-        return `${entry.createdAt}\tversion\t${entry.id}\tfiles=${entry.fileCount}\t${entry.message}`;
+        return `${entry.createdAt}\tversion\t${displayRef(entry.id)}\tfiles=${entry.fileCount}\t${entry.message}`;
     }
     const score = entry.score === undefined ? "n/a" : entry.score.toFixed(3);
-    return `${entry.createdAt}\trun\t${entry.id}\t${entry.status}\tversion=${entry.versionId}\tskill=${entry.skillName}\tagent=${entry.agentName}\tscore=${score}`;
+    return `${entry.createdAt}\trun\t${displayRef(entry.id)}\t${entry.status}\tversion=${displayRef(entry.versionId)}\tskill=${entry.skillName}\tagent=${entry.agentName}\tscore=${score}`;
 }
 function splitShowRef(ref) {
     const index = ref.indexOf(":");
@@ -2500,18 +2722,14 @@ function splitShowRef(ref) {
 }
 async function fileForRunOrJobRef(core, objectRef, requestedPath) {
     const snapshot = await createWorkbenchReadOnlyInspectionSnapshot(core);
-    const run = snapshot.runs.find((entry) => entry.id === objectRef);
-    const job = snapshot.jobs.find((entry) => entry.id === objectRef);
-    if (!run && !job) {
+    const selection = runOrJobEvidenceSelection(snapshot, objectRef);
+    if (!selection.run && selection.jobs.length === 0) {
         return null;
     }
-    const traceIds = run?.traceIds ?? job?.traceIds ?? [];
-    const traces = snapshot.traces.filter((trace) => traceIds.includes(trace.id));
-    for (const trace of traces) {
-        const file = findShowFile(trace.files, requestedPath);
-        if (file) {
-            return file;
-        }
+    const files = evidenceFilesForRunOrJob(snapshot, objectRef);
+    const file = findShowFile(files, requestedPath, objectRef);
+    if (file) {
+        return file;
     }
     throw new WorkbenchCodedError("ref_not_found", `File not found in ${objectRef}: ${requestedPath}`, {
         remediation: `Run workbench show ${objectRef}.`,
@@ -2520,12 +2738,8 @@ async function fileForRunOrJobRef(core, objectRef, requestedPath) {
     });
 }
 function evidenceDetailsForRunOrJob(snapshot, ref) {
-    const run = snapshot.runs.find((entry) => entry.id === ref);
-    const job = snapshot.jobs.find((entry) => entry.id === ref);
-    const jobs = run
-        ? snapshot.jobs.filter((entry) => entry.runId === run.id)
-        : job ? [job] : [];
-    return jobs.flatMap((entry) => {
+    const selection = runOrJobEvidenceSelection(snapshot, ref);
+    return selection.jobs.flatMap((entry) => {
         const detail = workbenchJobEvidenceForSnapshot(snapshot, {
             runId: entry.runId,
             jobId: entry.id,
@@ -2536,12 +2750,58 @@ function evidenceDetailsForRunOrJob(snapshot, ref) {
         execution.trace.events.length > 0 ||
         execution.trace.summaries.length > 0));
 }
-function findShowFile(files, requestedPath) {
+function findShowFile(files, requestedPath, objectRef) {
     const normalized = requestedPath.replace(/\\/gu, "/");
-    return files.find((file) => file.path === normalized) ??
-        files.find((file) => file.path.endsWith(`/${normalized}`)) ??
-        files.find((file) => path.basename(file.path) === normalized) ??
-        null;
+    const exact = files.filter((file) => file.path === normalized);
+    if (exact.length === 1) {
+        return exact[0];
+    }
+    const exactEquivalent = singleEquivalentShowFile(exact);
+    if (exactEquivalent) {
+        return exactEquivalent;
+    }
+    if (exact.length > 1) {
+        throw ambiguousShowPath(objectRef, requestedPath, exact);
+    }
+    const suffixCandidates = files.filter((file) => file.path.endsWith(`/${normalized}`) || path.basename(file.path) === normalized);
+    if (suffixCandidates.length === 0) {
+        return null;
+    }
+    const candidates = normalized === "stderr.log"
+        ? suffixCandidates.filter((file) => file.content.length > 0)
+        : suffixCandidates;
+    if (candidates.length === 1) {
+        return candidates[0];
+    }
+    const equivalentCandidate = singleEquivalentShowFile(candidates);
+    if (equivalentCandidate) {
+        return equivalentCandidate;
+    }
+    if (candidates.length === 0 && suffixCandidates.length === 1) {
+        return suffixCandidates[0];
+    }
+    const equivalentSuffixCandidate = singleEquivalentShowFile(suffixCandidates);
+    if (equivalentSuffixCandidate) {
+        return equivalentSuffixCandidate;
+    }
+    throw ambiguousShowPath(objectRef, requestedPath, candidates.length > 0 ? candidates : suffixCandidates);
+}
+function singleEquivalentShowFile(files) {
+    if (files.length <= 1) {
+        return null;
+    }
+    const first = files[0];
+    return files.every((file) => file.kind === first.kind && file.encoding === first.encoding && file.content === first.content)
+        ? first
+        : null;
+}
+function ambiguousShowPath(objectRef, requestedPath, candidates) {
+    const candidatePaths = candidates.map((file) => file.path);
+    return new WorkbenchCodedError("ref_ambiguous", `File path is ambiguous in ${objectRef}: ${requestedPath}. Candidates: ${candidatePaths.join(", ")}.`, {
+        remediation: `Run workbench show ${objectRef}.`,
+        subject: { ref: objectRef, path: requestedPath, candidates: candidatePaths },
+        exitCode: 2,
+    });
 }
 function fileListing(kind, id, files) {
     return {
@@ -2552,17 +2812,16 @@ function fileListing(kind, id, files) {
     };
 }
 function formatFileListing(kind, id, files) {
-    return [`${kind}\t${id}\tfiles=${files.length}`, ...files.map((file) => file.path)].join("\n");
+    return [`${kind}\t${displayRef(id)}\tfiles=${files.length}`, ...files.map((file) => file.path)].join("\n");
 }
 async function traceIdForCaseSource(core, ref) {
     const snapshot = await createWorkbenchReadOnlyInspectionSnapshot(core);
-    const trace = snapshot.traces.find((entry) => entry.id === ref);
+    const trace = snapshotObjectByRef(snapshot.traces, ref, "trace");
     if (trace) {
         return trace.id;
     }
-    const run = snapshot.runs.find((entry) => entry.id === ref);
-    const job = snapshot.jobs.find((entry) => entry.id === ref);
-    const traceId = run?.traceIds[0] ?? job?.traceIds[0];
+    const selection = runOrJobEvidenceSelection(snapshot, ref);
+    const traceId = selection.run?.traceIds[0] ?? selection.jobs[0]?.traceIds[0];
     if (traceId) {
         return traceId;
     }
@@ -2594,21 +2853,35 @@ async function evalDeltas(core, runs) {
     });
 }
 function formatEvalDelta(delta) {
-    const score = delta.score === undefined ? "n/a" : delta.score.toFixed(3);
+    if (delta.score === undefined) {
+        return "";
+    }
+    const score = delta.score.toFixed(3);
     if (delta.previousScore === undefined || delta.delta === undefined) {
-        return `${delta.skillName} ${delta.versionId} ${score} (was n/a)`;
+        return `${delta.skillName} ${displayRef(delta.versionId)} ${score}`;
     }
     const sign = delta.delta >= 0 ? "+" : "";
-    return `${delta.skillName} ${delta.versionId} ${score} (was ${delta.previousScore.toFixed(3)}, ${sign}${delta.delta.toFixed(3)})`;
+    return `${delta.skillName} ${displayRef(delta.versionId)} ${score} (was ${delta.previousScore.toFixed(3)}, ${sign}${delta.delta.toFixed(3)})`;
 }
-function evalSuccessNextCommands(runs) {
-    return runs.length > 0 ? ["workbench publish"] : ["workbench eval"];
+async function evalSuccessNextCommand(core, runs) {
+    if (runs.length === 0) {
+        return "workbench eval";
+    }
+    if (!runs.some((run) => typeof run.score === "number")) {
+        return "edit .workbench/cases, then run workbench eval";
+    }
+    const snapshot = await createWorkbenchReadOnlyInspectionSnapshot(core);
+    const currentVersion = snapshotVersionByRef(snapshot, snapshot.status.currentVersionId ?? snapshot.refs.current ?? "");
+    const caseFiles = currentVersion?.files.filter((file) => file.kind === "text" &&
+        /^\.workbench\/cases\/[^/]+\/case\.ya?ml$/u.test(file.path)) ?? [];
+    const hasWorkflowCase = caseFiles.some((file) => file.kind === "text" && !/\n\s*smoke:\s*true(?:\s|$)/u.test(`\n${file.content}`));
+    return hasWorkflowCase ? "workbench publish" : "edit .workbench/cases, then run workbench eval";
 }
 function formatStatusSnapshot(status) {
     const lines = [
         `Root: ${status.project.root}`,
         `Initialized: ${status.project.initialized ? "yes" : "no"}`,
-        ...(status.project.currentVersionId ? [`Current version: ${status.project.currentVersionId}`] : []),
+        ...(status.project.currentVersionId ? [`Current version: ${displayRef(status.project.currentVersionId)}`] : []),
         ...(status.project.defaultSkill ? [`Default skill: ${status.project.defaultSkill}`] : []),
         ...(status.project.defaultAgent ? [`Default agent: ${status.project.defaultAgent}`] : []),
         `Runs: ${status.runs.total}${status.runs.lastStatus ? ` (last ${status.runs.lastStatus})` : ""}`,
@@ -2618,7 +2891,7 @@ function formatStatusSnapshot(status) {
                     ? [
                         "publication=published",
                         remote.publication.visibility ? `visibility=${remote.publication.visibility}` : undefined,
-                        remote.publication.versionId ? `version=${remote.publication.versionId}` : undefined,
+                        remote.publication.versionId ? `version=${displayRef(remote.publication.versionId)}` : undefined,
                         remote.publication.installUrl ? `install=${remote.publication.installUrl}` : undefined,
                         remote.publication.pinnedInstallUrl ? `pinned=${remote.publication.pinnedInstallUrl}` : undefined,
                     ].filter(Boolean).join("\t")
@@ -2629,17 +2902,16 @@ function formatStatusSnapshot(status) {
                         ? [
                             `    error[${remote.sync.lastError.code}]: ${remote.sync.lastError.message}`,
                             ...(remote.sync.lastAttemptAt ? [`    last attempt: ${remote.sync.lastAttemptAt}`] : []),
-                            ...(remote.sync.nextCommand ? [`    next: ${remote.sync.nextCommand}`] : []),
                         ]
                         : []),
                 ];
             })] : ["Remotes: none"]),
-        ...(status.next[0] ? [`next: ${status.next[0]}`] : []),
+        ...(status.next ? [`next: ${shortenCommandRefs(status.next)}`] : []),
     ];
     return lines.join("\n");
 }
 function formatVersion(version) {
-    return `${version.id}\t${version.hash.slice(0, 12)}\t${version.message}`;
+    return `${displayRef(version.id)}\t${version.hash.slice(0, 12)}\t${version.message}`;
 }
 function versionSummary(version) {
     return {
@@ -2657,11 +2929,11 @@ function formatAgent(agent) {
 function formatRun(run) {
     const score = run.score === undefined ? "n/a" : run.score.toFixed(3);
     const latency = run.latencyMs === undefined ? "n/a" : `${run.latencyMs}ms`;
-    return `${run.id}\t${run.kind}\t${run.status}\tversion=${run.versionId}\tskill=${run.skillName}\tagent=${run.agentName}\tscore=${score}\tlatency=${latency}`;
+    return `${displayRef(run.id)}\t${run.kind}\t${run.status}\tversion=${displayRef(run.versionId)}\tskill=${run.skillName}\tagent=${run.agentName}\tscore=${score}\tlatency=${latency}`;
 }
 function formatImproveResult(result) {
     return [
-        `Improved ${result.version.parentIds[0] ?? "current"} -> ${result.version.id}. ${formatRun(result.run)}`,
+        `Improved ${result.version.parentIds[0] ? displayRef(result.version.parentIds[0]) : "current"} -> ${displayRef(result.version.id)}. ${formatRun(result.run)}`,
         result.switched
             ? "Switched to improved version."
             : `Did not switch: ${result.promotionReason}`,
@@ -2670,26 +2942,26 @@ function formatImproveResult(result) {
 function formatJob(job) {
     const score = job.score === undefined ? "n/a" : job.score.toFixed(3);
     const duration = job.durationMs === undefined ? "n/a" : `${job.durationMs}ms`;
-    return `${job.id}\trun=${job.runId}\tcase=${job.caseId}\tsample=${job.sample}\t${job.status}\tscore=${score}\tduration=${duration}`;
+    return `${displayRef(job.id)}\trun=${displayRef(job.runId)}\tcase=${job.caseId}\tsample=${job.sample}\t${job.status}\tscore=${score}\tduration=${duration}`;
 }
 function formatComparison(comparison) {
     const lines = ["version\tskill\tagent\tstatus\tscore\tcost\tlatency\trun"];
     for (const cell of comparison.cells) {
         lines.push([
-            cell.versionId,
+            displayRef(cell.versionId),
             cell.skillName,
             `${cell.agentName}@${shortObjectId(cell.agentHash)}`,
             cell.status ?? "not-run",
             cell.score === undefined ? "n/a" : cell.score.toFixed(3),
             cell.costUsd === undefined ? "n/a" : `$${cell.costUsd.toFixed(4)}`,
             cell.latencyMs === undefined ? "n/a" : `${cell.latencyMs}ms`,
-            cell.runId ?? "n/a",
+            cell.runId ? displayRef(cell.runId) : "n/a",
         ].join("\t"));
     }
     return lines.join("\n");
 }
 function shortObjectId(id) {
-    return id.length > 12 ? id.slice(0, 12) : id;
+    return id.length > 8 ? id.slice(0, 8) : id;
 }
 function formatTrace(trace) {
     const result = asRecord(trace.result);
@@ -2698,7 +2970,7 @@ function formatTrace(trace) {
     const error = typeof result?.error === "string" ? result.error.split(/\r?\n/u)[0] : undefined;
     const files = trace.files.slice(0, 5).map((file) => file.path).join(",");
     return [
-        `${trace.id}\trun=${trace.runId}\tjob=${trace.jobId ?? "n/a"}\tversion=${trace.versionId}\tskill=${trace.skillName}\tagent=${trace.agentName}`,
+        `${displayRef(trace.id)}\trun=${displayRef(trace.runId)}\tjob=${trace.jobId ? displayRef(trace.jobId) : "n/a"}\tversion=${displayRef(trace.versionId)}\tskill=${trace.skillName}\tagent=${trace.agentName}`,
         status ? `status=${status}` : undefined,
         score ? `score=${score}` : undefined,
         error ? `error=${error}` : undefined,
@@ -2726,7 +2998,7 @@ function formatTraceDetail(detail) {
     return detail.executions.map((execution) => {
         const sessionLabels = execution.sessions.map((session) => session.label).join(",");
         return [
-            `${execution.id}\trun=${detail.runId}\tjobs=${execution.jobIds.join(",")}\tstatus=${execution.status}`,
+            `${execution.id}\trun=${displayRef(detail.runId)}\tjobs=${execution.jobIds.map(displayRef).join(",")}\tstatus=${execution.status}`,
             `events=${execution.trace.events.length}`,
             `spans=${execution.trace.spans.length}`,
             `summaries=${execution.trace.summaries.length}`,
@@ -2735,7 +3007,7 @@ function formatTraceDetail(detail) {
     }).join("\n");
 }
 function formatArtifact(artifact) {
-    return `${artifact.id}\trun=${artifact.runId}\tjob=${artifact.jobId}\t${artifact.kind}\tfiles=${artifact.files.length}`;
+    return `${displayRef(artifact.id)}\trun=${displayRef(artifact.runId)}\tjob=${displayRef(artifact.jobId)}\t${artifact.kind}\tfiles=${artifact.files.length}`;
 }
 function artifactSummary(artifact) {
     return {

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@workbench-ai/workbench",
-  "version": "0.0.70",
+  "version": "0.0.71",
   "repository": {
     "type": "git",
     "url": "git+https://github.com/workbench-ai/workbench.git",
@@ -21,10 +21,10 @@
   ],
   "dependencies": {
     "yaml": "^2.8.2",
-    "@workbench-ai/workbench-contract": "0.0.70",
-    "@workbench-ai/workbench-built-in-adapters": "0.0.70",
-    "@workbench-ai/workbench-protocol": "0.0.70",
-    "@workbench-ai/workbench-core": "0.0.70"
+    "@workbench-ai/workbench-built-in-adapters": "0.0.71",
+    "@workbench-ai/workbench-core": "0.0.71",
+    "@workbench-ai/workbench-contract": "0.0.71",
+    "@workbench-ai/workbench-protocol": "0.0.71"
   },
   "devDependencies": {
     "@tailwindcss/postcss": "^4.2.2",
@@ -35,7 +35,7 @@
     "react-dom": "^19.2.0",
     "typescript": "^5.9.2",
     "vitest": "^3.2.4",
-    "@workbench-ai/workbench-ui": "0.0.1"
+    "@workbench-ai/workbench-ui": "0.0.71"
   },
   "scripts": {
     "build": "rm -rf dist && tsc -p tsconfig.json && chmod 755 dist/workbench.js && node ./scripts/build-dev-open-assets.mjs",