npm - agentv - Versions diffs - 3.14.6 → 4.1.0 - Mend

agentv 3.14.6 → 4.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (22) hide show

package/README.md +59 -533
package/dist/{chunk-CQRWNXVG.js → chunk-2W5JKKXC.js} +537 -727
package/dist/chunk-2W5JKKXC.js.map +1 -0
package/dist/{chunk-Y25VL7PX.js → chunk-4Z326WWF.js} +40 -17
package/dist/chunk-4Z326WWF.js.map +1 -0
package/dist/{chunk-ELQEFMGO.js → chunk-XEAW7OQT.js} +594 -296
package/dist/chunk-XEAW7OQT.js.map +1 -0
package/dist/cli.js +3 -3
package/dist/{dist-5EEXTTC3.js → dist-2JUUJ6PT.js} +18 -2
package/dist/index.js +3 -3
package/dist/{interactive-5ESM5DWV.js → interactive-7ZYS6IOC.js} +4 -11
package/dist/interactive-7ZYS6IOC.js.map +1 -0
package/dist/studio/assets/index-CDGReinH.js +71 -0
package/dist/studio/assets/index-DofvSOmX.js +11 -0
package/dist/studio/assets/index-izxfmBKC.css +1 -0
package/dist/studio/index.html +13 -0
package/package.json +1 -1
package/dist/chunk-CQRWNXVG.js.map +0 -1
package/dist/chunk-ELQEFMGO.js.map +0 -1
package/dist/chunk-Y25VL7PX.js.map +0 -1
package/dist/interactive-5ESM5DWV.js.map +0 -1
/package/dist/{dist-5EEXTTC3.js.map → dist-2JUUJ6PT.js.map} +0 -0

package/dist/{chunk-CQRWNXVG.js → chunk-2W5JKKXC.js} RENAMED Viewed

@@ -10,6 +10,7 @@ import {
   loadManifestResults,
   loadRunCache,
   package_default,
+  parseResultManifest,
   resolveEvalPaths,
   resolveExistingRunPrimaryPath,
   resolveResultSourcePath,
@@ -23,9 +24,11 @@ import {
   validateFileReferences,
   validateTargetsFile,
   writeArtifactsFromResults
-} from "./chunk-Y25VL7PX.js";
+} from "./chunk-4Z326WWF.js";
 import {
+  DEFAULT_CATEGORY,
   createBuiltinRegistry,
+  deriveCategory,
   executeScript,
   getAgentvHome,
   getOutputFilenames,
@@ -40,7 +43,7 @@ import {
   toSnakeCaseDeep as toSnakeCaseDeep2,
   transpileEvalYamlFile,
   trimBaselineResult
-} from "./chunk-ELQEFMGO.js";
+} from "./chunk-XEAW7OQT.js";
 import {
   __commonJS,
   __esm,
@@ -3479,9 +3482,23 @@ var ASSERTION_TEMPLATES = {
   default: `#!/usr/bin/env bun
 import { defineAssertion } from '@agentv/eval';
-export default defineAssertion(({ outputText }) => {
+/** Extract text from the last message with the given role. */
+function getMessageText(messages: Array<{ role: string; content?: unknown }>, role = 'assistant'): string {
+  for (let i = messages.length - 1; i >= 0; i--) {
+    const msg = messages[i];
+    if (msg.role !== role) continue;
+    if (typeof msg.content === 'string') return msg.content;
+    if (Array.isArray(msg.content)) {
+      return msg.content.filter((b: any) => b.type === 'text').map((b: any) => b.text).join('\\n');
+    }
+  }
+  return '';
+}
+export default defineAssertion(({ output }) => {
   // TODO: Implement your assertion logic
-  const pass = outputText.length > 0;
+  const text = getMessageText(output ?? []);
+  const pass = text.length > 0;
   return {
     pass,
     reasoning: pass ? 'Output has content' : 'Output is empty',
@@ -3491,9 +3508,23 @@ export default defineAssertion(({ outputText }) => {
   score: `#!/usr/bin/env bun
 import { defineAssertion } from '@agentv/eval';
-export default defineAssertion(({ outputText }) => {
+/** Extract text from the last message with the given role. */
+function getMessageText(messages: Array<{ role: string; content?: unknown }>, role = 'assistant'): string {
+  for (let i = messages.length - 1; i >= 0; i--) {
+    const msg = messages[i];
+    if (msg.role !== role) continue;
+    if (typeof msg.content === 'string') return msg.content;
+    if (Array.isArray(msg.content)) {
+      return msg.content.filter((b: any) => b.type === 'text').map((b: any) => b.text).join('\\n');
+    }
+  }
+  return '';
+}
+export default defineAssertion(({ output }) => {
   // TODO: Implement your scoring logic (0.0 to 1.0)
-  const score = outputText.length > 0 ? 1.0 : 0.0;
+  const text = getMessageText(output ?? []);
+  const score = text.length > 0 ? 1.0 : 0.0;
   return {
     pass: score >= 0.5,
     score,
@@ -4186,7 +4217,7 @@ var evalRunCommand = command({
   },
   handler: async (args) => {
     if (args.evalPaths.length === 0 && process.stdin.isTTY) {
-      const { launchInteractiveWizard } = await import("./interactive-5ESM5DWV.js");
+      const { launchInteractiveWizard } = await import("./interactive-7ZYS6IOC.js");
       await launchInteractiveWizard();
       return;
     }
@@ -4421,7 +4452,8 @@ var evalBenchCommand = command({
     const manifest = JSON.parse(await readFile(join(exportDir, "manifest.json"), "utf8"));
     const testIds = manifest.test_ids;
     const targetName = manifest.target?.name ?? "unknown";
-    const evalSet = manifest.eval_set ?? "";
+    const evalSet = manifest.dataset ?? "";
+    const experiment = manifest.experiment;
     const safeEvalSet = evalSet ? evalSet.replace(/[\/\\:*?"<>|]/g, "_") : "";
     let stdinData;
     if (llmScoresPath) {
@@ -4531,7 +4563,8 @@ var evalBenchCommand = command({
         JSON.stringify({
           timestamp: manifest.timestamp,
           test_id: testId,
-          eval_set: evalSet || void 0,
+          dataset: evalSet || void 0,
+          experiment: experiment || void 0,
           score: Math.round(weightedScore * 1e3) / 1e3,
           target: targetName,
           scores,
@@ -4553,6 +4586,7 @@ var evalBenchCommand = command({
       metadata: {
         eval_file: manifest.eval_file,
         timestamp: manifest.timestamp,
+        experiment: experiment || void 0,
         targets: [targetName],
         tests_run: testIds
       },
@@ -4594,6 +4628,12 @@ function computeStats(values) {
 // src/commands/pipeline/grade.ts
 import { mkdir as mkdir2, readFile as readFile2, readdir as readdir2, writeFile as writeFile3 } from "node:fs/promises";
 import { join as join2 } from "node:path";
+function extractInputText(input) {
+  if (!input || input.length === 0) return "";
+  if (input.length === 1) return input[0].content;
+  return input.map((m) => `@[${m.role}]:
+${m.content}`).join("\n\n");
+}
 var evalGradeCommand = command({
   name: "grade",
   description: "Run code-grader assertions on responses in an export directory",
@@ -4608,7 +4648,7 @@ var evalGradeCommand = command({
     const manifestPath = join2(exportDir, "manifest.json");
     const manifest = JSON.parse(await readFile2(manifestPath, "utf8"));
     const testIds = manifest.test_ids;
-    const evalSet = manifest.eval_set ?? "";
+    const evalSet = manifest.dataset ?? "";
     const safeEvalSet = evalSet ? evalSet.replace(/[\/\\:*?"<>|]/g, "_") : "";
     let totalGraders = 0;
     let totalPassed = 0;
@@ -4630,14 +4670,13 @@ var evalGradeCommand = command({
       for (const graderFile of graderFiles) {
         const graderConfig = JSON.parse(await readFile2(join2(codeGradersDir, graderFile), "utf8"));
         const graderName = graderConfig.name;
+        const inputText = extractInputText(inputData.input);
         const payload = JSON.stringify({
           output: [{ role: "assistant", content: responseText }],
-          input: inputData.input_messages,
-          question: inputData.input_text,
+          input: inputData.input,
           criteria: "",
           expected_output: [],
-          reference_answer: "",
-          input_files: [],
+          input_files: inputData.input_files ?? [],
           trace: null,
           token_usage: null,
           cost_usd: null,
@@ -4647,8 +4686,8 @@ var evalGradeCommand = command({
           file_changes: null,
           workspace_path: null,
           config: graderConfig.config ?? null,
-          metadata: {},
-          input_text: inputData.input_text,
+          metadata: inputData.metadata ?? {},
+          input_text: inputText,
           output_text: responseText,
           expected_output_text: ""
         });
@@ -4706,7 +4745,7 @@ var evalGradeCommand = command({
 // src/commands/pipeline/input.ts
 import { readFile as readFile3 } from "node:fs/promises";
 import { mkdir as mkdir3, writeFile as writeFile4 } from "node:fs/promises";
-import { dirname, join as join3, resolve } from "node:path";
+import { dirname, join as join3, relative, resolve } from "node:path";
 var evalInputCommand = command({
   name: "input",
   description: "Extract eval inputs, target commands, and grader prompts for subagent-mode runs",
@@ -4720,14 +4759,20 @@ var evalInputCommand = command({
       type: optional(string),
       long: "out",
       description: "Output directory for extracted inputs (default: .agentv/results/runs/<timestamp>)"
+    }),
+    experiment: option({
+      type: optional(string),
+      long: "experiment",
+      description: "Experiment label (e.g. with_skills, without_skills)"
     })
   },
-  handler: async ({ evalPath, out }) => {
+  handler: async ({ evalPath, out, experiment }) => {
     const resolvedEvalPath = resolve(evalPath);
     const outDir = resolve(out ?? buildDefaultRunDir(process.cwd()));
     const repoRoot = await findRepoRoot(dirname(resolvedEvalPath));
     const evalDir = dirname(resolvedEvalPath);
-    const suite = await loadTestSuite(resolvedEvalPath, repoRoot);
+    const category = deriveCategory(relative(process.cwd(), resolvedEvalPath));
+    const suite = await loadTestSuite(resolvedEvalPath, repoRoot, { category });
     const tests = suite.tests;
     if (tests.length === 0) {
       console.error("No tests found in eval file.");
@@ -4736,6 +4781,7 @@ var evalInputCommand = command({
     let targetInfo = null;
     let targetName = "agent";
     let targetKind = "agent";
+    let subagentModeAllowed = true;
     try {
       const selection = await selectTarget({
         testFilePath: resolvedEvalPath,
@@ -4748,15 +4794,20 @@ var evalInputCommand = command({
         env: process.env
       });
       targetName = selection.targetName;
-      if (selection.resolvedTarget.kind === "cli") {
+      const resolved = selection.resolvedTarget;
+      subagentModeAllowed = resolved.subagentModeAllowed !== false;
+      if (resolved.kind === "cli") {
         targetKind = "cli";
-        const config = selection.resolvedTarget.config;
+        subagentModeAllowed = false;
+        const config = resolved.config;
         targetInfo = {
           kind: "cli",
           command: config.command,
           cwd: config.cwd ?? evalDir,
           timeoutMs: config.timeoutMs ?? 3e4
         };
+      } else {
+        targetKind = resolved.kind;
       }
     } catch {
     }
@@ -4768,15 +4819,13 @@ var evalInputCommand = command({
       const testDir = join3(outDir, ...subpath);
       await mkdir3(testDir, { recursive: true });
       testIds.push(test.id);
-      const inputText = test.question;
       const inputMessages = test.input.map((m) => ({
         role: m.role,
         content: typeof m.content === "string" ? m.content : m.content
       }));
       await writeJson(join3(testDir, "input.json"), {
-        input_text: inputText,
-        input_messages: inputMessages,
-        file_paths: test.file_paths,
+        input: inputMessages,
+        input_files: test.file_paths,
         metadata: test.metadata ?? {}
       });
       if (targetInfo) {
@@ -4804,11 +4853,13 @@ var evalInputCommand = command({
     }
     await writeJson(join3(outDir, "manifest.json"), {
       eval_file: resolvedEvalPath,
-      eval_set: evalSetName || void 0,
+      dataset: evalSetName || void 0,
+      experiment: experiment || void 0,
       timestamp: (/* @__PURE__ */ new Date()).toISOString(),
       target: {
         name: targetName,
-        kind: targetKind
+        kind: targetKind,
+        subagent_mode_allowed: subagentModeAllowed
       },
       test_ids: testIds
     });
@@ -4870,7 +4921,13 @@ import { execSync } from "node:child_process";
 import { existsSync as existsSync3, readFileSync as readFileSync4, unlinkSync } from "node:fs";
 import { mkdir as mkdir4, readFile as readFile4, readdir as readdir3, writeFile as writeFile5 } from "node:fs/promises";
 import { tmpdir } from "node:os";
-import { dirname as dirname2, join as join4, resolve as resolve2 } from "node:path";
+import { dirname as dirname2, join as join4, relative as relative2, resolve as resolve2 } from "node:path";
+function extractInputText2(input) {
+  if (!input || input.length === 0) return "";
+  if (input.length === 1) return input[0].content;
+  return input.map((m) => `@[${m.role}]:
+${m.content}`).join("\n\n");
+}
 function loadEnvFile(dir) {
   let current = resolve2(dir);
   while (true) {
@@ -4910,14 +4967,25 @@ var evalRunCommand2 = command({
       type: optional(number),
       long: "workers",
       description: "Parallel workers for target invocation (default: all tests)"
+    }),
+    experiment: option({
+      type: optional(string),
+      long: "experiment",
+      description: "Experiment label (e.g. with_skills, without_skills)"
+    }),
+    graderType: option({
+      type: optional(oneOf(["code", "none"])),
+      long: "grader-type",
+      description: 'Which grading phase to run: "code" runs code-graders inline, omit to skip grading (use pipeline grade separately)'
     })
   },
-  handler: async ({ evalPath, out, workers }) => {
+  handler: async ({ evalPath, out, workers, experiment, graderType }) => {
     const resolvedEvalPath = resolve2(evalPath);
     const outDir = resolve2(out ?? buildDefaultRunDir(process.cwd()));
     const repoRoot = await findRepoRoot(dirname2(resolvedEvalPath));
     const evalDir = dirname2(resolvedEvalPath);
-    const suite = await loadTestSuite(resolvedEvalPath, repoRoot);
+    const category = deriveCategory(relative2(process.cwd(), resolvedEvalPath));
+    const suite = await loadTestSuite(resolvedEvalPath, repoRoot, { category });
     const tests = suite.tests;
     if (tests.length === 0) {
       console.error("No tests found in eval file.");
@@ -4958,15 +5026,13 @@ var evalRunCommand2 = command({
       const testDir = join4(outDir, ...subpath);
       await mkdir4(testDir, { recursive: true });
       testIds.push(test.id);
-      const inputText = test.question;
       const inputMessages = test.input.map((m) => ({
         role: m.role,
         content: typeof m.content === "string" ? m.content : m.content
       }));
       await writeJson2(join4(testDir, "input.json"), {
-        input_text: inputText,
-        input_messages: inputMessages,
-        file_paths: test.file_paths,
+        input: inputMessages,
+        input_files: test.file_paths,
         metadata: test.metadata ?? {}
       });
       if (targetInfo) {
@@ -4994,7 +5060,8 @@ var evalRunCommand2 = command({
     }
     await writeJson2(join4(outDir, "manifest.json"), {
       eval_file: resolvedEvalPath,
-      eval_set: evalSetName || void 0,
+      dataset: evalSetName || void 0,
+      experiment: experiment || void 0,
       timestamp: (/* @__PURE__ */ new Date()).toISOString(),
       target: { name: targetName, kind: targetKind },
       test_ids: testIds
@@ -5019,11 +5086,12 @@ var evalRunCommand2 = command({
         const timeoutMs = invoke.timeout_ms ?? 12e4;
         const promptFile = join4(tmpdir(), `agentv-prompt-${testId}-${Date.now()}.txt`);
         const outputFile = join4(tmpdir(), `agentv-output-${testId}-${Date.now()}.txt`);
-        await writeFile5(promptFile, inputData.input_text, "utf8");
+        const inputText = extractInputText2(inputData.input);
+        await writeFile5(promptFile, inputText, "utf8");
         let rendered = template;
         rendered = rendered.replace("{PROMPT_FILE}", promptFile);
         rendered = rendered.replace("{OUTPUT_FILE}", outputFile);
-        rendered = rendered.replace("{PROMPT}", inputData.input_text);
+        rendered = rendered.replace("{PROMPT}", inputText);
         const start = performance.now();
         try {
           execSync(rendered, {
@@ -5080,6 +5148,12 @@ var evalRunCommand2 = command({
     } else {
       console.log("Subagent-as-target mode \u2014 skipping CLI invocation.");
     }
+    if (graderType !== "code") {
+      console.log(`
+Done. Results in ${outDir}`);
+      console.log("To run code graders: agentv pipeline grade <run-dir>  (or re-run with --grader-type code)");
+      return;
+    }
     let totalGraders = 0;
     let totalPassed = 0;
     for (const testId of testIds) {
@@ -5100,14 +5174,13 @@ var evalRunCommand2 = command({
       for (const graderFile of graderFiles) {
         const graderConfig = JSON.parse(await readFile4(join4(codeGradersDir, graderFile), "utf8"));
         const graderName = graderConfig.name;
+        const inputText = extractInputText2(inputData.input);
         const payload = JSON.stringify({
           output: [{ role: "assistant", content: responseText }],
-          input: inputData.input_messages,
-          question: inputData.input_text,
+          input: inputData.input,
           criteria: "",
           expected_output: [],
-          reference_answer: "",
-          input_files: [],
+          input_files: inputData.input_files ?? [],
           trace: null,
           token_usage: null,
           cost_usd: null,
@@ -5117,8 +5190,8 @@ var evalRunCommand2 = command({
           file_changes: null,
           workspace_path: null,
           config: graderConfig.config ?? null,
-          metadata: {},
-          input_text: inputData.input_text,
+          metadata: inputData.metadata ?? {},
+          input_text: inputText,
           output_text: responseText,
           expected_output_text: ""
         });
@@ -5306,7 +5379,7 @@ function toRawResult(result) {
   return {
     timestamp: result.timestamp,
     test_id: result.testId,
-    eval_set: result.eval_set,
+    dataset: result.dataset,
     conversation_id: result.conversationId,
     score: result.score,
     assertions: result.assertions?.map((assertion) => ({
@@ -5429,7 +5502,7 @@ function loadOtlpTraceFile(filePath) {
     }
     return {
       test_id: stringAttr(rootAttrs.agentv_test_id) ?? stringAttr(rootAttrs.agentv_eval_id) ?? `trace-${index + 1}`,
-      eval_set: stringAttr(rootAttrs.agentv_eval_set),
+      dataset: stringAttr(rootAttrs.agentv_dataset),
       target: stringAttr(rootAttrs.agentv_target),
       score,
       error: root.status?.code === 2 ? root.status.message : void 0,
@@ -6173,8 +6246,9 @@ var resultsCommand = subcommands({
 });
 // src/commands/results/serve.ts
-import { existsSync as existsSync7, readFileSync as readFileSync8, writeFileSync as writeFileSync3 } from "node:fs";
+import { existsSync as existsSync7, readFileSync as readFileSync8, readdirSync as readdirSync3, statSync as statSync4, writeFileSync as writeFileSync3 } from "node:fs";
 import path9 from "node:path";
+import { fileURLToPath as fileURLToPath2 } from "node:url";
 import { Hono } from "hono";
 function feedbackPath(resultDir) {
   return path9.join(resultDir, "feedback.json");
@@ -6195,24 +6269,46 @@ function writeFeedback(cwd, data) {
   writeFileSync3(feedbackPath(cwd), `${JSON.stringify(data, null, 2)}
 `, "utf8");
 }
-function createApp(results, resultDir, cwd, sourceFile) {
+function createApp(results, resultDir, cwd, sourceFile, options) {
   const searchDir = cwd ?? resultDir;
   const app2 = new Hono();
+  const studioDistPath = options?.studioDir ?? resolveStudioDistDir();
+  if (!studioDistPath || !existsSync7(path9.join(studioDistPath, "index.html"))) {
+    throw new Error('Studio dist not found. Run "bun run build" in apps/studio/ to build the SPA.');
+  }
   app2.get("/", (c3) => {
-    return c3.html(generateServeHtml(results, sourceFile));
+    const indexPath = path9.join(studioDistPath, "index.html");
+    if (existsSync7(indexPath)) {
+      return c3.html(readFileSync8(indexPath, "utf8"));
+    }
+    return c3.notFound();
   });
   app2.get("/api/runs", (c3) => {
     const metas = listResultFiles(searchDir);
     return c3.json({
-      runs: metas.map((m) => ({
-        filename: m.filename,
-        path: m.path,
-        timestamp: m.timestamp,
-        test_count: m.testCount,
-        pass_rate: m.passRate,
-        avg_score: m.avgScore,
-        size_bytes: m.sizeBytes
-      }))
+      runs: metas.map((m) => {
+        let target;
+        let experiment;
+        try {
+          const records = loadLightweightResults(m.path);
+          if (records.length > 0) {
+            target = records[0].target;
+            experiment = records[0].experiment;
+          }
+        } catch {
+        }
+        return {
+          filename: m.filename,
+          path: m.path,
+          timestamp: m.timestamp,
+          test_count: m.testCount,
+          pass_rate: m.passRate,
+          avg_score: m.avgScore,
+          size_bytes: m.sizeBytes,
+          ...target && { target },
+          ...experiment && { experiment }
+        };
+      })
     });
   });
   app2.get("/api/runs/:filename", (c3) => {
@@ -6272,692 +6368,406 @@ function createApp(results, resultDir, cwd, sourceFile) {
     writeFeedback(resultDir, existing);
     return c3.json(existing);
   });
-  return app2;
-}
-function stripHeavyFields(results) {
-  return results.map((r) => {
-    const { requests, trace, ...rest } = r;
-    const toolCalls = trace?.toolCalls && Object.keys(trace.toolCalls).length > 0 ? trace.toolCalls : void 0;
-    const graderDurationMs = (r.scores ?? []).reduce((sum, s) => sum + (s.durationMs ?? 0), 0);
-    return {
-      ...rest,
-      ...toolCalls && { _toolCalls: toolCalls },
-      ...graderDurationMs > 0 && { _graderDurationMs: graderDurationMs }
-    };
+  app2.get("/api/runs/:filename/datasets", (c3) => {
+    const filename = c3.req.param("filename");
+    const metas = listResultFiles(searchDir);
+    const meta = metas.find((m) => m.filename === filename);
+    if (!meta) {
+      return c3.json({ error: "Run not found" }, 404);
+    }
+    try {
+      const loaded = patchTestIds(loadManifestResults(meta.path));
+      const datasetMap = /* @__PURE__ */ new Map();
+      for (const r of loaded) {
+        const ds = r.dataset ?? r.target ?? "default";
+        const entry = datasetMap.get(ds) ?? { total: 0, passed: 0, scoreSum: 0 };
+        entry.total++;
+        if (r.score >= 1) entry.passed++;
+        entry.scoreSum += r.score;
+        datasetMap.set(ds, entry);
+      }
+      const datasets = [...datasetMap.entries()].map(([name, entry]) => ({
+        name,
+        total: entry.total,
+        passed: entry.passed,
+        failed: entry.total - entry.passed,
+        avg_score: entry.total > 0 ? entry.scoreSum / entry.total : 0
+      }));
+      return c3.json({ datasets });
+    } catch {
+      return c3.json({ error: "Failed to load datasets" }, 500);
+    }
   });
-}
-function escapeHtml(s) {
-  return s.replace(/&/g, "&amp;").replace(/</g, "&lt;").replace(/>/g, "&gt;").replace(/"/g, "&quot;");
-}
-function generateServeHtml(results, sourceFile) {
-  const lightResults = stripHeavyFields(results);
-  const dataJson = JSON.stringify(lightResults).replace(/</g, "\\u003c").replace(/>/g, "\\u003e").replace(/\u2028/g, "\\u2028").replace(/\u2029/g, "\\u2029");
-  return `<!DOCTYPE html>
-<html lang="en">
-<head>
-    <meta charset="utf-8">
-    <meta name="viewport" content="width=device-width, initial-scale=1">
-    <title>AgentV Results Review</title>
-    <style>
-${SERVE_STYLES}
-    </style>
-</head>
-<body>
-    <header class="header">
-        <div class="header-left">
-            <h1 class="header-title">AgentV</h1>
-            <span class="header-subtitle">Results Review</span>
-        </div>
-        <div class="header-center">
-            <select id="run-picker" class="run-picker" title="Switch result file">
-                <option value="">Loading runs...</option>
-            </select>
-        </div>
-        <div class="header-right">
-            <span class="timestamp">${escapeHtml((/* @__PURE__ */ new Date()).toISOString())}</span>
-        </div>
-    </header>
-    <nav class="tabs" id="tabs">
-        <button class="tab active" data-tab="overview">Overview</button>
-        <button class="tab" data-tab="tests">Test Cases</button>
-    </nav>
-    <main id="app"></main>
-    <script>
-    var DATA = ${dataJson};
-    var INITIAL_SOURCE = ${sourceFile ? JSON.stringify(path9.basename(sourceFile)).replace(/</g, "\\u003c").replace(/>/g, "\\u003e") : "null"};
-${SERVE_SCRIPT}
-    </script>
-</body>
-</html>`;
-}
-var SERVE_STYLES = `
-*{margin:0;padding:0;box-sizing:border-box}
-:root{
-  --bg:#f6f8fa;--surface:#fff;--border:#d0d7de;--border-light:#e8ebee;
-  --text:#1f2328;--text-muted:#656d76;
-  --primary:#0969da;--primary-bg:#ddf4ff;
-  --success:#1a7f37;--success-bg:#dafbe1;
-  --danger:#cf222e;--danger-bg:#ffebe9;
-  --warning:#9a6700;--warning-bg:#fff8c5;
-  --radius:6px;
-  --shadow:0 1px 3px rgba(31,35,40,.04),0 1px 2px rgba(31,35,40,.06);
-  --font:-apple-system,BlinkMacSystemFont,"Segoe UI","Noto Sans",Helvetica,Arial,sans-serif;
-  --mono:ui-monospace,SFMono-Regular,"SF Mono",Menlo,Consolas,monospace;
-}
-body{font-family:var(--font);background:var(--bg);color:var(--text);line-height:1.5;font-size:14px}
-/* Header */
-.header{background:var(--surface);border-bottom:1px solid var(--border);padding:12px 24px;display:flex;align-items:center;justify-content:space-between}
-.header-left{display:flex;align-items:baseline;gap:12px}
-.header-title{font-size:18px;font-weight:600}
-.header-subtitle{font-size:14px;color:var(--text-muted)}
-.header-center{flex:1;display:flex;justify-content:center;padding:0 16px}
-.run-picker{padding:6px 10px;border:1px solid var(--border);border-radius:var(--radius);font-size:13px;background:var(--surface);color:var(--text);font-family:var(--font);max-width:400px;width:100%;cursor:pointer}
-.run-picker:hover{border-color:var(--primary)}
-.run-picker:focus{outline:none;border-color:var(--primary);box-shadow:0 0 0 3px var(--primary-bg)}
-.timestamp{font-size:12px;color:var(--text-muted);font-family:var(--mono)}
-/* Tabs */
-.tabs{background:var(--surface);border-bottom:1px solid var(--border);padding:0 24px;display:flex}
-.tab{background:none;border:none;padding:10px 16px;font-size:14px;color:var(--text-muted);cursor:pointer;border-bottom:2px solid transparent;font-family:var(--font);transition:color .15s,border-color .15s}
-.tab:hover{color:var(--text)}
-.tab.active{color:var(--text);font-weight:600;border-bottom-color:var(--primary)}
-#app{max-width:1280px;margin:0 auto;padding:24px}
-/* Stat cards */
-.stats-grid{display:grid;grid-template-columns:repeat(auto-fit,minmax(140px,1fr));gap:12px;margin-bottom:24px}
-.stat-card{background:var(--surface);border:1px solid var(--border);border-radius:var(--radius);padding:16px;text-align:center;box-shadow:var(--shadow)}
-.stat-card.pass .stat-value{color:var(--success)}
-.stat-card.fail .stat-value{color:var(--danger)}
-.stat-card.error .stat-value{color:var(--danger)}
-.stat-card.warn .stat-value{color:var(--warning)}
-.stat-card.total .stat-value{color:var(--primary)}
-.stat-value{font-size:28px;font-weight:700;line-height:1.2}
-.stat-label{font-size:12px;color:var(--text-muted);text-transform:uppercase;letter-spacing:.5px;margin-top:4px}
-/* Sections */
-.section{margin-bottom:24px}
-.section-title{font-size:16px;font-weight:600;margin-bottom:12px}
-/* Tables */
-.table-wrap{overflow-x:auto;background:var(--surface);border:1px solid var(--border);border-radius:var(--radius);box-shadow:var(--shadow)}
-.data-table{width:100%;border-collapse:collapse;font-size:13px}
-.data-table th{background:var(--bg);border-bottom:1px solid var(--border);padding:8px 12px;text-align:left;font-weight:600;font-size:12px;color:var(--text-muted);text-transform:uppercase;letter-spacing:.3px;white-space:nowrap}
-.data-table th.sortable{cursor:pointer;user-select:none}
-.data-table th.sortable:hover{color:var(--text)}
-.data-table td{padding:8px 12px;border-bottom:1px solid var(--border-light);vertical-align:middle}
-.data-table tbody tr:last-child td{border-bottom:none}
-/* Status icons */
-.status-icon{display:inline-flex;align-items:center;justify-content:center;width:22px;height:22px;border-radius:50%;font-size:12px;font-weight:700}
-.status-icon.pass{background:var(--success-bg);color:var(--success)}
-.status-icon.fail{background:var(--danger-bg);color:var(--danger)}
-.status-icon.error{background:var(--warning-bg);color:var(--warning)}
-/* Score colors */
-.score-high{color:var(--success);font-weight:600}
-.score-mid{color:var(--warning);font-weight:600}
-.score-low{color:var(--danger);font-weight:600}
-/* Pass-rate bar */
-.bar-bg{width:100px;height:8px;background:var(--border-light);border-radius:4px;overflow:hidden}
-.bar-fill{height:100%;border-radius:4px;transition:width .3s}
-.bar-fill.score-high{background:var(--success)}
-.bar-fill.score-mid{background:var(--warning)}
-.bar-fill.score-low{background:var(--danger)}
-/* Histogram */
-.histogram{background:var(--surface);border:1px solid var(--border);border-radius:var(--radius);padding:16px;box-shadow:var(--shadow)}
-.hist-row{display:flex;align-items:center;gap:12px;margin-bottom:8px}
-.hist-row:last-child{margin-bottom:0}
-.hist-label{width:60px;font-size:12px;color:var(--text-muted);text-align:right;flex-shrink:0}
-.hist-bar-bg{flex:1;height:20px;background:var(--border-light);border-radius:3px;overflow:hidden}
-.hist-bar{height:100%;border-radius:3px;transition:width .3s}
-.hist-count{width:30px;font-size:12px;color:var(--text-muted);text-align:right;flex-shrink:0}
-/* Filters */
-.filter-bar{display:flex;gap:8px;margin-bottom:16px;align-items:center;flex-wrap:wrap}
-.filter-select,.filter-search{padding:6px 10px;border:1px solid var(--border);border-radius:var(--radius);font-size:13px;background:var(--surface);color:var(--text);font-family:var(--font)}
-.filter-search{flex:1;min-width:200px}
-.filter-count{font-size:12px;color:var(--text-muted);margin-left:auto}
-/* Test rows */
-.test-row{cursor:pointer;transition:background .1s}
-.test-row:hover{background:var(--bg)!important}
-.test-row.expanded{background:var(--primary-bg)!important}
-.expand-col{width:32px;text-align:center}
-.expand-icon{color:var(--text-muted);font-size:12px}
-.fw-medium{font-weight:500}
-.text-pass{color:var(--success)}.text-fail{color:var(--danger)}.text-error{color:var(--warning)}
-/* Detail panel */
-.detail-row td{padding:0!important;background:var(--bg)!important}
-.detail-panel{padding:16px 24px}
-.detail-grid{display:grid;grid-template-columns:1fr 1fr;gap:16px;margin-bottom:16px}
-.detail-block h4{font-size:12px;color:var(--text-muted);text-transform:uppercase;letter-spacing:.3px;margin-bottom:6px}
-.detail-pre{background:var(--surface);border:1px solid var(--border);border-radius:var(--radius);padding:12px;font-family:var(--mono);font-size:12px;white-space:pre-wrap;word-break:break-word;max-height:300px;overflow-y:auto;line-height:1.6}
-.detail-panel h4{font-size:13px;font-weight:600;margin:16px 0 8px}
-.eval-table{width:100%;border-collapse:collapse;font-size:13px;background:var(--surface);border:1px solid var(--border);border-radius:var(--radius);margin-bottom:12px}
-.eval-table th{background:var(--bg);padding:6px 10px;text-align:left;font-size:11px;font-weight:600;color:var(--text-muted);text-transform:uppercase;border-bottom:1px solid var(--border)}
-.eval-table td{padding:8px 10px;border-bottom:1px solid var(--border-light)}
-.reasoning-cell{max-width:500px;font-size:12px;color:var(--text-muted)}
-.expect-list{list-style:none;padding:0;margin-bottom:12px}
-.expect-list li{padding:4px 8px 4px 24px;position:relative;font-size:13px}
-.expect-list.pass li::before{content:"\\2713";position:absolute;left:4px;color:var(--success);font-weight:700}
-.expect-list.fail li::before{content:"\\2717";position:absolute;left:4px;color:var(--danger);font-weight:700}
-.error-box{background:var(--danger-bg);border:1px solid var(--danger);border-radius:var(--radius);padding:12px;margin-bottom:12px}
-.error-box h4{color:var(--danger);margin:0 0 6px}
-.error-box pre{font-family:var(--mono);font-size:12px;white-space:pre-wrap;word-break:break-word}
-.detail-meta{font-size:12px;color:var(--text-muted);margin-top:12px;padding-top:12px;border-top:1px solid var(--border-light)}
-.tool-calls{display:flex;flex-wrap:wrap;gap:6px;margin-bottom:12px}
-.tool-tag{display:inline-block;padding:2px 10px;font-size:12px;font-family:var(--mono);background:var(--primary-bg);color:var(--primary);border:1px solid var(--border);border-radius:12px}
-.empty-state{text-align:center;padding:48px 24px;color:var(--text-muted)}
-.empty-state h3{font-size:16px;margin-bottom:8px;color:var(--text)}
-.welcome-state{text-align:center;padding:80px 24px;color:var(--text-muted)}
-.welcome-state h2{font-size:24px;margin-bottom:12px;color:var(--text);font-weight:600}
-.welcome-state p{font-size:15px;margin-bottom:8px;max-width:500px;margin-left:auto;margin-right:auto}
-.welcome-state code{font-family:var(--mono);background:var(--surface);border:1px solid var(--border);border-radius:3px;padding:2px 6px;font-size:13px}
-.welcome-state .hint{margin-top:24px;font-size:13px;color:var(--text-muted)}
-/* Feedback */
-.feedback-section{margin-top:16px;padding-top:16px;border-top:1px solid var(--border-light)}
-.feedback-input{width:100%;min-height:80px;padding:8px 12px;border:1px solid var(--border);border-radius:var(--radius);font-family:var(--font);font-size:13px;resize:vertical;background:var(--surface);color:var(--text)}
-.feedback-input:focus{outline:none;border-color:var(--primary);box-shadow:0 0 0 3px var(--primary-bg)}
-.feedback-submit{margin-top:8px;padding:6px 16px;background:var(--primary);color:#fff;border:none;border-radius:var(--radius);font-size:13px;cursor:pointer;font-family:var(--font)}
-.feedback-submit:hover{opacity:.9}
-.feedback-submit:disabled{opacity:.5;cursor:default}
-.feedback-status{margin-left:8px;font-size:12px;color:var(--success)}
-`;
-var SERVE_SCRIPT = `
-(function(){
-  /* ---- helpers ---- */
-  function esc(s){
-    if(s==null)return"";
-    return String(s).replace(/&/g,"&amp;").replace(/</g,"&lt;").replace(/>/g,"&gt;").replace(/"/g,"&quot;");
-  }
-  function getStatus(r){
-    if(r.executionStatus==="execution_error")return"error";
-    if(r.executionStatus==="quality_failure")return"fail";
-    if(r.executionStatus==="ok")return"pass";
-    if(r.error)return"error";
-    return r.score>=0.5?"pass":"fail";
-  }
-  function sIcon(s){
-    if(s==="pass")return'<span class="status-icon pass">\\u2713</span>';
-    if(s==="fail")return'<span class="status-icon fail">\\u2717</span>';
-    return'<span class="status-icon error">!</span>';
-  }
-  function fmtDur(ms){
-    if(ms==null)return"\\u2014";
-    if(ms<1000)return ms+"ms";
-    if(ms<60000)return(ms/1000).toFixed(1)+"s";
-    return Math.floor(ms/60000)+"m "+Math.round((ms%60000)/1000)+"s";
-  }
-  function fmtTok(n){
-    if(n==null)return"\\u2014";
-    if(n>=1e6)return(n/1e6).toFixed(1)+"M";
-    if(n>=1e3)return(n/1e3).toFixed(1)+"K";
-    return String(n);
-  }
-  function fmtCost(u){if(u==null)return"\\u2014";if(u<0.01)return"<$0.01";return"$"+u.toFixed(2);}
-  function fmtPct(v){if(v==null)return"\\u2014";return(v*100).toFixed(1)+"%";}
-  function sCls(v){if(v==null)return"";if(v>=0.9)return"score-high";if(v>=0.5)return"score-mid";return"score-low";}
-  /* ---- feedback state ---- */
-  var feedbackCache={};
-  function loadFeedback(){
-    fetch("/api/feedback").then(function(r){return r.json();}).then(function(d){
-      if(d&&d.reviews){
-        for(var i=0;i<d.reviews.length;i++){
-          feedbackCache[d.reviews[i].test_id]=d.reviews[i].comment;
-        }
-        populateFeedbackTextareas();
-      }
-    }).catch(function(){});
-  }
-  function populateFeedbackTextareas(){
-    var areas=document.querySelectorAll(".feedback-input");
-    for(var i=0;i<areas.length;i++){
-      var tid=areas[i].getAttribute("data-test-id");
-      if(tid&&feedbackCache[tid]!=null){
-        areas[i].value=feedbackCache[tid];
-      }
+  app2.get("/api/runs/:filename/categories", (c3) => {
+    const filename = c3.req.param("filename");
+    const metas = listResultFiles(searchDir);
+    const meta = metas.find((m) => m.filename === filename);
+    if (!meta) {
+      return c3.json({ error: "Run not found" }, 404);
     }
-  }
-  function saveFeedback(testId,comment,statusEl,btn){
-    btn.disabled=true;
-    statusEl.textContent="Saving...";
-    statusEl.style.color="var(--text-muted)";
-    fetch("/api/feedback",{
-      method:"POST",
-      headers:{"Content-Type":"application/json"},
-      body:JSON.stringify({reviews:[{test_id:testId,comment:comment}]})
-    }).then(function(r){return r.json();}).then(function(){
-      feedbackCache[testId]=comment;
-      statusEl.textContent="Saved";
-      statusEl.style.color="var(--success)";
-      btn.disabled=false;
-      setTimeout(function(){statusEl.textContent="";},2000);
-    }).catch(function(){
-      statusEl.textContent="Error saving";
-      statusEl.style.color="var(--danger)";
-      btn.disabled=false;
-    });
-  }
-  /* ---- compute stats ---- */
-  function computeStats(d){
-    var t=d.length,p=0,f=0,e=0,dur=0,ti=0,to=0,cost=0,sc=[],tc=0;
-    for(var i=0;i<d.length;i++){
-      var r=d[i],s=getStatus(r);
-      if(s==="pass")p++;else if(s==="fail")f++;else e++;
-      if(r.durationMs)dur+=r.durationMs;
-      if(r.tokenUsage){ti+=(r.tokenUsage.input||0);to+=(r.tokenUsage.output||0);}
-      if(r.costUsd)cost+=r.costUsd;
-      if(s!=="error")sc.push(r.score);
-      if(r._toolCalls){for(var k in r._toolCalls)tc+=r._toolCalls[k];}
-    }
-    var g=t-e;
-    return{total:t,passed:p,failed:f,errors:e,passRate:g>0?p/g:0,dur:dur,tokens:ti+to,inTok:ti,outTok:to,cost:cost,scores:sc,toolCalls:tc};
-  }
-  function computeTargets(d){
-    var m={};
-    for(var i=0;i<d.length;i++){
-      var r=d[i],tgt=r.target||"unknown";
-      if(!m[tgt])m[tgt]={target:tgt,results:[],p:0,f:0,e:0,ts:0,sc:0,dur:0,tok:0,cost:0};
-      var o=m[tgt];o.results.push(r);
-      var s=getStatus(r);
-      if(s==="pass")o.p++;else if(s==="fail")o.f++;else o.e++;
-      if(s!=="error"){o.ts+=r.score;o.sc++;}
-      if(r.durationMs)o.dur+=r.durationMs;
-      if(r.tokenUsage)o.tok+=(r.tokenUsage.input||0)+(r.tokenUsage.output||0);
-      if(r.costUsd)o.cost+=r.costUsd;
-    }
-    var a=[];for(var k in m)a.push(m[k]);return a;
-  }
-  function getEvalNames(){
-    var n={};
-    for(var i=0;i<DATA.length;i++){
-      var sc=DATA[i].scores;
-      if(sc)for(var j=0;j<sc.length;j++)n[sc[j].name]=true;
-    }
-    return Object.keys(n);
-  }
-  function getEvalScore(r,name){
-    if(!r.scores)return null;
-    for(var i=0;i<r.scores.length;i++)if(r.scores[i].name===name)return r.scores[i].score;
-    return null;
-  }
-  var stats=computeStats(DATA);
-  var tgtStats=computeTargets(DATA);
-  var tgtNames=tgtStats.map(function(t){return t.target;});
-  /* ---- state ---- */
-  var state={tab:"overview",filter:{status:"all",target:"all",search:""},sort:{col:"testId",dir:"asc"},expanded:{}};
-  /* ---- DOM refs ---- */
-  var app=document.getElementById("app");
-  var tabBtns=document.querySelectorAll(".tab");
-  /* ---- tabs ---- */
-  function setTab(t){
-    state.tab=t;
-    for(var i=0;i<tabBtns.length;i++)tabBtns[i].classList.toggle("active",tabBtns[i].getAttribute("data-tab")===t);
-    render();
-  }
-  for(var i=0;i<tabBtns.length;i++){
-    tabBtns[i].addEventListener("click",(function(b){return function(){setTab(b.getAttribute("data-tab"));};})(tabBtns[i]));
-  }
-  /* ---- render ---- */
-  function render(){
-    if(DATA.length===0){
-      app.innerHTML='<div class="welcome-state">'
-        +'<h2>No results yet</h2>'
-        +'<p>Run an evaluation or mount a results directory to see results here.</p>'
-        +'<p><code>agentv eval &lt;eval-file&gt;</code></p>'
-        +'<p class="hint">The dashboard will automatically detect new result files.</p>'
-        +'</div>';
-      return;
+    try {
+      const loaded = patchTestIds(loadManifestResults(meta.path));
+      const categoryMap = /* @__PURE__ */ new Map();
+      for (const r of loaded) {
+        const cat = r.category ?? DEFAULT_CATEGORY;
+        const entry = categoryMap.get(cat) ?? {
+          total: 0,
+          passed: 0,
+          scoreSum: 0,
+          datasets: /* @__PURE__ */ new Set()
+        };
+        entry.total++;
+        if (r.score >= 1) entry.passed++;
+        entry.scoreSum += r.score;
+        entry.datasets.add(r.dataset ?? r.target ?? "default");
+        categoryMap.set(cat, entry);
+      }
+      const categories = [...categoryMap.entries()].map(([name, entry]) => ({
+        name,
+        total: entry.total,
+        passed: entry.passed,
+        failed: entry.total - entry.passed,
+        avg_score: entry.total > 0 ? entry.scoreSum / entry.total : 0,
+        dataset_count: entry.datasets.size
+      }));
+      return c3.json({ categories });
+    } catch {
+      return c3.json({ error: "Failed to load categories" }, 500);
     }
-    if(state.tab==="overview")renderOverview();else renderTests();
-  }
-  /* ---- stat card helper ---- */
-  function card(label,value,type){
-    return'<div class="stat-card '+type+'"><div class="stat-value">'+value+'</div><div class="stat-label">'+label+"</div></div>";
-  }
-  /* ---- overview ---- */
-  function renderOverview(){
-    var h='<div class="stats-grid">';
-    h+=card("Total Tests",stats.total,"total");
-    h+=card("Passed",stats.passed,"pass");
-    h+=card("Failed",stats.failed,"fail");
-    h+=card("Errors",stats.errors,"error");
-    var prCls=stats.passRate>=0.9?"pass":stats.passRate>=0.5?"warn":"fail";
-    h+=card("Pass Rate",fmtPct(stats.passRate),prCls);
-    h+=card("Duration",fmtDur(stats.dur),"neutral");
-    h+=card("Tokens",fmtTok(stats.tokens),"neutral");
-    h+=card("Est. Cost",fmtCost(stats.cost),"neutral");
-    if(stats.toolCalls>0)h+=card("Tool Calls",fmtTok(stats.toolCalls),"neutral");
-    h+="</div>";
-    /* targets table */
-    if(tgtStats.length>1){
-      h+='<div class="section"><h2 class="section-title">Targets</h2><div class="table-wrap"><table class="data-table">';
-      h+="<thead><tr><th>Target</th><th>Pass Rate</th><th></th><th>Passed</th><th>Failed</th><th>Errors</th><th>Avg Score</th><th>Duration</th><th>Tokens</th><th>Cost</th></tr></thead><tbody>";
-      for(var i=0;i<tgtStats.length;i++){
-        var t=tgtStats[i],g=t.p+t.f,pr=g>0?t.p/g:0,avg=t.sc>0?t.ts/t.sc:0;
-        h+="<tr><td class=\\"fw-medium\\">"+esc(t.target)+"</td><td>"+fmtPct(pr)+'</td><td><div class="bar-bg"><div class="bar-fill '+sCls(pr)+'" style="width:'+(pr*100)+'%"></div></div></td>';
-        h+='<td class="text-pass">'+t.p+'</td><td class="text-fail">'+t.f+'</td><td class="text-error">'+t.e+"</td>";
-        h+='<td class="'+sCls(avg)+'">'+fmtPct(avg)+"</td><td>"+fmtDur(t.dur)+"</td><td>"+fmtTok(t.tok)+"</td><td>"+fmtCost(t.cost)+"</td></tr>";
-      }
-      h+="</tbody></table></div></div>";
+  });
+  app2.get("/api/runs/:filename/categories/:category/datasets", (c3) => {
+    const filename = c3.req.param("filename");
+    const category = decodeURIComponent(c3.req.param("category"));
+    const metas = listResultFiles(searchDir);
+    const meta = metas.find((m) => m.filename === filename);
+    if (!meta) {
+      return c3.json({ error: "Run not found" }, 404);
     }
-    /* histogram */
-    if(stats.scores.length>0){
-      var bk=[0,0,0,0,0];
-      for(var i=0;i<stats.scores.length;i++){var idx=Math.min(Math.floor(stats.scores[i]*5),4);bk[idx]++;}
-      var mx=Math.max.apply(null,bk);
-      var lb=["0\\u201320%","20\\u201340%","40\\u201360%","60\\u201380%","80\\u2013100%"];
-      h+='<div class="section"><h2 class="section-title">Score Distribution</h2><div class="histogram">';
-      for(var i=0;i<bk.length;i++){
-        var pct=mx>0?(bk[i]/mx*100):0;
-        h+='<div class="hist-row"><span class="hist-label">'+lb[i]+'</span><div class="hist-bar-bg"><div class="hist-bar '+(i>=4?"score-high":i>=2?"score-mid":"score-low")+'" style="width:'+pct+'%"></div></div><span class="hist-count">'+bk[i]+"</span></div>";
+    try {
+      const loaded = patchTestIds(loadManifestResults(meta.path));
+      const filtered = loaded.filter((r) => (r.category ?? DEFAULT_CATEGORY) === category);
+      const datasetMap = /* @__PURE__ */ new Map();
+      for (const r of filtered) {
+        const ds = r.dataset ?? r.target ?? "default";
+        const entry = datasetMap.get(ds) ?? { total: 0, passed: 0, scoreSum: 0 };
+        entry.total++;
+        if (r.score >= 1) entry.passed++;
+        entry.scoreSum += r.score;
+        datasetMap.set(ds, entry);
+      }
+      const datasets = [...datasetMap.entries()].map(([name, entry]) => ({
+        name,
+        total: entry.total,
+        passed: entry.passed,
+        failed: entry.total - entry.passed,
+        avg_score: entry.total > 0 ? entry.scoreSum / entry.total : 0
+      }));
+      return c3.json({ datasets });
+    } catch {
+      return c3.json({ error: "Failed to load datasets" }, 500);
+    }
+  });
+  app2.get("/api/runs/:filename/evals/:evalId", (c3) => {
+    const filename = c3.req.param("filename");
+    const evalId = c3.req.param("evalId");
+    const metas = listResultFiles(searchDir);
+    const meta = metas.find((m) => m.filename === filename);
+    if (!meta) {
+      return c3.json({ error: "Run not found" }, 404);
+    }
+    try {
+      const loaded = patchTestIds(loadManifestResults(meta.path));
+      const result = loaded.find((r) => r.testId === evalId);
+      if (!result) {
+        return c3.json({ error: "Eval not found" }, 404);
       }
-      h+="</div></div>";
+      return c3.json({ eval: result });
+    } catch {
+      return c3.json({ error: "Failed to load eval" }, 500);
     }
-    app.innerHTML=h;
-  }
-  /* ---- test cases ---- */
-  function renderTests(){
-    var evalNames=getEvalNames();
-    var h='<div class="filter-bar">';
-    h+='<select id="flt-status" class="filter-select"><option value="all">All Status</option><option value="pass">Passed</option><option value="fail">Failed</option><option value="error">Errors</option></select>';
-    if(tgtNames.length>1){
-      h+='<select id="flt-target" class="filter-select"><option value="all">All Targets</option>';
-      for(var i=0;i<tgtNames.length;i++)h+='<option value="'+esc(tgtNames[i])+'">'+esc(tgtNames[i])+"</option>";
-      h+="</select>";
-    }
-    h+='<input type="text" id="flt-search" class="filter-search" placeholder="Search tests..." value="'+esc(state.filter.search)+'">';
-    h+='<span class="filter-count" id="flt-count"></span></div>';
-    h+='<div class="table-wrap"><table class="data-table" id="test-tbl"><thead><tr>';
-    h+='<th class="expand-col"></th>';
-    h+=sHdr("Status","status");
-    h+=sHdr("Test ID","testId");
-    if(tgtNames.length>1)h+=sHdr("Target","target");
-    h+=sHdr("Score","score");
-    for(var i=0;i<evalNames.length;i++)h+="<th>"+esc(evalNames[i])+"</th>";
-    h+=sHdr("Duration","durationMs");
-    h+=sHdr("Cost","costUsd");
-    h+="</tr></thead><tbody id=\\"test-body\\"></tbody></table></div>";
-    app.innerHTML=h;
-    /* wire events */
-    var selS=document.getElementById("flt-status");
-    selS.value=state.filter.status;
-    selS.addEventListener("change",function(e){state.filter.status=e.target.value;renderRows();});
-    var selT=document.getElementById("flt-target");
-    if(selT){selT.value=state.filter.target;selT.addEventListener("change",function(e){state.filter.target=e.target.value;renderRows();});}
-    document.getElementById("flt-search").addEventListener("input",function(e){state.filter.search=e.target.value;renderRows();});
-    var ths=document.querySelectorAll("th[data-sort]");
-    for(var i=0;i<ths.length;i++){
-      ths[i].addEventListener("click",(function(th){return function(){
-        var c=th.getAttribute("data-sort");
-        if(state.sort.col===c)state.sort.dir=state.sort.dir==="asc"?"desc":"asc";
-        else{state.sort.col=c;state.sort.dir="asc";}
-        renderTests();
-      };})(ths[i]));
-    }
-    renderRows();
-  }
-  function sHdr(label,col){
-    var arrow="";
-    if(state.sort.col===col)arrow=state.sort.dir==="asc"?" \\u2191":" \\u2193";
-    return'<th class="sortable" data-sort="'+col+'">'+label+arrow+"</th>";
-  }
-  function filtered(){
-    var out=[];
-    for(var i=0;i<DATA.length;i++){
-      var r=DATA[i],s=getStatus(r);
-      if(state.filter.status!=="all"&&s!==state.filter.status)continue;
-      if(state.filter.target!=="all"&&r.target!==state.filter.target)continue;
-      if(state.filter.search&&(r.testId||"").toLowerCase().indexOf(state.filter.search.toLowerCase())===-1)continue;
-      out.push(r);
-    }
-    var col=state.sort.col,dir=state.sort.dir==="asc"?1:-1;
-    out.sort(function(a,b){
-      var va=col==="status"?getStatus(a):a[col],vb=col==="status"?getStatus(b):b[col];
-      if(va==null&&vb==null)return 0;if(va==null)return 1;if(vb==null)return-1;
-      if(typeof va==="string")return va.localeCompare(vb)*dir;
-      return(va-vb)*dir;
+  });
+  app2.get("/api/index", (c3) => {
+    const metas = listResultFiles(searchDir);
+    const entries2 = metas.map((m) => {
+      let totalCostUsd = 0;
+      try {
+        const loaded = patchTestIds(loadManifestResults(m.path));
+        totalCostUsd = loaded.reduce((sum, r) => sum + (r.costUsd ?? 0), 0);
+      } catch {
+      }
+      return {
+        run_filename: m.filename,
+        test_count: m.testCount,
+        pass_rate: m.passRate,
+        avg_score: m.avgScore,
+        total_cost_usd: totalCostUsd,
+        timestamp: m.timestamp
+      };
+    });
+    return c3.json({ entries: entries2 });
+  });
+  function buildFileTree(dirPath, relativeTo) {
+    if (!existsSync7(dirPath) || !statSync4(dirPath).isDirectory()) {
+      return [];
+    }
+    const entries2 = readdirSync3(dirPath, { withFileTypes: true });
+    return entries2.sort((a, b) => {
+      if (a.isDirectory() !== b.isDirectory()) return a.isDirectory() ? -1 : 1;
+      return a.name.localeCompare(b.name);
+    }).map((entry) => {
+      const fullPath = path9.join(dirPath, entry.name);
+      const relPath = path9.relative(relativeTo, fullPath);
+      if (entry.isDirectory()) {
+        return {
+          name: entry.name,
+          path: relPath,
+          type: "dir",
+          children: buildFileTree(fullPath, relativeTo)
+        };
+      }
+      return { name: entry.name, path: relPath, type: "file" };
     });
-    return out;
   }
-  function renderRows(){
-    var rows=filtered(),evalNames=getEvalNames();
-    var tbody=document.getElementById("test-body");
-    var colSpan=5+evalNames.length+(tgtNames.length>1?1:0);
-    document.getElementById("flt-count").textContent=rows.length+" of "+DATA.length+" tests";
-    var h="";
-    for(var i=0;i<rows.length;i++){
-      var r=rows[i],s=getStatus(r),key=r.testId+":"+r.target,exp=!!state.expanded[key];
-      h+='<tr class="test-row '+s+(exp?" expanded":"")+'" data-key="'+esc(key)+'" data-test-id="'+esc(r.testId)+'">';
-      h+='<td class="expand-col"><span class="expand-icon">'+(exp?"\\u25BE":"\\u25B8")+"</span></td>";
-      h+="<td>"+sIcon(s)+"</td>";
-      h+='<td class="fw-medium">'+esc(r.testId)+"</td>";
-      if(tgtNames.length>1)h+="<td>"+esc(r.target)+"</td>";
-      h+='<td class="'+sCls(r.score)+'">'+fmtPct(r.score)+"</td>";
-      for(var j=0;j<evalNames.length;j++){
-        var es=getEvalScore(r,evalNames[j]);
-        h+='<td class="'+sCls(es)+'">'+(es!=null?fmtPct(es):"\\u2014")+"</td>";
-      }
-      h+="<td>"+fmtDur(r.durationMs)+"</td><td>"+fmtCost(r.costUsd)+"</td></tr>";
-      if(exp)h+='<tr class="detail-row"><td colspan="'+colSpan+'">'+renderDetail(r)+"</td></tr>";
-    }
-    if(rows.length===0)h+='<tr><td colspan="'+colSpan+'" class="empty-state">No matching tests</td></tr>';
-    tbody.innerHTML=h;
-    /* row click */
-    var trs=tbody.querySelectorAll(".test-row");
-    for(var k=0;k<trs.length;k++){
-      trs[k].addEventListener("click",(function(tr){return function(){
-        var key=tr.getAttribute("data-key");
-        state.expanded[key]=!state.expanded[key];
-        renderRows();
-      };})(trs[k]));
+  function inferLanguage(filePath) {
+    const ext = path9.extname(filePath).toLowerCase();
+    const langMap = {
+      ".json": "json",
+      ".jsonl": "json",
+      ".ts": "typescript",
+      ".tsx": "typescript",
+      ".js": "javascript",
+      ".jsx": "javascript",
+      ".md": "markdown",
+      ".yaml": "yaml",
+      ".yml": "yaml",
+      ".log": "plaintext",
+      ".txt": "plaintext",
+      ".py": "python",
+      ".sh": "shell",
+      ".bash": "shell",
+      ".css": "css",
+      ".html": "html",
+      ".xml": "xml",
+      ".svg": "xml",
+      ".toml": "toml",
+      ".diff": "diff",
+      ".patch": "diff"
+    };
+    return langMap[ext] ?? "plaintext";
+  }
+  app2.get("/api/runs/:filename/evals/:evalId/files", (c3) => {
+    const filename = c3.req.param("filename");
+    const evalId = c3.req.param("evalId");
+    const metas = listResultFiles(searchDir);
+    const meta = metas.find((m) => m.filename === filename);
+    if (!meta) {
+      return c3.json({ error: "Run not found" }, 404);
     }
-    /* wire feedback buttons */
-    var btns=tbody.querySelectorAll(".feedback-submit");
-    for(var k=0;k<btns.length;k++){
-      btns[k].addEventListener("click",(function(btn){return function(ev){
-        ev.stopPropagation();
-        var tid=btn.getAttribute("data-test-id");
-        var sec=btn.closest(".feedback-section");
-        var ta=sec.querySelector(".feedback-input");
-        var st=sec.querySelector(".feedback-status");
-        saveFeedback(tid,ta.value,st,btn);
-      };})(btns[k]));
+    try {
+      const content = readFileSync8(meta.path, "utf8");
+      const records = parseResultManifest(content);
+      const record = records.find((r) => (r.test_id ?? r.eval_id) === evalId);
+      if (!record) {
+        return c3.json({ error: "Eval not found" }, 404);
+      }
+      const baseDir = path9.dirname(meta.path);
+      const knownPaths = [
+        record.grading_path,
+        record.timing_path,
+        record.input_path,
+        record.output_path,
+        record.response_path
+      ].filter((p) => !!p);
+      if (knownPaths.length === 0) {
+        return c3.json({ files: [] });
+      }
+      const artifactDirs = knownPaths.map((p) => path9.dirname(p));
+      let commonDir = artifactDirs[0];
+      for (const dir of artifactDirs) {
+        while (!dir.startsWith(commonDir)) {
+          commonDir = path9.dirname(commonDir);
+        }
+      }
+      const artifactAbsDir = path9.join(baseDir, commonDir);
+      const files = buildFileTree(artifactAbsDir, baseDir);
+      return c3.json({ files });
+    } catch {
+      return c3.json({ error: "Failed to load file tree" }, 500);
     }
-    /* prevent textarea clicks from toggling row */
-    var tas=tbody.querySelectorAll(".feedback-input");
-    for(var k=0;k<tas.length;k++){
-      tas[k].addEventListener("click",function(ev){ev.stopPropagation();});
+  });
+  app2.get("/api/runs/:filename/evals/:evalId/files/*", (c3) => {
+    const filename = c3.req.param("filename");
+    const evalId = c3.req.param("evalId");
+    const metas = listResultFiles(searchDir);
+    const meta = metas.find((m) => m.filename === filename);
+    if (!meta) {
+      return c3.json({ error: "Run not found" }, 404);
     }
-    populateFeedbackTextareas();
-  }
-  /* ---- detail panel ---- */
-  function renderDetail(r){
-    var h='<div class="detail-panel">';
-    /* input / output */
-    h+='<div class="detail-grid">';
-    if(r.input!=null){
-      h+='<div class="detail-block"><h4>Input</h4><pre class="detail-pre">'+esc(JSON.stringify(r.input,null,2))+"</pre></div>";
+    const requestPath = c3.req.path;
+    const prefix = `/api/runs/${filename}/evals/${evalId}/files/`;
+    const filePath = requestPath.slice(prefix.length);
+    if (!filePath) {
+      return c3.json({ error: "No file path specified" }, 400);
     }
-    h+='<div class="detail-block"><h4>Output</h4><pre class="detail-pre">'+esc(r.output?JSON.stringify(r.output,null,2):"")+"</pre></div>";
-    h+="</div>";
-    /* evaluator results */
-    if(r.scores&&r.scores.length>0){
-      h+="<h4>Evaluator Results</h4>";
-      h+='<table class="eval-table"><thead><tr><th>Evaluator</th><th>Score</th><th>Status</th><th>Assertions</th></tr></thead><tbody>';
-      for(var i=0;i<r.scores.length;i++){
-        var ev=r.scores[i],evS=ev.score>=0.5?"pass":"fail";
-        var evAssertions=ev.assertions||[];
-        var evSummary=evAssertions.map(function(a){return (a.passed?"\\u2713 ":"\\u2717 ")+a.text;}).join("; ");
-        h+="<tr><td class=\\"fw-medium\\">"+esc(ev.name)+'</td><td class="'+sCls(ev.score)+'">'+fmtPct(ev.score)+"</td><td>"+sIcon(evS)+'</td><td class="reasoning-cell">'+esc(evSummary)+"</td></tr>";
-      }
-      h+="</tbody></table>";
+    const baseDir = path9.dirname(meta.path);
+    const absolutePath = path9.resolve(baseDir, filePath);
+    if (!absolutePath.startsWith(path9.resolve(baseDir) + path9.sep) && absolutePath !== path9.resolve(baseDir)) {
+      return c3.json({ error: "Path traversal not allowed" }, 403);
     }
-    /* assertions */
-    var passedA=r.assertions?r.assertions.filter(function(a){return a.passed;}):[];
-    var failedA=r.assertions?r.assertions.filter(function(a){return !a.passed;}):[];
-    if(passedA.length>0){
-      h+='<h4>Passed Assertions</h4><ul class="expect-list pass">';
-      for(var i=0;i<passedA.length;i++)h+="<li>"+esc(passedA[i].text)+(passedA[i].evidence?" <span class=\\"reasoning-cell\\">("+esc(passedA[i].evidence)+")</span>":"")+"</li>";
-      h+="</ul>";
-    }
-    if(failedA.length>0){
-      h+='<h4>Failed Assertions</h4><ul class="expect-list fail">';
-      for(var i=0;i<failedA.length;i++)h+="<li>"+esc(failedA[i].text)+(failedA[i].evidence?" <span class=\\"reasoning-cell\\">("+esc(failedA[i].evidence)+")</span>":"")+"</li>";
-      h+="</ul>";
+    if (!existsSync7(absolutePath) || !statSync4(absolutePath).isFile()) {
+      return c3.json({ error: "File not found" }, 404);
     }
-    /* tool calls */
-    if(r._toolCalls){
-      var tc=r._toolCalls,tcArr=[];
-      for(var k in tc)tcArr.push({name:k,count:tc[k]});
-      tcArr.sort(function(a,b){return b.count-a.count;});
-      h+='<h4>Tool Calls</h4><div class="tool-calls">';
-      for(var i=0;i<tcArr.length;i++)h+='<span class="tool-tag">'+esc(tcArr[i].name)+": "+tcArr[i].count+"</span>";
-      h+="</div>";
+    try {
+      const fileContent = readFileSync8(absolutePath, "utf8");
+      const language = inferLanguage(absolutePath);
+      return c3.json({ content: fileContent, language });
+    } catch {
+      return c3.json({ error: "Failed to read file" }, 500);
     }
-    /* error */
-    if(r.error)h+='<div class="error-box"><h4>Error</h4><pre>'+esc(r.error)+"</pre></div>";
-    /* metadata */
-    h+='<div class="detail-meta">';
-    var m=[];
-    if(r.tokenUsage)m.push(fmtTok(r.tokenUsage.input)+" in / "+fmtTok(r.tokenUsage.output)+" out tokens");
-    if(r.durationMs){
-      if(r._graderDurationMs>0){
-        var execMs=r.durationMs-r._graderDurationMs;
-        m.push(fmtDur(execMs>0?execMs:0)+" executor + "+fmtDur(r._graderDurationMs)+" grader");
-      }else{
-        m.push(fmtDur(r.durationMs));
-      }
-    }
-    if(r.target)m.push(r.target);
-    if(r.costUsd)m.push(fmtCost(r.costUsd));
-    if(r.timestamp)m.push(r.timestamp);
-    h+=esc(m.join(" \\u00B7 "));
-    h+="</div>";
-    /* feedback section */
-    var tid=r.testId||"";
-    var existingComment=feedbackCache[tid]||"";
-    h+='<div class="feedback-section">';
-    h+='<h4>Feedback</h4>';
-    h+='<textarea class="feedback-input" data-test-id="'+esc(tid)+'" placeholder="Add feedback for this test..." onclick="event.stopPropagation()">'+esc(existingComment)+'</textarea>';
-    h+='<div style="display:flex;align-items:center">';
-    h+='<button class="feedback-submit" data-test-id="'+esc(tid)+'">Save Feedback</button>';
-    h+='<span class="feedback-status"></span>';
-    h+='</div></div>';
-    h+="</div>";
-    return h;
-  }
-  /* ---- run picker ---- */
-  var runPicker=document.getElementById("run-picker");
-  var knownRunFilenames=[];
-  function refreshRunList(){
-    fetch("/api/runs").then(function(r){return r.json();}).then(function(d){
-      if(!d||!d.runs)return;
-      var runs=d.runs;
-      var newFilenames=runs.map(function(r){return r.filename;});
-      /* Detect new runs that appeared since last poll */
-      if(knownRunFilenames.length>0){
-        var hasNew=newFilenames.some(function(f){return knownRunFilenames.indexOf(f)===-1;});
-        if(hasNew&&DATA.length===0){
-          /* Auto-load the first (most recent) run when starting from empty state */
-          loadRun(runs[0].filename);
+  });
+  app2.get("/api/experiments", (c3) => {
+    const metas = listResultFiles(searchDir);
+    const experimentMap = /* @__PURE__ */ new Map();
+    for (const m of metas) {
+      try {
+        const records = loadLightweightResults(m.path);
+        for (const r of records) {
+          const experiment = r.experiment ?? "default";
+          const entry = experimentMap.get(experiment) ?? {
+            targets: /* @__PURE__ */ new Set(),
+            runFilenames: /* @__PURE__ */ new Set(),
+            evalCount: 0,
+            passedCount: 0,
+            lastTimestamp: ""
+          };
+          entry.runFilenames.add(m.filename);
+          if (r.target) entry.targets.add(r.target);
+          entry.evalCount++;
+          if (r.score >= 1) entry.passedCount++;
+          if (r.timestamp && r.timestamp > entry.lastTimestamp) {
+            entry.lastTimestamp = r.timestamp;
+          }
+          experimentMap.set(experiment, entry);
         }
+      } catch {
       }
-      knownRunFilenames=newFilenames;
-      /* Rebuild picker options */
-      var h='<option value="">Select a result file...</option>';
-      if(runs.length===0){
-        h='<option value="">No result files</option>';
-      }
-      for(var i=0;i<runs.length;i++){
-        var r=runs[i];
-        var label=r.filename+" ("+r.test_count+" tests, "+(r.pass_rate*100).toFixed(0)+"% pass)";
-        h+='<option value="'+esc(r.filename)+'">'+esc(label)+"</option>";
+    }
+    const experiments = [...experimentMap.entries()].map(([name, entry]) => ({
+      name,
+      run_count: entry.runFilenames.size,
+      target_count: entry.targets.size,
+      eval_count: entry.evalCount,
+      passed_count: entry.passedCount,
+      pass_rate: entry.evalCount > 0 ? entry.passedCount / entry.evalCount : 0,
+      last_run: entry.lastTimestamp || null
+    }));
+    return c3.json({ experiments });
+  });
+  app2.get("/api/targets", (c3) => {
+    const metas = listResultFiles(searchDir);
+    const targetMap = /* @__PURE__ */ new Map();
+    for (const m of metas) {
+      try {
+        const records = loadLightweightResults(m.path);
+        for (const r of records) {
+          const target = r.target ?? "default";
+          const entry = targetMap.get(target) ?? {
+            experiments: /* @__PURE__ */ new Set(),
+            runFilenames: /* @__PURE__ */ new Set(),
+            evalCount: 0,
+            passedCount: 0
+          };
+          entry.runFilenames.add(m.filename);
+          if (r.experiment) entry.experiments.add(r.experiment);
+          entry.evalCount++;
+          if (r.score >= 1) entry.passedCount++;
+          targetMap.set(target, entry);
+        }
+      } catch {
       }
-      runPicker.innerHTML=h;
-      /* Pre-select the initially loaded run */
-      if(INITIAL_SOURCE&&runs.length>0){
-        runPicker.value=INITIAL_SOURCE;
+    }
+    const targets = [...targetMap.entries()].map(([name, entry]) => ({
+      name,
+      run_count: entry.runFilenames.size,
+      experiment_count: entry.experiments.size,
+      eval_count: entry.evalCount,
+      passed_count: entry.passedCount,
+      pass_rate: entry.evalCount > 0 ? entry.passedCount / entry.evalCount : 0
+    }));
+    return c3.json({ targets });
+  });
+  app2.get("/assets/*", (c3) => {
+    const assetPath = c3.req.path;
+    const filePath = path9.join(studioDistPath, assetPath);
+    if (!existsSync7(filePath)) {
+      return c3.notFound();
+    }
+    const content = readFileSync8(filePath);
+    const ext = path9.extname(filePath);
+    const mimeTypes = {
+      ".js": "application/javascript",
+      ".css": "text/css",
+      ".html": "text/html",
+      ".json": "application/json",
+      ".svg": "image/svg+xml",
+      ".png": "image/png",
+      ".woff2": "font/woff2",
+      ".woff": "font/woff"
+    };
+    const contentType = mimeTypes[ext] ?? "application/octet-stream";
+    return new Response(content, {
+      headers: {
+        "Content-Type": contentType,
+        "Cache-Control": "public, max-age=31536000, immutable"
       }
-    }).catch(function(err){console.warn("Failed to refresh run list:",err);});
-  }
-  function loadRun(filename){
-    fetch("/api/runs/"+encodeURIComponent(filename)).then(function(r){return r.json();}).then(function(d){
-      if(d.error){console.error(d.error);return;}
-      DATA=d.results;
-      stats=computeStats(DATA);
-      tgtStats=computeTargets(DATA);
-      tgtNames=tgtStats.map(function(t){return t.target;});
-      state.expanded={};
-      feedbackCache={};
-      loadFeedback();
-      render();
-      /* Update picker selection */
-      runPicker.value=filename;
-    }).catch(function(err){console.error("Failed to load run:",err);});
+    });
+  });
+  app2.get("*", (c3) => {
+    if (c3.req.path.startsWith("/api/")) {
+      return c3.json({ error: "Not found" }, 404);
+    }
+    const indexPath = path9.join(studioDistPath, "index.html");
+    if (existsSync7(indexPath)) {
+      return c3.html(readFileSync8(indexPath, "utf8"));
+    }
+    return c3.notFound();
+  });
+  return app2;
+}
+function resolveStudioDistDir() {
+  const currentDir = typeof __dirname !== "undefined" ? __dirname : path9.dirname(fileURLToPath2(import.meta.url));
+  const candidates = [
+    // From src/commands/results/ → sibling apps/studio/dist
+    path9.resolve(currentDir, "../../../../studio/dist"),
+    // From dist/ → sibling apps/studio/dist (monorepo dev)
+    path9.resolve(currentDir, "../../studio/dist"),
+    // Bundled inside CLI dist (published package)
+    path9.resolve(currentDir, "../studio"),
+    // From dist/ in monorepo root context
+    path9.resolve(currentDir, "../../../apps/studio/dist")
+  ];
+  for (const candidate of candidates) {
+    if (existsSync7(candidate) && existsSync7(path9.join(candidate, "index.html"))) {
+      return candidate;
+    }
   }
-  runPicker.addEventListener("change",function(){
-    var val=runPicker.value;
-    if(val)loadRun(val);
+  return void 0;
+}
+function stripHeavyFields(results) {
+  return results.map((r) => {
+    const { requests, trace, ...rest } = r;
+    const toolCalls = trace?.toolCalls && Object.keys(trace.toolCalls).length > 0 ? trace.toolCalls : void 0;
+    const graderDurationMs = (r.scores ?? []).reduce((sum, s) => sum + (s.durationMs ?? 0), 0);
+    return {
+      ...rest,
+      ...toolCalls && { _toolCalls: toolCalls },
+      ...graderDurationMs > 0 && { _graderDurationMs: graderDurationMs }
+    };
   });
-  /* Poll for new result files every 5 seconds */
-  refreshRunList();
-  setInterval(refreshRunList,5000);
-  /* ---- init ---- */
-  loadFeedback();
-  render();
-})();
-`;
+}
 var resultsServeCommand = command({
-  name: "serve",
-  description: "Start a local HTTP server to review evaluation results",
+  name: "studio",
+  description: "Start AgentV Studio \u2014 a local dashboard for reviewing evaluation results",
   args: {
     source: positional({
       type: optional(string),
@@ -7594,7 +7404,7 @@ function formatResultDetail(result, index, tree) {
   }
   const scoreColor = result.score >= 0.9 ? c2.green : result.score >= 0.5 ? c2.yellow : c2.red;
   lines.push(
-    `${c2.bold}${testId}${c2.reset}  ${scoreColor}${formatScore(result.score)}${c2.reset}${result.target ? `  ${c2.dim}target: ${result.target}${c2.reset}` : ""}${result.eval_set ? `  ${c2.dim}eval-set: ${result.eval_set}${c2.reset}` : ""}`
+    `${c2.bold}${testId}${c2.reset}  ${scoreColor}${formatScore(result.score)}${c2.reset}${result.target ? `  ${c2.dim}target: ${result.target}${c2.reset}` : ""}${result.dataset ? `  ${c2.dim}dataset: ${result.dataset}${c2.reset}` : ""}`
   );
   if (result.error) {
     lines.push(`  ${c2.red}Error: ${result.error}${c2.reset}`);
@@ -7768,8 +7578,8 @@ function groupResults(results, groupBy2) {
       case "target":
         key = result.target ?? "unknown";
         break;
-      case "eval-set":
-        key = result.eval_set ?? "unknown";
+      case "dataset":
+        key = result.dataset ?? "unknown";
         break;
       case "test-id":
         key = result.test_id ?? result.eval_id ?? "unknown";
@@ -8482,7 +8292,7 @@ var app = subcommands({
     pipeline: pipelineCommand,
     results: resultsCommand,
     self: selfCommand,
-    serve: resultsServeCommand,
+    studio: resultsServeCommand,
     trace: traceCommand,
     transpile: transpileCommand,
     trim: trimCommand,
@@ -8500,7 +8310,7 @@ var TOP_LEVEL_COMMANDS = /* @__PURE__ */ new Set([
   "pipeline",
   "results",
   "self",
-  "serve",
+  "studio",
   "trace",
   "transpile",
   "trim",
@@ -8547,4 +8357,4 @@ export {
   preprocessArgv,
   runCli
 };
-//# sourceMappingURL=chunk-CQRWNXVG.js.map
+//# sourceMappingURL=chunk-2W5JKKXC.js.map