npm - @agentv/core - Versions diffs - 2.16.0 → 2.17.1-next.1 - Mend

@agentv/core 2.16.0 → 2.17.1-next.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (14) hide show

package/dist/{chunk-E6AJPAXM.js → chunk-PSYFRPNT.js} +1 -1
package/dist/chunk-PSYFRPNT.js.map +1 -0
package/dist/evaluation/validation/index.cjs +5 -5
package/dist/evaluation/validation/index.cjs.map +1 -1
package/dist/evaluation/validation/index.js +6 -6
package/dist/evaluation/validation/index.js.map +1 -1
package/dist/index.cjs +122 -62
package/dist/index.cjs.map +1 -1
package/dist/index.d.cts +10 -10
package/dist/index.d.ts +10 -10
package/dist/index.js +123 -63
package/dist/index.js.map +1 -1
package/package.json +1 -1
package/dist/chunk-E6AJPAXM.js.map +0 -1

package/dist/index.d.cts CHANGED Viewed

@@ -526,22 +526,16 @@ type WorkspaceHookConfig = {
     readonly cwd?: string;
     /** Optional reset policy for this hook */
     readonly reset?: 'none' | 'fast' | 'strict';
-    /** Optional cleanup policy for this hook */
-    readonly clean?: 'always' | 'on_success' | 'on_failure' | 'never';
 };
 type WorkspaceHooksConfig = {
     /** Runs once before first test in the workspace lifecycle */
-    readonly before_all_tests?: WorkspaceHookConfig;
+    readonly before_all?: WorkspaceHookConfig;
     /** Runs before each test case */
-    readonly before_each_test?: WorkspaceHookConfig;
+    readonly before_each?: WorkspaceHookConfig;
     /** Runs after each test case */
-    readonly after_each_test?: WorkspaceHookConfig;
+    readonly after_each?: WorkspaceHookConfig;
     /** Runs once after final test in the workspace lifecycle */
-    readonly after_all_tests?: WorkspaceHookConfig;
-    /** Runs when reusing a pooled workspace slot */
-    readonly on_reuse?: WorkspaceHookConfig;
-    /** Runs/controls behavior when workspace lifecycle finishes */
-    readonly on_finish?: WorkspaceHookConfig;
+    readonly after_all?: WorkspaceHookConfig;
 };
 type WorkspaceConfig = {
     /** Template directory or .code-workspace file. Directories are copied to temp workspace.
@@ -1172,6 +1166,12 @@ interface EvaluatorResult {
     readonly details?: JsonObject;
     /** Token usage from LLM calls made by this evaluator (optional). */
     readonly tokenUsage?: TokenUsage;
+    /** Wall-clock duration of this judge execution in milliseconds. */
+    readonly durationMs?: number;
+    /** ISO 8601 UTC timestamp when this judge started executing. */
+    readonly startedAt?: string;
+    /** ISO 8601 UTC timestamp when this judge finished executing. */
+    readonly endedAt?: string;
 }
 /**
  * Convenience accessor matching the Python hit_count property.

package/dist/index.d.ts CHANGED Viewed

@@ -526,22 +526,16 @@ type WorkspaceHookConfig = {
     readonly cwd?: string;
     /** Optional reset policy for this hook */
     readonly reset?: 'none' | 'fast' | 'strict';
-    /** Optional cleanup policy for this hook */
-    readonly clean?: 'always' | 'on_success' | 'on_failure' | 'never';
 };
 type WorkspaceHooksConfig = {
     /** Runs once before first test in the workspace lifecycle */
-    readonly before_all_tests?: WorkspaceHookConfig;
+    readonly before_all?: WorkspaceHookConfig;
     /** Runs before each test case */
-    readonly before_each_test?: WorkspaceHookConfig;
+    readonly before_each?: WorkspaceHookConfig;
     /** Runs after each test case */
-    readonly after_each_test?: WorkspaceHookConfig;
+    readonly after_each?: WorkspaceHookConfig;
     /** Runs once after final test in the workspace lifecycle */
-    readonly after_all_tests?: WorkspaceHookConfig;
-    /** Runs when reusing a pooled workspace slot */
-    readonly on_reuse?: WorkspaceHookConfig;
-    /** Runs/controls behavior when workspace lifecycle finishes */
-    readonly on_finish?: WorkspaceHookConfig;
+    readonly after_all?: WorkspaceHookConfig;
 };
 type WorkspaceConfig = {
     /** Template directory or .code-workspace file. Directories are copied to temp workspace.
@@ -1172,6 +1166,12 @@ interface EvaluatorResult {
     readonly details?: JsonObject;
     /** Token usage from LLM calls made by this evaluator (optional). */
     readonly tokenUsage?: TokenUsage;
+    /** Wall-clock duration of this judge execution in milliseconds. */
+    readonly durationMs?: number;
+    /** ISO 8601 UTC timestamp when this judge started executing. */
+    readonly startedAt?: string;
+    /** ISO 8601 UTC timestamp when this judge finished executing. */
+    readonly endedAt?: string;
 }
 /**
  * Convenience accessor matching the Python hit_count property.

package/dist/index.js CHANGED Viewed

@@ -17,7 +17,7 @@ import {
   readTextFile,
   resolveFileReference,
   resolveTargetDefinition
-} from "./chunk-E6AJPAXM.js";
+} from "./chunk-PSYFRPNT.js";
 import {
   OtlpJsonFileExporter
 } from "./chunk-HFSYZHGF.js";
@@ -151,6 +151,25 @@ import path8 from "node:path";
 import micromatch3 from "micromatch";
 import { parse as parse2 } from "yaml";
+// src/evaluation/interpolation.ts
+var ENV_VAR_PATTERN = /\$\{\{\s*([A-Za-z_][A-Za-z0-9_]*)\s*\}\}/g;
+function interpolateEnv(value, env) {
+  if (typeof value === "string") {
+    return value.replace(ENV_VAR_PATTERN, (_, varName) => env[varName] ?? "");
+  }
+  if (Array.isArray(value)) {
+    return value.map((item) => interpolateEnv(item, env));
+  }
+  if (value !== null && typeof value === "object") {
+    const result = {};
+    for (const [key, val] of Object.entries(value)) {
+      result[key] = interpolateEnv(val, env);
+    }
+    return result;
+  }
+  return value;
+}
 // src/evaluation/loaders/case-file-loader.ts
 import { readFile } from "node:fs/promises";
 import path from "node:path";
@@ -169,7 +188,8 @@ function isGlobPattern(filePath) {
   return filePath.includes("*") || filePath.includes("?") || filePath.includes("{");
 }
 function parseYamlCases(content, filePath) {
-  const parsed = parseYaml(content);
+  const raw = parseYaml(content);
+  const parsed = interpolateEnv(raw, process.env);
   if (!Array.isArray(parsed)) {
     throw new Error(
       `External test file must contain a YAML array, got ${typeof parsed}: ${filePath}`
@@ -191,7 +211,8 @@ function parseJsonlCases(content, filePath) {
     const line = lines[i].trim();
     if (line === "") continue;
     try {
-      const parsed = JSON.parse(line);
+      const raw = JSON.parse(line);
+      const parsed = interpolateEnv(raw, process.env);
       if (!isJsonObject(parsed)) {
         throw new Error("Expected JSON object");
       }
@@ -2340,7 +2361,7 @@ async function loadSidecarMetadata(jsonlPath, verbose) {
   }
   try {
     const content = await readFile5(sidecarPath, "utf8");
-    const parsed = parseYaml2(content);
+    const parsed = interpolateEnv(parseYaml2(content), process.env);
     if (!isJsonObject(parsed)) {
       logWarning4(`Invalid sidecar metadata format in ${sidecarPath}`);
       return {};
@@ -2363,7 +2384,8 @@ function parseJsonlContent(content, filePath) {
     const line = lines[i].trim();
     if (line === "") continue;
     try {
-      const parsed = JSON.parse(line);
+      const raw = JSON.parse(line);
+      const parsed = interpolateEnv(raw, process.env);
       if (!isJsonObject(parsed)) {
         throw new Error("Expected JSON object");
       }
@@ -2420,9 +2442,10 @@ async function loadTestsFromJsonl(evalFilePath, repoRoot, options) {
     }
     const inputMessages = resolveInputMessages(evalcase);
     const expectedMessages = resolveExpectedMessages(evalcase) ?? [];
-    if (!id || !outcome || !inputMessages || inputMessages.length === 0) {
+    const hasEvaluationSpec = !!outcome || expectedMessages.length > 0 || evalcase.assert !== void 0;
+    if (!id || !hasEvaluationSpec || !inputMessages || inputMessages.length === 0) {
       logError(
-        `Skipping incomplete test at line ${lineNumber}: ${id ?? "unknown"}. Missing required fields: id, criteria, and/or input`
+        `Skipping incomplete test at line ${lineNumber}: ${id ?? "unknown"}. Missing required fields: id, input, and at least one of criteria/expected_output/assert`
       );
       continue;
     }
@@ -2500,7 +2523,7 @@ async function loadTestsFromJsonl(evalFilePath, repoRoot, options) {
       guideline_paths: guidelinePaths.map((guidelinePath) => path6.resolve(guidelinePath)),
       guideline_patterns: guidelinePatterns,
       file_paths: allFilePaths,
-      criteria: outcome,
+      criteria: outcome ?? "",
       evaluator: evalCaseEvaluatorKind,
       evaluators
     };
@@ -2813,7 +2836,7 @@ async function readTestSuiteMetadata(testFilePath) {
   try {
     const absolutePath = path8.resolve(testFilePath);
     const content = await readFile7(absolutePath, "utf8");
-    const parsed = parse2(content);
+    const parsed = interpolateEnv(parse2(content), process.env);
     if (!isJsonObject(parsed)) {
       return {};
     }
@@ -2863,11 +2886,11 @@ async function loadTestsFromYaml(evalFilePath, repoRoot, options) {
   const config = await loadConfig(absoluteTestPath, repoRootPath);
   const guidelinePatterns = config?.guideline_patterns;
   const rawFile = await readFile7(absoluteTestPath, "utf8");
-  const parsed = parse2(rawFile);
-  if (!isJsonObject(parsed)) {
+  const interpolated = interpolateEnv(parse2(rawFile), process.env);
+  if (!isJsonObject(interpolated)) {
     throw new Error(`Invalid test file format: ${evalFilePath}`);
   }
-  const suite = parsed;
+  const suite = interpolated;
   const datasetNameFromSuite = asString6(suite.dataset)?.trim();
   const fallbackDataset = path8.basename(absoluteTestPath).replace(/\.ya?ml$/i, "") || "eval";
   const datasetName = datasetNameFromSuite && datasetNameFromSuite.length > 0 ? datasetNameFromSuite : fallbackDataset;
@@ -2911,9 +2934,10 @@ async function loadTestsFromYaml(evalFilePath, repoRoot, options) {
     }
     const testInputMessages = resolveInputMessages(evalcase);
     const expectedMessages = resolveExpectedMessages(evalcase) ?? [];
-    if (!id || !outcome || !testInputMessages || testInputMessages.length === 0) {
+    const hasEvaluationSpec = !!outcome || expectedMessages.length > 0 || evalcase.assert !== void 0;
+    if (!id || !hasEvaluationSpec || !testInputMessages || testInputMessages.length === 0) {
       logError2(
-        `Skipping incomplete test: ${id ?? "unknown"}. Missing required fields: id, criteria, and/or input`
+        `Skipping incomplete test: ${id ?? "unknown"}. Missing required fields: id, input, and at least one of criteria/expected_output/assert`
       );
       continue;
     }
@@ -3009,7 +3033,7 @@ async function loadTestsFromYaml(evalFilePath, repoRoot, options) {
       guideline_paths: guidelinePaths.map((guidelinePath) => path8.resolve(guidelinePath)),
       guideline_patterns: guidelinePatterns,
       file_paths: allFilePaths,
-      criteria: outcome,
+      criteria: outcome ?? "",
       evaluator: evalCaseEvaluatorKind,
       evaluators,
       workspace: mergedWorkspace,
@@ -3119,30 +3143,24 @@ function parseWorkspaceHookConfig(raw, evalFileDir) {
   const script = parseWorkspaceScriptConfig(raw, evalFileDir);
   const obj = raw;
   const reset = obj.reset === "none" || obj.reset === "fast" || obj.reset === "strict" ? obj.reset : void 0;
-  const clean = obj.clean === "always" || obj.clean === "on_success" || obj.clean === "on_failure" || obj.clean === "never" ? obj.clean : void 0;
-  if (!script && !reset && !clean) return void 0;
+  if (!script && !reset) return void 0;
   return {
     ...script ?? {},
-    ...reset !== void 0 && { reset },
-    ...clean !== void 0 && { clean }
+    ...reset !== void 0 && { reset }
   };
 }
 function parseWorkspaceHooksConfig(raw, evalFileDir) {
   if (!isJsonObject(raw)) return void 0;
   const obj = raw;
-  const beforeAllTests = parseWorkspaceHookConfig(obj.before_all_tests, evalFileDir);
-  const beforeEachTest = parseWorkspaceHookConfig(obj.before_each_test, evalFileDir);
-  const afterEachTest = parseWorkspaceHookConfig(obj.after_each_test, evalFileDir);
-  const afterAllTests = parseWorkspaceHookConfig(obj.after_all_tests, evalFileDir);
-  const onReuse = parseWorkspaceHookConfig(obj.on_reuse, evalFileDir);
-  const onFinish = parseWorkspaceHookConfig(obj.on_finish, evalFileDir);
+  const beforeAll = parseWorkspaceHookConfig(obj.before_all, evalFileDir);
+  const beforeEach = parseWorkspaceHookConfig(obj.before_each, evalFileDir);
+  const afterEach = parseWorkspaceHookConfig(obj.after_each, evalFileDir);
+  const afterAll = parseWorkspaceHookConfig(obj.after_all, evalFileDir);
   const hooks = {
-    ...beforeAllTests !== void 0 && { before_all_tests: beforeAllTests },
-    ...beforeEachTest !== void 0 && { before_each_test: beforeEachTest },
-    ...afterEachTest !== void 0 && { after_each_test: afterEachTest },
-    ...afterAllTests !== void 0 && { after_all_tests: afterAllTests },
-    ...onReuse !== void 0 && { on_reuse: onReuse },
-    ...onFinish !== void 0 && { on_finish: onFinish }
+    ...beforeAll !== void 0 && { before_all: beforeAll },
+    ...beforeEach !== void 0 && { before_each: beforeEach },
+    ...afterEach !== void 0 && { after_each: afterEach },
+    ...afterAll !== void 0 && { after_all: afterAll }
   };
   return Object.keys(hooks).length > 0 ? hooks : void 0;
 }
@@ -3155,7 +3173,7 @@ async function resolveWorkspaceConfig(raw, evalFileDir) {
     } catch {
       throw new Error(`Workspace file not found: ${raw} (resolved to ${workspaceFilePath})`);
     }
-    const parsed = parse2(content);
+    const parsed = interpolateEnv(parse2(content), process.env);
     if (!isJsonObject(parsed)) {
       throw new Error(
         `Invalid workspace file format: ${workspaceFilePath} (expected a YAML object)`
@@ -3203,18 +3221,10 @@ function mergeWorkspaceConfigs(suiteLevel, caseLevel) {
     };
   };
   const mergedHooks = {
-    before_all_tests: mergeHook(
-      suiteLevel.hooks?.before_all_tests,
-      caseLevel.hooks?.before_all_tests
-    ),
-    before_each_test: mergeHook(
-      suiteLevel.hooks?.before_each_test,
-      caseLevel.hooks?.before_each_test
-    ),
-    after_each_test: mergeHook(suiteLevel.hooks?.after_each_test, caseLevel.hooks?.after_each_test),
-    after_all_tests: mergeHook(suiteLevel.hooks?.after_all_tests, caseLevel.hooks?.after_all_tests),
-    on_reuse: mergeHook(suiteLevel.hooks?.on_reuse, caseLevel.hooks?.on_reuse),
-    on_finish: mergeHook(suiteLevel.hooks?.on_finish, caseLevel.hooks?.on_finish)
+    before_all: mergeHook(suiteLevel.hooks?.before_all, caseLevel.hooks?.before_all),
+    before_each: mergeHook(suiteLevel.hooks?.before_each, caseLevel.hooks?.before_each),
+    after_each: mergeHook(suiteLevel.hooks?.after_each, caseLevel.hooks?.after_each),
+    after_all: mergeHook(suiteLevel.hooks?.after_all, caseLevel.hooks?.after_all)
   };
   const hasHooks = Object.values(mergedHooks).some((hook) => hook !== void 0);
   return {
@@ -5344,6 +5354,7 @@ var CopilotCliProvider = class {
     const agentProcess = spawn(executable, args, {
       stdio: ["pipe", "pipe", "inherit"]
     });
+    await waitForProcessSpawn(agentProcess, executable, this.targetName);
     const toolCallsInProgress = /* @__PURE__ */ new Map();
     const completedToolCalls = [];
     let finalContent = "";
@@ -5623,6 +5634,47 @@ var CopilotCliProvider = class {
     }
   }
 };
+async function waitForProcessSpawn(proc, executable, targetName) {
+  if (proc.pid) {
+    return;
+  }
+  await new Promise((resolve, reject) => {
+    const onSpawn = () => {
+      cleanup();
+      resolve();
+    };
+    const onError = (error) => {
+      cleanup();
+      reject(new Error(formatCopilotSpawnError(error, executable, targetName)));
+    };
+    const cleanup = () => {
+      proc.off("spawn", onSpawn);
+      proc.off("error", onError);
+    };
+    proc.once("spawn", onSpawn);
+    proc.once("error", onError);
+  });
+}
+function formatCopilotSpawnError(error, executable, targetName) {
+  const code = error.code;
+  const base = `Failed to start Copilot CLI executable '${executable}' for target '${targetName}'. ${error.message}`;
+  if (process.platform !== "win32") {
+    return base;
+  }
+  if (code !== "ENOENT" && code !== "EINVAL") {
+    return base;
+  }
+  return `${base}
+On Windows, shell commands like 'copilot -h' can work via .ps1/.bat shims, but AgentV launches a subprocess that needs a directly spawnable executable path.
+Fix options:
+1) Install native Copilot binary package:
+   npm install -g @github/copilot-win32-x64
+2) Set explicit executable for Copilot targets:
+   - In .env: COPILOT_EXE=C:\\Users\\<you>\\AppData\\Roaming\\npm\\node_modules\\@github\\copilot-win32-x64\\copilot.exe
+  - In .agentv/targets.yaml: executable: \${{ COPILOT_EXE }}`;
+}
 function summarizeAcpEvent(eventType, data) {
   if (!data || typeof data !== "object") {
     return eventType;
@@ -13557,9 +13609,8 @@ async function runEvaluation(options) {
   const hasSharedWorkspace = !!(useStaticWorkspace || workspaceTemplate || suiteWorkspace?.hooks || suiteWorkspace?.repos?.length && !isPerTestIsolation);
   const poolEnabled = configuredMode === "pooled" ? true : configuredMode === "ephemeral" || useStaticWorkspace ? false : suiteWorkspace?.pool ?? poolWorkspaces ?? true;
   const usePool = poolEnabled !== false && !!suiteWorkspace?.repos?.length && !isPerTestIsolation && !useStaticWorkspace;
-  const finishCleanPolicy = suiteWorkspace?.hooks?.on_finish?.clean;
-  const resolvedRetainOnSuccess = (finishCleanPolicy === "always" || finishCleanPolicy === "on_success" ? "cleanup" : finishCleanPolicy === "on_failure" || finishCleanPolicy === "never" ? "keep" : void 0) ?? retainOnSuccess ?? (keepWorkspaces ? "keep" : "cleanup");
-  const resolvedRetainOnFailure = (finishCleanPolicy === "always" || finishCleanPolicy === "on_failure" ? "cleanup" : finishCleanPolicy === "on_success" || finishCleanPolicy === "never" ? "keep" : void 0) ?? retainOnFailure ?? (cleanupWorkspaces ? "cleanup" : "keep");
+  const resolvedRetainOnSuccess = retainOnSuccess ?? (keepWorkspaces ? "keep" : "cleanup");
+  const resolvedRetainOnFailure = retainOnFailure ?? (cleanupWorkspaces ? "cleanup" : "keep");
   const requestedWorkers = options.maxConcurrency ?? target.workers ?? 1;
   const workers = hasSharedWorkspace && !usePool ? 1 : requestedWorkers;
   setupLog(
@@ -13594,7 +13645,7 @@ async function runEvaluation(options) {
         repos: suiteWorkspace.repos,
         maxSlots: poolMaxSlots,
         repoManager: poolRepoManager,
-        poolReset: (workspaceClean === "full" ? "strict" : workspaceClean === "standard" ? "fast" : null) ?? suiteWorkspace.hooks?.on_reuse?.reset ?? "fast"
+        poolReset: (workspaceClean === "full" ? "strict" : workspaceClean === "standard" ? "fast" : null) ?? "fast"
       });
       poolSlots.push(slot);
       setupLog(`pool slot ${i} acquired at: ${slot.path} (existing=${slot.isExisting})`);
@@ -13645,7 +13696,7 @@ async function runEvaluation(options) {
         throw new Error(`Failed to materialize repos: ${message}`);
       }
     }
-    const suiteBeforeAllHook = suiteWorkspace?.hooks?.before_all_tests;
+    const suiteBeforeAllHook = suiteWorkspace?.hooks?.before_all;
     if (sharedWorkspacePath && hasHookCommand(suiteBeforeAllHook)) {
       const beforeAllHook = suiteBeforeAllHook;
       const beforeAllCommand = (beforeAllHook.command ?? beforeAllHook.script ?? []).join(" ");
@@ -13660,7 +13711,7 @@ async function runEvaluation(options) {
       };
       try {
         beforeAllOutput = await executeWorkspaceScript(
-          toScriptConfig(beforeAllHook, "before_all_tests", "suite workspace"),
+          toScriptConfig(beforeAllHook, "before_all", "suite workspace"),
           scriptContext
         );
         setupLog("shared before_all completed");
@@ -13685,7 +13736,7 @@ async function runEvaluation(options) {
         };
         try {
           const output = await executeWorkspaceScript(
-            toScriptConfig(beforeAllHook, "before_all_tests", "suite workspace"),
+            toScriptConfig(beforeAllHook, "before_all", "suite workspace"),
             scriptContext
           );
           if (!beforeAllOutput) beforeAllOutput = output;
@@ -13914,7 +13965,7 @@ async function runEvaluation(options) {
       }
     }
     const afterAllWorkspaces = poolSlots.length > 1 ? poolSlots.map((s) => s.path) : sharedWorkspacePath ? [sharedWorkspacePath] : [];
-    const suiteAfterAllHook = suiteWorkspace?.hooks?.after_all_tests;
+    const suiteAfterAllHook = suiteWorkspace?.hooks?.after_all;
     if (afterAllWorkspaces.length > 0 && hasHookCommand(suiteAfterAllHook)) {
       const afterAllHook = suiteAfterAllHook;
       for (const wsPath of afterAllWorkspaces) {
@@ -13926,7 +13977,7 @@ async function runEvaluation(options) {
         };
         try {
           const afterAllOutput = await executeWorkspaceScript(
-            toScriptConfig(afterAllHook, "after_all_tests", "suite workspace"),
+            toScriptConfig(afterAllHook, "after_all", "suite workspace"),
             scriptContext,
             "warn"
           );
@@ -14223,7 +14274,7 @@ async function runEvalCase(options) {
         );
       }
     }
-    const caseBeforeAllHook = evalCase.workspace?.hooks?.before_all_tests;
+    const caseBeforeAllHook = evalCase.workspace?.hooks?.before_all;
     if (workspacePath && hasHookCommand(caseBeforeAllHook)) {
       const beforeAllHook = caseBeforeAllHook;
       const beforeAllCommand = (beforeAllHook.command ?? beforeAllHook.script ?? []).join(" ");
@@ -14242,7 +14293,7 @@ async function runEvalCase(options) {
       };
       try {
         beforeAllOutput = await executeWorkspaceScript(
-          toScriptConfig(beforeAllHook, "before_all_tests", `test '${evalCase.id}'`),
+          toScriptConfig(beforeAllHook, "before_all", `test '${evalCase.id}'`),
           scriptContext
         );
         if (setupDebug) {
@@ -14267,7 +14318,7 @@ async function runEvalCase(options) {
       }
     }
   }
-  const caseBeforeEachHook = evalCase.workspace?.hooks?.before_each_test;
+  const caseBeforeEachHook = evalCase.workspace?.hooks?.before_each;
   if (workspacePath && hasHookCommand(caseBeforeEachHook)) {
     const beforeEachHook = caseBeforeEachHook;
     const scriptContext = {
@@ -14280,7 +14331,7 @@ async function runEvalCase(options) {
     };
     try {
       beforeEachOutput = await executeWorkspaceScript(
-        toScriptConfig(beforeEachHook, "before_each_test", `test '${evalCase.id}'`),
+        toScriptConfig(beforeEachHook, "before_each", `test '${evalCase.id}'`),
         scriptContext
       );
     } catch (error) {
@@ -14397,17 +14448,17 @@ async function runEvalCase(options) {
     }
   }
   const providerError = extractProviderError(providerResponse);
-  if (repoManager && workspacePath && evalCase.workspace?.hooks?.after_each_test?.reset && evalCase.workspace.hooks.after_each_test.reset !== "none" && evalCase.workspace.repos) {
+  if (repoManager && workspacePath && evalCase.workspace?.hooks?.after_each?.reset && evalCase.workspace.hooks.after_each.reset !== "none" && evalCase.workspace.repos) {
     try {
       await repoManager.reset(
         evalCase.workspace.repos,
         workspacePath,
-        evalCase.workspace.hooks.after_each_test.reset
+        evalCase.workspace.hooks.after_each.reset
       );
     } catch {
     }
   }
-  const caseAfterEachHook = evalCase.workspace?.hooks?.after_each_test;
+  const caseAfterEachHook = evalCase.workspace?.hooks?.after_each;
   if (workspacePath && hasHookCommand(caseAfterEachHook)) {
     const afterEachHook = caseAfterEachHook;
     const scriptContext = {
@@ -14420,7 +14471,7 @@ async function runEvalCase(options) {
     };
     try {
       afterEachOutput = await executeWorkspaceScript(
-        toScriptConfig(afterEachHook, "after_each_test", `test '${evalCase.id}'`),
+        toScriptConfig(afterEachHook, "after_each", `test '${evalCase.id}'`),
         scriptContext,
         "warn"
       );
@@ -14820,9 +14871,11 @@ async function runEvaluatorList(options) {
     registry: typeRegistry
   };
   for (const evaluatorConfig of evaluators ?? []) {
+    const startedAt = /* @__PURE__ */ new Date();
     try {
       const evaluatorInstance = await typeRegistry.create(evaluatorConfig, dispatchContext);
       const score2 = await evaluatorInstance.evaluate(evalContext);
+      const endedAt = /* @__PURE__ */ new Date();
       const weight = evaluatorConfig.weight ?? 1;
       scored.push({
         score: score2,
@@ -14843,9 +14896,13 @@ async function runEvaluatorList(options) {
         evaluatorProviderRequest: score2.evaluatorRawRequest,
         details: score2.details,
         scores: mapChildResults(score2.scores),
-        tokenUsage: score2.tokenUsage
+        tokenUsage: score2.tokenUsage,
+        durationMs: endedAt.getTime() - startedAt.getTime(),
+        startedAt: startedAt.toISOString(),
+        endedAt: endedAt.toISOString()
       });
     } catch (error) {
+      const endedAt = /* @__PURE__ */ new Date();
       const message = error instanceof Error ? error.message : String(error);
       const fallbackScore = {
         score: 0,
@@ -14871,7 +14928,10 @@ async function runEvaluatorList(options) {
         verdict: "fail",
         hits: [],
         misses: [`Evaluator '${evaluatorConfig.name ?? "unknown"}' failed: ${message}`],
-        reasoning: message
+        reasoning: message,
+        durationMs: endedAt.getTime() - startedAt.getTime(),
+        startedAt: startedAt.toISOString(),
+        endedAt: endedAt.toISOString()
       });
     }
     if (evaluatorConfig.negate === true && scored.length > 0) {