npm - @agentv/core - Versions diffs - 4.17.1 → 4.18.0-next.1 - Mend

@agentv/core 4.17.1 → 4.18.0-next.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (14) hide show

package/dist/{chunk-6VZY3B6M.js → chunk-PYDBJOAO.js} +6 -6
package/dist/chunk-PYDBJOAO.js.map +1 -0
package/dist/evaluation/validation/index.cjs +5 -5
package/dist/evaluation/validation/index.cjs.map +1 -1
package/dist/evaluation/validation/index.js +3 -3
package/dist/evaluation/validation/index.js.map +1 -1
package/dist/index.cjs +229 -238
package/dist/index.cjs.map +1 -1
package/dist/index.d.cts +156 -158
package/dist/index.d.ts +156 -158
package/dist/index.js +210 -216
package/dist/index.js.map +1 -1
package/package.json +1 -1
package/dist/chunk-6VZY3B6M.js.map +0 -1

package/dist/index.cjs CHANGED Viewed

@@ -1768,22 +1768,21 @@ var init_otlp_json_file_exporter = __esm({
 var index_exports = {};
 __export(index_exports, {
   COMMON_TARGET_SETTINGS: () => COMMON_TARGET_SETTINGS,
-  CodeEvaluator: () => CodeEvaluator,
-  CompositeEvaluator: () => CompositeEvaluator,
-  CostEvaluator: () => CostEvaluator,
+  CodeGrader: () => CodeGrader,
+  CompositeGrader: () => CompositeGrader,
+  CostGrader: () => CostGrader,
   DEFAULT_CATEGORY: () => DEFAULT_CATEGORY,
-  DEFAULT_EVALUATOR_TEMPLATE: () => DEFAULT_EVALUATOR_TEMPLATE,
   DEFAULT_EVAL_PATTERNS: () => DEFAULT_EVAL_PATTERNS,
   DEFAULT_EXPLORATION_TOOLS: () => DEFAULT_EXPLORATION_TOOLS,
+  DEFAULT_GRADER_TEMPLATE: () => DEFAULT_GRADER_TEMPLATE,
   DEFAULT_THRESHOLD: () => DEFAULT_THRESHOLD,
-  DeterministicAssertionEvaluator: () => DeterministicAssertionEvaluator,
+  DeterministicAssertionGrader: () => DeterministicAssertionGrader,
   DockerWorkspaceProvider: () => DockerWorkspaceProvider,
-  EvaluatorRegistry: () => EvaluatorRegistry,
-  ExecutionMetricsEvaluator: () => ExecutionMetricsEvaluator,
-  FieldAccuracyEvaluator: () => FieldAccuracyEvaluator,
-  LatencyEvaluator: () => LatencyEvaluator,
-  LlmGraderEvaluator: () => LlmGraderEvaluator,
-  LlmJudgeEvaluator: () => LlmGraderEvaluator,
+  ExecutionMetricsGrader: () => ExecutionMetricsGrader,
+  FieldAccuracyGrader: () => FieldAccuracyGrader,
+  GraderRegistry: () => GraderRegistry,
+  LatencyGrader: () => LatencyGrader,
+  LlmGrader: () => LlmGrader,
   OTEL_BACKEND_PRESETS: () => OTEL_BACKEND_PRESETS,
   OtelStreamingObserver: () => OtelStreamingObserver,
   OtelTraceExporter: () => OtelTraceExporter,
@@ -1792,18 +1791,17 @@ __export(index_exports, {
   ProviderRegistry: () => ProviderRegistry,
   RepoManager: () => RepoManager,
   ResponseCache: () => ResponseCache,
-  SkillTriggerEvaluator: () => SkillTriggerEvaluator,
+  SkillTriggerGrader: () => SkillTriggerGrader,
   TEST_MESSAGE_ROLES: () => TEST_MESSAGE_ROLES,
   TemplateNotDirectoryError: () => TemplateNotDirectoryError,
   TemplateNotFoundError: () => TemplateNotFoundError,
-  TokenUsageEvaluator: () => TokenUsageEvaluator,
-  ToolTrajectoryEvaluator: () => ToolTrajectoryEvaluator,
+  TokenUsageGrader: () => TokenUsageGrader,
+  ToolTrajectoryGrader: () => ToolTrajectoryGrader,
   TranscriptProvider: () => TranscriptProvider,
   WorkspaceCreationError: () => WorkspaceCreationError,
   WorkspacePoolManager: () => WorkspacePoolManager,
   addBenchmark: () => addBenchmark,
   assembleLlmGraderPrompt: () => assembleLlmGraderPrompt,
-  assembleLlmJudgePrompt: () => assembleLlmGraderPrompt,
   avgToolDurationMs: () => avgToolDurationMs,
   buildDirectoryChain: () => buildDirectoryChain2,
   buildOutputSchema: () => buildOutputSchema,
@@ -1843,7 +1841,6 @@ __export(index_exports, {
   discoverCodexSessions: () => discoverCodexSessions,
   discoverCopilotSessions: () => discoverCopilotSessions,
   discoverGraders: () => discoverGraders,
-  discoverJudges: () => discoverGraders,
   discoverProviders: () => discoverProviders,
   ensureResultsRepoClone: () => ensureResultsRepoClone,
   ensureVSCodeSubagents: () => ensureVSCodeSubagents,
@@ -1885,7 +1882,7 @@ __export(index_exports, {
   isAgentSkillsFormat: () => isAgentSkillsFormat,
   isContent: () => isContent,
   isContentArray: () => isContentArray,
-  isEvaluatorKind: () => isEvaluatorKind,
+  isGraderKind: () => isGraderKind,
   isJsonObject: () => isJsonObject,
   isJsonValue: () => isJsonValue,
   isNonEmptyString: () => isNonEmptyString,
@@ -2038,7 +2035,7 @@ function isTestMessage(value) {
   }
   return false;
 }
-var EVALUATOR_KIND_VALUES = [
+var GRADER_KIND_VALUES = [
   "code-grader",
   "llm-grader",
   "rubric",
@@ -2064,9 +2061,9 @@ var EVALUATOR_KIND_VALUES = [
   "rubrics",
   "inline-assert"
 ];
-var EVALUATOR_KIND_SET = new Set(EVALUATOR_KIND_VALUES);
-function isEvaluatorKind(value) {
-  return typeof value === "string" && EVALUATOR_KIND_SET.has(value);
+var GRADER_KIND_SET = new Set(GRADER_KIND_VALUES);
+function isGraderKind(value) {
+  return typeof value === "string" && GRADER_KIND_SET.has(value);
 }
 // src/evaluation/trace.ts
@@ -2821,22 +2818,25 @@ function extractCacheConfig(suite) {
   const resolvedCachePath = typeof cachePath === "string" && cachePath.trim().length > 0 ? cachePath.trim() : void 0;
   return { enabled: cache, cachePath: resolvedCachePath };
 }
-function extractTotalBudgetUsd(suite) {
+function extractBudgetUsd(suite) {
   const execution = suite.execution;
   if (!execution || typeof execution !== "object" || Array.isArray(execution)) {
     return void 0;
   }
   const executionObj = execution;
-  const rawBudget = executionObj.total_budget_usd ?? executionObj.totalBudgetUsd;
+  if ("total_budget_usd" in executionObj || "totalBudgetUsd" in executionObj) {
+    throw new Error(
+      "execution.total_budget_usd has been renamed to execution.budget_usd. Update your eval YAML."
+    );
+  }
+  const rawBudget = executionObj.budget_usd ?? executionObj.budgetUsd;
   if (rawBudget === void 0 || rawBudget === null) {
     return void 0;
   }
   if (typeof rawBudget === "number" && rawBudget > 0) {
     return rawBudget;
   }
-  logWarning(
-    `Invalid execution.total_budget_usd: ${rawBudget}. Must be a positive number. Ignoring.`
-  );
+  logWarning(`Invalid execution.budget_usd: ${rawBudget}. Must be a positive number. Ignoring.`);
   return void 0;
 }
 function extractFailOnError(suite) {
@@ -2986,7 +2986,7 @@ function logWarning(message) {
   console.warn(`${ANSI_YELLOW2}Warning: ${message}${ANSI_RESET3}`);
 }
-// src/evaluation/loaders/evaluator-parser.ts
+// src/evaluation/loaders/grader-parser.ts
 init_cjs_shims();
 var import_promises7 = require("fs/promises");
 var import_node_path6 = __toESM(require("path"), 1);
@@ -3230,38 +3230,38 @@ function validateTemplateVariables(content, source) {
     );
   }
   if (invalidVariables.length > 0) {
-    const warningMessage = `${ANSI_YELLOW3}Warning: Custom evaluator template at ${source}
+    const warningMessage = `${ANSI_YELLOW3}Warning: Custom grader template at ${source}
   Contains invalid variables: ${invalidVariables.map((v) => `{{ ${v} }}`).join(", ")}
   Valid variables: ${Array.from(VALID_TEMPLATE_VARIABLES).map((v) => `{{ ${v} }}`).join(", ")}${ANSI_RESET4}`;
     console.warn(warningMessage);
   }
 }
-// src/evaluation/loaders/evaluator-parser.ts
+// src/evaluation/loaders/grader-parser.ts
 var ANSI_YELLOW4 = "\x1B[33m";
 var ANSI_RESET5 = "\x1B[0m";
 var MAX_ASSERTION_INCLUDE_DEPTH = 3;
 var PROMPT_FILE_PREFIX = "file://";
-function normalizeEvaluatorType(type) {
+function normalizeGraderType(type) {
   return type.replace(/_/g, "-");
 }
 function isDeprecatedJudgeType(type) {
   return type === "code-judge" || type === "llm-judge";
 }
-async function parseEvaluators(rawEvalCase, globalExecution, searchRoots, evalId, defaultPreprocessors) {
+async function parseGraders(rawEvalCase, globalExecution, searchRoots, evalId, defaultPreprocessors) {
   const execution = rawEvalCase.execution;
   const executionObject = isJsonObject2(execution) ? execution : void 0;
   const caseEvaluators = rawEvalCase.assertions ?? rawEvalCase.assert ?? (executionObject ? executionObject.evaluators : void 0) ?? // deprecated: use assertions
   rawEvalCase.evaluators;
   const skipDefaults = executionObject?.skip_defaults === true;
   const rootEvaluators = skipDefaults ? void 0 : globalExecution?.assertions ?? globalExecution?.assert ?? globalExecution?.evaluators;
-  const parsedCase = await parseEvaluatorList(
+  const parsedCase = await parseGraderList(
     caseEvaluators,
     searchRoots,
     evalId,
     defaultPreprocessors
   );
-  const parsedRoot = await parseEvaluatorList(
+  const parsedRoot = await parseGraderList(
     rootEvaluators,
     searchRoots,
     evalId,
@@ -3340,12 +3340,12 @@ ${resolved.attempted.map((attempt) => `  Tried: ${attempt}`).join("\n")}` : "";
     templateDir,
     ...searchRoots.filter((root) => import_node_path6.default.resolve(root) !== templateDir)
   ];
-  return await expandEvaluatorEntries(assertions, nestedSearchRoots, evalId, {
+  return await expandGraderEntries(assertions, nestedSearchRoots, evalId, {
     depth: nextDepth,
     chain: [...includeContext.chain, resolved.resolvedPath]
   }) ?? [];
 }
-async function expandEvaluatorEntries(candidateEvaluators, searchRoots, evalId, includeContext = { depth: 0, chain: [] }) {
+async function expandGraderEntries(candidateEvaluators, searchRoots, evalId, includeContext = { depth: 0, chain: [] }) {
   if (candidateEvaluators === void 0) {
     return void 0;
   }
@@ -3369,8 +3369,8 @@ async function expandEvaluatorEntries(candidateEvaluators, searchRoots, evalId,
   }
   return expanded;
 }
-async function parseEvaluatorList(candidateEvaluators, searchRoots, evalId, defaultPreprocessors) {
-  const expandedEvaluators = await expandEvaluatorEntries(candidateEvaluators, searchRoots, evalId);
+async function parseGraderList(candidateEvaluators, searchRoots, evalId, defaultPreprocessors) {
+  const expandedEvaluators = await expandGraderEntries(candidateEvaluators, searchRoots, evalId);
   if (!expandedEvaluators) {
     return void 0;
   }
@@ -3416,14 +3416,14 @@ async function parseEvaluatorList(candidateEvaluators, searchRoots, evalId, defa
     }
     const rawName = asString(rawEvaluator.name);
     const rawType = rawEvaluator.type;
-    const typeValue = typeof rawType === "string" ? normalizeEvaluatorType(rawType) : rawType;
+    const typeValue = typeof rawType === "string" ? normalizeGraderType(rawType) : rawType;
     if (typeof typeValue === "string" && isDeprecatedJudgeType(typeValue)) {
       logWarning2(
         `Skipping evaluator '${rawName ?? "<unnamed>"}' in '${evalId}': '${rawType}' is deprecated. Use '${typeValue.replace("-judge", "-grader")}' instead`
       );
       continue;
     }
-    const isCustomType = typeof typeValue === "string" && !isEvaluatorKind(typeValue);
+    const isCustomType = typeof typeValue === "string" && !isGraderKind(typeValue);
     if (typeof typeValue !== "string") {
       logWarning2(`Skipping evaluator with invalid type in '${evalId}'`);
       continue;
@@ -3586,7 +3586,7 @@ async function parseEvaluatorList(candidateEvaluators, searchRoots, evalId, defa
         continue;
       }
       const aggregatorType = asString(rawAggregator.type);
-      const normalizedAggregatorType = typeof aggregatorType === "string" ? aggregatorType === "weighted_average" || aggregatorType === "threshold" ? aggregatorType : normalizeEvaluatorType(aggregatorType) : aggregatorType;
+      const normalizedAggregatorType = typeof aggregatorType === "string" ? aggregatorType === "weighted_average" || aggregatorType === "threshold" ? aggregatorType : normalizeGraderType(aggregatorType) : aggregatorType;
       if (typeof normalizedAggregatorType === "string" && isDeprecatedJudgeType(normalizedAggregatorType)) {
         logWarning2(
           `Skipping composite evaluator '${name}' in '${evalId}': aggregator type '${aggregatorType}' is deprecated. Use '${normalizedAggregatorType.replace("-judge", "-grader")}' instead`
@@ -3599,7 +3599,7 @@ async function parseEvaluatorList(candidateEvaluators, searchRoots, evalId, defa
         );
         continue;
       }
-      const expandedMembers = await expandEvaluatorEntries(
+      const expandedMembers = await expandGraderEntries(
         rawMembers,
         searchRoots,
         `${evalId}:${name}`
@@ -3615,11 +3615,11 @@ async function parseEvaluatorList(candidateEvaluators, searchRoots, evalId, defa
         }
         const memberName = asString(rawMember.name);
         const memberType = rawMember.type;
-        if (!memberName || !isEvaluatorKind(memberType)) {
+        if (!memberName || !isGraderKind(memberType)) {
           logWarning2(`Skipping member evaluator with invalid name/type in composite '${name}'`);
           continue;
         }
-        const memberConfigs = await parseEvaluators(
+        const memberConfigs = await parseGraders(
           { evaluators: [rawMember] },
           void 0,
           searchRoots,
@@ -4360,7 +4360,7 @@ async function parseEvaluatorList(candidateEvaluators, searchRoots, evalId, defa
         `prompt.command for evaluator '${name}' in '${evalId}'`
       );
       if (!commandArray) {
-        throw new Error(`Evaluator '${name}' in '${evalId}': prompt object requires command array`);
+        throw new Error(`Grader '${name}' in '${evalId}': prompt object requires command array`);
       }
       const commandPath = commandArray[commandArray.length - 1];
       const resolved = await resolveFileReference2(commandPath, searchRoots);
@@ -4368,7 +4368,7 @@ async function parseEvaluatorList(candidateEvaluators, searchRoots, evalId, defa
         resolvedPromptScript = [...commandArray.slice(0, -1), import_node_path6.default.resolve(resolved.resolvedPath)];
       } else {
         throw new Error(
-          `Evaluator '${name}' in '${evalId}': prompt command file not found: ${resolved.displayPath}`
+          `Grader '${name}' in '${evalId}': prompt command file not found: ${resolved.displayPath}`
         );
       }
       if (isJsonObject2(rawPrompt.config)) {
@@ -4385,11 +4385,11 @@ async function parseEvaluatorList(candidateEvaluators, searchRoots, evalId, defa
             await validateCustomPromptContent(promptPath);
           } catch (error) {
             const message = error instanceof Error ? error.message : String(error);
-            throw new Error(`Evaluator '${name}' template (${promptPath}): ${message}`);
+            throw new Error(`Grader '${name}' template (${promptPath}): ${message}`);
           }
         } else {
           throw new Error(
-            `Evaluator '${name}' in '${evalId}': prompt file not found: ${resolved.displayPath}`
+            `Grader '${name}' in '${evalId}': prompt file not found: ${resolved.displayPath}`
           );
         }
       } else {
@@ -4506,18 +4506,18 @@ async function parsePreprocessors(rawValue, searchRoots, evaluatorName, evalId)
     return void 0;
   }
   if (!Array.isArray(rawValue)) {
-    throw new Error(`Evaluator '${evaluatorName}' in '${evalId}': preprocessors must be an array`);
+    throw new Error(`Grader '${evaluatorName}' in '${evalId}': preprocessors must be an array`);
   }
   const preprocessors = [];
   for (const rawEntry of rawValue) {
     if (!isJsonObject2(rawEntry)) {
       throw new Error(
-        `Evaluator '${evaluatorName}' in '${evalId}': each preprocessor must be an object`
+        `Grader '${evaluatorName}' in '${evalId}': each preprocessor must be an object`
       );
     }
     const type = asString(rawEntry.type)?.trim();
     if (!type) {
-      throw new Error(`Evaluator '${evaluatorName}' in '${evalId}': preprocessor.type is required`);
+      throw new Error(`Grader '${evaluatorName}' in '${evalId}': preprocessor.type is required`);
     }
     const command = asStringArray(
       rawEntry.command,
@@ -4525,14 +4525,14 @@ async function parsePreprocessors(rawValue, searchRoots, evaluatorName, evalId)
     );
     if (!command || command.length === 0) {
       throw new Error(
-        `Evaluator '${evaluatorName}' in '${evalId}': preprocessor '${type}' requires command`
+        `Grader '${evaluatorName}' in '${evalId}': preprocessor '${type}' requires command`
       );
     }
     const commandPath = command[command.length - 1];
     const resolved = await resolveFileReference2(commandPath, searchRoots);
     if (!resolved.resolvedPath) {
       throw new Error(
-        `Evaluator '${evaluatorName}' in '${evalId}': preprocessor command file not found: ${resolved.displayPath}`
+        `Grader '${evaluatorName}' in '${evalId}': preprocessor command file not found: ${resolved.displayPath}`
       );
     }
     preprocessors.push({
@@ -4583,13 +4583,13 @@ function coerceEvaluator(candidate, contextId) {
   if (typeof candidate !== "string") {
     return void 0;
   }
-  const normalized = normalizeEvaluatorType(candidate);
+  const normalized = normalizeGraderType(candidate);
   if (isDeprecatedJudgeType(normalized)) {
     throw new Error(
       `Unsupported grader '${candidate}' in ${contextId}. Use '${normalized.replace("-judge", "-grader")}' instead.`
     );
   }
-  if (isEvaluatorKind(normalized)) {
+  if (isGraderKind(normalized)) {
     return normalized;
   }
   logWarning2(`Unknown grader '${candidate}' in ${contextId}, falling back to default`);
@@ -4661,7 +4661,7 @@ function parseRequiredAndMinScore(rawRequired, rawMinScore, evaluatorName, evalI
     }
     result.required = rawRequired;
     logWarning2(
-      `Evaluator '${evaluatorName}' in '${evalId}': 'required: ${rawRequired}' is deprecated. Use 'required: true' + 'min_score: ${rawRequired}' instead.`
+      `Grader '${evaluatorName}' in '${evalId}': 'required: ${rawRequired}' is deprecated. Use 'required: true' + 'min_score: ${rawRequired}' instead.`
     );
   }
   return result;
@@ -5485,7 +5485,7 @@ async function loadTestsFromJsonl(evalFilePath, repoRoot, options) {
     const testCaseEvaluatorKind = coerceEvaluator(testCaseConfig.evaluator, id) ?? globalEvaluator;
     let evaluators;
     try {
-      evaluators = await parseEvaluators(
+      evaluators = await parseGraders(
         testCaseConfig,
         mergedExecution,
         searchRoots,
@@ -5834,7 +5834,7 @@ async function loadTestSuite(evalFilePath, repoRoot, options) {
     targetRefs: extractTargetRefsFromSuite(parsed),
     workers: extractWorkersFromSuite(parsed),
     cacheConfig: extractCacheConfig(parsed),
-    totalBudgetUsd: extractTotalBudgetUsd(parsed),
+    budgetUsd: extractBudgetUsd(parsed),
     ...metadata !== void 0 && { metadata },
     ...failOnError !== void 0 && { failOnError },
     ...threshold !== void 0 && { threshold },
@@ -5975,7 +5975,7 @@ async function loadTestsFromYaml(evalFilePath, repoRoot, options) {
     const testCaseEvaluatorKind = coerceEvaluator(testCaseConfig.evaluator, id) ?? globalEvaluator;
     let evaluators;
     try {
-      evaluators = await parseEvaluators(
+      evaluators = await parseGraders(
         testCaseConfig,
         globalExecution,
         searchRoots,
@@ -15421,13 +15421,13 @@ function resolveAndCreateProvider(definition, env = process.env) {
   return createProvider(resolved);
 }
-// src/evaluation/evaluators.ts
+// src/evaluation/graders.ts
 init_cjs_shims();
-// src/evaluation/evaluators/index.ts
+// src/evaluation/graders/index.ts
 init_cjs_shims();
-// src/evaluation/evaluators/scoring.ts
+// src/evaluation/graders/scoring.ts
 init_cjs_shims();
 var DEFAULT_THRESHOLD = 0.8;
 var PASS_THRESHOLD = DEFAULT_THRESHOLD;
@@ -15516,7 +15516,7 @@ function negateScore(score) {
   };
 }
-// src/evaluation/evaluators/code-evaluator.ts
+// src/evaluation/graders/code-grader.ts
 init_cjs_shims();
 var import_promises31 = require("fs/promises");
 var import_node_os9 = require("os");
@@ -15814,7 +15814,7 @@ function getRepoCheckoutTargets(repos) {
   }));
 }
-// src/evaluation/evaluators/code-evaluator.ts
+// src/evaluation/graders/code-grader.ts
 var FILE_BACKED_OUTPUT_THRESHOLD = 5e4;
 var DATA_URI_RE = /^data:([^;]+);base64,(.+)$/s;
 async function materializeContentForGrader(messages, getWorkDir) {
@@ -15866,7 +15866,7 @@ async function materializeContentForGrader(messages, getWorkDir) {
   }
   return result;
 }
-var CodeEvaluator = class {
+var CodeGrader = class {
   kind = "code-grader";
   command;
   cwd;
@@ -15984,7 +15984,7 @@ var CodeEvaluator = class {
       })) : [];
       const details = parsed?.details && typeof parsed.details === "object" && !Array.isArray(parsed.details) ? parsed.details : void 0;
       const proxyUsage = getProxyUsage?.();
-      const evaluatorRawRequest = {
+      const graderRawRequest = {
         command: this.command,
         ...this.cwd ? { cwd: this.cwd } : {},
         ...proxyUsage ? {
@@ -15999,7 +15999,7 @@ var CodeEvaluator = class {
         verdict: scoreToVerdict(score),
         assertions,
         expectedAspectCount: assertions.length || 1,
-        evaluatorRawRequest,
+        graderRawRequest,
         ...details ? { details } : {},
         tokenUsage: proxyUsage?.tokenUsage
       };
@@ -16011,7 +16011,7 @@ var CodeEvaluator = class {
         verdict: "fail",
         assertions: [{ text: `Code evaluator failed: ${message}`, passed: false }],
         expectedAspectCount: 1,
-        evaluatorRawRequest: {
+        graderRawRequest: {
           command: this.command,
           ...this.cwd ? { cwd: this.cwd } : {},
           ...proxyUsage ? {
@@ -16060,11 +16060,11 @@ function formatStderr(stderr) {
 ${tail}`;
 }
-// src/evaluation/evaluators/composite.ts
+// src/evaluation/graders/composite.ts
 init_cjs_shims();
 var import_ai3 = require("ai");
-// src/evaluation/evaluators/llm-grader.ts
+// src/evaluation/graders/llm-grader.ts
 init_cjs_shims();
 var import_promises32 = __toESM(require("fs/promises"), 1);
 var import_node_path41 = __toESM(require("path"), 1);
@@ -16105,7 +16105,7 @@ var BINARY_EXTENSIONS = /* @__PURE__ */ new Set([
   ".so",
   ".dylib"
 ]);
-var DEFAULT_EVALUATOR_TEMPLATE = `You are an expert evaluator. Your goal is to grade the answer based on how well it achieves the criteria for the original task.
+var DEFAULT_GRADER_TEMPLATE = `You are an expert grader. Your goal is to grade the answer based on how well it achieves the criteria for the original task.
 Use the reference_answer as a gold standard for a high-quality response (if provided). The reference_answer may be a simple text response, or it may contain a sequence of expected agent messages including tool calls. When it contains multiple messages, the last message represents the final expected answer. The answer does not need to match it verbatim, but should capture the key points and follow the same spirit.
@@ -16160,19 +16160,19 @@ function resolveContentBasePath(context2) {
   }
   return void 0;
 }
-var LlmGraderEvaluator = class {
+var LlmGrader = class {
   kind = "llm-grader";
   resolveGraderProvider;
   maxOutputTokens;
   temperature;
-  evaluatorTemplate;
+  graderTemplate;
   maxSteps;
   graderTargetProvider;
   constructor(options) {
     this.resolveGraderProvider = options.resolveGraderProvider ?? options.resolveJudgeProvider;
     this.maxOutputTokens = options.maxOutputTokens;
     this.temperature = options.temperature;
-    this.evaluatorTemplate = options.evaluatorTemplate;
+    this.graderTemplate = options.graderTemplate;
     this.maxSteps = Math.min(options.maxSteps ?? DEFAULT_MAX_STEPS, MAX_STEPS_LIMIT);
     this.graderTargetProvider = options.graderTargetProvider ?? options.judgeTargetProvider;
   }
@@ -16235,16 +16235,16 @@ var LlmGraderEvaluator = class {
       [TEMPLATE_VARIABLES.EXPECTED_OUTPUT_TEXT]: (context2.evalCase.reference_answer ?? "").trim()
     };
     const systemPrompt = buildOutputSchema();
-    const evaluatorTemplate = context2.evaluatorTemplateOverride ?? this.evaluatorTemplate ?? DEFAULT_EVALUATOR_TEMPLATE;
-    warnDeprecatedTemplateVars(evaluatorTemplate);
-    let userPrompt = substituteVariables(evaluatorTemplate, variables);
-    if (context2.fileChanges && !context2.evaluatorTemplateOverride && !this.evaluatorTemplate) {
+    const graderTemplate = context2.graderTemplateOverride ?? this.graderTemplate ?? DEFAULT_GRADER_TEMPLATE;
+    warnDeprecatedTemplateVars(graderTemplate);
+    let userPrompt = substituteVariables(graderTemplate, variables);
+    if (context2.fileChanges && !context2.graderTemplateOverride && !this.graderTemplate) {
       userPrompt += `
 [[ ## file_changes ## ]]
 ${context2.fileChanges}`;
     }
-    const evaluatorRawRequest = {
+    const graderRawRequest = {
       userPrompt,
       systemPrompt
     };
@@ -16265,7 +16265,7 @@ ${context2.fileChanges}`;
         verdict: scoreToVerdict(score),
         assertions,
         expectedAspectCount: Math.max(assertions.length, 1),
-        evaluatorRawRequest,
+        graderRawRequest,
         graderTarget: graderProvider.targetName,
         details: data.details,
         tokenUsage
@@ -16279,7 +16279,7 @@ ${context2.fileChanges}`;
         verdict: "skip",
         assertions: [{ text: `Grader parse failure after 3 attempts: ${message}`, passed: false }],
         expectedAspectCount: 1,
-        evaluatorRawRequest,
+        graderRawRequest,
         graderTarget: graderProvider.targetName
       };
     }
@@ -16296,7 +16296,7 @@ ${context2.fileChanges}`;
     }
     const prompt = this.buildRubricPrompt(context2, rubrics);
     const systemPrompt = buildRubricOutputSchema();
-    const evaluatorRawRequest = {
+    const graderRawRequest = {
       userPrompt: prompt,
       systemPrompt
     };
@@ -16316,7 +16316,7 @@ ${context2.fileChanges}`;
         verdict,
         assertions,
         expectedAspectCount: rubrics.length,
-        evaluatorRawRequest,
+        graderRawRequest,
         graderTarget: graderProvider.targetName,
         tokenUsage
       };
@@ -16329,7 +16329,7 @@ ${context2.fileChanges}`;
         verdict: "skip",
         assertions: [{ text: `Grader parse failure after 3 attempts: ${message}`, passed: false }],
         expectedAspectCount: rubrics.length,
-        evaluatorRawRequest,
+        graderRawRequest,
         graderTarget: graderProvider.targetName
       };
     }
@@ -16341,7 +16341,7 @@ ${context2.fileChanges}`;
   async evaluateWithScoreRanges(context2, graderProvider, rubrics) {
     const prompt = this.buildScoreRangePrompt(context2, rubrics);
     const systemPrompt = buildScoreRangeOutputSchema();
-    const evaluatorRawRequest = {
+    const graderRawRequest = {
       userPrompt: prompt,
       systemPrompt
     };
@@ -16361,7 +16361,7 @@ ${context2.fileChanges}`;
         verdict,
         assertions,
         expectedAspectCount: rubrics.length,
-        evaluatorRawRequest,
+        graderRawRequest,
         graderTarget: graderProvider.targetName,
         details,
         tokenUsage
@@ -16375,7 +16375,7 @@ ${context2.fileChanges}`;
         verdict: "skip",
         assertions: [{ text: `Grader parse failure after 3 attempts: ${message}`, passed: false }],
         expectedAspectCount: rubrics.length,
-        evaluatorRawRequest,
+        graderRawRequest,
         graderTarget: graderProvider.targetName
       };
     }
@@ -16404,7 +16404,7 @@ ${context2.fileChanges}`;
     const config = context2.evaluator;
     const rubrics = config?.type === "llm-grader" ? config.rubrics : void 0;
     const fsTools = createFilesystemTools(workspacePath);
-    const evaluatorRawRequest = {
+    const graderRawRequest = {
       mode: "built-in",
       systemPrompt,
       userPrompt,
@@ -16428,7 +16428,7 @@ ${context2.fileChanges}`;
       return this.parseAgentResult(
         text,
         rubrics,
-        evaluatorRawRequest,
+        graderRawRequest,
         details,
         graderProvider.targetName
       );
@@ -16439,7 +16439,7 @@ ${context2.fileChanges}`;
         verdict: "fail",
         assertions: [{ text: `llm-grader built-in evaluation failed: ${message}`, passed: false }],
         expectedAspectCount: 1,
-        evaluatorRawRequest,
+        graderRawRequest,
         graderTarget: graderProvider.targetName,
         details: { mode: "built-in", error: message }
       };
@@ -16471,7 +16471,7 @@ ${context2.fileChanges}`;
   async evaluateWithDelegate(context2, provider, modeLabel) {
     const workspacePath = context2.workspacePath;
     const prompt = this.buildDelegatedPrompt(context2);
-    const evaluatorRawRequest = {
+    const graderRawRequest = {
       mode: modeLabel,
       grader_target: provider.targetName,
       prompt
@@ -16492,7 +16492,7 @@ ${context2.fileChanges}`;
             { text: `llm-grader ${modeLabel} returned no assistant response`, passed: false }
           ],
           expectedAspectCount: 1,
-          evaluatorRawRequest,
+          graderRawRequest,
           graderTarget: provider.targetName,
           details: { mode: modeLabel, grader_target: provider.targetName }
         };
@@ -16506,7 +16506,7 @@ ${context2.fileChanges}`;
       return this.parseAgentResult(
         assistantContent,
         rubrics,
-        evaluatorRawRequest,
+        graderRawRequest,
         details,
         provider.targetName
       );
@@ -16519,7 +16519,7 @@ ${context2.fileChanges}`;
           { text: `llm-grader ${modeLabel} evaluation failed: ${message}`, passed: false }
         ],
         expectedAspectCount: 1,
-        evaluatorRawRequest,
+        graderRawRequest,
         graderTarget: provider.targetName,
         details: {
           mode: modeLabel,
@@ -16540,7 +16540,7 @@ ${context2.fileChanges}`;
     const config = context2.evaluator;
     const rubrics = config?.type === "llm-grader" ? config.rubrics : void 0;
     const parts = [
-      "You are an expert evaluator with access to the workspace filesystem.",
+      "You are an expert grader with access to the workspace filesystem.",
       "Use the provided tools to investigate the workspace and verify the criteria are met.",
       "Thoroughly examine relevant files before making your assessment.",
       ""
@@ -16569,9 +16569,9 @@ ${context2.fileChanges}`;
       [TEMPLATE_VARIABLES.OUTPUT_TEXT]: context2.candidate.trim(),
       [TEMPLATE_VARIABLES.EXPECTED_OUTPUT_TEXT]: (context2.evalCase.reference_answer ?? "").trim()
     };
-    if (this.evaluatorTemplate) {
-      warnDeprecatedTemplateVars(this.evaluatorTemplate);
-      return substituteVariables(this.evaluatorTemplate, variables);
+    if (this.graderTemplate) {
+      warnDeprecatedTemplateVars(this.graderTemplate);
+      return substituteVariables(this.graderTemplate, variables);
     }
     const config = context2.evaluator;
     const rubrics = config?.type === "llm-grader" ? config.rubrics : void 0;
@@ -16618,7 +16618,7 @@ ${context2.fileChanges}`;
     const formattedQuestion = context2.promptInputs.question && context2.promptInputs.question.trim().length > 0 ? context2.promptInputs.question : context2.evalCase.question;
     const config = context2.evaluator;
     const rubrics = config?.type === "llm-grader" ? config.rubrics : void 0;
-    if (this.evaluatorTemplate) {
+    if (this.graderTemplate) {
       const variables = {
         [TEMPLATE_VARIABLES.CRITERIA]: context2.evalCase.criteria.trim(),
         [TEMPLATE_VARIABLES.INPUT]: formattedQuestion.trim(),
@@ -16630,15 +16630,15 @@ ${context2.fileChanges}`;
         [TEMPLATE_VARIABLES.OUTPUT_TEXT]: context2.candidate.trim(),
         [TEMPLATE_VARIABLES.EXPECTED_OUTPUT_TEXT]: (context2.evalCase.reference_answer ?? "").trim()
       };
-      warnDeprecatedTemplateVars(this.evaluatorTemplate);
-      const customPrompt = substituteVariables(this.evaluatorTemplate, variables);
+      warnDeprecatedTemplateVars(this.graderTemplate);
+      const customPrompt = substituteVariables(this.graderTemplate, variables);
       const outputSchema = rubrics && rubrics.length > 0 ? buildRubricOutputSchema() : buildOutputSchema();
       return `${customPrompt}
 ${outputSchema}`;
     }
     const parts = [
-      "You are an expert evaluator. Investigate the workspace to verify the criteria are met.",
+      "You are an expert grader. Investigate the workspace to verify the criteria are met.",
       "",
       "[[ ## question ## ]]",
       formattedQuestion,
@@ -16675,7 +16675,7 @@ ${outputSchema}`;
    * Parse the agent's response text into an EvaluationScore.
    * Supports both freeform and rubric modes.
    */
-  parseAgentResult(text, rubrics, evaluatorRawRequest, details, graderTarget) {
+  parseAgentResult(text, rubrics, graderRawRequest, details, graderTarget) {
     try {
       const parsed = parseJsonFromText(text);
       if (rubrics && rubrics.length > 0) {
@@ -16686,7 +16686,7 @@ ${outputSchema}`;
           verdict,
           assertions: assertions2,
           expectedAspectCount: rubrics.length,
-          evaluatorRawRequest,
+          graderRawRequest,
           graderTarget,
           details
         };
@@ -16699,7 +16699,7 @@ ${outputSchema}`;
         verdict: scoreToVerdict(score),
         assertions,
         expectedAspectCount: Math.max(assertions.length, 1),
-        evaluatorRawRequest,
+        graderRawRequest,
         graderTarget,
         details: data.details && Object.keys(data.details).length > 0 ? { ...details, ...data.details } : details
       };
@@ -16714,7 +16714,7 @@ ${outputSchema}`;
           }
         ],
         expectedAspectCount: 1,
-        evaluatorRawRequest,
+        graderRawRequest,
         graderTarget,
         details
       };
@@ -16729,7 +16729,7 @@ ${outputSchema}`;
   buildScoreRangePrompt(context2, rubrics) {
     const formattedQuestion = context2.promptInputs.question && context2.promptInputs.question.trim().length > 0 ? context2.promptInputs.question : context2.evalCase.question;
     const parts = [
-      "You are an expert evaluator. Score the candidate answer on each criterion below using the provided score ranges.",
+      "You are an expert grader. Score the candidate answer on each criterion below using the provided score ranges.",
       "For each criterion, output an integer score from 0 to 10 based on which score range best matches the answer.",
       "",
       "[[ ## question ## ]]",
@@ -16772,7 +16772,7 @@ ${outputSchema}`;
   buildRubricPrompt(context2, rubrics) {
     const formattedQuestion = context2.promptInputs.question && context2.promptInputs.question.trim().length > 0 ? context2.promptInputs.question : context2.evalCase.question;
     const parts = [
-      "You are an expert evaluator. Evaluate the candidate answer against each rubric item below.",
+      "You are an expert grader. Evaluate the candidate answer against each rubric item below.",
       "",
       "[[ ## question ## ]]",
       formattedQuestion,
@@ -16946,7 +16946,7 @@ function sumTokenUsage(first, second) {
   };
 }
 function buildRubricOutputSchema() {
-  return `You are an expert evaluator. Evaluate the candidate answer against each rubric item.
+  return `You are an expert grader. Evaluate the candidate answer against each rubric item.
 You must return a valid JSON object matching this schema:
 {
   "checks": [
@@ -16980,7 +16980,7 @@ function warnDeprecatedTemplateVars(template) {
     console.warn(
       `${ANSI_YELLOW8}\u26A0 Deprecated template variables detected (they still work but will be removed in a future version):
   ${used.join("\n  ")}
-  Update your custom evaluator template to use the new names.${ANSI_RESET9}`
+  Update your custom grader template to use the new names.${ANSI_RESET9}`
     );
   }
 }
@@ -17012,7 +17012,7 @@ function calculateRubricScore(result, rubrics) {
   return { score, verdict, assertions };
 }
 function buildScoreRangeOutputSchema() {
-  return `You are an expert evaluator. Score the candidate answer on each criterion.
+  return `You are an expert grader. Score the candidate answer on each criterion.
 You must return a valid JSON object matching this schema:
 {
   "checks": [
@@ -17220,13 +17220,13 @@ async function searchDirectory(dirPath, workspacePath, regex, matches) {
   }
 }
-// src/evaluation/evaluators/composite.ts
+// src/evaluation/graders/composite.ts
 var DEFAULT_COMPOSITE_AGGREGATOR_PROMPT = `Review the following evaluation results:
 {{EVALUATOR_RESULTS_JSON}}
-Decide the final score and verdict based on all evaluator results.
+Decide the final score and verdict based on all grader results.
 Return a JSON object with: score (0.0-1.0), verdict (pass/fail), and reasoning.`;
-var CompositeEvaluator = class {
+var CompositeGrader = class {
   kind = "composite";
   config;
   evaluatorFactory;
@@ -17277,7 +17277,7 @@ var CompositeEvaluator = class {
         weight,
         verdict: member.result.verdict,
         assertions: [...member.result.assertions],
-        evaluatorRawRequest: member.result.evaluatorRawRequest,
+        graderRawRequest: member.result.graderRawRequest,
         scores: member.result.scores,
         details: member.result.details,
         tokenUsage: member.result.tokenUsage
@@ -17298,7 +17298,7 @@ var CompositeEvaluator = class {
         verdict: "skip",
         assertions: [{ text: "All evaluators skipped (infrastructure failure)", passed: false }],
         expectedAspectCount: 1,
-        evaluatorRawRequest: {
+        graderRawRequest: {
           aggregator: "weighted_average",
           ...weights ? { weights } : {}
         },
@@ -17311,7 +17311,7 @@ var CompositeEvaluator = class {
       verdict: scoreToVerdict(finalScore),
       assertions: allAssertions,
       expectedAspectCount: allAssertions.length || 1,
-      evaluatorRawRequest: {
+      graderRawRequest: {
         aggregator: "weighted_average",
         ...weights ? { weights } : {}
       },
@@ -17330,7 +17330,7 @@ var CompositeEvaluator = class {
         score: member.result.score,
         verdict: member.result.verdict,
         assertions: [...member.result.assertions],
-        evaluatorRawRequest: member.result.evaluatorRawRequest,
+        graderRawRequest: member.result.graderRawRequest,
         scores: member.result.scores,
         details: member.result.details,
         tokenUsage: member.result.tokenUsage
@@ -17353,7 +17353,7 @@ var CompositeEvaluator = class {
         verdict: "skip",
         assertions: [{ text: "All evaluators skipped (infrastructure failure)", passed: false }],
         expectedAspectCount: 1,
-        evaluatorRawRequest: {
+        graderRawRequest: {
           aggregator: "threshold",
           threshold
         },
@@ -17372,7 +17372,7 @@ var CompositeEvaluator = class {
       verdict: pass ? "pass" : "fail",
       assertions: allAssertions,
       expectedAspectCount: allAssertions.length || 1,
-      evaluatorRawRequest: {
+      graderRawRequest: {
         aggregator: "threshold",
         threshold
       },
@@ -17389,7 +17389,7 @@ var CompositeEvaluator = class {
       weight: weights?.[member.id] ?? 1,
       verdict: member.result.verdict,
       assertions: [...member.result.assertions],
-      evaluatorRawRequest: member.result.evaluatorRawRequest,
+      graderRawRequest: member.result.graderRawRequest,
       scores: member.result.scores,
       details: member.result.details
     }));
@@ -17410,7 +17410,7 @@ var CompositeEvaluator = class {
         verdict,
         assertions,
         expectedAspectCount: assertions.length || 1,
-        evaluatorRawRequest: {
+        graderRawRequest: {
           aggregator: "code-grader",
           script: scriptPath
         },
@@ -17423,7 +17423,7 @@ var CompositeEvaluator = class {
         verdict: "fail",
         assertions: [{ text: `Code aggregator failed: ${message}`, passed: false }],
         expectedAspectCount: 1,
-        evaluatorRawRequest: {
+        graderRawRequest: {
           aggregator: "code-grader",
           script: scriptPath,
           error: message
@@ -17445,14 +17445,14 @@ var CompositeEvaluator = class {
       score: member.result.score,
       verdict: member.result.verdict,
       assertions: [...member.result.assertions],
-      evaluatorRawRequest: member.result.evaluatorRawRequest,
+      graderRawRequest: member.result.graderRawRequest,
       scores: member.result.scores,
       details: member.result.details
     }));
     const promptTemplate = config.prompt ?? DEFAULT_COMPOSITE_AGGREGATOR_PROMPT;
     const userPrompt = promptTemplate.replace(/\{\{EVALUATOR_RESULTS_JSON\}\}/g, resultsJson);
     const systemPrompt = buildOutputSchema();
-    const evaluatorRawRequest = {
+    const graderRawRequest = {
       aggregator: "llm-grader",
       userPrompt,
       systemPrompt,
@@ -17474,7 +17474,7 @@ var CompositeEvaluator = class {
           verdict: scoreToVerdict(score2),
           assertions: assertions2,
           expectedAspectCount: Math.max(assertions2.length, 1),
-          evaluatorRawRequest,
+          graderRawRequest,
           scores
         };
       }
@@ -17494,7 +17494,7 @@ var CompositeEvaluator = class {
         verdict: scoreToVerdict(score),
         assertions,
         expectedAspectCount: Math.max(assertions.length, 1),
-        evaluatorRawRequest,
+        graderRawRequest,
         scores
       };
     } catch {
@@ -17503,16 +17503,16 @@ var CompositeEvaluator = class {
         verdict: "fail",
         assertions: [{ text: "LLM aggregator failed", passed: false }],
         expectedAspectCount: 1,
-        evaluatorRawRequest,
+        graderRawRequest,
         scores
       };
     }
   }
 };
-// src/evaluation/evaluators/cost.ts
+// src/evaluation/graders/cost.ts
 init_cjs_shims();
-var CostEvaluator = class {
+var CostGrader = class {
   kind = "cost";
   config;
   constructor(options) {
@@ -17527,7 +17527,7 @@ var CostEvaluator = class {
         verdict: "fail",
         assertions: [{ text: "No cost data available in trace", passed: false }],
         expectedAspectCount: 1,
-        evaluatorRawRequest: {
+        graderRawRequest: {
           type: "cost",
           budget,
           costUsd: null
@@ -17544,7 +17544,7 @@ var CostEvaluator = class {
         passed ? { text: `Cost ${formatCost(costUsd)} <= ${formatCost(budget)} budget`, passed: true } : { text: `Cost ${formatCost(costUsd)} > ${formatCost(budget)} budget`, passed: false }
       ],
       expectedAspectCount: 1,
-      evaluatorRawRequest: {
+      graderRawRequest: {
         type: "cost",
         budget,
         costUsd
@@ -17553,9 +17553,9 @@ var CostEvaluator = class {
   }
 };
-// src/evaluation/evaluators/execution-metrics.ts
+// src/evaluation/graders/execution-metrics.ts
 init_cjs_shims();
-var ExecutionMetricsEvaluator = class {
+var ExecutionMetricsGrader = class {
   kind = "execution-metrics";
   config;
   constructor(options) {
@@ -17579,7 +17579,7 @@ var ExecutionMetricsEvaluator = class {
         verdict: "fail",
         assertions: [{ text: "No trace summary available", passed: false }],
         expectedAspectCount: 1,
-        evaluatorRawRequest: {
+        graderRawRequest: {
           type: "execution-metrics",
           config: this.extractConfiguredThresholds(),
           actual: null
@@ -17695,7 +17695,7 @@ var ExecutionMetricsEvaluator = class {
       verdict: scoreToVerdict(score),
       assertions,
       expectedAspectCount: totalChecks || 1,
-      evaluatorRawRequest: {
+      graderRawRequest: {
         type: "execution-metrics",
         config: this.extractConfiguredThresholds(),
         actual: this.filterDefinedMetrics(actualMetrics)
@@ -17738,7 +17738,7 @@ var ExecutionMetricsEvaluator = class {
   }
 };
-// src/evaluation/evaluators/field-accuracy.ts
+// src/evaluation/graders/field-accuracy.ts
 init_cjs_shims();
 var DEFAULT_DATE_FORMATS = [
   "YYYY-MM-DDTHH:mm:ssZ",
@@ -17784,7 +17784,7 @@ var MONTH_NAMES = {
   dec: 11,
   december: 11
 };
-var FieldAccuracyEvaluator = class {
+var FieldAccuracyGrader = class {
   kind = "field-accuracy";
   config;
   constructor(options) {
@@ -18143,9 +18143,9 @@ function parseJsonFromTextSafe(text) {
   return parseJsonFromText(text);
 }
-// src/evaluation/evaluators/latency.ts
+// src/evaluation/graders/latency.ts
 init_cjs_shims();
-var LatencyEvaluator = class {
+var LatencyGrader = class {
   kind = "latency";
   config;
   constructor(options) {
@@ -18160,7 +18160,7 @@ var LatencyEvaluator = class {
         verdict: "fail",
         assertions: [{ text: "No duration data available in trace", passed: false }],
         expectedAspectCount: 1,
-        evaluatorRawRequest: {
+        graderRawRequest: {
           type: "latency",
           threshold,
           durationMs: null
@@ -18176,7 +18176,7 @@ var LatencyEvaluator = class {
         passed ? { text: `Duration ${durationMs}ms <= ${threshold}ms threshold`, passed: true } : { text: `Duration ${durationMs}ms > ${threshold}ms threshold`, passed: false }
       ],
       expectedAspectCount: 1,
-      evaluatorRawRequest: {
+      graderRawRequest: {
         type: "latency",
         threshold,
         durationMs
@@ -18185,9 +18185,9 @@ var LatencyEvaluator = class {
   }
 };
-// src/evaluation/evaluators/skill-trigger.ts
+// src/evaluation/graders/skill-trigger.ts
 init_cjs_shims();
-var SkillTriggerEvaluator = class {
+var SkillTriggerGrader = class {
   kind = "skill-trigger";
   config;
   constructor(config) {
@@ -18254,7 +18254,7 @@ var SkillTriggerEvaluator = class {
   }
 };
-// src/evaluation/evaluators/llm-grader-prompt.ts
+// src/evaluation/graders/llm-grader-prompt.ts
 init_cjs_shims();
 function assembleLlmGraderPrompt(input) {
   const {
@@ -18263,7 +18263,7 @@ function assembleLlmGraderPrompt(input) {
     promptInputs,
     evaluatorConfig,
     fileChanges,
-    evaluatorTemplateOverride
+    graderTemplateOverride
   } = input;
   const rubrics = evaluatorConfig?.rubrics;
   if (rubrics && rubrics.length > 0) {
@@ -18273,15 +18273,9 @@ function assembleLlmGraderPrompt(input) {
     }
     return assembleChecklist(evalCase, candidate, promptInputs, rubrics, fileChanges);
   }
-  return assembleFreeform(
-    evalCase,
-    candidate,
-    promptInputs,
-    fileChanges,
-    evaluatorTemplateOverride
-  );
+  return assembleFreeform(evalCase, candidate, promptInputs, fileChanges, graderTemplateOverride);
 }
-function assembleFreeform(evalCase, candidate, promptInputs, fileChanges, evaluatorTemplateOverride) {
+function assembleFreeform(evalCase, candidate, promptInputs, fileChanges, graderTemplateOverride) {
   const formattedQuestion = promptInputs.question && promptInputs.question.trim().length > 0 ? promptInputs.question : evalCase.question;
   const variables = {
     [TEMPLATE_VARIABLES.INPUT]: formattedQuestion.trim(),
@@ -18295,9 +18289,9 @@ function assembleFreeform(evalCase, candidate, promptInputs, fileChanges, evalua
     [TEMPLATE_VARIABLES.EXPECTED_OUTPUT_TEXT]: (evalCase.reference_answer ?? "").trim()
   };
   const systemPrompt = buildOutputSchema();
-  const template = evaluatorTemplateOverride ?? DEFAULT_EVALUATOR_TEMPLATE;
+  const template = graderTemplateOverride ?? DEFAULT_GRADER_TEMPLATE;
   let userPrompt = substituteVariables(template, variables);
-  if (fileChanges && !evaluatorTemplateOverride) {
+  if (fileChanges && !graderTemplateOverride) {
     userPrompt += `
 [[ ## file_changes ## ]]
@@ -18313,7 +18307,7 @@ ${fileChanges}`;
 function assembleChecklist(evalCase, candidate, promptInputs, rubrics, fileChanges) {
   const formattedQuestion = promptInputs.question && promptInputs.question.trim().length > 0 ? promptInputs.question : evalCase.question;
   const parts = [
-    "You are an expert evaluator. Evaluate the candidate answer against each rubric item below.",
+    "You are an expert grader. Evaluate the candidate answer against each rubric item below.",
     "",
     "[[ ## question ## ]]",
     formattedQuestion,
@@ -18348,7 +18342,7 @@ function assembleChecklist(evalCase, candidate, promptInputs, rubrics, fileChang
 function assembleScoreRange(evalCase, candidate, promptInputs, rubrics, fileChanges) {
   const formattedQuestion = promptInputs.question && promptInputs.question.trim().length > 0 ? promptInputs.question : evalCase.question;
   const parts = [
-    "You are an expert evaluator. Score the candidate answer on each criterion below using the provided score ranges.",
+    "You are an expert grader. Score the candidate answer on each criterion below using the provided score ranges.",
     "For each criterion, output an integer score from 0 to 10 based on which score range best matches the answer.",
     "",
     "[[ ## question ## ]]",
@@ -18396,9 +18390,9 @@ function assembleScoreRange(evalCase, candidate, promptInputs, rubrics, fileChan
   };
 }
-// src/evaluation/evaluators/token-usage.ts
+// src/evaluation/graders/token-usage.ts
 init_cjs_shims();
-var TokenUsageEvaluator = class {
+var TokenUsageGrader = class {
   kind = "token-usage";
   config;
   constructor(options) {
@@ -18419,7 +18413,7 @@ var TokenUsageEvaluator = class {
         verdict: "fail",
         assertions: [{ text: "No token usage data available in trace", passed: false }],
         expectedAspectCount,
-        evaluatorRawRequest: {
+        graderRawRequest: {
           type: "token-usage",
           max_total: maxTotal ?? null,
           max_input: maxInput ?? null,
@@ -18460,7 +18454,7 @@ var TokenUsageEvaluator = class {
       verdict: passed ? "pass" : "fail",
       assertions,
       expectedAspectCount,
-      evaluatorRawRequest: {
+      graderRawRequest: {
         type: "token-usage",
         max_total: maxTotal ?? null,
         max_input: maxInput ?? null,
@@ -18476,7 +18470,7 @@ var TokenUsageEvaluator = class {
   }
 };
-// src/evaluation/evaluators/tool-trajectory.ts
+// src/evaluation/graders/tool-trajectory.ts
 init_cjs_shims();
 function getNestedValue(obj, path56) {
   const parts = path56.split(".");
@@ -18546,7 +18540,7 @@ function checkLatency(toolName, maxDurationMs, actualDurationMs) {
     message: `${toolName} took ${actualDurationMs}ms (max: ${maxDurationMs}ms)`
   };
 }
-var ToolTrajectoryEvaluator = class {
+var ToolTrajectoryGrader = class {
   kind = "tool-trajectory";
   config;
   constructor(options) {
@@ -18951,7 +18945,7 @@ var ToolTrajectoryEvaluator = class {
   }
 };
-// src/evaluation/evaluators/assertions.ts
+// src/evaluation/graders/assertions.ts
 init_cjs_shims();
 function runContainsAssertion(output, value) {
   const passed = output.includes(value);
@@ -19255,16 +19249,16 @@ function validateConcurrency(concurrency) {
 // src/evaluation/registry/index.ts
 init_cjs_shims();
-// src/evaluation/registry/evaluator-registry.ts
+// src/evaluation/registry/grader-registry.ts
 init_cjs_shims();
-var EvaluatorRegistry = class {
+var GraderRegistry = class {
   factories = /* @__PURE__ */ new Map();
-  /** Register a factory function for an evaluator type. */
+  /** Register a factory function for an grader type. */
   register(type, factory) {
     this.factories.set(type, factory);
     return this;
   }
-  /** Get the factory function for an evaluator type. */
+  /** Get the factory function for an grader type. */
   get(type) {
     return this.factories.get(type);
   }
@@ -19272,25 +19266,25 @@ var EvaluatorRegistry = class {
   has(type) {
     return this.factories.has(type);
   }
-  /** List all registered evaluator type names. */
+  /** List all registered grader type names. */
   list() {
     return [...this.factories.keys()];
   }
   /**
    * Create an evaluator instance from a config, using the registered factory.
-   * Throws if no factory is registered for the evaluator type.
+   * Throws if no factory is registered for the grader type.
    */
   async create(config, context2) {
     const factory = this.factories.get(config.type);
     if (!factory) {
       throw new Error(
-        `Unknown evaluator type: "${config.type}". Registered types: ${this.list().join(", ")}`
+        `Unknown grader type: "${config.type}". Registered types: ${this.list().join(", ")}`
       );
     }
     return factory(config, context2);
   }
 };
-var DeterministicAssertionEvaluator = class {
+var DeterministicAssertionGrader = class {
   constructor(kind, assertFn) {
     this.assertFn = assertFn;
     this.kind = kind;
@@ -19301,12 +19295,12 @@ var DeterministicAssertionEvaluator = class {
   }
 };
-// src/evaluation/registry/builtin-evaluators.ts
+// src/evaluation/registry/builtin-graders.ts
 init_cjs_shims();
-// src/evaluation/evaluators/inline-assert.ts
+// src/evaluation/graders/inline-assert.ts
 init_cjs_shims();
-var InlineAssertEvaluator = class {
+var InlineAssertGrader = class {
   constructor(fn, name) {
     this.fn = fn;
     this.name = name;
@@ -19331,7 +19325,7 @@ var InlineAssertEvaluator = class {
   }
 };
-// src/evaluation/evaluators/prompt-resolution.ts
+// src/evaluation/graders/prompt-resolution.ts
 init_cjs_shims();
 var import_node_path42 = __toESM(require("path"), 1);
 async function resolveCustomPrompt(promptConfig, context2, timeoutMs) {
@@ -19399,7 +19393,7 @@ async function executePromptTemplate(script, context2, config, timeoutMs) {
   }
 }
-// src/evaluation/registry/builtin-evaluators.ts
+// src/evaluation/registry/builtin-graders.ts
 var INLINE_ASSERT_FN = Symbol.for("agentv.inline-assert-fn");
 var llmGraderFactory = (config, context2) => {
   const c = config;
@@ -19416,7 +19410,7 @@ var llmGraderFactory = (config, context2) => {
       );
     }
     const isAgent = isAgentProvider(graderTargetProvider) || graderTargetProvider.kind === "agentv";
-    evaluator = new LlmGraderEvaluator({
+    evaluator = new LlmGrader({
       resolveGraderProvider: async (evalContext) => {
         if (graderTargetProvider) return graderTargetProvider;
         if (evalContext.graderProvider) return evalContext.graderProvider;
@@ -19444,11 +19438,11 @@ var llmGraderFactory = (config, context2) => {
         agentTimeoutMs
       );
       const isFromInlinePrompt = !c.resolvedPromptScript?.length && !c.resolvedPromptPath && !c.promptPath;
-      let evaluatorTemplateOverride;
+      let graderTemplateOverride;
       let evalCase = evalContext.evalCase;
       if (customPrompt) {
         if (!isFromInlinePrompt || containsTemplateVariables(customPrompt)) {
-          evaluatorTemplateOverride = customPrompt;
+          graderTemplateOverride = customPrompt;
         } else {
           evalCase = { ...evalCase, criteria: customPrompt };
         }
@@ -19456,7 +19450,7 @@ var llmGraderFactory = (config, context2) => {
       return evaluator.evaluate({
         ...evalContext,
         evalCase,
-        evaluatorTemplateOverride,
+        graderTemplateOverride,
         evaluator: c
       });
     }
@@ -19464,7 +19458,7 @@ var llmGraderFactory = (config, context2) => {
 };
 var codeFactory = (config, context2) => {
   const c = config;
-  return new CodeEvaluator({
+  return new CodeGrader({
     command: c.command ?? c.script ?? [],
     cwd: c.resolvedCwd ?? c.cwd,
     agentTimeoutMs: context2.agentTimeoutMs,
@@ -19475,19 +19469,19 @@ var codeFactory = (config, context2) => {
 var compositeFactory = (config, context2) => {
   const c = config;
   const evalFileDir = context2.evalFileDir ?? process.cwd();
-  return new CompositeEvaluator({
+  return new CompositeGrader({
     config: c,
     cwd: evalFileDir,
     evaluatorFactory: {
       create: (memberConfig) => {
         const factory = context2.registry.get(memberConfig.type);
         if (!factory) {
-          throw new Error(`Unsupported evaluator type in composite: ${memberConfig.type}`);
+          throw new Error(`Unsupported grader type in composite: ${memberConfig.type}`);
         }
         const result = factory(memberConfig, context2);
         if (result instanceof Promise) {
           throw new Error(
-            `Evaluator factory for type "${memberConfig.type}" is async \u2014 not supported inside composite members. Use synchronous factories for composite child evaluators.`
+            `Grader factory for type "${memberConfig.type}" is async \u2014 not supported inside composite members. Use synchronous factories for composite child evaluators.`
           );
         }
         return result;
@@ -19496,35 +19490,35 @@ var compositeFactory = (config, context2) => {
   });
 };
 var toolTrajectoryFactory = (config) => {
-  return new ToolTrajectoryEvaluator({
+  return new ToolTrajectoryGrader({
     config
   });
 };
 var fieldAccuracyFactory = (config) => {
-  return new FieldAccuracyEvaluator({
+  return new FieldAccuracyGrader({
     config
   });
 };
 var latencyFactory = (config) => {
-  return new LatencyEvaluator({ config });
+  return new LatencyGrader({ config });
 };
 var costFactory = (config) => {
-  return new CostEvaluator({ config });
+  return new CostGrader({ config });
 };
 var tokenUsageFactory = (config) => {
-  return new TokenUsageEvaluator({ config });
+  return new TokenUsageGrader({ config });
 };
 var executionMetricsFactory = (config) => {
-  return new ExecutionMetricsEvaluator({
+  return new ExecutionMetricsGrader({
     config
   });
 };
 var skillTriggerFactory = (config) => {
-  return new SkillTriggerEvaluator(config);
+  return new SkillTriggerGrader(config);
 };
 var containsFactory = (config) => {
   const c = config;
-  return new DeterministicAssertionEvaluator("contains", (ctx) => {
+  return new DeterministicAssertionGrader("contains", (ctx) => {
     const result = runContainsAssertion(ctx.candidate, c.value);
     return {
       score: result.score,
@@ -19536,7 +19530,7 @@ var containsFactory = (config) => {
 };
 var regexFactory = (config) => {
   const c = config;
-  return new DeterministicAssertionEvaluator("regex", (ctx) => {
+  return new DeterministicAssertionGrader("regex", (ctx) => {
     const result = runRegexAssertion(ctx.candidate, c.value, c.flags);
     return {
       score: result.score,
@@ -19547,7 +19541,7 @@ var regexFactory = (config) => {
   });
 };
 var isJsonFactory = () => {
-  return new DeterministicAssertionEvaluator("is-json", (ctx) => {
+  return new DeterministicAssertionGrader("is-json", (ctx) => {
     const result = runIsJsonAssertion(ctx.candidate);
     return {
       score: result.score,
@@ -19559,7 +19553,7 @@ var isJsonFactory = () => {
 };
 var equalsFactory = (config) => {
   const c = config;
-  return new DeterministicAssertionEvaluator("equals", (ctx) => {
+  return new DeterministicAssertionGrader("equals", (ctx) => {
     const result = runEqualsAssertion(ctx.candidate, c.value);
     return {
       score: result.score,
@@ -19571,7 +19565,7 @@ var equalsFactory = (config) => {
 };
 var containsAnyFactory = (config) => {
   const c = config;
-  return new DeterministicAssertionEvaluator("contains-any", (ctx) => {
+  return new DeterministicAssertionGrader("contains-any", (ctx) => {
     const result = runContainsAnyAssertion(ctx.candidate, c.value);
     return {
       score: result.score,
@@ -19583,7 +19577,7 @@ var containsAnyFactory = (config) => {
 };
 var containsAllFactory = (config) => {
   const c = config;
-  return new DeterministicAssertionEvaluator("contains-all", (ctx) => {
+  return new DeterministicAssertionGrader("contains-all", (ctx) => {
     const result = runContainsAllAssertion(ctx.candidate, c.value);
     return {
       score: result.score,
@@ -19595,7 +19589,7 @@ var containsAllFactory = (config) => {
 };
 var icontainsFactory = (config) => {
   const c = config;
-  return new DeterministicAssertionEvaluator("icontains", (ctx) => {
+  return new DeterministicAssertionGrader("icontains", (ctx) => {
     const result = runIcontainsAssertion(ctx.candidate, c.value);
     return {
       score: result.score,
@@ -19607,7 +19601,7 @@ var icontainsFactory = (config) => {
 };
 var icontainsAnyFactory = (config) => {
   const c = config;
-  return new DeterministicAssertionEvaluator("icontains-any", (ctx) => {
+  return new DeterministicAssertionGrader("icontains-any", (ctx) => {
     const result = runIcontainsAnyAssertion(ctx.candidate, c.value);
     return {
       score: result.score,
@@ -19619,7 +19613,7 @@ var icontainsAnyFactory = (config) => {
 };
 var icontainsAllFactory = (config) => {
   const c = config;
-  return new DeterministicAssertionEvaluator("icontains-all", (ctx) => {
+  return new DeterministicAssertionGrader("icontains-all", (ctx) => {
     const result = runIcontainsAllAssertion(ctx.candidate, c.value);
     return {
       score: result.score,
@@ -19631,7 +19625,7 @@ var icontainsAllFactory = (config) => {
 };
 var startsWithFactory = (config) => {
   const c = config;
-  return new DeterministicAssertionEvaluator("starts-with", (ctx) => {
+  return new DeterministicAssertionGrader("starts-with", (ctx) => {
     const result = runStartsWithAssertion(ctx.candidate, c.value);
     return {
       score: result.score,
@@ -19643,7 +19637,7 @@ var startsWithFactory = (config) => {
 };
 var endsWithFactory = (config) => {
   const c = config;
-  return new DeterministicAssertionEvaluator("ends-with", (ctx) => {
+  return new DeterministicAssertionGrader("ends-with", (ctx) => {
     const result = runEndsWithAssertion(ctx.candidate, c.value);
     return {
       score: result.score,
@@ -19654,7 +19648,7 @@ var endsWithFactory = (config) => {
   });
 };
 function createBuiltinRegistry() {
-  const registry = new EvaluatorRegistry();
+  const registry = new GraderRegistry();
   registry.register("llm-grader", llmGraderFactory).register("code-grader", codeFactory).register("composite", compositeFactory).register("tool-trajectory", toolTrajectoryFactory).register("field-accuracy", fieldAccuracyFactory).register("latency", latencyFactory).register("cost", costFactory).register("token-usage", tokenUsageFactory).register("execution-metrics", executionMetricsFactory).register("skill-trigger", skillTriggerFactory).register("contains", containsFactory).register("contains-any", containsAnyFactory).register("contains-all", containsAllFactory).register("icontains", icontainsFactory).register("icontains-any", icontainsAnyFactory).register("icontains-all", icontainsAllFactory).register("starts-with", startsWithFactory).register("ends-with", endsWithFactory).register("regex", regexFactory).register("is-json", isJsonFactory).register("equals", equalsFactory).register("inline-assert", (config) => {
     const fn = config[INLINE_ASSERT_FN];
     if (!fn) {
@@ -19662,7 +19656,7 @@ function createBuiltinRegistry() {
         `No inline assert function found on config for "${config.name}". Inline assert functions must be attached via INLINE_ASSERT_FN symbol.`
       );
     }
-    return new InlineAssertEvaluator(fn, config.name ?? "inline-assert");
+    return new InlineAssertGrader(fn, config.name ?? "inline-assert");
   });
   return registry;
 }
@@ -19700,7 +19694,7 @@ async function discoverAssertions(registry, baseDir) {
       continue;
     }
     const factory = (_config, context2) => {
-      return new CodeEvaluator({
+      return new CodeGrader({
         command: ["bun", "run", filePath],
         agentTimeoutMs: context2.agentTimeoutMs
       });
@@ -19745,7 +19739,7 @@ async function discoverGraders(registry, baseDir) {
       continue;
     }
     const factory = (_config, context2) => {
-      return new CodeEvaluator({
+      return new CodeGrader({
         command: ["bun", "run", filePath],
         agentTimeoutMs: context2.agentTimeoutMs
       });
@@ -20594,10 +20588,10 @@ function buildSkippedEvaluatorError(scores) {
   }
   const messages = skippedScores.map((score) => {
     const label = score.name || score.type;
-    const assertionMessage = score.assertions.find((assertion) => !assertion.passed)?.text ?? "Evaluator skipped";
+    const assertionMessage = score.assertions.find((assertion) => !assertion.passed)?.text ?? "Grader skipped";
     return `${label}: ${assertionMessage}`;
   });
-  return messages.length === 1 ? messages[0] : `Evaluators skipped: ${messages.join(" | ")}`;
+  return messages.length === 1 ? messages[0] : `Graders skipped: ${messages.join(" | ")}`;
 }
 function usesFileReferencePrompt(provider) {
   return isAgentProvider(provider) || provider.kind === "cli";
@@ -20766,7 +20760,7 @@ async function runEvaluation(options) {
     cleanupWorkspaces,
     trials,
     streamCallbacks,
-    totalBudgetUsd,
+    budgetUsd,
     failOnError,
     poolWorkspaces,
     poolMaxSlots: configPoolMaxSlots,
@@ -21295,7 +21289,7 @@ async function runEvaluation(options) {
     async function dispatchTest(evalCase, depResults) {
       const workerId = nextWorkerId++;
       workerIdByEvalId.set(evalCase.id, workerId);
-      if (totalBudgetUsd !== void 0 && budgetExhausted) {
+      if (budgetUsd !== void 0 && budgetExhausted) {
         const budgetResult = {
           timestamp: (now ?? (() => /* @__PURE__ */ new Date()))().toISOString(),
           testId: evalCase.id,
@@ -21305,13 +21299,13 @@ async function runEvaluation(options) {
           assertions: [],
           output: [],
           target: target.name,
-          error: `Suite budget exceeded ($${cumulativeBudgetCost.toFixed(4)} / $${totalBudgetUsd.toFixed(4)})`,
+          error: `Suite budget exceeded ($${cumulativeBudgetCost.toFixed(4)} / $${budgetUsd.toFixed(4)})`,
           budgetExceeded: true,
           executionStatus: "execution_error",
           failureStage: "setup",
           failureReasonCode: "budget_exceeded",
           executionError: {
-            message: `Suite budget exceeded ($${cumulativeBudgetCost.toFixed(4)} / $${totalBudgetUsd.toFixed(4)})`,
+            message: `Suite budget exceeded ($${cumulativeBudgetCost.toFixed(4)} / $${budgetUsd.toFixed(4)})`,
             stage: "setup"
           }
         };
@@ -21408,7 +21402,7 @@ async function runEvaluation(options) {
           ...depResults && Object.keys(depResults).length > 0 ? { dependencyResults: depResults } : {}
         };
         let result = trials && trials.count > 1 ? await runEvalCaseWithTrials(runCaseOptions, trials) : await runEvalCase(runCaseOptions);
-        if (totalBudgetUsd !== void 0) {
+        if (budgetUsd !== void 0) {
           let caseCost;
           if (result.trials && result.trials.length > 0) {
             const trialCostSum = result.trials.reduce((sum, t) => sum + (t.costUsd ?? 0), 0);
@@ -21420,7 +21414,7 @@ async function runEvaluation(options) {
           }
           if (caseCost !== void 0) {
             cumulativeBudgetCost += caseCost;
-            if (cumulativeBudgetCost >= totalBudgetUsd) {
+            if (cumulativeBudgetCost >= budgetUsd) {
               budgetExhausted = true;
             }
           }
@@ -22562,7 +22556,7 @@ async function evaluateCandidate(options) {
       };
     }
   }
-  const evaluatorRequest = scores ? void 0 : score.evaluatorRawRequest;
+  const evaluatorRequest = scores ? void 0 : score.graderRawRequest;
   const effectiveAgentRequest = agentRequest && Object.keys(agentRequest).length > 0 ? agentRequest : void 0;
   const requests = effectiveAgentRequest || lmRequest || evaluatorRequest ? {
     ...effectiveAgentRequest ? { agent: effectiveAgentRequest } : {},
@@ -22778,7 +22772,7 @@ async function runEvaluatorList(options) {
         weight,
         verdict: score2.verdict,
         assertions: score2.assertions,
-        input: score2.evaluatorRawRequest,
+        input: score2.graderRawRequest,
         target: score2.graderTarget,
         details: score2.details,
         scores: mapChildResults(score2.scores),
@@ -22794,7 +22788,7 @@ async function runEvaluatorList(options) {
         score: 0,
         verdict: "fail",
         assertions: [
-          { text: `Evaluator '${evaluatorConfig.name}' failed: ${message}`, passed: false }
+          { text: `Grader '${evaluatorConfig.name}' failed: ${message}`, passed: false }
         ],
         expectedAspectCount: 1
       };
@@ -22815,7 +22809,7 @@ async function runEvaluatorList(options) {
         verdict: "fail",
         assertions: [
           {
-            text: `Evaluator '${evaluatorConfig.name ?? "unknown"}' failed: ${message}`,
+            text: `Grader '${evaluatorConfig.name ?? "unknown"}' failed: ${message}`,
             passed: false
           }
         ],
@@ -22872,7 +22866,7 @@ function filterEvalCases(evalCases, filter) {
   return evalCases.filter((evalCase) => matchesFilter3(evalCase.id, filter));
 }
 function buildEvaluatorRegistry(overrides, resolveGraderProvider) {
-  const llmGrader = overrides?.["llm-grader"] ?? new LlmGraderEvaluator({
+  const llmGrader = overrides?.["llm-grader"] ?? new LlmGrader({
     resolveGraderProvider: async (context2) => {
       if (context2.graderProvider) {
         return context2.graderProvider;
@@ -23363,7 +23357,7 @@ function mapChildResults(children) {
     weight: child.weight,
     verdict: child.verdict,
     assertions: child.assertions,
-    input: child.evaluatorRawRequest,
+    input: child.graderRawRequest,
     scores: mapChildResults(child.scores),
     details: child.details,
     tokenUsage: child.tokenUsage
@@ -25496,22 +25490,21 @@ function createAgentKernel() {
 // Annotate the CommonJS export names for ESM import in node:
 0 && (module.exports = {
   COMMON_TARGET_SETTINGS,
-  CodeEvaluator,
-  CompositeEvaluator,
-  CostEvaluator,
+  CodeGrader,
+  CompositeGrader,
+  CostGrader,
   DEFAULT_CATEGORY,
-  DEFAULT_EVALUATOR_TEMPLATE,
   DEFAULT_EVAL_PATTERNS,
   DEFAULT_EXPLORATION_TOOLS,
+  DEFAULT_GRADER_TEMPLATE,
   DEFAULT_THRESHOLD,
-  DeterministicAssertionEvaluator,
+  DeterministicAssertionGrader,
   DockerWorkspaceProvider,
-  EvaluatorRegistry,
-  ExecutionMetricsEvaluator,
-  FieldAccuracyEvaluator,
-  LatencyEvaluator,
-  LlmGraderEvaluator,
-  LlmJudgeEvaluator,
+  ExecutionMetricsGrader,
+  FieldAccuracyGrader,
+  GraderRegistry,
+  LatencyGrader,
+  LlmGrader,
   OTEL_BACKEND_PRESETS,
   OtelStreamingObserver,
   OtelTraceExporter,
@@ -25520,18 +25513,17 @@ function createAgentKernel() {
   ProviderRegistry,
   RepoManager,
   ResponseCache,
-  SkillTriggerEvaluator,
+  SkillTriggerGrader,
   TEST_MESSAGE_ROLES,
   TemplateNotDirectoryError,
   TemplateNotFoundError,
-  TokenUsageEvaluator,
-  ToolTrajectoryEvaluator,
+  TokenUsageGrader,
+  ToolTrajectoryGrader,
   TranscriptProvider,
   WorkspaceCreationError,
   WorkspacePoolManager,
   addBenchmark,
   assembleLlmGraderPrompt,
-  assembleLlmJudgePrompt,
   avgToolDurationMs,
   buildDirectoryChain,
   buildOutputSchema,
@@ -25571,7 +25563,6 @@ function createAgentKernel() {
   discoverCodexSessions,
   discoverCopilotSessions,
   discoverGraders,
-  discoverJudges,
   discoverProviders,
   ensureResultsRepoClone,
   ensureVSCodeSubagents,
@@ -25613,7 +25604,7 @@ function createAgentKernel() {
   isAgentSkillsFormat,
   isContent,
   isContentArray,
-  isEvaluatorKind,
+  isGraderKind,
   isJsonObject,
   isJsonValue,
   isNonEmptyString,