npm - @agentv/core - Versions diffs - 2.11.4 → 2.13.0 - Mend

@agentv/core 2.11.4 → 2.13.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

package/dist/{chunk-REN5PS7B.js → chunk-JHER2LQ5.js} +1 -1
package/dist/chunk-JHER2LQ5.js.map +1 -0
package/dist/evaluation/validation/index.cjs.map +1 -1
package/dist/evaluation/validation/index.js +1 -1
package/dist/index.cjs +174 -28
package/dist/index.cjs.map +1 -1
package/dist/index.d.cts +54 -1
package/dist/index.d.ts +54 -1
package/dist/index.js +174 -29
package/dist/index.js.map +1 -1
package/package.json +2 -2
package/dist/chunk-REN5PS7B.js.map +0 -1

package/dist/index.js CHANGED Viewed

@@ -17,7 +17,7 @@ import {
   readTextFile,
   resolveFileReference,
   resolveTargetDefinition
-} from "./chunk-REN5PS7B.js";
+} from "./chunk-JHER2LQ5.js";
 import {
   OtlpJsonFileExporter
 } from "./chunk-HFSYZHGF.js";
@@ -396,6 +396,11 @@ async function loadConfig(evalFilePath, repoRoot) {
         continue;
       }
       const config = parsed;
+      const requiredVersion = parsed.required_version;
+      if (requiredVersion !== void 0 && typeof requiredVersion !== "string") {
+        logWarning(`Invalid required_version in ${configPath}, expected string`);
+        continue;
+      }
       const guidelinePatterns = config.guideline_patterns;
       if (guidelinePatterns !== void 0 && !Array.isArray(guidelinePatterns)) {
         logWarning(`Invalid guideline_patterns in ${configPath}, expected array`);
@@ -419,6 +424,7 @@ async function loadConfig(evalFilePath, repoRoot) {
         configPath
       );
       return {
+        required_version: requiredVersion,
         guideline_patterns: guidelinePatterns,
         eval_patterns: evalPatterns,
         execution: executionDefaults
@@ -562,6 +568,22 @@ function extractTotalBudgetUsd(suite) {
   );
   return void 0;
 }
+function extractFailOnError(suite) {
+  const execution = suite.execution;
+  if (!execution || typeof execution !== "object" || Array.isArray(execution)) {
+    return void 0;
+  }
+  const executionObj = execution;
+  const raw = executionObj.fail_on_error ?? executionObj.failOnError;
+  if (raw === void 0 || raw === null) {
+    return void 0;
+  }
+  if (typeof raw === "boolean") {
+    return raw;
+  }
+  logWarning(`Invalid execution.fail_on_error: ${raw}. Must be true or false. Ignoring.`);
+  return void 0;
+}
 function parseExecutionDefaults(raw, configPath) {
   if (!raw || typeof raw !== "object" || Array.isArray(raw)) {
     return void 0;
@@ -2757,13 +2779,15 @@ async function loadTestSuite(evalFilePath, repoRoot, options) {
   }
   const { tests, parsed } = await loadTestsFromYaml(evalFilePath, repoRoot, options);
   const metadata = parseMetadata(parsed);
+  const failOnError = extractFailOnError(parsed);
   return {
     tests,
     trials: extractTrialsConfig(parsed),
     targets: extractTargetsFromSuite(parsed),
     cacheConfig: extractCacheConfig(parsed),
     totalBudgetUsd: extractTotalBudgetUsd(parsed),
-    ...metadata !== void 0 && { metadata }
+    ...metadata !== void 0 && { metadata },
+    ...failOnError !== void 0 && { failOnError }
   };
 }
 var loadEvalSuite = loadTestSuite;
@@ -12847,6 +12871,16 @@ async function resolveWorkspaceTemplate(templatePath) {
 }
 // src/evaluation/workspace/script-executor.ts
+function interpolateArgs(args, context) {
+  const vars = {
+    workspace_path: context.workspacePath,
+    test_id: context.testId,
+    eval_run_id: context.evalRunId,
+    case_input: context.caseInput ?? "",
+    case_metadata: context.caseMetadata ? JSON.stringify(context.caseMetadata) : ""
+  };
+  return args.map((arg) => arg.replace(/\{\{(\w+)\}\}/g, (match, name) => vars[name] ?? match));
+}
 async function executeWorkspaceScript(config, context, failureMode = "fatal") {
   const stdin = JSON.stringify({
     workspace_path: context.workspacePath,
@@ -12856,8 +12890,9 @@ async function executeWorkspaceScript(config, context, failureMode = "fatal") {
     case_metadata: context.caseMetadata ?? null
   });
   const timeoutMs = config.timeout_ms ?? (failureMode === "fatal" ? 6e4 : 3e4);
-  const cwd = config.cwd;
-  const commandArray = config.command ?? config.script ?? [];
+  const cwd = config.cwd ?? context.evalDir;
+  const rawCommand = config.command ?? config.script ?? [];
+  const commandArray = interpolateArgs(rawCommand, context);
   const result = await execFileWithStdin(commandArray, stdin, {
     timeoutMs,
     cwd
@@ -12874,6 +12909,10 @@ async function executeWorkspaceScript(config, context, failureMode = "fatal") {
 }
 // src/evaluation/orchestrator.ts
+var QUALITY_PASS_THRESHOLD = 0.8;
+function classifyQualityStatus(score) {
+  return score >= QUALITY_PASS_THRESHOLD ? "ok" : "quality_failure";
+}
 function usesFileReferencePrompt(provider) {
   return isAgentProvider(provider) || provider.kind === "cli";
 }
@@ -12906,7 +12945,8 @@ async function runEvaluation(options) {
     cleanupWorkspaces,
     trials,
     streamCallbacks,
-    totalBudgetUsd
+    totalBudgetUsd,
+    failOnError
   } = options;
   let useCache = options.useCache;
   if (trials && trials.count > 1 && useCache) {
@@ -12981,6 +13021,7 @@ async function runEvaluation(options) {
   const evaluatorRegistry = buildEvaluatorRegistry(evaluators, resolveJudgeProvider);
   const typeRegistry = createBuiltinRegistry();
   const discoveryBaseDir = evalFilePath ? path37.dirname(path37.resolve(evalFilePath)) : process.cwd();
+  const evalDir = discoveryBaseDir;
   await discoverAssertions(typeRegistry, discoveryBaseDir);
   const providerRegistry = createBuiltinProviderRegistry();
   await discoverProviders(providerRegistry, discoveryBaseDir);
@@ -13076,7 +13117,8 @@ async function runEvaluation(options) {
     const scriptContext = {
       workspacePath: sharedWorkspacePath,
       testId: "__before_all__",
-      evalRunId
+      evalRunId,
+      evalDir
     };
     try {
       beforeAllOutput = await executeWorkspaceScript(suiteWorkspace.before_all, scriptContext);
@@ -13100,6 +13142,7 @@ async function runEvaluation(options) {
   let beforeAllOutputAttached = false;
   let cumulativeBudgetCost = 0;
   let budgetExhausted = false;
+  let failOnErrorTriggered = false;
   const promises = filteredEvalCases.map(
     (evalCase) => limit(async () => {
       const workerId = nextWorkerId++;
@@ -13115,7 +13158,14 @@ async function runEvaluation(options) {
           answer: "",
           target: target.name,
           error: `Suite budget exceeded ($${cumulativeBudgetCost.toFixed(4)} / $${totalBudgetUsd.toFixed(4)})`,
-          budgetExceeded: true
+          budgetExceeded: true,
+          executionStatus: "execution_error",
+          failureStage: "setup",
+          failureReasonCode: "budget_exceeded",
+          executionError: {
+            message: `Suite budget exceeded ($${cumulativeBudgetCost.toFixed(4)} / $${totalBudgetUsd.toFixed(4)})`,
+            stage: "setup"
+          }
         };
         if (onProgress) {
           await onProgress({
@@ -13131,6 +13181,37 @@ async function runEvaluation(options) {
         }
         return budgetResult;
       }
+      if (failOnError === true && failOnErrorTriggered) {
+        const errorMsg = "Halted: execution error encountered with fail_on_error enabled";
+        const haltResult = {
+          timestamp: (now ?? (() => /* @__PURE__ */ new Date()))().toISOString(),
+          testId: evalCase.id,
+          dataset: evalCase.dataset,
+          score: 0,
+          hits: [],
+          misses: [],
+          answer: "",
+          target: target.name,
+          error: errorMsg,
+          executionStatus: "execution_error",
+          failureStage: "setup",
+          failureReasonCode: "error_threshold_exceeded",
+          executionError: { message: errorMsg, stage: "setup" }
+        };
+        if (onProgress) {
+          await onProgress({
+            workerId,
+            testId: evalCase.id,
+            status: "failed",
+            completedAt: Date.now(),
+            error: haltResult.error
+          });
+        }
+        if (onResult) {
+          await onResult(haltResult);
+        }
+        return haltResult;
+      }
       if (onProgress) {
         await onProgress({
           workerId,
@@ -13162,7 +13243,8 @@ async function runEvaluation(options) {
           suiteWorkspaceFile,
           streamCallbacks,
           typeRegistry,
-          repoManager
+          repoManager,
+          evalDir
         };
         let result = trials && trials.count > 1 ? await runEvalCaseWithTrials(runCaseOptions, trials) : await runEvalCase(runCaseOptions);
         if (totalBudgetUsd !== void 0) {
@@ -13182,6 +13264,9 @@ async function runEvaluation(options) {
             }
           }
         }
+        if (failOnError === true && result.executionStatus === "execution_error") {
+          failOnErrorTriggered = true;
+        }
         if (beforeAllOutput && !beforeAllOutputAttached) {
           result = { ...result, beforeAllOutput };
           beforeAllOutputAttached = true;
@@ -13231,7 +13316,9 @@ async function runEvaluation(options) {
         (now ?? (() => /* @__PURE__ */ new Date()))(),
         outcome.reason,
         promptInputs,
-        primaryProvider
+        primaryProvider,
+        "agent",
+        "provider_error"
       );
       results.push(errorResult);
       if (onResult) {
@@ -13243,7 +13330,8 @@ async function runEvaluation(options) {
     const scriptContext = {
       workspacePath: sharedWorkspacePath,
       testId: "__after_all__",
-      evalRunId
+      evalRunId,
+      evalDir
     };
     try {
       const afterAllOutput = await executeWorkspaceScript(
@@ -13373,7 +13461,14 @@ async function runBatchEvaluation(options) {
         availableTargets
       });
       if (providerError) {
-        result = { ...result, error: providerError };
+        result = {
+          ...result,
+          error: providerError,
+          executionStatus: "execution_error",
+          failureStage: "agent",
+          failureReasonCode: "provider_error",
+          executionError: { message: providerError, stage: "agent" }
+        };
       }
     } catch (error) {
       const errorResult = buildErrorResult(
@@ -13382,7 +13477,9 @@ async function runBatchEvaluation(options) {
         nowFn(),
         error,
         promptInputs,
-        provider
+        provider,
+        "evaluator",
+        "evaluator_error"
       );
       results.push(errorResult);
       if (onResult) {
@@ -13438,7 +13535,8 @@ async function runEvalCase(options) {
     sharedBaselineCommit,
     suiteWorkspaceFile,
     typeRegistry: providedTypeRegistry,
-    repoManager
+    repoManager,
+    evalDir
   } = options;
   const formattingMode = usesFileReferencePrompt(provider) ? "agent" : "lm";
   const promptInputs = await buildPromptInputs(evalCase, formattingMode);
@@ -13471,7 +13569,9 @@ async function runEvalCase(options) {
           nowFn(),
           new Error(`Failed to create workspace: ${message}`),
           promptInputs,
-          provider
+          provider,
+          "setup",
+          "template_error"
         );
       }
     }
@@ -13491,7 +13591,9 @@ async function runEvalCase(options) {
           nowFn(),
           new Error(`Failed to materialize repos: ${message}`),
           promptInputs,
-          provider
+          provider,
+          "repo_setup",
+          "clone_error"
         );
       }
     }
@@ -13501,7 +13603,8 @@ async function runEvalCase(options) {
         testId: evalCase.id,
         evalRunId: evalRunId ?? "",
         caseInput: evalCase.question,
-        caseMetadata: evalCase.metadata
+        caseMetadata: evalCase.metadata,
+        evalDir
       };
       try {
         beforeAllOutput = await executeWorkspaceScript(
@@ -13520,7 +13623,9 @@ async function runEvalCase(options) {
           nowFn(),
           new Error(`before_all script failed: ${message}`),
           promptInputs,
-          provider
+          provider,
+          "setup",
+          "script_error"
         );
       }
     }
@@ -13531,7 +13636,8 @@ async function runEvalCase(options) {
       testId: evalCase.id,
       evalRunId: evalRunId ?? "",
       caseInput: evalCase.question,
-      caseMetadata: evalCase.metadata
+      caseMetadata: evalCase.metadata,
+      evalDir
     };
     try {
       beforeEachOutput = await executeWorkspaceScript(
@@ -13546,7 +13652,9 @@ async function runEvalCase(options) {
         nowFn(),
         new Error(`before_each script failed: ${message}`),
         promptInputs,
-        provider
+        provider,
+        "setup",
+        "script_error"
       );
     }
   }
@@ -13587,7 +13695,9 @@ async function runEvalCase(options) {
         nowFn(),
         error,
         promptInputs,
-        provider
+        provider,
+        "agent",
+        "provider_error"
       );
       if (workspacePath) {
         if (forceCleanup) {
@@ -13606,7 +13716,9 @@ async function runEvalCase(options) {
       nowFn(),
       lastError ?? new Error("Provider did not return a response"),
       promptInputs,
-      provider
+      provider,
+      "agent",
+      "provider_error"
     );
     if (workspacePath) {
       if (forceCleanup) {
@@ -13662,7 +13774,8 @@ async function runEvalCase(options) {
       testId: evalCase.id,
       evalRunId: evalRunId ?? "",
       caseInput: evalCase.question,
-      caseMetadata: evalCase.metadata
+      caseMetadata: evalCase.metadata,
+      evalDir
     };
     try {
       afterEachOutput = await executeWorkspaceScript(
@@ -13698,7 +13811,18 @@ async function runEvalCase(options) {
       fileChanges,
       workspacePath
     });
-    const finalResult = providerError ? { ...result, error: providerError, beforeAllOutput, beforeEachOutput, afterEachOutput } : { ...result, beforeAllOutput, beforeEachOutput, afterEachOutput };
+    const executionStatus = providerError ? "execution_error" : classifyQualityStatus(result.score);
+    const finalResult = providerError ? {
+      ...result,
+      error: providerError,
+      executionStatus,
+      failureStage: "agent",
+      failureReasonCode: "provider_error",
+      executionError: { message: providerError, stage: "agent" },
+      beforeAllOutput,
+      beforeEachOutput,
+      afterEachOutput
+    } : { ...result, executionStatus, beforeAllOutput, beforeEachOutput, afterEachOutput };
     const isFailure = !!finalResult.error || finalResult.score < 0.5;
     if (workspacePath && !isSharedWorkspace) {
       if (forceCleanup) {
@@ -13719,7 +13843,9 @@ async function runEvalCase(options) {
       nowFn(),
       error,
       promptInputs,
-      provider
+      provider,
+      "evaluator",
+      "evaluator_error"
     );
     if (workspacePath && !isSharedWorkspace) {
       if (forceCleanup) {
@@ -13757,7 +13883,10 @@ async function runEvalCaseWithTrials(options, trialsConfig) {
       verdict: trialVerdict,
       scores: result.scores,
       error: result.error,
-      costUsd: trialCost
+      costUsd: trialCost,
+      executionStatus: result.executionStatus,
+      failureStage: result.failureStage,
+      failureReasonCode: result.failureReasonCode
     };
     trialResults.push(trial);
     if (trialCost !== void 0) {
@@ -13782,12 +13911,22 @@ async function runEvalCaseWithTrials(options, trialsConfig) {
     0
   );
   const baseResult = allResults[bestTrialIndex];
+  const hasOk = trialResults.some((t) => t.executionStatus === "ok");
+  const allExecutionError = trialResults.length > 0 && trialResults.every((t) => t.executionStatus === "execution_error");
+  const aggregateExecutionStatus = hasOk ? "ok" : allExecutionError ? "execution_error" : "quality_failure";
+  const aggregateFailureStage = aggregateExecutionStatus === "ok" ? void 0 : baseResult.failureStage;
+  const aggregateFailureReasonCode = aggregateExecutionStatus === "ok" ? void 0 : baseResult.failureReasonCode;
+  const aggregateExecutionError = aggregateExecutionStatus === "execution_error" ? baseResult.executionError : void 0;
   return {
     ...baseResult,
     score,
     trials: trialResults,
     aggregation,
-    costLimited: costLimited || void 0
+    costLimited: costLimited || void 0,
+    executionStatus: aggregateExecutionStatus,
+    failureStage: aggregateFailureStage,
+    failureReasonCode: aggregateFailureReasonCode,
+    executionError: aggregateExecutionError
   };
 }
 async function evaluateCandidate(options) {
@@ -13888,7 +14027,8 @@ async function evaluateCandidate(options) {
     scores,
     trace,
     output,
-    fileChanges
+    fileChanges,
+    executionStatus: classifyQualityStatus(score.score)
   };
 }
 async function runEvaluatorsForCase(options) {
@@ -14193,7 +14333,7 @@ async function invokeProvider(provider, options) {
     }
   }
 }
-function buildErrorResult(evalCase, targetName, timestamp, error, promptInputs, provider) {
+function buildErrorResult(evalCase, targetName, timestamp, error, promptInputs, provider, failureStage, failureReasonCode) {
   const message = error instanceof Error ? error.message : String(error);
   let agentRequest;
   let lmRequest;
@@ -14236,7 +14376,11 @@ function buildErrorResult(evalCase, targetName, timestamp, error, promptInputs,
     target: targetName,
     requests,
     input,
-    error: message
+    error: message,
+    executionStatus: "execution_error",
+    failureStage,
+    failureReasonCode,
+    executionError: { message, stage: failureStage }
   };
 }
 function extractProviderError(response) {
@@ -15184,6 +15328,7 @@ export {
   executeWorkspaceScript,
   explorationRatio,
   extractCacheConfig,
+  extractFailOnError,
   extractJsonBlob,
   extractTargetFromSuite,
   extractTargetsFromSuite,