npm - @agentv/core - Versions diffs - 3.9.1 → 3.9.2 - Mend

@agentv/core 3.9.1 → 3.9.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

package/dist/{chunk-PC5TLJF6.js → chunk-K7JCJIXA.js} +1 -1
package/dist/chunk-K7JCJIXA.js.map +1 -0
package/dist/evaluation/validation/index.cjs.map +1 -1
package/dist/evaluation/validation/index.js +1 -1
package/dist/index.cjs +73 -35
package/dist/index.cjs.map +1 -1
package/dist/index.d.cts +6 -0
package/dist/index.d.ts +6 -0
package/dist/index.js +74 -36
package/dist/index.js.map +1 -1
package/package.json +1 -1
package/dist/chunk-PC5TLJF6.js.map +0 -1

package/dist/evaluation/validation/index.js CHANGED Viewed

@@ -8,7 +8,7 @@ import {
   isEvaluatorKind,
   loadCasesFromFile,
   resolveFileReference
-} from "../../chunk-PC5TLJF6.js";
+} from "../../chunk-K7JCJIXA.js";
 // src/evaluation/validation/file-type.ts
 import { readFile } from "node:fs/promises";

package/dist/index.cjs CHANGED Viewed

@@ -13357,8 +13357,7 @@ ${context2.fileChanges}`;
     }
     const evaluatorRawRequest = {
       userPrompt,
-      systemPrompt,
-      target: graderProvider.targetName
+      systemPrompt
     };
     try {
       const { data, tokenUsage } = await this.runWithRetry({
@@ -13376,6 +13375,7 @@ ${context2.fileChanges}`;
         assertions,
         expectedAspectCount: Math.max(assertions.length, 1),
         evaluatorRawRequest,
+        graderTarget: graderProvider.targetName,
         tokenUsage
       };
     } catch (e) {
@@ -13387,7 +13387,8 @@ ${context2.fileChanges}`;
         verdict: "skip",
         assertions: [{ text: `Grader parse failure after 3 attempts: ${message}`, passed: false }],
         expectedAspectCount: 1,
-        evaluatorRawRequest
+        evaluatorRawRequest,
+        graderTarget: graderProvider.targetName
       };
     }
   }
@@ -13405,8 +13406,7 @@ ${context2.fileChanges}`;
     const systemPrompt = buildRubricOutputSchema();
     const evaluatorRawRequest = {
       userPrompt: prompt,
-      systemPrompt,
-      target: graderProvider.targetName
+      systemPrompt
     };
     try {
       const { data, tokenUsage } = await this.runWithRetry({
@@ -13423,6 +13423,7 @@ ${context2.fileChanges}`;
         assertions,
         expectedAspectCount: rubrics.length,
         evaluatorRawRequest,
+        graderTarget: graderProvider.targetName,
         tokenUsage
       };
     } catch (e) {
@@ -13434,7 +13435,8 @@ ${context2.fileChanges}`;
         verdict: "skip",
         assertions: [{ text: `Grader parse failure after 3 attempts: ${message}`, passed: false }],
         expectedAspectCount: rubrics.length,
-        evaluatorRawRequest
+        evaluatorRawRequest,
+        graderTarget: graderProvider.targetName
       };
     }
   }
@@ -13447,8 +13449,7 @@ ${context2.fileChanges}`;
     const systemPrompt = buildScoreRangeOutputSchema();
     const evaluatorRawRequest = {
       userPrompt: prompt,
-      systemPrompt,
-      target: graderProvider.targetName
+      systemPrompt
     };
     try {
       const { data, tokenUsage } = await this.runWithRetry({
@@ -13465,6 +13466,7 @@ ${context2.fileChanges}`;
         assertions,
         expectedAspectCount: rubrics.length,
         evaluatorRawRequest,
+        graderTarget: graderProvider.targetName,
         details,
         tokenUsage
       };
@@ -13477,7 +13479,8 @@ ${context2.fileChanges}`;
         verdict: "skip",
         assertions: [{ text: `Grader parse failure after 3 attempts: ${message}`, passed: false }],
         expectedAspectCount: rubrics.length,
-        evaluatorRawRequest
+        evaluatorRawRequest,
+        graderTarget: graderProvider.targetName
       };
     }
   }
@@ -13509,7 +13512,6 @@ ${context2.fileChanges}`;
       mode: "built-in",
       systemPrompt,
       userPrompt,
-      target: graderProvider.targetName,
       maxSteps: this.maxSteps
     };
     try {
@@ -13527,7 +13529,13 @@ ${context2.fileChanges}`;
         steps: steps.length,
         tool_calls: toolCallCount
       };
-      return this.parseAgentResult(text, rubrics, evaluatorRawRequest, details);
+      return this.parseAgentResult(
+        text,
+        rubrics,
+        evaluatorRawRequest,
+        details,
+        graderProvider.targetName
+      );
     } catch (error) {
       const message = error instanceof Error ? error.message : String(error);
       return {
@@ -13536,6 +13544,7 @@ ${context2.fileChanges}`;
         assertions: [{ text: `llm-grader built-in evaluation failed: ${message}`, passed: false }],
         expectedAspectCount: 1,
         evaluatorRawRequest,
+        graderTarget: graderProvider.targetName,
         details: { mode: "built-in", error: message }
       };
     }
@@ -13588,6 +13597,7 @@ ${context2.fileChanges}`;
           ],
           expectedAspectCount: 1,
           evaluatorRawRequest,
+          graderTarget: provider.targetName,
           details: { mode: modeLabel, grader_target: provider.targetName }
         };
       }
@@ -13597,7 +13607,13 @@ ${context2.fileChanges}`;
         mode: modeLabel,
         grader_target: provider.targetName
       };
-      return this.parseAgentResult(assistantContent, rubrics, evaluatorRawRequest, details);
+      return this.parseAgentResult(
+        assistantContent,
+        rubrics,
+        evaluatorRawRequest,
+        details,
+        provider.targetName
+      );
     } catch (error) {
       const message = error instanceof Error ? error.message : String(error);
       return {
@@ -13608,6 +13624,7 @@ ${context2.fileChanges}`;
         ],
         expectedAspectCount: 1,
         evaluatorRawRequest,
+        graderTarget: provider.targetName,
         details: {
           mode: modeLabel,
           grader_target: provider.targetName,
@@ -13752,7 +13769,7 @@ ${outputSchema}`;
    * Parse the agent's response text into an EvaluationScore.
    * Supports both freeform and rubric modes.
    */
-  parseAgentResult(text, rubrics, evaluatorRawRequest, details) {
+  parseAgentResult(text, rubrics, evaluatorRawRequest, details, graderTarget) {
     try {
       const parsed = parseJsonFromText(text);
       if (rubrics && rubrics.length > 0) {
@@ -13764,6 +13781,7 @@ ${outputSchema}`;
           assertions: assertions2,
           expectedAspectCount: rubrics.length,
           evaluatorRawRequest,
+          graderTarget,
           details
         };
       }
@@ -13776,6 +13794,7 @@ ${outputSchema}`;
         assertions,
         expectedAspectCount: Math.max(assertions.length, 1),
         evaluatorRawRequest,
+        graderTarget,
         details
       };
     } catch {
@@ -13790,6 +13809,7 @@ ${outputSchema}`;
         ],
         expectedAspectCount: 1,
         evaluatorRawRequest,
+        graderTarget,
         details
       };
     }
@@ -18101,7 +18121,8 @@ async function runEvaluation(options) {
             streamCallbacks,
             typeRegistry,
             repoManager,
-            evalDir
+            evalDir,
+            verbose
           };
           let result = trials && trials.count > 1 ? await runEvalCaseWithTrials(runCaseOptions, trials) : await runEvalCase(runCaseOptions);
           if (totalBudgetUsd !== void 0) {
@@ -18181,7 +18202,8 @@ async function runEvaluation(options) {
           promptInputs,
           primaryProvider,
           "agent",
-          "provider_error"
+          "provider_error",
+          verbose
         );
         results.push(errorResult);
         if (onResult) {
@@ -18254,6 +18276,7 @@ async function runBatchEvaluation(options) {
     nowFn,
     onProgress,
     onResult,
+    verbose,
     resolveGraderProvider,
     agentTimeoutMs,
     targetResolver,
@@ -18341,7 +18364,8 @@ async function runBatchEvaluation(options) {
         startTime,
         endTime,
         targetResolver,
-        availableTargets
+        availableTargets,
+        verbose
       });
       if (providerError) {
         result = {
@@ -18362,7 +18386,8 @@ async function runBatchEvaluation(options) {
         promptInputs,
         provider,
         "evaluator",
-        "evaluator_error"
+        "evaluator_error",
+        verbose
       );
       results.push(errorResult);
       if (onResult) {
@@ -18425,7 +18450,8 @@ async function runEvalCase(options) {
     suiteWorkspaceFile,
     typeRegistry: providedTypeRegistry,
     repoManager,
-    evalDir
+    evalDir,
+    verbose
   } = options;
   const setupDebug = process.env.AGENTV_SETUP_DEBUG === "1";
   const formattingMode = usesFileReferencePrompt(provider) ? "agent" : "lm";
@@ -18462,7 +18488,8 @@ async function runEvalCase(options) {
           promptInputs,
           provider,
           "setup",
-          "template_error"
+          "template_error",
+          verbose
         );
       }
       if (caseWorkspaceFile && workspacePath) {
@@ -18491,7 +18518,8 @@ async function runEvalCase(options) {
           promptInputs,
           provider,
           "repo_setup",
-          "local_path_not_found"
+          "local_path_not_found",
+          verbose
         );
       }
     }
@@ -18517,7 +18545,8 @@ async function runEvalCase(options) {
           promptInputs,
           provider,
           "repo_setup",
-          "clone_error"
+          "clone_error",
+          verbose
         );
       }
     }
@@ -18543,7 +18572,8 @@ async function runEvalCase(options) {
               promptInputs,
               provider,
               "setup",
-              "file_copy_error"
+              "file_copy_error",
+              verbose
             );
           }
         }
@@ -18588,7 +18618,8 @@ async function runEvalCase(options) {
           promptInputs,
           provider,
           "setup",
-          "script_error"
+          "script_error",
+          verbose
         );
       }
     }
@@ -18619,7 +18650,8 @@ async function runEvalCase(options) {
         promptInputs,
         provider,
         "setup",
-        "script_error"
+        "script_error",
+        verbose
       );
     }
   }
@@ -18663,7 +18695,8 @@ async function runEvalCase(options) {
         promptInputs,
         provider,
         "agent",
-        "provider_error"
+        "provider_error",
+        verbose
       );
       if (workspacePath) {
         if (forceCleanup) {
@@ -18684,7 +18717,8 @@ async function runEvalCase(options) {
       promptInputs,
       provider,
       "agent",
-      "provider_error"
+      "provider_error",
+      verbose
     );
     if (workspacePath) {
       if (forceCleanup) {
@@ -18779,7 +18813,8 @@ async function runEvalCase(options) {
       targetResolver,
       availableTargets,
       fileChanges,
-      workspacePath
+      workspacePath,
+      verbose
     });
     const totalDurationMs = Date.now() - caseStartMs;
     const graderTokens = aggregateEvaluatorTokenUsage(result.scores);
@@ -18834,7 +18869,8 @@ async function runEvalCase(options) {
       promptInputs,
       provider,
       "evaluator",
-      "evaluator_error"
+      "evaluator_error",
+      verbose
     );
     if (workspacePath && !isSharedWorkspace) {
       if (forceCleanup || (retainOnFailure ?? "keep") === "cleanup") {
@@ -18976,7 +19012,7 @@ async function evaluateCandidate(options) {
   let lmRequest;
   if (isAgentProvider(provider)) {
     agentRequest = {
-      question: promptInputs.question
+      ...options.verbose ? { input: promptInputs.question } : {}
     };
   } else {
     if (promptInputs.chatPrompt) {
@@ -18990,8 +19026,9 @@ async function evaluateCandidate(options) {
     }
   }
   const evaluatorRequest = scores ? void 0 : score.evaluatorRawRequest;
-  const requests = agentRequest || lmRequest || evaluatorRequest ? {
-    ...agentRequest ? { agent: agentRequest } : {},
+  const effectiveAgentRequest = agentRequest && Object.keys(agentRequest).length > 0 ? agentRequest : void 0;
+  const requests = effectiveAgentRequest || lmRequest || evaluatorRequest ? {
+    ...effectiveAgentRequest ? { agent: effectiveAgentRequest } : {},
     ...lmRequest ? { lm: lmRequest } : {},
     ...evaluatorRequest ? { evaluator: evaluatorRequest } : {}
   } : void 0;
@@ -19011,9 +19048,9 @@ async function evaluateCandidate(options) {
     endTime,
     requests,
     input,
+    output: output ?? [{ role: "assistant", content: candidate }],
     scores,
     trace: trace2,
-    output: output ?? [{ role: "assistant", content: candidate }],
     fileChanges,
     executionStatus: classifyQualityStatus(score.score)
   };
@@ -19179,6 +19216,7 @@ async function runEvaluatorList(options) {
         verdict: score2.verdict,
         assertions: score2.assertions,
         input: score2.evaluatorRawRequest,
+        target: score2.graderTarget,
         details: score2.details,
         scores: mapChildResults(score2.scores),
         tokenUsage: score2.tokenUsage,
@@ -19318,13 +19356,13 @@ async function invokeProvider(provider, options) {
     }
   }
 }
-function buildErrorResult(evalCase, targetName, timestamp, error, promptInputs, provider, failureStage, failureReasonCode) {
+function buildErrorResult(evalCase, targetName, timestamp, error, promptInputs, provider, failureStage, failureReasonCode, verbose) {
   const message = error instanceof Error ? error.message : String(error);
   let agentRequest;
   let lmRequest;
   if (isAgentProvider(provider)) {
     agentRequest = {
-      question: promptInputs.question,
+      ...verbose ? { input: promptInputs.question } : {},
       error: message
     };
   } else {
@@ -19352,10 +19390,10 @@ function buildErrorResult(evalCase, targetName, timestamp, error, promptInputs,
     conversationId: evalCase.conversation_id,
     score: 0,
     assertions: [{ text: `Error: ${message}`, passed: false }],
-    output: [{ role: "assistant", content: `Error occurred: ${message}` }],
     target: targetName,
     requests,
     input,
+    output: [{ role: "assistant", content: `Error occurred: ${message}` }],
     error: message,
     executionStatus: "execution_error",
     failureStage,