npm - @agentv/core - Versions diffs - 3.9.1 → 3.10.0 - Mend

@agentv/core 3.9.1 → 3.10.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (14) hide show

package/dist/{chunk-PC5TLJF6.js → chunk-K7JCJIXA.js} +1 -1
package/dist/chunk-K7JCJIXA.js.map +1 -0
package/dist/evaluation/validation/index.cjs +1 -1
package/dist/evaluation/validation/index.cjs.map +1 -1
package/dist/evaluation/validation/index.js +2 -2
package/dist/evaluation/validation/index.js.map +1 -1
package/dist/index.cjs +90 -46
package/dist/index.cjs.map +1 -1
package/dist/index.d.cts +6 -0
package/dist/index.d.ts +6 -0
package/dist/index.js +91 -47
package/dist/index.js.map +1 -1
package/package.json +1 -1
package/dist/chunk-PC5TLJF6.js.map +0 -1

package/dist/index.cjs CHANGED Viewed

@@ -8068,11 +8068,7 @@ var CopilotCliProvider = class {
           }
         }
         if (sessionUpdate === "usage_update") {
-          if (tokenUsage) {
-            tokenUsage = { input: update.used, output: tokenUsage.output };
-          } else {
-            tokenUsage = { input: update.used, output: 0 };
-          }
+          tokenUsage = { input: update.used, output: 0 };
           if (update.cost && update.cost.currency === "USD") {
             costUsd = (costUsd ?? 0) + update.cost.amount;
           }
@@ -8106,21 +8102,32 @@ var CopilotCliProvider = class {
         sessionId: session.sessionId,
         prompt: promptMessages
       });
+      let promptResponse;
       if (request.signal) {
         const abortHandler = () => {
           killProcess(agentProcess);
         };
         request.signal.addEventListener("abort", abortHandler, { once: true });
         try {
-          await this.raceWithTimeout(sendPromise, agentProcess);
+          promptResponse = await this.raceWithTimeout(sendPromise, agentProcess);
         } finally {
           request.signal.removeEventListener("abort", abortHandler);
         }
       } else {
-        await this.raceWithTimeout(sendPromise, agentProcess);
+        promptResponse = await this.raceWithTimeout(sendPromise, agentProcess);
       }
       const endTime = (/* @__PURE__ */ new Date()).toISOString();
       const durationMs = Date.now() - startMs;
+      const responseUsage = promptResponse.usage;
+      if (responseUsage && responseUsage.totalTokens > 0) {
+        tokenUsage = {
+          input: responseUsage.inputTokens,
+          output: responseUsage.outputTokens,
+          ...responseUsage.thoughtTokens != null ? { reasoning: responseUsage.thoughtTokens } : {},
+          ...responseUsage.cachedReadTokens != null ? { cached: responseUsage.cachedReadTokens } : {}
+        };
+        request.streamCallbacks?.onLlmCallEnd?.("copilot", tokenUsage);
+      }
       const rejectedCalls = completedToolCalls.filter((tc) => {
         const out = tc.output;
         return out && (out.code === "rejected" || out.code === "denied");
@@ -8178,8 +8185,7 @@ var CopilotCliProvider = class {
   async raceWithTimeout(sendPromise, agentProcess) {
     const timeoutMs = this.config.timeoutMs;
     if (!timeoutMs) {
-      await sendPromise;
-      return;
+      return sendPromise;
     }
     let timer;
     const timeoutPromise = new Promise((_, reject) => {
@@ -8190,7 +8196,7 @@ var CopilotCliProvider = class {
       timer.unref?.();
     });
     try {
-      await Promise.race([sendPromise, timeoutPromise]);
+      return await Promise.race([sendPromise, timeoutPromise]);
     } finally {
       if (timer) clearTimeout(timer);
     }
@@ -12440,7 +12446,7 @@ async function readTargetDefinitions(filePath) {
     throw new Error(`targets.yaml not found at ${absolutePath}`);
   }
   const raw = await (0, import_promises24.readFile)(absolutePath, "utf8");
-  const parsed = (0, import_yaml6.parse)(raw);
+  const parsed = interpolateEnv((0, import_yaml6.parse)(raw), process.env);
   if (!isRecord(parsed)) {
     throw new Error(`targets.yaml at ${absolutePath} must be a YAML object with a 'targets' field`);
   }
@@ -13357,8 +13363,7 @@ ${context2.fileChanges}`;
     }
     const evaluatorRawRequest = {
       userPrompt,
-      systemPrompt,
-      target: graderProvider.targetName
+      systemPrompt
     };
     try {
       const { data, tokenUsage } = await this.runWithRetry({
@@ -13376,6 +13381,7 @@ ${context2.fileChanges}`;
         assertions,
         expectedAspectCount: Math.max(assertions.length, 1),
         evaluatorRawRequest,
+        graderTarget: graderProvider.targetName,
         tokenUsage
       };
     } catch (e) {
@@ -13387,7 +13393,8 @@ ${context2.fileChanges}`;
         verdict: "skip",
         assertions: [{ text: `Grader parse failure after 3 attempts: ${message}`, passed: false }],
         expectedAspectCount: 1,
-        evaluatorRawRequest
+        evaluatorRawRequest,
+        graderTarget: graderProvider.targetName
       };
     }
   }
@@ -13405,8 +13412,7 @@ ${context2.fileChanges}`;
     const systemPrompt = buildRubricOutputSchema();
     const evaluatorRawRequest = {
       userPrompt: prompt,
-      systemPrompt,
-      target: graderProvider.targetName
+      systemPrompt
     };
     try {
       const { data, tokenUsage } = await this.runWithRetry({
@@ -13423,6 +13429,7 @@ ${context2.fileChanges}`;
         assertions,
         expectedAspectCount: rubrics.length,
         evaluatorRawRequest,
+        graderTarget: graderProvider.targetName,
         tokenUsage
       };
     } catch (e) {
@@ -13434,7 +13441,8 @@ ${context2.fileChanges}`;
         verdict: "skip",
         assertions: [{ text: `Grader parse failure after 3 attempts: ${message}`, passed: false }],
         expectedAspectCount: rubrics.length,
-        evaluatorRawRequest
+        evaluatorRawRequest,
+        graderTarget: graderProvider.targetName
       };
     }
   }
@@ -13447,8 +13455,7 @@ ${context2.fileChanges}`;
     const systemPrompt = buildScoreRangeOutputSchema();
     const evaluatorRawRequest = {
       userPrompt: prompt,
-      systemPrompt,
-      target: graderProvider.targetName
+      systemPrompt
     };
     try {
       const { data, tokenUsage } = await this.runWithRetry({
@@ -13465,6 +13472,7 @@ ${context2.fileChanges}`;
         assertions,
         expectedAspectCount: rubrics.length,
         evaluatorRawRequest,
+        graderTarget: graderProvider.targetName,
         details,
         tokenUsage
       };
@@ -13477,7 +13485,8 @@ ${context2.fileChanges}`;
         verdict: "skip",
         assertions: [{ text: `Grader parse failure after 3 attempts: ${message}`, passed: false }],
         expectedAspectCount: rubrics.length,
-        evaluatorRawRequest
+        evaluatorRawRequest,
+        graderTarget: graderProvider.targetName
       };
     }
   }
@@ -13509,7 +13518,6 @@ ${context2.fileChanges}`;
       mode: "built-in",
       systemPrompt,
       userPrompt,
-      target: graderProvider.targetName,
       maxSteps: this.maxSteps
     };
     try {
@@ -13527,7 +13535,13 @@ ${context2.fileChanges}`;
         steps: steps.length,
         tool_calls: toolCallCount
       };
-      return this.parseAgentResult(text, rubrics, evaluatorRawRequest, details);
+      return this.parseAgentResult(
+        text,
+        rubrics,
+        evaluatorRawRequest,
+        details,
+        graderProvider.targetName
+      );
     } catch (error) {
       const message = error instanceof Error ? error.message : String(error);
       return {
@@ -13536,6 +13550,7 @@ ${context2.fileChanges}`;
         assertions: [{ text: `llm-grader built-in evaluation failed: ${message}`, passed: false }],
         expectedAspectCount: 1,
         evaluatorRawRequest,
+        graderTarget: graderProvider.targetName,
         details: { mode: "built-in", error: message }
       };
     }
@@ -13588,6 +13603,7 @@ ${context2.fileChanges}`;
           ],
           expectedAspectCount: 1,
           evaluatorRawRequest,
+          graderTarget: provider.targetName,
           details: { mode: modeLabel, grader_target: provider.targetName }
         };
       }
@@ -13597,7 +13613,13 @@ ${context2.fileChanges}`;
         mode: modeLabel,
         grader_target: provider.targetName
       };
-      return this.parseAgentResult(assistantContent, rubrics, evaluatorRawRequest, details);
+      return this.parseAgentResult(
+        assistantContent,
+        rubrics,
+        evaluatorRawRequest,
+        details,
+        provider.targetName
+      );
     } catch (error) {
       const message = error instanceof Error ? error.message : String(error);
       return {
@@ -13608,6 +13630,7 @@ ${context2.fileChanges}`;
         ],
         expectedAspectCount: 1,
         evaluatorRawRequest,
+        graderTarget: provider.targetName,
         details: {
           mode: modeLabel,
           grader_target: provider.targetName,
@@ -13752,7 +13775,7 @@ ${outputSchema}`;
    * Parse the agent's response text into an EvaluationScore.
    * Supports both freeform and rubric modes.
    */
-  parseAgentResult(text, rubrics, evaluatorRawRequest, details) {
+  parseAgentResult(text, rubrics, evaluatorRawRequest, details, graderTarget) {
     try {
       const parsed = parseJsonFromText(text);
       if (rubrics && rubrics.length > 0) {
@@ -13764,6 +13787,7 @@ ${outputSchema}`;
           assertions: assertions2,
           expectedAspectCount: rubrics.length,
           evaluatorRawRequest,
+          graderTarget,
           details
         };
       }
@@ -13776,6 +13800,7 @@ ${outputSchema}`;
         assertions,
         expectedAspectCount: Math.max(assertions.length, 1),
         evaluatorRawRequest,
+        graderTarget,
         details
       };
     } catch {
@@ -13790,6 +13815,7 @@ ${outputSchema}`;
         ],
         expectedAspectCount: 1,
         evaluatorRawRequest,
+        graderTarget,
         details
       };
     }
@@ -18101,7 +18127,8 @@ async function runEvaluation(options) {
             streamCallbacks,
             typeRegistry,
             repoManager,
-            evalDir
+            evalDir,
+            verbose
           };
           let result = trials && trials.count > 1 ? await runEvalCaseWithTrials(runCaseOptions, trials) : await runEvalCase(runCaseOptions);
           if (totalBudgetUsd !== void 0) {
@@ -18181,7 +18208,8 @@ async function runEvaluation(options) {
           promptInputs,
           primaryProvider,
           "agent",
-          "provider_error"
+          "provider_error",
+          verbose
         );
         results.push(errorResult);
         if (onResult) {
@@ -18254,6 +18282,7 @@ async function runBatchEvaluation(options) {
     nowFn,
     onProgress,
     onResult,
+    verbose,
     resolveGraderProvider,
     agentTimeoutMs,
     targetResolver,
@@ -18341,7 +18370,8 @@ async function runBatchEvaluation(options) {
         startTime,
         endTime,
         targetResolver,
-        availableTargets
+        availableTargets,
+        verbose
       });
       if (providerError) {
         result = {
@@ -18362,7 +18392,8 @@ async function runBatchEvaluation(options) {
         promptInputs,
         provider,
         "evaluator",
-        "evaluator_error"
+        "evaluator_error",
+        verbose
       );
       results.push(errorResult);
       if (onResult) {
@@ -18425,7 +18456,8 @@ async function runEvalCase(options) {
     suiteWorkspaceFile,
     typeRegistry: providedTypeRegistry,
     repoManager,
-    evalDir
+    evalDir,
+    verbose
   } = options;
   const setupDebug = process.env.AGENTV_SETUP_DEBUG === "1";
   const formattingMode = usesFileReferencePrompt(provider) ? "agent" : "lm";
@@ -18462,7 +18494,8 @@ async function runEvalCase(options) {
           promptInputs,
           provider,
           "setup",
-          "template_error"
+          "template_error",
+          verbose
         );
       }
       if (caseWorkspaceFile && workspacePath) {
@@ -18491,7 +18524,8 @@ async function runEvalCase(options) {
           promptInputs,
           provider,
           "repo_setup",
-          "local_path_not_found"
+          "local_path_not_found",
+          verbose
         );
       }
     }
@@ -18517,7 +18551,8 @@ async function runEvalCase(options) {
           promptInputs,
           provider,
           "repo_setup",
-          "clone_error"
+          "clone_error",
+          verbose
         );
       }
     }
@@ -18543,7 +18578,8 @@ async function runEvalCase(options) {
               promptInputs,
               provider,
               "setup",
-              "file_copy_error"
+              "file_copy_error",
+              verbose
             );
           }
         }
@@ -18588,7 +18624,8 @@ async function runEvalCase(options) {
           promptInputs,
           provider,
           "setup",
-          "script_error"
+          "script_error",
+          verbose
         );
       }
     }
@@ -18619,7 +18656,8 @@ async function runEvalCase(options) {
         promptInputs,
         provider,
         "setup",
-        "script_error"
+        "script_error",
+        verbose
       );
     }
   }
@@ -18663,7 +18701,8 @@ async function runEvalCase(options) {
         promptInputs,
         provider,
         "agent",
-        "provider_error"
+        "provider_error",
+        verbose
       );
       if (workspacePath) {
         if (forceCleanup) {
@@ -18684,7 +18723,8 @@ async function runEvalCase(options) {
       promptInputs,
       provider,
       "agent",
-      "provider_error"
+      "provider_error",
+      verbose
     );
     if (workspacePath) {
       if (forceCleanup) {
@@ -18779,7 +18819,8 @@ async function runEvalCase(options) {
       targetResolver,
       availableTargets,
       fileChanges,
-      workspacePath
+      workspacePath,
+      verbose
     });
     const totalDurationMs = Date.now() - caseStartMs;
     const graderTokens = aggregateEvaluatorTokenUsage(result.scores);
@@ -18834,7 +18875,8 @@ async function runEvalCase(options) {
       promptInputs,
       provider,
       "evaluator",
-      "evaluator_error"
+      "evaluator_error",
+      verbose
     );
     if (workspacePath && !isSharedWorkspace) {
       if (forceCleanup || (retainOnFailure ?? "keep") === "cleanup") {
@@ -18976,7 +19018,7 @@ async function evaluateCandidate(options) {
   let lmRequest;
   if (isAgentProvider(provider)) {
     agentRequest = {
-      question: promptInputs.question
+      ...options.verbose ? { input: promptInputs.question } : {}
     };
   } else {
     if (promptInputs.chatPrompt) {
@@ -18990,8 +19032,9 @@ async function evaluateCandidate(options) {
     }
   }
   const evaluatorRequest = scores ? void 0 : score.evaluatorRawRequest;
-  const requests = agentRequest || lmRequest || evaluatorRequest ? {
-    ...agentRequest ? { agent: agentRequest } : {},
+  const effectiveAgentRequest = agentRequest && Object.keys(agentRequest).length > 0 ? agentRequest : void 0;
+  const requests = effectiveAgentRequest || lmRequest || evaluatorRequest ? {
+    ...effectiveAgentRequest ? { agent: effectiveAgentRequest } : {},
     ...lmRequest ? { lm: lmRequest } : {},
     ...evaluatorRequest ? { evaluator: evaluatorRequest } : {}
   } : void 0;
@@ -19011,9 +19054,9 @@ async function evaluateCandidate(options) {
     endTime,
     requests,
     input,
+    output: output ?? [{ role: "assistant", content: candidate }],
     scores,
     trace: trace2,
-    output: output ?? [{ role: "assistant", content: candidate }],
     fileChanges,
     executionStatus: classifyQualityStatus(score.score)
   };
@@ -19179,6 +19222,7 @@ async function runEvaluatorList(options) {
         verdict: score2.verdict,
         assertions: score2.assertions,
         input: score2.evaluatorRawRequest,
+        target: score2.graderTarget,
         details: score2.details,
         scores: mapChildResults(score2.scores),
         tokenUsage: score2.tokenUsage,
@@ -19318,13 +19362,13 @@ async function invokeProvider(provider, options) {
     }
   }
 }
-function buildErrorResult(evalCase, targetName, timestamp, error, promptInputs, provider, failureStage, failureReasonCode) {
+function buildErrorResult(evalCase, targetName, timestamp, error, promptInputs, provider, failureStage, failureReasonCode, verbose) {
   const message = error instanceof Error ? error.message : String(error);
   let agentRequest;
   let lmRequest;
   if (isAgentProvider(provider)) {
     agentRequest = {
-      question: promptInputs.question,
+      ...verbose ? { input: promptInputs.question } : {},
       error: message
     };
   } else {
@@ -19352,10 +19396,10 @@ function buildErrorResult(evalCase, targetName, timestamp, error, promptInputs,
     conversationId: evalCase.conversation_id,
     score: 0,
     assertions: [{ text: `Error: ${message}`, passed: false }],
-    output: [{ role: "assistant", content: `Error occurred: ${message}` }],
     target: targetName,
     requests,
     input,
+    output: [{ role: "assistant", content: `Error occurred: ${message}` }],
     error: message,
     executionStatus: "execution_error",
     failureStage,