npm - agentv - Versions diffs - 4.35.1 → 4.37.0-next.1 - Mend

agentv 4.35.1 → 4.37.0-next.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (33) hide show

package/dist/{chunk-CRMGUVRZ.js → chunk-P4LSNFZR.js} RENAMED Viewed

@@ -53,7 +53,7 @@ import {
   validateTargetsFile,
   validateWorkspacePaths,
   writeRunTags
-} from "./chunk-INOKS5LF.js";
+} from "./chunk-M7AMFWBZ.js";
 import {
   RESULT_INDEX_FILENAME,
   aggregateRunDir,
@@ -65,7 +65,7 @@ import {
   resolveRunManifestPath,
   toSnakeCaseDeep as toSnakeCaseDeep2,
   writeArtifactsFromResults
-} from "./chunk-KJGYL3M3.js";
+} from "./chunk-N6E5XFOM.js";
 import {
   DEFAULT_CATEGORY,
   addProject,
@@ -86,9 +86,10 @@ import {
   touchProject,
   transpileEvalYamlFile,
   trimBaselineResult
-} from "./chunk-KNF3AGCI.js";
+} from "./chunk-OYI35QFW.js";
 import {
   DEFAULT_THRESHOLD,
+  buildTraceFromMessages,
   createBuiltinRegistry,
   discoverCopilotSessions,
   executeScript,
@@ -116,7 +117,7 @@ import {
   runStartsWithAssertion,
   toCamelCaseDeep,
   toSnakeCaseDeep
-} from "./chunk-6QEIZ33V.js";
+} from "./chunk-RL4S2FBZ.js";
 import {
   __commonJS,
   __require,
@@ -4325,16 +4326,25 @@ var evalAssertCommand = command({
       );
       process.exit(1);
     }
+    const messages = [{ role: "assistant", content: resolvedOutput }];
+    const inputMessages = [{ role: "user", content: resolvedInput }];
+    const trace = buildTraceFromMessages({
+      input: inputMessages,
+      output: messages,
+      finalOutput: resolvedOutput
+    });
     const payload = JSON.stringify(
       {
-        output: [{ role: "assistant", content: resolvedOutput }],
-        input: [{ role: "user", content: resolvedInput }],
+        output: resolvedOutput,
+        answer: resolvedOutput,
+        messages,
+        input: inputMessages,
         question: resolvedInput,
         criteria: "",
         expected_output: [],
         reference_answer: "",
         input_files: [],
-        trace: null,
+        trace,
         token_usage: null,
         cost_usd: null,
         duration_ms: null,
@@ -4581,11 +4591,21 @@ var evalRunCommand = command({
       type: optional(string),
       long: "transcript",
       description: "Grade a pre-recorded transcript JSONL instead of invoking a live provider. Ignores targets."
+    }),
+    recordReplay: option({
+      type: optional(string),
+      long: "record-replay",
+      description: "Append live target outputs to a replay fixture JSONL file. Graders still run normally."
+    }),
+    recordReplayVariant: option({
+      type: optional(string),
+      long: "record-replay-variant",
+      description: "Optional variant key to store with --record-replay fixture rows."
     })
   },
   handler: async (args) => {
     if (args.evalPaths.length === 0 && process.stdin.isTTY) {
-      const { launchInteractiveWizard } = await import("./interactive-VYQ5SYMR.js");
+      const { launchInteractiveWizard } = await import("./interactive-CQELHITQ.js");
       await launchInteractiveWizard();
       return;
     }
@@ -4634,7 +4654,9 @@ var evalRunCommand = command({
       budgetUsd: args.budgetUsd,
       tag: args.tag,
       excludeTag: args.excludeTag,
-      transcript: args.transcript
+      transcript: args.transcript,
+      recordReplay: args.recordReplay,
+      recordReplayVariant: args.recordReplayVariant
     };
     const result = await runEvalCommand({ testFiles: resolvedPaths, rawOptions });
     if (result?.allExecutionErrors) {
@@ -6730,9 +6752,16 @@ async function runScore(results, evaluatorConfig, testIdFilter) {
   const scored = [];
   for (const raw of results) {
     if (testIdFilter && raw.test_id !== testIdFilter) continue;
-    const trace = toTraceSummary(raw);
     const candidate = extractCandidate(raw);
-    const output = raw.output;
+    const output = raw.trace?.messages ?? (Array.isArray(raw.output) ? raw.output : void 0);
+    const outputMessages = Array.isArray(output) ? toCamelCaseDeep(output) : void 0;
+    const trace = raw.trace && Array.isArray(raw.trace.messages) && Array.isArray(raw.trace.events) ? toCamelCaseDeep(raw.trace) : buildTraceFromMessages({
+      output: outputMessages,
+      finalOutput: candidate,
+      summary: toTraceSummary(raw),
+      target: raw.target,
+      testId: raw.test_id
+    });
     const evalContext = {
       evalCase: buildTestCase(raw),
       candidate,
@@ -6741,7 +6770,7 @@ async function runScore(results, evaluatorConfig, testIdFilter) {
       attempt: 1,
       promptInputs: { question: "" },
       now: /* @__PURE__ */ new Date(),
-      output: Array.isArray(output) ? output : void 0,
+      output: outputMessages,
       trace,
       tokenUsage: raw.token_usage ? toCamelCaseDeep(raw.token_usage) : void 0,
       costUsd: raw.cost_usd,
@@ -7102,7 +7131,7 @@ function renderScores(scores) {
   }).join(" | ");
 }
 function renderTree(result) {
-  const messages = result.output;
+  const messages = result.trace?.messages ?? (Array.isArray(result.output) ? result.output : void 0);
   const spans = getTraceSpans(result);
   if (!messages || messages.length === 0) {
     if (spans.length > 0) {
@@ -7759,13 +7788,22 @@ async function runCodeGraders(tasks, concurrency) {
     const { testId, resultsDir, responseText, inputData } = task;
     const graderName = graderConfig.name;
     const inputText = extractInputText(inputData.input);
+    const messages = [{ role: "assistant", content: responseText }];
+    const trace = buildTraceFromMessages({
+      input: inputData.input,
+      output: messages,
+      finalOutput: responseText,
+      testId
+    });
     const payload = JSON.stringify({
-      output: [{ role: "assistant", content: responseText }],
+      output: responseText,
+      answer: responseText,
+      messages,
       input: inputData.input,
       criteria: "",
       expected_output: [],
       input_files: inputData.input_files ?? [],
-      trace: null,
+      trace,
       token_usage: null,
       cost_usd: null,
       duration_ms: null,
@@ -10939,7 +10977,7 @@ function renderResultsReport(results, sourceFile, records, benchmarkEvalFile) {
     (result, index) => serializeReportResult(result, sourceFile, records[index], benchmarkEvalFile)
   );
   const dataJson = JSON.stringify(rows).replace(/<\//g, "<\\/");
-  return RESULTS_REPORT_TEMPLATE.replace("__DATA_PLACEHOLDER__", dataJson);
+  return RESULTS_REPORT_TEMPLATE.replace("__DATA_PLACEHOLDER__", () => dataJson);
 }
 async function writeResultsReport(source, outputPath, cwd) {
   const { sourceFile, results, records, benchmarkEvalFile } = await loadReportSource(source, cwd);
@@ -10999,7 +11037,7 @@ function formatInput(result) {
 }
 function formatOutput(result) {
   if (!result.output || result.output.length === 0) return "(no output)";
-  return result.output.map((msg) => String(msg.content ?? "")).join("\n");
+  return result.output;
 }
 function formatShow(result) {
   const usage = result.tokenUsage;
@@ -12075,6 +12113,16 @@ function inferLanguage(filePath) {
   };
   return langMap[ext] ?? "plaintext";
 }
+function inferRawContentType(filePath) {
+  const ext = path23.extname(filePath).toLowerCase();
+  if (ext === ".json") return "application/json; charset=utf-8";
+  if (ext === ".jsonl") return "text/plain; charset=utf-8";
+  if (ext === ".md") return "text/markdown; charset=utf-8";
+  return "text/plain; charset=utf-8";
+}
+function contentDispositionFilename(filePath) {
+  return path23.basename(filePath).replace(/["\\\r\n]/g, "_");
+}
 function stripHeavyFields(results) {
   return results.map((r) => {
     const { requests, trace, ...rest } = r;
@@ -12475,6 +12523,8 @@ async function handleEvalFiles(c4, { searchDir, projectId }) {
       record.input_path,
       record.output_path,
       record.response_path,
+      record.answer_path,
+      record.transcript_path,
       record.task_dir,
       record.eval_path,
       record.targets_path,
@@ -12502,7 +12552,13 @@ async function handleEvalFileContent(c4, { searchDir, projectId }) {
   if (!meta) return c4.json({ error: "Run not found" }, 404);
   const marker = "/files/";
   const markerIdx = c4.req.path.indexOf(marker);
-  const filePath = markerIdx >= 0 ? c4.req.path.slice(markerIdx + marker.length) : "";
+  const encodedFilePath = markerIdx >= 0 ? c4.req.path.slice(markerIdx + marker.length) : "";
+  let filePath = "";
+  try {
+    filePath = encodedFilePath ? decodeURIComponent(encodedFilePath) : "";
+  } catch {
+    return c4.json({ error: "Invalid file path encoding" }, 400);
+  }
   if (!filePath) return c4.json({ error: "No file path specified" }, 400);
   await ensureRunReadable(searchDir, meta, projectId);
   const baseDir = path23.dirname(meta.path);
@@ -12515,6 +12571,16 @@ async function handleEvalFileContent(c4, { searchDir, projectId }) {
   }
   try {
     const fileContent = readFileSync12(absolutePath, "utf8");
+    if (c4.req.query("raw") === "1" || c4.req.query("download") === "1") {
+      c4.header("Content-Type", inferRawContentType(absolutePath));
+      if (c4.req.query("download") === "1") {
+        c4.header(
+          "Content-Disposition",
+          `attachment; filename="${contentDispositionFilename(absolutePath)}"`
+        );
+      }
+      return c4.body(fileContent);
+    }
     const language = inferLanguage(absolutePath);
     return c4.json({ content: fileContent, language });
   } catch {
@@ -15426,4 +15492,4 @@ export {
   preprocessArgv,
   runCli
 };
-//# sourceMappingURL=chunk-CRMGUVRZ.js.map
+//# sourceMappingURL=chunk-P4LSNFZR.js.map