npm - @ls-stack/agent-eval - Versions diffs - 0.32.0 → 0.34.0 - Mend

@ls-stack/agent-eval 0.32.0 → 0.34.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (18) hide show

package/dist/{app-Dc6vvHRL.mjs → app-DOE-crd0.mjs} +4 -4
package/dist/apps/web/dist/assets/index-BJpxc61J.css +1 -0
package/dist/apps/web/dist/assets/index-ol64metU.js +140 -0
package/dist/apps/web/dist/index.html +2 -2
package/dist/bin.mjs +1 -1
package/dist/{cli-huuJbDNb.mjs → cli-CG66f0GN.mjs} +3 -3
package/dist/index.d.mts +62 -62
package/dist/index.mjs +3 -3
package/dist/runChild.mjs +1 -1
package/dist/{runOrchestration-ZpN7xty_.mjs → runOrchestration-CYhn4DJ0.mjs} +19 -55
package/dist/{runner-BPXPvinB.mjs → runner-D5i7HLcE.mjs} +1 -1
package/dist/{runner-Dkol2ukD.mjs → runner-j9b6g0h0.mjs} +2 -2
package/dist/src-B0b1vgk0.mjs +3 -0
package/package.json +3 -3
package/skills/agent-eval/SKILL.md +7 -4
package/dist/apps/web/dist/assets/index-BNQnbfi0.js +0 -118
package/dist/apps/web/dist/assets/index-BPMMRktE.css +0 -1
package/dist/src-1Qvuh0NH.mjs +0 -3

package/dist/{runOrchestration-ZpN7xty_.mjs → runOrchestration-CYhn4DJ0.mjs} RENAMED Viewed

@@ -1688,7 +1688,7 @@ function createTraceCache(generateSpanId) {
 			const hit = await cacheCtx.adapter.lookup(namespace, keyHash);
 			if (hit) {
 				const storedAt = hit.storedAt;
-				const age = Date.now() - new Date(storedAt).getTime();
+				const age = getRealDateNowMs() - new Date(storedAt).getTime();
 				recordCacheRef(scope, activeSpan, {
 					type: "value",
 					name: info.name,
@@ -2149,7 +2149,7 @@ async function traceSpanInternal(info, fn) {
 					mergeSpanAttributes(spanRecord, {
 						"cache.status": "hit",
 						"cache.storedAt": storedAt,
-						"cache.age": Date.now() - new Date(storedAt).getTime()
+						"cache.age": getRealDateNowMs() - new Date(storedAt).getTime()
 					});
 					const recording = deserializeCacheRecording(hit.recording);
 					replayRecording(scope, spanRecord, recording, { generateSpanId });
@@ -5025,30 +5025,6 @@ function mergeOverrides(base, override) {
 	};
 }
 /**
-* Populate `target` with `ColumnDef` entries for any keys in `columns`
-* that aren't already present, applying user-supplied `overrides` and
-* flagging score columns declared via `scores`.
-*/
-function mergeColumnDefs(target, columns, overrides, scores, manualScores) {
-	const scoreKeys = new Set(Object.keys(scores ?? {}));
-	const manualScoreKeys = new Set(Object.keys(manualScores ?? {}));
-	const overrideMap = overrides ?? {};
-	for (const [key, value] of Object.entries(columns)) {
-		if (target.has(key)) continue;
-		const override = mergeOverrides(getScoreOverride(scores?.[key]) ?? manualScores?.[key], overrideMap[key]);
-		const isScore = scoreKeys.has(key) || manualScoreKeys.has(key);
-		target.set(key, createColumnDef({
-			key,
-			override,
-			scoreDef: scores?.[key],
-			manualScoreDef: manualScores?.[key],
-			inferredKind: isScore ? "number" : inferKind(value),
-			isScore,
-			isManualScore: manualScoreKeys.has(key)
-		}));
-	}
-}
-/**
 * Build the column definitions declared directly on an eval before any runtime
 * output values exist. This lets discovery metadata describe authored rich
 * output columns even for runs created by another process.
@@ -5092,30 +5068,30 @@ function buildDeclaredColumnDefs(overrides, scores, manualScores) {
 	}
 	return [...declaredDefs.values()];
 }
-/** Infer a `ColumnKind` from a runtime value when no override is set. */
-function inferKind(value) {
-	if (typeof value === "number") return "number";
-	if (typeof value === "boolean") return "boolean";
-	return "string";
-}
 /**
 * Coerce an arbitrary runtime value into a serializable `CellValue`.
-* Non-primitive values fall back to `JSON.stringify`.
+* JSON-safe objects and arrays stay structured so saved run artifacts preserve
+* the authored output shape. Rich runtime values fall back to `JSON.stringify`.
 */
-function toCellValue(value, override = void 0) {
+function toCellValue(value) {
 	if (value === null) return null;
 	if (typeof value === "string" || typeof value === "number" || typeof value === "boolean") return value;
 	if (value === void 0) return void 0;
-	if (override?.format === "image" || override?.format === "audio" || override?.format === "video" || override?.format === "file") {
-		const parsed = fileRefSchema.safeParse(value);
-		if (parsed.success) return parsed.data;
-	}
-	if (override?.format === "json") {
+	const fileRef = fileRefSchema.safeParse(value);
+	if (fileRef.success) return fileRef.data;
+	if (isPlainJsonContainer(value)) {
 		const parsed = jsonCellSchema.safeParse(value);
 		if (parsed.success) return parsed.data;
 	}
+	if (value instanceof Date) return value.toISOString();
 	return JSON.stringify(value);
 }
+function isPlainJsonContainer(value) {
+	if (Array.isArray(value)) return true;
+	if (typeof value !== "object" || value === null) return false;
+	const prototype = Object.getPrototypeOf(value);
+	return prototype === Object.prototype || prototype === null;
+}
 function inferKindFromFormat(format) {
 	if (format === "boolean") return "boolean";
 	if (format === "duration" || format === "percent" || format === "number" || format === "passFail" || format === "stars") return "number";
@@ -6586,7 +6562,7 @@ async function runDeriveFromTracingConfig(params) {
 	}
 }
 async function runCase(params) {
-	const { evalDef, evalId, evalKey = evalId, evalCase, globalTraceDisplay, globalColumns, globalDeriveFromTracing, llmCallsConfig = resolveLlmCallsConfig(void 0), apiCallsConfig = resolveApiCallsConfig(void 0), globalRemoveDefaultConfig, trial, startTime, cacheAdapter, cacheMode, moduleIsolation, evalFilePath, evalFileRelativePath = evalFilePath, workspaceRoot, artifactDir, runId } = params;
+	const { evalDef, evalId, evalKey = evalId, evalCase, globalTraceDisplay, globalDeriveFromTracing, llmCallsConfig = resolveLlmCallsConfig(void 0), apiCallsConfig = resolveApiCallsConfig(void 0), globalRemoveDefaultConfig, trial, startTime, cacheAdapter, cacheMode, moduleIsolation, evalFilePath, evalFileRelativePath = evalFilePath, workspaceRoot, artifactDir, runId } = params;
 	const scopedIdPrefix = buildScopedEvalIdPrefix({
 		evalId,
 		evalFilePath,
@@ -6739,12 +6715,6 @@ async function runCase(params) {
 	const status = nonAssertError ? "error" : passed ? "pass" : "fail";
 	const { trace: displayTrace, traceDisplay } = resolveTracePresentation(spansWithDerivedAttributes, globalTraceDisplay, evalDef.traceDisplay);
 	const columns = {};
-	const columnOverrides = mergeDefaultColumns({
-		globalColumns,
-		columns: evalDef.columns,
-		globalRemove: globalRemoveDefaultConfig,
-		evalRemove: evalDef.removeDefaultConfig
-	});
 	for (const [key, value] of Object.entries(scope.outputs)) {
 		const cell = isBlob(value) ? await persistInlineArtifact({
 			artifactDir,
@@ -6753,7 +6723,7 @@ async function runCase(params) {
 			outputKey: key,
 			trial,
 			value
-		}) : toCellValue(value, columnOverrides?.[key]);
+		}) : toCellValue(value);
 		if (cell !== void 0) columns[key] = cell;
 	}
 	for (const key of Object.keys(evalDef.manualScores ?? {})) columns[key] = null;
@@ -6989,7 +6959,6 @@ async function finalizePreparedCase(params) {
 	const artifactFileId = getCaseArtifactFileId(runState, winningTrial.caseRow);
 	runState.cases.push(winningTrial.caseRow);
 	runState.caseDetails.set(getCaseRowCaseKey(winningTrial.caseRow), winningTrial.caseDetail);
-	preparedEval.mergeColumns(winningTrial.caseDetail.columns);
 	if (winningTrial.caseRow.status === "pass") runState.summary.passedCases++;
 	else if (winningTrial.caseRow.status === "error") runState.summary.errorCases++;
 	else runState.summary.failedCases++;
@@ -7106,13 +7075,13 @@ async function executeRun({ runState, request, runDir, config, cacheStore, lastR
 								globalRemove: config.removeDefaultConfig
 							});
 							const declaredColumnDefs = buildDeclaredColumnDefs(defaultConfig.columns, evalDef.scores, evalDef.manualScores);
-							const accumulatedColumns = new Map(declaredColumnDefs.map((def) => [def.key, def]));
 							const validatedCharts = validateCharts({
 								charts: defaultConfig.charts,
 								columnDefs: declaredColumnDefs,
 								evalId: evalMeta.id
 							});
 							for (const warning of validatedCharts.warnings) console.warn(warning);
+							evalMeta.columnDefs = declaredColumnDefs;
 							evalMeta.stats = defaultConfig.stats;
 							evalMeta.charts = validatedCharts.charts;
 							const evalCaseRows = [];
@@ -7121,13 +7090,9 @@ async function executeRun({ runState, request, runDir, config, cacheStore, lastR
 							const manualScoreKeys = Object.freeze(Object.keys(evalDef.manualScores ?? {}));
 							const preparedEval = {
 								evalMeta,
-								accumulatedColumns,
 								evalCaseRows,
 								preparedCases,
-								scoreKeys: Object.freeze([...scoreKeys, ...manualScoreKeys]),
-								mergeColumns: (columns) => {
-									mergeColumnDefs(accumulatedColumns, columns, defaultConfig.columns, evalDef.scores, evalDef.manualScores);
-								}
+								scoreKeys: Object.freeze([...scoreKeys, ...manualScoreKeys])
 							};
 							preparedEvals.push(preparedEval);
 							for (const evalCase of cases) {
@@ -7236,7 +7201,6 @@ async function executeRun({ runState, request, runDir, config, cacheStore, lastR
 				onCaseFinished,
 				emitEvent
 			});
-			preparedEval.evalMeta.columnDefs = [...preparedEval.accumulatedColumns.values()];
 			lastRunStatusMap.set(preparedEval.evalMeta.key, toLastRunStatus(deriveStatusFromCaseRows({ caseRows: preparedEval.evalCaseRows })));
 			const latestStatus = lastRunStatusMap.get(preparedEval.evalMeta.key) ?? null;
 			latestRunInfoMap.set(preparedEval.evalMeta.key, {

package/dist/{runner-BPXPvinB.mjs → runner-D5i7HLcE.mjs} RENAMED Viewed

@@ -1,2 +1,2 @@
-import { n as initRunner, t as getRunnerInstance } from "./runner-Dkol2ukD.mjs";
+import { n as initRunner, t as getRunnerInstance } from "./runner-j9b6g0h0.mjs";
 export { getRunnerInstance, initRunner };

package/dist/{runner-Dkol2ukD.mjs → runner-j9b6g0h0.mjs} RENAMED Viewed

@@ -1,5 +1,5 @@
-import { n as createRunner } from "./cli-huuJbDNb.mjs";
-import "./src-1Qvuh0NH.mjs";
+import { n as createRunner } from "./cli-CG66f0GN.mjs";
+import "./src-B0b1vgk0.mjs";
 //#region ../../apps/server/src/runner.ts
 let runnerInstance = null;
 function getRunnerInstance() {

package/dist/src-B0b1vgk0.mjs ADDED Viewed

@@ -0,0 +1,3 @@
+import "./runOrchestration-CYhn4DJ0.mjs";
+import "./cli-CG66f0GN.mjs";
+export {};

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@ls-stack/agent-eval",
-  "version": "0.32.0",
+  "version": "0.34.0",
   "type": "module",
   "bin": {
     "agent-evals": "./dist/bin.mjs"
@@ -31,9 +31,9 @@
   "devDependencies": {
     "@types/node": "^24.7.2",
     "typescript": "^5.9.2",
-    "@agent-evals/sdk": "0.0.1",
     "@agent-evals/runner": "0.0.1",
-    "@agent-evals/shared": "0.0.1"
+    "@agent-evals/shared": "0.0.1",
+    "@agent-evals/sdk": "0.0.1"
   },
   "scripts": {
     "build": "pnpm --filter @agent-evals/web build && pnpm --filter @agent-evals/shared build && pnpm --filter @agent-evals/sdk build && pnpm --filter @agent-evals/runner build && tsdown --filter cli-js && tsdown --filter cli-types",

package/skills/agent-eval/SKILL.md CHANGED Viewed

@@ -299,10 +299,13 @@ See `EvalScoreDef` / `EvalManualScoreDef` in the types for the full shape
 - `setEvalOutput(key, value)` writes reviewable data for the case. Values are
   plain data (strings, numbers, booleans, JSON-safe objects) plus native
-  `Blob`/`File` or `FileRef` variants for media columns. Inside `execute`,
-  prefer the context `setOutput(key, value)` helper when writing schema-backed
-  outputs; it is typed from the eval's outputs generic. Keep `setEvalOutput`
-  for shared workflow code that does not receive the execute context.
+  `Blob`/`File` or `FileRef` variants for media columns. Stored output values
+  are not coerced by `columns.format`; column formats only control
+  visualization. Native `Blob`/`File` values are copied to run artifacts
+  because saved run files are JSON. Inside `execute`, prefer the context
+  `setOutput(key, value)` helper when writing schema-backed outputs; it is
+  typed from the eval's outputs generic. Keep `setEvalOutput` for shared
+  workflow code that does not receive the execute context.
 - Use `incrementEvalOutput(key, delta)` for numeric totals,
   `appendToEvalOutput(key, value)` for arrays that preserve existing scalar
   values, and `mergeEvalOutput(key, patch)` for shallow object updates.