npm - vskill - Versions diffs - 0.2.75 → 0.2.76 - Mend

vskill 0.2.75 → 0.2.76

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (20) hide show

package/dist/eval/benchmark-history.d.ts +31 -4
package/dist/eval/benchmark-history.js +83 -4
package/dist/eval/benchmark-history.js.map +1 -1
package/dist/eval/benchmark.d.ts +32 -0
package/dist/eval/benchmark.js.map +1 -1
package/dist/eval-server/api-routes.js +165 -99
package/dist/eval-server/api-routes.js.map +1 -1
package/dist/eval-server/benchmark-runner.d.ts +16 -0
package/dist/eval-server/benchmark-runner.js +114 -0
package/dist/eval-server/benchmark-runner.js.map +1 -0
package/dist/eval-ui/assets/index-BYv6znnG.css +1 -0
package/dist/eval-ui/assets/index-Bp1HQKak.js +70 -0
package/dist/eval-ui/index.html +2 -2
package/dist/installer/canonical.js +1 -1
package/dist/installer/canonical.js.map +1 -1
package/dist/installer/canonical.test.js +8 -0
package/dist/installer/canonical.test.js.map +1 -1
package/package.json +1 -1
package/dist/eval-ui/assets/index-BsNUxjb1.js +0 -70
package/dist/eval-ui/assets/index-D5mEzX7i.css +0 -1

package/dist/eval/benchmark-history.d.ts CHANGED Viewed

@@ -1,11 +1,34 @@
-import type { BenchmarkResult } from "./benchmark.js";
+import type { BenchmarkResult, BenchmarkAssertionResult } from "./benchmark.js";
 export interface HistorySummary {
     timestamp: string;
     filename: string;
     model: string;
     skillName: string;
     passRate: number;
-    type: "benchmark" | "comparison";
+    type: "benchmark" | "comparison" | "baseline";
+    caseCount: number;
+    totalDurationMs: number;
+    totalTokens: number | null;
+    provider?: string;
+    verdict?: string;
+}
+export interface HistoryFilter {
+    model?: string;
+    type?: "benchmark" | "comparison" | "baseline";
+    from?: string;
+    to?: string;
+}
+export interface CaseHistoryEntry {
+    timestamp: string;
+    model: string;
+    type: "benchmark" | "comparison" | "baseline";
+    provider?: string;
+    pass_rate: number;
+    durationMs?: number;
+    tokens?: number | null;
+    inputTokens?: number | null;
+    outputTokens?: number | null;
+    assertions: BenchmarkAssertionResult[];
 }
 export interface RegressionEntry {
     assertionId: string;
@@ -16,8 +39,12 @@ export interface RegressionEntry {
     change: "regression" | "improvement";
 }
 export declare function writeHistoryEntry(skillDir: string, result: BenchmarkResult & {
-    type?: "benchmark" | "comparison";
+    type?: "benchmark" | "comparison" | "baseline";
 }): Promise<string>;
-export declare function listHistory(skillDir: string): Promise<HistorySummary[]>;
+export declare function deleteHistoryEntry(skillDir: string, timestamp: string): Promise<boolean>;
+export declare function listHistory(skillDir: string, filter?: HistoryFilter): Promise<HistorySummary[]>;
 export declare function readHistoryEntry(skillDir: string, timestamp: string): Promise<BenchmarkResult | null>;
+export declare function getCaseHistory(skillDir: string, evalId: number, filter?: {
+    model?: string;
+}): Promise<CaseHistoryEntry[]>;
 export declare function computeRegressions(current: BenchmarkResult, previous: BenchmarkResult): RegressionEntry[];

package/dist/eval/benchmark-history.js CHANGED Viewed

@@ -1,7 +1,7 @@
 // ---------------------------------------------------------------------------
 // benchmark-history.ts -- timestamped benchmark history with regression diffing
 // ---------------------------------------------------------------------------
-import { readdir, readFile, mkdir, writeFile } from "node:fs/promises";
+import { readdir, readFile, mkdir, writeFile, unlink } from "node:fs/promises";
 import { join } from "node:path";
 import { writeBenchmark } from "./benchmark.js";
 function toFilesafeTimestamp(iso) {
@@ -24,7 +24,18 @@ export async function writeHistoryEntry(skillDir, result) {
     await writeBenchmark(skillDir, result);
     return filename;
 }
-export async function listHistory(skillDir) {
+export async function deleteHistoryEntry(skillDir, timestamp) {
+    const historyDir = join(skillDir, "evals", "history");
+    const filename = `${toFilesafeTimestamp(timestamp)}.json`;
+    try {
+        await unlink(join(historyDir, filename));
+        return true;
+    }
+    catch {
+        return false;
+    }
+}
+export async function listHistory(skillDir, filter) {
     const historyDir = join(skillDir, "evals", "history");
     let files;
     try {
@@ -33,20 +44,50 @@ export async function listHistory(skillDir) {
     catch {
         return [];
     }
+    let jsonFiles = files.filter((f) => f.endsWith(".json")).sort().reverse();
+    // Pre-filter by date range using filename timestamps (fast, no JSON parse)
+    if (filter?.from || filter?.to) {
+        const fromSafe = filter.from ? toFilesafeTimestamp(filter.from) : undefined;
+        const toSafe = filter.to ? toFilesafeTimestamp(filter.to) : undefined;
+        jsonFiles = jsonFiles.filter((f) => {
+            const ts = f.replace(/\.json$/, "");
+            if (fromSafe && ts < fromSafe)
+                return false;
+            if (toSafe && ts > toSafe)
+                return false;
+            return true;
+        });
+    }
     const entries = [];
-    for (const file of files.filter((f) => f.endsWith(".json")).sort().reverse()) {
+    for (const file of jsonFiles) {
         try {
             const content = await readFile(join(historyDir, file), "utf-8");
             const data = JSON.parse(content);
+            const entryType = data.type || "benchmark";
+            // Post-filter by model and type
+            if (filter?.model && data.model !== filter.model)
+                continue;
+            if (filter?.type && entryType !== filter.type)
+                continue;
             const totalAssertions = data.cases.reduce((sum, c) => sum + c.assertions.length, 0);
             const passedAssertions = data.cases.reduce((sum, c) => sum + c.assertions.filter((a) => a.pass).length, 0);
+            const totalDurationMs = data.cases.reduce((s, c) => s + (c.durationMs ?? 0), 0);
+            const hasTokens = data.cases.some((c) => c.tokens != null);
+            const totalTokens = hasTokens
+                ? data.cases.reduce((s, c) => s + (c.tokens ?? 0), 0)
+                : null;
             entries.push({
                 timestamp: fromFilesafeTimestamp(file),
                 filename: file,
                 model: data.model,
                 skillName: data.skill_name,
                 passRate: totalAssertions > 0 ? passedAssertions / totalAssertions : 0,
-                type: data.type || "benchmark",
+                type: entryType,
+                caseCount: data.cases.length,
+                totalDurationMs,
+                totalTokens,
+                provider: data.provider,
+                verdict: data.verdict,
             });
         }
         catch {
@@ -66,6 +107,44 @@ export async function readHistoryEntry(skillDir, timestamp) {
         return null;
     }
 }
+export async function getCaseHistory(skillDir, evalId, filter) {
+    const historyDir = join(skillDir, "evals", "history");
+    let files;
+    try {
+        files = await readdir(historyDir);
+    }
+    catch {
+        return [];
+    }
+    const entries = [];
+    for (const file of files.filter((f) => f.endsWith(".json")).sort().reverse()) {
+        try {
+            const content = await readFile(join(historyDir, file), "utf-8");
+            const data = JSON.parse(content);
+            if (filter?.model && data.model !== filter.model)
+                continue;
+            const matchingCase = data.cases.find((c) => c.eval_id === evalId);
+            if (!matchingCase)
+                continue;
+            entries.push({
+                timestamp: fromFilesafeTimestamp(file),
+                model: data.model,
+                type: data.type || "benchmark",
+                provider: data.provider,
+                pass_rate: matchingCase.pass_rate,
+                durationMs: matchingCase.durationMs,
+                tokens: matchingCase.tokens,
+                inputTokens: matchingCase.inputTokens,
+                outputTokens: matchingCase.outputTokens,
+                assertions: matchingCase.assertions,
+            });
+        }
+        catch {
+            // Skip malformed files
+        }
+    }
+    return entries;
+}
 export function computeRegressions(current, previous) {
     const regressions = [];
     // Build a map of previous assertion results by eval_id + assertion_id

package/dist/eval/benchmark-history.js.map CHANGED Viewed

	@@ -1 +1 @@
1	- {"version":3,"file":"benchmark-history.js","sourceRoot":"","sources":["../../src/eval/benchmark-history.ts"],"names":[],"mappings":"AAAA,8EAA8E;AAC9E,gFAAgF;AAChF,8EAA8E;AAE9E,OAAO,EAAE,OAAO,EAAE,QAAQ,EAAE,KAAK,EAAE,SAAS,EAAE,MAAM,kBAAkB,CAAC;~~AACvE~~,OAAO,EAAE,IAAI,EAAE,MAAM,WAAW,CAAC;AAEjC,OAAO,EAAE,cAAc,EAAE,MAAM,gBAAgB,CAAC;~~AAoBhD~~,SAAS,mBAAmB,CAAC,GAAW;IACtC,OAAO,GAAG,CAAC,OAAO,CAAC,IAAI,EAAE,GAAG,CAAC,CAAC;AAChC,CAAC;AAED,SAAS,qBAAqB,CAAC,QAAgB;IAC7C,0CAA0C;IAC1C,MAAM,EAAE,GAAG,QAAQ,CAAC,OAAO,CAAC,SAAS,EAAE,EAAE,CAAC,CAAC;IAC3C,yDAAyD;IACzD,OAAO,EAAE,CAAC,OAAO,CAAC,0BAA0B,EAAE,WAAW,CAAC,CAAC;AAC7D,CAAC;AAED,MAAM,CAAC,KAAK,UAAU,iBAAiB,CACrC,QAAgB,EAChB,~~MAA+D~~;~~IAE/D~~,MAAM,UAAU,GAAG,IAAI,CAAC,QAAQ,EAAE,OAAO,EAAE,SAAS,CAAC,CAAC;IACtD,MAAM,KAAK,CAAC,UAAU,EAAE,EAAE,SAAS,EAAE,IAAI,EAAE,CAAC,CAAC;IAE7C,MAAM,SAAS,GAAG,MAAM,CAAC,SAAS,IAAI,IAAI,IAAI,EAAE,CAAC,WAAW,EAAE,CAAC;IAC/D,MAAM,QAAQ,GAAG,GAAG,mBAAmB,CAAC,SAAS,CAAC,OAAO,CAAC;IAC1D,MAAM,QAAQ,GAAG,IAAI,CAAC,UAAU,EAAE,QAAQ,CAAC,CAAC;IAE5C,MAAM,SAAS,CAAC,QAAQ,EAAE,IAAI,CAAC,SAAS,CAAC,MAAM,EAAE,IAAI,EAAE,CAAC,CAAC,CAAC,CAAC;IAE3D,uDAAuD;IACvD,MAAM,cAAc,CAAC,QAAQ,EAAE,MAAM,CAAC,CAAC;IAEvC,OAAO,QAAQ,CAAC;AAClB,CAAC;AAED,MAAM,CAAC,KAAK,UAAU,WAAW,CAC/B,QAAgB;~~IAEhB~~,MAAM,UAAU,GAAG,IAAI,CAAC,QAAQ,EAAE,OAAO,EAAE,SAAS,CAAC,CAAC;IACtD,IAAI,KAAe,CAAC;IACpB,IAAI,CAAC;QACH,KAAK,GAAG,MAAM,OAAO,CAAC,UAAU,CAAC,CAAC;IACpC,CAAC;IAAC,MAAM,CAAC;QACP,OAAO,EAAE,CAAC;IACZ,CAAC;IAED,MAAM,OAAO,~~GAAqB~~,EAAE,CAAC;~~IACrC~~,~~KAAK~~,MAAM,IAAI,IAAI,~~KAAK~~,CAAC,MAAM,CAAC,CAAC,CAAC,EAAE,EAAE,CAAC,CAAC,CAAC,~~QAAQ~~,CAAC,OAAO,CAAC,CAAC,CAAC,IAAI,EAAE,CAAC,OAAO,EAAE,EAAE,CAAC;~~QAC7E~~,IAAI,CAAC;YACH,MAAM,OAAO,GAAG,MAAM,QAAQ,CAAC,IAAI,CAAC,UAAU,EAAE,IAAI,CAAC,EAAE,OAAO,CAAC,CAAC;YAChE,MAAM,IAAI,GAAG,IAAI,CAAC,KAAK,CAAC,OAAO,CAAwC,CAAC;~~YACxE~~,MAAM,eAAe,GAAG,IAAI,CAAC,KAAK,CAAC,MAAM,CAAC,CAAC,GAAG,EAAE,CAAC,EAAE,EAAE,CAAC,GAAG,GAAG,CAAC,CAAC,UAAU,CAAC,MAAM,EAAE,CAAC,CAAC,CAAC;YACpF,MAAM,gBAAgB,GAAG,IAAI,CAAC,KAAK,CAAC,MAAM,CACxC,CAAC,GAAG,EAAE,CAAC,EAAE,EAAE,CAAC,GAAG,GAAG,CAAC,CAAC,UAAU,CAAC,MAAM,CAAC,CAAC,CAAC,EAAE,EAAE,CAAC,CAAC,CAAC,IAAI,CAAC,CAAC,MAAM,EAC3D,CAAC,CACF,CAAC;YACF,OAAO,CAAC,IAAI,CAAC;gBACX,SAAS,EAAE,qBAAqB,CAAC,IAAI,CAAC;gBACtC,QAAQ,EAAE,IAAI;gBACd,KAAK,EAAE,IAAI,CAAC,KAAK;gBACjB,SAAS,EAAE,IAAI,CAAC,UAAU;gBAC1B,QAAQ,EAAE,eAAe,GAAG,CAAC,CAAC,CAAC,CAAC,gBAAgB,GAAG,eAAe,CAAC,CAAC,CAAC,CAAC;gBACtE,IAAI,~~EAAG~~,IAAI,CAAC,~~IAAmC~~,~~IAAI~~,WAAW;~~aAC/D~~,CAAC,CAAC;QACL,CAAC;QAAC,MAAM,CAAC;YACP,uBAAuB;QACzB,CAAC;IACH,CAAC;IACD,OAAO,OAAO,CAAC;AACjB,CAAC;AAED,MAAM,CAAC,KAAK,UAAU,gBAAgB,CACpC,QAAgB,EAChB,SAAiB;IAEjB,MAAM,UAAU,GAAG,IAAI,CAAC,QAAQ,EAAE,OAAO,EAAE,SAAS,CAAC,CAAC;IACtD,MAAM,QAAQ,GAAG,GAAG,mBAAmB,CAAC,SAAS,CAAC,OAAO,CAAC;IAC1D,IAAI,CAAC;QACH,MAAM,OAAO,GAAG,MAAM,QAAQ,CAAC,IAAI,CAAC,UAAU,EAAE,QAAQ,CAAC,EAAE,OAAO,CAAC,CAAC;QACpE,OAAO,IAAI,CAAC,KAAK,CAAC,OAAO,CAAoB,CAAC;IAChD,CAAC;IAAC,MAAM,CAAC;QACP,OAAO,IAAI,CAAC;IACd,CAAC;AACH,CAAC;AAED,MAAM,UAAU,kBAAkB,CAChC,OAAwB,EACxB,QAAyB;IAEzB,MAAM,WAAW,GAAsB,EAAE,CAAC;IAE1C,sEAAsE;IACtE,MAAM,OAAO,GAAG,IAAI,GAAG,EAAmB,CAAC;IAC3C,KAAK,MAAM,CAAC,IAAI,QAAQ,CAAC,KAAK,EAAE,CAAC;QAC/B,KAAK,MAAM,CAAC,IAAI,CAAC,CAAC,UAAU,EAAE,CAAC;YAC7B,OAAO,CAAC,GAAG,CAAC,GAAG,CAAC,CAAC,OAAO,IAAI,CAAC,CAAC,EAAE,EAAE,EAAE,CAAC,CAAC,IAAI,CAAC,CAAC;QAC9C,CAAC;IACH,CAAC;IAED,KAAK,MAAM,CAAC,IAAI,OAAO,CAAC,KAAK,EAAE,CAAC;QAC9B,KAAK,MAAM,CAAC,IAAI,CAAC,CAAC,UAAU,EAAE,CAAC;YAC7B,MAAM,GAAG,GAAG,GAAG,CAAC,CAAC,OAAO,IAAI,CAAC,CAAC,EAAE,EAAE,CAAC;YACnC,MAAM,IAAI,GAAG,OAAO,CAAC,GAAG,CAAC,GAAG,CAAC,CAAC;YAC9B,IAAI,IAAI,KAAK,SAAS;gBAAE,SAAS,CAAC,sBAAsB;YAExD,IAAI,IAAI,IAAI,CAAC,CAAC,CAAC,IAAI,EAAE,CAAC;gBACpB,WAAW,CAAC,IAAI,CAAC;oBACf,WAAW,EAAE,CAAC,CAAC,EAAE;oBACjB,MAAM,EAAE,CAAC,CAAC,OAAO;oBACjB,QAAQ,EAAE,CAAC,CAAC,SAAS;oBACrB,cAAc,EAAE,IAAI;oBACpB,aAAa,EAAE,KAAK;oBACpB,MAAM,EAAE,YAAY;iBACrB,CAAC,CAAC;YACL,CAAC;iBAAM,IAAI,CAAC,IAAI,IAAI,CAAC,CAAC,IAAI,EAAE,CAAC;gBAC3B,WAAW,CAAC,IAAI,CAAC;oBACf,WAAW,EAAE,CAAC,CAAC,EAAE;oBACjB,MAAM,EAAE,CAAC,CAAC,OAAO;oBACjB,QAAQ,EAAE,CAAC,CAAC,SAAS;oBACrB,cAAc,EAAE,KAAK;oBACrB,aAAa,EAAE,IAAI;oBACnB,MAAM,EAAE,aAAa;iBACtB,CAAC,CAAC;YACL,CAAC;QACH,CAAC;IACH,CAAC;IAED,OAAO,WAAW,CAAC;AACrB,CAAC"}
1	+ {"version":3,"file":"benchmark-history.js","sourceRoot":"","sources":["../../src/eval/benchmark-history.ts"],"names":[],"mappings":"AAAA,8EAA8E;AAC9E,gFAAgF;AAChF,8EAA8E;AAE9E,OAAO,EAAE,OAAO,EAAE,QAAQ,EAAE,KAAK,EAAE,SAAS,EAAE,MAAM,EAAE,MAAM,kBAAkB,CAAC;AAC/E,OAAO,EAAE,IAAI,EAAE,MAAM,WAAW,CAAC;AAEjC,OAAO,EAAE,cAAc,EAAE,MAAM,gBAAgB,CAAC;AA6ChD,SAAS,mBAAmB,CAAC,GAAW;IACtC,OAAO,GAAG,CAAC,OAAO,CAAC,IAAI,EAAE,GAAG,CAAC,CAAC;AAChC,CAAC;AAED,SAAS,qBAAqB,CAAC,QAAgB;IAC7C,0CAA0C;IAC1C,MAAM,EAAE,GAAG,QAAQ,CAAC,OAAO,CAAC,SAAS,EAAE,EAAE,CAAC,CAAC;IAC3C,yDAAyD;IACzD,OAAO,EAAE,CAAC,OAAO,CAAC,0BAA0B,EAAE,WAAW,CAAC,CAAC;AAC7D,CAAC;AAED,MAAM,CAAC,KAAK,UAAU,iBAAiB,CACrC,QAAgB,EAChB,MAA4E;IAE5E,MAAM,UAAU,GAAG,IAAI,CAAC,QAAQ,EAAE,OAAO,EAAE,SAAS,CAAC,CAAC;IACtD,MAAM,KAAK,CAAC,UAAU,EAAE,EAAE,SAAS,EAAE,IAAI,EAAE,CAAC,CAAC;IAE7C,MAAM,SAAS,GAAG,MAAM,CAAC,SAAS,IAAI,IAAI,IAAI,EAAE,CAAC,WAAW,EAAE,CAAC;IAC/D,MAAM,QAAQ,GAAG,GAAG,mBAAmB,CAAC,SAAS,CAAC,OAAO,CAAC;IAC1D,MAAM,QAAQ,GAAG,IAAI,CAAC,UAAU,EAAE,QAAQ,CAAC,CAAC;IAE5C,MAAM,SAAS,CAAC,QAAQ,EAAE,IAAI,CAAC,SAAS,CAAC,MAAM,EAAE,IAAI,EAAE,CAAC,CAAC,CAAC,CAAC;IAE3D,uDAAuD;IACvD,MAAM,cAAc,CAAC,QAAQ,EAAE,MAAM,CAAC,CAAC;IAEvC,OAAO,QAAQ,CAAC;AAClB,CAAC;AAED,MAAM,CAAC,KAAK,UAAU,kBAAkB,CACtC,QAAgB,EAChB,SAAiB;IAEjB,MAAM,UAAU,GAAG,IAAI,CAAC,QAAQ,EAAE,OAAO,EAAE,SAAS,CAAC,CAAC;IACtD,MAAM,QAAQ,GAAG,GAAG,mBAAmB,CAAC,SAAS,CAAC,OAAO,CAAC;IAC1D,IAAI,CAAC;QACH,MAAM,MAAM,CAAC,IAAI,CAAC,UAAU,EAAE,QAAQ,CAAC,CAAC,CAAC;QACzC,OAAO,IAAI,CAAC;IACd,CAAC;IAAC,MAAM,CAAC;QACP,OAAO,KAAK,CAAC;IACf,CAAC;AACH,CAAC;AAED,MAAM,CAAC,KAAK,UAAU,WAAW,CAC/B,QAAgB,EAChB,MAAsB;IAEtB,MAAM,UAAU,GAAG,IAAI,CAAC,QAAQ,EAAE,OAAO,EAAE,SAAS,CAAC,CAAC;IACtD,IAAI,KAAe,CAAC;IACpB,IAAI,CAAC;QACH,KAAK,GAAG,MAAM,OAAO,CAAC,UAAU,CAAC,CAAC;IACpC,CAAC;IAAC,MAAM,CAAC;QACP,OAAO,EAAE,CAAC;IACZ,CAAC;IAED,IAAI,SAAS,GAAG,KAAK,CAAC,MAAM,CAAC,CAAC,CAAC,EAAE,EAAE,CAAC,CAAC,CAAC,QAAQ,CAAC,OAAO,CAAC,CAAC,CAAC,IAAI,EAAE,CAAC,OAAO,EAAE,CAAC;IAE1E,2EAA2E;IAC3E,IAAI,MAAM,EAAE,IAAI,IAAI,MAAM,EAAE,EAAE,EAAE,CAAC;QAC/B,MAAM,QAAQ,GAAG,MAAM,CAAC,IAAI,CAAC,CAAC,CAAC,mBAAmB,CAAC,MAAM,CAAC,IAAI,CAAC,CAAC,CAAC,CAAC,SAAS,CAAC;QAC5E,MAAM,MAAM,GAAG,MAAM,CAAC,EAAE,CAAC,CAAC,CAAC,mBAAmB,CAAC,MAAM,CAAC,EAAE,CAAC,CAAC,CAAC,CAAC,SAAS,CAAC;QACtE,SAAS,GAAG,SAAS,CAAC,MAAM,CAAC,CAAC,CAAC,EAAE,EAAE;YACjC,MAAM,EAAE,GAAG,CAAC,CAAC,OAAO,CAAC,SAAS,EAAE,EAAE,CAAC,CAAC;YACpC,IAAI,QAAQ,IAAI,EAAE,GAAG,QAAQ;gBAAE,OAAO,KAAK,CAAC;YAC5C,IAAI,MAAM,IAAI,EAAE,GAAG,MAAM;gBAAE,OAAO,KAAK,CAAC;YACxC,OAAO,IAAI,CAAC;QACd,CAAC,CAAC,CAAC;IACL,CAAC;IAED,MAAM,OAAO,GAAqB,EAAE,CAAC;IACrC,KAAK,MAAM,IAAI,IAAI,SAAS,EAAE,CAAC;QAC7B,IAAI,CAAC;YACH,MAAM,OAAO,GAAG,MAAM,QAAQ,CAAC,IAAI,CAAC,UAAU,EAAE,IAAI,CAAC,EAAE,OAAO,CAAC,CAAC;YAChE,MAAM,IAAI,GAAG,IAAI,CAAC,KAAK,CAAC,OAAO,CAAwC,CAAC;YAExE,MAAM,SAAS,GAAI,IAAI,CAAC,IAA+B,IAAI,WAAW,CAAC;YAEvE,gCAAgC;YAChC,IAAI,MAAM,EAAE,KAAK,IAAI,IAAI,CAAC,KAAK,KAAK,MAAM,CAAC,KAAK;gBAAE,SAAS;YAC3D,IAAI,MAAM,EAAE,IAAI,IAAI,SAAS,KAAK,MAAM,CAAC,IAAI;gBAAE,SAAS;YAExD,MAAM,eAAe,GAAG,IAAI,CAAC,KAAK,CAAC,MAAM,CAAC,CAAC,GAAG,EAAE,CAAC,EAAE,EAAE,CAAC,GAAG,GAAG,CAAC,CAAC,UAAU,CAAC,MAAM,EAAE,CAAC,CAAC,CAAC;YACpF,MAAM,gBAAgB,GAAG,IAAI,CAAC,KAAK,CAAC,MAAM,CACxC,CAAC,GAAG,EAAE,CAAC,EAAE,EAAE,CAAC,GAAG,GAAG,CAAC,CAAC,UAAU,CAAC,MAAM,CAAC,CAAC,CAAC,EAAE,EAAE,CAAC,CAAC,CAAC,IAAI,CAAC,CAAC,MAAM,EAC3D,CAAC,CACF,CAAC;YACF,MAAM,eAAe,GAAG,IAAI,CAAC,KAAK,CAAC,MAAM,CAAC,CAAC,CAAC,EAAE,CAAC,EAAE,EAAE,CAAC,CAAC,GAAG,CAAC,CAAC,CAAC,UAAU,IAAI,CAAC,CAAC,EAAE,CAAC,CAAC,CAAC;YAChF,MAAM,SAAS,GAAG,IAAI,CAAC,KAAK,CAAC,IAAI,CAAC,CAAC,CAAC,EAAE,EAAE,CAAC,CAAC,CAAC,MAAM,IAAI,IAAI,CAAC,CAAC;YAC3D,MAAM,WAAW,GAAG,SAAS;gBAC3B,CAAC,CAAC,IAAI,CAAC,KAAK,CAAC,MAAM,CAAC,CAAC,CAAC,EAAE,CAAC,EAAE,EAAE,CAAC,CAAC,GAAG,CAAC,CAAC,CAAC,MAAM,IAAI,CAAC,CAAC,EAAE,CAAC,CAAC;gBACrD,CAAC,CAAC,IAAI,CAAC;YAET,OAAO,CAAC,IAAI,CAAC;gBACX,SAAS,EAAE,qBAAqB,CAAC,IAAI,CAAC;gBACtC,QAAQ,EAAE,IAAI;gBACd,KAAK,EAAE,IAAI,CAAC,KAAK;gBACjB,SAAS,EAAE,IAAI,CAAC,UAAU;gBAC1B,QAAQ,EAAE,eAAe,GAAG,CAAC,CAAC,CAAC,CAAC,gBAAgB,GAAG,eAAe,CAAC,CAAC,CAAC,CAAC;gBACtE,IAAI,EAAE,SAAS;gBACf,SAAS,EAAE,IAAI,CAAC,KAAK,CAAC,MAAM;gBAC5B,eAAe;gBACf,WAAW;gBACX,QAAQ,EAAE,IAAI,CAAC,QAAQ;gBACvB,OAAO,EAAE,IAAI,CAAC,OAAO;aACtB,CAAC,CAAC;QACL,CAAC;QAAC,MAAM,CAAC;YACP,uBAAuB;QACzB,CAAC;IACH,CAAC;IACD,OAAO,OAAO,CAAC;AACjB,CAAC;AAED,MAAM,CAAC,KAAK,UAAU,gBAAgB,CACpC,QAAgB,EAChB,SAAiB;IAEjB,MAAM,UAAU,GAAG,IAAI,CAAC,QAAQ,EAAE,OAAO,EAAE,SAAS,CAAC,CAAC;IACtD,MAAM,QAAQ,GAAG,GAAG,mBAAmB,CAAC,SAAS,CAAC,OAAO,CAAC;IAC1D,IAAI,CAAC;QACH,MAAM,OAAO,GAAG,MAAM,QAAQ,CAAC,IAAI,CAAC,UAAU,EAAE,QAAQ,CAAC,EAAE,OAAO,CAAC,CAAC;QACpE,OAAO,IAAI,CAAC,KAAK,CAAC,OAAO,CAAoB,CAAC;IAChD,CAAC;IAAC,MAAM,CAAC;QACP,OAAO,IAAI,CAAC;IACd,CAAC;AACH,CAAC;AAED,MAAM,CAAC,KAAK,UAAU,cAAc,CAClC,QAAgB,EAChB,MAAc,EACd,MAA2B;IAE3B,MAAM,UAAU,GAAG,IAAI,CAAC,QAAQ,EAAE,OAAO,EAAE,SAAS,CAAC,CAAC;IACtD,IAAI,KAAe,CAAC;IACpB,IAAI,CAAC;QACH,KAAK,GAAG,MAAM,OAAO,CAAC,UAAU,CAAC,CAAC;IACpC,CAAC;IAAC,MAAM,CAAC;QACP,OAAO,EAAE,CAAC;IACZ,CAAC;IAED,MAAM,OAAO,GAAuB,EAAE,CAAC;IACvC,KAAK,MAAM,IAAI,IAAI,KAAK,CAAC,MAAM,CAAC,CAAC,CAAC,EAAE,EAAE,CAAC,CAAC,CAAC,QAAQ,CAAC,OAAO,CAAC,CAAC,CAAC,IAAI,EAAE,CAAC,OAAO,EAAE,EAAE,CAAC;QAC7E,IAAI,CAAC;YACH,MAAM,OAAO,GAAG,MAAM,QAAQ,CAAC,IAAI,CAAC,UAAU,EAAE,IAAI,CAAC,EAAE,OAAO,CAAC,CAAC;YAChE,MAAM,IAAI,GAAG,IAAI,CAAC,KAAK,CAAC,OAAO,CAAwC,CAAC;YAExE,IAAI,MAAM,EAAE,KAAK,IAAI,IAAI,CAAC,KAAK,KAAK,MAAM,CAAC,KAAK;gBAAE,SAAS;YAE3D,MAAM,YAAY,GAAG,IAAI,CAAC,KAAK,CAAC,IAAI,CAAC,CAAC,CAAC,EAAE,EAAE,CAAC,CAAC,CAAC,OAAO,KAAK,MAAM,CAAC,CAAC;YAClE,IAAI,CAAC,YAAY;gBAAE,SAAS;YAE5B,OAAO,CAAC,IAAI,CAAC;gBACX,SAAS,EAAE,qBAAqB,CAAC,IAAI,CAAC;gBACtC,KAAK,EAAE,IAAI,CAAC,KAAK;gBACjB,IAAI,EAAG,IAAI,CAAC,IAAiC,IAAI,WAAW;gBAC5D,QAAQ,EAAE,IAAI,CAAC,QAAQ;gBACvB,SAAS,EAAE,YAAY,CAAC,SAAS;gBACjC,UAAU,EAAE,YAAY,CAAC,UAAU;gBACnC,MAAM,EAAE,YAAY,CAAC,MAAM;gBAC3B,WAAW,EAAE,YAAY,CAAC,WAAW;gBACrC,YAAY,EAAE,YAAY,CAAC,YAAY;gBACvC,UAAU,EAAE,YAAY,CAAC,UAAU;aACpC,CAAC,CAAC;QACL,CAAC;QAAC,MAAM,CAAC;YACP,uBAAuB;QACzB,CAAC;IACH,CAAC;IACD,OAAO,OAAO,CAAC;AACjB,CAAC;AAED,MAAM,UAAU,kBAAkB,CAChC,OAAwB,EACxB,QAAyB;IAEzB,MAAM,WAAW,GAAsB,EAAE,CAAC;IAE1C,sEAAsE;IACtE,MAAM,OAAO,GAAG,IAAI,GAAG,EAAmB,CAAC;IAC3C,KAAK,MAAM,CAAC,IAAI,QAAQ,CAAC,KAAK,EAAE,CAAC;QAC/B,KAAK,MAAM,CAAC,IAAI,CAAC,CAAC,UAAU,EAAE,CAAC;YAC7B,OAAO,CAAC,GAAG,CAAC,GAAG,CAAC,CAAC,OAAO,IAAI,CAAC,CAAC,EAAE,EAAE,EAAE,CAAC,CAAC,IAAI,CAAC,CAAC;QAC9C,CAAC;IACH,CAAC;IAED,KAAK,MAAM,CAAC,IAAI,OAAO,CAAC,KAAK,EAAE,CAAC;QAC9B,KAAK,MAAM,CAAC,IAAI,CAAC,CAAC,UAAU,EAAE,CAAC;YAC7B,MAAM,GAAG,GAAG,GAAG,CAAC,CAAC,OAAO,IAAI,CAAC,CAAC,EAAE,EAAE,CAAC;YACnC,MAAM,IAAI,GAAG,OAAO,CAAC,GAAG,CAAC,GAAG,CAAC,CAAC;YAC9B,IAAI,IAAI,KAAK,SAAS;gBAAE,SAAS,CAAC,sBAAsB;YAExD,IAAI,IAAI,IAAI,CAAC,CAAC,CAAC,IAAI,EAAE,CAAC;gBACpB,WAAW,CAAC,IAAI,CAAC;oBACf,WAAW,EAAE,CAAC,CAAC,EAAE;oBACjB,MAAM,EAAE,CAAC,CAAC,OAAO;oBACjB,QAAQ,EAAE,CAAC,CAAC,SAAS;oBACrB,cAAc,EAAE,IAAI;oBACpB,aAAa,EAAE,KAAK;oBACpB,MAAM,EAAE,YAAY;iBACrB,CAAC,CAAC;YACL,CAAC;iBAAM,IAAI,CAAC,IAAI,IAAI,CAAC,CAAC,IAAI,EAAE,CAAC;gBAC3B,WAAW,CAAC,IAAI,CAAC;oBACf,WAAW,EAAE,CAAC,CAAC,EAAE;oBACjB,MAAM,EAAE,CAAC,CAAC,OAAO;oBACjB,QAAQ,EAAE,CAAC,CAAC,SAAS;oBACrB,cAAc,EAAE,KAAK;oBACrB,aAAa,EAAE,IAAI;oBACnB,MAAM,EAAE,aAAa;iBACtB,CAAC,CAAC;YACL,CAAC;QACH,CAAC;IACH,CAAC;IAED,OAAO,WAAW,CAAC;AACrB,CAAC"}

package/dist/eval/benchmark.d.ts CHANGED Viewed

@@ -4,6 +4,21 @@ export interface BenchmarkAssertionResult {
     pass: boolean;
     reasoning: string;
 }
+export interface ComparisonCaseDetail {
+    skillDurationMs: number;
+    skillTokens: number | null;
+    skillInputTokens?: number | null;
+    skillOutputTokens?: number | null;
+    baselineDurationMs: number;
+    baselineTokens: number | null;
+    baselineInputTokens?: number | null;
+    baselineOutputTokens?: number | null;
+    skillContentScore: number;
+    skillStructureScore: number;
+    baselineContentScore: number;
+    baselineStructureScore: number;
+    winner: "skill" | "baseline" | "tie";
+}
 export interface BenchmarkCase {
     eval_id: number;
     eval_name: string;
@@ -12,7 +27,11 @@ export interface BenchmarkCase {
     pass_rate: number;
     durationMs?: number;
     tokens?: number | null;
+    inputTokens?: number | null;
+    outputTokens?: number | null;
+    output?: string;
     assertions: BenchmarkAssertionResult[];
+    comparisonDetail?: ComparisonCaseDetail;
 }
 export interface BenchmarkResult {
     timestamp: string;
@@ -20,6 +39,19 @@ export interface BenchmarkResult {
     skill_name: string;
     cases: BenchmarkCase[];
     overall_pass_rate?: number;
+    type?: "benchmark" | "comparison" | "baseline";
+    provider?: string;
+    totalDurationMs?: number;
+    totalInputTokens?: number | null;
+    totalOutputTokens?: number | null;
+    verdict?: string;
+    comparison?: {
+        skillPassRate: number;
+        baselinePassRate: number;
+        skillRubricAvg: number;
+        baselineRubricAvg: number;
+        delta: number;
+    };
 }
 export declare function writeBenchmark(skillDir: string, result: BenchmarkResult): Promise<void>;
 export declare function readBenchmark(skillDir: string): Promise<BenchmarkResult | null>;

package/dist/eval/benchmark.js.map CHANGED Viewed

	@@ -1 +1 @@
1	- {"version":3,"file":"benchmark.js","sourceRoot":"","sources":["../../src/eval/benchmark.ts"],"names":[],"mappings":"AAAA,8EAA8E;AAC9E,4BAA4B;AAC5B,8EAA8E;AAE9E,OAAO,EAAE,aAAa,EAAE,YAAY,EAAE,UAAU,EAAE,SAAS,EAAE,MAAM,SAAS,CAAC;AAC7E,OAAO,EAAE,IAAI,EAAE,MAAM,WAAW,CAAC;~~AA4BjC~~,MAAM,CAAC,KAAK,UAAU,cAAc,CAClC,QAAgB,EAChB,MAAuB;IAEvB,MAAM,QAAQ,GAAG,IAAI,CAAC,QAAQ,EAAE,OAAO,CAAC,CAAC;IACzC,SAAS,CAAC,QAAQ,EAAE,EAAE,SAAS,EAAE,IAAI,EAAE,CAAC,CAAC;IACzC,MAAM,QAAQ,GAAG,IAAI,CAAC,QAAQ,EAAE,gBAAgB,CAAC,CAAC;IAClD,aAAa,CAAC,QAAQ,EAAE,IAAI,CAAC,SAAS,CAAC,MAAM,EAAE,IAAI,EAAE,CAAC,CAAC,EAAE,OAAO,CAAC,CAAC;AACpE,CAAC;AAED,MAAM,CAAC,KAAK,UAAU,aAAa,CACjC,QAAgB;IAEhB,MAAM,QAAQ,GAAG,IAAI,CAAC,QAAQ,EAAE,OAAO,EAAE,gBAAgB,CAAC,CAAC;IAC3D,IAAI,CAAC,UAAU,CAAC,QAAQ,CAAC;QAAE,OAAO,IAAI,CAAC;IAEvC,IAAI,CAAC;QACH,MAAM,GAAG,GAAG,YAAY,CAAC,QAAQ,EAAE,OAAO,CAAC,CAAC;QAC5C,OAAO,IAAI,CAAC,KAAK,CAAC,GAAG,CAAoB,CAAC;IAC5C,CAAC;IAAC,MAAM,CAAC;QACP,OAAO,IAAI,CAAC;IACd,CAAC;AACH,CAAC"}
1	+ {"version":3,"file":"benchmark.js","sourceRoot":"","sources":["../../src/eval/benchmark.ts"],"names":[],"mappings":"AAAA,8EAA8E;AAC9E,4BAA4B;AAC5B,8EAA8E;AAE9E,OAAO,EAAE,aAAa,EAAE,YAAY,EAAE,UAAU,EAAE,SAAS,EAAE,MAAM,SAAS,CAAC;AAC7E,OAAO,EAAE,IAAI,EAAE,MAAM,WAAW,CAAC;AA6DjC,MAAM,CAAC,KAAK,UAAU,cAAc,CAClC,QAAgB,EAChB,MAAuB;IAEvB,MAAM,QAAQ,GAAG,IAAI,CAAC,QAAQ,EAAE,OAAO,CAAC,CAAC;IACzC,SAAS,CAAC,QAAQ,EAAE,EAAE,SAAS,EAAE,IAAI,EAAE,CAAC,CAAC;IACzC,MAAM,QAAQ,GAAG,IAAI,CAAC,QAAQ,EAAE,gBAAgB,CAAC,CAAC;IAClD,aAAa,CAAC,QAAQ,EAAE,IAAI,CAAC,SAAS,CAAC,MAAM,EAAE,IAAI,EAAE,CAAC,CAAC,EAAE,OAAO,CAAC,CAAC;AACpE,CAAC;AAED,MAAM,CAAC,KAAK,UAAU,aAAa,CACjC,QAAgB;IAEhB,MAAM,QAAQ,GAAG,IAAI,CAAC,QAAQ,EAAE,OAAO,EAAE,gBAAgB,CAAC,CAAC;IAC3D,IAAI,CAAC,UAAU,CAAC,QAAQ,CAAC;QAAE,OAAO,IAAI,CAAC;IAEvC,IAAI,CAAC;QACH,MAAM,GAAG,GAAG,YAAY,CAAC,QAAQ,EAAE,OAAO,CAAC,CAAC;QAC5C,OAAO,IAAI,CAAC,KAAK,CAAC,GAAG,CAAoB,CAAC;IAC5C,CAAC;IAAC,MAAM,CAAC;QACP,OAAO,IAAI,CAAC;IACd,CAAC;AACH,CAAC"}

package/dist/eval-server/api-routes.js CHANGED Viewed

@@ -5,14 +5,16 @@ import { readFileSync, writeFileSync, mkdirSync, existsSync } from "node:fs";
 import { join } from "node:path";
 import { sendJson, readBody } from "./router.js";
 import { initSSE, sendSSE, sendSSEDone } from "./sse-helpers.js";
+import { runBenchmarkSSE } from "./benchmark-runner.js";
 import { scanSkills } from "../eval/skill-scanner.js";
 import { loadAndValidateEvals, EvalValidationError } from "../eval/schema.js";
 import { readBenchmark } from "../eval/benchmark.js";
-import { writeHistoryEntry, listHistory, readHistoryEntry } from "../eval/benchmark-history.js";
+import { writeHistoryEntry, listHistory, readHistoryEntry, computeRegressions, deleteHistoryEntry, getCaseHistory } from "../eval/benchmark-history.js";
 import { judgeAssertion } from "../eval/judge.js";
 import { createLlmClient } from "../eval/llm.js";
 import { runComparison } from "../eval/comparator.js";
 import { computeVerdict } from "../eval/verdict.js";
+import { buildEvalInitPrompt, parseGeneratedEvals } from "../eval/prompt-builder.js";
 import { testActivation } from "../eval/activation-tester.js";
 function resolveSkillDir(root, plugin, skill) {
     // Try direct layout: {root}/{plugin}/skills/{skill}/
@@ -227,12 +229,31 @@ export function registerRoutes(router, root, projectName) {
         writeFileSync(filePath, JSON.stringify(body, null, 2), "utf-8");
         sendJson(res, body, 200, req);
     });
+    // Generate evals using AI — reads SKILL.md and returns generated EvalsFile
+    router.post("/api/skills/:plugin/:skill/generate-evals", async (req, res, params) => {
+        const skillDir = resolveSkillDir(root, params.plugin, params.skill);
+        const skillMdPath = join(skillDir, "SKILL.md");
+        if (!existsSync(skillMdPath)) {
+            sendJson(res, { error: "SKILL.md not found — cannot generate evals without skill content" }, 400, req);
+            return;
+        }
+        try {
+            const skillContent = readFileSync(skillMdPath, "utf-8");
+            const prompt = buildEvalInitPrompt(skillContent);
+            const client = getClient();
+            const genResult = await client.generate("You generate eval test cases for AI skills. Output only valid JSON in a code fence.", prompt);
+            const evalsFile = parseGeneratedEvals(genResult.text);
+            sendJson(res, evalsFile, 200, req);
+        }
+        catch (err) {
+            sendJson(res, { error: `Eval generation failed: ${err.message}` }, 500, req);
+        }
+    });
     // Run benchmark (SSE) — optionally accepts { eval_ids: number[] } to run specific cases
     router.post("/api/skills/:plugin/:skill/benchmark", async (req, res, params) => {
         const skillDir = resolveSkillDir(root, params.plugin, params.skill);
         let aborted = false;
         res.on("close", () => { aborted = true; });
-        // Read body before switching to SSE mode
         const body = await readBody(req).catch(() => ({}));
         const filterIds = Array.isArray(body?.eval_ids) ? new Set(body.eval_ids) : null;
         initSSE(res, req);
@@ -244,101 +265,34 @@ export function registerRoutes(router, root, projectName) {
             const systemPrompt = skillContent
                 ? `You are an AI assistant enhanced with the following skill:\n\n${skillContent}`
                 : "You are a helpful AI assistant.";
-            // Filter to specific eval cases if requested
-            const evalCases = filterIds
-                ? evals.evals.filter((e) => filterIds.has(e.id))
-                : evals.evals;
-            const cases = [];
-            for (const evalCase of evalCases) {
-                if (aborted)
-                    break;
-                sendSSE(res, "case_start", {
-                    eval_id: evalCase.id,
-                    eval_name: evalCase.name,
-                    total: evalCases.length,
-                });
-                try {
-                    const genResult = await client.generate(systemPrompt, evalCase.prompt);
-                    const totalTokens = genResult.inputTokens != null && genResult.outputTokens != null
-                        ? genResult.inputTokens + genResult.outputTokens
-                        : null;
-                    // Stream the actual LLM output so the UI can display it as proof
-                    sendSSE(res, "output_ready", {
-                        eval_id: evalCase.id,
-                        output: genResult.text,
-                        durationMs: genResult.durationMs,
-                        tokens: totalTokens,
-                    });
-                    const assertionResults = [];
-                    for (const assertion of evalCase.assertions) {
-                        if (aborted)
-                            break;
-                        const result = await judgeAssertion(genResult.text, assertion, client);
-                        assertionResults.push(result);
-                        sendSSE(res, "assertion_result", {
-                            eval_id: evalCase.id,
-                            assertion_id: result.id,
-                            text: result.text,
-                            pass: result.pass,
-                            reasoning: result.reasoning,
-                        });
-                    }
-                    const passRate = assertionResults.length > 0
-                        ? assertionResults.filter((a) => a.pass).length / assertionResults.length
-                        : 0;
-                    const status = assertionResults.every((a) => a.pass) ? "pass" : "fail";
-                    const benchCase = {
-                        eval_id: evalCase.id,
-                        eval_name: evalCase.name,
-                        status: status,
-                        error_message: null,
-                        pass_rate: passRate,
-                        durationMs: genResult.durationMs,
-                        tokens: totalTokens,
-                        assertions: assertionResults,
-                    };
-                    cases.push(benchCase);
-                    sendSSE(res, "case_complete", {
-                        eval_id: evalCase.id,
-                        status,
-                        pass_rate: passRate,
-                        durationMs: genResult.durationMs,
-                        tokens: totalTokens,
-                    });
-                }
-                catch (err) {
-                    const errorMsg = err instanceof Error ? err.message : String(err);
-                    cases.push({
-                        eval_id: evalCase.id,
-                        eval_name: evalCase.name,
-                        status: "error",
-                        error_message: errorMsg,
-                        pass_rate: 0,
-                        assertions: [],
-                    });
-                    sendSSE(res, "case_complete", {
-                        eval_id: evalCase.id,
-                        status: "error",
-                        error_message: errorMsg,
-                    });
-                }
-            }
-            const totalAssertions = cases.reduce((s, c) => s + c.assertions.length, 0);
-            const passedAssertions = cases.reduce((s, c) => s + c.assertions.filter((a) => a.pass).length, 0);
-            const result = {
-                timestamp: new Date().toISOString(),
-                model: client.model,
-                skill_name: evals.skill_name,
-                cases,
-                overall_pass_rate: totalAssertions > 0 ? passedAssertions / totalAssertions : 0,
-            };
-            if (!aborted) {
-                // Only save to history for full benchmark runs (not single-case)
-                if (!filterIds) {
-                    await writeHistoryEntry(skillDir, result);
-                }
-                sendSSEDone(res, result);
-            }
+            await runBenchmarkSSE({
+                res, skillDir, skillName: evals.skill_name, systemPrompt,
+                runType: "benchmark", provider: currentOverrides.provider || "claude-cli",
+                evalCases: evals.evals, filterIds, client, isAborted: () => aborted,
+            });
+        }
+        catch (err) {
+            const errorMsg = err instanceof Error ? err.message : String(err);
+            sendSSEDone(res, { error: errorMsg });
+        }
+    });
+    // Run baseline (SSE) — same as benchmark but without skill content
+    router.post("/api/skills/:plugin/:skill/baseline", async (req, res, params) => {
+        const skillDir = resolveSkillDir(root, params.plugin, params.skill);
+        let aborted = false;
+        res.on("close", () => { aborted = true; });
+        const body = await readBody(req).catch(() => ({}));
+        const filterIds = Array.isArray(body?.eval_ids) ? new Set(body.eval_ids) : null;
+        initSSE(res, req);
+        try {
+            const evals = loadAndValidateEvals(skillDir);
+            const client = getClient();
+            await runBenchmarkSSE({
+                res, skillDir, skillName: evals.skill_name,
+                systemPrompt: "You are a helpful AI assistant.",
+                runType: "baseline", provider: currentOverrides.provider || "claude-cli",
+                evalCases: evals.evals, filterIds, client, isAborted: () => aborted,
+            });
         }
         catch (err) {
             const errorMsg = err instanceof Error ? err.message : String(err);
@@ -435,7 +389,20 @@ export function registerRoutes(router, root, projectName) {
                     pass_rate: r.assertionResults.length > 0
                         ? r.assertionResults.filter((a) => a.pass).length / r.assertionResults.length
                         : 0,
+                    durationMs: r.comparison.skillDurationMs,
+                    tokens: r.comparison.skillTokens,
                     assertions: r.assertionResults,
+                    comparisonDetail: {
+                        skillDurationMs: r.comparison.skillDurationMs,
+                        skillTokens: r.comparison.skillTokens,
+                        baselineDurationMs: r.comparison.baselineDurationMs,
+                        baselineTokens: r.comparison.baselineTokens,
+                        skillContentScore: r.comparison.skillContentScore,
+                        skillStructureScore: r.comparison.skillStructureScore,
+                        baselineContentScore: r.comparison.baselineContentScore,
+                        baselineStructureScore: r.comparison.baselineStructureScore,
+                        winner: r.comparison.winner,
+                    },
                 }));
                 const historyResult = {
                     timestamp: new Date().toISOString(),
@@ -444,6 +411,7 @@ export function registerRoutes(router, root, projectName) {
                     cases,
                     overall_pass_rate: passRate,
                     type: "comparison",
+                    provider: currentOverrides.provider || "claude-cli",
                     verdict,
                     comparison: {
                         skillPassRate: passRate,
@@ -461,12 +429,100 @@ export function registerRoutes(router, root, projectName) {
             sendSSEDone(res, { error: err instanceof Error ? err.message : String(err) });
         }
     });
-    // List benchmark history
+    // List benchmark history (with optional filters)
     router.get("/api/skills/:plugin/:skill/history", async (req, res, params) => {
         const skillDir = resolveSkillDir(root, params.plugin, params.skill);
-        const history = await listHistory(skillDir);
+        const url = new URL(req.url, `http://localhost`);
+        const filter = {};
+        const modelParam = url.searchParams.get("model");
+        const typeParam = url.searchParams.get("type");
+        const fromParam = url.searchParams.get("from");
+        const toParam = url.searchParams.get("to");
+        if (modelParam)
+            filter.model = modelParam;
+        if (typeParam && ["benchmark", "comparison", "baseline"].includes(typeParam)) {
+            filter.type = typeParam;
+        }
+        if (fromParam)
+            filter.from = fromParam;
+        if (toParam)
+            filter.to = toParam;
+        const hasFilter = Object.keys(filter).length > 0;
+        const history = await listHistory(skillDir, hasFilter ? filter : undefined);
         sendJson(res, history, 200, req);
     });
+    // Compare two history runs
+    router.get("/api/skills/:plugin/:skill/history-compare", async (req, res, params) => {
+        const skillDir = resolveSkillDir(root, params.plugin, params.skill);
+        const url = new URL(req.url, `http://localhost`);
+        const tsA = url.searchParams.get("a");
+        const tsB = url.searchParams.get("b");
+        if (!tsA || !tsB) {
+            sendJson(res, { error: "Both 'a' and 'b' timestamps are required" }, 400, req);
+            return;
+        }
+        const [runA, runB] = await Promise.all([
+            readHistoryEntry(skillDir, tsA),
+            readHistoryEntry(skillDir, tsB),
+        ]);
+        if (!runA || !runB) {
+            sendJson(res, { error: "One or both history entries not found" }, 404, req);
+            return;
+        }
+        const regressions = computeRegressions(runB, runA);
+        // Build case diffs
+        const allEvalIds = new Set([
+            ...runA.cases.map((c) => c.eval_id),
+            ...runB.cases.map((c) => c.eval_id),
+        ]);
+        const caseDiffs = Array.from(allEvalIds).map((evalId) => {
+            const caseA = runA.cases.find((c) => c.eval_id === evalId);
+            const caseB = runB.cases.find((c) => c.eval_id === evalId);
+            return {
+                eval_id: evalId,
+                eval_name: caseA?.eval_name || caseB?.eval_name || `Eval #${evalId}`,
+                statusA: caseA?.status ?? "missing",
+                statusB: caseB?.status ?? "missing",
+                passRateA: caseA?.pass_rate ?? null,
+                passRateB: caseB?.pass_rate ?? null,
+                durationMsA: caseA?.durationMs ?? null,
+                durationMsB: caseB?.durationMs ?? null,
+                tokensA: caseA?.tokens ?? null,
+                tokensB: caseB?.tokens ?? null,
+            };
+        });
+        const totalA = runA.cases.reduce((s, c) => s + c.assertions.length, 0);
+        const passedA = runA.cases.reduce((s, c) => s + c.assertions.filter((a) => a.pass).length, 0);
+        const totalB = runB.cases.reduce((s, c) => s + c.assertions.length, 0);
+        const passedB = runB.cases.reduce((s, c) => s + c.assertions.filter((a) => a.pass).length, 0);
+        sendJson(res, {
+            runA: {
+                timestamp: runA.timestamp, model: runA.model,
+                passRate: totalA > 0 ? passedA / totalA : 0,
+                type: runA.type || "benchmark",
+            },
+            runB: {
+                timestamp: runB.timestamp, model: runB.model,
+                passRate: totalB > 0 ? passedB / totalB : 0,
+                type: runB.type || "benchmark",
+            },
+            regressions,
+            caseDiffs,
+        }, 200, req);
+    });
+    // Per-case history
+    router.get("/api/skills/:plugin/:skill/history/case/:evalId", async (req, res, params) => {
+        const skillDir = resolveSkillDir(root, params.plugin, params.skill);
+        const evalId = parseInt(params.evalId, 10);
+        if (isNaN(evalId)) {
+            sendJson(res, { error: "Invalid eval ID" }, 400, req);
+            return;
+        }
+        const url = new URL(req.url, `http://localhost`);
+        const modelParam = url.searchParams.get("model") || undefined;
+        const entries = await getCaseHistory(skillDir, evalId, modelParam ? { model: modelParam } : undefined);
+        sendJson(res, entries, 200, req);
+    });
     // Get specific history entry
     router.get("/api/skills/:plugin/:skill/history/:timestamp", async (req, res, params) => {
         const skillDir = resolveSkillDir(root, params.plugin, params.skill);
@@ -477,6 +533,16 @@ export function registerRoutes(router, root, projectName) {
         }
         sendJson(res, entry, 200, req);
     });
+    // Delete history entry
+    router.delete("/api/skills/:plugin/:skill/history/:timestamp", async (req, res, params) => {
+        const skillDir = resolveSkillDir(root, params.plugin, params.skill);
+        const deleted = await deleteHistoryEntry(skillDir, params.timestamp);
+        if (!deleted) {
+            sendJson(res, { error: "History entry not found" }, 404, req);
+            return;
+        }
+        sendJson(res, { ok: true }, 200, req);
+    });
     // Get latest benchmark
     router.get("/api/skills/:plugin/:skill/benchmark/latest", async (req, res, params) => {
         const skillDir = resolveSkillDir(root, params.plugin, params.skill);