npm - opengstack - Versions diffs - 0.13.10 → 0.14.2 - Mend

opengstack 0.13.10 → 0.14.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (189) hide show

package/AGENTS.md +4 -4
package/CLAUDE.md +127 -110
package/README.md +10 -5
package/SKILL.md +500 -70
package/bin/opengstack.js +69 -69
package/{skills/land-and-deploy/SKILL.md → commands/autoplan.md} +7 -25
package/{skills/benchmark/SKILL.md → commands/benchmark.md} +84 -108
package/{skills/browse/SKILL.md → commands/browse.md} +60 -81
package/{skills/ship/SKILL.md → commands/canary.md} +7 -27
package/{skills/careful/SKILL.md → commands/careful.md} +2 -22
package/{skills/canary/SKILL.md → commands/codex.md} +7 -26
package/{skills/connect-chrome/SKILL.md → commands/connect-chrome.md} +7 -24
package/commands/cso.md +70 -0
package/commands/design-consultation.md +70 -0
package/commands/design-review.md +70 -0
package/commands/design-shotgun.md +70 -0
package/commands/document-release.md +70 -0
package/{skills/freeze/SKILL.md → commands/freeze.md} +3 -29
package/{skills/guard/SKILL.md → commands/guard.md} +4 -35
package/commands/investigate.md +70 -0
package/commands/land-and-deploy.md +70 -0
package/commands/office-hours.md +70 -0
package/{skills/gstack-upgrade/SKILL.md → commands/opengstack-upgrade.md} +64 -79
package/commands/plan-ceo-review.md +70 -0
package/commands/plan-design-review.md +70 -0
package/commands/plan-eng-review.md +70 -0
package/commands/qa-only.md +70 -0
package/commands/qa.md +70 -0
package/commands/retro.md +70 -0
package/commands/review.md +70 -0
package/{skills/setup-browser-cookies/SKILL.md → commands/setup-browser-cookies.md} +22 -40
package/commands/setup-deploy.md +70 -0
package/commands/ship.md +70 -0
package/commands/unfreeze.md +25 -0
package/docs/designs/CHROME_VS_CHROMIUM_EXPLORATION.md +9 -9
package/docs/designs/CONDUCTOR_CHROME_SIDEBAR_INTEGRATION.md +2 -2
package/docs/designs/CONDUCTOR_SESSION_API.md +16 -16
package/docs/designs/DESIGN_SHOTGUN.md +74 -74
package/docs/designs/DESIGN_TOOLS_V1.md +111 -111
package/docs/skills.md +483 -202
package/package.json +42 -43
package/scripts/analytics.ts +188 -0
package/scripts/dev-skill.ts +83 -0
package/scripts/discover-skills.ts +39 -0
package/scripts/eval-compare.ts +97 -0
package/scripts/eval-list.ts +117 -0
package/scripts/eval-select.ts +86 -0
package/scripts/eval-summary.ts +188 -0
package/scripts/eval-watch.ts +172 -0
package/scripts/gen-skill-docs.ts +473 -0
package/scripts/resolvers/browse.ts +129 -0
package/scripts/resolvers/codex-helpers.ts +133 -0
package/scripts/resolvers/composition.ts +48 -0
package/scripts/resolvers/confidence.ts +37 -0
package/scripts/resolvers/constants.ts +50 -0
package/scripts/resolvers/design.ts +950 -0
package/scripts/resolvers/index.ts +59 -0
package/scripts/resolvers/learnings.ts +96 -0
package/scripts/resolvers/preamble.ts +505 -0
package/scripts/resolvers/review.ts +884 -0
package/scripts/resolvers/testing.ts +573 -0
package/scripts/resolvers/types.ts +45 -0
package/scripts/resolvers/utility.ts +421 -0
package/scripts/skill-check.ts +190 -0
package/scripts/cleanup.py +0 -100
package/scripts/filter-skills.sh +0 -114
package/scripts/filter_skills.py +0 -164
package/scripts/install-skills.js +0 -60
package/skills/autoplan/SKILL.md +0 -96
package/skills/autoplan/SKILL.md.tmpl +0 -694
package/skills/benchmark/SKILL.md.tmpl +0 -222
package/skills/browse/SKILL.md.tmpl +0 -131
package/skills/browse/bin/find-browse +0 -21
package/skills/browse/bin/remote-slug +0 -14
package/skills/browse/scripts/build-node-server.sh +0 -48
package/skills/browse/src/activity.ts +0 -208
package/skills/browse/src/browser-manager.ts +0 -959
package/skills/browse/src/buffers.ts +0 -137
package/skills/browse/src/bun-polyfill.cjs +0 -109
package/skills/browse/src/cli.ts +0 -678
package/skills/browse/src/commands.ts +0 -128
package/skills/browse/src/config.ts +0 -150
package/skills/browse/src/cookie-import-browser.ts +0 -625
package/skills/browse/src/cookie-picker-routes.ts +0 -230
package/skills/browse/src/cookie-picker-ui.ts +0 -688
package/skills/browse/src/find-browse.ts +0 -61
package/skills/browse/src/meta-commands.ts +0 -550
package/skills/browse/src/platform.ts +0 -17
package/skills/browse/src/read-commands.ts +0 -358
package/skills/browse/src/server.ts +0 -1192
package/skills/browse/src/sidebar-agent.ts +0 -280
package/skills/browse/src/sidebar-utils.ts +0 -21
package/skills/browse/src/snapshot.ts +0 -407
package/skills/browse/src/url-validation.ts +0 -95
package/skills/browse/src/write-commands.ts +0 -364
package/skills/browse/test/activity.test.ts +0 -120
package/skills/browse/test/adversarial-security.test.ts +0 -32
package/skills/browse/test/browser-manager-unit.test.ts +0 -17
package/skills/browse/test/bun-polyfill.test.ts +0 -72
package/skills/browse/test/commands.test.ts +0 -2075
package/skills/browse/test/compare-board.test.ts +0 -342
package/skills/browse/test/config.test.ts +0 -316
package/skills/browse/test/cookie-import-browser.test.ts +0 -519
package/skills/browse/test/cookie-picker-routes.test.ts +0 -260
package/skills/browse/test/file-drop.test.ts +0 -271
package/skills/browse/test/find-browse.test.ts +0 -50
package/skills/browse/test/findport.test.ts +0 -191
package/skills/browse/test/fixtures/basic.html +0 -33
package/skills/browse/test/fixtures/cursor-interactive.html +0 -22
package/skills/browse/test/fixtures/dialog.html +0 -15
package/skills/browse/test/fixtures/empty.html +0 -2
package/skills/browse/test/fixtures/forms.html +0 -55
package/skills/browse/test/fixtures/iframe.html +0 -30
package/skills/browse/test/fixtures/network-idle.html +0 -30
package/skills/browse/test/fixtures/qa-eval-checkout.html +0 -108
package/skills/browse/test/fixtures/qa-eval-spa.html +0 -98
package/skills/browse/test/fixtures/qa-eval.html +0 -51
package/skills/browse/test/fixtures/responsive.html +0 -49
package/skills/browse/test/fixtures/snapshot.html +0 -55
package/skills/browse/test/fixtures/spa.html +0 -24
package/skills/browse/test/fixtures/states.html +0 -17
package/skills/browse/test/fixtures/upload.html +0 -25
package/skills/browse/test/gstack-config.test.ts +0 -138
package/skills/browse/test/gstack-update-check.test.ts +0 -514
package/skills/browse/test/handoff.test.ts +0 -235
package/skills/browse/test/path-validation.test.ts +0 -91
package/skills/browse/test/platform.test.ts +0 -37
package/skills/browse/test/server-auth.test.ts +0 -65
package/skills/browse/test/sidebar-agent-roundtrip.test.ts +0 -226
package/skills/browse/test/sidebar-agent.test.ts +0 -199
package/skills/browse/test/sidebar-integration.test.ts +0 -320
package/skills/browse/test/sidebar-unit.test.ts +0 -96
package/skills/browse/test/snapshot.test.ts +0 -467
package/skills/browse/test/state-ttl.test.ts +0 -35
package/skills/browse/test/test-server.ts +0 -57
package/skills/browse/test/url-validation.test.ts +0 -72
package/skills/browse/test/watch.test.ts +0 -129
package/skills/canary/SKILL.md.tmpl +0 -212
package/skills/careful/SKILL.md.tmpl +0 -56
package/skills/careful/bin/check-careful.sh +0 -112
package/skills/codex/SKILL.md +0 -90
package/skills/codex/SKILL.md.tmpl +0 -417
package/skills/connect-chrome/SKILL.md.tmpl +0 -195
package/skills/cso/ACKNOWLEDGEMENTS.md +0 -14
package/skills/cso/SKILL.md +0 -93
package/skills/cso/SKILL.md.tmpl +0 -606
package/skills/design-consultation/SKILL.md +0 -94
package/skills/design-consultation/SKILL.md.tmpl +0 -415
package/skills/design-review/SKILL.md +0 -94
package/skills/design-review/SKILL.md.tmpl +0 -290
package/skills/design-shotgun/SKILL.md +0 -91
package/skills/design-shotgun/SKILL.md.tmpl +0 -285
package/skills/document-release/SKILL.md +0 -91
package/skills/document-release/SKILL.md.tmpl +0 -359
package/skills/freeze/SKILL.md.tmpl +0 -77
package/skills/freeze/bin/check-freeze.sh +0 -79
package/skills/gstack-upgrade/SKILL.md.tmpl +0 -222
package/skills/guard/SKILL.md.tmpl +0 -77
package/skills/investigate/SKILL.md +0 -105
package/skills/investigate/SKILL.md.tmpl +0 -194
package/skills/land-and-deploy/SKILL.md.tmpl +0 -881
package/skills/office-hours/SKILL.md +0 -96
package/skills/office-hours/SKILL.md.tmpl +0 -645
package/skills/plan-ceo-review/SKILL.md +0 -94
package/skills/plan-ceo-review/SKILL.md.tmpl +0 -811
package/skills/plan-design-review/SKILL.md +0 -92
package/skills/plan-design-review/SKILL.md.tmpl +0 -446
package/skills/plan-eng-review/SKILL.md +0 -93
package/skills/plan-eng-review/SKILL.md.tmpl +0 -303
package/skills/qa/SKILL.md +0 -95
package/skills/qa/SKILL.md.tmpl +0 -316
package/skills/qa/references/issue-taxonomy.md +0 -85
package/skills/qa/templates/qa-report-template.md +0 -126
package/skills/qa-only/SKILL.md +0 -89
package/skills/qa-only/SKILL.md.tmpl +0 -101
package/skills/retro/SKILL.md +0 -89
package/skills/retro/SKILL.md.tmpl +0 -820
package/skills/review/SKILL.md +0 -92
package/skills/review/SKILL.md.tmpl +0 -281
package/skills/review/TODOS-format.md +0 -62
package/skills/review/checklist.md +0 -220
package/skills/review/design-checklist.md +0 -132
package/skills/review/greptile-triage.md +0 -220
package/skills/setup-browser-cookies/SKILL.md.tmpl +0 -81
package/skills/setup-deploy/SKILL.md +0 -92
package/skills/setup-deploy/SKILL.md.tmpl +0 -215
package/skills/ship/SKILL.md.tmpl +0 -636
package/skills/unfreeze/SKILL.md +0 -37
package/skills/unfreeze/SKILL.md.tmpl +0 -36

package/package.json CHANGED Viewed

@@ -1,47 +1,46 @@
 {
-  "name": "opengstack",
-  "version": "0.13.10",
-  "private": false,
-  "description": "AI Engineering Workflow - SKILL.md files that give AI agents structured roles for software development. Forked from gstack but scrubbed clean of all the YC/Garry Tan cruft and telemetry.",
-  "keywords": [
-    "ai-agents",
-    "claude",
-    "workflow",
-    "skills",
-    "agent-instructions",
-    "gstack",
-    "opengstack"
-  ],
-  "homepage": "https://github.com/Ambisphaeric/opengstack#readme",
-  "bugs": {
-    "url": "https://github.com/Ambisphaeric/opengstack/issues"
-  },
-  "repository": {
-    "type": "git",
-    "url": "git+https://github.com/Ambisphaeric/opengstack.git"
-  },
-  "license": "MIT",
-  "author": "Ambisphaeric",
-  "type": "commonjs",
-  "main": "SKILL.md",
-  "bin": {
-    "opengstack": "./bin/opengstack.js"
-  },
-  "directories": {
-    "doc": "docs"
-  },
-  "files": [
-    "SKILL.md",
-    "CLAUDE.md",
-    "AGENTS.md",
-    "README.md",
-    "skills/",
-    "scripts/",
-    "docs/",
-    "bin/"
-  ],
-  "scripts": {
-    "postinstall": "node scripts/install-skills.js",
+ "name": "opengstack",
+ "version": "0.14.2",
+ "private": false,
+ "description": "AI Engineering Workflow - Native slash commands for OpenCode. Open source AI engineering workflow. No telemetry. No tracking.",
+ "keywords": [
+ "ai-agents",
+ "claude",
+ "workflow",
+ "skills",
+ "agent-instructions",
+ "opengstack",
+ "opengstack"
+ ],
+ "homepage": "https://github.com/Ambisphaeric/opengstack#readme",
+ "bugs": {
+ "url": "https://github.com/Ambisphaeric/opengstack/issues"
+ },
+ "repository": {
+ "type": "git",
+ "url": "git+https://github.com/Ambisphaeric/OpenGStack.git"
+ },
+ "license": "MIT",
+ "author": "Ambisphaeric",
+ "type": "commonjs",
+ "main": "SKILL.md",
+ "bin": {
+ "opengstack": "./bin/opengstack.js"
+ },
+ "directories": {
+ "doc": "docs"
+ },
+ "files": [
+ "SKILL.md",
+ "CLAUDE.md",
+ "AGENTS.md",
+ "README.md",
+ "commands/",
+ "scripts/",
+ "docs/",
+ "bin/"
+ ],
+"scripts": {
     "test": "echo \"Error: no test specified\" && exit 1"
   }
 }

package/scripts/analytics.ts ADDED Viewed

@@ -0,0 +1,188 @@
+#!/usr/bin/env bun
+/**
+ * analytics — CLI for viewing opengstack skill usage statistics.
+ *
+ * - Top skills by invocation count
+ * - Per-repo skill breakdown
+ * - Safety hook fire events
+ *
+ * Usage:
+ */
+import * as fs from 'fs';
+import * as path from 'path';
+import * as os from 'os';
+export interface AnalyticsEvent {
+ skill: string;
+ ts: string;
+ repo: string;
+ event?: string;
+ pattern?: string;
+}
+const ANALYTICS_FILE = path.join(os.homedir(), '.OpenGStack', 'analytics', 'skill-usage.jsonl');
+/**
+ * Parse JSONL content into AnalyticsEvent[], skipping malformed lines.
+ */
+export function parseJSONL(content: string): AnalyticsEvent[] {
+ const events: AnalyticsEvent[] = [];
+ for (const line of content.split('\n')) {
+ const trimmed = line.trim();
+ if (!trimmed) continue;
+ try {
+ const obj = JSON.parse(trimmed);
+ if (typeof obj === 'object' && obj !== null && typeof obj.ts === 'string') {
+ events.push(obj as AnalyticsEvent);
+ }
+ } catch {
+ // skip malformed lines
+ }
+ }
+ return events;
+}
+/**
+ * Filter events by period. Supports "7d", "30d", and "all".
+ */
+export function filterByPeriod(events: AnalyticsEvent[], period: string): AnalyticsEvent[] {
+ if (period === 'all') return events;
+ const match = period.match(/^(\d+)d$/);
+ if (!match) return events;
+ const days = parseInt(match[1], 10);
+ const cutoff = new Date(Date.now() - days * 24 * 60 * 60 * 1000);
+ return events.filter(e => {
+ const d = new Date(e.ts);
+ return !isNaN(d.getTime()) && d >= cutoff;
+ });
+}
+/**
+ * Format a report string from a list of events.
+ */
+export function formatReport(events: AnalyticsEvent[], period: string = 'all'): string {
+ const skillEvents = events.filter(e => e.event !== 'hook_fire');
+ const hookEvents = events.filter(e => e.event === 'hook_fire');
+ const lines: string[] = [];
+ lines.push('opengstack skill usage analytics');
+ lines.push('\u2550'.repeat(39));
+ lines.push('');
+ const periodLabel = period === 'all' ? 'all time' : `last ${period.replace('d', ' days')}`;
+ lines.push(`Period: ${periodLabel}`);
+ // Top Skills
+ const skillCounts = new Map<string, number>();
+ for (const e of skillEvents) {
+ skillCounts.set(e.skill, (skillCounts.get(e.skill) || 0) + 1);
+ }
+ if (skillCounts.size > 0) {
+ lines.push('');
+ lines.push('Top Skills');
+ const sorted = [...skillCounts.entries()].sort((a, b) => b[1] - a[1]);
+ const maxName = Math.max(...sorted.map(([name]) => name.length + 1)); // +1 for /
+ const maxCount = Math.max(...sorted.map(([, count]) => String(count).length));
+ for (const [name, count] of sorted) {
+ const label = `/${name}`;
+ const suffix = `${count} invocation${count === 1 ? '' : 's'}`;
+ const dotLen = Math.max(2, 25 - label.length - suffix.length);
+ const dots = ' ' + '.'.repeat(dotLen) + ' ';
+ lines.push(` ${label}${dots}${suffix}`);
+ }
+ }
+ // By Repo
+ const repoSkills = new Map<string, Map<string, number>>();
+ for (const e of skillEvents) {
+ if (!repoSkills.has(e.repo)) repoSkills.set(e.repo, new Map());
+ const m = repoSkills.get(e.repo)!;
+ m.set(e.skill, (m.get(e.skill) || 0) + 1);
+ }
+ if (repoSkills.size > 0) {
+ lines.push('');
+ lines.push('By Repo');
+ const sortedRepos = [...repoSkills.entries()].sort((a, b) => a[0].localeCompare(b[0]));
+ for (const [repo, skills] of sortedRepos) {
+ const parts = [...skills.entries()]
+ .sort((a, b) => b[1] - a[1])
+ .map(([s, c]) => `${s}(${c})`);
+ lines.push(` ${repo}: ${parts.join(' ')}`);
+ }
+ }
+ // Safety Hook Events
+ const hookCounts = new Map<string, number>();
+ for (const e of hookEvents) {
+ if (e.pattern) {
+ hookCounts.set(e.pattern, (hookCounts.get(e.pattern) || 0) + 1);
+ }
+ }
+ if (hookCounts.size > 0) {
+ lines.push('');
+ lines.push('Safety Hook Events');
+ const sortedHooks = [...hookCounts.entries()].sort((a, b) => b[1] - a[1]);
+ for (const [pattern, count] of sortedHooks) {
+ const suffix = `${count} fire${count === 1 ? '' : 's'}`;
+ const dotLen = Math.max(2, 25 - pattern.length - suffix.length);
+ const dots = ' ' + '.'.repeat(dotLen) + ' ';
+ lines.push(` ${pattern}${dots}${suffix}`);
+ }
+ }
+ // Total
+ const totalSkills = skillEvents.length;
+ const totalHooks = hookEvents.length;
+ lines.push('');
+ lines.push(`Total: ${totalSkills} skill invocation${totalSkills === 1 ? '' : 's'}, ${totalHooks} hook fire${totalHooks === 1 ? '' : 's'}`);
+ return lines.join('\n');
+}
+function main() {
+ // Parse --period flag
+ let period = 'all';
+ const args = process.argv.slice(2);
+ for (let i = 0; i < args.length; i++) {
+ if (args[i] === '--period' && i + 1 < args.length) {
+ period = args[i + 1];
+ i++;
+ }
+ }
+ // Read file
+ if (!fs.existsSync(ANALYTICS_FILE)) {
+ console.log('No analytics data found.');
+ process.exit(0);
+ }
+ const content = fs.readFileSync(ANALYTICS_FILE, 'utf-8').trim();
+ if (!content) {
+ console.log('No analytics data found.');
+ process.exit(0);
+ }
+ const events = parseJSONL(content);
+ if (events.length === 0) {
+ console.log('No analytics data found.');
+ process.exit(0);
+ }
+ const filtered = filterByPeriod(events, period);
+ console.log(formatReport(filtered, period));
+}
+if (import.meta.main) {
+ main();
+}

package/scripts/dev-skill.ts ADDED Viewed

@@ -0,0 +1,83 @@
+#!/usr/bin/env bun
+/**
+ * dev:skill — Watch mode for SKILL.md template development.
+ *
+ * Watches .tmpl files, regenerates SKILL.md files on change,
+ * validates all $B commands immediately.
+ */
+import { validateSkill } from '../test/helpers/skill-parser';
+import { discoverTemplates } from './discover-skills';
+import { execSync } from 'child_process';
+import * as fs from 'fs';
+import * as path from 'path';
+const ROOT = path.resolve(import.meta.dir, '..');
+const TEMPLATES = discoverTemplates(ROOT).map(t => ({
+ tmpl: path.join(ROOT, t.tmpl),
+ output: t.output,
+}));
+function regenerateAndValidate() {
+ // Regenerate
+ try {
+ execSync('bun run scripts/gen-skill-docs.ts', { cwd: ROOT, stdio: 'pipe' });
+ } catch (err: any) {
+ console.log(` [gen] ERROR: ${err.stderr?.toString().trim() || err.message}`);
+ return;
+ }
+ // Validate each generated file
+ for (const { output } of TEMPLATES) {
+ const fullPath = path.join(ROOT, output);
+ if (!fs.existsSync(fullPath)) continue;
+ const result = validateSkill(fullPath);
+ const totalValid = result.valid.length;
+ const totalInvalid = result.invalid.length;
+ const totalSnapErrors = result.snapshotFlagErrors.length;
+ if (totalInvalid > 0 || totalSnapErrors > 0) {
+ console.log(` [check] \u274c ${output} (${totalValid} valid)`);
+ for (const inv of result.invalid) {
+ console.log(` Unknown command: '${inv.command}' at line ${inv.line}`);
+ }
+ for (const se of result.snapshotFlagErrors) {
+ console.log(` ${se.error} at line ${se.command.line}`);
+ }
+ } else {
+ console.log(` [check] \u2705 ${output} — ${totalValid} commands, all valid`);
+ }
+ }
+}
+// Initial run
+console.log(' [watch] Watching *.md.tmpl files...');
+regenerateAndValidate();
+// Watch for changes
+for (const { tmpl } of TEMPLATES) {
+ if (!fs.existsSync(tmpl)) continue;
+ fs.watch(tmpl, () => {
+ console.log(`\n [watch] ${path.relative(ROOT, tmpl)} changed`);
+ regenerateAndValidate();
+ });
+}
+// Also watch commands.ts and snapshot.ts (source of truth changes)
+const SOURCE_FILES = [
+ path.join(ROOT, 'browse', 'src', 'commands.ts'),
+ path.join(ROOT, 'browse', 'src', 'snapshot.ts'),
+];
+for (const src of SOURCE_FILES) {
+ if (!fs.existsSync(src)) continue;
+ fs.watch(src, () => {
+ console.log(`\n [watch] ${path.relative(ROOT, src)} changed`);
+ regenerateAndValidate();
+ });
+}
+// Keep alive
+console.log(' [watch] Press Ctrl+C to stop\n');

package/scripts/discover-skills.ts ADDED Viewed

@@ -0,0 +1,39 @@
+/**
+ * Shared discovery for SKILL.md and .tmpl files.
+ * Scans root + one level of subdirs, skipping node_modules/.git/dist.
+ */
+import * as fs from 'fs';
+import * as path from 'path';
+const SKIP = new Set(['node_modules', '.git', 'dist']);
+function subdirs(root: string): string[] {
+ return fs.readdirSync(root, { withFileTypes: true })
+ .filter(d => d.isDirectory() && !d.name.startsWith('.') && !SKIP.has(d.name))
+ .map(d => d.name);
+}
+export function discoverTemplates(root: string): Array<{ tmpl: string; output: string }> {
+ const dirs = ['', ...subdirs(root)];
+ const results: Array<{ tmpl: string; output: string }> = [];
+ for (const dir of dirs) {
+ const rel = dir ? `${dir}/SKILL.md.tmpl` : 'SKILL.md.tmpl';
+ if (fs.existsSync(path.join(root, rel))) {
+ results.push({ tmpl: rel, output: rel.replace(/\.tmpl$/, '') });
+ }
+ }
+ return results;
+}
+export function discoverSkillFiles(root: string): string[] {
+ const dirs = ['', ...subdirs(root)];
+ const results: string[] = [];
+ for (const dir of dirs) {
+ const rel = dir ? `${dir}/SKILL.md` : 'SKILL.md';
+ if (fs.existsSync(path.join(root, rel))) {
+ results.push(rel);
+ }
+ }
+ return results;
+}

package/scripts/eval-compare.ts ADDED Viewed

@@ -0,0 +1,97 @@
+#!/usr/bin/env bun
+/**
+ * Compare two eval runs from ~/.opengstack-dev/evals/
+ *
+ * Usage:
+ * bun run eval:compare # compare two most recent of same tier
+ * bun run eval:compare <file> # compare file against its predecessor
+ * bun run eval:compare <file-a> <file-b> # compare two specific files
+ */
+import * as fs from 'fs';
+import * as path from 'path';
+import * as os from 'os';
+import {
+ findPreviousRun,
+ compareEvalResults,
+ formatComparison,
+ getProjectEvalDir,
+} from '../test/helpers/eval-store';
+import type { EvalResult } from '../test/helpers/eval-store';
+const EVAL_DIR = getProjectEvalDir();
+function loadResult(filepath: string): EvalResult {
+ // Resolve relative to EVAL_DIR if not absolute
+ const resolved = path.isAbsolute(filepath) ? filepath : path.join(EVAL_DIR, filepath);
+ if (!fs.existsSync(resolved)) {
+ console.error(`File not found: ${resolved}`);
+ process.exit(1);
+ }
+ return JSON.parse(fs.readFileSync(resolved, 'utf-8'));
+}
+const args = process.argv.slice(2);
+let beforeFile: string;
+let afterFile: string;
+if (args.length === 2) {
+ // Two explicit files
+ beforeFile = args[0];
+ afterFile = args[1];
+} else if (args.length === 1) {
+ // One file — find its predecessor
+ afterFile = args[0];
+ const resolved = path.isAbsolute(afterFile) ? afterFile : path.join(EVAL_DIR, afterFile);
+ const afterResult = loadResult(resolved);
+ const prev = findPreviousRun(EVAL_DIR, afterResult.tier, afterResult.branch, resolved);
+ if (!prev) {
+ console.log('No previous run found to compare against.');
+ process.exit(0);
+ }
+ beforeFile = prev;
+} else {
+ // No args — find two most recent of the same tier
+ let files: string[];
+ try {
+ files = fs.readdirSync(EVAL_DIR)
+ .filter(f => f.endsWith('.json'))
+ .sort()
+ .reverse();
+ } catch {
+ console.log('No eval runs yet. Run: EVALS=1 bun run test:evals');
+ process.exit(0);
+ }
+ if (files.length < 2) {
+ console.log('Need at least 2 eval runs to compare. Run evals again.');
+ process.exit(0);
+ }
+ // Most recent file
+ afterFile = path.join(EVAL_DIR, files[0]);
+ const afterResult = loadResult(afterFile);
+ const prev = findPreviousRun(EVAL_DIR, afterResult.tier, afterResult.branch, afterFile);
+ if (!prev) {
+ console.log('No previous run of the same tier found to compare against.');
+ process.exit(0);
+ }
+ beforeFile = prev;
+}
+const beforeResult = loadResult(beforeFile);
+const afterResult = loadResult(afterFile);
+// Warn if different tiers
+if (beforeResult.tier !== afterResult.tier) {
+ console.warn(`Warning: comparing different tiers (${beforeResult.tier} vs ${afterResult.tier})`);
+}
+// Warn on schema mismatch
+if (beforeResult.schema_version !== afterResult.schema_version) {
+ console.warn(`Warning: schema version mismatch (${beforeResult.schema_version} vs ${afterResult.schema_version})`);
+}
+const comparison = compareEvalResults(beforeResult, afterResult, beforeFile, afterFile);
+console.log(formatComparison(comparison));

package/scripts/eval-list.ts ADDED Viewed

@@ -0,0 +1,117 @@
+#!/usr/bin/env bun
+/**
+ * List eval runs from ~/.opengstack-dev/evals/
+ *
+ * Usage: bun run eval:list [--branch <name>] [--tier e2e|llm-judge] [--limit N]
+ */
+import * as fs from 'fs';
+import * as path from 'path';
+import * as os from 'os';
+import { getProjectEvalDir } from '../test/helpers/eval-store';
+const EVAL_DIR = getProjectEvalDir();
+// Parse args
+const args = process.argv.slice(2);
+let filterBranch: string | null = null;
+let filterTier: string | null = null;
+let limit = 20;
+for (let i = 0; i < args.length; i++) {
+ if (args[i] === '--branch' && args[i + 1]) { filterBranch = args[++i]; }
+ else if (args[i] === '--tier' && args[i + 1]) { filterTier = args[++i]; }
+ else if (args[i] === '--limit' && args[i + 1]) { limit = parseInt(args[++i], 10); }
+}
+// Read eval files
+let files: string[];
+try {
+ files = fs.readdirSync(EVAL_DIR).filter(f => f.endsWith('.json'));
+} catch {
+ console.log('No eval runs yet. Run: EVALS=1 bun run test:evals');
+ process.exit(0);
+}
+if (files.length === 0) {
+ console.log('No eval runs yet. Run: EVALS=1 bun run test:evals');
+ process.exit(0);
+}
+// Parse top-level fields from each file
+interface RunSummary {
+ file: string;
+ timestamp: string;
+ branch: string;
+ tier: string;
+ version: string;
+ passed: number;
+ total: number;
+ cost: number;
+ duration: number;
+ turns: number;
+}
+const runs: RunSummary[] = [];
+for (const file of files) {
+ try {
+ const data = JSON.parse(fs.readFileSync(path.join(EVAL_DIR, file), 'utf-8'));
+ if (filterBranch && data.branch !== filterBranch) continue;
+ if (filterTier && data.tier !== filterTier) continue;
+ const totalTurns = (data.tests || []).reduce((s: number, t: any) => s + (t.turns_used || 0), 0);
+ runs.push({
+ file,
+ timestamp: data.timestamp || '',
+ branch: data.branch || 'unknown',
+ tier: data.tier || 'unknown',
+ version: data.version || '?',
+ passed: data.passed || 0,
+ total: data.total_tests || 0,
+ cost: data.total_cost_usd || 0,
+ duration: data.total_duration_ms || 0,
+ turns: totalTurns,
+ });
+ } catch { continue; }
+}
+// Sort by timestamp descending
+runs.sort((a, b) => b.timestamp.localeCompare(a.timestamp));
+// Apply limit
+const displayed = runs.slice(0, limit);
+// Print table
+console.log('');
+console.log(`Eval History (${runs.length} total runs)`);
+console.log('═'.repeat(105));
+console.log(
+ ' ' +
+ 'Date'.padEnd(17) +
+ 'Branch'.padEnd(25) +
+ 'Tier'.padEnd(12) +
+ 'Pass'.padEnd(8) +
+ 'Cost'.padEnd(8) +
+ 'Turns'.padEnd(7) +
+ 'Duration'.padEnd(10) +
+ 'Version'
+);
+console.log('─'.repeat(105));
+for (const run of displayed) {
+ const date = run.timestamp.replace('T', ' ').slice(0, 16);
+ const branch = run.branch.length > 23 ? run.branch.slice(0, 20) + '...' : run.branch.padEnd(25);
+ const pass = `${run.passed}/${run.total}`.padEnd(8);
+ const cost = `$${run.cost.toFixed(2)}`.padEnd(8);
+ const turns = run.turns > 0 ? `${run.turns}t`.padEnd(7) : ''.padEnd(7);
+ const dur = run.duration > 0 ? `${Math.round(run.duration / 1000)}s`.padEnd(10) : ''.padEnd(10);
+ console.log(` ${date.padEnd(17)}${branch}${run.tier.padEnd(12)}${pass}${cost}${turns}${dur}v${run.version}`);
+}
+console.log('─'.repeat(105));
+const totalCost = runs.reduce((s, r) => s + r.cost, 0);
+const totalDur = runs.reduce((s, r) => s + r.duration, 0);
+const totalTurns = runs.reduce((s, r) => s + r.turns, 0);
+console.log(` ${runs.length} runs | $${totalCost.toFixed(2)} total | ${totalTurns} turns | ${Math.round(totalDur / 1000)}s | Showing: ${displayed.length}`);
+console.log(` Dir: ${EVAL_DIR}`);
+console.log('');