npm - @mainahq/core - Versions diffs - 0.2.0 - Mend

@mainahq/core 0.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (156) hide show

package/README.md +31 -0
package/package.json +37 -0
package/src/ai/__tests__/ai.test.ts +207 -0
package/src/ai/__tests__/design-approaches.test.ts +192 -0
package/src/ai/__tests__/spec-questions.test.ts +191 -0
package/src/ai/__tests__/tiers.test.ts +110 -0
package/src/ai/commit-msg.ts +28 -0
package/src/ai/design-approaches.ts +76 -0
package/src/ai/index.ts +205 -0
package/src/ai/pr-summary.ts +60 -0
package/src/ai/spec-questions.ts +74 -0
package/src/ai/tiers.ts +52 -0
package/src/ai/try-generate.ts +89 -0
package/src/ai/validate.ts +66 -0
package/src/benchmark/__tests__/reporter.test.ts +525 -0
package/src/benchmark/__tests__/runner.test.ts +113 -0
package/src/benchmark/__tests__/story-loader.test.ts +152 -0
package/src/benchmark/reporter.ts +332 -0
package/src/benchmark/runner.ts +91 -0
package/src/benchmark/story-loader.ts +88 -0
package/src/benchmark/types.ts +95 -0
package/src/cache/__tests__/keys.test.ts +97 -0
package/src/cache/__tests__/manager.test.ts +312 -0
package/src/cache/__tests__/ttl.test.ts +94 -0
package/src/cache/keys.ts +44 -0
package/src/cache/manager.ts +231 -0
package/src/cache/ttl.ts +77 -0
package/src/config/__tests__/config.test.ts +376 -0
package/src/config/index.ts +198 -0
package/src/context/__tests__/budget.test.ts +179 -0
package/src/context/__tests__/engine.test.ts +163 -0
package/src/context/__tests__/episodic.test.ts +291 -0
package/src/context/__tests__/relevance.test.ts +323 -0
package/src/context/__tests__/retrieval.test.ts +143 -0
package/src/context/__tests__/selector.test.ts +174 -0
package/src/context/__tests__/semantic.test.ts +252 -0
package/src/context/__tests__/treesitter.test.ts +229 -0
package/src/context/__tests__/working.test.ts +236 -0
package/src/context/budget.ts +130 -0
package/src/context/engine.ts +394 -0
package/src/context/episodic.ts +251 -0
package/src/context/relevance.ts +325 -0
package/src/context/retrieval.ts +325 -0
package/src/context/selector.ts +93 -0
package/src/context/semantic.ts +331 -0
package/src/context/treesitter.ts +216 -0
package/src/context/working.ts +192 -0
package/src/db/__tests__/db.test.ts +151 -0
package/src/db/index.ts +211 -0
package/src/db/schema.ts +84 -0
package/src/design/__tests__/design.test.ts +310 -0
package/src/design/__tests__/generate-hld-lld.test.ts +109 -0
package/src/design/__tests__/review.test.ts +561 -0
package/src/design/index.ts +297 -0
package/src/design/review.ts +327 -0
package/src/explain/__tests__/explain.test.ts +173 -0
package/src/explain/index.ts +181 -0
package/src/features/__tests__/analyzer.test.ts +358 -0
package/src/features/__tests__/checklist.test.ts +454 -0
package/src/features/__tests__/numbering.test.ts +319 -0
package/src/features/__tests__/quality.test.ts +295 -0
package/src/features/__tests__/traceability.test.ts +147 -0
package/src/features/analyzer.ts +445 -0
package/src/features/checklist.ts +366 -0
package/src/features/index.ts +18 -0
package/src/features/numbering.ts +404 -0
package/src/features/quality.ts +349 -0
package/src/features/test-stubs.ts +157 -0
package/src/features/traceability.ts +260 -0
package/src/feedback/__tests__/async-feedback.test.ts +52 -0
package/src/feedback/__tests__/collector.test.ts +219 -0
package/src/feedback/__tests__/compress.test.ts +150 -0
package/src/feedback/__tests__/preferences.test.ts +169 -0
package/src/feedback/collector.ts +135 -0
package/src/feedback/compress.ts +92 -0
package/src/feedback/preferences.ts +108 -0
package/src/git/__tests__/git.test.ts +62 -0
package/src/git/index.ts +110 -0
package/src/hooks/__tests__/runner.test.ts +266 -0
package/src/hooks/index.ts +8 -0
package/src/hooks/runner.ts +130 -0
package/src/index.ts +356 -0
package/src/init/__tests__/init.test.ts +228 -0
package/src/init/index.ts +364 -0
package/src/language/__tests__/detect.test.ts +77 -0
package/src/language/__tests__/profile.test.ts +51 -0
package/src/language/detect.ts +70 -0
package/src/language/profile.ts +110 -0
package/src/prompts/__tests__/defaults.test.ts +52 -0
package/src/prompts/__tests__/engine.test.ts +183 -0
package/src/prompts/__tests__/evolution-resolve.test.ts +169 -0
package/src/prompts/__tests__/evolution.test.ts +187 -0
package/src/prompts/__tests__/loader.test.ts +105 -0
package/src/prompts/candidates/review-v2.md +55 -0
package/src/prompts/defaults/ai-review.md +49 -0
package/src/prompts/defaults/commit.md +30 -0
package/src/prompts/defaults/context.md +26 -0
package/src/prompts/defaults/design-approaches.md +57 -0
package/src/prompts/defaults/design-hld-lld.md +55 -0
package/src/prompts/defaults/design.md +53 -0
package/src/prompts/defaults/explain.md +31 -0
package/src/prompts/defaults/fix.md +32 -0
package/src/prompts/defaults/index.ts +38 -0
package/src/prompts/defaults/review.md +41 -0
package/src/prompts/defaults/spec-questions.md +59 -0
package/src/prompts/defaults/tests.md +72 -0
package/src/prompts/engine.ts +137 -0
package/src/prompts/evolution.ts +409 -0
package/src/prompts/loader.ts +71 -0
package/src/review/__tests__/review.test.ts +288 -0
package/src/review/comprehensive.ts +362 -0
package/src/review/index.ts +417 -0
package/src/stats/__tests__/tracker.test.ts +323 -0
package/src/stats/index.ts +11 -0
package/src/stats/tracker.ts +492 -0
package/src/ticket/__tests__/ticket.test.ts +273 -0
package/src/ticket/index.ts +185 -0
package/src/utils.ts +87 -0
package/src/verify/__tests__/ai-review.test.ts +242 -0
package/src/verify/__tests__/coverage.test.ts +83 -0
package/src/verify/__tests__/detect.test.ts +175 -0
package/src/verify/__tests__/diff-filter.test.ts +338 -0
package/src/verify/__tests__/fix.test.ts +478 -0
package/src/verify/__tests__/linters/clippy.test.ts +45 -0
package/src/verify/__tests__/linters/go-vet.test.ts +27 -0
package/src/verify/__tests__/linters/ruff.test.ts +64 -0
package/src/verify/__tests__/mutation.test.ts +141 -0
package/src/verify/__tests__/pipeline.test.ts +553 -0
package/src/verify/__tests__/proof.test.ts +97 -0
package/src/verify/__tests__/secretlint.test.ts +190 -0
package/src/verify/__tests__/semgrep.test.ts +217 -0
package/src/verify/__tests__/slop.test.ts +366 -0
package/src/verify/__tests__/sonar.test.ts +113 -0
package/src/verify/__tests__/syntax-guard.test.ts +227 -0
package/src/verify/__tests__/trivy.test.ts +191 -0
package/src/verify/__tests__/visual.test.ts +139 -0
package/src/verify/ai-review.ts +276 -0
package/src/verify/coverage.ts +134 -0
package/src/verify/detect.ts +171 -0
package/src/verify/diff-filter.ts +183 -0
package/src/verify/fix.ts +317 -0
package/src/verify/linters/clippy.ts +52 -0
package/src/verify/linters/go-vet.ts +32 -0
package/src/verify/linters/ruff.ts +47 -0
package/src/verify/mutation.ts +143 -0
package/src/verify/pipeline.ts +328 -0
package/src/verify/proof.ts +277 -0
package/src/verify/secretlint.ts +168 -0
package/src/verify/semgrep.ts +170 -0
package/src/verify/slop.ts +493 -0
package/src/verify/sonar.ts +146 -0
package/src/verify/syntax-guard.ts +251 -0
package/src/verify/trivy.ts +161 -0
package/src/verify/visual.ts +460 -0
package/src/workflow/__tests__/context.test.ts +110 -0
package/src/workflow/context.ts +81 -0

package/src/ai/validate.ts ADDED Viewed

@@ -0,0 +1,66 @@
+/**
+ * Validates AI-generated output for slop patterns before presenting to users.
+ *
+ * Catches: hallucinated imports, console.log suggestions, empty function bodies,
+ * bare TODOs without tickets, and other common AI slop in generated text.
+ */
+export interface AIValidationResult {
+	clean: boolean;
+	warnings: string[];
+	sanitized: string;
+}
+const SLOP_PATTERNS: Array<{ pattern: RegExp; message: string }> = [
+	{
+		pattern: /console\.(log|warn|error|debug|info)\s*\(/g,
+		message: "AI suggested console.log — stripped",
+	},
+	{
+		pattern: /\/\/\s*(?:TO)(?:DO)(?!\s*[(#[])/g,
+		message: "AI generated TODO without ticket reference",
+	},
+	{
+		pattern:
+			/import\s+.*from\s+['"]\.\/(?:nonexistent|placeholder|example)['"]/g,
+		message: "AI hallucinated a placeholder import",
+	},
+	{
+		pattern: /function\s+\w+\s*\([^)]*\)\s*\{\s*\}/g,
+		message: "AI generated empty function body",
+	},
+	{
+		pattern: /(?:as any|: any\b)/g,
+		message: "AI used 'any' type — violates strict mode",
+	},
+];
+/**
+ * Check AI-generated text for slop patterns.
+ * Returns warnings and optionally sanitized output.
+ */
+export function validateAIOutput(text: string): AIValidationResult {
+	const warnings: string[] = [];
+	let sanitized = text;
+	for (const { pattern, message } of SLOP_PATTERNS) {
+		// Reset lastIndex for global patterns
+		pattern.lastIndex = 0;
+		if (pattern.test(text)) {
+			warnings.push(message);
+		}
+		pattern.lastIndex = 0;
+	}
+	// Sanitize: remove console.log lines from code suggestions
+	sanitized = sanitized.replace(
+		/^\s*console\.(log|warn|error|debug|info)\(.*\);?\s*$/gm,
+		"",
+	);
+	return {
+		clean: warnings.length === 0,
+		warnings,
+		sanitized: sanitized.trim(),
+	};
+}

package/src/benchmark/__tests__/reporter.test.ts ADDED Viewed

@@ -0,0 +1,525 @@
+import { describe, expect, test } from "bun:test";
+import {
+	buildReport,
+	buildTier3Report,
+	formatComparison,
+	formatTier3Comparison,
+} from "../reporter";
+import type { BenchmarkMetrics, StepMetrics, StoryConfig } from "../types";
+const storyConfig: StoryConfig = {
+	name: "mitt",
+	description: "Tiny event emitter",
+	tier: 1,
+	source: "https://github.com/developit/mitt",
+	testFiles: ["tests/mitt.test.ts"],
+	metrics: { expectedTests: 18, originalLOC: 80, complexity: "easy" },
+};
+const mainaMetrics: BenchmarkMetrics = {
+	pipeline: "maina",
+	storyName: "mitt",
+	wallClockMs: 1200,
+	tokensInput: 5000,
+	tokensOutput: 2000,
+	testsTotal: 18,
+	testsPassed: 16,
+	testsFailed: 2,
+	verifyFindings: 3,
+	specQualityScore: 83,
+	implLOC: 85,
+	attemptsToPass: 1,
+	bugsIntroduced: 0,
+	toolsUsed: ["getContext", "verify", "reviewCode"],
+};
+const speckitMetrics: BenchmarkMetrics = {
+	pipeline: "speckit",
+	storyName: "mitt",
+	wallClockMs: 1800,
+	tokensInput: 7000,
+	tokensOutput: 3000,
+	testsTotal: 18,
+	testsPassed: 14,
+	testsFailed: 4,
+	verifyFindings: 0,
+	specQualityScore: 70,
+	implLOC: 112,
+	attemptsToPass: 2,
+	bugsIntroduced: 1,
+	toolsUsed: ["specify init", "constitution", "specs", "plans", "tasks"],
+};
+describe("buildReport", () => {
+	test("creates comparison report with both pipeline results", () => {
+		const report = buildReport(storyConfig, mainaMetrics, speckitMetrics);
+		expect(report.story.name).toBe("mitt");
+		expect(report.maina?.testsPassed).toBe(16);
+		expect(report.speckit?.testsPassed).toBe(14);
+		expect(report.timestamp).toBeTruthy();
+	});
+	test("determines winner based on test pass rate", () => {
+		const report = buildReport(storyConfig, mainaMetrics, speckitMetrics);
+		expect(report.winner).toBe("maina");
+	});
+	test("returns tie when both have same pass count", () => {
+		const tied = { ...speckitMetrics, testsPassed: 16, testsFailed: 2 };
+		const report = buildReport(storyConfig, mainaMetrics, tied);
+		expect(report.winner).toBe("tie");
+	});
+	test("returns incomplete when one pipeline is null", () => {
+		const report = buildReport(storyConfig, mainaMetrics, null);
+		expect(report.winner).toBe("incomplete");
+		expect(report.speckit).toBeNull();
+	});
+});
+describe("formatComparison", () => {
+	test("produces a readable terminal table", () => {
+		const report = buildReport(storyConfig, mainaMetrics, speckitMetrics);
+		const output = formatComparison(report);
+		expect(output).toContain("mitt");
+		expect(output).toContain("maina");
+		expect(output).toContain("speckit");
+		expect(output).toContain("16");
+		expect(output).toContain("14");
+		expect(output).toContain("Winner");
+	});
+	test("handles incomplete report gracefully", () => {
+		const report = buildReport(storyConfig, mainaMetrics, null);
+		const output = formatComparison(report);
+		expect(output).toContain("maina");
+		expect(output).toContain("—");
+	});
+});
+// --- Tier 3 fixtures ---
+const tier3Story: StoryConfig = {
+	name: "auth-flow",
+	description: "Full auth lifecycle",
+	tier: 3,
+	source: "internal",
+	testFiles: ["tests/auth.test.ts"],
+	metrics: { expectedTests: 25, originalLOC: 400, complexity: "hard" },
+};
+function makeStep(
+	overrides: Partial<StepMetrics> & { name: string },
+): StepMetrics {
+	return {
+		durationMs: 100,
+		tokensInput: 500,
+		tokensOutput: 200,
+		artifacts: [],
+		...overrides,
+	};
+}
+const mainaSteps: Record<string, StepMetrics> = {
+	clarify: makeStep({
+		name: "Clarify",
+		durationMs: 200,
+		tokensInput: 1000,
+		tokensOutput: 500,
+		questionsAsked: 3,
+	}),
+	spec: makeStep({
+		name: "Spec",
+		durationMs: 300,
+		tokensInput: 2000,
+		tokensOutput: 1000,
+	}),
+	plan: makeStep({
+		name: "Plan",
+		durationMs: 150,
+		tokensInput: 800,
+		tokensOutput: 400,
+		approachesProposed: 2,
+	}),
+	implement: makeStep({
+		name: "Implement",
+		durationMs: 500,
+		tokensInput: 3000,
+		tokensOutput: 2000,
+		loc: 120,
+		attempts: 2,
+	}),
+	test: makeStep({
+		name: "Test",
+		durationMs: 400,
+		tokensInput: 1500,
+		tokensOutput: 800,
+		testsGenerated: 25,
+	}),
+	verify: makeStep({
+		name: "Verify",
+		durationMs: 250,
+		tokensInput: 1200,
+		tokensOutput: 600,
+		findings: 4,
+		findingsBySeverity: { high: 1, medium: 3 },
+	}),
+	fix: makeStep({
+		name: "Fix",
+		durationMs: 180,
+		tokensInput: 900,
+		tokensOutput: 500,
+	}),
+	review: makeStep({
+		name: "Review",
+		durationMs: 300,
+		tokensInput: 1400,
+		tokensOutput: 700,
+		issuesFound: 2,
+	}),
+	final: makeStep({
+		name: "Final Check",
+		durationMs: 120,
+		tokensInput: 600,
+		tokensOutput: 300,
+		passed: true,
+	}),
+};
+const speckitSteps: Record<string, StepMetrics> = {
+	clarify: makeStep({
+		name: "Clarify",
+		durationMs: 250,
+		tokensInput: 1200,
+		tokensOutput: 600,
+		questionsAsked: 2,
+	}),
+	spec: makeStep({
+		name: "Spec",
+		durationMs: 400,
+		tokensInput: 2500,
+		tokensOutput: 1200,
+	}),
+	plan: makeStep({
+		name: "Plan",
+		durationMs: 200,
+		tokensInput: 1000,
+		tokensOutput: 500,
+	}),
+	implement: makeStep({
+		name: "Implement",
+		durationMs: 600,
+		tokensInput: 3500,
+		tokensOutput: 2500,
+		loc: 150,
+		attempts: 3,
+	}),
+	test: makeStep({
+		name: "Test",
+		durationMs: 350,
+		tokensInput: 1800,
+		tokensOutput: 900,
+		testsGenerated: 22,
+	}),
+	verify: makeStep({
+		name: "Verify",
+		durationMs: 200,
+		tokensInput: 1000,
+		tokensOutput: 500,
+		findings: 2,
+	}),
+	fix: makeStep({
+		name: "Fix",
+		durationMs: 220,
+		tokensInput: 1100,
+		tokensOutput: 600,
+	}),
+	review: makeStep({
+		name: "Review",
+		durationMs: 280,
+		tokensInput: 1300,
+		tokensOutput: 650,
+	}),
+	final: makeStep({
+		name: "Final Check",
+		durationMs: 150,
+		tokensInput: 700,
+		tokensOutput: 350,
+		passed: true,
+	}),
+};
+const mainaMeta = {
+	bugsIntroduced: 1,
+	bugsCaught: 3,
+	testsPassed: 24,
+	testsTotal: 25,
+};
+const speckitMeta = {
+	bugsIntroduced: 2,
+	bugsCaught: 2,
+	testsPassed: 20,
+	testsTotal: 25,
+};
+describe("buildTier3Report", () => {
+	test("computes totals by summing step durations and tokens", () => {
+		const report = buildTier3Report(tier3Story, mainaSteps, speckitSteps, [], {
+			maina: mainaMeta,
+			speckit: speckitMeta,
+		});
+		// Maina duration: 200+300+150+500+400+250+180+300+120 = 2400
+		expect(report.maina.totals.durationMs).toBe(2400);
+		// Maina tokensInput: 1000+2000+800+3000+1500+1200+900+1400+600 = 12400
+		expect(report.maina.totals.tokensInput).toBe(12400);
+		// Maina tokensOutput: 500+1000+400+2000+800+600+500+700+300 = 6800
+		expect(report.maina.totals.tokensOutput).toBe(6800);
+		// SpecKit duration: 250+400+200+600+350+200+220+280+150 = 2650
+		expect(report.speckit.totals.durationMs).toBe(2650);
+	});
+	test("carries bug/test metadata into totals", () => {
+		const report = buildTier3Report(
+			tier3Story,
+			mainaSteps,
+			speckitSteps,
+			["learning 1"],
+			{
+				maina: mainaMeta,
+				speckit: speckitMeta,
+			},
+		);
+		expect(report.maina.totals.bugsIntroduced).toBe(1);
+		expect(report.maina.totals.bugsCaught).toBe(3);
+		expect(report.maina.totals.testsPassed).toBe(24);
+		expect(report.speckit.totals.bugsIntroduced).toBe(2);
+		expect(report.speckit.totals.testsPassed).toBe(20);
+	});
+	test("determines winner by test pass rate first", () => {
+		const report = buildTier3Report(tier3Story, mainaSteps, speckitSteps, [], {
+			maina: mainaMeta,
+			speckit: speckitMeta,
+		});
+		// Maina 24/25 > SpecKit 20/25
+		expect(report.winner).toBe("maina");
+	});
+	test("breaks tie on bugs caught", () => {
+		const report = buildTier3Report(tier3Story, mainaSteps, speckitSteps, [], {
+			maina: {
+				bugsIntroduced: 1,
+				bugsCaught: 5,
+				testsPassed: 20,
+				testsTotal: 25,
+			},
+			speckit: {
+				bugsIntroduced: 1,
+				bugsCaught: 2,
+				testsPassed: 20,
+				testsTotal: 25,
+			},
+		});
+		// Same pass rate, maina caught more bugs
+		expect(report.winner).toBe("maina");
+	});
+	test("breaks second tie on duration (lower wins)", () => {
+		// mainaSteps total = 2400, speckitSteps total = 2650
+		const report = buildTier3Report(tier3Story, mainaSteps, speckitSteps, [], {
+			maina: {
+				bugsIntroduced: 0,
+				bugsCaught: 3,
+				testsPassed: 20,
+				testsTotal: 25,
+			},
+			speckit: {
+				bugsIntroduced: 0,
+				bugsCaught: 3,
+				testsPassed: 20,
+				testsTotal: 25,
+			},
+		});
+		// Same pass rate, same bugs caught, maina is faster
+		expect(report.winner).toBe("maina");
+	});
+	test("returns tie when all tiebreakers are equal", () => {
+		const sameSteps: Record<string, StepMetrics> = {
+			step1: makeStep({
+				name: "Step 1",
+				durationMs: 100,
+				tokensInput: 500,
+				tokensOutput: 200,
+			}),
+		};
+		const report = buildTier3Report(
+			tier3Story,
+			sameSteps,
+			{ ...sameSteps },
+			[],
+			{
+				maina: {
+					bugsIntroduced: 0,
+					bugsCaught: 1,
+					testsPassed: 10,
+					testsTotal: 10,
+				},
+				speckit: {
+					bugsIntroduced: 0,
+					bugsCaught: 1,
+					testsPassed: 10,
+					testsTotal: 10,
+				},
+			},
+		);
+		expect(report.winner).toBe("tie");
+	});
+	test("returns incomplete when one pipeline has no steps", () => {
+		const report = buildTier3Report(tier3Story, mainaSteps, {}, [
+			"partial run",
+		]);
+		expect(report.winner).toBe("incomplete");
+	});
+	test("defaults meta to zeros when not provided", () => {
+		const report = buildTier3Report(tier3Story, mainaSteps, speckitSteps, []);
+		expect(report.maina.totals.bugsIntroduced).toBe(0);
+		expect(report.maina.totals.bugsCaught).toBe(0);
+		expect(report.maina.totals.testsPassed).toBe(0);
+		expect(report.speckit.totals.testsPassed).toBe(0);
+	});
+	test("includes story, timestamp, and learnings", () => {
+		const report = buildTier3Report(
+			tier3Story,
+			mainaSteps,
+			speckitSteps,
+			["insight A", "insight B"],
+			{
+				maina: mainaMeta,
+				speckit: speckitMeta,
+			},
+		);
+		expect(report.story.name).toBe("auth-flow");
+		expect(report.timestamp).toBeTruthy();
+		expect(report.learnings).toEqual(["insight A", "insight B"]);
+	});
+	test("preserves per-step data in the result", () => {
+		const report = buildTier3Report(tier3Story, mainaSteps, speckitSteps, [], {
+			maina: mainaMeta,
+			speckit: speckitMeta,
+		});
+		expect(report.maina.steps.clarify?.questionsAsked).toBe(3);
+		expect(report.maina.steps.implement?.loc).toBe(120);
+		expect(report.speckit.steps.verify?.findings).toBe(2);
+	});
+});
+describe("formatTier3Comparison", () => {
+	test("produces a table with per-step breakdown", () => {
+		const report = buildTier3Report(
+			tier3Story,
+			mainaSteps,
+			speckitSteps,
+			["Maina faster on verify"],
+			{
+				maina: mainaMeta,
+				speckit: speckitMeta,
+			},
+		);
+		const output = formatTier3Comparison(report);
+		// Header
+		expect(output).toContain("Tier 3 Benchmark: auth-flow");
+		expect(output).toContain("Step");
+		expect(output).toContain("Maina (ms)");
+		expect(output).toContain("SpecKit (ms)");
+		expect(output).toContain("Maina (tokens)");
+		expect(output).toContain("SpecKit (tokens)");
+		// Step rows — check a few step names appear
+		expect(output).toContain("Clarify");
+		expect(output).toContain("Implement");
+		expect(output).toContain("Verify");
+		expect(output).toContain("Final Check");
+		// Totals
+		expect(output).toContain("TOTAL");
+		expect(output).toContain("2400"); // maina total ms
+		expect(output).toContain("2650"); // speckit total ms
+		// Findings summary
+		expect(output).toContain("bugs introduced: 1");
+		expect(output).toContain("bugs caught: 3");
+		expect(output).toContain("tests: 24/25");
+		expect(output).toContain("tests: 20/25");
+		// Winner
+		expect(output).toContain("Winner: maina");
+		// Learnings
+		expect(output).toContain("Learnings:");
+		expect(output).toContain("Maina faster on verify");
+	});
+	test("shows dash for missing steps", () => {
+		const partialSpeckit: Record<string, StepMetrics> = {
+			clarify: makeStep({
+				name: "Clarify",
+				durationMs: 250,
+				tokensInput: 1200,
+				tokensOutput: 600,
+			}),
+			// Missing all other steps that maina has
+		};
+		const report = buildTier3Report(
+			tier3Story,
+			mainaSteps,
+			partialSpeckit,
+			[],
+			{
+				maina: mainaMeta,
+				speckit: {
+					bugsIntroduced: 0,
+					bugsCaught: 0,
+					testsPassed: 0,
+					testsTotal: 0,
+				},
+			},
+		);
+		const output = formatTier3Comparison(report);
+		// Speckit should show dashes for steps it doesn't have
+		// The Implement row should have speckit values as "—"
+		// We check that "—" appears in the output (for missing speckit steps)
+		expect(output).toContain("—");
+	});
+	test("omits learnings section when empty", () => {
+		const report = buildTier3Report(tier3Story, mainaSteps, speckitSteps, [], {
+			maina: mainaMeta,
+			speckit: speckitMeta,
+		});
+		const output = formatTier3Comparison(report);
+		expect(output).not.toContain("Learnings:");
+	});
+	test("formats incomplete report correctly", () => {
+		const report = buildTier3Report(tier3Story, mainaSteps, {}, []);
+		const output = formatTier3Comparison(report);
+		expect(output).toContain("Winner: incomplete");
+	});
+});

package/src/benchmark/__tests__/runner.test.ts ADDED Viewed

@@ -0,0 +1,113 @@
+import { afterEach, beforeEach, describe, expect, test } from "bun:test";
+import { mkdirSync, rmSync, writeFileSync } from "node:fs";
+import { join } from "node:path";
+import { parseTestOutput, runBenchmark } from "../runner";
+let tmpDir: string;
+beforeEach(() => {
+	tmpDir = join(
+		import.meta.dir,
+		`tmp-runner-${Date.now()}-${Math.random().toString(36).slice(2)}`,
+	);
+	mkdirSync(tmpDir, { recursive: true });
+});
+afterEach(() => {
+	try {
+		rmSync(tmpDir, { recursive: true, force: true });
+	} catch {
+		// ignore
+	}
+});
+describe("parseTestOutput", () => {
+	test("parses bun test output with pass and fail counts", () => {
+		const output = `bun test v1.3.8
+ 15 pass
+ 3 fail
+ 42 expect() calls
+Ran 18 tests across 1 file. [120.00ms]`;
+		const result = parseTestOutput(output);
+		expect(result.passed).toBe(15);
+		expect(result.failed).toBe(3);
+		expect(result.total).toBe(18);
+	});
+	test("parses output with only passes", () => {
+		const output = `bun test v1.3.8
+ 18 pass
+ 0 fail
+Ran 18 tests across 1 file. [100.00ms]`;
+		const result = parseTestOutput(output);
+		expect(result.passed).toBe(18);
+		expect(result.failed).toBe(0);
+		expect(result.total).toBe(18);
+	});
+	test("returns zeros for unparseable output", () => {
+		const result = parseTestOutput("something went wrong");
+		expect(result.passed).toBe(0);
+		expect(result.failed).toBe(0);
+		expect(result.total).toBe(0);
+	});
+});
+describe("runBenchmark", () => {
+	test("runs test file in temp dir and returns metrics", async () => {
+		// Create a simple passing test
+		const testFile = join(tmpDir, "test.ts");
+		writeFileSync(
+			testFile,
+			`import { test, expect } from "bun:test";
+test("1+1=2", () => { expect(1+1).toBe(2); });
+test("true", () => { expect(true).toBe(true); });
+`,
+		);
+		const result = await runBenchmark({
+			pipeline: "maina",
+			storyName: "test-story",
+			testFiles: [testFile],
+			implDir: tmpDir,
+		});
+		expect(result.ok).toBe(true);
+		if (result.ok) {
+			expect(result.value.pipeline).toBe("maina");
+			expect(result.value.storyName).toBe("test-story");
+			expect(result.value.testsPassed).toBe(2);
+			expect(result.value.testsFailed).toBe(0);
+			expect(result.value.testsTotal).toBe(2);
+			expect(result.value.wallClockMs).toBeGreaterThan(0);
+		}
+	});
+	test("captures failures in metrics", async () => {
+		const testFile = join(tmpDir, "fail.ts");
+		writeFileSync(
+			testFile,
+			`import { test, expect } from "bun:test";
+test("pass", () => { expect(true).toBe(true); });
+test("fail", () => { expect(1).toBe(2); });
+`,
+		);
+		const result = await runBenchmark({
+			pipeline: "maina",
+			storyName: "fail-story",
+			testFiles: [testFile],
+			implDir: tmpDir,
+		});
+		expect(result.ok).toBe(true);
+		if (result.ok) {
+			expect(result.value.testsPassed).toBe(1);
+			expect(result.value.testsFailed).toBe(1);
+			expect(result.value.testsTotal).toBe(2);
+		}
+	});
+});