npm - @nerviq/cli - Versions diffs - 1.29.0 → 1.29.1 - Mend

@nerviq/cli 1.29.0 → 1.29.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (80) hide show

package/CHANGELOG.md +1527 -1493
package/README.md +550 -538
package/SECURITY.md +82 -82
package/bin/cli.js +2562 -2558
package/docs/api-reference.md +356 -356
package/docs/audit-fix.md +109 -0
package/docs/autofix.md +3 -62
package/docs/getting-started.md +1 -1
package/docs/index.html +592 -592
package/docs/integration-contracts.md +287 -287
package/docs/maintenance.md +128 -128
package/docs/new-platform-guide.md +202 -202
package/docs/release-process.md +63 -0
package/docs/shallow-risk.md +244 -244
package/docs/why-nerviq.md +82 -82
package/package.json +67 -67
package/src/aider/activity.js +226 -226
package/src/aider/context.js +162 -162
package/src/aider/freshness.js +123 -123
package/src/aider/techniques.js +3465 -3465
package/src/audit/layers.js +180 -180
package/src/audit.js +1032 -1032
package/src/benchmark.js +299 -299
package/src/codex/activity.js +324 -324
package/src/codex/freshness.js +142 -142
package/src/codex/techniques.js +4895 -4895
package/src/context.js +326 -326
package/src/continuous-ops.js +11 -1
package/src/convert.js +340 -340
package/src/copilot/config-parser.js +280 -280
package/src/copilot/context.js +218 -218
package/src/copilot/freshness.js +177 -177
package/src/copilot/patch.js +238 -238
package/src/copilot/techniques.js +3578 -3578
package/src/cursor/freshness.js +194 -194
package/src/cursor/patch.js +243 -243
package/src/cursor/techniques.js +3735 -3735
package/src/doctor.js +201 -201
package/src/fix-engine.js +511 -8
package/src/formatters/csv.js +86 -86
package/src/formatters/junit.js +123 -123
package/src/formatters/markdown.js +164 -164
package/src/formatters/otel.js +151 -151
package/src/freshness.js +156 -156
package/src/gemini/activity.js +402 -402
package/src/gemini/context.js +290 -290
package/src/gemini/freshness.js +183 -183
package/src/gemini/patch.js +229 -229
package/src/gemini/techniques.js +3811 -3811
package/src/governance.js +533 -533
package/src/harmony/audit.js +306 -306
package/src/i18n.js +63 -63
package/src/insights.js +119 -119
package/src/integrations.js +134 -134
package/src/locales/en.json +33 -33
package/src/locales/es.json +33 -33
package/src/migrate.js +354 -354
package/src/opencode/activity.js +286 -286
package/src/opencode/freshness.js +137 -137
package/src/opencode/techniques.js +3450 -3450
package/src/setup/analysis.js +12 -12
package/src/setup.js +7 -6
package/src/shallow-risk/index.js +56 -56
package/src/shallow-risk/patterns/agent-config-cross-platform-drift.js +50 -50
package/src/shallow-risk/patterns/agent-config-dangerous-autoapprove.js +46 -46
package/src/shallow-risk/patterns/agent-config-deprecated-keys.js +46 -46
package/src/shallow-risk/patterns/agent-config-missing-file.js +317 -317
package/src/shallow-risk/patterns/agent-config-secret-literal.js +49 -49
package/src/shallow-risk/patterns/agent-config-stack-contradiction.js +34 -34
package/src/shallow-risk/patterns/hook-script-missing.js +70 -70
package/src/shallow-risk/patterns/mcp-server-no-allowlist.js +52 -52
package/src/shallow-risk/shared.js +648 -648
package/src/source-urls.js +295 -295
package/src/state-paths.js +85 -85
package/src/supplemental-checks.js +805 -805
package/src/telemetry.js +160 -160
package/src/windsurf/context.js +359 -359
package/src/windsurf/freshness.js +194 -194
package/src/windsurf/patch.js +231 -231
package/src/windsurf/techniques.js +3779 -3779

package/src/benchmark.js CHANGED Viewed

@@ -1,207 +1,207 @@
-const fs = require('fs');
-const os = require('os');
-const path = require('path');
+const fs = require('fs');
+const os = require('os');
+const path = require('path');
 const { version } = require('../package.json');
 const { audit } = require('./audit');
 const { setup } = require('./setup');
 const { analyzeProject } = require('./analyze');
 const { getGovernanceSummary } = require('./governance');
 const { formatTerminologyLines } = require('./terminology');
-function copyProject(sourceDir, targetDir) {
-  fs.mkdirSync(targetDir, { recursive: true });
-  const entries = fs.readdirSync(sourceDir, { withFileTypes: true });
-  for (const entry of entries) {
-    if (entry.name === '.git' || entry.name === 'node_modules' || entry.name === '__pycache__') {
-      continue;
-    }
-    const from = path.join(sourceDir, entry.name);
-    const to = path.join(targetDir, entry.name);
-    if (entry.isDirectory()) {
-      copyProject(from, to);
-    } else if (entry.isFile()) {
-      fs.copyFileSync(from, to);
-    } else if (entry.isSymbolicLink && entry.isSymbolicLink()) {
-      // Symlinks are skipped in benchmark sandbox — log for awareness
-      process.stderr.write(`  Note: symlink skipped in benchmark: ${entry.name}\n`);
-    }
-  }
-}
-function summarizeAudit(result) {
-  return {
-    score: result.score,
-    organicScore: result.organicScore,
-    passed: result.passed,
-    failed: result.failed,
-    checkCount: result.checkCount,
-    quickWins: result.quickWins,
-  };
-}
-function buildWorkflowEvidence(before, after, analysisReport, governanceSummary) {
-  const tasks = [
-    {
-      key: 'discover-without-writes',
-      label: 'Discover next actions without writing files',
-      passed: before.checkCount > 0 && Array.isArray(before.quickWins),
-      evidence: `Baseline audit returned ${before.checkCount} applicable checks and ${before.quickWins.length} quick wins.`,
-    },
-    {
-      key: 'starter-safe-improvement',
-      label: 'Apply starter-safe improvements in isolation',
-      passed: after.score >= before.score && after.failed <= before.failed,
-      evidence: `Score moved ${before.score} -> ${after.score}; failed checks moved ${before.failed} -> ${after.failed}.`,
-    },
-    {
-      key: 'governed-rollout-surface',
-      label: 'Expose governed rollout controls',
-      passed: governanceSummary.permissionProfiles.length >= 3 && governanceSummary.hookRegistry.length >= 1,
-      evidence: `${governanceSummary.permissionProfiles.length} profiles and ${governanceSummary.hookRegistry.length} governed hooks available.`,
-    },
-    {
-      key: 'domain-pack-guidance',
-      label: 'Recommend a domain pack for the repo',
-      passed: analysisReport.recommendedDomainPacks.length > 0,
-      evidence: analysisReport.recommendedDomainPacks.map(pack => pack.label).join(', ') || 'No domain pack recommendation generated.',
-    },
-    {
-      key: 'mcp-pack-guidance',
-      label: 'Recommend MCP packs when appropriate',
-      passed: analysisReport.recommendedMcpPacks.length > 0,
-      evidence: analysisReport.recommendedMcpPacks.map(pack => pack.label).join(', ') || 'No MCP pack recommendation generated.',
-    },
-  ];
-  const passed = tasks.filter(task => task.passed).length;
-  const total = tasks.length;
-  return {
-    taskPack: 'maintainer-core',
-    tasks,
-    summary: {
-      passed,
-      total,
-      coverageScore: total > 0 ? Math.round((passed / total) * 100) : 0,
-    },
-  };
-}
-function buildCodexWorkflowEvidence(before, after, applyResult, analysisReport, governanceSummary) {
-  const tasks = [
-    {
-      key: 'discover-without-writes',
-      label: 'Discover next actions without writing files',
-      passed: before.checkCount > 0 && Array.isArray(before.quickWins),
-      evidence: `Baseline audit returned ${before.checkCount} applicable checks and ${before.quickWins.length} quick wins.`,
-    },
-    {
-      key: 'starter-safe-improvement',
-      label: 'Apply starter-safe Codex baseline in isolation',
-      passed: after.score >= before.score && after.failed <= before.failed,
-      evidence: `Score moved ${before.score} -> ${after.score}; failed checks moved ${before.failed} -> ${after.failed}.`,
-    },
-    {
-      key: 'preserve-existing-files',
-      label: 'Preserve existing files instead of overwriting them',
-      passed: Array.isArray(applyResult.preservedFiles),
-      evidence: `${applyResult.preservedFiles ? applyResult.preservedFiles.length : 0} files were preserved instead of overwritten.`,
-    },
-    {
-      key: 'governed-rollout-surface',
-      label: 'Expose governed rollout controls',
-      passed: governanceSummary.permissionProfiles.length >= 3 && governanceSummary.hookRegistry.length >= 1,
-      evidence: `${governanceSummary.permissionProfiles.length} profiles and ${governanceSummary.hookRegistry.length} governance surfaces available.`,
-    },
-    {
-      key: 'domain-pack-guidance',
-      label: 'Recommend Codex domain packs for the repo',
-      passed: Array.isArray(analysisReport.recommendedDomainPacks) && analysisReport.recommendedDomainPacks.length > 0,
-      evidence: (analysisReport.recommendedDomainPacks || []).map((pack) => pack.label).join(', ') || 'No Codex domain pack recommendation generated.',
-    },
-    {
-      key: 'rollback-surface',
-      label: 'Emit rollback evidence for writes',
-      passed: Boolean(applyResult.rollbackArtifact),
-      evidence: applyResult.rollbackArtifact
-        ? `Rollback artifact emitted at ${applyResult.rollbackArtifact}.`
-        : 'No rollback artifact emitted.',
-    },
-  ];
-  const passed = tasks.filter((task) => task.passed).length;
-  const total = tasks.length;
-  return {
-    taskPack: 'codex-baseline',
-    tasks,
-    summary: {
-      passed,
-      total,
-      coverageScore: total > 0 ? Math.round((passed / total) * 100) : 0,
-    },
-  };
-}
-function buildExecutiveSummary(before, after, workflowEvidence) {
-  const scoreDelta = after.score - before.score;
-  const organicDelta = after.organicScore - before.organicScore;
-  const workflowCoverage = workflowEvidence.summary.coverageScore;
-  let headline = before.score >= 60
-    ? 'Setup is already applied — benchmark shows no additional improvement. Run benchmark on a project before running setup to see the full delta.'
-    : 'Benchmark did not improve the score in this run.';
-  if (scoreDelta < 0) {
-    headline = `Warning: score decreased by ${Math.abs(scoreDelta)} points. Setup may have introduced a regression.`;
-  } else if (scoreDelta > 0) {
-    headline = `Benchmark improved readiness by ${scoreDelta} points without touching the original repo.`;
-  } else if (before.score >= 85 && after.score >= before.score && workflowCoverage >= 80) {
-    headline = 'Benchmark confirmed the repo already meets the starter-safe baseline without regression.';
-  }
-  return {
-    headline,
-    scoreDelta,
-    organicDelta,
-    decisionGuidance: scoreDelta >= 20
-      ? 'Strong pilot candidate'
-      : scoreDelta >= 10
-        ? 'Promising but needs manual review'
-        : (before.score >= 85 && workflowCoverage >= 80
-          ? 'Use suggest-only mode, domain packs, or task-level benchmarks next'
-          : 'Use suggest-only mode before rollout'),
-  };
-}
-function buildPracticalValue(before, after, applyResult) {
-  const written = applyResult.writtenFiles || [];
-  return {
-    denyRulesAdded: written.includes('.claude/settings.json') ? 'yes' : 'no',
-    hooksCreated: written.filter(f => f.includes('hooks/')).length,
-    commandsCreated: written.filter(f => f.includes('commands/')).length,
-    agentsCreated: written.filter(f => f.includes('agents/')).length,
-    skillsCreated: written.filter(f => f.includes('skills/')).length,
-    rulesCreated: written.filter(f => f.includes('rules/')).length,
-    claudeMdCreated: written.includes('CLAUDE.md') ? 'yes' : 'no',
-    totalFilesCreated: written.length,
-    totalFilesPreserved: (applyResult.preservedFiles || []).length,
-  };
-}
-function buildCaseStudy(before, after, applyResult) {
-  return {
-    initialState: `Baseline score ${before.score}/100, organic ${before.organicScore}/100.`,
-    chosenMode: 'benchmark-on-isolated-copy',
-    whatChanged: applyResult.writtenFiles,
-    whatWasPreserved: applyResult.preservedFiles,
-    measuredResults: {
-      scoreDelta: after.score - before.score,
-      organicDelta: after.organicScore - before.organicScore,
-      passedDelta: after.passed - before.passed,
-    },
-    practicalValue: buildPracticalValue(before, after, applyResult),
-  };
-}
+function copyProject(sourceDir, targetDir) {
+  fs.mkdirSync(targetDir, { recursive: true });
+  const entries = fs.readdirSync(sourceDir, { withFileTypes: true });
+  for (const entry of entries) {
+    if (entry.name === '.git' || entry.name === 'node_modules' || entry.name === '__pycache__') {
+      continue;
+    }
+    const from = path.join(sourceDir, entry.name);
+    const to = path.join(targetDir, entry.name);
+    if (entry.isDirectory()) {
+      copyProject(from, to);
+    } else if (entry.isFile()) {
+      fs.copyFileSync(from, to);
+    } else if (entry.isSymbolicLink && entry.isSymbolicLink()) {
+      // Symlinks are skipped in benchmark sandbox — log for awareness
+      process.stderr.write(`  Note: symlink skipped in benchmark: ${entry.name}\n`);
+    }
+  }
+}
+function summarizeAudit(result) {
+  return {
+    score: result.score,
+    organicScore: result.organicScore,
+    passed: result.passed,
+    failed: result.failed,
+    checkCount: result.checkCount,
+    quickWins: result.quickWins,
+  };
+}
+function buildWorkflowEvidence(before, after, analysisReport, governanceSummary) {
+  const tasks = [
+    {
+      key: 'discover-without-writes',
+      label: 'Discover next actions without writing files',
+      passed: before.checkCount > 0 && Array.isArray(before.quickWins),
+      evidence: `Baseline audit returned ${before.checkCount} applicable checks and ${before.quickWins.length} quick wins.`,
+    },
+    {
+      key: 'starter-safe-improvement',
+      label: 'Apply starter-safe improvements in isolation',
+      passed: after.score >= before.score && after.failed <= before.failed,
+      evidence: `Score moved ${before.score} -> ${after.score}; failed checks moved ${before.failed} -> ${after.failed}.`,
+    },
+    {
+      key: 'governed-rollout-surface',
+      label: 'Expose governed rollout controls',
+      passed: governanceSummary.permissionProfiles.length >= 3 && governanceSummary.hookRegistry.length >= 1,
+      evidence: `${governanceSummary.permissionProfiles.length} profiles and ${governanceSummary.hookRegistry.length} governed hooks available.`,
+    },
+    {
+      key: 'domain-pack-guidance',
+      label: 'Recommend a domain pack for the repo',
+      passed: analysisReport.recommendedDomainPacks.length > 0,
+      evidence: analysisReport.recommendedDomainPacks.map(pack => pack.label).join(', ') || 'No domain pack recommendation generated.',
+    },
+    {
+      key: 'mcp-pack-guidance',
+      label: 'Recommend MCP packs when appropriate',
+      passed: analysisReport.recommendedMcpPacks.length > 0,
+      evidence: analysisReport.recommendedMcpPacks.map(pack => pack.label).join(', ') || 'No MCP pack recommendation generated.',
+    },
+  ];
+  const passed = tasks.filter(task => task.passed).length;
+  const total = tasks.length;
+  return {
+    taskPack: 'maintainer-core',
+    tasks,
+    summary: {
+      passed,
+      total,
+      coverageScore: total > 0 ? Math.round((passed / total) * 100) : 0,
+    },
+  };
+}
+function buildCodexWorkflowEvidence(before, after, applyResult, analysisReport, governanceSummary) {
+  const tasks = [
+    {
+      key: 'discover-without-writes',
+      label: 'Discover next actions without writing files',
+      passed: before.checkCount > 0 && Array.isArray(before.quickWins),
+      evidence: `Baseline audit returned ${before.checkCount} applicable checks and ${before.quickWins.length} quick wins.`,
+    },
+    {
+      key: 'starter-safe-improvement',
+      label: 'Apply starter-safe Codex baseline in isolation',
+      passed: after.score >= before.score && after.failed <= before.failed,
+      evidence: `Score moved ${before.score} -> ${after.score}; failed checks moved ${before.failed} -> ${after.failed}.`,
+    },
+    {
+      key: 'preserve-existing-files',
+      label: 'Preserve existing files instead of overwriting them',
+      passed: Array.isArray(applyResult.preservedFiles),
+      evidence: `${applyResult.preservedFiles ? applyResult.preservedFiles.length : 0} files were preserved instead of overwritten.`,
+    },
+    {
+      key: 'governed-rollout-surface',
+      label: 'Expose governed rollout controls',
+      passed: governanceSummary.permissionProfiles.length >= 3 && governanceSummary.hookRegistry.length >= 1,
+      evidence: `${governanceSummary.permissionProfiles.length} profiles and ${governanceSummary.hookRegistry.length} governance surfaces available.`,
+    },
+    {
+      key: 'domain-pack-guidance',
+      label: 'Recommend Codex domain packs for the repo',
+      passed: Array.isArray(analysisReport.recommendedDomainPacks) && analysisReport.recommendedDomainPacks.length > 0,
+      evidence: (analysisReport.recommendedDomainPacks || []).map((pack) => pack.label).join(', ') || 'No Codex domain pack recommendation generated.',
+    },
+    {
+      key: 'rollback-surface',
+      label: 'Emit rollback evidence for writes',
+      passed: Boolean(applyResult.rollbackArtifact),
+      evidence: applyResult.rollbackArtifact
+        ? `Rollback artifact emitted at ${applyResult.rollbackArtifact}.`
+        : 'No rollback artifact emitted.',
+    },
+  ];
+  const passed = tasks.filter((task) => task.passed).length;
+  const total = tasks.length;
+  return {
+    taskPack: 'codex-baseline',
+    tasks,
+    summary: {
+      passed,
+      total,
+      coverageScore: total > 0 ? Math.round((passed / total) * 100) : 0,
+    },
+  };
+}
+function buildExecutiveSummary(before, after, workflowEvidence) {
+  const scoreDelta = after.score - before.score;
+  const organicDelta = after.organicScore - before.organicScore;
+  const workflowCoverage = workflowEvidence.summary.coverageScore;
+  let headline = before.score >= 60
+    ? 'Setup is already applied — benchmark shows no additional improvement. Run benchmark on a project before running setup to see the full delta.'
+    : 'Benchmark did not improve the score in this run.';
+  if (scoreDelta < 0) {
+    headline = `Warning: score decreased by ${Math.abs(scoreDelta)} points. Setup may have introduced a regression.`;
+  } else if (scoreDelta > 0) {
+    headline = `Benchmark improved readiness by ${scoreDelta} points without touching the original repo.`;
+  } else if (before.score >= 85 && after.score >= before.score && workflowCoverage >= 80) {
+    headline = 'Benchmark confirmed the repo already meets the starter-safe baseline without regression.';
+  }
+  return {
+    headline,
+    scoreDelta,
+    organicDelta,
+    decisionGuidance: scoreDelta >= 20
+      ? 'Strong pilot candidate'
+      : scoreDelta >= 10
+        ? 'Promising but needs manual review'
+        : (before.score >= 85 && workflowCoverage >= 80
+          ? 'Use suggest-only mode, domain packs, or task-level benchmarks next'
+          : 'Use suggest-only mode before rollout'),
+  };
+}
+function buildPracticalValue(before, after, applyResult) {
+  const written = applyResult.writtenFiles || [];
+  return {
+    denyRulesAdded: written.includes('.claude/settings.json') ? 'yes' : 'no',
+    hooksCreated: written.filter(f => f.includes('hooks/')).length,
+    commandsCreated: written.filter(f => f.includes('commands/')).length,
+    agentsCreated: written.filter(f => f.includes('agents/')).length,
+    skillsCreated: written.filter(f => f.includes('skills/')).length,
+    rulesCreated: written.filter(f => f.includes('rules/')).length,
+    claudeMdCreated: written.includes('CLAUDE.md') ? 'yes' : 'no',
+    totalFilesCreated: written.length,
+    totalFilesPreserved: (applyResult.preservedFiles || []).length,
+  };
+}
+function buildCaseStudy(before, after, applyResult) {
+  return {
+    initialState: `Baseline score ${before.score}/100, organic ${before.organicScore}/100.`,
+    chosenMode: 'benchmark-on-isolated-copy',
+    whatChanged: applyResult.writtenFiles,
+    whatWasPreserved: applyResult.preservedFiles,
+    measuredResults: {
+      scoreDelta: after.score - before.score,
+      organicDelta: after.organicScore - before.organicScore,
+      passedDelta: after.passed - before.passed,
+    },
+    practicalValue: buildPracticalValue(before, after, applyResult),
+  };
+}
 function renderBenchmarkMarkdown(report) {
   return [
     '# NERVIQ CLI Benchmark Report',
@@ -232,65 +232,65 @@ function renderBenchmarkMarkdown(report) {
     `- Projected score delta: ${report.delta.score}`,
     `- Projected organic score delta: ${report.delta.organicScore}`,
     `- Passed checks delta: ${report.delta.passed}`,
-    '',
-    '## Executive Summary',
-    `- ${report.executiveSummary.headline}`,
-    `- Recommendation: ${report.executiveSummary.decisionGuidance}`,
-    '',
-    '## Workflow Evidence',
-    `- Task pack: ${report.workflowEvidence.taskPack}`,
-    `- Coverage: ${report.workflowEvidence.summary.passed}/${report.workflowEvidence.summary.total} (${report.workflowEvidence.summary.coverageScore}%)`,
-    ...report.workflowEvidence.tasks.map(task => `- ${task.label}: ${task.passed ? 'pass' : 'not yet'} — ${task.evidence}`),
-    '',
-    '## Case Study',
-    `- Initial state: ${report.caseStudy.initialState}`,
-    `- Chosen mode: ${report.caseStudy.chosenMode}`,
-    `- What changed: ${report.caseStudy.whatChanged.join(', ') || 'none'}`,
-    `- What was preserved: ${report.caseStudy.whatWasPreserved.join(', ') || 'none'}`,
-    '',
-  ].join('\n');
-}
-/**
- * Run a before/after benchmark on an isolated copy of the project.
- * @param {Object} options - Benchmark options.
- * @param {string} options.dir - Project directory to benchmark.
- * @param {string} [options.external] - External repo path to benchmark instead of cwd.
- * @param {string} [options.profile] - Permission profile to use during setup.
- * @param {string[]} [options.mcpPacks] - MCP pack keys to include in setup.
- * @returns {Promise<Object>} Benchmark report with before/after scores, delta, and workflow evidence.
- */
-async function runBenchmark(options) {
-  const platform = options.platform || 'claude';
-  const sourceDir = options.external || options.dir;
-  if (options.external && !fs.existsSync(options.external)) {
-    throw new Error(`External repo path not found: ${options.external}`);
-  }
-  const before = await audit({ dir: sourceDir, silent: true, platform });
-  const tempRoot = fs.mkdtempSync(path.join(os.tmpdir(), 'nerviq-benchmark-'));
-  const sandboxDir = path.join(tempRoot, 'repo');
-  try {
-    copyProject(sourceDir, sandboxDir);
-    const applyResult = await setup({
-      dir: sandboxDir,
-      auto: true,
-      silent: true,
-      profile: options.profile,
-      mcpPacks: options.mcpPacks || [],
-      platform,
-    });
-    const after = await audit({ dir: sandboxDir, silent: true, platform });
-    const analysisReport = await analyzeProject({ dir: sandboxDir, mode: 'suggest-only', platform });
-    const governanceSummary = getGovernanceSummary(platform);
-    const workflowEvidence = platform === 'codex'
-      ? buildCodexWorkflowEvidence(before, after, applyResult, analysisReport, governanceSummary)
-      : buildWorkflowEvidence(before, after, analysisReport, governanceSummary);
-    return {
-      schemaVersion: 1,
-      generatedBy: `nerviq@${version}`,
-      createdAt: new Date().toISOString(),
+    '',
+    '## Executive Summary',
+    `- ${report.executiveSummary.headline}`,
+    `- Recommendation: ${report.executiveSummary.decisionGuidance}`,
+    '',
+    '## Workflow Evidence',
+    `- Task pack: ${report.workflowEvidence.taskPack}`,
+    `- Coverage: ${report.workflowEvidence.summary.passed}/${report.workflowEvidence.summary.total} (${report.workflowEvidence.summary.coverageScore}%)`,
+    ...report.workflowEvidence.tasks.map(task => `- ${task.label}: ${task.passed ? 'pass' : 'not yet'} — ${task.evidence}`),
+    '',
+    '## Case Study',
+    `- Initial state: ${report.caseStudy.initialState}`,
+    `- Chosen mode: ${report.caseStudy.chosenMode}`,
+    `- What changed: ${report.caseStudy.whatChanged.join(', ') || 'none'}`,
+    `- What was preserved: ${report.caseStudy.whatWasPreserved.join(', ') || 'none'}`,
+    '',
+  ].join('\n');
+}
+/**
+ * Run a before/after benchmark on an isolated copy of the project.
+ * @param {Object} options - Benchmark options.
+ * @param {string} options.dir - Project directory to benchmark.
+ * @param {string} [options.external] - External repo path to benchmark instead of cwd.
+ * @param {string} [options.profile] - Permission profile to use during setup.
+ * @param {string[]} [options.mcpPacks] - MCP pack keys to include in setup.
+ * @returns {Promise<Object>} Benchmark report with before/after scores, delta, and workflow evidence.
+ */
+async function runBenchmark(options) {
+  const platform = options.platform || 'claude';
+  const sourceDir = options.external || options.dir;
+  if (options.external && !fs.existsSync(options.external)) {
+    throw new Error(`External repo path not found: ${options.external}`);
+  }
+  const before = await audit({ dir: sourceDir, silent: true, platform });
+  const tempRoot = fs.mkdtempSync(path.join(os.tmpdir(), 'nerviq-benchmark-'));
+  const sandboxDir = path.join(tempRoot, 'repo');
+  try {
+    copyProject(sourceDir, sandboxDir);
+    const applyResult = await setup({
+      dir: sandboxDir,
+      auto: true,
+      silent: true,
+      profile: options.profile,
+      mcpPacks: options.mcpPacks || [],
+      platform,
+    });
+    const after = await audit({ dir: sandboxDir, silent: true, platform });
+    const analysisReport = await analyzeProject({ dir: sandboxDir, mode: 'suggest-only', platform });
+    const governanceSummary = getGovernanceSummary(platform);
+    const workflowEvidence = platform === 'codex'
+      ? buildCodexWorkflowEvidence(before, after, applyResult, analysisReport, governanceSummary)
+      : buildWorkflowEvidence(before, after, analysisReport, governanceSummary);
+    return {
+      schemaVersion: 1,
+      generatedBy: `nerviq@${version}`,
+      createdAt: new Date().toISOString(),
       directory: sourceDir,
       platform,
       scoreSemantics: {
@@ -299,34 +299,34 @@ async function runBenchmark(options) {
         organic: 'repo-owned config quality excluding starter-generated Nerviq assets',
       },
       methodology: [
-        'Run a baseline audit on the source repo.',
-        'Copy the repo into a temporary isolated workspace.',
-        `Apply starter-safe ${platform === 'codex' ? 'Codex' : 'Claude'} artifacts only on the isolated copy.`,
-        'Re-run the audit and compare the results.',
-      ],
-      before: summarizeAudit(before),
-      after: summarizeAudit(after),
-      delta: {
-        score: after.score - before.score,
-        organicScore: after.organicScore - before.organicScore,
-        passed: after.passed - before.passed,
-        failed: after.failed - before.failed,
-      },
-      workflowEvidence,
-      executiveSummary: buildExecutiveSummary(before, after, workflowEvidence),
-      caseStudy: buildCaseStudy(before, after, applyResult),
-    };
-  } finally {
-    fs.rmSync(tempRoot, { recursive: true, force: true });
-  }
-}
-function printBenchmark(report, options = {}) {
-  if (options.json) {
-    console.log(JSON.stringify(report, null, 2));
-    return;
-  }
+        'Run a baseline audit on the source repo.',
+        'Copy the repo into a temporary isolated workspace.',
+        `Apply starter-safe ${platform === 'codex' ? 'Codex' : 'Claude'} artifacts only on the isolated copy.`,
+        'Re-run the audit and compare the results.',
+      ],
+      before: summarizeAudit(before),
+      after: summarizeAudit(after),
+      delta: {
+        score: after.score - before.score,
+        organicScore: after.organicScore - before.organicScore,
+        passed: after.passed - before.passed,
+        failed: after.failed - before.failed,
+      },
+      workflowEvidence,
+      executiveSummary: buildExecutiveSummary(before, after, workflowEvidence),
+      caseStudy: buildCaseStudy(before, after, applyResult),
+    };
+  } finally {
+    fs.rmSync(tempRoot, { recursive: true, force: true });
+  }
+}
+function printBenchmark(report, options = {}) {
+  if (options.json) {
+    console.log(JSON.stringify(report, null, 2));
+    return;
+  }
   console.log('');
   console.log('  nerviq benchmark');
   console.log('  ═══════════════════════════════════════');
@@ -350,17 +350,17 @@ function printBenchmark(report, options = {}) {
   }
   console.log('');
 }
-function writeBenchmarkReport(report, outFile) {
-  fs.mkdirSync(path.dirname(outFile), { recursive: true });
-  const content = path.extname(outFile).toLowerCase() === '.md'
-    ? renderBenchmarkMarkdown(report)
-    : JSON.stringify(report, null, 2);
-  fs.writeFileSync(outFile, content, 'utf8');
-}
-module.exports = {
-  runBenchmark,
-  printBenchmark,
-  writeBenchmarkReport,
-};
+function writeBenchmarkReport(report, outFile) {
+  fs.mkdirSync(path.dirname(outFile), { recursive: true });
+  const content = path.extname(outFile).toLowerCase() === '.md'
+    ? renderBenchmarkMarkdown(report)
+    : JSON.stringify(report, null, 2);
+  fs.writeFileSync(outFile, content, 'utf8');
+}
+module.exports = {
+  runBenchmark,
+  printBenchmark,
+  writeBenchmarkReport,
+};