npm - selftune - Versions diffs - 0.2.31 → 0.2.32 - Mend

selftune 0.2.31 → 0.2.32

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (95) hide show

package/README.md +83 -56
package/apps/local-dashboard/dist/assets/index-B-ut4w0B.js +15 -0
package/apps/local-dashboard/dist/assets/index-BFGfCVrL.css +1 -0
package/apps/local-dashboard/dist/assets/vendor-ui-DfowE3Hu.js +1 -0
package/apps/local-dashboard/dist/index.html +3 -3
package/cli/selftune/command-surface.ts +613 -2
package/cli/selftune/create/baseline.ts +429 -0
package/cli/selftune/create/check.ts +35 -0
package/cli/selftune/create/init.ts +115 -0
package/cli/selftune/create/package-candidate-state.ts +771 -0
package/cli/selftune/create/package-evaluator.ts +710 -0
package/cli/selftune/create/package-fingerprint.ts +142 -0
package/cli/selftune/create/package-search.ts +377 -0
package/cli/selftune/create/publish.ts +431 -0
package/cli/selftune/create/readiness.ts +495 -0
package/cli/selftune/create/replay.ts +330 -0
package/cli/selftune/create/report.ts +74 -0
package/cli/selftune/create/scaffold.ts +121 -0
package/cli/selftune/create/skills-ref-adapter.ts +177 -0
package/cli/selftune/create/status.ts +33 -0
package/cli/selftune/create/templates.ts +249 -0
package/cli/selftune/cron/setup.ts +1 -1
package/cli/selftune/dashboard-action-events.ts +4 -1
package/cli/selftune/dashboard-action-result.ts +789 -24
package/cli/selftune/dashboard-action-stream.ts +80 -0
package/cli/selftune/dashboard-contract.ts +146 -3
package/cli/selftune/dashboard-server.ts +5 -4
package/cli/selftune/eval/hooks-to-evals.ts +58 -35
package/cli/selftune/eval/synthetic-evals.ts +145 -17
package/cli/selftune/evolution/bounded-mutations.ts +1045 -0
package/cli/selftune/evolution/evolve-body.ts +9 -36
package/cli/selftune/evolution/evolve.ts +8 -72
package/cli/selftune/evolution/stopping-criteria.ts +5 -13
package/cli/selftune/evolution/unblock-suggestions.ts +0 -16
package/cli/selftune/evolution/validate-host-replay.ts +115 -15
package/cli/selftune/improve.ts +206 -0
package/cli/selftune/index.ts +123 -6
package/cli/selftune/init.ts +1 -1
package/cli/selftune/localdb/queries/dashboard.ts +30 -0
package/cli/selftune/localdb/schema.ts +52 -0
package/cli/selftune/monitoring/watch.ts +257 -23
package/cli/selftune/orchestrate/execute.ts +300 -1
package/cli/selftune/orchestrate/finalize.ts +14 -0
package/cli/selftune/orchestrate/plan.ts +22 -5
package/cli/selftune/orchestrate/prepare.ts +59 -4
package/cli/selftune/orchestrate/report.ts +1 -1
package/cli/selftune/orchestrate.ts +34 -1
package/cli/selftune/publish.ts +35 -0
package/cli/selftune/routes/actions.ts +81 -15
package/cli/selftune/routes/overview.ts +1 -1
package/cli/selftune/routes/skill-report.ts +147 -2
package/cli/selftune/run.ts +18 -0
package/cli/selftune/schedule.ts +3 -3
package/cli/selftune/search-run.ts +703 -0
package/cli/selftune/status.ts +35 -11
package/cli/selftune/testing-readiness.ts +431 -40
package/cli/selftune/types.ts +316 -0
package/cli/selftune/utils/eval-readiness.ts +1 -0
package/cli/selftune/utils/json-output.ts +11 -0
package/cli/selftune/utils/lifecycle-surface.ts +48 -0
package/cli/selftune/utils/query-filter.ts +82 -1
package/cli/selftune/utils/tui.ts +85 -2
package/cli/selftune/verify.ts +205 -0
package/cli/selftune/workflows/proposals.ts +1 -1
package/cli/selftune/workflows/skill-scaffold.ts +141 -63
package/cli/selftune/workflows/workflows.ts +4 -4
package/package.json +1 -1
package/skill/SKILL.md +148 -85
package/skill/references/cli-quick-reference.md +16 -1
package/skill/references/creator-playbook.md +31 -10
package/skill/workflows/Baseline.md +8 -9
package/skill/workflows/Contributions.md +4 -4
package/skill/workflows/Create.md +173 -0
package/skill/workflows/CreateTestDeploy.md +34 -30
package/skill/workflows/Cron.md +2 -2
package/skill/workflows/Dashboard.md +3 -3
package/skill/workflows/Evals.md +13 -7
package/skill/workflows/Evolve.md +75 -32
package/skill/workflows/EvolveBody.md +22 -15
package/skill/workflows/Hook.md +1 -1
package/skill/workflows/Improve.md +168 -0
package/skill/workflows/Initialize.md +3 -3
package/skill/workflows/Orchestrate.md +49 -12
package/skill/workflows/Publish.md +100 -0
package/skill/workflows/Run.md +72 -0
package/skill/workflows/Schedule.md +2 -2
package/skill/workflows/SearchRun.md +89 -0
package/skill/workflows/SignalsDashboard.md +2 -2
package/skill/workflows/UnitTest.md +13 -4
package/skill/workflows/Verify.md +136 -0
package/skill/workflows/Watch.md +114 -47
package/skill/workflows/Workflows.md +13 -8
package/apps/local-dashboard/dist/assets/index-B7v_o1WC.js +0 -15
package/apps/local-dashboard/dist/assets/index-CrO77SVi.css +0 -1
package/apps/local-dashboard/dist/assets/vendor-ui-B0H8s1mP.js +0 -1

package/cli/selftune/types.ts CHANGED Viewed

@@ -745,6 +745,7 @@ export interface BodyEvolutionProposal {
 export type ValidationGate = "structural" | "trigger_accuracy" | "quality";
 export type ValidationMode = "structural_guard" | "host_replay" | "llm_judge";
+export type ReplayStagingMode = "routing" | "package";
 export interface RoutingReplayFixture {
   fixture_id: string;
@@ -753,6 +754,7 @@ export interface RoutingReplayFixture {
   target_skill_path: string;
   competing_skill_paths: string[];
   workspace_root?: string;
+  skill_staging_mode?: ReplayStagingMode;
 }
 export interface RoutingReplayEntryResult {
@@ -761,6 +763,30 @@ export interface RoutingReplayEntryResult {
   triggered: boolean;
   passed: boolean;
   evidence?: string;
+  runtime_metrics?: RuntimeReplayEntryMetrics;
+}
+export interface RuntimeReplayEntryMetrics {
+  input_tokens: number | null;
+  output_tokens: number | null;
+  cache_creation_input_tokens: number | null;
+  cache_read_input_tokens: number | null;
+  total_cost_usd: number | null;
+  duration_ms: number | null;
+  num_turns: number | null;
+}
+export interface RuntimeReplayAggregateMetrics {
+  eval_runs: number;
+  usage_observations: number;
+  total_duration_ms: number;
+  avg_duration_ms: number;
+  total_input_tokens: number | null;
+  total_output_tokens: number | null;
+  total_cache_creation_input_tokens: number | null;
+  total_cache_read_input_tokens: number | null;
+  total_cost_usd: number | null;
+  total_turns: number | null;
 }
 /** Result of validating a body evolution proposal. */
@@ -808,11 +834,193 @@ export interface BaselineResult {
   with_skill: boolean;
   triggered: boolean;
   pass: boolean;
+  evidence?: string;
   latency_ms?: number;
   tokens?: TokenUsageMetrics;
   measured_at: string;
 }
+export type CreatePackageEvaluationStatus = "passed" | "replay_failed" | "baseline_failed";
+export interface CreatePackageReplaySummary {
+  mode: ReplayStagingMode;
+  validation_mode: "host_replay";
+  agent: string;
+  proposal_id: string;
+  fixture_id: string;
+  total: number;
+  passed: number;
+  failed: number;
+  pass_rate: number;
+  runtime_metrics?: RuntimeReplayAggregateMetrics;
+}
+export interface CreatePackageBaselineSummary {
+  mode: ReplayStagingMode;
+  baseline_pass_rate: number;
+  with_skill_pass_rate: number;
+  lift: number;
+  adds_value: boolean;
+  measured_at: string;
+  sample_size?: number;
+  runtime_metrics?: {
+    with_skill: RuntimeReplayAggregateMetrics;
+    without_skill: RuntimeReplayAggregateMetrics;
+  };
+}
+export interface CreatePackageEvaluationEvidenceSample {
+  query: string;
+  evidence: string | null;
+}
+export interface CreatePackageEvaluationEvidenceSummary {
+  replay_failures: number;
+  baseline_wins: number;
+  baseline_regressions: number;
+  replay_failure_samples: CreatePackageEvaluationEvidenceSample[];
+  baseline_win_samples: CreatePackageEvaluationEvidenceSample[];
+  baseline_regression_samples: CreatePackageEvaluationEvidenceSample[];
+}
+export interface CreatePackageEvaluationEfficiencySummary {
+  with_skill: RuntimeReplayAggregateMetrics;
+  without_skill: RuntimeReplayAggregateMetrics;
+}
+export interface CreatePackageEvaluationWatchEfficiencyRegressionSummary {
+  sample_size: number;
+  baseline_avg_duration_ms: number | null;
+  observed_avg_duration_ms: number | null;
+  duration_delta_ratio: number | null;
+  baseline_avg_input_tokens: number | null;
+  observed_avg_input_tokens: number | null;
+  input_tokens_delta_ratio: number | null;
+  baseline_avg_output_tokens: number | null;
+  observed_avg_output_tokens: number | null;
+  output_tokens_delta_ratio: number | null;
+  baseline_avg_turns: number | null;
+  observed_avg_turns: number | null;
+  turns_delta_ratio: number | null;
+}
+export interface CreatePackageEvaluationWatchSummary {
+  snapshot: MonitoringSnapshot;
+  alert: string | null;
+  rolled_back: boolean;
+  recommendation: string;
+  recommended_command: string | null;
+  grade_alert: string | null;
+  grade_regression: { before: number; after: number; delta: number } | null;
+  efficiency_alert?: string | null;
+  efficiency_regression?: CreatePackageEvaluationWatchEfficiencyRegressionSummary | null;
+}
+export interface CreatePackageEvaluationGradingBaselineSummary {
+  proposal_id: string | null;
+  measured_at: string;
+  pass_rate: number;
+  mean_score: number | null;
+  sample_size: number;
+}
+export interface CreatePackageEvaluationGradingRecentSummary {
+  sample_size: number;
+  average_pass_rate: number | null;
+  average_mean_score: number | null;
+  newest_graded_at: string | null;
+  oldest_graded_at: string | null;
+}
+export interface CreatePackageEvaluationGradingSummary {
+  baseline: CreatePackageEvaluationGradingBaselineSummary | null;
+  recent: CreatePackageEvaluationGradingRecentSummary | null;
+  pass_rate_delta: number | null;
+  mean_score_delta: number | null;
+  regressed: boolean | null;
+}
+export interface CreatePackageEvaluationUnitTestFailureSummary {
+  test_id: string;
+  error: string | null;
+  failed_assertions: string[];
+}
+export interface CreatePackageEvaluationUnitTestSummary {
+  total: number;
+  passed: number;
+  failed: number;
+  pass_rate: number;
+  run_at: string;
+  failing_tests: CreatePackageEvaluationUnitTestFailureSummary[];
+}
+export interface CreatePackageBodySummary {
+  structural_valid: boolean;
+  structural_reason: string;
+  quality_score: number | null;
+  quality_reason: string | null;
+  quality_threshold: number;
+  quality_passed: boolean | null;
+  valid: boolean;
+}
+export type CreatePackageEvaluationSource = "fresh" | "artifact_cache" | "candidate_cache";
+export type CreatePackageCandidateAcceptanceDecision = "root" | "accepted" | "rejected";
+export interface CreatePackageCandidateAcceptanceSummary {
+  decision: CreatePackageCandidateAcceptanceDecision;
+  compared_to_candidate_id: string | null;
+  decided_at: string;
+  rationale: string;
+  replay_pass_rate_delta: number | null;
+  routing_pass_rate_delta: number | null;
+  baseline_lift_delta: number | null;
+  body_quality_delta: number | null;
+  unit_test_pass_rate_delta: number | null;
+}
+export interface CreatePackageEvaluationSummary {
+  skill_name: string;
+  skill_path: string;
+  mode: ReplayStagingMode;
+  package_fingerprint?: string;
+  candidate_id?: string;
+  parent_candidate_id?: string | null;
+  candidate_generation?: number | null;
+  evaluation_source?: CreatePackageEvaluationSource;
+  status: CreatePackageEvaluationStatus;
+  evaluation_passed: boolean;
+  next_command: string | null;
+  replay: CreatePackageReplaySummary;
+  routing?: CreatePackageReplaySummary;
+  baseline: CreatePackageBaselineSummary;
+  evidence?: CreatePackageEvaluationEvidenceSummary;
+  efficiency?: CreatePackageEvaluationEfficiencySummary;
+  grading?: CreatePackageEvaluationGradingSummary;
+  body?: CreatePackageBodySummary;
+  unit_tests?: CreatePackageEvaluationUnitTestSummary;
+  watch?: CreatePackageEvaluationWatchSummary;
+  candidate_acceptance?: CreatePackageCandidateAcceptanceSummary;
+}
+export interface CreatePackageCandidateRecord {
+  candidate_id: string;
+  skill_name: string;
+  skill_path: string;
+  package_fingerprint: string;
+  parent_candidate_id: string | null;
+  candidate_generation: number;
+  evaluation_count: number;
+  first_evaluated_at: string;
+  last_evaluated_at: string;
+  latest_status: CreatePackageEvaluationStatus;
+  latest_evaluation_source: CreatePackageEvaluationSource | null;
+  latest_acceptance_decision: CreatePackageCandidateAcceptanceDecision | null;
+  artifact_path: string | null;
+  summary: CreatePackageEvaluationSummary;
+}
 // ---------------------------------------------------------------------------
 // Skill unit test types
 // ---------------------------------------------------------------------------
@@ -863,6 +1071,78 @@ export interface UnitTestSuiteResult {
   run_at: string;
 }
+export interface AgentSkillValidationIssue {
+  level: "error" | "warning";
+  code: string;
+  message: string;
+  path?: string;
+}
+export interface AgentSkillValidationResult {
+  ok: boolean;
+  issues: AgentSkillValidationIssue[];
+  raw_stdout: string;
+  raw_stderr: string;
+  exit_code: number | null;
+  validator: "skills-ref";
+  command: string | null;
+}
+export type CreateCheckState =
+  | "blocked_spec_validation"
+  | "needs_spec_validation"
+  | "needs_package_resources"
+  | "needs_evals"
+  | "needs_unit_tests"
+  | "needs_routing_replay"
+  | "needs_baseline"
+  | "ready_to_publish";
+export interface CreateCheckChecks {
+  skill_md: boolean;
+  frontmatter_present: boolean;
+  skill_name_matches_dir: boolean;
+  description_present: boolean;
+  description_within_budget: boolean;
+  skill_md_within_line_budget: boolean;
+  manifest_present: boolean;
+  workflow_entry: boolean;
+  references_present: boolean;
+  scripts_present: boolean;
+  assets_present: boolean;
+  evals_present: boolean;
+  unit_tests_present: boolean;
+  routing_replay_ready: boolean;
+  routing_replay_recorded: boolean;
+  package_replay_ready: boolean;
+  baseline_present: boolean;
+}
+export interface CreateCheckReadiness {
+  ok: boolean;
+  state: CreateCheckState;
+  summary: string;
+  next_command: string | null;
+  checks: CreateCheckChecks;
+  skill_name: string;
+  skill_dir: string;
+  skill_path: string;
+  entry_workflow: string;
+  manifest_present: boolean;
+  description_quality: DescriptionQualityScore;
+}
+export interface CreateCheckResult {
+  skill: string;
+  skill_dir: string;
+  skill_path: string;
+  ok: boolean;
+  state: CreateCheckState;
+  next_command: string | null;
+  spec_validation: AgentSkillValidationResult;
+  readiness: CreateCheckReadiness;
+}
 // ---------------------------------------------------------------------------
 // Composability types
 // ---------------------------------------------------------------------------
@@ -1034,3 +1314,39 @@ export interface WorkflowDiscoveryReport {
   total_sessions_analyzed: number;
   generated_at: string;
 }
+// ---------------------------------------------------------------------------
+// Package search types (bounded package evolution)
+// ---------------------------------------------------------------------------
+/** Provenance trail for a package search run. */
+export interface PackageSearchProvenance {
+  frontier_size: number;
+  parent_selection_method: string;
+  candidate_fingerprints: string[];
+  surface_plan?: {
+    routing_count: number;
+    body_count: number;
+    weakness_source: string;
+    routing_weakness: number | null;
+    body_weakness: number | null;
+  };
+  evaluation_summaries: Array<{
+    candidate_id: string;
+    decision: string;
+    rationale: string;
+  }>;
+}
+/** Result of a bounded package search run. */
+export interface PackageSearchRunResult {
+  search_id: string;
+  skill_name: string;
+  parent_candidate_id: string | null;
+  candidates_evaluated: number;
+  winner_candidate_id: string | null;
+  winner_rationale: string | null;
+  started_at: string;
+  completed_at: string;
+  provenance: PackageSearchProvenance;
+}

package/cli/selftune/utils/eval-readiness.ts ADDED Viewed

	@@ -0,0 +1 @@
1	+ export const MIN_LOG_READY_POSITIVES = 3;

package/cli/selftune/utils/json-output.ts ADDED Viewed

@@ -0,0 +1,11 @@
+export function extractJsonObject(text: string): Record<string, unknown> | null {
+  const trimmed = text.trim();
+  if (!trimmed.startsWith("{") || !trimmed.endsWith("}")) return null;
+  try {
+    const parsed = JSON.parse(trimmed) as unknown;
+    return parsed && typeof parsed === "object" ? (parsed as Record<string, unknown>) : null;
+  } catch {
+    return null;
+  }
+}

package/cli/selftune/utils/lifecycle-surface.ts ADDED Viewed

@@ -0,0 +1,48 @@
+export function normalizeLifecycleCommand(command: string | null | undefined): string | null {
+  if (!command) return null;
+  let normalized = command;
+  normalized = normalized.replace(/\bselftune create replay\b/g, "selftune verify");
+  normalized = normalized.replace(/\bselftune create baseline\b/g, "selftune verify");
+  normalized = normalized.replace(/\bselftune create check\b/g, "selftune verify");
+  normalized = normalized.replace(/\bselftune create publish\b/g, "selftune publish");
+  normalized = normalized.replace(/\bselftune evolve[- ]body\b/g, "selftune improve --scope body");
+  normalized = normalized.replace(/\bselftune evolve\b/g, "selftune improve");
+  normalized = normalized.replace(/\bselftune search-run\b/g, "selftune improve --scope package");
+  normalized = normalized.replace(/\bselftune orchestrate\b/g, "selftune run");
+  normalized = normalized.replace(/\s+--watch(?=\s|$)/g, "");
+  normalized = normalized.replace(/\s{2,}/g, " ").trim();
+  return normalized;
+}
+export function normalizeLifecycleText(text: string | null | undefined): string {
+  if (!text) return "";
+  return text
+    .replace(/\bRun create replay\b/g, "Run verify")
+    .replace(/\brun create replay\b/g, "run verify")
+    .replace(/\bcreate replay\b/g, "verify")
+    .replace(/\bCreate replay\b/g, "Verify")
+    .replace(/\bRun create baseline\b/g, "Run verify")
+    .replace(/\brun create baseline\b/g, "run verify")
+    .replace(/\bcreate baseline\b/g, "verify")
+    .replace(/\bCreate baseline\b/g, "Verify")
+    .replace(/\bRun create check\b/g, "Run verify")
+    .replace(/\brun create check\b/g, "run verify")
+    .replace(/\bcreate check\b/g, "verify")
+    .replace(/\bCreate check\b/g, "Verify")
+    .replace(/\bRun create publish\b/g, "Run publish")
+    .replace(/\brun create publish\b/g, "run publish")
+    .replace(/\bcreate publish\b/g, "publish")
+    .replace(/\bCreate publish\b/g, "Publish")
+    .replace(/\bevolve body\b/g, "improve --scope body")
+    .replace(/\bEvolve body\b/g, "Improve --scope body")
+    .replace(/\bevolve\b/g, "improve")
+    .replace(/\bEvolve\b/g, "Improve")
+    .replace(/\bsearch-run\b/g, "improve --scope package")
+    .replace(/\bSearch-run\b/g, "Improve --scope package")
+    .replace(/\bselftune orchestrate\b/g, "selftune run")
+    .replace(/\bOrchestrate\b/g, "Run")
+    .replace(/\borchestrate\b/g, "run");
+}

package/cli/selftune/utils/query-filter.ts CHANGED Viewed

@@ -53,6 +53,42 @@ const LEADING_WRAPPED_QUERY_TAGS = [
   "local-command-stdout",
   "local-command-stderr",
   "command-name",
+  "command-message",
+  "command-args",
+] as const;
+const SKILL_MAINTENANCE_VERBS = [
+  "grade",
+  "review",
+  "audit",
+  "inspect",
+  "analyze",
+  "analyse",
+  "understand",
+  "explain",
+  "find",
+  "locate",
+  "update",
+  "fix",
+  "repair",
+  "improve",
+  "debug",
+  "document",
+  "publish api",
+] as const;
+const SKILL_MAINTENANCE_NOUNS = [
+  "skill",
+  "skills",
+  "readme",
+  "docs",
+  "documentation",
+  "workflow",
+  "workflows",
+  "reference",
+  "references",
+  "files",
+  "format",
 ] as const;
 function stripLeadingWrappedQueryText(query: string): string {
@@ -81,7 +117,7 @@ export function extractActionableQueryText(query: string): string | null {
   const trimmed = query.trim();
   if (!trimmed || trimmed === "-" || trimmed === "(query not found)") return null;
-  const candidate = stripLeadingWrappedQueryText(trimmed) || trimmed;
+  const candidate = stripLeadingWrappedQueryText(trimmed);
   if (!candidate || candidate === "-" || candidate === "(query not found)") return null;
   const isBlocked =
@@ -92,6 +128,51 @@ export function extractActionableQueryText(query: string): string | null {
   return isBlocked ? null : candidate;
 }
+function normalizeSkillNameVariants(skillName: string): string[] {
+  const trimmed = skillName.trim();
+  if (!trimmed) return [];
+  const variants = new Set<string>();
+  const lower = trimmed.toLowerCase();
+  variants.add(lower);
+  variants.add(lower.replace(/[-_]+/g, " "));
+  variants.add(lower.replace(/[-_\s]+/g, ""));
+  variants.add(
+    trimmed
+      .replace(/([a-z0-9])([A-Z])/g, "$1 $2")
+      .replace(/[-_]+/g, " ")
+      .toLowerCase(),
+  );
+  return [...variants].filter(Boolean);
+}
+export function isLikelySkillMaintenanceQuery(query: string, skillName?: string): boolean {
+  const candidate = extractActionableQueryText(query);
+  if (!candidate) return false;
+  const lowered = candidate.toLowerCase().replace(/\s+/g, " ").trim();
+  const mentionsMaintenanceVerb = SKILL_MAINTENANCE_VERBS.some((verb) => lowered.includes(verb));
+  const mentionsMaintenanceNoun = SKILL_MAINTENANCE_NOUNS.some((noun) => lowered.includes(noun));
+  const mentionsHowItWorks = /\bhow\b[\s\S]{0,80}\bworks?\b/.test(lowered);
+  const mentionsSkillName = skillName
+    ? normalizeSkillNameVariants(skillName).some(
+        (variant) => variant.length > 0 && lowered.includes(variant),
+      )
+    : false;
+  if (mentionsHowItWorks && mentionsSkillName) return true;
+  if (mentionsMaintenanceVerb && mentionsMaintenanceNoun) return true;
+  if (mentionsMaintenanceVerb && mentionsSkillName) return true;
+  return false;
+}
+export function extractPositiveEvalQueryText(query: string, skillName?: string): string | null {
+  const candidate = extractActionableQueryText(query);
+  if (!candidate) return null;
+  return isLikelySkillMaintenanceQuery(candidate, skillName) ? null : candidate;
+}
 export function isActionableQueryText(query: string): boolean {
   return extractActionableQueryText(query) !== null;
 }

package/cli/selftune/utils/tui.ts CHANGED Viewed

@@ -26,13 +26,96 @@ function createNoopTUI(): EvolveTUI {
   return { step() {}, done() {}, fail() {}, finish() {}, destroy() {} };
 }
+function createPlainTextTUI(opts: { skillName: string; model: string }): EvolveTUI {
+  const write = (s: string) => process.stderr.write(s);
+  let stepStartTime = Date.now();
+  let currentLabel = "";
+  let hasActiveStep = false;
+  let destroyed = false;
+  const checkMark = process.env.NO_COLOR ? "+" : "\u2713";
+  const crossMark = process.env.NO_COLOR ? "x" : "\u2717";
+  write(`\n  selftune evolve \u2500\u2500 ${opts.skillName} \u2500\u2500 ${opts.model}\n\n`);
+  function formatTime(ms: number): string {
+    return `${(ms / 1000).toFixed(1)}s`;
+  }
+  function writeStartedLine(label: string): void {
+    write(`  -> ${label}\n`);
+  }
+  function writeCompletedLine(marker: string, label: string, elapsed: number): void {
+    const time = formatTime(elapsed);
+    const padding = Math.max(1, 48 - label.length);
+    write(`  ${marker} ${label}${" ".repeat(padding)}${time}\n`);
+  }
+  function completeCurrentStep(marker: string, label: string): void {
+    const elapsed = Date.now() - stepStartTime;
+    hasActiveStep = false;
+    writeCompletedLine(marker, label, elapsed);
+  }
+  return {
+    step(label: string): void {
+      if (destroyed) return;
+      if (hasActiveStep) {
+        completeCurrentStep(checkMark, currentLabel);
+      }
+      currentLabel = label;
+      stepStartTime = Date.now();
+      hasActiveStep = true;
+      writeStartedLine(label);
+    },
+    done(label: string): void {
+      if (destroyed) return;
+      if (hasActiveStep) {
+        completeCurrentStep(checkMark, label);
+      } else {
+        writeCompletedLine(checkMark, label, 0);
+      }
+      currentLabel = "";
+    },
+    fail(label: string): void {
+      if (destroyed) return;
+      if (hasActiveStep) {
+        completeCurrentStep(crossMark, label);
+      } else {
+        writeCompletedLine(crossMark, label, 0);
+      }
+      currentLabel = "";
+    },
+    finish(summary: string): void {
+      if (destroyed) return;
+      if (hasActiveStep) {
+        completeCurrentStep(checkMark, currentLabel);
+      }
+      write(`\n  ${summary}\n`);
+      destroyed = true;
+    },
+    destroy(): void {
+      destroyed = true;
+      hasActiveStep = false;
+      currentLabel = "";
+    },
+  };
+}
 export function createEvolveTUI(opts: { skillName: string; model: string }): EvolveTUI {
   const noColor = !!process.env.NO_COLOR;
   const isTTY = !!process.stderr.isTTY;
+  const isTestEnvironment = process.env.BUN_ENV?.includes("test");
-  // If not a TTY, return no-op to avoid ANSI noise in pipes/tests
+  // Non-interactive agent runs still need durable progress lines. Keep tests
+  // silent by default unless explicitly forced.
   if (!isTTY && !process.env.SELFTUNE_TUI_FORCE) {
-    return createNoopTUI();
+    return isTestEnvironment ? createNoopTUI() : createPlainTextTUI(opts);
   }
   const write = (s: string) => process.stderr.write(s);