npm - selftune - Versions diffs - 0.2.0 → 0.2.2 - Mend

selftune 0.2.0 → 0.2.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (122) hide show

package/.claude/agents/diagnosis-analyst.md +20 -10
package/.claude/agents/evolution-reviewer.md +14 -1
package/.claude/agents/integration-guide.md +18 -6
package/.claude/agents/pattern-analyst.md +18 -5
package/CHANGELOG.md +12 -4
package/README.md +43 -35
package/apps/local-dashboard/dist/assets/geist-cyrillic-wght-normal-CHSlOQsW.woff2 +0 -0
package/apps/local-dashboard/dist/assets/geist-latin-ext-wght-normal-DMtmJ5ZE.woff2 +0 -0
package/apps/local-dashboard/dist/assets/geist-latin-wght-normal-Dm3htQBi.woff2 +0 -0
package/apps/local-dashboard/dist/assets/index-C4EOTFZ2.js +15 -0
package/apps/local-dashboard/dist/assets/index-bl-Webyd.css +1 -0
package/apps/local-dashboard/dist/assets/vendor-react-U7zYD9Rg.js +60 -0
package/apps/local-dashboard/dist/assets/vendor-table-B7VF2Ipl.js +26 -0
package/apps/local-dashboard/dist/assets/vendor-ui-D7_zX_qy.js +346 -0
package/apps/local-dashboard/dist/favicon.png +0 -0
package/apps/local-dashboard/dist/index.html +17 -0
package/apps/local-dashboard/dist/logo.png +0 -0
package/apps/local-dashboard/dist/logo.svg +9 -0
package/cli/selftune/badge/badge-data.ts +1 -1
package/cli/selftune/badge/badge.ts +4 -8
package/cli/selftune/canonical-export.ts +183 -0
package/cli/selftune/constants.ts +28 -0
package/cli/selftune/contribute/contribute.ts +1 -1
package/cli/selftune/cron/setup.ts +17 -17
package/cli/selftune/dashboard-contract.ts +202 -0
package/cli/selftune/dashboard-server.ts +653 -186
package/cli/selftune/dashboard.ts +41 -176
package/cli/selftune/eval/baseline.ts +5 -4
package/cli/selftune/eval/composability-v2.ts +273 -0
package/cli/selftune/eval/hooks-to-evals.ts +34 -15
package/cli/selftune/eval/unit-test-cli.ts +1 -1
package/cli/selftune/evolution/evidence.ts +26 -0
package/cli/selftune/evolution/evolve-body.ts +105 -11
package/cli/selftune/evolution/evolve.ts +371 -25
package/cli/selftune/evolution/extract-patterns.ts +87 -29
package/cli/selftune/evolution/rollback.ts +2 -2
package/cli/selftune/grading/auto-grade.ts +200 -0
package/cli/selftune/grading/grade-session.ts +448 -97
package/cli/selftune/grading/results.ts +42 -0
package/cli/selftune/hooks/prompt-log.ts +172 -2
package/cli/selftune/hooks/session-stop.ts +123 -3
package/cli/selftune/hooks/skill-eval.ts +119 -3
package/cli/selftune/index.ts +395 -116
package/cli/selftune/ingestors/claude-replay.ts +140 -114
package/cli/selftune/ingestors/codex-rollout.ts +345 -46
package/cli/selftune/ingestors/codex-wrapper.ts +207 -39
package/cli/selftune/ingestors/openclaw-ingest.ts +141 -8
package/cli/selftune/ingestors/opencode-ingest.ts +193 -17
package/cli/selftune/init.ts +227 -14
package/cli/selftune/last.ts +14 -5
package/cli/selftune/localdb/db.ts +63 -0
package/cli/selftune/localdb/materialize.ts +428 -0
package/cli/selftune/localdb/queries.ts +376 -0
package/cli/selftune/localdb/schema.ts +204 -0
package/cli/selftune/monitoring/watch.ts +66 -15
package/cli/selftune/normalization.ts +682 -0
package/cli/selftune/observability.ts +19 -44
package/cli/selftune/orchestrate.ts +1073 -0
package/cli/selftune/quickstart.ts +203 -0
package/cli/selftune/repair/skill-usage.ts +576 -0
package/cli/selftune/schedule.ts +561 -0
package/cli/selftune/status.ts +48 -26
package/cli/selftune/sync.ts +627 -0
package/cli/selftune/types.ts +148 -0
package/cli/selftune/utils/canonical-log.ts +45 -0
package/cli/selftune/utils/hooks.ts +41 -0
package/cli/selftune/utils/html.ts +27 -0
package/cli/selftune/utils/llm-call.ts +78 -20
package/cli/selftune/utils/math.ts +10 -0
package/cli/selftune/utils/query-filter.ts +139 -0
package/cli/selftune/utils/skill-discovery.ts +340 -0
package/cli/selftune/utils/skill-log.ts +68 -0
package/cli/selftune/utils/skill-usage-confidence.ts +18 -0
package/cli/selftune/utils/transcript.ts +272 -26
package/cli/selftune/workflows/discover.ts +254 -0
package/cli/selftune/workflows/skill-md-writer.ts +288 -0
package/cli/selftune/workflows/workflows.ts +188 -0
package/package.json +21 -8
package/packages/telemetry-contract/README.md +11 -0
package/packages/telemetry-contract/fixtures/golden.json +87 -0
package/packages/telemetry-contract/fixtures/golden.test.ts +42 -0
package/packages/telemetry-contract/index.ts +1 -0
package/packages/telemetry-contract/package.json +19 -0
package/packages/telemetry-contract/src/index.ts +2 -0
package/packages/telemetry-contract/src/types.ts +163 -0
package/packages/telemetry-contract/src/validators.ts +109 -0
package/skill/SKILL.md +84 -53
package/skill/Workflows/AutoActivation.md +17 -16
package/skill/Workflows/Badge.md +6 -0
package/skill/Workflows/Baseline.md +46 -23
package/skill/Workflows/Composability.md +12 -5
package/skill/Workflows/Contribute.md +17 -14
package/skill/Workflows/Cron.md +56 -79
package/skill/Workflows/Dashboard.md +45 -34
package/skill/Workflows/Doctor.md +30 -17
package/skill/Workflows/Evals.md +64 -40
package/skill/Workflows/EvolutionMemory.md +2 -0
package/skill/Workflows/Evolve.md +102 -47
package/skill/Workflows/EvolveBody.md +6 -6
package/skill/Workflows/Grade.md +36 -31
package/skill/Workflows/ImportSkillsBench.md +11 -5
package/skill/Workflows/Ingest.md +43 -36
package/skill/Workflows/Initialize.md +44 -30
package/skill/Workflows/Orchestrate.md +139 -0
package/skill/Workflows/Replay.md +39 -18
package/skill/Workflows/Rollback.md +3 -3
package/skill/Workflows/Schedule.md +61 -0
package/skill/Workflows/Sync.md +88 -0
package/skill/Workflows/UnitTest.md +34 -22
package/skill/Workflows/Watch.md +14 -4
package/skill/Workflows/Workflows.md +129 -0
package/skill/assets/activation-rules-default.json +26 -0
package/skill/assets/multi-skill-settings.json +63 -0
package/skill/assets/single-skill-settings.json +57 -0
package/skill/references/invocation-taxonomy.md +2 -2
package/skill/references/logs.md +164 -2
package/skill/references/setup-patterns.md +65 -0
package/skill/references/version-history.md +40 -0
package/skill/settings_snippet.json +1 -1
package/templates/multi-skill-settings.json +7 -7
package/templates/single-skill-settings.json +6 -6
package/dashboard/index.html +0 -1680

package/cli/selftune/evolution/evolve.ts CHANGED Viewed

@@ -13,11 +13,14 @@ import { QUERY_LOG, SKILL_LOG, TELEMETRY_LOG } from "../constants.js";
 import type { BaselineMeasurement } from "../eval/baseline.js";
 import { measureBaseline } from "../eval/baseline.js";
 import { buildEvalSet } from "../eval/hooks-to-evals.js";
+import { readGradingResultsForSkill } from "../grading/results.js";
 import { updateContextAfterEvolve } from "../memory/writer.js";
+import type { SyncResult } from "../sync.js";
 import type {
   EvalEntry,
   EvalPassRate,
   EvolutionAuditEntry,
+  EvolutionEvidenceEntry,
   EvolutionProposal,
   EvolveResultSummary,
   FailurePattern,
@@ -29,8 +32,10 @@ import type {
 } from "../types.js";
 import { parseFrontmatter, replaceFrontmatterDescription } from "../utils/frontmatter.js";
 import { readJsonl } from "../utils/jsonl.js";
+import { readEffectiveSkillUsageRecords } from "../utils/skill-log.js";
 import { createEvolveTUI } from "../utils/tui.js";
 import { appendAuditEntry } from "./audit.js";
+import { appendEvidenceEntry } from "./evidence.js";
 import { extractFailurePatterns } from "./extract-patterns.js";
 import {
   computeInvocationScores,
@@ -68,6 +73,8 @@ export interface EvolveOptions {
   cheapLoop?: boolean;
   gateModel?: string;
   proposalModel?: string;
+  syncFirst?: boolean;
+  syncForce?: boolean;
 }
 export interface EvolveResult {
@@ -81,6 +88,7 @@ export interface EvolveResult {
   elapsedMs: number;
   baselineResult?: BaselineMeasurement;
   gateValidation?: ValidationResult;
+  sync_result?: SyncResult;
 }
 /**
@@ -98,9 +106,12 @@ export interface EvolveDeps {
   validateProposal?: typeof import("./validate-proposal.js").validateProposal;
   gateValidateProposal?: typeof import("./validate-proposal.js").validateProposal;
   appendAuditEntry?: typeof import("./audit.js").appendAuditEntry;
+  appendEvidenceEntry?: typeof import("./evidence.js").appendEvidenceEntry;
   buildEvalSet?: typeof import("../eval/hooks-to-evals.js").buildEvalSet;
   updateContextAfterEvolve?: typeof import("../memory/writer.js").updateContextAfterEvolve;
   measureBaseline?: typeof import("../eval/baseline.js").measureBaseline;
+  readSkillUsageLog?: () => SkillUsageRecord[];
+  syncSources?: typeof import("../sync.js").syncSources;
 }
 // ---------------------------------------------------------------------------
@@ -124,6 +135,33 @@ function createAuditEntry(
   };
 }
+// ---------------------------------------------------------------------------
+// Diff helper
+// ---------------------------------------------------------------------------
+/**
+ * Produce a simple colored diff between two text strings.
+ * Red (removed) / Green (added) lines, skipping unchanged lines.
+ */
+function formatSimpleDiff(oldText: string, newText: string): string {
+  const oldLines = oldText.split("\n");
+  const newLines = newText.split("\n");
+  const output: string[] = [];
+  const maxLen = Math.max(oldLines.length, newLines.length);
+  for (let i = 0; i < maxLen; i++) {
+    const oldLine = oldLines[i];
+    const newLine = newLines[i];
+    if (oldLine === newLine) continue;
+    if (oldLine !== undefined) {
+      output.push(`\x1b[31m- ${oldLine}\x1b[0m`);
+    }
+    if (newLine !== undefined) {
+      output.push(`\x1b[32m+ ${newLine}\x1b[0m`);
+    }
+  }
+  return output.join("\n");
+}
 // ---------------------------------------------------------------------------
 // Main orchestrator
 // ---------------------------------------------------------------------------
@@ -148,11 +186,14 @@ export async function evolve(
   const _validateProposal = _deps.validateProposal ?? validateProposal;
   const _gateValidateProposal = _deps.gateValidateProposal ?? validateProposal;
   const _appendAuditEntry = _deps.appendAuditEntry ?? appendAuditEntry;
+  const _appendEvidenceEntry = _deps.appendEvidenceEntry ?? appendEvidenceEntry;
   const _buildEvalSet = _deps.buildEvalSet ?? buildEvalSet;
   const _updateContextAfterEvolve = _deps.updateContextAfterEvolve ?? updateContextAfterEvolve;
   const _measureBaseline = _deps.measureBaseline ?? measureBaseline;
+  const _readSkillUsageLog = _deps.readSkillUsageLog ?? (() => readEffectiveSkillUsageRecords());
   const auditEntries: EvolutionAuditEntry[] = [];
+  let syncResult: SyncResult | undefined;
   function recordAudit(
     proposalId: string,
@@ -169,6 +210,14 @@ export async function evolve(
     }
   }
+  function recordEvidence(entry: EvolutionEvidenceEntry): void {
+    try {
+      _appendEvidenceEntry(entry);
+    } catch {
+      // Fail-open: evidence should not block the pipeline
+    }
+  }
   const pipelineStart = Date.now();
   let llmCallCount = 0;
   const tui = createEvolveTUI({ skillName, model: options.proposalModel ?? "(default)" });
@@ -182,6 +231,7 @@ export async function evolve(
     ...r,
     llmCallCount,
     elapsedMs: Date.now() - pipelineStart,
+    ...(syncResult ? { sync_result: syncResult } : {}),
   });
   // Hoisted so catch block can preserve partial results on error
@@ -209,21 +259,65 @@ export async function evolve(
     const currentDescription = frontmatter.description || rawContent;
     const skillVersion = frontmatter.version || undefined;
     const versionTag = skillVersion ? `, v${skillVersion}` : "";
+    const createdAuditDetails = (message: string) =>
+      `original_description:${rawContent}\n${message}`;
     tui.done(`Loaded SKILL.md (desc: ${currentDescription.length} chars${versionTag})`);
+    if (options.syncFirst) {
+      tui.step(`Syncing source-truth telemetry${options.syncForce ? " (force)" : ""}...`);
+      const { createDefaultSyncOptions, syncSources: realSyncSources } = await import("../sync.js");
+      const syncRunner = _deps.syncSources ?? realSyncSources;
+      syncResult = syncRunner(
+        createDefaultSyncOptions({
+          force: options.syncForce ?? false,
+        }),
+      );
+      const sourceSynced = Object.values(syncResult.sources).reduce(
+        (sum, source) => sum + source.synced,
+        0,
+      );
+      tui.done(
+        `Source sync complete (${sourceSynced} source sessions, ${syncResult.repair.repaired_records} repaired records)`,
+      );
+    }
     // -----------------------------------------------------------------------
     // Step 2: Load eval set
     // -----------------------------------------------------------------------
+    const skillUsage = _readSkillUsageLog();
     let evalSet: EvalEntry[];
     if (evalSetPath && existsSync(evalSetPath)) {
-      const raw = readFileSync(evalSetPath, "utf-8");
-      evalSet = JSON.parse(raw) as EvalEntry[];
+      try {
+        const raw = readFileSync(evalSetPath, "utf-8");
+        evalSet = JSON.parse(raw) as EvalEntry[];
+      } catch (parseErr) {
+        const msg = parseErr instanceof Error ? parseErr.message : String(parseErr);
+        tui.fail(`Failed to load eval set from ${evalSetPath}: ${msg}`);
+        finishTui();
+        return withStats({
+          proposal: null,
+          validation: null,
+          deployed: false,
+          auditEntries,
+          reason: `Failed to load eval set: ${msg}`,
+        });
+      }
+      if (!Array.isArray(evalSet)) {
+        tui.fail(`Eval set at ${evalSetPath} is not an array`);
+        finishTui();
+        return withStats({
+          proposal: null,
+          validation: null,
+          deployed: false,
+          auditEntries,
+          reason: `Eval set at ${evalSetPath} is not a JSON array`,
+        });
+      }
     } else {
       // Build from logs
-      const skillRecords = readJsonl<SkillUsageRecord>(SKILL_LOG);
       const queryRecords = readJsonl<QueryLogRecord>(QUERY_LOG);
-      evalSet = _buildEvalSet(skillRecords, queryRecords, skillName);
+      evalSet = _buildEvalSet(skillUsage, queryRecords, skillName);
     }
     const posCount = evalSet.filter((e) => e.should_trigger).length;
@@ -233,8 +327,6 @@ export async function evolve(
     // -----------------------------------------------------------------------
     // Step 3: Load skill usage records
     // -----------------------------------------------------------------------
-    const skillUsage = readJsonl<SkillUsageRecord>(SKILL_LOG);
     // -----------------------------------------------------------------------
     // Step 4: Extract failure patterns
     // -----------------------------------------------------------------------
@@ -251,17 +343,38 @@ export async function evolve(
     );
     // -----------------------------------------------------------------------
-    // Step 5: Early exit if no patterns
+    // Step 5: Cold-start bootstrap or early exit if no patterns
     // -----------------------------------------------------------------------
     if (failurePatterns.length === 0) {
-      finishTui();
-      return withStats({
-        proposal: null,
-        validation: null,
-        deployed: false,
-        auditEntries,
-        reason: "No failure patterns found",
-      });
+      // Cold-start: if the eval set has positive entries that the skill should
+      // match but there are zero skill usage records, treat the positive eval
+      // entries themselves as "missed queries" — they ARE the failure signal.
+      const positiveEvals = evalSet.filter((e) => e.should_trigger);
+      const hasSkillUsageHistory = skillUsage.some((record) => record.skill_name === skillName);
+      if (positiveEvals.length > 0 && !hasSkillUsageHistory) {
+        const coldStartPattern: FailurePattern = {
+          pattern_id: `fp-${skillName}-coldstart`,
+          skill_name: skillName,
+          invocation_type: "implicit",
+          missed_queries: positiveEvals.map((e) => e.query),
+          frequency: positiveEvals.length,
+          sample_sessions: [],
+          extracted_at: new Date().toISOString(),
+        };
+        failurePatterns.push(coldStartPattern);
+        tui.done(
+          `Cold-start bootstrap: ${positiveEvals.length} positive eval entries used as missed queries`,
+        );
+      } else {
+        finishTui();
+        return withStats({
+          proposal: null,
+          validation: null,
+          deployed: false,
+          auditEntries,
+          reason: "No failure patterns found",
+        });
+      }
     }
     // -----------------------------------------------------------------------
@@ -279,11 +392,14 @@ export async function evolve(
     const paretoEnabled = options.paretoEnabled ?? false;
     const candidateCount = options.candidateCount ?? 3;
     const tokenEfficiencyEnabled = options.tokenEfficiencyEnabled ?? false;
+    const telemetryRecords =
+      options.telemetryRecords ??
+      (tokenEfficiencyEnabled ? readJsonl<SessionTelemetryRecord>(TELEMETRY_LOG) : undefined);
     // Compute token efficiency score if enabled and telemetry is available
     let tokenEffScore: number | undefined;
-    if (tokenEfficiencyEnabled && options.telemetryRecords && options.telemetryRecords.length > 0) {
-      tokenEffScore = computeTokenEfficiencyScore(skillName, options.telemetryRecords);
+    if (tokenEfficiencyEnabled && telemetryRecords && telemetryRecords.length > 0) {
+      tokenEffScore = computeTokenEfficiencyScore(skillName, telemetryRecords);
       recordAudit(
         "system",
         "created",
@@ -321,7 +437,25 @@ export async function evolve(
       // Validate each candidate
       const paretoCandidates: ParetoCandidate[] = [];
       for (const proposal of viableCandidates) {
-        recordAudit(proposal.proposal_id, "created", `Pareto candidate for ${skillName}`);
+        recordAudit(
+          proposal.proposal_id,
+          "created",
+          createdAuditDetails(`Pareto candidate for ${skillName}`),
+        );
+        recordEvidence({
+          timestamp: new Date().toISOString(),
+          proposal_id: proposal.proposal_id,
+          skill_name: skillName,
+          skill_path: skillPath,
+          target: "description",
+          stage: "created",
+          rationale: proposal.rationale,
+          confidence: proposal.confidence,
+          details: `Pareto candidate for ${skillName}`,
+          original_text: proposal.original_description,
+          proposed_text: proposal.proposed_description,
+          eval_set: evalSet,
+        });
         const validation = await _validateProposal(
           proposal,
@@ -334,6 +468,26 @@ export async function evolve(
           "validated",
           `Pareto validation: improved=${validation.improved}`,
         );
+        recordEvidence({
+          timestamp: new Date().toISOString(),
+          proposal_id: proposal.proposal_id,
+          skill_name: skillName,
+          skill_path: skillPath,
+          target: "description",
+          stage: "validated",
+          rationale: proposal.rationale,
+          confidence: proposal.confidence,
+          details: `Pareto validation: improved=${validation.improved}`,
+          validation: {
+            improved: validation.improved,
+            before_pass_rate: validation.before_pass_rate,
+            after_pass_rate: validation.after_pass_rate,
+            net_change: validation.net_change,
+            regressions: validation.regressions,
+            new_passes: validation.new_passes,
+            per_entry_results: validation.per_entry_results,
+          },
+        });
         if (validation.improved && validation.per_entry_results) {
           const invocationScores = computeInvocationScores(validation.per_entry_results);
@@ -398,8 +552,22 @@ export async function evolve(
         recordAudit(
           proposal.proposal_id,
           "created",
-          `Proposal created for ${skillName} (iteration ${iteration + 1})`,
+          createdAuditDetails(`Proposal created for ${skillName} (iteration ${iteration + 1})`),
         );
+        recordEvidence({
+          timestamp: new Date().toISOString(),
+          proposal_id: proposal.proposal_id,
+          skill_name: skillName,
+          skill_path: skillPath,
+          target: "description",
+          stage: "created",
+          rationale: proposal.rationale,
+          confidence: proposal.confidence,
+          details: `Proposal created for ${skillName} (iteration ${iteration + 1})`,
+          original_text: proposal.original_description,
+          proposed_text: proposal.proposed_description,
+          eval_set: evalSet,
+        });
         // Step 9: Check confidence threshold
         if (proposal.confidence < confidenceThreshold) {
@@ -409,6 +577,17 @@ export async function evolve(
             "rejected",
             `Confidence ${proposal.confidence} below threshold ${confidenceThreshold}`,
           );
+          recordEvidence({
+            timestamp: new Date().toISOString(),
+            proposal_id: proposal.proposal_id,
+            skill_name: skillName,
+            skill_path: skillPath,
+            target: "description",
+            stage: "rejected",
+            rationale: proposal.rationale,
+            confidence: proposal.confidence,
+            details: `Confidence ${proposal.confidence} below threshold ${confidenceThreshold}`,
+          });
           // If this is the last iteration, return early with rejection
           if (iteration === maxIterations - 1) {
@@ -455,6 +634,26 @@ export async function evolve(
           `Validation complete: improved=${validation.improved}`,
           evalSnapshot,
         );
+        recordEvidence({
+          timestamp: new Date().toISOString(),
+          proposal_id: proposal.proposal_id,
+          skill_name: skillName,
+          skill_path: skillPath,
+          target: "description",
+          stage: "validated",
+          rationale: proposal.rationale,
+          confidence: proposal.confidence,
+          details: `Validation complete: improved=${validation.improved}`,
+          validation: {
+            improved: validation.improved,
+            before_pass_rate: validation.before_pass_rate,
+            after_pass_rate: validation.after_pass_rate,
+            net_change: validation.net_change,
+            regressions: validation.regressions,
+            new_passes: validation.new_passes,
+            per_entry_results: validation.per_entry_results,
+          },
+        });
         // Step 12: Check validation result
         if (!validation.improved) {
@@ -464,6 +663,26 @@ export async function evolve(
             "rejected",
             `Validation failed: net_change=${validation.net_change.toFixed(3)}`,
           );
+          recordEvidence({
+            timestamp: new Date().toISOString(),
+            proposal_id: proposal.proposal_id,
+            skill_name: skillName,
+            skill_path: skillPath,
+            target: "description",
+            stage: "rejected",
+            rationale: proposal.rationale,
+            confidence: proposal.confidence,
+            details: `Validation failed: net_change=${validation.net_change.toFixed(3)}`,
+            validation: {
+              improved: validation.improved,
+              before_pass_rate: validation.before_pass_rate,
+              after_pass_rate: validation.after_pass_rate,
+              net_change: validation.net_change,
+              regressions: validation.regressions,
+              new_passes: validation.new_passes,
+              per_entry_results: validation.per_entry_results,
+            },
+          });
           // If this is the last iteration, return with rejection
           if (iteration === maxIterations - 1) {
@@ -583,12 +802,40 @@ export async function evolve(
       writeFileSync(skillPath, updatedContent, "utf-8");
       tui.done(`Deployed updated description to ${skillPath}`);
+      // Show what changed in the skill file
+      const diffOutput = formatSimpleDiff(rawContent, updatedContent);
+      if (diffOutput) {
+        console.error("\n--- Skill description diff ---");
+        console.error(diffOutput);
+        console.error("------------------------------\n");
+      }
       recordAudit(lastProposal.proposal_id, "deployed", `Deployed proposal for ${skillName}`, {
         total: evalSet.length,
         passed: Math.round(lastValidation.after_pass_rate * evalSet.length),
         failed: evalSet.length - Math.round(lastValidation.after_pass_rate * evalSet.length),
         pass_rate: lastValidation.after_pass_rate,
       });
+      recordEvidence({
+        timestamp: new Date().toISOString(),
+        proposal_id: lastProposal.proposal_id,
+        skill_name: skillName,
+        skill_path: skillPath,
+        target: "description",
+        stage: "deployed",
+        rationale: lastProposal.rationale,
+        confidence: lastProposal.confidence,
+        details: `Deployed proposal for ${skillName}`,
+        validation: {
+          improved: lastValidation.improved,
+          before_pass_rate: lastValidation.before_pass_rate,
+          after_pass_rate: lastValidation.after_pass_rate,
+          net_change: lastValidation.net_change,
+          regressions: lastValidation.regressions,
+          new_passes: lastValidation.new_passes,
+          per_entry_results: lastValidation.per_entry_results,
+        },
+      });
     }
     // -----------------------------------------------------------------------
@@ -654,9 +901,12 @@ export async function cliMain(): Promise<void> {
       "token-efficiency": { type: "boolean", default: false },
       "with-baseline": { type: "boolean", default: false },
       "validation-model": { type: "string", default: "haiku" },
-      "cheap-loop": { type: "boolean", default: false },
+      "cheap-loop": { type: "boolean", default: true },
+      "full-model": { type: "boolean", default: false },
       "gate-model": { type: "string" },
       "proposal-model": { type: "string" },
+      "sync-first": { type: "boolean", default: false },
+      "sync-force": { type: "boolean", default: false },
       verbose: { type: "boolean", default: false },
       help: { type: "boolean", default: false },
     },
@@ -682,9 +932,12 @@ Options:
   --token-efficiency  Enable 5D Pareto with token efficiency scoring
   --with-baseline     Gate deployment on baseline lift > 0.05
   --validation-model  Model for trigger-check validation calls (default: haiku)
-  --cheap-loop        Use cheap models for loop, expensive model for final gate
-  --gate-model        Model for final gate validation (default: sonnet when --cheap-loop)
+  --cheap-loop        Use cheap models for loop, expensive for gate (default: on)
+  --full-model        Use same model for all stages (disables cheap-loop)
+  --gate-model        Model for final gate validation (default: sonnet)
   --proposal-model    Model for proposal generation LLM calls
+  --sync-first        Refresh source-truth telemetry before building evals/failure patterns
+  --sync-force        Force a full rescan during --sync-first
   --verbose           Output full EvolveResult JSON (default: compact summary)
   --help              Show this help message`);
     process.exit(0);
@@ -694,6 +947,10 @@ Options:
     console.error("[ERROR] --skill and --skill-path are required");
     process.exit(1);
   }
+  if ((values["sync-force"] ?? false) && !(values["sync-first"] ?? false)) {
+    console.error("[ERROR] --sync-force requires --sync-first");
+    process.exit(1);
+  }
   const { detectAgent } = await import("../utils/llm-call.js");
   const requestedAgent = values.agent;
@@ -721,11 +978,60 @@ Options:
     process.exit(1);
   }
+  // -------------------------------------------------------------------------
+  // Pre-flight validation: catch common misconfigurations before evolve()
+  // -------------------------------------------------------------------------
+  const skillPath = values["skill-path"];
+  if (!skillPath) {
+    console.error("[ERROR] --skill-path is required.");
+    process.exit(1);
+  }
+  if (!existsSync(skillPath)) {
+    console.error(`[ERROR] SKILL.md not found at: ${skillPath}`);
+    console.error("  Verify the --skill-path argument points to an existing SKILL.md file.");
+    process.exit(1);
+  }
+  const evalSetPath = values["eval-set"];
+  if (evalSetPath && !existsSync(evalSetPath)) {
+    console.error(`[ERROR] Eval set file not found at: ${evalSetPath}`);
+    console.error("  Verify the --eval-set argument points to an existing JSON file.");
+    process.exit(1);
+  }
+  // If no eval-set provided, check that log files exist for auto-generation
+  if (!evalSetPath && !(values["sync-first"] ?? false)) {
+    const hasSkillLog = readEffectiveSkillUsageRecords().length > 0;
+    const hasQueryLog = existsSync(QUERY_LOG);
+    if (!hasSkillLog && !hasQueryLog) {
+      console.error("[ERROR] No eval set provided and no telemetry logs found.");
+      console.error(
+        "  Either pass --eval-set <path> or generate logs first by using selftune-enabled skills.",
+      );
+      console.error(`  Expected logs at: ${SKILL_LOG} and ${QUERY_LOG}`);
+      process.exit(1);
+    }
+  }
   const tokenEfficiencyEnabled = values["token-efficiency"] ?? false;
   let telemetryRecords: SessionTelemetryRecord[] | undefined;
-  if (tokenEfficiencyEnabled) {
+  if (tokenEfficiencyEnabled && !(values["sync-first"] ?? false)) {
     telemetryRecords = readJsonl<SessionTelemetryRecord>(TELEMETRY_LOG);
   }
+  const gradingResults = readGradingResultsForSkill(values.skill);
+  if (values.verbose) {
+    console.error("[verbose] Pre-flight checks passed");
+    console.error(`[verbose] Skill: ${values.skill}`);
+    console.error(`[verbose] Skill path: ${skillPath}`);
+    console.error(`[verbose] Agent: ${agent}`);
+    console.error(`[verbose] Eval set: ${evalSetPath ?? "(auto-generated from logs)"}`);
+    console.error(`[verbose] Loaded grading results: ${gradingResults.length}`);
+    console.error(`[verbose] Cheap loop: ${values["cheap-loop"] ?? false}`);
+    console.error(`[verbose] Dry run: ${values["dry-run"] ?? false}`);
+    console.error(`[verbose] Sync first: ${values["sync-first"] ?? false}`);
+    console.error(`[verbose] Sync force: ${values["sync-force"] ?? false}`);
+  }
   const result = await evolve({
     skillName: values.skill,
@@ -741,9 +1047,12 @@ Options:
     telemetryRecords,
     withBaseline: values["with-baseline"] ?? false,
     validationModel: values["validation-model"],
-    cheapLoop: values["cheap-loop"] ?? false,
+    cheapLoop: (values["cheap-loop"] ?? true) && !(values["full-model"] ?? false),
     gateModel: values["gate-model"],
     proposalModel: values["proposal-model"],
+    gradingResults,
+    syncFirst: values["sync-first"] ?? false,
+    syncForce: values["sync-force"] ?? false,
   });
   if (values.verbose) {
@@ -769,12 +1078,49 @@ Options:
     };
     console.log(JSON.stringify(summary, null, 2));
   }
+  // Print human-readable status to stderr so users always see outcome
+  if (!result.deployed) {
+    console.error(`\n[NOT DEPLOYED] ${result.reason}`);
+    if (result.validation && !result.validation.improved) {
+      console.error(
+        `  Pass rate: ${(result.validation.before_pass_rate * 100).toFixed(1)}% -> ${(result.validation.after_pass_rate * 100).toFixed(1)}% (net: ${result.validation.net_change >= 0 ? "+" : ""}${(result.validation.net_change * 100).toFixed(1)}%)`,
+      );
+      if (result.validation.regressions.length > 0) {
+        console.error(`  Regressions: ${result.validation.regressions.length} entries`);
+      }
+    }
+    if (
+      result.proposal &&
+      result.proposal.confidence < Number.parseFloat(values.confidence ?? "0.6")
+    ) {
+      console.error(
+        `  Confidence ${result.proposal.confidence.toFixed(2)} below threshold ${values.confidence ?? "0.6"}`,
+      );
+    }
+    console.error("  Re-run with --verbose for full diagnostic output.");
+  } else {
+    console.error(`\n[DEPLOYED] ${result.reason}`);
+  }
   process.exit(result.deployed ? 0 : 1);
 }
 if (import.meta.main) {
   cliMain().catch((err) => {
-    console.error(`[FATAL] ${err}`);
+    const message = err instanceof Error ? err.message : String(err);
+    const stack = err instanceof Error ? err.stack : undefined;
+    console.error(`[FATAL] ${message}`);
+    if (stack && process.env.SELFTUNE_VERBOSE === "1") {
+      console.error(stack);
+    }
+    console.error(
+      "\nTroubleshooting:\n" +
+        "  - Verify --skill-path points to a valid SKILL.md file\n" +
+        "  - Ensure eval data exists (run `selftune evals` first) or pass --eval-set\n" +
+        "  - Check that ANTHROPIC_API_KEY is set if using Claude\n" +
+        "  - Re-run with --verbose for full diagnostic output",
+    );
     process.exit(1);
   });
 }