npm - opencode-swarm-plugin - Versions diffs - 0.38.0 → 0.39.1 - Mend

opencode-swarm-plugin 0.38.0 → 0.39.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (69) hide show

package/.env +2 -0
package/.hive/eval-results.json +26 -0
package/.hive/issues.jsonl +11 -0
package/.hive/memories.jsonl +23 -1
package/.opencode/eval-history.jsonl +12 -0
package/CHANGELOG.md +130 -0
package/README.md +29 -12
package/bin/swarm.test.ts +475 -0
package/bin/swarm.ts +383 -0
package/dist/compaction-hook.d.ts +1 -1
package/dist/compaction-hook.d.ts.map +1 -1
package/dist/compaction-prompt-scoring.d.ts +124 -0
package/dist/compaction-prompt-scoring.d.ts.map +1 -0
package/dist/eval-capture.d.ts +81 -1
package/dist/eval-capture.d.ts.map +1 -1
package/dist/eval-gates.d.ts +84 -0
package/dist/eval-gates.d.ts.map +1 -0
package/dist/eval-history.d.ts +117 -0
package/dist/eval-history.d.ts.map +1 -0
package/dist/eval-learning.d.ts +216 -0
package/dist/eval-learning.d.ts.map +1 -0
package/dist/index.d.ts +44 -0
package/dist/index.d.ts.map +1 -1
package/dist/index.js +370 -13
package/dist/plugin.js +203 -13
package/dist/post-compaction-tracker.d.ts +133 -0
package/dist/post-compaction-tracker.d.ts.map +1 -0
package/dist/swarm-orchestrate.d.ts +23 -0
package/dist/swarm-orchestrate.d.ts.map +1 -1
package/dist/swarm-prompts.d.ts +25 -1
package/dist/swarm-prompts.d.ts.map +1 -1
package/dist/swarm.d.ts +4 -0
package/dist/swarm.d.ts.map +1 -1
package/evals/README.md +589 -105
package/evals/compaction-prompt.eval.ts +149 -0
package/evals/coordinator-behavior.eval.ts +8 -8
package/evals/fixtures/compaction-prompt-cases.ts +305 -0
package/evals/lib/compaction-loader.test.ts +248 -0
package/evals/lib/compaction-loader.ts +320 -0
package/evals/lib/data-loader.test.ts +345 -0
package/evals/lib/data-loader.ts +107 -6
package/evals/scorers/compaction-prompt-scorers.ts +145 -0
package/evals/scorers/compaction-scorers.ts +13 -13
package/evals/scorers/coordinator-discipline.evalite-test.ts +3 -2
package/evals/scorers/coordinator-discipline.ts +13 -13
package/examples/plugin-wrapper-template.ts +117 -0
package/package.json +7 -5
package/scripts/migrate-unknown-sessions.ts +349 -0
package/src/compaction-capture.integration.test.ts +257 -0
package/src/compaction-hook.test.ts +42 -0
package/src/compaction-hook.ts +81 -0
package/src/compaction-prompt-scorers.test.ts +299 -0
package/src/compaction-prompt-scoring.ts +298 -0
package/src/eval-capture.test.ts +422 -0
package/src/eval-capture.ts +94 -2
package/src/eval-gates.test.ts +306 -0
package/src/eval-gates.ts +218 -0
package/src/eval-history.test.ts +508 -0
package/src/eval-history.ts +214 -0
package/src/eval-learning.test.ts +378 -0
package/src/eval-learning.ts +360 -0
package/src/index.ts +61 -1
package/src/post-compaction-tracker.test.ts +251 -0
package/src/post-compaction-tracker.ts +237 -0
package/src/swarm-decompose.ts +2 -2
package/src/swarm-orchestrate.ts +2 -2
package/src/swarm-prompts.ts +2 -2
package/src/swarm-review.ts +3 -3
/package/evals/{evalite.config.ts → evalite.config.ts.bak} +0 -0

package/dist/index.js CHANGED Viewed

@@ -22198,6 +22198,7 @@ __export(exports_eval_capture, {
   captureHumanFeedback: () => captureHumanFeedback,
   captureDecomposition: () => captureDecomposition,
   captureCoordinatorEvent: () => captureCoordinatorEvent,
+  captureCompactionEvent: () => captureCompactionEvent,
   appendEvalRecord: () => appendEvalRecord,
   SubtaskOutcomeSchema: () => SubtaskOutcomeSchema,
   EvalRecordSchema: () => EvalRecordSchema,
@@ -22406,6 +22407,17 @@ function captureCoordinatorEvent(event) {
 `;
   fs.appendFileSync(sessionPath, line, "utf-8");
 }
+function captureCompactionEvent(params) {
+  const event = {
+    session_id: params.session_id,
+    epic_id: params.epic_id,
+    timestamp: new Date().toISOString(),
+    event_type: "COMPACTION",
+    compaction_type: params.compaction_type,
+    payload: params.payload
+  };
+  captureCoordinatorEvent(event);
+}
 function readSessionEvents(sessionId) {
   const sessionPath = getSessionPath(sessionId);
   if (!fs.existsSync(sessionPath)) {
@@ -22517,6 +22529,20 @@ var init_eval_capture = __esm(() => {
         "epic_complete"
       ]),
       payload: exports_external.any()
+    }),
+    exports_external.object({
+      session_id: exports_external.string(),
+      epic_id: exports_external.string(),
+      timestamp: exports_external.string(),
+      event_type: exports_external.literal("COMPACTION"),
+      compaction_type: exports_external.enum([
+        "detection_complete",
+        "prompt_generated",
+        "context_injected",
+        "resumption_started",
+        "tool_call_tracked"
+      ]),
+      payload: exports_external.any()
     })
   ]);
   CoordinatorSessionSchema = exports_external.object({
@@ -42685,7 +42711,7 @@ var swarm_delegate_planning = tool({
     strategy: tool.schema.enum(["auto", "file-based", "feature-based", "risk-based"]).optional().default("auto").describe("Decomposition strategy (default: auto-detect)"),
     query_cass: tool.schema.boolean().optional().default(true).describe("Query CASS for similar past tasks (default: true)")
   },
-  async execute(args) {
+  async execute(args, _ctx) {
     const { selectStrategy: selectStrategy2, formatStrategyGuidelines: formatStrategyGuidelines2 } = await Promise.resolve().then(() => (init_swarm_strategies(), exports_swarm_strategies));
     const { formatMemoryQueryForDecomposition: formatMemoryQueryForDecomposition2 } = await Promise.resolve().then(() => (init_learning(), exports_learning));
     const { listSkills: listSkills2, getSkillsContextForSwarm: getSkillsContextForSwarm2, findRelevantSkills: findRelevantSkills2 } = await Promise.resolve().then(() => (init_skills(), exports_skills));
@@ -42701,7 +42727,7 @@ var swarm_delegate_planning = tool({
     }
     try {
       captureCoordinatorEvent({
-        session_id: process.env.OPENCODE_SESSION_ID || "unknown",
+        session_id: _ctx.sessionID || "unknown",
         epic_id: "planning",
         timestamp: new Date().toISOString(),
         event_type: "DECISION",
@@ -45036,7 +45062,7 @@ var swarm_review_feedback = tool({
     summary: exports_external.string().optional().describe("Review summary"),
     issues: exports_external.string().optional().describe("JSON array of ReviewIssue objects (for needs_changes)")
   },
-  async execute(args) {
+  async execute(args, _ctx) {
     let parsedIssues = [];
     if (args.issues) {
       try {
@@ -45059,7 +45085,7 @@ var swarm_review_feedback = tool({
       markReviewApproved(args.task_id);
       try {
         captureCoordinatorEvent({
-          session_id: process.env.OPENCODE_SESSION_ID || "unknown",
+          session_id: _ctx.sessionID || "unknown",
           epic_id: epicId,
           timestamp: new Date().toISOString(),
           event_type: "DECISION",
@@ -45097,7 +45123,7 @@ You may now complete the task with \`swarm_complete\`.`,
     const remaining = MAX_REVIEW_ATTEMPTS - attemptNumber;
     try {
       captureCoordinatorEvent({
-        session_id: process.env.OPENCODE_SESSION_ID || "unknown",
+        session_id: _ctx.sessionID || "unknown",
         epic_id: epicId,
         timestamp: new Date().toISOString(),
         event_type: "DECISION",
@@ -46069,10 +46095,29 @@ Files touched: ${args.files_touched?.join(", ") || "none recorded"}`,
           reason: "No files_owned contract found (non-epic subtask or decomposition event missing)"
         }
       };
+      try {
+        const { captureSubtaskOutcome: captureSubtaskOutcome2 } = await Promise.resolve().then(() => (init_eval_capture(), exports_eval_capture));
+        const durationMs2 = args.start_time ? Date.now() - args.start_time : 0;
+        const evalEpicId = cell.parent_id || epicId2;
+        captureSubtaskOutcome2({
+          epicId: evalEpicId,
+          projectPath: args.project_key,
+          beadId: args.bead_id,
+          title: cell.title,
+          plannedFiles: args.planned_files || [],
+          actualFiles: args.files_touched || [],
+          durationMs: durationMs2,
+          errorCount: args.error_count || 0,
+          retryCount: args.retry_count || 0,
+          success: true
+        });
+      } catch (error45) {
+        console.warn("[swarm_complete] Failed to capture subtask outcome:", error45);
+      }
       try {
         const durationMs2 = args.start_time ? Date.now() - args.start_time : 0;
         captureCoordinatorEvent({
-          session_id: process.env.OPENCODE_SESSION_ID || "unknown",
+          session_id: _ctx.sessionID || "unknown",
           epic_id: epicId2,
           timestamp: new Date().toISOString(),
           event_type: "OUTCOME",
@@ -46154,7 +46199,7 @@ ${errorStack.slice(0, 1000)}
       try {
         const durationMs = args.start_time ? Date.now() - args.start_time : 0;
         captureCoordinatorEvent({
-          session_id: process.env.OPENCODE_SESSION_ID || "unknown",
+          session_id: _ctx.sessionID || "unknown",
           epic_id: epicId,
           timestamp: new Date().toISOString(),
           event_type: "OUTCOME",
@@ -46221,7 +46266,9 @@ var swarm_record_outcome = tool({
       "user_cancelled",
       "unknown"
     ]).optional().describe("Failure classification (only when success=false). Auto-classified if not provided."),
-    failure_details: tool.schema.string().optional().describe("Detailed failure context (error message, stack trace, etc.)")
+    failure_details: tool.schema.string().optional().describe("Detailed failure context (error message, stack trace, etc.)"),
+    project_path: tool.schema.string().optional().describe("Project path (for finalizing eval records when all subtasks complete)"),
+    epic_id: tool.schema.string().optional().describe("Epic ID (for finalizing eval records when all subtasks complete)")
   },
   async execute(args) {
     const signals = {
@@ -46243,6 +46290,18 @@ var swarm_record_outcome = tool({
     const validated = OutcomeSignalsSchema.parse(signals);
     const scored = scoreImplicitFeedback(validated, DEFAULT_LEARNING_CONFIG);
     const errorStats = await globalErrorAccumulator.getErrorStats(args.bead_id);
+    let finalizedRecord = null;
+    if (args.project_path && args.epic_id) {
+      try {
+        const { finalizeEvalRecord: finalizeEvalRecord2 } = await Promise.resolve().then(() => (init_eval_capture(), exports_eval_capture));
+        finalizedRecord = finalizeEvalRecord2({
+          epicId: args.epic_id,
+          projectPath: args.project_path
+        });
+      } catch (error45) {
+        console.warn("[swarm_record_outcome] Failed to finalize eval record:", error45);
+      }
+    }
     const criteriaToScore = args.criteria ?? [
       "type_safe",
       "no_bugs",
@@ -46284,6 +46343,7 @@ var swarm_record_outcome = tool({
         accumulated_errors: errorStats.total,
         unresolved_errors: errorStats.unresolved
       },
+      finalized_eval_record: finalizedRecord || undefined,
       note: "Feedback events should be stored for criterion weight calculation. Use learning.ts functions to apply weights."
     }, null, 2);
   }
@@ -46315,12 +46375,31 @@ async function runResearchPhase(task, projectPath, options2) {
   if (techStack.length === 0) {
     return {
       tech_stack: [],
+      spawn_instructions: [],
       summaries: {},
       memory_ids: []
     };
   }
+  const spawnInstructions = [];
+  for (const tech of techStack) {
+    const researchId = `research-${tech}-${Date.now()}-${Math.random().toString(36).slice(2, 9)}`;
+    const prompt = formatResearcherPrompt({
+      research_id: researchId,
+      epic_id: "standalone-research",
+      tech_stack: [tech],
+      project_path: projectPath,
+      check_upgrades: options2?.checkUpgrades ?? false
+    });
+    spawnInstructions.push({
+      research_id: researchId,
+      tech,
+      prompt,
+      subagent_type: "swarm/researcher"
+    });
+  }
   return {
     tech_stack: techStack,
+    spawn_instructions: spawnInstructions,
     summaries: {},
     memory_ids: []
   };
@@ -47554,7 +47633,7 @@ var swarm_spawn_subtask = tool({
     }).optional().describe("Recovery context from checkpoint compaction"),
     model: tool.schema.string().optional().describe("Optional explicit model override (auto-selected if not provided)")
   },
-  async execute(args) {
+  async execute(args, _ctx) {
     const prompt = formatSubtaskPromptV2({
       bead_id: args.bead_id,
       epic_id: args.epic_id,
@@ -47583,7 +47662,7 @@ var swarm_spawn_subtask = tool({
     const postCompletionInstructions = COORDINATOR_POST_WORKER_CHECKLIST.replace(/{project_key}/g, args.project_path || "$PWD").replace(/{epic_id}/g, args.epic_id).replace(/{task_id}/g, args.bead_id).replace(/{files_touched}/g, filesJoined).replace(/{worker_id}/g, "worker");
     try {
       captureCoordinatorEvent({
-        session_id: process.env.OPENCODE_SESSION_ID || "unknown",
+        session_id: _ctx.sessionID || "unknown",
         epic_id: args.epic_id,
         timestamp: new Date().toISOString(),
         event_type: "DECISION",
@@ -63790,9 +63869,21 @@ function getLog() {
   }
   return _logger;
 }
-var SWARM_COMPACTION_CONTEXT = `## \uD83D\uDC1D SWARM ACTIVE - You Are The COORDINATOR
+var SWARM_COMPACTION_CONTEXT = `
+┌─────────────────────────────────────────────────────────────┐
+│                                                             │
+│             \uD83D\uDC1D  YOU ARE THE COORDINATOR  \uD83D\uDC1D                 │
+│                                                             │
+│             NOT A WORKER. NOT AN IMPLEMENTER.               │
+│                  YOU ORCHESTRATE.                           │
+│                                                             │
+└─────────────────────────────────────────────────────────────┘
+## \uD83C\uDFAF NON-NEGOTIABLE: YOU ARE THE COORDINATOR
-Context was compacted but the swarm is still running. You are the **COORDINATOR**.
+Context was compacted but the swarm is still running. **YOU ARE THE COORDINATOR.**
+Your role is ORCHESTRATION, not implementation. When you catch yourself about to do work directly, STOP.
 ### ⛔ NEVER DO THESE (Coordinator Anti-Patterns)
@@ -63803,9 +63894,27 @@ Context was compacted but the swarm is still running. You are the **COORDINATOR*
 - ❌ **NEVER** implement features yourself - SPAWN A WORKER
 - ❌ **NEVER** "just do it myself to save time" - NO. SPAWN A WORKER.
 - ❌ **NEVER** reserve files with \`swarmmail_reserve\` - Workers reserve files
+- ❌ **NEVER** fetch files/docs directly - SPAWN A RESEARCHER
 **If you catch yourself about to edit a file, STOP. Use \`swarm_spawn_subtask\` instead.**
+### \uD83D\uDEAB FORBIDDEN TOOLS (Coordinators MUST delegate these)
+**NEVER use these tools directly. ALWAYS spawn a researcher worker via \`swarm_spawn_researcher\`:**
+**Repository fetching:**
+- \`repo-crawl_file\`, \`repo-crawl_readme\`, \`repo-crawl_search\`, \`repo-crawl_structure\`, \`repo-crawl_tree\`
+- \`repo-autopsy_*\` (all repo-autopsy tools)
+**Web/documentation fetching:**
+- \`webfetch\`, \`fetch_fetch\`
+- \`context7_resolve-library-id\`, \`context7_get-library-docs\`
+**Knowledge base:**
+- \`pdf-brain_search\`, \`pdf-brain_read\`
+**If you need external data:** Use \`swarm_spawn_researcher\` with a clear research task. The researcher will fetch, summarize, and return findings.
 ### ✅ ALWAYS DO THESE (Coordinator Checklist)
 On resume, execute this checklist IN ORDER:
@@ -63855,6 +63964,87 @@ Extract from session context:
 - **Review work** - Use \`swarm_review\` and \`swarm_review_feedback\` for completed work
 - **Close the loop** - When all subtasks done, verify and close the epic
+**You are the COORDINATOR. You orchestrate. You do NOT implement. Spawn workers.**
+---
+## \uD83D\uDCCB FULL COORDINATOR WORKFLOW (Reference)
+You are ALWAYS swarming. Here is the complete workflow for any new work:
+### Phase 1.5: Research Phase (FOR COMPLEX TASKS)
+**If the task requires understanding unfamiliar technologies, spawn a researcher FIRST:**
+\`\`\`
+swarm_spawn_researcher(
+  research_id="research-<topic>",
+  epic_id="<epic-id>",
+  tech_stack=["<technology>"],
+  project_path="<path>"
+)
+// Then spawn with Task(subagent_type="swarm/researcher", prompt="<from above>")
+\`\`\`
+### Phase 2: Knowledge Gathering
+\`\`\`
+semantic-memory_find(query="<task keywords>", limit=5)   # Past learnings
+cass_search(query="<task description>", limit=5)         # Similar past tasks
+skills_list()                                            # Available skills
+\`\`\`
+### Phase 3: Decompose
+\`\`\`
+swarm_select_strategy(task="<task>")
+swarm_plan_prompt(task="<task>", context="<synthesized knowledge>")
+swarm_validate_decomposition(response="<CellTree JSON>")
+\`\`\`
+### Phase 4: Create Cells
+\`hive_create_epic(epic_title="<task>", subtasks=[...])\`
+### Phase 5: DO NOT Reserve Files
+> **⚠️ Coordinator NEVER reserves files.** Workers reserve their own files.
+### Phase 6: Spawn Workers
+\`\`\`
+swarm_spawn_subtask(bead_id, epic_id, title, files, shared_context, project_path)
+Task(subagent_type="swarm/worker", prompt="<from above>")
+\`\`\`
+### Phase 7: MANDATORY Review Loop
+**AFTER EVERY Task() RETURNS:**
+1. \`swarmmail_inbox()\` - Check for messages
+2. \`swarm_review(project_key, epic_id, task_id, files_touched)\` - Generate review
+3. Evaluate against epic goals
+4. \`swarm_review_feedback(project_key, task_id, worker_id, status, issues)\`
+**If needs_changes:**
+\`\`\`
+swarm_spawn_retry(bead_id, epic_id, original_prompt, attempt, issues, diff, files, project_path)
+// Spawn NEW worker with Task() using retry prompt
+// Max 3 attempts before marking task blocked
+\`\`\`
+### Phase 8: Complete
+\`hive_sync()\` - Sync all cells to git
+## Strategy Reference
+| Strategy       | Best For                 | Keywords                               |
+| -------------- | ------------------------ | -------------------------------------- |
+| file-based     | Refactoring, migrations  | refactor, migrate, rename, update all  |
+| feature-based  | New features             | add, implement, build, create, feature |
+| risk-based     | Bug fixes, security      | fix, bug, security, critical, urgent   |
 **You are the COORDINATOR. You orchestrate. You do NOT implement. Spawn workers.**
 `;
 var SWARM_DETECTION_FALLBACK = `## \uD83D\uDC1D Swarm Detection - Check Your Context
@@ -64792,6 +64982,161 @@ async function resetStorage() {
 // src/index.ts
 init_skills();
+// src/eval-history.ts
+import * as fs2 from "node:fs";
+import * as path3 from "node:path";
+var DEFAULT_EVAL_HISTORY_PATH = ".opencode/eval-history.jsonl";
+var VARIANCE_THRESHOLD = 0.1;
+var BOOTSTRAP_THRESHOLD = 10;
+var STABILIZATION_THRESHOLD = 50;
+function getEvalHistoryPath(projectPath) {
+  return path3.join(projectPath, DEFAULT_EVAL_HISTORY_PATH);
+}
+function ensureEvalHistoryDir(projectPath) {
+  const historyPath = getEvalHistoryPath(projectPath);
+  const dir = path3.dirname(historyPath);
+  if (!fs2.existsSync(dir)) {
+    fs2.mkdirSync(dir, { recursive: true });
+  }
+}
+function recordEvalRun(projectPath, run) {
+  ensureEvalHistoryDir(projectPath);
+  const historyPath = getEvalHistoryPath(projectPath);
+  const line = `${JSON.stringify(run)}
+`;
+  fs2.appendFileSync(historyPath, line, "utf-8");
+}
+function readAllRecords(projectPath) {
+  const historyPath = getEvalHistoryPath(projectPath);
+  if (!fs2.existsSync(historyPath)) {
+    return [];
+  }
+  const content = fs2.readFileSync(historyPath, "utf-8");
+  const lines = content.trim().split(`
+`).filter(Boolean);
+  return lines.map((line) => JSON.parse(line));
+}
+function getScoreHistory(projectPath, evalName) {
+  return readAllRecords(projectPath).filter((run) => run.eval_name === evalName);
+}
+function calculateVariance(scores) {
+  if (scores.length <= 1) {
+    return 0;
+  }
+  const mean = scores.reduce((sum2, score) => sum2 + score, 0) / scores.length;
+  const variance5 = scores.reduce((sum2, score) => {
+    const deviation = score - mean;
+    return sum2 + deviation * deviation;
+  }, 0) / scores.length;
+  return variance5;
+}
+function getPhase(projectPath, evalName) {
+  const history = getScoreHistory(projectPath, evalName);
+  if (history.length < BOOTSTRAP_THRESHOLD) {
+    return "bootstrap";
+  }
+  if (history.length <= STABILIZATION_THRESHOLD) {
+    return "stabilization";
+  }
+  const scores = history.map((run) => run.score);
+  const variance5 = calculateVariance(scores);
+  if (variance5 < VARIANCE_THRESHOLD) {
+    return "production";
+  }
+  return "stabilization";
+}
+// src/eval-gates.ts
+var DEFAULT_THRESHOLDS = {
+  stabilization: 0.1,
+  production: 0.05
+};
+function calculateBaseline(history, currentScore) {
+  if (history.length === 0) {
+    return currentScore;
+  }
+  return history.reduce((sum2, run) => sum2 + run.score, 0) / history.length;
+}
+function calculateRegression(baseline, currentScore) {
+  if (baseline === 0) {
+    return 0;
+  }
+  return (baseline - currentScore) / baseline;
+}
+function formatRegressionMessage(regressionPercent, baseline, currentScore) {
+  return `${(regressionPercent * 100).toFixed(1)}% regression (baseline: ${baseline.toFixed(2)}, current: ${currentScore.toFixed(2)})`;
+}
+function checkGate(projectPath, evalName, currentScore, config2) {
+  const thresholds = {
+    stabilization: config2?.stabilizationThreshold ?? DEFAULT_THRESHOLDS.stabilization,
+    production: config2?.productionThreshold ?? DEFAULT_THRESHOLDS.production
+  };
+  const phase = getPhase(projectPath, evalName);
+  const history = getScoreHistory(projectPath, evalName);
+  if (phase === "bootstrap") {
+    return {
+      passed: true,
+      phase: "bootstrap",
+      message: `Bootstrap phase (${history.length}/10 runs) - collecting data`,
+      currentScore
+    };
+  }
+  const baseline = calculateBaseline(history, currentScore);
+  const regressionPercent = calculateRegression(baseline, currentScore);
+  const regressionMsg = formatRegressionMessage(regressionPercent, baseline, currentScore);
+  if (phase === "stabilization") {
+    if (regressionPercent > thresholds.stabilization) {
+      return {
+        passed: true,
+        phase: "stabilization",
+        message: `Stabilization phase: ${regressionMsg} - exceeds ${(thresholds.stabilization * 100).toFixed(0)}% threshold but still passing`,
+        baseline,
+        currentScore,
+        regressionPercent
+      };
+    }
+    if (history.length > 50) {
+      const scores = history.map((run) => run.score);
+      const variance5 = calculateVariance(scores);
+      return {
+        passed: true,
+        phase: "stabilization",
+        message: `Stabilization phase: ${regressionMsg} - acceptable. High variance (${variance5.toFixed(3)}) prevents production phase.`,
+        baseline,
+        currentScore,
+        regressionPercent
+      };
+    }
+    return {
+      passed: true,
+      phase: "stabilization",
+      message: `Stabilization phase: ${regressionMsg} - acceptable`,
+      baseline,
+      currentScore,
+      regressionPercent
+    };
+  }
+  if (regressionPercent > thresholds.production) {
+    return {
+      passed: false,
+      phase: "production",
+      message: `Production phase FAIL: ${regressionMsg} - exceeds ${(thresholds.production * 100).toFixed(0)}% threshold`,
+      baseline,
+      currentScore,
+      regressionPercent
+    };
+  }
+  return {
+    passed: true,
+    phase: "production",
+    message: `Production phase: ${regressionMsg} - acceptable`,
+    baseline,
+    currentScore,
+    regressionPercent
+  };
+}
+// src/index.ts
 var SwarmPlugin = async (input) => {
   const { $, directory, client } = input;
   setHiveWorkingDirectory(directory);
@@ -64858,7 +65203,7 @@ var SwarmPlugin = async (input) => {
       if (isInCoordinatorContext()) {
         const ctx = getCoordinatorContext();
         const violation = detectCoordinatorViolation({
-          sessionId: ctx.sessionId || "unknown",
+          sessionId: input2.sessionID || "unknown",
           epicId: ctx.epicId || "unknown",
           toolName,
           toolArgs: output.args,
@@ -64972,6 +65317,7 @@ export {
   researchTools,
   requireTool,
   repoCrawlTools,
+  recordEvalRun,
   parseFrontmatter,
   migrateBeadsToHive,
   mergeHistoricBeads,
@@ -65012,12 +65358,15 @@ export {
   getStatusChanges,
   getSkillsContextForSwarm,
   getSkill,
+  getScoreHistory,
   getSchemaByName,
+  getPhase,
   getMandateStorage,
   getLogger,
   getInstalledVersions,
   getHiveWorkingDirectory,
   getHiveAdapter,
+  getEvalHistoryPath,
   getCellIdFromEvent,
   getBeadsWorkingDirectory,
   getBeadsAdapter,
@@ -65035,6 +65384,7 @@ export {
   evaluatePromotion,
   evaluateBatchPromotions,
   ensureHiveDirectory,
+  ensureEvalHistoryDir,
   discoverSkills,
   discoverDocTools,
   src_default as default,
@@ -65050,8 +65400,10 @@ export {
   createAgentMailError,
   clearSessionState,
   checkTool,
+  checkGate,
   checkBeadsMigrationNeeded,
   checkAllTools,
+  calculateVariance,
   beads_update,
   beads_sync,
   beads_start,
@@ -65073,6 +65425,7 @@ export {
   VoteTypeSchema,
   VoteSchema,
   ValidationResultSchema,
+  VARIANCE_THRESHOLD,
   UpdateSwarmContextArgsSchema,
   TaskDecompositionSchema,
   SwarmStrategySchema,
@@ -65092,6 +65445,7 @@ export {
   SWARM_COMPACTION_CONTEXT,
   SUBTASK_PROMPT_V2,
   STRATEGIES,
+  STABILIZATION_THRESHOLD,
   RepoCrawlError,
   QuerySwarmContextsArgsSchema,
   QueryMandatesArgsSchema,
@@ -65114,10 +65468,12 @@ export {
   DecompositionError,
   DecomposedSubtaskSchema,
   DecomposeArgsSchema,
+  DEFAULT_THRESHOLDS,
   DEFAULT_STORAGE_CONFIG,
   DEFAULT_MANDATE_STORAGE_CONFIG,
   DEFAULT_MANDATE_DECAY_CONFIG,
   DEFAULT_GUARDRAIL_CONFIG,
+  DEFAULT_EVAL_HISTORY_PATH,
   DEFAULT_CRITERIA,
   CriterionEvaluationSchema,
   CreateSwarmContextArgsSchema,
@@ -65185,6 +65541,7 @@ export {
   BeadAssignedEventSchema,
   BaseCellEventSchema,
   BaseBeadEventSchema,
+  BOOTSTRAP_THRESHOLD,
   AgentProgressSchema,
   AgentMailNotInitializedError,
   AgentMailError