npm - opencode-swarm-plugin - Versions diffs - 0.38.0 → 0.40.0 - Mend

opencode-swarm-plugin 0.38.0 → 0.40.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (91) hide show

package/.env +2 -0
package/.hive/eval-results.json +26 -0
package/.hive/issues.jsonl +27 -0
package/.hive/memories.jsonl +23 -1
package/.opencode/eval-history.jsonl +12 -0
package/CHANGELOG.md +182 -0
package/README.md +29 -12
package/bin/swarm.test.ts +881 -0
package/bin/swarm.ts +686 -0
package/dist/compaction-hook.d.ts +8 -1
package/dist/compaction-hook.d.ts.map +1 -1
package/dist/compaction-observability.d.ts +173 -0
package/dist/compaction-observability.d.ts.map +1 -0
package/dist/compaction-prompt-scoring.d.ts +124 -0
package/dist/compaction-prompt-scoring.d.ts.map +1 -0
package/dist/eval-capture.d.ts +174 -1
package/dist/eval-capture.d.ts.map +1 -1
package/dist/eval-gates.d.ts +84 -0
package/dist/eval-gates.d.ts.map +1 -0
package/dist/eval-history.d.ts +117 -0
package/dist/eval-history.d.ts.map +1 -0
package/dist/eval-learning.d.ts +216 -0
package/dist/eval-learning.d.ts.map +1 -0
package/dist/hive.d.ts.map +1 -1
package/dist/index.d.ts +80 -1
package/dist/index.d.ts.map +1 -1
package/dist/index.js +16098 -651
package/dist/plugin.js +16012 -756
package/dist/post-compaction-tracker.d.ts +133 -0
package/dist/post-compaction-tracker.d.ts.map +1 -0
package/dist/schemas/task.d.ts +3 -3
package/dist/swarm-orchestrate.d.ts +23 -0
package/dist/swarm-orchestrate.d.ts.map +1 -1
package/dist/swarm-prompts.d.ts +25 -1
package/dist/swarm-prompts.d.ts.map +1 -1
package/dist/swarm.d.ts +4 -0
package/dist/swarm.d.ts.map +1 -1
package/evals/README.md +702 -105
package/evals/compaction-prompt.eval.ts +149 -0
package/evals/coordinator-behavior.eval.ts +8 -8
package/evals/fixtures/compaction-prompt-cases.ts +305 -0
package/evals/lib/compaction-loader.test.ts +248 -0
package/evals/lib/compaction-loader.ts +320 -0
package/evals/lib/data-loader.test.ts +345 -0
package/evals/lib/data-loader.ts +107 -6
package/evals/scorers/compaction-prompt-scorers.ts +145 -0
package/evals/scorers/compaction-scorers.ts +13 -13
package/evals/scorers/coordinator-discipline.evalite-test.ts +166 -2
package/evals/scorers/coordinator-discipline.ts +348 -15
package/evals/scorers/index.test.ts +146 -0
package/evals/scorers/index.ts +104 -0
package/evals/swarm-decomposition.eval.ts +9 -2
package/examples/commands/swarm.md +291 -21
package/examples/plugin-wrapper-template.ts +117 -0
package/package.json +7 -5
package/scripts/migrate-unknown-sessions.ts +349 -0
package/src/compaction-capture.integration.test.ts +257 -0
package/src/compaction-hook.test.ts +42 -0
package/src/compaction-hook.ts +315 -86
package/src/compaction-observability.integration.test.ts +139 -0
package/src/compaction-observability.test.ts +187 -0
package/src/compaction-observability.ts +324 -0
package/src/compaction-prompt-scorers.test.ts +299 -0
package/src/compaction-prompt-scoring.ts +298 -0
package/src/eval-capture.test.ts +626 -1
package/src/eval-capture.ts +286 -2
package/src/eval-gates.test.ts +306 -0
package/src/eval-gates.ts +218 -0
package/src/eval-history.test.ts +508 -0
package/src/eval-history.ts +214 -0
package/src/eval-learning.test.ts +378 -0
package/src/eval-learning.ts +360 -0
package/src/eval-runner.test.ts +96 -0
package/src/eval-runner.ts +356 -0
package/src/hive.ts +34 -0
package/src/index.ts +115 -2
package/src/memory.test.ts +110 -0
package/src/memory.ts +34 -0
package/src/post-compaction-tracker.test.ts +251 -0
package/src/post-compaction-tracker.ts +237 -0
package/src/swarm-decompose.ts +2 -2
package/src/swarm-orchestrate.ts +2 -2
package/src/swarm-prompts.ts +2 -2
package/src/swarm-review.ts +3 -3
package/dist/beads.d.ts +0 -386
package/dist/beads.d.ts.map +0 -1
package/dist/schemas/bead-events.d.ts +0 -698
package/dist/schemas/bead-events.d.ts.map +0 -1
package/dist/schemas/bead.d.ts +0 -255
package/dist/schemas/bead.d.ts.map +0 -1
/package/evals/{evalite.config.ts → evalite.config.ts.bak} +0 -0

package/src/compaction-prompt-scorers.test.ts ADDED Viewed

@@ -0,0 +1,299 @@
+/**
+ * Tests for compaction prompt quality scorers
+ *
+ * TDD approach - tests written FIRST to define scorer behavior
+ * Tests the PURE scoring functions (not evalite wrappers)
+ */
+import { describe, expect, test } from "bun:test";
+import type { CompactionPrompt } from "./compaction-prompt-scoring.js";
+import {
+	scoreActionability,
+	scoreCoordinatorIdentity,
+	scoreEpicIdSpecificity,
+	scoreForbiddenToolsPresent,
+	scorePostCompactionDiscipline,
+} from "./compaction-prompt-scoring.js";
+describe("epicIdSpecificity scorer", () => {
+	test("scores 1.0 for real epic IDs", () => {
+		const prompt: CompactionPrompt = {
+			content: "Continue coordinating epic mjkw81rkq4c",
+		};
+		const result = scoreEpicIdSpecificity(prompt);
+		expect(result.score).toBe(1.0);
+		expect(result.message).toContain("real epic ID");
+	});
+	test("scores 0.0 for placeholder IDs like <epic-id>", () => {
+		const prompt: CompactionPrompt = {
+			content: "Continue coordinating epic <epic-id>",
+		};
+		const result = scoreEpicIdSpecificity(prompt);
+		expect(result.score).toBe(0.0);
+		expect(result.message).toContain("placeholder");
+	});
+	test("scores 0.0 for bd-xxx placeholders", () => {
+		const prompt: CompactionPrompt = {
+			content: "Check status of bd-xxx",
+		};
+		const result = scoreEpicIdSpecificity(prompt);
+		expect(result.score).toBe(0.0);
+		expect(result.message).toContain("placeholder");
+	});
+	test("scores 0.0 for generic <path> placeholders", () => {
+		const prompt: CompactionPrompt = {
+			content: "Project at <path>",
+		};
+		const result = scoreEpicIdSpecificity(prompt);
+		expect(result.score).toBe(0.0);
+	});
+	test("scores 0.0 when no epic ID found", () => {
+		const prompt: CompactionPrompt = {
+			content: "Continue working on the task",
+		};
+		const result = scoreEpicIdSpecificity(prompt);
+		expect(result.score).toBe(0.0);
+		expect(result.message).toContain("No epic ID");
+	});
+});
+describe("actionability scorer", () => {
+	test("scores 1.0 when swarm_status has real epic ID", () => {
+		const prompt: CompactionPrompt = {
+			content: `First action:
+swarm_status(epic_id='mjkw81rkq4c', project_key='/path/to/project')`,
+		};
+		const result = scoreActionability(prompt);
+		expect(result.score).toBe(1.0);
+		expect(result.message).toContain("actionable tool call");
+	});
+	test("scores 1.0 when swarmmail_inbox is present", () => {
+		const prompt: CompactionPrompt = {
+			content: `Check messages:
+swarmmail_inbox()`,
+		};
+		const result = scoreActionability(prompt);
+		expect(result.score).toBe(1.0);
+		expect(result.message).toContain("actionable tool call");
+	});
+	test("scores 0.0 for generic instructions without tool calls", () => {
+		const prompt: CompactionPrompt = {
+			content: "Check the status of workers and review progress",
+		};
+		const result = scoreActionability(prompt);
+		expect(result.score).toBe(0.0);
+		expect(result.message).toContain("No actionable");
+	});
+	test("scores 0.0 for swarm_status with placeholders", () => {
+		const prompt: CompactionPrompt = {
+			content: `swarm_status(epic_id='<epic-id>', project_key='<path>')`,
+		};
+		const result = scoreActionability(prompt);
+		expect(result.score).toBe(0.0);
+		expect(result.message).toContain("placeholder");
+	});
+});
+describe("coordinatorIdentity scorer", () => {
+	test("scores 1.0 with ASCII header and strong mandates", () => {
+		const prompt: CompactionPrompt = {
+			content: `┌─────────────────────────────────────────┐
+│     YOU ARE THE COORDINATOR             │
+│                                         │
+│  NEVER spawn workers yourself           │
+│  ALWAYS review worker output            │
+└─────────────────────────────────────────┘
+Continue coordinating the swarm.`,
+		};
+		const result = scoreCoordinatorIdentity(prompt);
+		expect(result.score).toBe(1.0);
+		expect(result.message).toContain("ASCII header");
+		expect(result.message).toContain("strong mandates");
+	});
+	test("scores 0.5 with ASCII header but weak language", () => {
+		const prompt: CompactionPrompt = {
+			content: `┌─────────────────────────────────────────┐
+│     COORDINATOR MODE                    │
+└─────────────────────────────────────────┘
+You should consider delegating work.`,
+		};
+		const result = scoreCoordinatorIdentity(prompt);
+		expect(result.score).toBe(0.5);
+		expect(result.message).toContain("weak language");
+	});
+	test("scores 0.0 without ASCII header", () => {
+		const prompt: CompactionPrompt = {
+			content: `You are the coordinator. NEVER do work directly. ALWAYS delegate.`,
+		};
+		const result = scoreCoordinatorIdentity(prompt);
+		expect(result.score).toBe(0.0);
+		expect(result.message).toContain("No ASCII header");
+	});
+});
+describe("forbiddenToolsPresent scorer", () => {
+	test("scores 1.0 when all forbidden tools listed", () => {
+		const prompt: CompactionPrompt = {
+			content: `🚫 FORBIDDEN TOOLS - NEVER call these:
+- Edit (use swarm_spawn_subtask)
+- Write (use swarm_spawn_subtask)
+- swarmmail_reserve (only workers reserve)
+- bash with git commit (workers commit)`,
+		};
+		const result = scoreForbiddenToolsPresent(prompt);
+		expect(result.score).toBe(1.0);
+		expect(result.message).toContain("All 4 forbidden tools");
+	});
+	test("scores 0.75 when 3 out of 4 tools listed", () => {
+		const prompt: CompactionPrompt = {
+			content: `🚫 FORBIDDEN TOOLS:
+- Edit
+- Write
+- swarmmail_reserve`,
+		};
+		const result = scoreForbiddenToolsPresent(prompt);
+		expect(result.score).toBe(0.75);
+		expect(result.message).toContain("3/4");
+	});
+	test("scores 0.5 when 2 out of 4 tools listed", () => {
+		const prompt: CompactionPrompt = {
+			content: `Don't use Edit or Write directly.`,
+		};
+		const result = scoreForbiddenToolsPresent(prompt);
+		expect(result.score).toBe(0.5);
+		expect(result.message).toContain("2/4");
+	});
+	test("scores 0.0 when no forbidden tools listed", () => {
+		const prompt: CompactionPrompt = {
+			content: "Continue coordinating the epic",
+		};
+		const result = scoreForbiddenToolsPresent(prompt);
+		expect(result.score).toBe(0.0);
+		expect(result.message).toContain("0/4");
+	});
+});
+describe("postCompactionDiscipline scorer", () => {
+	test("scores 1.0 when first tool is swarm_status", () => {
+		const prompt: CompactionPrompt = {
+			content: `Resume coordination:
+1. swarm_status(epic_id='mjkw81rkq4c')
+2. Check inbox
+3. Review progress`,
+		};
+		const result = scorePostCompactionDiscipline(prompt);
+		expect(result.score).toBe(1.0);
+		expect(result.message).toContain("swarm_status");
+		expect(result.message).toContain("correct");
+	});
+	test("scores 1.0 when first tool is swarmmail_inbox", () => {
+		const prompt: CompactionPrompt = {
+			content: `Next steps:
+1. swarmmail_inbox()
+2. Review messages`,
+		};
+		const result = scorePostCompactionDiscipline(prompt);
+		expect(result.score).toBe(1.0);
+		expect(result.message).toContain("inbox");
+		expect(result.message).toContain("correct");
+	});
+	test("scores 0.0 when first tool is Edit", () => {
+		const prompt: CompactionPrompt = {
+			content: `Resume:
+1. Edit(file='src/auth.ts', ...)
+2. Check status`,
+		};
+		const result = scorePostCompactionDiscipline(prompt);
+		expect(result.score).toBe(0.0);
+		expect(result.message).toContain("Edit");
+	});
+	test("scores 0.0 when first tool is Write", () => {
+		const prompt: CompactionPrompt = {
+			content: `1. Write(file='README.md', ...)`,
+		};
+		const result = scorePostCompactionDiscipline(prompt);
+		expect(result.score).toBe(0.0);
+		expect(result.message).toContain("Write");
+	});
+	test("scores 0.0 when first tool is Read", () => {
+		const prompt: CompactionPrompt = {
+			content: `1. Read(file='src/index.ts')
+2. swarm_status()`,
+		};
+		const result = scorePostCompactionDiscipline(prompt);
+		expect(result.score).toBe(0.0);
+		expect(result.message).toContain("Read");
+	});
+	test("scores 0.0 when no tool calls mentioned", () => {
+		const prompt: CompactionPrompt = {
+			content: "Continue coordinating the epic",
+		};
+		const result = scorePostCompactionDiscipline(prompt);
+		expect(result.score).toBe(0.0);
+		expect(result.message).toContain("No tool");
+	});
+});

package/src/compaction-prompt-scoring.ts ADDED Viewed

@@ -0,0 +1,298 @@
+/**
+ * Compaction Prompt Quality Scoring - Pure Functions
+ *
+ * Evaluates the quality of continuation prompts generated after context compaction.
+ * **Problem**: Post-compaction coordinators often "wake up" confused, forget their role,
+ * and start editing files instead of checking worker status.
+ *
+ * **Solution**: Score prompts on 5 dimensions that predict coordinator success:
+ *
+ * 1. **Epic ID Specificity (0.20)**: Real IDs (`mjkw...`) not placeholders (`<epic-id>`, `bd-xxx`)
+ *    - Placeholders = coordinator can't check actual swarm status
+ *
+ * 2. **Actionability (0.20)**: Tool calls with real values (e.g., `swarm_status(epic_id='mjkw81rkq4c')`)
+ *    - Generic instructions like "check status" don't work
+ *
+ * 3. **Coordinator Identity (0.25)**: ASCII header + strong mandates (NEVER/ALWAYS)
+ *    - Visual + semantic cues reinforce role post-compaction
+ *
+ * 4. **Forbidden Tools Listed (0.15)**: Explicitly lists Edit, Write, swarmmail_reserve, git commit
+ *    - Naming forbidden tools reduces violations
+ *
+ * 5. **Post-Compaction Discipline (0.20)**: First suggested tool is swarm_status or inbox (not Edit)
+ *    - First tool sets the pattern - "check status" vs "dive into code"
+ *
+ * **Pure functions**: These can be tested without evalite. The evalite wrappers are in
+ * `evals/scorers/compaction-prompt-scorers.ts`.
+ *
+ * **Data source**: Captured from `captureCompactionEvent()` with `compaction_type: "prompt_generated"`.
+ * The payload includes the FULL prompt content (not truncated) for scoring.
+ *
+ * **Integration**: `compaction-prompt.eval.ts` uses these scorers to track prompt quality over time.
+ * Progressive gates enforce quality: bootstrap → stabilization → production.
+ *
+ * @module compaction-prompt-scoring
+ */
+/**
+ * Compaction prompt structure (from LLM generation)
+ */
+export interface CompactionPrompt {
+	content: string;
+}
+/**
+ * Scorer result type
+ */
+export interface ScorerResult {
+	score: number;
+	message: string;
+}
+// ====== Shared Regex Patterns ======
+/** Matches real epic/cell IDs (mjkw prefix + 7+ base36 chars) */
+export const REAL_EPIC_ID = /mjkw[a-z0-9]{7,}/;
+/** Matches common placeholder patterns */
+export const PLACEHOLDERS = [
+	/<epic-id>/i,
+	/bd-xxx/,
+	/<path>/i,
+	/<project>/i,
+];
+/** Matches ASCII box-drawing characters (for headers) */
+export const ASCII_BOX = /[┌┐└┘─│]{3,}/;
+/** Matches strong mandate language */
+export const STRONG_LANGUAGE = [/\bNEVER\b/, /\bALWAYS\b/, /\bNON-NEGOTIABLE\b/];
+// ====== Pure Scoring Functions ======
+/**
+ * Score epic ID specificity
+ *
+ * Validates that epic IDs are REAL, not placeholders.
+ * Placeholders like <epic-id>, bd-xxx, <path> indicate
+ * the prompt generator failed to inject actual values.
+ *
+ * @returns 1.0 if real IDs, 0.0 if placeholders found
+ */
+export function scoreEpicIdSpecificity(prompt: CompactionPrompt): ScorerResult {
+	// Check for placeholder patterns
+	for (const pattern of PLACEHOLDERS) {
+		if (pattern.test(prompt.content)) {
+			return {
+				score: 0.0,
+				message: `Found placeholder: ${pattern.source}`,
+			};
+		}
+	}
+	// Check for real epic ID pattern
+	if (REAL_EPIC_ID.test(prompt.content)) {
+		return {
+			score: 1.0,
+			message: "Contains real epic ID",
+		};
+	}
+	return {
+		score: 0.0,
+		message: "No epic ID found",
+	};
+}
+/**
+ * Score actionability of tool calls
+ *
+ * Validates that the prompt includes SPECIFIC actionable tool calls.
+ * Generic instructions like "check status" are useless.
+ * Good: swarm_status(epic_id='mjkw81rkq4c', project_key='/path')
+ * Bad: "Check the status of workers"
+ *
+ * @returns 1.0 if actionable tool calls with real values, 0.0 otherwise
+ */
+export function scoreActionability(prompt: CompactionPrompt): ScorerResult {
+	// Check for actionable tool patterns
+	const actionableTools = [
+		/swarm_status\([^)]*epic_id\s*=\s*['"]mjkw[a-z0-9]{7,}['"]/,
+		/swarmmail_inbox\(\)/,
+	];
+	for (const pattern of actionableTools) {
+		if (pattern.test(prompt.content)) {
+			return {
+				score: 1.0,
+				message: "Contains actionable tool call with real values",
+			};
+		}
+	}
+	// Check if tool is mentioned but with placeholders
+	if (
+		/swarm_status\([^)]*<epic-id>/.test(prompt.content) ||
+		/swarm_status\([^)]*<path>/.test(prompt.content)
+	) {
+		return {
+			score: 0.0,
+			message: "Tool call has placeholders",
+		};
+	}
+	return {
+		score: 0.0,
+		message: "No actionable tool calls found",
+	};
+}
+/**
+ * Score coordinator identity reinforcement
+ *
+ * Validates that the prompt has STRONG coordinator identity reinforcement.
+ * Post-compaction coordinators lose their identity without visual+semantic cues.
+ *
+ * Checks:
+ * 1. ASCII box header (visual anchor)
+ * 2. Strong language (NEVER/ALWAYS, not "should"/"consider")
+ *
+ * @returns 1.0 for ASCII header + strong mandates, 0.5 for header only, 0.0 otherwise
+ */
+export function scoreCoordinatorIdentity(
+	prompt: CompactionPrompt,
+): ScorerResult {
+	// Check for ASCII box header (uses box-drawing characters)
+	const hasAsciiHeader =
+		ASCII_BOX.test(prompt.content) &&
+		/(YOU ARE THE COORDINATOR|COORDINATOR MODE)/i.test(prompt.content);
+	if (!hasAsciiHeader) {
+		return {
+			score: 0.0,
+			message: "No ASCII header found",
+		};
+	}
+	// Check for strong mandate language
+	const hasStrongLanguage = STRONG_LANGUAGE.some((pattern) =>
+		pattern.test(prompt.content),
+	);
+	if (!hasStrongLanguage) {
+		return {
+			score: 0.5,
+			message: "ASCII header present but weak language",
+		};
+	}
+	return {
+		score: 1.0,
+		message: "ASCII header + strong mandates present",
+	};
+}
+/**
+ * Score forbidden tools listing
+ *
+ * Validates that the prompt LISTS forbidden tools by name.
+ * Coordinators must know exactly which tools to avoid.
+ *
+ * Required forbidden tools:
+ * 1. Edit
+ * 2. Write
+ * 3. swarmmail_reserve (only workers reserve)
+ * 4. git commit (workers commit)
+ *
+ * @returns ratio of forbidden tools mentioned (0.0 to 1.0)
+ */
+export function scoreForbiddenToolsPresent(
+	prompt: CompactionPrompt,
+): ScorerResult {
+	// Check for forbidden tool mentions
+	const forbiddenTools = [
+		/\bEdit\b/,
+		/\bWrite\b/,
+		/swarmmail_reserve/,
+		/git commit/,
+	];
+	const foundTools = forbiddenTools.filter((pattern) =>
+		pattern.test(prompt.content),
+	);
+	const score = foundTools.length / forbiddenTools.length;
+	if (score === 1.0) {
+		return {
+			score: 1.0,
+			message: "All 4 forbidden tools listed",
+		};
+	}
+	if (score === 0) {
+		return {
+			score: 0.0,
+			message: "No forbidden tools listed (0/4)",
+		};
+	}
+	return {
+		score,
+		message: `${foundTools.length}/4 forbidden tools listed`,
+	};
+}
+/**
+ * Score post-compaction discipline (first tool correctness)
+ *
+ * Validates that the FIRST suggested tool is correct.
+ * Coordinators should check status FIRST, not edit files.
+ *
+ * Good first tools:
+ * - swarm_status
+ * - swarmmail_inbox
+ *
+ * Bad first tools:
+ * - Edit
+ * - Write
+ * - Read (should check status first)
+ *
+ * @returns 1.0 if first tool is swarm_status or inbox, 0.0 otherwise
+ */
+export function scorePostCompactionDiscipline(
+	prompt: CompactionPrompt,
+): ScorerResult {
+	// Extract first tool call (look for function-like patterns)
+	const toolCallPattern =
+		/\b(swarm_status|swarmmail_inbox|Edit|Write|Read)\b/i;
+	const match = prompt.content.match(toolCallPattern);
+	if (!match) {
+		return {
+			score: 0.0,
+			message: "No tool calls found",
+		};
+	}
+	const firstTool = match[1].toLowerCase();
+	if (firstTool === "swarm_status") {
+		return {
+			score: 1.0,
+			message: "First tool is swarm_status (correct)",
+		};
+	}
+	if (firstTool === "swarmmail_inbox") {
+		return {
+			score: 1.0,
+			message: "First tool is inbox (correct)",
+		};
+	}
+	return {
+		score: 0.0,
+		message: `First tool is ${match[1]} (should be swarm_status or inbox)`,
+	};
+}