npm - cognitive-core - Versions diffs - 0.0.2 → 0.1.0 - Mend

cognitive-core 0.0.2 → 0.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (329) hide show

package/README.md +302 -116
package/SKILL.md +193 -0
package/dist/agents/index.d.ts +3 -0
package/dist/agents/index.d.ts.map +1 -0
package/dist/agents/index.js +5 -0
package/dist/agents/index.js.map +1 -0
package/dist/agents/mock-provider.d.ts +23 -0
package/dist/agents/mock-provider.d.ts.map +1 -0
package/dist/agents/mock-provider.js +71 -0
package/dist/agents/mock-provider.js.map +1 -0
package/dist/agents/types.d.ts +98 -0
package/dist/agents/types.d.ts.map +1 -0
package/dist/agents/types.js +44 -0
package/dist/agents/types.js.map +1 -0
package/dist/atlas.d.ts +196 -0
package/dist/atlas.d.ts.map +1 -0
package/dist/atlas.js +373 -0
package/dist/atlas.js.map +1 -0
package/dist/bin/cognitive-core.d.ts +18 -0
package/dist/bin/cognitive-core.d.ts.map +1 -0
package/dist/bin/cognitive-core.js +419 -0
package/dist/bin/cognitive-core.js.map +1 -0
package/dist/embeddings/bm25.d.ts +104 -0
package/dist/embeddings/bm25.d.ts.map +1 -0
package/dist/embeddings/bm25.js +264 -0
package/dist/embeddings/bm25.js.map +1 -0
package/dist/embeddings/index.d.ts +12 -0
package/dist/embeddings/index.d.ts.map +1 -0
package/dist/embeddings/index.js +16 -0
package/dist/embeddings/index.js.map +1 -0
package/dist/embeddings/manager.d.ts +112 -0
package/dist/embeddings/manager.d.ts.map +1 -0
package/dist/embeddings/manager.js +215 -0
package/dist/embeddings/manager.js.map +1 -0
package/dist/embeddings/provider.d.ts +101 -0
package/dist/embeddings/provider.d.ts.map +1 -0
package/dist/embeddings/provider.js +232 -0
package/dist/embeddings/provider.js.map +1 -0
package/dist/embeddings/vector-store.d.ts +101 -0
package/dist/embeddings/vector-store.d.ts.map +1 -0
package/dist/embeddings/vector-store.js +256 -0
package/dist/embeddings/vector-store.js.map +1 -0
package/dist/factory.d.ts +193 -0
package/dist/factory.d.ts.map +1 -0
package/dist/factory.js +109 -0
package/dist/factory.js.map +1 -0
package/dist/index.d.ts +30 -453
package/dist/index.d.ts.map +1 -0
package/dist/index.js +84 -509
package/dist/index.js.map +1 -0
package/dist/learning/analyzer.d.ts +110 -0
package/dist/learning/analyzer.d.ts.map +1 -0
package/dist/learning/analyzer.js +213 -0
package/dist/learning/analyzer.js.map +1 -0
package/dist/learning/effectiveness.d.ts +158 -0
package/dist/learning/effectiveness.d.ts.map +1 -0
package/dist/learning/effectiveness.js +251 -0
package/dist/learning/effectiveness.js.map +1 -0
package/dist/learning/index.d.ts +8 -0
package/dist/learning/index.d.ts.map +1 -0
package/dist/learning/index.js +11 -0
package/dist/learning/index.js.map +1 -0
package/dist/learning/llm-extractor.d.ts +88 -0
package/dist/learning/llm-extractor.d.ts.map +1 -0
package/dist/learning/llm-extractor.js +372 -0
package/dist/learning/llm-extractor.js.map +1 -0
package/dist/learning/meta-learner.d.ts +80 -0
package/dist/learning/meta-learner.d.ts.map +1 -0
package/dist/learning/meta-learner.js +355 -0
package/dist/learning/meta-learner.js.map +1 -0
package/dist/learning/pipeline.d.ts +65 -0
package/dist/learning/pipeline.d.ts.map +1 -0
package/dist/learning/pipeline.js +170 -0
package/dist/learning/pipeline.js.map +1 -0
package/dist/learning/playbook-extractor.d.ts +113 -0
package/dist/learning/playbook-extractor.d.ts.map +1 -0
package/dist/learning/playbook-extractor.js +523 -0
package/dist/learning/playbook-extractor.js.map +1 -0
package/dist/learning/usage-inference.d.ts +82 -0
package/dist/learning/usage-inference.d.ts.map +1 -0
package/dist/learning/usage-inference.js +261 -0
package/dist/learning/usage-inference.js.map +1 -0
package/dist/mcp/index.d.ts +6 -0
package/dist/mcp/index.d.ts.map +1 -0
package/dist/mcp/index.js +6 -0
package/dist/mcp/index.js.map +1 -0
package/dist/mcp/playbook-server.d.ts +120 -0
package/dist/mcp/playbook-server.d.ts.map +1 -0
package/dist/mcp/playbook-server.js +427 -0
package/dist/mcp/playbook-server.js.map +1 -0
package/dist/memory/curated-loader.d.ts +62 -0
package/dist/memory/curated-loader.d.ts.map +1 -0
package/dist/memory/curated-loader.js +106 -0
package/dist/memory/curated-loader.js.map +1 -0
package/dist/memory/experience.d.ts +122 -0
package/dist/memory/experience.d.ts.map +1 -0
package/dist/memory/experience.js +392 -0
package/dist/memory/experience.js.map +1 -0
package/dist/memory/index.d.ts +6 -0
package/dist/memory/index.d.ts.map +1 -0
package/dist/memory/index.js +9 -0
package/dist/memory/index.js.map +1 -0
package/dist/memory/meta.d.ts +90 -0
package/dist/memory/meta.d.ts.map +1 -0
package/dist/memory/meta.js +362 -0
package/dist/memory/meta.js.map +1 -0
package/dist/memory/playbook.d.ts +133 -0
package/dist/memory/playbook.d.ts.map +1 -0
package/dist/memory/playbook.js +357 -0
package/dist/memory/playbook.js.map +1 -0
package/dist/memory/system.d.ts +167 -0
package/dist/memory/system.d.ts.map +1 -0
package/dist/memory/system.js +383 -0
package/dist/memory/system.js.map +1 -0
package/dist/runtime/backends/acp.d.ts +67 -0
package/dist/runtime/backends/acp.d.ts.map +1 -0
package/dist/runtime/backends/acp.js +290 -0
package/dist/runtime/backends/acp.js.map +1 -0
package/dist/runtime/backends/index.d.ts +5 -0
package/dist/runtime/backends/index.d.ts.map +1 -0
package/dist/runtime/backends/index.js +6 -0
package/dist/runtime/backends/index.js.map +1 -0
package/dist/runtime/backends/mock.d.ts +67 -0
package/dist/runtime/backends/mock.d.ts.map +1 -0
package/dist/runtime/backends/mock.js +153 -0
package/dist/runtime/backends/mock.js.map +1 -0
package/dist/runtime/backends/subprocess.d.ts +56 -0
package/dist/runtime/backends/subprocess.d.ts.map +1 -0
package/dist/runtime/backends/subprocess.js +260 -0
package/dist/runtime/backends/subprocess.js.map +1 -0
package/dist/runtime/flows/learning.d.ts +73 -0
package/dist/runtime/flows/learning.d.ts.map +1 -0
package/dist/runtime/flows/learning.js +116 -0
package/dist/runtime/flows/learning.js.map +1 -0
package/dist/runtime/flows/validation.d.ts +122 -0
package/dist/runtime/flows/validation.d.ts.map +1 -0
package/dist/runtime/flows/validation.js +223 -0
package/dist/runtime/flows/validation.js.map +1 -0
package/dist/runtime/index.d.ts +6 -0
package/dist/runtime/index.d.ts.map +1 -0
package/dist/runtime/index.js +8 -0
package/dist/runtime/index.js.map +1 -0
package/dist/runtime/manager.d.ts +116 -0
package/dist/runtime/manager.d.ts.map +1 -0
package/dist/runtime/manager.js +416 -0
package/dist/runtime/manager.js.map +1 -0
package/dist/runtime/types.d.ts +138 -0
package/dist/runtime/types.d.ts.map +1 -0
package/dist/runtime/types.js +2 -0
package/dist/runtime/types.js.map +1 -0
package/dist/search/evaluator.d.ts +102 -0
package/dist/search/evaluator.d.ts.map +1 -0
package/dist/search/evaluator.js +352 -0
package/dist/search/evaluator.js.map +1 -0
package/dist/search/index.d.ts +7 -0
package/dist/search/index.d.ts.map +1 -0
package/dist/search/index.js +11 -0
package/dist/search/index.js.map +1 -0
package/dist/search/refinement-loop.d.ts +73 -0
package/dist/search/refinement-loop.d.ts.map +1 -0
package/dist/search/refinement-loop.js +245 -0
package/dist/search/refinement-loop.js.map +1 -0
package/dist/search/refinement-types.d.ts +154 -0
package/dist/search/refinement-types.d.ts.map +1 -0
package/dist/search/refinement-types.js +99 -0
package/dist/search/refinement-types.js.map +1 -0
package/dist/search/router.d.ts +61 -0
package/dist/search/router.d.ts.map +1 -0
package/dist/search/router.js +197 -0
package/dist/search/router.js.map +1 -0
package/dist/search/solver.d.ts +75 -0
package/dist/search/solver.d.ts.map +1 -0
package/dist/search/solver.js +216 -0
package/dist/search/solver.js.map +1 -0
package/dist/search/verification-runner.d.ts +125 -0
package/dist/search/verification-runner.d.ts.map +1 -0
package/dist/search/verification-runner.js +440 -0
package/dist/search/verification-runner.js.map +1 -0
package/dist/surfacing/index.d.ts +2 -0
package/dist/surfacing/index.d.ts.map +1 -0
package/dist/surfacing/index.js +2 -0
package/dist/surfacing/index.js.map +1 -0
package/dist/surfacing/skill-library.d.ts +158 -0
package/dist/surfacing/skill-library.d.ts.map +1 -0
package/dist/surfacing/skill-library.js +429 -0
package/dist/surfacing/skill-library.js.map +1 -0
package/dist/types/config.d.ts +1113 -0
package/dist/types/config.d.ts.map +1 -0
package/dist/types/config.js +274 -0
package/dist/types/config.js.map +1 -0
package/dist/types/index.d.ts +9 -0
package/dist/types/index.d.ts.map +1 -0
package/dist/types/index.js +14 -0
package/dist/types/index.js.map +1 -0
package/dist/types/memory.d.ts +339 -0
package/dist/types/memory.d.ts.map +1 -0
package/dist/types/memory.js +207 -0
package/dist/types/memory.js.map +1 -0
package/dist/types/meta.d.ts +146 -0
package/dist/types/meta.d.ts.map +1 -0
package/dist/types/meta.js +51 -0
package/dist/types/meta.js.map +1 -0
package/dist/types/outcome.d.ts +42 -0
package/dist/types/outcome.d.ts.map +1 -0
package/dist/types/outcome.js +50 -0
package/dist/types/outcome.js.map +1 -0
package/dist/types/playbook.d.ts +119 -0
package/dist/types/playbook.d.ts.map +1 -0
package/dist/types/playbook.js +71 -0
package/dist/types/playbook.js.map +1 -0
package/dist/types/step.d.ts +44 -0
package/dist/types/step.d.ts.map +1 -0
package/dist/types/step.js +32 -0
package/dist/types/step.js.map +1 -0
package/dist/types/task.d.ts +91 -0
package/dist/types/task.d.ts.map +1 -0
package/dist/types/task.js +39 -0
package/dist/types/task.js.map +1 -0
package/dist/types/trajectory.d.ts +221 -0
package/dist/types/trajectory.d.ts.map +1 -0
package/dist/types/trajectory.js +60 -0
package/dist/types/trajectory.js.map +1 -0
package/dist/utils/index.d.ts +4 -0
package/dist/utils/index.d.ts.map +1 -0
package/dist/utils/index.js +4 -0
package/dist/utils/index.js.map +1 -0
package/dist/utils/similarity.d.ts +31 -0
package/dist/utils/similarity.d.ts.map +1 -0
package/dist/utils/similarity.js +107 -0
package/dist/utils/similarity.js.map +1 -0
package/dist/utils/storage.d.ts +106 -0
package/dist/utils/storage.d.ts.map +1 -0
package/dist/utils/storage.js +203 -0
package/dist/utils/storage.js.map +1 -0
package/dist/utils/validation.d.ts +129 -0
package/dist/utils/validation.d.ts.map +1 -0
package/dist/utils/validation.js +171 -0
package/dist/utils/validation.js.map +1 -0
package/package.json +50 -34
package/scripts/migrate-to-playbooks.ts +307 -0
package/src/agents/index.ts +14 -0
package/src/agents/mock-provider.ts +93 -0
package/src/agents/types.ts +137 -0
package/src/atlas.ts +560 -0
package/src/bin/cognitive-core.ts +470 -0
package/src/embeddings/bm25.ts +337 -0
package/src/embeddings/index.ts +39 -0
package/src/embeddings/manager.ts +288 -0
package/src/embeddings/provider.ts +311 -0
package/src/embeddings/vector-store.ts +353 -0
package/src/factory.ts +263 -0
package/src/index.ts +246 -0
package/src/learning/analyzer.ts +335 -0
package/src/learning/effectiveness.ts +428 -0
package/src/learning/index.ts +58 -0
package/src/learning/llm-extractor.ts +542 -0
package/src/learning/meta-learner.ts +516 -0
package/src/learning/pipeline.ts +244 -0
package/src/learning/playbook-extractor.ts +702 -0
package/src/learning/usage-inference.ts +372 -0
package/src/mcp/index.ts +12 -0
package/src/mcp/playbook-server.ts +565 -0
package/src/memory/curated-loader.ts +160 -0
package/src/memory/experience.ts +515 -0
package/src/memory/index.ts +27 -0
package/src/memory/meta.ts +506 -0
package/src/memory/playbook.ts +493 -0
package/src/memory/system.ts +551 -0
package/src/runtime/backends/acp.ts +378 -0
package/src/runtime/backends/index.ts +24 -0
package/src/runtime/backends/mock.ts +218 -0
package/src/runtime/backends/subprocess.ts +356 -0
package/src/runtime/flows/learning.ts +183 -0
package/src/runtime/flows/validation.ts +381 -0
package/src/runtime/index.ts +53 -0
package/src/runtime/manager.ts +541 -0
package/src/runtime/types.ts +157 -0
package/src/search/evaluator.ts +474 -0
package/src/search/index.ts +59 -0
package/src/search/refinement-loop.ts +363 -0
package/src/search/refinement-types.ts +159 -0
package/src/search/router.ts +261 -0
package/src/search/solver.ts +303 -0
package/src/search/verification-runner.ts +570 -0
package/src/surfacing/index.ts +6 -0
package/src/surfacing/skill-library.ts +594 -0
package/src/types/config.ts +333 -0
package/src/types/index.ts +130 -0
package/src/types/memory.ts +270 -0
package/src/types/meta.ts +218 -0
package/src/types/outcome.ts +66 -0
package/src/types/playbook.ts +196 -0
package/src/types/step.ts +40 -0
package/src/types/task.ts +52 -0
package/src/types/trajectory.ts +80 -0
package/src/utils/index.ts +38 -0
package/src/utils/similarity.ts +139 -0
package/src/utils/storage.ts +249 -0
package/src/utils/validation.ts +286 -0
package/tests/embeddings/bm25.test.ts +130 -0
package/tests/embeddings/manager.test.ts +205 -0
package/tests/integration/atlas.test.ts +266 -0
package/tests/integration/e2e.test.ts +929 -0
package/tests/learning/analyzer.test.ts +426 -0
package/tests/learning/effectiveness.test.ts +542 -0
package/tests/learning/pipeline.test.ts +176 -0
package/tests/learning/playbook-extractor-provenance.test.ts +114 -0
package/tests/learning/usage-inference.test.ts +254 -0
package/tests/mcp/playbook-server.test.ts +252 -0
package/tests/memory/experience.test.ts +198 -0
package/tests/memory/playbook.test.ts +338 -0
package/tests/memory/provenance.test.ts +639 -0
package/tests/memory/system.test.ts +325 -0
package/tests/runtime/agent-manager.test.ts +512 -0
package/tests/runtime/mock-backend.test.ts +248 -0
package/tests/search/refinement-loop.test.ts +468 -0
package/tests/search/refinement.test.ts +267 -0
package/tests/search/router.test.ts +427 -0
package/tests/surfacing/skill-library.test.ts +292 -0
package/tests/types/outcome.test.ts +147 -0
package/tests/types/step.test.ts +133 -0
package/tests/types/task.test.ts +158 -0
package/tests/types/trajectory.test.ts +253 -0
package/tests/utils/similarity.test.ts +188 -0
package/tests/utils/validation.test.ts +252 -0
package/tsconfig.json +25 -0
package/vitest.config.ts +22 -0
package/dist/index.d.mts +0 -466
package/dist/index.mjs +0 -478

package/tests/learning/effectiveness.test.ts ADDED Viewed

@@ -0,0 +1,542 @@
+import { describe, it, expect, beforeEach, afterEach } from 'vitest';
+import {
+  LearningEffectivenessTracker,
+  createEffectivenessTracker,
+} from '../../src/learning/effectiveness.js';
+import { createTrajectory, createStep, createTask, successOutcome, failureOutcome } from '../../src/types/index.js';
+import type { PlaybookMatch } from '../../src/memory/playbook.js';
+import type { Playbook } from '../../src/types/playbook.js';
+import { createPlaybook } from '../../src/types/playbook.js';
+import { mkdtemp, rm } from 'node:fs/promises';
+import { join } from 'node:path';
+import { tmpdir } from 'node:os';
+describe('LearningEffectivenessTracker', () => {
+  let tempDir: string;
+  let tracker: LearningEffectivenessTracker;
+  beforeEach(async () => {
+    tempDir = await mkdtemp(join(tmpdir(), 'atlas-eff-test-'));
+    tracker = createEffectivenessTracker(tempDir);
+    await tracker.init();
+  });
+  afterEach(async () => {
+    await tracker.close();
+    await rm(tempDir, { recursive: true, force: true });
+  });
+  function makeTrajectory(success: boolean, stepCount: number, hasErrors = false) {
+    const steps = [];
+    for (let i = 0; i < stepCount; i++) {
+      steps.push(createStep({
+        thought: `Step ${i + 1}`,
+        action: `action-${i + 1}`,
+        observation: hasErrors && i === 1 ? 'error: something failed' : 'ok',
+      }));
+    }
+    return createTrajectory({
+      task: createTask({ domain: 'test', description: `Test task ${Date.now()}` }),
+      steps,
+      outcome: success ? successOutcome({ result: 'done' }) : failureOutcome('failed'),
+      agentId: 'test-agent',
+    });
+  }
+  function makePlaybook(name: string): Playbook {
+    return createPlaybook({
+      name,
+      applicability: {
+        situations: ['Test'],
+        triggers: [],
+        antiPatterns: [],
+        domains: ['test'],
+      },
+      guidance: { strategy: 'Test', tactics: [] },
+    });
+  }
+  function makePlaybookMatch(playbook: Playbook): PlaybookMatch {
+    return { playbook, score: 0.8, matchType: 'situation' };
+  }
+  describe('annotate', () => {
+    it('should create an annotation for a trajectory', async () => {
+      const trajectory = makeTrajectory(true, 3);
+      const pb = makePlaybook('test-playbook');
+      const matches = [makePlaybookMatch(pb)];
+      const annotation = await tracker.annotate(
+        trajectory,
+        matches,
+        ['exp-1'],
+        [pb.id],
+      );
+      expect(annotation.trajectoryId).toBe(trajectory.id);
+      expect(annotation.knowledgeSurfaced.playbookIds).toEqual([pb.id]);
+      expect(annotation.knowledgeSurfaced.playbookNames).toEqual(['test-playbook']);
+      expect(annotation.knowledgeSurfaced.experienceIds).toEqual(['exp-1']);
+      expect(annotation.knowledgeSurfaced.totalItems).toBe(2);
+      expect(annotation.knowledgeApplied.playbookIdsUsed).toEqual([pb.id]);
+      expect(annotation.knowledgeApplied.anyKnowledgeUsed).toBe(true);
+      expect(annotation.outcome.success).toBe(true);
+      expect(annotation.outcome.stepCount).toBe(3);
+    });
+    it('should count error recoveries', async () => {
+      const trajectory = makeTrajectory(true, 4, true);
+      const annotation = await tracker.annotate(trajectory, [], [], []);
+      // Step 1 (ok) -> Step 2 (error) -> Step 3 (ok) = 1 recovery
+      expect(annotation.outcome.errorRecoveries).toBe(1);
+    });
+    it('should count multiple error recoveries', async () => {
+      const steps = [
+        createStep({ thought: 'S1', action: 'a1', observation: 'ok' }),
+        createStep({ thought: 'S2', action: 'a2', observation: 'error: first fail' }),
+        createStep({ thought: 'S3', action: 'a3', observation: 'recovered' }),
+        createStep({ thought: 'S4', action: 'a4', observation: 'error: second fail' }),
+        createStep({ thought: 'S5', action: 'a5', observation: 'recovered again' }),
+      ];
+      const trajectory = createTrajectory({
+        task: createTask({ domain: 'test', description: 'multi-error' }),
+        steps,
+        outcome: successOutcome({ result: 'done' }),
+        agentId: 'test-agent',
+      });
+      const annotation = await tracker.annotate(trajectory, [], [], []);
+      expect(annotation.outcome.errorRecoveries).toBe(2);
+    });
+    it('should report zero error recoveries for clean trajectories', async () => {
+      const trajectory = makeTrajectory(true, 5, false);
+      const annotation = await tracker.annotate(trajectory, [], [], []);
+      expect(annotation.outcome.errorRecoveries).toBe(0);
+    });
+    it('should handle multiple playbooks surfaced in one task', async () => {
+      const pb1 = makePlaybook('pb-alpha');
+      const pb2 = makePlaybook('pb-beta');
+      const pb3 = makePlaybook('pb-gamma');
+      const matches = [makePlaybookMatch(pb1), makePlaybookMatch(pb2), makePlaybookMatch(pb3)];
+      const annotation = await tracker.annotate(
+        makeTrajectory(true, 3),
+        matches,
+        [],
+        [pb1.id, pb3.id],
+      );
+      expect(annotation.knowledgeSurfaced.playbookIds).toHaveLength(3);
+      expect(annotation.knowledgeSurfaced.playbookNames).toEqual(['pb-alpha', 'pb-beta', 'pb-gamma']);
+      expect(annotation.knowledgeSurfaced.totalItems).toBe(3);
+      expect(annotation.knowledgeApplied.playbookIdsUsed).toHaveLength(2);
+      expect(annotation.knowledgeApplied.anyKnowledgeUsed).toBe(true);
+    });
+    it('should handle experience-only guidance (no playbooks)', async () => {
+      const annotation = await tracker.annotate(
+        makeTrajectory(true, 3),
+        [],
+        ['exp-1', 'exp-2', 'exp-3'],
+        [],
+      );
+      expect(annotation.knowledgeSurfaced.playbookIds).toHaveLength(0);
+      expect(annotation.knowledgeSurfaced.experienceIds).toHaveLength(3);
+      expect(annotation.knowledgeSurfaced.totalItems).toBe(3);
+      expect(annotation.knowledgeApplied.anyKnowledgeUsed).toBe(false);
+      expect(annotation.outcome.domainHadPlaybooks).toBe(false);
+    });
+    it('should persist annotations', async () => {
+      const trajectory = makeTrajectory(true, 2);
+      await tracker.annotate(trajectory, [], [], []);
+      const count = await tracker.count();
+      expect(count).toBe(1);
+      const retrieved = await tracker.getByTrajectoryId(trajectory.id);
+      expect(retrieved).toBeDefined();
+      expect(retrieved!.trajectoryId).toBe(trajectory.id);
+    });
+    it('should set annotation id based on trajectory id', async () => {
+      const trajectory = makeTrajectory(true, 2);
+      const annotation = await tracker.annotate(trajectory, [], [], []);
+      expect(annotation.id).toBe(`ann-${trajectory.id}`);
+    });
+  });
+  describe('getAll and getByTrajectoryId', () => {
+    it('should return all annotations', async () => {
+      await tracker.annotate(makeTrajectory(true, 2), [], [], []);
+      await tracker.annotate(makeTrajectory(false, 3), [], [], []);
+      await tracker.annotate(makeTrajectory(true, 4), [], [], []);
+      const all = await tracker.getAll();
+      expect(all).toHaveLength(3);
+    });
+    it('should return undefined for non-existent trajectory id', async () => {
+      const result = await tracker.getByTrajectoryId('nonexistent-id');
+      expect(result).toBeUndefined();
+    });
+  });
+  describe('addReflection', () => {
+    it('should add a reflection to an existing annotation', async () => {
+      const trajectory = makeTrajectory(true, 2);
+      const annotation = await tracker.annotate(trajectory, [], [], []);
+      await tracker.addReflection(annotation.id, {
+        knowledgeRelevance: 'helpful',
+        notes: 'The playbook guidance was spot on',
+      });
+      const updated = await tracker.getByTrajectoryId(trajectory.id);
+      expect(updated!.reflection).toBeDefined();
+      expect(updated!.reflection!.knowledgeRelevance).toBe('helpful');
+      expect(updated!.reflection!.notes).toBe('The playbook guidance was spot on');
+    });
+    it('should no-op when annotation id does not exist', async () => {
+      await tracker.addReflection('nonexistent-ann', {
+        knowledgeRelevance: 'helpful',
+      });
+      expect(await tracker.count()).toBe(0);
+    });
+    it('should overwrite previous reflection', async () => {
+      const trajectory = makeTrajectory(true, 2);
+      const annotation = await tracker.annotate(trajectory, [], [], []);
+      await tracker.addReflection(annotation.id, {
+        knowledgeRelevance: 'helpful',
+      });
+      await tracker.addReflection(annotation.id, {
+        knowledgeRelevance: 'misleading',
+        notes: 'Actually it was wrong',
+      });
+      const updated = await tracker.getByTrajectoryId(trajectory.id);
+      expect(updated!.reflection!.knowledgeRelevance).toBe('misleading');
+      expect(updated!.reflection!.notes).toBe('Actually it was wrong');
+    });
+  });
+  describe('computeMetrics', () => {
+    it('should compute guided vs unguided success rates', async () => {
+      const pb = makePlaybook('guide-playbook');
+      const match = makePlaybookMatch(pb);
+      // 2 guided successes
+      await tracker.annotate(makeTrajectory(true, 3), [match], [], [pb.id]);
+      await tracker.annotate(makeTrajectory(true, 4), [match], [], [pb.id]);
+      // 1 guided failure
+      await tracker.annotate(makeTrajectory(false, 5), [match], [], []);
+      // 1 unguided success
+      await tracker.annotate(makeTrajectory(true, 6), [], [], []);
+      // 2 unguided failures
+      await tracker.annotate(makeTrajectory(false, 8), [], [], []);
+      await tracker.annotate(makeTrajectory(false, 7), [], [], []);
+      const metrics = await tracker.computeMetrics();
+      expect(metrics.totalTasks).toBe(6);
+      expect(metrics.guidedTasks).toBe(3);
+      expect(metrics.unguidedTasks).toBe(3);
+      expect(metrics.guidedSuccessRate).toBeCloseTo(2 / 3, 2);
+      expect(metrics.unguidedSuccessRate).toBeCloseTo(1 / 3, 2);
+      expect(metrics.successRateDelta).toBeCloseTo(1 / 3, 2);
+    });
+    it('should compute average step counts', async () => {
+      const pb = makePlaybook('step-playbook');
+      const match = makePlaybookMatch(pb);
+      // Guided: 3, 4 steps -> avg 3.5
+      await tracker.annotate(makeTrajectory(true, 3), [match], [], []);
+      await tracker.annotate(makeTrajectory(true, 4), [match], [], []);
+      // Unguided: 6, 8 steps -> avg 7
+      await tracker.annotate(makeTrajectory(true, 6), [], [], []);
+      await tracker.annotate(makeTrajectory(true, 8), [], [], []);
+      const metrics = await tracker.computeMetrics();
+      expect(metrics.guidedAvgSteps).toBeCloseTo(3.5, 1);
+      expect(metrics.unguidedAvgSteps).toBeCloseTo(7, 1);
+      expect(metrics.stepCountDelta).toBeCloseTo(-3.5, 1); // Negative = guidance reduces steps
+    });
+    it('should compute knowledge application rate', async () => {
+      const pb = makePlaybook('applied-playbook');
+      const match = makePlaybookMatch(pb);
+      // 2 guided, knowledge applied
+      await tracker.annotate(makeTrajectory(true, 3), [match], [], [pb.id]);
+      await tracker.annotate(makeTrajectory(true, 3), [match], [], [pb.id]);
+      // 1 guided, knowledge NOT applied
+      await tracker.annotate(makeTrajectory(false, 5), [match], [], []);
+      const metrics = await tracker.computeMetrics();
+      expect(metrics.knowledgeApplicationRate).toBeCloseTo(2 / 3, 2);
+      expect(metrics.appliedKnowledgeSuccessRate).toBe(1); // Both applied succeeded
+    });
+    it('should compute per-playbook effectiveness', async () => {
+      const pb1 = makePlaybook('good-playbook');
+      const pb2 = makePlaybook('bad-playbook');
+      const match1 = makePlaybookMatch(pb1);
+      const match2 = makePlaybookMatch(pb2);
+      // Good playbook: surfaced 3x, applied 3x, succeeded 2x
+      await tracker.annotate(makeTrajectory(true, 3), [match1], [], [pb1.id]);
+      await tracker.annotate(makeTrajectory(true, 4), [match1], [], [pb1.id]);
+      await tracker.annotate(makeTrajectory(false, 5), [match1], [], [pb1.id]);
+      // Bad playbook: surfaced 2x, applied 2x, succeeded 0x
+      await tracker.annotate(makeTrajectory(false, 6), [match2], [], [pb2.id]);
+      await tracker.annotate(makeTrajectory(false, 7), [match2], [], [pb2.id]);
+      const metrics = await tracker.computeMetrics();
+      expect(metrics.playbookEffectiveness).toHaveLength(2);
+      const goodPb = metrics.playbookEffectiveness.find(
+        (e) => e.playbookName === 'good-playbook'
+      );
+      expect(goodPb).toBeDefined();
+      expect(goodPb!.surfacedCount).toBe(3);
+      expect(goodPb!.appliedCount).toBe(3);
+      expect(goodPb!.appliedSuccessRate).toBeCloseTo(2 / 3, 2);
+      const badPb = metrics.playbookEffectiveness.find(
+        (e) => e.playbookName === 'bad-playbook'
+      );
+      expect(badPb).toBeDefined();
+      expect(badPb!.surfacedCount).toBe(2);
+      expect(badPb!.appliedSuccessRate).toBe(0);
+    });
+    it('should compute error recovery delta between guided and unguided', async () => {
+      const pb = makePlaybook('error-helper');
+      const match = makePlaybookMatch(pb);
+      // Guided: 1 error recovery each (avg 1)
+      await tracker.annotate(makeTrajectory(true, 4, true), [match], [], [pb.id]);
+      await tracker.annotate(makeTrajectory(true, 4, true), [match], [], [pb.id]);
+      // Unguided: no errors (avg 0)
+      await tracker.annotate(makeTrajectory(true, 3, false), [], [], []);
+      await tracker.annotate(makeTrajectory(true, 3, false), [], [], []);
+      const metrics = await tracker.computeMetrics();
+      expect(metrics.guidedAvgErrorRecoveries).toBe(1);
+      expect(metrics.unguidedAvgErrorRecoveries).toBe(0);
+    });
+    it('should compute per-playbook average step count', async () => {
+      const pb = makePlaybook('step-counter');
+      const match = makePlaybookMatch(pb);
+      // Applied with step counts 3, 5, 7 -> avg 5
+      await tracker.annotate(makeTrajectory(true, 3), [match], [], [pb.id]);
+      await tracker.annotate(makeTrajectory(true, 5), [match], [], [pb.id]);
+      await tracker.annotate(makeTrajectory(true, 7), [match], [], [pb.id]);
+      const metrics = await tracker.computeMetrics();
+      const pbMetrics = metrics.playbookEffectiveness.find(
+        (e) => e.playbookName === 'step-counter'
+      );
+      expect(pbMetrics).toBeDefined();
+      expect(pbMetrics!.appliedAvgSteps).toBe(5);
+    });
+    it('should track playbooks surfaced but not applied', async () => {
+      const pb = makePlaybook('ignored-playbook');
+      const match = makePlaybookMatch(pb);
+      // Surfaced 3x, applied 0x
+      await tracker.annotate(makeTrajectory(true, 3), [match], [], []);
+      await tracker.annotate(makeTrajectory(false, 4), [match], [], []);
+      await tracker.annotate(makeTrajectory(true, 5), [match], [], []);
+      const metrics = await tracker.computeMetrics();
+      const pbMetrics = metrics.playbookEffectiveness.find(
+        (e) => e.playbookName === 'ignored-playbook'
+      );
+      expect(pbMetrics).toBeDefined();
+      expect(pbMetrics!.surfacedCount).toBe(3);
+      expect(pbMetrics!.appliedCount).toBe(0);
+      expect(pbMetrics!.appliedSuccessRate).toBe(0);
+      expect(pbMetrics!.appliedAvgSteps).toBe(0);
+    });
+    it('should sort playbook effectiveness by surfaced count descending', async () => {
+      const pb1 = makePlaybook('popular');
+      const pb2 = makePlaybook('rare');
+      const match1 = makePlaybookMatch(pb1);
+      const match2 = makePlaybookMatch(pb2);
+      // Popular: surfaced 5x
+      for (let i = 0; i < 5; i++) {
+        await tracker.annotate(makeTrajectory(true, 3), [match1], [], []);
+      }
+      // Rare: surfaced 1x
+      await tracker.annotate(makeTrajectory(true, 3), [match2], [], []);
+      const metrics = await tracker.computeMetrics();
+      expect(metrics.playbookEffectiveness[0].playbookName).toBe('popular');
+      expect(metrics.playbookEffectiveness[1].playbookName).toBe('rare');
+    });
+    it('should filter by time window with since', async () => {
+      const now = Date.now();
+      await tracker.annotate(makeTrajectory(true, 3), [], [], []);
+      const metrics = await tracker.computeMetrics({
+        since: new Date(now + 60000), // In the future — should exclude everything
+      });
+      expect(metrics.totalTasks).toBe(0);
+    });
+    it('should filter by time window with until', async () => {
+      const past = new Date(Date.now() - 60000);
+      await tracker.annotate(makeTrajectory(true, 3), [], [], []);
+      const metrics = await tracker.computeMetrics({
+        until: past, // In the past — should exclude everything created now
+      });
+      expect(metrics.totalTasks).toBe(0);
+    });
+    it('should set window start and end in metrics', async () => {
+      const since = new Date('2025-01-01');
+      const until = new Date('2025-12-31');
+      const metrics = await tracker.computeMetrics({ since, until });
+      expect(metrics.windowStart).toEqual(since);
+      expect(metrics.windowEnd).toEqual(until);
+    });
+    it('should handle all-guided scenario', async () => {
+      const pb = makePlaybook('always-on');
+      const match = makePlaybookMatch(pb);
+      await tracker.annotate(makeTrajectory(true, 3), [match], [], [pb.id]);
+      await tracker.annotate(makeTrajectory(true, 4), [match], [], [pb.id]);
+      const metrics = await tracker.computeMetrics();
+      expect(metrics.guidedTasks).toBe(2);
+      expect(metrics.unguidedTasks).toBe(0);
+      expect(metrics.guidedSuccessRate).toBe(1);
+      expect(metrics.unguidedSuccessRate).toBe(0); // No data → 0
+    });
+    it('should handle all-unguided scenario', async () => {
+      await tracker.annotate(makeTrajectory(true, 3), [], [], []);
+      await tracker.annotate(makeTrajectory(false, 4), [], [], []);
+      const metrics = await tracker.computeMetrics();
+      expect(metrics.guidedTasks).toBe(0);
+      expect(metrics.unguidedTasks).toBe(2);
+      expect(metrics.guidedSuccessRate).toBe(0);
+      expect(metrics.unguidedSuccessRate).toBe(0.5);
+    });
+    it('should handle empty tracker gracefully', async () => {
+      const metrics = await tracker.computeMetrics();
+      expect(metrics.totalTasks).toBe(0);
+      expect(metrics.guidedSuccessRate).toBe(0);
+      expect(metrics.unguidedSuccessRate).toBe(0);
+      expect(metrics.successRateDelta).toBe(0);
+      expect(metrics.guidedAvgSteps).toBe(0);
+      expect(metrics.unguidedAvgSteps).toBe(0);
+      expect(metrics.knowledgeApplicationRate).toBe(0);
+      expect(metrics.appliedKnowledgeSuccessRate).toBe(0);
+      expect(metrics.playbookEffectiveness).toHaveLength(0);
+    });
+  });
+  describe('reflection-based relevance tracking', () => {
+    it('should compute relevance rate from reflections', async () => {
+      const pb = makePlaybook('reflected-playbook');
+      const match = makePlaybookMatch(pb);
+      const ann1 = await tracker.annotate(makeTrajectory(true, 3), [match], [], [pb.id]);
+      await tracker.addReflection(ann1.id, { knowledgeRelevance: 'helpful' });
+      const ann2 = await tracker.annotate(makeTrajectory(true, 4), [match], [], [pb.id]);
+      await tracker.addReflection(ann2.id, { knowledgeRelevance: 'irrelevant' });
+      const ann3 = await tracker.annotate(makeTrajectory(true, 5), [match], [], [pb.id]);
+      await tracker.addReflection(ann3.id, { knowledgeRelevance: 'helpful' });
+      const metrics = await tracker.computeMetrics();
+      const pbMetrics = metrics.playbookEffectiveness.find(
+        (e) => e.playbookName === 'reflected-playbook'
+      );
+      expect(pbMetrics).toBeDefined();
+      // 2 out of 3 reflections rated as helpful
+      expect(pbMetrics!.relevanceRate).toBeCloseTo(2 / 3, 2);
+    });
+    it('should not count misleading or not_assessed as relevant', async () => {
+      const pb = makePlaybook('mixed-feedback');
+      const match = makePlaybookMatch(pb);
+      const ann1 = await tracker.annotate(makeTrajectory(true, 3), [match], [], [pb.id]);
+      await tracker.addReflection(ann1.id, { knowledgeRelevance: 'misleading' });
+      const ann2 = await tracker.annotate(makeTrajectory(true, 3), [match], [], [pb.id]);
+      await tracker.addReflection(ann2.id, { knowledgeRelevance: 'not_assessed' });
+      const ann3 = await tracker.annotate(makeTrajectory(true, 3), [match], [], [pb.id]);
+      await tracker.addReflection(ann3.id, { knowledgeRelevance: 'helpful' });
+      const metrics = await tracker.computeMetrics();
+      const pbMetrics = metrics.playbookEffectiveness.find(
+        (e) => e.playbookName === 'mixed-feedback'
+      );
+      expect(pbMetrics).toBeDefined();
+      // Only 1 out of 3 is 'helpful'
+      expect(pbMetrics!.relevanceRate).toBeCloseTo(1 / 3, 2);
+    });
+    it('should report 0 relevance when no reflections exist', async () => {
+      const pb = makePlaybook('no-reflections');
+      const match = makePlaybookMatch(pb);
+      await tracker.annotate(makeTrajectory(true, 3), [match], [], [pb.id]);
+      await tracker.annotate(makeTrajectory(true, 4), [match], [], [pb.id]);
+      const metrics = await tracker.computeMetrics();
+      const pbMetrics = metrics.playbookEffectiveness.find(
+        (e) => e.playbookName === 'no-reflections'
+      );
+      expect(pbMetrics).toBeDefined();
+      expect(pbMetrics!.relevanceRate).toBe(0); // No assessments = 0 rate
+    });
+  });
+});