npm - @agentmemory/agentmemory - Versions diffs - 0.7.0 → 0.7.3 - Mend

@agentmemory/agentmemory 0.7.0 → 0.7.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (218) hide show

package/AGENTS.md +2 -2
package/README.md +76 -82
package/dist/cli.mjs +99 -32
package/dist/cli.mjs.map +1 -1
package/dist/index.mjs +4 -2
package/dist/index.mjs.map +1 -1
package/dist/{src-QxitMPfJ.mjs → src-sYZDDbiA.mjs} +5 -3
package/dist/src-sYZDDbiA.mjs.map +1 -0
package/dist/standalone.mjs +1 -1
package/dist/standalone.mjs.map +1 -1
package/package.json +11 -1
package/plugin/.claude-plugin/plugin.json +1 -1
package/plugin/scripts/notification.d.mts +1 -0
package/plugin/scripts/notification.mjs.map +1 -0
package/plugin/scripts/post-tool-failure.d.mts +1 -0
package/plugin/scripts/post-tool-failure.mjs.map +1 -0
package/plugin/scripts/post-tool-use.d.mts +1 -0
package/plugin/scripts/post-tool-use.mjs.map +1 -0
package/plugin/scripts/pre-compact.d.mts +1 -0
package/plugin/scripts/pre-compact.mjs.map +1 -0
package/plugin/scripts/pre-tool-use.d.mts +1 -0
package/plugin/scripts/pre-tool-use.mjs.map +1 -0
package/plugin/scripts/prompt-submit.d.mts +1 -0
package/plugin/scripts/prompt-submit.mjs.map +1 -0
package/plugin/scripts/session-end.d.mts +1 -0
package/plugin/scripts/session-end.mjs.map +1 -0
package/plugin/scripts/session-start.d.mts +1 -0
package/plugin/scripts/session-start.mjs.map +1 -0
package/plugin/scripts/stop.d.mts +1 -0
package/plugin/scripts/stop.mjs.map +1 -0
package/plugin/scripts/subagent-start.d.mts +1 -0
package/plugin/scripts/subagent-start.mjs.map +1 -0
package/plugin/scripts/subagent-stop.d.mts +1 -0
package/plugin/scripts/subagent-stop.mjs.map +1 -0
package/plugin/scripts/task-completed.d.mts +1 -0
package/plugin/scripts/task-completed.mjs.map +1 -0
package/.claude-plugin/marketplace.json +0 -14
package/.github/workflows/ci.yml +0 -22
package/.github/workflows/publish.yml +0 -28
package/assets/banner.png +0 -0
package/assets/demo.gif +0 -0
package/assets/demo.mp4 +0 -0
package/benchmark/QUALITY.md +0 -73
package/benchmark/REAL-EMBEDDINGS.md +0 -67
package/benchmark/SCALE.md +0 -110
package/benchmark/dataset.ts +0 -293
package/benchmark/quality-eval.ts +0 -643
package/benchmark/real-embeddings-eval.ts +0 -405
package/benchmark/scale-eval.ts +0 -398
package/dist/src-QxitMPfJ.mjs.map +0 -1
package/src/auth.ts +0 -12
package/src/cli.ts +0 -159
package/src/config.ts +0 -221
package/src/eval/metrics-store.ts +0 -65
package/src/eval/quality.ts +0 -51
package/src/eval/schemas.ts +0 -124
package/src/eval/self-correct.ts +0 -28
package/src/eval/validator.ts +0 -31
package/src/functions/actions.ts +0 -288
package/src/functions/audit.ts +0 -61
package/src/functions/auto-forget.ts +0 -169
package/src/functions/branch-aware.ts +0 -169
package/src/functions/cascade.ts +0 -80
package/src/functions/checkpoints.ts +0 -209
package/src/functions/claude-bridge.ts +0 -161
package/src/functions/compress.ts +0 -194
package/src/functions/consolidate.ts +0 -212
package/src/functions/consolidation-pipeline.ts +0 -258
package/src/functions/context.ts +0 -169
package/src/functions/crystallize.ts +0 -293
package/src/functions/dedup.ts +0 -57
package/src/functions/diagnostics.ts +0 -785
package/src/functions/enrich.ts +0 -132
package/src/functions/evict.ts +0 -163
package/src/functions/export-import.ts +0 -508
package/src/functions/facets.ts +0 -248
package/src/functions/file-index.ts +0 -106
package/src/functions/flow-compress.ts +0 -214
package/src/functions/frontier.ts +0 -196
package/src/functions/governance.ts +0 -131
package/src/functions/graph-retrieval.ts +0 -277
package/src/functions/graph.ts +0 -275
package/src/functions/leases.ts +0 -216
package/src/functions/lessons.ts +0 -253
package/src/functions/mesh.ts +0 -434
package/src/functions/migrate.ts +0 -165
package/src/functions/observe.ts +0 -144
package/src/functions/obsidian-export.ts +0 -310
package/src/functions/patterns.ts +0 -138
package/src/functions/privacy.ts +0 -39
package/src/functions/profile.ts +0 -155
package/src/functions/query-expansion.ts +0 -186
package/src/functions/relations.ts +0 -237
package/src/functions/remember.ts +0 -162
package/src/functions/retention.ts +0 -235
package/src/functions/routines.ts +0 -289
package/src/functions/search.ts +0 -80
package/src/functions/sentinels.ts +0 -417
package/src/functions/signals.ts +0 -186
package/src/functions/sketches.ts +0 -274
package/src/functions/sliding-window.ts +0 -257
package/src/functions/smart-search.ts +0 -115
package/src/functions/snapshot.ts +0 -219
package/src/functions/summarize.ts +0 -155
package/src/functions/team.ts +0 -147
package/src/functions/temporal-graph.ts +0 -476
package/src/functions/timeline.ts +0 -138
package/src/functions/verify.ts +0 -117
package/src/health/monitor.ts +0 -110
package/src/health/thresholds.ts +0 -73
package/src/hooks/notification.ts +0 -52
package/src/hooks/post-tool-failure.ts +0 -58
package/src/hooks/post-tool-use.ts +0 -62
package/src/hooks/pre-compact.ts +0 -60
package/src/hooks/pre-tool-use.ts +0 -72
package/src/hooks/prompt-submit.ts +0 -46
package/src/hooks/session-end.ts +0 -71
package/src/hooks/session-start.ts +0 -48
package/src/hooks/stop.ts +0 -39
package/src/hooks/subagent-start.ts +0 -49
package/src/hooks/subagent-stop.ts +0 -54
package/src/hooks/task-completed.ts +0 -54
package/src/index.ts +0 -342
package/src/mcp/in-memory-kv.ts +0 -61
package/src/mcp/server.ts +0 -1455
package/src/mcp/standalone.ts +0 -177
package/src/mcp/tools-registry.ts +0 -769
package/src/mcp/transport.ts +0 -91
package/src/prompts/compression.ts +0 -67
package/src/prompts/consolidation.ts +0 -48
package/src/prompts/graph-extraction.ts +0 -35
package/src/prompts/summary.ts +0 -38
package/src/prompts/xml.ts +0 -26
package/src/providers/agent-sdk.ts +0 -34
package/src/providers/anthropic.ts +0 -35
package/src/providers/circuit-breaker.ts +0 -82
package/src/providers/embedding/cohere.ts +0 -46
package/src/providers/embedding/gemini.ts +0 -54
package/src/providers/embedding/index.ts +0 -39
package/src/providers/embedding/local.ts +0 -52
package/src/providers/embedding/openai.ts +0 -45
package/src/providers/embedding/openrouter.ts +0 -51
package/src/providers/embedding/voyage.ts +0 -46
package/src/providers/fallback-chain.ts +0 -31
package/src/providers/index.ts +0 -84
package/src/providers/openrouter.ts +0 -71
package/src/providers/resilient.ts +0 -37
package/src/state/hybrid-search.ts +0 -295
package/src/state/index-persistence.ts +0 -63
package/src/state/keyed-mutex.ts +0 -18
package/src/state/kv.ts +0 -33
package/src/state/schema.ts +0 -71
package/src/state/search-index.ts +0 -245
package/src/state/stemmer.ts +0 -104
package/src/state/synonyms.ts +0 -63
package/src/state/vector-index.ts +0 -130
package/src/telemetry/setup.ts +0 -116
package/src/triggers/api.ts +0 -1904
package/src/triggers/events.ts +0 -71
package/src/types.ts +0 -769
package/src/version.ts +0 -1
package/src/viewer/index.html +0 -2497
package/src/viewer/server.ts +0 -207
package/src/xenova.d.ts +0 -3
package/test/actions.test.ts +0 -490
package/test/audit.test.ts +0 -108
package/test/auto-forget.test.ts +0 -188
package/test/cascade.test.ts +0 -277
package/test/checkpoints.test.ts +0 -493
package/test/circuit-breaker.test.ts +0 -107
package/test/claude-bridge.test.ts +0 -178
package/test/confidence.test.ts +0 -247
package/test/consistency.test.ts +0 -61
package/test/consolidation-pipeline.test.ts +0 -251
package/test/crystallize.test.ts +0 -521
package/test/diagnostics.test.ts +0 -638
package/test/embedding-provider.test.ts +0 -49
package/test/enrich.test.ts +0 -209
package/test/eval.test.ts +0 -300
package/test/export-import.test.ts +0 -251
package/test/facets.test.ts +0 -448
package/test/fallback-chain.test.ts +0 -93
package/test/frontier.test.ts +0 -485
package/test/governance.test.ts +0 -147
package/test/graph-retrieval.test.ts +0 -186
package/test/graph.test.ts +0 -160
package/test/helpers/mocks.ts +0 -40
package/test/hybrid-search.test.ts +0 -145
package/test/index-persistence.test.ts +0 -124
package/test/integration.test.ts +0 -265
package/test/leases.test.ts +0 -399
package/test/mcp-prompts.test.ts +0 -218
package/test/mcp-resources.test.ts +0 -286
package/test/mcp-standalone.test.ts +0 -113
package/test/mesh.test.ts +0 -700
package/test/privacy.test.ts +0 -87
package/test/profile.test.ts +0 -161
package/test/query-expansion.test.ts +0 -154
package/test/relations.test.ts +0 -198
package/test/retention.test.ts +0 -245
package/test/routines.test.ts +0 -497
package/test/schema-fingerprint.test.ts +0 -81
package/test/schema.test.ts +0 -42
package/test/search-index.test.ts +0 -128
package/test/sentinels.test.ts +0 -626
package/test/signals.test.ts +0 -410
package/test/sketches.test.ts +0 -549
package/test/sliding-window.test.ts +0 -199
package/test/smart-search.test.ts +0 -169
package/test/snapshot.test.ts +0 -165
package/test/team.test.ts +0 -156
package/test/temporal-graph.test.ts +0 -378
package/test/timeline.test.ts +0 -148
package/test/vector-index.test.ts +0 -79
package/test/verify.test.ts +0 -209
package/test/xml.test.ts +0 -65
package/tsconfig.json +0 -22
package/tsdown.config.ts +0 -62

package/benchmark/quality-eval.ts DELETED Viewed

@@ -1,643 +0,0 @@
-import { SearchIndex } from "../src/state/search-index.js";
-import { VectorIndex } from "../src/state/vector-index.js";
-import { HybridSearch } from "../src/state/hybrid-search.js";
-import { GraphRetrieval } from "../src/functions/graph-retrieval.js";
-import { extractEntitiesFromQuery } from "../src/functions/query-expansion.js";
-import type { CompressedObservation, GraphNode, GraphEdge, GraphEdgeType } from "../src/types.js";
-import { generateDataset, type LabeledQuery } from "./dataset.js";
-import { writeFileSync } from "node:fs";
-interface QualityMetrics {
-  query: string;
-  category: string;
-  recall_at_5: number;
-  recall_at_10: number;
-  recall_at_20: number;
-  precision_at_5: number;
-  precision_at_10: number;
-  ndcg_at_10: number;
-  mrr: number;
-  relevant_count: number;
-  retrieved_count: number;
-  latency_ms: number;
-}
-interface SystemMetrics {
-  system: string;
-  avg_recall_at_5: number;
-  avg_recall_at_10: number;
-  avg_recall_at_20: number;
-  avg_precision_at_5: number;
-  avg_precision_at_10: number;
-  avg_ndcg_at_10: number;
-  avg_mrr: number;
-  avg_latency_ms: number;
-  total_tokens_per_query: number;
-  per_query: QualityMetrics[];
-}
-function dcg(relevances: boolean[], k: number): number {
-  let sum = 0;
-  for (let i = 0; i < Math.min(k, relevances.length); i++) {
-    sum += (relevances[i] ? 1 : 0) / Math.log2(i + 2);
-  }
-  return sum;
-}
-function ndcg(retrieved: string[], relevant: Set<string>, k: number): number {
-  const actualRelevances = retrieved.slice(0, k).map(id => relevant.has(id));
-  const idealRelevances = Array.from({ length: Math.min(k, relevant.size) }, () => true);
-  const idealDCG = dcg(idealRelevances, k);
-  if (idealDCG === 0) return 0;
-  return dcg(actualRelevances, k) / idealDCG;
-}
-function recall(retrieved: string[], relevant: Set<string>, k: number): number {
-  if (relevant.size === 0) return 1;
-  const topK = new Set(retrieved.slice(0, k));
-  let hits = 0;
-  for (const id of relevant) {
-    if (topK.has(id)) hits++;
-  }
-  return hits / relevant.size;
-}
-function precision(retrieved: string[], relevant: Set<string>, k: number): number {
-  const topK = retrieved.slice(0, k);
-  if (topK.length === 0) return 0;
-  let hits = 0;
-  for (const id of topK) {
-    if (relevant.has(id)) hits++;
-  }
-  return hits / topK.length;
-}
-function mrr(retrieved: string[], relevant: Set<string>): number {
-  for (let i = 0; i < retrieved.length; i++) {
-    if (relevant.has(retrieved[i])) return 1 / (i + 1);
-  }
-  return 0;
-}
-function estimateTokens(text: string): number {
-  return Math.ceil(text.length / 4);
-}
-function mockKV() {
-  const store = new Map<string, Map<string, unknown>>();
-  return {
-    get: async <T>(scope: string, key: string): Promise<T | null> => {
-      return (store.get(scope)?.get(key) as T) ?? null;
-    },
-    set: async <T>(scope: string, key: string, data: T): Promise<T> => {
-      if (!store.has(scope)) store.set(scope, new Map());
-      store.get(scope)!.set(key, data);
-      return data;
-    },
-    delete: async (scope: string, key: string): Promise<void> => {
-      store.get(scope)?.delete(key);
-    },
-    list: async <T>(scope: string): Promise<T[]> => {
-      const entries = store.get(scope);
-      return entries ? (Array.from(entries.values()) as T[]) : [];
-    },
-  };
-}
-function deterministicEmbedding(text: string, dims = 384): Float32Array {
-  const arr = new Float32Array(dims);
-  const words = text.toLowerCase().split(/\W+/).filter(w => w.length > 2);
-  for (const word of words) {
-    for (let i = 0; i < word.length; i++) {
-      const idx = (word.charCodeAt(i) * 31 + i * 17) % dims;
-      arr[idx] += 1;
-      const idx2 = (word.charCodeAt(i) * 37 + i * 13 + word.length * 7) % dims;
-      arr[idx2] += 0.5;
-    }
-  }
-  const norm = Math.sqrt(arr.reduce((s, v) => s + v * v, 0));
-  if (norm > 0) for (let i = 0; i < dims; i++) arr[i] /= norm;
-  return arr;
-}
-async function evalBm25Only(
-  observations: CompressedObservation[],
-  queries: LabeledQuery[],
-): Promise<SystemMetrics> {
-  const index = new SearchIndex();
-  for (const obs of observations) index.add(obs);
-  const perQuery: QualityMetrics[] = [];
-  for (const q of queries) {
-    const relevant = new Set(q.relevantObsIds);
-    const start = performance.now();
-    const results = index.search(q.query, 20);
-    const latency = performance.now() - start;
-    const retrieved = results.map(r => r.obsId);
-    perQuery.push({
-      query: q.query,
-      category: q.category,
-      recall_at_5: recall(retrieved, relevant, 5),
-      recall_at_10: recall(retrieved, relevant, 10),
-      recall_at_20: recall(retrieved, relevant, 20),
-      precision_at_5: precision(retrieved, relevant, 5),
-      precision_at_10: precision(retrieved, relevant, 10),
-      ndcg_at_10: ndcg(retrieved, relevant, 10),
-      mrr: mrr(retrieved, relevant),
-      relevant_count: relevant.size,
-      retrieved_count: results.length,
-      latency_ms: latency,
-    });
-  }
-  const avgTokens = perQuery.reduce((sum, q) => sum + q.retrieved_count, 0) / perQuery.length;
-  const avgObsTokens = observations.slice(0, 50).reduce((s, o) => s + estimateTokens(JSON.stringify(o)), 0) / 50;
-  return {
-    system: "BM25-only",
-    avg_recall_at_5: avg(perQuery.map(q => q.recall_at_5)),
-    avg_recall_at_10: avg(perQuery.map(q => q.recall_at_10)),
-    avg_recall_at_20: avg(perQuery.map(q => q.recall_at_20)),
-    avg_precision_at_5: avg(perQuery.map(q => q.precision_at_5)),
-    avg_precision_at_10: avg(perQuery.map(q => q.precision_at_10)),
-    avg_ndcg_at_10: avg(perQuery.map(q => q.ndcg_at_10)),
-    avg_mrr: avg(perQuery.map(q => q.mrr)),
-    avg_latency_ms: avg(perQuery.map(q => q.latency_ms)),
-    total_tokens_per_query: Math.round(avgObsTokens * avgTokens),
-    per_query: perQuery,
-  };
-}
-async function evalDualStream(
-  observations: CompressedObservation[],
-  queries: LabeledQuery[],
-): Promise<SystemMetrics> {
-  const kv = mockKV();
-  const bm25 = new SearchIndex();
-  const vector = new VectorIndex();
-  const dims = 384;
-  for (const obs of observations) {
-    bm25.add(obs);
-    const text = [obs.title, obs.narrative, ...obs.concepts, ...obs.facts].join(" ");
-    vector.add(obs.id, obs.sessionId, deterministicEmbedding(text, dims));
-    await kv.set(`mem:obs:${obs.sessionId}`, obs.id, obs);
-  }
-  const mockEmbed: any = {
-    name: "deterministic",
-    dimensions: dims,
-    embed: async (text: string) => deterministicEmbedding(text, dims),
-    embedBatch: async (texts: string[]) => texts.map(t => deterministicEmbedding(t, dims)),
-  };
-  const hybrid = new HybridSearch(bm25, vector, mockEmbed, kv as never, 0.4, 0.6, 0);
-  const perQuery: QualityMetrics[] = [];
-  for (const q of queries) {
-    const relevant = new Set(q.relevantObsIds);
-    const start = performance.now();
-    const results = await hybrid.search(q.query, 20);
-    const latency = performance.now() - start;
-    const retrieved = results.map(r => r.observation.id);
-    perQuery.push({
-      query: q.query,
-      category: q.category,
-      recall_at_5: recall(retrieved, relevant, 5),
-      recall_at_10: recall(retrieved, relevant, 10),
-      recall_at_20: recall(retrieved, relevant, 20),
-      precision_at_5: precision(retrieved, relevant, 5),
-      precision_at_10: precision(retrieved, relevant, 10),
-      ndcg_at_10: ndcg(retrieved, relevant, 10),
-      mrr: mrr(retrieved, relevant),
-      relevant_count: relevant.size,
-      retrieved_count: results.length,
-      latency_ms: latency,
-    });
-  }
-  const avgResultTokens = perQuery.reduce((sum, q) => {
-    return sum + q.retrieved_count;
-  }, 0) / perQuery.length;
-  const avgObsTokens2 = observations.slice(0, 50).reduce((s, o) => s + estimateTokens(JSON.stringify(o)), 0) / 50;
-  return {
-    system: "Dual-stream (BM25+Vector)",
-    avg_recall_at_5: avg(perQuery.map(q => q.recall_at_5)),
-    avg_recall_at_10: avg(perQuery.map(q => q.recall_at_10)),
-    avg_recall_at_20: avg(perQuery.map(q => q.recall_at_20)),
-    avg_precision_at_5: avg(perQuery.map(q => q.precision_at_5)),
-    avg_precision_at_10: avg(perQuery.map(q => q.precision_at_10)),
-    avg_ndcg_at_10: avg(perQuery.map(q => q.ndcg_at_10)),
-    avg_mrr: avg(perQuery.map(q => q.mrr)),
-    avg_latency_ms: avg(perQuery.map(q => q.latency_ms)),
-    total_tokens_per_query: Math.round(avgObsTokens2 * avgResultTokens),
-    per_query: perQuery,
-  };
-}
-async function evalTripleStream(
-  observations: CompressedObservation[],
-  queries: LabeledQuery[],
-): Promise<SystemMetrics> {
-  const kv = mockKV();
-  const bm25 = new SearchIndex();
-  const vector = new VectorIndex();
-  const dims = 384;
-  for (const obs of observations) {
-    bm25.add(obs);
-    const text = [obs.title, obs.narrative, ...obs.concepts, ...obs.facts].join(" ");
-    vector.add(obs.id, obs.sessionId, deterministicEmbedding(text, dims));
-    await kv.set(`mem:obs:${obs.sessionId}`, obs.id, obs);
-  }
-  const conceptToNodes = new Map<string, string>();
-  const nodeTypes: GraphNode["type"][] = ["concept", "library", "file", "pattern"];
-  const edgeTypes: GraphEdgeType[] = ["uses", "related_to", "depends_on", "modifies"];
-  const now = new Date().toISOString();
-  let nodeId = 0;
-  for (const obs of observations) {
-    for (const concept of obs.concepts) {
-      if (!conceptToNodes.has(concept)) {
-        const nid = `gn_${nodeId++}`;
-        conceptToNodes.set(concept, nid);
-        await kv.set("mem:graph:nodes", nid, {
-          id: nid,
-          type: nodeTypes[nodeId % nodeTypes.length],
-          name: concept,
-          properties: {},
-          sourceObservationIds: [],
-          createdAt: now,
-        } as GraphNode);
-      }
-      const nid = conceptToNodes.get(concept)!;
-      const existing = await kv.get<GraphNode>("mem:graph:nodes", nid);
-      if (existing && !existing.sourceObservationIds.includes(obs.id)) {
-        existing.sourceObservationIds.push(obs.id);
-        await kv.set("mem:graph:nodes", nid, existing);
-      }
-    }
-    const capped = obs.concepts.slice(0, 10);
-    for (let i = 0; i < capped.length; i++) {
-      for (let j = i + 1; j < capped.length; j++) {
-        const srcNid = conceptToNodes.get(capped[i])!;
-        const tgtNid = conceptToNodes.get(capped[j])!;
-        if (srcNid && tgtNid && srcNid !== tgtNid) {
-          const eid = `ge_${srcNid}_${tgtNid}`;
-          const existing = await kv.get<GraphEdge>("mem:graph:edges", eid);
-          const weight = existing ? Math.min(1.0, existing.weight + 0.1) : 0.5;
-          await kv.set("mem:graph:edges", eid, {
-            id: eid,
-            type: edgeTypes[(i + j) % edgeTypes.length],
-            sourceNodeId: srcNid,
-            targetNodeId: tgtNid,
-            weight,
-            sourceObservationIds: existing
-              ? [...new Set([...existing.sourceObservationIds, obs.id])]
-              : [obs.id],
-            createdAt: now,
-            tcommit: now,
-            version: 1,
-            isLatest: true,
-          } as GraphEdge);
-        }
-      }
-    }
-  }
-  const mockEmbed: any = {
-    name: "deterministic",
-    dimensions: dims,
-    embed: async (text: string) => deterministicEmbedding(text, dims),
-    embedBatch: async (texts: string[]) => texts.map(t => deterministicEmbedding(t, dims)),
-  };
-  const hybrid = new HybridSearch(bm25, vector, mockEmbed, kv as never, 0.4, 0.6, 0.3);
-  const perQuery: QualityMetrics[] = [];
-  for (const q of queries) {
-    const relevant = new Set(q.relevantObsIds);
-    const start = performance.now();
-    const results = await hybrid.search(q.query, 20);
-    const latency = performance.now() - start;
-    const retrieved = results.map(r => r.observation.id);
-    perQuery.push({
-      query: q.query,
-      category: q.category,
-      recall_at_5: recall(retrieved, relevant, 5),
-      recall_at_10: recall(retrieved, relevant, 10),
-      recall_at_20: recall(retrieved, relevant, 20),
-      precision_at_5: precision(retrieved, relevant, 5),
-      precision_at_10: precision(retrieved, relevant, 10),
-      ndcg_at_10: ndcg(retrieved, relevant, 10),
-      mrr: mrr(retrieved, relevant),
-      relevant_count: relevant.size,
-      retrieved_count: results.length,
-      latency_ms: latency,
-    });
-  }
-  const avgResultTokens3 = perQuery.reduce((sum, q) => {
-    return sum + q.retrieved_count;
-  }, 0) / perQuery.length;
-  const avgObsTokens3 = observations.slice(0, 50).reduce((s, o) => s + estimateTokens(JSON.stringify(o)), 0) / 50;
-  return {
-    system: "Triple-stream (BM25+Vector+Graph)",
-    avg_recall_at_5: avg(perQuery.map(q => q.recall_at_5)),
-    avg_recall_at_10: avg(perQuery.map(q => q.recall_at_10)),
-    avg_recall_at_20: avg(perQuery.map(q => q.recall_at_20)),
-    avg_precision_at_5: avg(perQuery.map(q => q.precision_at_5)),
-    avg_precision_at_10: avg(perQuery.map(q => q.precision_at_10)),
-    avg_ndcg_at_10: avg(perQuery.map(q => q.ndcg_at_10)),
-    avg_mrr: avg(perQuery.map(q => q.mrr)),
-    avg_latency_ms: avg(perQuery.map(q => q.latency_ms)),
-    total_tokens_per_query: Math.round(avgObsTokens3 * avgResultTokens3),
-    per_query: perQuery,
-  };
-}
-async function evalBuiltinMemory(
-  observations: CompressedObservation[],
-  queries: LabeledQuery[],
-): Promise<SystemMetrics> {
-  const allText = observations.map(o =>
-    `## ${o.title}\n${o.narrative}\nConcepts: ${o.concepts.join(", ")}\nFiles: ${o.files.join(", ")}`
-  ).join("\n\n");
-  const totalTokens = estimateTokens(allText);
-  const perQuery: QualityMetrics[] = [];
-  for (const q of queries) {
-    const relevant = new Set(q.relevantObsIds);
-    const start = performance.now();
-    const queryTerms = q.query.toLowerCase().split(/\W+/).filter(w => w.length > 2);
-    const scored: Array<{ id: string; score: number }> = [];
-    for (const obs of observations) {
-      const text = [obs.title, obs.narrative, ...obs.concepts, ...obs.facts].join(" ").toLowerCase();
-      let score = 0;
-      for (const term of queryTerms) {
-        if (text.includes(term)) score++;
-      }
-      if (score > 0) scored.push({ id: obs.id, score });
-    }
-    scored.sort((a, b) => b.score - a.score);
-    const latency = performance.now() - start;
-    const retrieved = scored.map(s => s.id).slice(0, 20);
-    perQuery.push({
-      query: q.query,
-      category: q.category,
-      recall_at_5: recall(retrieved, relevant, 5),
-      recall_at_10: recall(retrieved, relevant, 10),
-      recall_at_20: recall(retrieved, relevant, 20),
-      precision_at_5: precision(retrieved, relevant, 5),
-      precision_at_10: precision(retrieved, relevant, 10),
-      ndcg_at_10: ndcg(retrieved, relevant, 10),
-      mrr: mrr(retrieved, relevant),
-      relevant_count: relevant.size,
-      retrieved_count: Math.min(scored.length, 20),
-      latency_ms: latency,
-    });
-  }
-  return {
-    system: "Built-in (CLAUDE.md / grep)",
-    avg_recall_at_5: avg(perQuery.map(q => q.recall_at_5)),
-    avg_recall_at_10: avg(perQuery.map(q => q.recall_at_10)),
-    avg_recall_at_20: avg(perQuery.map(q => q.recall_at_20)),
-    avg_precision_at_5: avg(perQuery.map(q => q.precision_at_5)),
-    avg_precision_at_10: avg(perQuery.map(q => q.precision_at_10)),
-    avg_ndcg_at_10: avg(perQuery.map(q => q.ndcg_at_10)),
-    avg_mrr: avg(perQuery.map(q => q.mrr)),
-    avg_latency_ms: avg(perQuery.map(q => q.latency_ms)),
-    total_tokens_per_query: totalTokens,
-    per_query: perQuery,
-  };
-}
-async function evalBuiltinMemoryTruncated(
-  observations: CompressedObservation[],
-  queries: LabeledQuery[],
-): Promise<SystemMetrics> {
-  const MAX_LINES = 200;
-  const lines = observations.map(o =>
-    `- ${o.title}: ${o.narrative.slice(0, 80)}... [${o.concepts.slice(0, 3).join(", ")}]`
-  );
-  const truncated = lines.slice(0, MAX_LINES);
-  const truncatedIds = new Set(observations.slice(0, MAX_LINES).map(o => o.id));
-  const totalTokens = estimateTokens(truncated.join("\n"));
-  const perQuery: QualityMetrics[] = [];
-  for (const q of queries) {
-    const relevant = new Set(q.relevantObsIds);
-    const start = performance.now();
-    const queryTerms = q.query.toLowerCase().split(/\W+/).filter(w => w.length > 2);
-    const scored: Array<{ id: string; score: number }> = [];
-    for (let i = 0; i < Math.min(MAX_LINES, observations.length); i++) {
-      const obs = observations[i];
-      const line = truncated[i];
-      let score = 0;
-      for (const term of queryTerms) {
-        if (line.toLowerCase().includes(term)) score++;
-      }
-      if (score > 0) scored.push({ id: obs.id, score });
-    }
-    scored.sort((a, b) => b.score - a.score);
-    const latency = performance.now() - start;
-    const retrieved = scored.map(s => s.id).slice(0, 20);
-    const reachableRelevant = new Set(
-      [...relevant].filter(id => truncatedIds.has(id))
-    );
-    perQuery.push({
-      query: q.query,
-      category: q.category,
-      recall_at_5: recall(retrieved, relevant, 5),
-      recall_at_10: recall(retrieved, relevant, 10),
-      recall_at_20: recall(retrieved, relevant, 20),
-      precision_at_5: precision(retrieved, relevant, 5),
-      precision_at_10: precision(retrieved, relevant, 10),
-      ndcg_at_10: ndcg(retrieved, relevant, 10),
-      mrr: mrr(retrieved, relevant),
-      relevant_count: relevant.size,
-      retrieved_count: Math.min(scored.length, 20),
-      latency_ms: latency,
-    });
-  }
-  return {
-    system: "Built-in (200-line MEMORY.md)",
-    avg_recall_at_5: avg(perQuery.map(q => q.recall_at_5)),
-    avg_recall_at_10: avg(perQuery.map(q => q.recall_at_10)),
-    avg_recall_at_20: avg(perQuery.map(q => q.recall_at_20)),
-    avg_precision_at_5: avg(perQuery.map(q => q.precision_at_5)),
-    avg_precision_at_10: avg(perQuery.map(q => q.precision_at_10)),
-    avg_ndcg_at_10: avg(perQuery.map(q => q.ndcg_at_10)),
-    avg_mrr: avg(perQuery.map(q => q.mrr)),
-    avg_latency_ms: avg(perQuery.map(q => q.latency_ms)),
-    total_tokens_per_query: totalTokens,
-    per_query: perQuery,
-  };
-}
-function avg(nums: number[]): number {
-  return nums.length ? nums.reduce((a, b) => a + b, 0) / nums.length : 0;
-}
-function pct(n: number): string {
-  return (n * 100).toFixed(1) + "%";
-}
-function generateReport(systems: SystemMetrics[], obsCount: number, queryCount: number): string {
-  const lines: string[] = [];
-  const w = (s: string) => lines.push(s);
-  w("# agentmemory v0.6.0 — Search Quality Evaluation");
-  w("");
-  w(`**Date:** ${new Date().toISOString()}`);
-  w(`**Dataset:** ${obsCount} observations across 30 sessions (realistic coding project)`);
-  w(`**Queries:** ${queryCount} labeled queries with ground-truth relevance`);
-  w(`**Metric definitions:** Recall@K (fraction of relevant docs in top K), Precision@K (fraction of top K that are relevant), NDCG@10 (ranking quality), MRR (position of first relevant result)`);
-  w("");
-  w("## Head-to-Head Comparison");
-  w("");
-  w("| System | Recall@5 | Recall@10 | Precision@5 | NDCG@10 | MRR | Latency | Tokens/query |");
-  w("|--------|----------|-----------|-------------|---------|-----|---------|--------------|");
-  for (const s of systems) {
-    w(`| ${s.system} | ${pct(s.avg_recall_at_5)} | ${pct(s.avg_recall_at_10)} | ${pct(s.avg_precision_at_5)} | ${pct(s.avg_ndcg_at_10)} | ${pct(s.avg_mrr)} | ${s.avg_latency_ms.toFixed(2)}ms | ${s.total_tokens_per_query.toLocaleString()} |`);
-  }
-  w("");
-  w("## Why This Matters");
-  w("");
-  const builtin = systems.find(s => s.system.includes("CLAUDE.md / grep"));
-  const truncated = systems.find(s => s.system.includes("200-line"));
-  const triple = systems.find(s => s.system.includes("Triple"));
-  const bm25 = systems.find(s => s.system === "BM25-only");
-  if (builtin && triple) {
-    const recallLift = ((triple.avg_recall_at_10 - builtin.avg_recall_at_10) / Math.max(0.001, builtin.avg_recall_at_10) * 100);
-    const tokenSaving = ((1 - triple.total_tokens_per_query / builtin.total_tokens_per_query) * 100);
-    w(`**Recall improvement:** agentmemory triple-stream finds ${pct(triple.avg_recall_at_10)} of relevant memories at K=10 vs ${pct(builtin.avg_recall_at_10)} for keyword grep (${recallLift > 0 ? "+" : ""}${recallLift.toFixed(0)}%)`);
-    w(`**Token savings:** agentmemory returns only the top 10 results (${triple.total_tokens_per_query.toLocaleString()} tokens) vs loading everything into context (${builtin.total_tokens_per_query.toLocaleString()} tokens) — ${tokenSaving.toFixed(0)}% reduction`);
-  }
-  if (truncated && triple) {
-    w(`**200-line cap:** Claude Code's MEMORY.md is capped at 200 lines. With ${obsCount} observations, ${pct(truncated.avg_recall_at_10)} recall at K=10 — memories from later sessions are simply invisible.`);
-  }
-  w("");
-  w("## Per-Query Breakdown (Triple-Stream)");
-  w("");
-  if (triple) {
-    w("| Query | Category | Recall@10 | NDCG@10 | MRR | Relevant | Latency |");
-    w("|-------|----------|-----------|---------|-----|----------|---------|");
-    for (const q of triple.per_query) {
-      w(`| ${q.query.slice(0, 45)}${q.query.length > 45 ? "..." : ""} | ${q.category} | ${pct(q.recall_at_10)} | ${pct(q.ndcg_at_10)} | ${pct(q.mrr)} | ${q.relevant_count} | ${q.latency_ms.toFixed(1)}ms |`);
-    }
-  }
-  w("");
-  w("## By Query Category");
-  w("");
-  const categories = ["exact", "semantic", "cross-session", "entity"];
-  if (triple) {
-    w("| Category | Avg Recall@10 | Avg NDCG@10 | Avg MRR | Queries |");
-    w("|----------|---------------|-------------|---------|---------|");
-    for (const cat of categories) {
-      const qs = triple.per_query.filter(q => q.category === cat);
-      if (qs.length === 0) continue;
-      w(`| ${cat} | ${pct(avg(qs.map(q => q.recall_at_10)))} | ${pct(avg(qs.map(q => q.ndcg_at_10)))} | ${pct(avg(qs.map(q => q.mrr)))} | ${qs.length} |`);
-    }
-  }
-  w("");
-  w("## Context Window Analysis");
-  w("");
-  w("The fundamental problem with built-in agent memory:");
-  w("");
-  w("| Observations | MEMORY.md tokens | agentmemory tokens (top 10) | Savings | MEMORY.md reachable |");
-  w("|-------------|-----------------|---------------------------|---------|-------------------|");
-  for (const count of [240, 500, 1000, 5000]) {
-    const memTokens = Math.round(count * 50);
-    const amTokens = triple ? triple.total_tokens_per_query : 500;
-    const saving = ((1 - amTokens / memTokens) * 100);
-    const reachable = count <= 200 ? "100%" : `${((200 / count) * 100).toFixed(0)}%`;
-    w(`| ${count.toLocaleString()} | ${memTokens.toLocaleString()} | ${amTokens.toLocaleString()} | ${saving.toFixed(0)}% | ${reachable} |`);
-  }
-  w("");
-  w("At 240 observations (our dataset), MEMORY.md already hits its 200-line cap and loses access to the most recent 40 observations. At 1,000 observations, 80% of memories are invisible. agentmemory always searches the full corpus.");
-  w("");
-  w("---");
-  w("");
-  w(`*${systems.reduce((s, sys) => s + sys.per_query.length, 0)} evaluations across ${systems.length} systems. Ground-truth labels assigned by concept matching against observation metadata.*`);
-  return lines.join("\n");
-}
-async function main() {
-  console.log("Generating labeled dataset...");
-  const { observations, queries, sessions } = generateDataset();
-  console.log(`Dataset: ${observations.length} observations, ${sessions.size} sessions, ${queries.length} queries`);
-  console.log(`Avg relevant docs per query: ${(queries.reduce((s, q) => s + q.relevantObsIds.length, 0) / queries.length).toFixed(1)}`);
-  console.log("");
-  console.log("Evaluating: Built-in (CLAUDE.md / grep)...");
-  const builtinResults = await evalBuiltinMemory(observations, queries);
-  console.log(`  Recall@10: ${pct(builtinResults.avg_recall_at_10)}, NDCG@10: ${pct(builtinResults.avg_ndcg_at_10)}`);
-  console.log("Evaluating: Built-in (200-line MEMORY.md)...");
-  const truncatedResults = await evalBuiltinMemoryTruncated(observations, queries);
-  console.log(`  Recall@10: ${pct(truncatedResults.avg_recall_at_10)}, NDCG@10: ${pct(truncatedResults.avg_ndcg_at_10)}`);
-  console.log("Evaluating: BM25-only...");
-  const bm25Results = await evalBm25Only(observations, queries);
-  console.log(`  Recall@10: ${pct(bm25Results.avg_recall_at_10)}, NDCG@10: ${pct(bm25Results.avg_ndcg_at_10)}`);
-  console.log("Evaluating: Dual-stream (BM25+Vector)...");
-  const dualResults = await evalDualStream(observations, queries);
-  console.log(`  Recall@10: ${pct(dualResults.avg_recall_at_10)}, NDCG@10: ${pct(dualResults.avg_ndcg_at_10)}`);
-  console.log("Evaluating: Triple-stream (BM25+Vector+Graph)...");
-  const tripleResults = await evalTripleStream(observations, queries);
-  console.log(`  Recall@10: ${pct(tripleResults.avg_recall_at_10)}, NDCG@10: ${pct(tripleResults.avg_ndcg_at_10)}`);
-  console.log("");
-  const report = generateReport(
-    [builtinResults, truncatedResults, bm25Results, dualResults, tripleResults],
-    observations.length,
-    queries.length,
-  );
-  writeFileSync("benchmark/QUALITY.md", report);
-  console.log(report);
-  console.log(`\nReport written to benchmark/QUALITY.md`);
-}
-main().catch(console.error);