npm - mcvay-mind - Versions diffs - 1.0.0 → 1.0.2 - Mend

mcvay-mind 1.0.0 → 1.0.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (39) hide show

package/SKILL.md +9 -0
package/bench/README.md +49 -0
package/bench/artifacts/baseline.json +106 -0
package/bench/artifacts/best-config-20260220T011934Z.json +13 -0
package/bench/artifacts/best-config-20260220T014624Z.json +13 -0
package/bench/artifacts/best-config-latest.json +13 -0
package/bench/artifacts/gate-latest.json +22 -0
package/bench/artifacts/latest.json +150 -0
package/bench/artifacts/runs/20260220T011934Z/metrics.csv +7 -0
package/bench/artifacts/runs/20260220T011934Z/results.json +418 -0
package/bench/artifacts/runs/20260220T011934Z/summary.md +83 -0
package/bench/artifacts/runs/20260220T014624Z/metrics.csv +7 -0
package/bench/artifacts/runs/20260220T014624Z/results.json +490 -0
package/bench/artifacts/runs/20260220T014624Z/summary.md +83 -0
package/bench/dataset.js +288 -0
package/bench/index.js +567 -0
package/bench/metrics.js +163 -0
package/bench/runners.js +146 -0
package/index.js +295 -70
package/lib/active-recall.js +24 -8
package/lib/domain-indexer.js +131 -0
package/lib/embeddings.js +233 -0
package/lib/entity-linker.js +19 -4
package/lib/expand-cache.js +112 -0
package/lib/graph-skill-traversal.js +84 -0
package/lib/graph-temporal.js +297 -0
package/lib/metrics.js +163 -0
package/lib/moc-generator.js +111 -0
package/lib/response-guidance/index.js +577 -0
package/lib/search-projections.js +62 -0
package/lib/search.js +472 -180
package/lib/skills-manifest.js +146 -0
package/lib/sqlite-index.js +378 -0
package/lib/store.js +406 -8
package/lib/unified-graph.js +428 -0
package/lib/vector-index.js +483 -0
package/package.json +19 -6
package/schema/base.yaml +49 -0
package/schema/moc.yaml +50 -0

package/SKILL.md CHANGED Viewed

@@ -66,9 +66,11 @@ node ~/.openclaw/skills/mcvay-mind/index.js query --type preference --days 7
 # Search (unified)
 node ~/.openclaw/skills/mcvay-mind/index.js search "query terms"
+node ~/.openclaw/skills/mcvay-mind/index.js search "latest timeout preference" --mode hybrid-v2 --graph-boost 0.25
 # Active recall (context surfacing)
 node ~/.openclaw/skills/mcvay-mind/index.js recall "topic"
+node ~/.openclaw/skills/mcvay-mind/index.js recall "codex coding" --graph-boost 0.3 --include-stale
 # Entity linking
 node ~/.openclaw/skills/mcvay-mind/index.js link
@@ -142,6 +144,12 @@ created: 2026-02-16T12:00:00.000Z
 updated: 2026-02-16T12:00:00.000Z
 tags: [tag1, tag2]
 links: [decision/choice-1, preference/user-pref]
+entities: [codex, timeout]
+valid_from: 2026-02-16T12:00:00.000Z
+valid_to: 2026-03-01T00:00:00.000Z
+supersedes: [preference/old-timeout]
+conflicts_with: [lesson/contrary-observation]
+salience: 0.75
 confidence: 90
 source: agent
 ---
@@ -188,6 +196,7 @@ Keywords that should trigger recall:
 ├── lib/
 │   ├── store.js       # Memory CRUD operations
 │   ├── search.js      # Full-text search
+│   ├── graph-temporal.js # Typed graph traversal + temporal ranking
 │   └── entity-linker.js # Wiki-link extraction & knowledge graph
 └── schema/            # YAML schemas
     ├── base.yaml

package/bench/README.md ADDED Viewed

@@ -0,0 +1,49 @@
+# Benchmark Harness
+Offline benchmark + auto-tuning for McVay Mind retrieval.
+## Commands
+From workspace root:
+- `npm run bench:all` - tune + benchmark + regression gate
+- `npm run bench:run` - benchmark with latest/default config
+- `npm run bench:tune` - run hyperparameter tuning only
+- `npm run bench:gate` - evaluate latest run vs baseline
+From `skills/mcvay-mind` (equivalent):
+- `npm run bench:all` - tune + benchmark + regression gate
+- `npm run bench:run` - benchmark with latest/default config
+- `npm run bench:tune` - run hyperparameter tuning only
+- `npm run bench:gate` - evaluate latest run vs baseline
+## Metrics
+- Recall@k
+- MRR
+- nDCG@k
+- Latency (mean, p50, p95)
+- Bootstrap confidence intervals
+- Paired bootstrap p-value for recall lift
+## Offline
+For strict offline runs, set:
+```bash
+MCVAY_EMBED_ENABLED=false npm run bench:all
+```
+## Artifacts
+Written to `bench/artifacts/`:
+- `runs/<timestamp>/summary.md`
+- `runs/<timestamp>/metrics.csv`
+- `runs/<timestamp>/results.json`
+- `best-config-<timestamp>.json`
+- `best-config-latest.json`
+- `baseline.json`
+- `latest.json`
+- `gate-latest.json`

package/bench/artifacts/baseline.json ADDED Viewed

@@ -0,0 +1,106 @@
+{
+  "created": "2026-02-20T01:21:09.340Z",
+  "runId": "20260220T011934Z",
+  "hybridSummary": {
+    "sampleSize": 4,
+    "metrics": {
+      "recallAtK": {
+        "mean": 0.25,
+        "lower": 0,
+        "upper": 0.75
+      },
+      "mrr": {
+        "mean": 0.125,
+        "lower": 0,
+        "upper": 0.375
+      },
+      "ndcgAtK": {
+        "mean": 0.15773243839286438,
+        "lower": 0,
+        "upper": 0.47319731517859315
+      }
+    },
+    "latency": {
+      "meanMs": 3445.17079825,
+      "p50Ms": 3344.280292,
+      "p95Ms": 3533.913265
+    },
+    "perTask": [
+      {
+        "rr": 0,
+        "recall": 0,
+        "ndcg": 0,
+        "latencyMs": 3344.280292
+      },
+      {
+        "rr": 0,
+        "recall": 0,
+        "ndcg": 0,
+        "latencyMs": 4020.542328
+      },
+      {
+        "rr": 0.5,
+        "recall": 1,
+        "ndcg": 0.6309297535714575,
+        "latencyMs": 3533.913265
+      },
+      {
+        "rr": 0,
+        "recall": 0,
+        "ndcg": 0,
+        "latencyMs": 2881.947308
+      }
+    ]
+  },
+  "candidateSummary": {
+    "sampleSize": 4,
+    "metrics": {
+      "recallAtK": {
+        "mean": 0,
+        "lower": 0,
+        "upper": 0
+      },
+      "mrr": {
+        "mean": 0,
+        "lower": 0,
+        "upper": 0
+      },
+      "ndcgAtK": {
+        "mean": 0,
+        "lower": 0,
+        "upper": 0
+      }
+    },
+    "latency": {
+      "meanMs": 0.76737475,
+      "p50Ms": 0.746852,
+      "p95Ms": 0.758073
+    },
+    "perTask": [
+      {
+        "rr": 0,
+        "recall": 0,
+        "ndcg": 0,
+        "latencyMs": 0.746852
+      },
+      {
+        "rr": 0,
+        "recall": 0,
+        "ndcg": 0,
+        "latencyMs": 0.858205
+      },
+      {
+        "rr": 0,
+        "recall": 0,
+        "ndcg": 0,
+        "latencyMs": 0.758073
+      },
+      {
+        "rr": 0,
+        "recall": 0,
+        "ndcg": 0,
+        "latencyMs": 0.706369
+      }
+    ]
+  }
+}

package/bench/artifacts/best-config-20260220T011934Z.json ADDED Viewed

@@ -0,0 +1,13 @@
+{
+  "config": {
+    "minSimilarity": 0.25,
+    "rrfK": 60,
+    "bm25TopN": 60,
+    "annTopN": 80,
+    "graphBoost": 0
+  },
+  "recallAtK": 0.3333333333333333,
+  "mrr": 0.25,
+  "ndcgAtK": 0.271821625595243,
+  "latencyP95Ms": 106.768316
+}

package/bench/artifacts/best-config-20260220T014624Z.json ADDED Viewed

@@ -0,0 +1,13 @@
+{
+  "config": {
+    "minSimilarity": 0.25,
+    "rrfK": 40,
+    "bm25TopN": 40,
+    "annTopN": 60,
+    "graphBoost": 0
+  },
+  "recallAtK": 0.5714285714285714,
+  "mrr": 0.369047619047619,
+  "ndcgAtK": 0.42091351862245524,
+  "latencyP95Ms": 3378.864337
+}

package/bench/artifacts/best-config-latest.json ADDED Viewed

@@ -0,0 +1,13 @@
+{
+  "config": {
+    "minSimilarity": 0.25,
+    "rrfK": 40,
+    "bm25TopN": 40,
+    "annTopN": 60,
+    "graphBoost": 0
+  },
+  "recallAtK": 0.5714285714285714,
+  "mrr": 0.369047619047619,
+  "ndcgAtK": 0.42091351862245524,
+  "latencyP95Ms": 3378.864337
+}

package/bench/artifacts/gate-latest.json ADDED Viewed

@@ -0,0 +1,22 @@
+{
+  "timestamp": "2026-02-20T02:56:46.872Z",
+  "baselineRunId": "20260220T011934Z",
+  "latestRunId": "20260220T014624Z",
+  "gate": {
+    "pass": false,
+    "recallDrop": -833333333.3333334,
+    "latencyRegression": 3761.516071671198,
+    "failRecall": false,
+    "failLatency": true
+  },
+  "acceptance": {
+    "pass": false,
+    "latencyRegression": -0.07326701690082414,
+    "pValueThreshold": 0.05,
+    "maxLatencyRegression": 0.2,
+    "failLift": true,
+    "failPValue": true,
+    "failLatency": false,
+    "failReproducibility": true
+  }
+}

package/bench/artifacts/latest.json ADDED Viewed

@@ -0,0 +1,150 @@
+{
+  "created": "2026-02-20T02:56:46.869Z",
+  "runId": "20260220T014624Z",
+  "baseline": {
+    "sampleSize": 6,
+    "metrics": {
+      "recallAtK": {
+        "mean": 0.8333333333333334,
+        "lower": 0.5,
+        "upper": 1
+      },
+      "mrr": {
+        "mean": 0.6111111111111112,
+        "lower": 0.27777777777777773,
+        "upper": 0.888888888888889
+      },
+      "ndcgAtK": {
+        "mean": 0.6666666666666666,
+        "lower": 0.3333333333333333,
+        "upper": 0.9166666666666666
+      }
+    },
+    "latency": {
+      "meanMs": 2599.9500551666665,
+      "p50Ms": 2385.250471,
+      "p95Ms": 3077.760151
+    },
+    "perTask": [
+      {
+        "rr": 1,
+        "recall": 1,
+        "ndcg": 1,
+        "latencyMs": 3070.747261
+      },
+      {
+        "rr": 0,
+        "recall": 0,
+        "ndcg": 0,
+        "latencyMs": 3077.760151
+      },
+      {
+        "rr": 1,
+        "recall": 1,
+        "ndcg": 1,
+        "latencyMs": 3776.156462
+      },
+      {
+        "rr": 1,
+        "recall": 1,
+        "ndcg": 1,
+        "latencyMs": 2385.250471
+      },
+      {
+        "rr": 0.3333333333333333,
+        "recall": 1,
+        "ndcg": 0.5,
+        "latencyMs": 1707.033999
+      },
+      {
+        "rr": 0.3333333333333333,
+        "recall": 1,
+        "ndcg": 0.5,
+        "latencyMs": 1582.751987
+      }
+    ]
+  },
+  "candidate": {
+    "sampleSize": 6,
+    "metrics": {
+      "recallAtK": {
+        "mean": 0.8333333333333334,
+        "lower": 0.5,
+        "upper": 1
+      },
+      "mrr": {
+        "mean": 0.6111111111111112,
+        "lower": 0.27777777777777773,
+        "upper": 0.888888888888889
+      },
+      "ndcgAtK": {
+        "mean": 0.6666666666666666,
+        "lower": 0.3333333333333333,
+        "upper": 0.9166666666666666
+      }
+    },
+    "latency": {
+      "meanMs": 2237.8700451666664,
+      "p50Ms": 2144.505668,
+      "p95Ms": 2852.261846
+    },
+    "perTask": [
+      {
+        "rr": 1,
+        "recall": 1,
+        "ndcg": 1,
+        "latencyMs": 2216.417736
+      },
+      {
+        "rr": 0,
+        "recall": 0,
+        "ndcg": 0,
+        "latencyMs": 2852.261846
+      },
+      {
+        "rr": 1,
+        "recall": 1,
+        "ndcg": 1,
+        "latencyMs": 3482.541869
+      },
+      {
+        "rr": 1,
+        "recall": 1,
+        "ndcg": 1,
+        "latencyMs": 2144.505668
+      },
+      {
+        "rr": 0.3333333333333333,
+        "recall": 1,
+        "ndcg": 0.5,
+        "latencyMs": 1443.53379
+      },
+      {
+        "rr": 0.3333333333333333,
+        "recall": 1,
+        "ndcg": 0.5,
+        "latencyMs": 1287.959362
+      }
+    ]
+  },
+  "significance": {
+    "baseline": "mcvay-hybrid",
+    "candidate": "mcvay-hybrid-v2",
+    "lift": 0,
+    "pValue": 1
+  },
+  "reproducibility": {
+    "variancePct": 25.00000000000001,
+    "stable": false
+  },
+  "acceptance": {
+    "pass": false,
+    "latencyRegression": -0.07326701690082414,
+    "pValueThreshold": 0.05,
+    "maxLatencyRegression": 0.2,
+    "failLift": true,
+    "failPValue": true,
+    "failLatency": false,
+    "failReproducibility": true
+  }
+}

package/bench/artifacts/runs/20260220T011934Z/metrics.csv ADDED Viewed

@@ -0,0 +1,7 @@
+variant,recall_at_k,mrr,ndcg_at_k,latency_mean_ms,latency_p95_ms,sample_size
+mcvay-keyword,0.250000,0.125000,0.157732,3234.290,3370.587,4
+mcvay-semantic,0.000000,0.000000,0.000000,3083.167,3131.873,4
+mcvay-hybrid,0.250000,0.125000,0.157732,3445.171,3533.913,4
+mcvay-hybrid-v2-default,0.000000,0.000000,0.000000,0.874,0.920,4
+mcvay-hybrid-v2,0.000000,0.000000,0.000000,0.767,0.758,4
+mem0-local-fallback-lexical,1.000000,0.875000,0.907732,1.672,1.847,4