npm - audrey - Versions diffs - 0.23.1 → 1.0.0 - Mend

audrey 0.23.1 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (250) hide show

package/CHANGELOG.md +81 -19
package/LICENSE +21 -21
package/README.md +209 -5
package/SECURITY.md +2 -1
package/benchmarks/adapter-kit.mjs +20 -0
package/benchmarks/adapter-self-test.mjs +166 -0
package/benchmarks/adapters/example-allow.mjs +28 -0
package/benchmarks/adapters/mem0-platform.mjs +267 -0
package/benchmarks/adapters/registry.json +51 -0
package/benchmarks/adapters/zep-cloud.mjs +280 -0
package/benchmarks/baselines.js +169 -0
package/benchmarks/build-leaderboard.mjs +170 -0
package/benchmarks/cases.js +537 -0
package/benchmarks/create-conformance-card.mjs +139 -0
package/benchmarks/create-submission-bundle.mjs +176 -0
package/benchmarks/dry-run-external-adapters.mjs +165 -0
package/benchmarks/guardbench.js +1035 -0
package/benchmarks/output/adapter-self-test/guardbench-adapter-self-test.json +50 -0
package/benchmarks/output/external/guardbench-external-dry-run.json +69 -0
package/benchmarks/output/external/guardbench-external-evidence.json +56 -0
package/benchmarks/output/guardbench-conformance-card.json +63 -0
package/benchmarks/output/guardbench-manifest.json +414 -0
package/benchmarks/output/guardbench-raw.json +1171 -0
package/benchmarks/output/guardbench-summary.json +1981 -0
package/benchmarks/output/leaderboard/guardbench-leaderboard.json +93 -0
package/benchmarks/output/leaderboard/guardbench-leaderboard.md +7 -0
package/benchmarks/output/submission-bundle/guardbench-conformance-card.json +63 -0
package/benchmarks/output/submission-bundle/guardbench-manifest.json +414 -0
package/benchmarks/output/submission-bundle/guardbench-raw.json +1171 -0
package/benchmarks/output/submission-bundle/guardbench-summary.json +1981 -0
package/benchmarks/output/submission-bundle/schemas/guardbench-adapter-registry.schema.json +69 -0
package/benchmarks/output/submission-bundle/schemas/guardbench-adapter-self-test.schema.json +156 -0
package/benchmarks/output/submission-bundle/schemas/guardbench-conformance-card.schema.json +184 -0
package/benchmarks/output/submission-bundle/schemas/guardbench-external-dry-run.schema.json +74 -0
package/benchmarks/output/submission-bundle/schemas/guardbench-external-evidence.schema.json +108 -0
package/benchmarks/output/submission-bundle/schemas/guardbench-external-run.schema.json +160 -0
package/benchmarks/output/submission-bundle/schemas/guardbench-leaderboard.schema.json +179 -0
package/benchmarks/output/submission-bundle/schemas/guardbench-manifest.schema.json +213 -0
package/benchmarks/output/submission-bundle/schemas/guardbench-publication-verification.schema.json +47 -0
package/benchmarks/output/submission-bundle/schemas/guardbench-raw.schema.json +164 -0
package/benchmarks/output/submission-bundle/schemas/guardbench-submission-manifest.schema.json +151 -0
package/benchmarks/output/submission-bundle/schemas/guardbench-summary.schema.json +228 -0
package/benchmarks/output/submission-bundle/submission-manifest.json +131 -0
package/benchmarks/output/submission-bundle/validation-report.json +31 -0
package/benchmarks/output/summary.json +2354 -0
package/benchmarks/perf-snapshot.js +304 -0
package/benchmarks/perf.bench.js +161 -0
package/benchmarks/public-paths.mjs +78 -0
package/benchmarks/reference-results.js +70 -0
package/benchmarks/report.js +259 -0
package/benchmarks/run-external-guardbench.mjs +281 -0
package/benchmarks/run.js +682 -0
package/benchmarks/schemas/guardbench-adapter-registry.schema.json +69 -0
package/benchmarks/schemas/guardbench-adapter-self-test.schema.json +156 -0
package/benchmarks/schemas/guardbench-conformance-card.schema.json +184 -0
package/benchmarks/schemas/guardbench-external-dry-run.schema.json +74 -0
package/benchmarks/schemas/guardbench-external-evidence.schema.json +108 -0
package/benchmarks/schemas/guardbench-external-run.schema.json +160 -0
package/benchmarks/schemas/guardbench-leaderboard.schema.json +179 -0
package/benchmarks/schemas/guardbench-manifest.schema.json +213 -0
package/benchmarks/schemas/guardbench-publication-verification.schema.json +47 -0
package/benchmarks/schemas/guardbench-raw.schema.json +164 -0
package/benchmarks/schemas/guardbench-submission-manifest.schema.json +151 -0
package/benchmarks/schemas/guardbench-summary.schema.json +228 -0
package/benchmarks/snapshots/perf-0.22.2.json +123 -0
package/benchmarks/snapshots/perf-0.23.0.json +123 -0
package/benchmarks/validate-adapter-module.mjs +104 -0
package/benchmarks/validate-adapter-registry.mjs +134 -0
package/benchmarks/validate-adapter-self-test.mjs +96 -0
package/benchmarks/validate-guardbench-artifacts.mjs +343 -0
package/benchmarks/verify-external-evidence.mjs +296 -0
package/benchmarks/verify-publication-artifacts.mjs +286 -0
package/benchmarks/verify-submission-bundle.mjs +167 -0
package/dist/mcp-server/config.d.ts +1 -1
package/dist/mcp-server/config.d.ts.map +1 -1
package/dist/mcp-server/config.js +1 -1
package/dist/mcp-server/config.js.map +1 -1
package/dist/mcp-server/index.d.ts +65 -3
package/dist/mcp-server/index.d.ts.map +1 -1
package/dist/mcp-server/index.js +675 -157
package/dist/mcp-server/index.js.map +1 -1
package/dist/src/action-key.d.ts +9 -0
package/dist/src/action-key.d.ts.map +1 -0
package/dist/src/action-key.js +49 -0
package/dist/src/action-key.js.map +1 -0
package/dist/src/adaptive.js +5 -5
package/dist/src/affect.js +8 -8
package/dist/src/audrey.d.ts +3 -0
package/dist/src/audrey.d.ts.map +1 -1
package/dist/src/audrey.js +55 -3
package/dist/src/audrey.js.map +1 -1
package/dist/src/capsule.js +4 -4
package/dist/src/causal.js +3 -3
package/dist/src/consolidate.js +48 -48
package/dist/src/controller.d.ts +61 -5
package/dist/src/controller.d.ts.map +1 -1
package/dist/src/controller.js +230 -49
package/dist/src/controller.js.map +1 -1
package/dist/src/db.js +172 -172
package/dist/src/decay.js +8 -8
package/dist/src/embedding.d.ts +2 -1
package/dist/src/embedding.d.ts.map +1 -1
package/dist/src/embedding.js +39 -29
package/dist/src/embedding.js.map +1 -1
package/dist/src/encode.js +6 -6
package/dist/src/feedback.d.ts +6 -0
package/dist/src/feedback.d.ts.map +1 -1
package/dist/src/feedback.js +6 -0
package/dist/src/feedback.js.map +1 -1
package/dist/src/forget.js +12 -12
package/dist/src/hybrid-recall.js +9 -9
package/dist/src/impact.js +6 -6
package/dist/src/import.d.ts +3 -3
package/dist/src/import.js +41 -41
package/dist/src/index.d.ts +3 -3
package/dist/src/index.d.ts.map +1 -1
package/dist/src/index.js +2 -2
package/dist/src/index.js.map +1 -1
package/dist/src/interference.js +14 -14
package/dist/src/introspect.js +18 -18
package/dist/src/preflight.d.ts.map +1 -1
package/dist/src/preflight.js +41 -0
package/dist/src/preflight.js.map +1 -1
package/dist/src/promote.js +7 -7
package/dist/src/prompts.js +118 -118
package/dist/src/recall.js +30 -30
package/dist/src/reflexes.d.ts +1 -0
package/dist/src/reflexes.d.ts.map +1 -1
package/dist/src/reflexes.js +3 -0
package/dist/src/reflexes.js.map +1 -1
package/dist/src/rollback.js +4 -4
package/dist/src/routes.d.ts.map +1 -1
package/dist/src/routes.js +67 -1
package/dist/src/routes.js.map +1 -1
package/dist/src/validate.js +25 -25
package/docs/AUDREY_PAPER_OUTLINE.md +175 -0
package/docs/MEMORY_BENCHMARKING.md +59 -0
package/docs/PRODUCTION_BACKLOG.md +304 -0
package/docs/paper/00-master.md +48 -0
package/docs/paper/01-introduction.md +27 -0
package/docs/paper/02-related-work.md +47 -0
package/docs/paper/03-problem-definition.md +108 -0
package/docs/paper/04-design.md +164 -0
package/docs/paper/05-guardbench-spec.md +412 -0
package/docs/paper/06-implementation.md +113 -0
package/docs/paper/07-evaluation.md +168 -0
package/docs/paper/08-discussion-limitations.md +61 -0
package/docs/paper/09-conclusion.md +11 -0
package/docs/paper/SUBMISSION_README.md +162 -0
package/docs/paper/appendix-a-demo-transcript.md +114 -0
package/docs/paper/arxiv-compile-report.schema.json +116 -0
package/docs/paper/arxiv-source.schema.json +61 -0
package/docs/paper/audrey-paper-v1.md +1106 -0
package/docs/paper/browser-launch-plan.json +209 -0
package/docs/paper/browser-launch-plan.schema.json +100 -0
package/docs/paper/browser-launch-results.json +86 -0
package/docs/paper/browser-launch-results.schema.json +66 -0
package/docs/paper/claim-register.json +138 -0
package/docs/paper/claim-register.schema.json +81 -0
package/docs/paper/evidence-ledger.md +103 -0
package/docs/paper/output/arxiv/README-arxiv.txt +8 -0
package/docs/paper/output/arxiv/arxiv-manifest.json +41 -0
package/docs/paper/output/arxiv/main.tex +949 -0
package/docs/paper/output/arxiv/references.bib +222 -0
package/docs/paper/output/arxiv-compile-report.json +24 -0
package/docs/paper/output/submission-bundle/LICENSE +21 -0
package/docs/paper/output/submission-bundle/README.md +533 -0
package/docs/paper/output/submission-bundle/benchmarks/output/adapter-self-test/guardbench-adapter-self-test.json +50 -0
package/docs/paper/output/submission-bundle/benchmarks/output/external/guardbench-external-dry-run.json +69 -0
package/docs/paper/output/submission-bundle/benchmarks/output/external/guardbench-external-evidence.json +56 -0
package/docs/paper/output/submission-bundle/benchmarks/output/guardbench-conformance-card.json +63 -0
package/docs/paper/output/submission-bundle/benchmarks/output/guardbench-manifest.json +414 -0
package/docs/paper/output/submission-bundle/benchmarks/output/guardbench-raw.json +1171 -0
package/docs/paper/output/submission-bundle/benchmarks/output/guardbench-summary.json +1981 -0
package/docs/paper/output/submission-bundle/benchmarks/output/leaderboard/guardbench-leaderboard.json +93 -0
package/docs/paper/output/submission-bundle/benchmarks/output/leaderboard/guardbench-leaderboard.md +7 -0
package/docs/paper/output/submission-bundle/benchmarks/output/submission-bundle/submission-manifest.json +131 -0
package/docs/paper/output/submission-bundle/benchmarks/output/submission-bundle/validation-report.json +31 -0
package/docs/paper/output/submission-bundle/benchmarks/output/summary.json +2354 -0
package/docs/paper/output/submission-bundle/benchmarks/schemas/guardbench-adapter-registry.schema.json +69 -0
package/docs/paper/output/submission-bundle/benchmarks/schemas/guardbench-adapter-self-test.schema.json +156 -0
package/docs/paper/output/submission-bundle/benchmarks/schemas/guardbench-conformance-card.schema.json +184 -0
package/docs/paper/output/submission-bundle/benchmarks/schemas/guardbench-external-dry-run.schema.json +74 -0
package/docs/paper/output/submission-bundle/benchmarks/schemas/guardbench-external-evidence.schema.json +108 -0
package/docs/paper/output/submission-bundle/benchmarks/schemas/guardbench-external-run.schema.json +160 -0
package/docs/paper/output/submission-bundle/benchmarks/schemas/guardbench-leaderboard.schema.json +179 -0
package/docs/paper/output/submission-bundle/benchmarks/schemas/guardbench-manifest.schema.json +213 -0
package/docs/paper/output/submission-bundle/benchmarks/schemas/guardbench-publication-verification.schema.json +47 -0
package/docs/paper/output/submission-bundle/benchmarks/schemas/guardbench-raw.schema.json +164 -0
package/docs/paper/output/submission-bundle/benchmarks/schemas/guardbench-submission-manifest.schema.json +151 -0
package/docs/paper/output/submission-bundle/benchmarks/schemas/guardbench-summary.schema.json +228 -0
package/docs/paper/output/submission-bundle/docs/AUDREY_PAPER_OUTLINE.md +175 -0
package/docs/paper/output/submission-bundle/docs/paper/00-master.md +48 -0
package/docs/paper/output/submission-bundle/docs/paper/01-introduction.md +27 -0
package/docs/paper/output/submission-bundle/docs/paper/02-related-work.md +47 -0
package/docs/paper/output/submission-bundle/docs/paper/03-problem-definition.md +108 -0
package/docs/paper/output/submission-bundle/docs/paper/04-design.md +164 -0
package/docs/paper/output/submission-bundle/docs/paper/05-guardbench-spec.md +412 -0
package/docs/paper/output/submission-bundle/docs/paper/06-implementation.md +113 -0
package/docs/paper/output/submission-bundle/docs/paper/07-evaluation.md +168 -0
package/docs/paper/output/submission-bundle/docs/paper/08-discussion-limitations.md +61 -0
package/docs/paper/output/submission-bundle/docs/paper/09-conclusion.md +11 -0
package/docs/paper/output/submission-bundle/docs/paper/SUBMISSION_README.md +162 -0
package/docs/paper/output/submission-bundle/docs/paper/appendix-a-demo-transcript.md +114 -0
package/docs/paper/output/submission-bundle/docs/paper/arxiv-compile-report.schema.json +116 -0
package/docs/paper/output/submission-bundle/docs/paper/arxiv-source.schema.json +61 -0
package/docs/paper/output/submission-bundle/docs/paper/audrey-paper-v1.md +1106 -0
package/docs/paper/output/submission-bundle/docs/paper/browser-launch-plan.json +209 -0
package/docs/paper/output/submission-bundle/docs/paper/browser-launch-plan.schema.json +100 -0
package/docs/paper/output/submission-bundle/docs/paper/browser-launch-results.json +86 -0
package/docs/paper/output/submission-bundle/docs/paper/browser-launch-results.schema.json +66 -0
package/docs/paper/output/submission-bundle/docs/paper/claim-register.json +138 -0
package/docs/paper/output/submission-bundle/docs/paper/claim-register.schema.json +81 -0
package/docs/paper/output/submission-bundle/docs/paper/evidence-ledger.md +103 -0
package/docs/paper/output/submission-bundle/docs/paper/output/arxiv/README-arxiv.txt +8 -0
package/docs/paper/output/submission-bundle/docs/paper/output/arxiv/arxiv-manifest.json +41 -0
package/docs/paper/output/submission-bundle/docs/paper/output/arxiv/main.tex +949 -0
package/docs/paper/output/submission-bundle/docs/paper/output/arxiv/references.bib +222 -0
package/docs/paper/output/submission-bundle/docs/paper/output/arxiv-compile-report.json +24 -0
package/docs/paper/output/submission-bundle/docs/paper/paper-submission-bundle.schema.json +70 -0
package/docs/paper/output/submission-bundle/docs/paper/publication-pack.json +81 -0
package/docs/paper/output/submission-bundle/docs/paper/publication-pack.schema.json +60 -0
package/docs/paper/output/submission-bundle/docs/paper/references.bib +222 -0
package/docs/paper/output/submission-bundle/package.json +212 -0
package/docs/paper/output/submission-bundle/paper-submission-manifest.json +379 -0
package/docs/paper/paper-submission-bundle.schema.json +70 -0
package/docs/paper/publication-pack.json +81 -0
package/docs/paper/publication-pack.schema.json +60 -0
package/docs/paper/references.bib +222 -0
package/package.json +87 -4
package/scripts/audit-release-completion.mjs +362 -0
package/scripts/create-arxiv-source.mjs +362 -0
package/scripts/create-paper-submission-bundle.mjs +210 -0
package/scripts/finalize-release.mjs +526 -0
package/scripts/prepare-release-cut.mjs +269 -0
package/scripts/publish-release-bundle.mjs +209 -0
package/scripts/publish-release-github-api.mjs +429 -0
package/scripts/run-vitest.mjs +34 -0
package/scripts/smoke-cli.js +72 -0
package/scripts/sync-paper-artifacts.mjs +109 -0
package/scripts/verify-arxiv-compile.mjs +440 -0
package/scripts/verify-arxiv-source.mjs +194 -0
package/scripts/verify-browser-launch-plan.mjs +237 -0
package/scripts/verify-browser-launch-results.mjs +285 -0
package/scripts/verify-paper-artifacts.mjs +338 -0
package/scripts/verify-paper-claims.mjs +226 -0
package/scripts/verify-paper-submission-bundle.mjs +207 -0
package/scripts/verify-publication-pack.mjs +196 -0
package/scripts/verify-python-package.py +201 -0
package/scripts/verify-release-readiness.mjs +741 -0

package/benchmarks/baselines.js ADDED Viewed

@@ -0,0 +1,169 @@
+import { createEmbeddingProvider } from '../dist/src/embedding.js';
+import { cosineSimilarity } from '../dist/src/utils.js';
+function normalize(text) {
+  return String(text || '').toLowerCase();
+}
+function tokenize(text) {
+  return normalize(text)
+    .replace(/[^a-z0-9]+/g, ' ')
+    .trim()
+    .split(/\s+/)
+    .filter(Boolean);
+}
+function keywordScore(queryTokens, content) {
+  const contentTokens = new Set(tokenize(content));
+  if (queryTokens.length === 0) return 0;
+  let matches = 0;
+  for (const token of queryTokens) {
+    if (contentTokens.has(token)) matches++;
+  }
+  return matches / queryTokens.length;
+}
+function sortByScore(rows) {
+  return rows
+    .filter(row => Number.isFinite(row.score))
+    .sort((a, b) => b.score - a.score || String(b.createdAt || '').localeCompare(String(a.createdAt || '')));
+}
+function flattenMemories(benchmarkCase, ids = []) {
+  return benchmarkCase.memory.map((memory, index) => ({
+    id: ids[index] || `memory-${index + 1}`,
+    content: memory.content,
+    source: memory.source,
+    createdAt: memory.createdAt || new Date(Date.UTC(2026, 0, index + 1)).toISOString(),
+    private: Boolean(memory.private),
+  }));
+}
+function buildSyntheticCase(query, memories, options = {}) {
+  return {
+    query,
+    memory: memories.map(memory => ({
+      content: memory.content,
+      source: memory.source,
+      createdAt: memory.createdAt,
+      private: memory.private,
+    })),
+    options,
+  };
+}
+async function runBaselineRetrieval(system, syntheticCase, providerConfig, limit = 5) {
+  switch (system) {
+    case 'Vector Only':
+      return runVectorOnlyBaseline(syntheticCase, providerConfig, limit);
+    case 'Keyword + Recency':
+      return runKeywordRecencyBaseline(syntheticCase, limit);
+    case 'Recent Window':
+      return runRecentWindowBaseline(syntheticCase, limit);
+    default:
+      throw new Error(`Unknown baseline system: ${system}`);
+  }
+}
+function createOperationMemory(state, step) {
+  const index = state.counter++;
+  return {
+    id: `memory-${index + 1}`,
+    content: step.memory.content,
+    source: step.memory.source,
+    createdAt: step.memory.createdAt || new Date(Date.UTC(2026, 0, index + 1)).toISOString(),
+    private: Boolean(step.memory.private),
+  };
+}
+async function applyBaselineStep(system, state, step, providerConfig) {
+  if (step.type === 'encode') {
+    const memory = createOperationMemory(state, step);
+    state.memories.push(memory);
+    if (step.saveAs) {
+      state.aliases.set(step.saveAs, memory.id);
+    }
+    return;
+  }
+  if (step.type === 'forgetByQuery') {
+    const syntheticCase = buildSyntheticCase(step.query, state.memories, step.options);
+    const [match] = await runBaselineRetrieval(system, syntheticCase, providerConfig, 1);
+    if (match && Number.isFinite(match.score) && match.score > 0) {
+      state.memories = state.memories.filter(memory => memory.id !== match.id);
+    }
+    return;
+  }
+  if (step.type === 'consolidate') {
+    return;
+  }
+  throw new Error(`Unsupported baseline step: ${step.type}`);
+}
+export async function runBaselineScenario(system, benchmarkCase, providerConfig, limit = 5) {
+  if (benchmarkCase.kind !== 'operations') {
+    return runBaselineRetrieval(system, benchmarkCase, providerConfig, limit);
+  }
+  const state = {
+    counter: 0,
+    memories: [],
+    aliases: new Map(),
+  };
+  for (const step of benchmarkCase.steps || []) {
+    await applyBaselineStep(system, state, step, providerConfig);
+  }
+  return runBaselineRetrieval(
+    system,
+    buildSyntheticCase(benchmarkCase.query, state.memories, benchmarkCase.options),
+    providerConfig,
+    limit,
+  );
+}
+export function runKeywordRecencyBaseline(benchmarkCase, limit = 5) {
+  const queryTokens = tokenize(benchmarkCase.query);
+  return sortByScore(flattenMemories(benchmarkCase).map(memory => ({
+    ...memory,
+    type: 'episodic',
+    score: keywordScore(queryTokens, memory.content),
+  }))).slice(0, limit);
+}
+export function runRecentWindowBaseline(benchmarkCase, limit = 3) {
+  return flattenMemories(benchmarkCase)
+    .sort((a, b) => String(b.createdAt).localeCompare(String(a.createdAt)))
+    .slice(0, limit)
+    .map((memory, index) => ({
+      ...memory,
+      type: 'episodic',
+      score: 1 - index * 0.1,
+    }));
+}
+export async function runVectorOnlyBaseline(benchmarkCase, providerConfig, limit = 5) {
+  const provider = createEmbeddingProvider(providerConfig);
+  if (typeof provider.ready === 'function') {
+    await provider.ready();
+  }
+  const queryVector = await provider.embed(benchmarkCase.query);
+  const queryBuffer = provider.vectorToBuffer(queryVector);
+  const rows = [];
+  for (const memory of flattenMemories(benchmarkCase)) {
+    const vector = await provider.embed(memory.content);
+    const score = cosineSimilarity(queryBuffer, provider.vectorToBuffer(vector), provider);
+    rows.push({
+      ...memory,
+      type: 'episodic',
+      score,
+    });
+  }
+  return sortByScore(rows).slice(0, limit);
+}

package/benchmarks/build-leaderboard.mjs ADDED Viewed

@@ -0,0 +1,170 @@
+import { mkdirSync, readFileSync, writeFileSync } from 'node:fs';
+import { dirname, join, resolve } from 'node:path';
+import { verifyGuardBenchSubmissionBundle } from './verify-submission-bundle.mjs';
+import { validateSchema } from './validate-guardbench-artifacts.mjs';
+import { publicPath } from './public-paths.mjs';
+function readJson(path) {
+  return JSON.parse(readFileSync(path, 'utf-8'));
+}
+function percent(value) {
+  return value == null ? 'n/a' : `${(value * 100).toFixed(1)}%`;
+}
+function number(value) {
+  return value == null ? 'n/a' : String(value);
+}
+function rowFromBundle(dir) {
+  const verification = verifyGuardBenchSubmissionBundle({ dir });
+  const manifest = readJson(join(resolve(dir), 'submission-manifest.json'));
+  return {
+    subject: manifest.subject,
+    score: manifest.score,
+    conformance: manifest.conformance,
+    source: {
+      dir: publicPath(resolve(dir)),
+      manifestGeneratedAt: manifest.generatedAt,
+      fileCount: manifest.files?.length ?? 0,
+    },
+    verification,
+  };
+}
+function compareRows(a, b) {
+  return (
+    Number(b.verification.ok) - Number(a.verification.ok)
+    || Number(b.conformance.ok) - Number(a.conformance.ok)
+    || (b.score.fullContractPassRate ?? -1) - (a.score.fullContractPassRate ?? -1)
+    || (b.score.decisionAccuracy ?? -1) - (a.score.decisionAccuracy ?? -1)
+    || (b.score.evidenceRecall ?? -1) - (a.score.evidenceRecall ?? -1)
+    || (a.score.redactionLeaks ?? Number.MAX_SAFE_INTEGER) - (b.score.redactionLeaks ?? Number.MAX_SAFE_INTEGER)
+    || (a.score.latency?.p95Ms ?? Number.MAX_SAFE_INTEGER) - (b.score.latency?.p95Ms ?? Number.MAX_SAFE_INTEGER)
+    || a.subject.name.localeCompare(b.subject.name)
+  );
+}
+export function buildGuardBenchLeaderboard(options = {}) {
+  const bundleDirs = options.bundleDirs?.length
+    ? options.bundleDirs
+    : ['benchmarks/output/submission-bundle'];
+  const rows = bundleDirs.map(rowFromBundle).sort(compareRows)
+    .map((row, index) => ({ rank: index + 1, ...row }));
+  return {
+    schemaVersion: '1.0.0',
+    suite: 'GuardBench leaderboard',
+    generatedAt: new Date().toISOString(),
+    ranking: [
+      'verified bundle',
+      'adapter conformance',
+      'fullContractPassRate',
+      'decisionAccuracy',
+      'evidenceRecall',
+      'redactionLeaks ascending',
+      'latency.p95Ms ascending',
+      'subject.name',
+    ],
+    rows,
+    failures: rows.flatMap(row => row.verification.failures.map(failure => `${row.subject.name}: ${failure}`)),
+  };
+}
+export function writeGuardBenchLeaderboard(options = {}) {
+  const outJson = resolve(options.outJson ?? 'benchmarks/output/leaderboard/guardbench-leaderboard.json');
+  const outMd = resolve(options.outMd ?? 'benchmarks/output/leaderboard/guardbench-leaderboard.md');
+  const schemasDir = resolve(options.schemasDir ?? 'benchmarks/schemas');
+  const leaderboard = buildGuardBenchLeaderboard(options);
+  const schema = readJson(join(schemasDir, 'guardbench-leaderboard.schema.json'));
+  const schemaErrors = validateSchema(leaderboard, schema, 'guardbench-leaderboard');
+  if (schemaErrors.length) {
+    throw new Error(`GuardBench leaderboard schema validation failed: ${schemaErrors.join('; ')}`);
+  }
+  mkdirSync(dirname(outJson), { recursive: true });
+  mkdirSync(dirname(outMd), { recursive: true });
+  writeFileSync(outJson, `${JSON.stringify(leaderboard, null, 2)}\n`, 'utf-8');
+  writeFileSync(outMd, renderMarkdown(leaderboard), 'utf-8');
+  return { leaderboard, outJson, outMd };
+}
+export function renderMarkdown(leaderboard) {
+  const lines = [
+    '# GuardBench Leaderboard',
+    '',
+    `Generated: ${leaderboard.generatedAt}`,
+    '',
+    '| Rank | Subject | Verified | Conformant | Full Contract | Decision Accuracy | Evidence Recall | Redaction Leaks | p95 Latency | Bundle |',
+    '|---:|---|---:|---:|---:|---:|---:|---:|---:|---|',
+  ];
+  for (const row of leaderboard.rows) {
+    lines.push([
+      row.rank,
+      row.subject.name,
+      row.verification.ok ? 'yes' : 'no',
+      row.conformance.ok ? 'yes' : 'no',
+      percent(row.score.fullContractPassRate),
+      percent(row.score.decisionAccuracy),
+      percent(row.score.evidenceRecall),
+      number(row.score.redactionLeaks),
+      row.score.latency?.p95Ms == null ? 'n/a' : `${row.score.latency.p95Ms}ms`,
+      row.source.dir,
+    ].join(' | ').replace(/^/, '| ').replace(/$/, ' |'));
+  }
+  if (leaderboard.failures.length) {
+    lines.push('', '## Verification Failures', '');
+    for (const failure of leaderboard.failures) lines.push(`- ${failure}`);
+  }
+  lines.push('');
+  return `${lines.join('\n')}`;
+}
+function parseArgs(argv = process.argv.slice(2)) {
+  const args = {
+    bundleDirs: [],
+    outJson: 'benchmarks/output/leaderboard/guardbench-leaderboard.json',
+    outMd: 'benchmarks/output/leaderboard/guardbench-leaderboard.md',
+    json: false,
+  };
+  for (let i = 0; i < argv.length; i++) {
+    const token = argv[i];
+    if ((token === '--bundle' || token === '--dir') && argv[i + 1]) args.bundleDirs.push(argv[++i]);
+    else if (token === '--out-json' && argv[i + 1]) args.outJson = argv[++i];
+    else if (token === '--out-md' && argv[i + 1]) args.outMd = argv[++i];
+    else if (token === '--schemas-dir' && argv[i + 1]) args.schemasDir = argv[++i];
+    else if (token === '--json') args.json = true;
+    else if (token === '--help' || token === '-h') args.help = true;
+    else throw new Error(`Unknown argument: ${token}`);
+  }
+  return args;
+}
+function usage() {
+  return [
+    'Usage: node benchmarks/build-leaderboard.mjs [--bundle <submission-bundle>] [--json]',
+    '',
+    'Builds ranked JSON and Markdown GuardBench leaderboard artifacts from verified',
+    'submission bundles. Repeat --bundle for multiple systems.',
+  ].join('\n');
+}
+async function main() {
+  const args = parseArgs();
+  if (args.help) {
+    console.log(usage());
+    return;
+  }
+  const result = writeGuardBenchLeaderboard(args);
+  if (args.json) console.log(JSON.stringify(result.leaderboard, null, 2));
+  else {
+    console.log(`GuardBench leaderboard JSON: ${result.outJson}`);
+    console.log(`GuardBench leaderboard Markdown: ${result.outMd}`);
+  }
+  if (result.leaderboard.failures.length) process.exit(1);
+}
+if (process.argv[1] && resolve(process.argv[1]).endsWith('build-leaderboard.mjs')) {
+  main().catch(error => {
+    console.error(error.stack ?? error.message);
+    process.exit(1);
+  });
+}