npm - @aperdomoll90/ledger-ai - Versions diffs - 1.4.0 → 1.4.2 - Mend

@aperdomoll90/ledger-ai 1.4.0 → 1.4.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (84) hide show

package/dist/cli.js +177 -221
package/dist/commands/add.js +51 -100
package/dist/commands/backfill.js +55 -0
package/dist/commands/backup.js +10 -10
package/dist/commands/check.js +21 -29
package/dist/commands/config.js +13 -12
package/dist/commands/delete.js +22 -17
package/dist/commands/eval-judge.js +11 -0
package/dist/commands/eval.js +321 -0
package/dist/commands/export.js +8 -10
package/dist/commands/get.js +9 -0
package/dist/commands/hunt.js +206 -0
package/dist/commands/ingest.js +15 -14
package/dist/commands/init.js +18 -20
package/dist/commands/list.js +21 -7
package/dist/commands/migrate.js +11 -11
package/dist/commands/onboard.js +2 -2
package/dist/commands/pull.js +3 -2
package/dist/commands/push.js +8 -8
package/dist/commands/restore.js +38 -38
package/dist/commands/show.js +13 -16
package/dist/commands/sync.js +58 -19
package/dist/commands/tag.js +20 -14
package/dist/commands/update.js +50 -18
package/dist/commands/wizard.js +3 -3
package/dist/lib/ai-search.js +163 -0
package/dist/lib/audit.js +19 -0
package/dist/lib/backfill.js +60 -0
package/dist/lib/config.js +19 -2
package/dist/lib/document-classification.js +5 -0
package/dist/lib/document-fetching.js +77 -0
package/dist/lib/document-operations.js +150 -0
package/dist/lib/documents/classification.js +5 -0
package/dist/lib/documents/fetching.js +89 -0
package/dist/lib/documents/operations.js +304 -0
package/dist/lib/domains.js +116 -0
package/dist/lib/embeddings.js +190 -0
package/dist/lib/errors.js +3 -1
package/dist/lib/eval/eval-advanced.js +289 -0
package/dist/lib/eval/eval-judge-session.js +233 -0
package/dist/lib/eval/eval-store.js +105 -0
package/dist/lib/eval/eval.js +303 -0
package/dist/lib/file-writer.js +23 -0
package/dist/lib/generators.js +44 -45
package/dist/lib/hunter-db.js +235 -0
package/dist/lib/hunter-rss.js +30 -0
package/dist/lib/hunter-scoring.js +55 -0
package/dist/lib/hunter-types.js +36 -0
package/dist/lib/lint-configs.js +20 -0
package/dist/lib/migrate.js +2 -2
package/dist/lib/notes.js +173 -59
package/dist/lib/observability.js +296 -0
package/dist/lib/op-add-note-types.test.js +7 -6
package/dist/lib/prompt.js +8 -8
package/dist/lib/rate-limiter.js +103 -0
package/dist/lib/search/ai-search.js +396 -0
package/dist/lib/search/chunk-context-enrichment.js +155 -0
package/dist/lib/search/embeddings.js +293 -0
package/dist/lib/search/reranker.js +120 -0
package/dist/lib/search/semantic-cache.js +53 -0
package/dist/lib/type-registry.test.js +6 -6
package/dist/mcp-server.js +553 -66
package/dist/migrations/migrations/005-audit-log.sql +22 -0
package/dist/migrations/migrations/005_opportunities.sql +48 -0
package/dist/migrations/migrations/006-audited-operations.sql +235 -0
package/dist/migrations/migrations/006_hunt_analytics.sql +38 -0
package/dist/migrations/migrations/007-eval-golden-judgments.sql +119 -0
package/dist/migrations/migrations/008-drop-expected-doc-ids.sql +9 -0
package/dist/migrations/migrations/008-judge-helpers.sql +21 -0
package/dist/migrations/migrations/009-semantic-cache.sql +216 -0
package/dist/scripts/batch-grade.js +344 -0
package/dist/scripts/benchmark-ingestion.js +376 -0
package/dist/scripts/convert-judgments-to-graded.js +88 -0
package/dist/scripts/diagnose-first-result.js +333 -0
package/dist/scripts/drop-golden-query.js +53 -0
package/dist/scripts/eval-search.js +115 -0
package/dist/scripts/grade-unjudged-top1.js +138 -0
package/dist/scripts/hunter-analytics.js +38 -0
package/dist/scripts/hunter-cron.js +63 -0
package/dist/scripts/hunter-purge.js +25 -0
package/dist/scripts/migrate-v2.js +140 -0
package/dist/scripts/reindex.js +74 -0
package/dist/scripts/sync-local-docs.js +153 -0
package/package.json +7 -1

package/dist/migrations/migrations/009-semantic-cache.sql ADDED Viewed

@@ -0,0 +1,216 @@
+-- Migration 009: Semantic Cache
+-- Layer 2 cache: stores full search results keyed by query embedding.
+-- Skips the full search pipeline for semantically similar queries.
+--
+-- Components:
+--   1. semantic_cache table with HNSW, GIN, and BTREE indexes
+--   2. semantic_cache_lookup: find cached results by vector similarity
+--   3. semantic_cache_store: save search results to cache
+--   4. semantic_cache_cleanup: purge expired entries
+--   5. Invalidation added to document_update and document_delete
+-- =============================================================================
+-- 1. Table
+-- =============================================================================
+CREATE TABLE semantic_cache (
+  id                 bigserial    PRIMARY KEY,
+  query_text         text         NOT NULL,
+  query_embedding    vector(1536) NOT NULL,
+  search_mode        text         NOT NULL CHECK (search_mode IN ('vector', 'keyword', 'hybrid')),
+  search_params      jsonb        NOT NULL,
+  cached_results     jsonb        NOT NULL,
+  source_doc_ids     int[]        NOT NULL,
+  embedding_model_id text         NOT NULL,
+  created_at         timestamptz  NOT NULL DEFAULT now(),
+  expires_at         timestamptz  NOT NULL DEFAULT now() + interval '7 days'
+);
+-- RLS: service_role only (same pattern as other tables)
+ALTER TABLE semantic_cache ENABLE ROW LEVEL SECURITY;
+CREATE POLICY semantic_cache_service_role ON semantic_cache
+  FOR ALL USING (auth.role() = 'service_role');
+-- =============================================================================
+-- 2. Indexes
+-- =============================================================================
+-- HNSW for fast approximate nearest neighbor lookup
+CREATE INDEX idx_semantic_cache_embedding
+  ON semantic_cache USING hnsw (query_embedding vector_cosine_ops)
+  WITH (m = 16, ef_construction = 128);
+-- GIN for reverse index invalidation (source_doc_ids @> ARRAY[doc_id])
+CREATE INDEX idx_semantic_cache_source_doc_ids
+  ON semantic_cache USING gin (source_doc_ids);
+-- BTREE for TTL cleanup (expires_at < now())
+CREATE INDEX idx_semantic_cache_expires_at
+  ON semantic_cache (expires_at);
+-- =============================================================================
+-- 3. semantic_cache_lookup
+-- =============================================================================
+CREATE OR REPLACE FUNCTION semantic_cache_lookup(
+  p_query_embedding    vector(1536),
+  p_search_mode        text,
+  p_search_params      jsonb,
+  p_embedding_model_id text,
+  p_similarity_threshold float DEFAULT 0.90
+) RETURNS jsonb LANGUAGE plpgsql AS $$
+DECLARE
+  v_result jsonb;
+BEGIN
+  SELECT cached_results INTO v_result
+  FROM semantic_cache
+  WHERE 1 - (query_embedding <=> p_query_embedding) >= p_similarity_threshold
+    AND search_mode = p_search_mode
+    AND search_params = p_search_params
+    AND embedding_model_id = p_embedding_model_id
+    AND expires_at > now()
+  ORDER BY query_embedding <=> p_query_embedding
+  LIMIT 1;
+  RETURN v_result;
+END;
+$$;
+-- =============================================================================
+-- 4. semantic_cache_store
+-- =============================================================================
+CREATE OR REPLACE FUNCTION semantic_cache_store(
+  p_query_text         text,
+  p_query_embedding    vector(1536),
+  p_search_mode        text,
+  p_search_params      jsonb,
+  p_cached_results     jsonb,
+  p_source_doc_ids     int[],
+  p_embedding_model_id text
+) RETURNS void LANGUAGE plpgsql AS $$
+BEGIN
+  INSERT INTO semantic_cache (
+    query_text, query_embedding, search_mode, search_params,
+    cached_results, source_doc_ids, embedding_model_id
+  ) VALUES (
+    p_query_text, p_query_embedding, p_search_mode, p_search_params,
+    p_cached_results, p_source_doc_ids, p_embedding_model_id
+  );
+END;
+$$;
+-- =============================================================================
+-- 5. semantic_cache_cleanup
+-- =============================================================================
+CREATE OR REPLACE FUNCTION semantic_cache_cleanup()
+RETURNS int LANGUAGE plpgsql AS $$
+DECLARE
+  v_count int;
+BEGIN
+  DELETE FROM semantic_cache WHERE expires_at < now();
+  GET DIAGNOSTICS v_count = ROW_COUNT;
+  RETURN v_count;
+END;
+$$;
+-- =============================================================================
+-- 6. Invalidation: add cache clearing to document_update
+-- =============================================================================
+CREATE OR REPLACE FUNCTION public.document_update(
+  p_id bigint, p_content text, p_content_hash text,
+  p_agent text DEFAULT NULL, p_description text DEFAULT NULL,
+  p_status text DEFAULT NULL, p_embedding_model_id text DEFAULT NULL,
+  p_chunk_contents text[] DEFAULT NULL, p_chunk_embeddings vector[] DEFAULT NULL,
+  p_chunk_strategy text DEFAULT 'recursive',
+  p_chunk_summaries text[] DEFAULT NULL,
+  p_chunk_token_counts int[] DEFAULT NULL,
+  p_chunk_overlap int DEFAULT 0
+) RETURNS void LANGUAGE plpgsql AS $$
+DECLARE
+  v_old_content text;
+  v_old_domain  text;
+  v_version_num int;
+  i int;
+BEGIN
+  SELECT content, domain INTO v_old_content, v_old_domain
+  FROM documents WHERE id = p_id AND deleted_at IS NULL;
+  IF NOT FOUND THEN RAISE EXCEPTION 'Document % not found', p_id; END IF;
+  -- Invalidate semantic cache entries that included this document
+  DELETE FROM semantic_cache WHERE source_doc_ids @> ARRAY[p_id::int];
+  SELECT COALESCE(MAX(version_number), 0) + 1 INTO v_version_num
+  FROM document_versions WHERE document_id = p_id;
+  INSERT INTO document_versions (document_id, version_number, content, content_hash, agent)
+  VALUES (p_id, v_version_num, v_old_content, encode(digest(v_old_content, 'sha256'), 'hex'), COALESCE(p_agent, 'unknown'));
+  UPDATE documents SET
+    content = p_content, content_hash = p_content_hash,
+    agent = COALESCE(p_agent, agent), description = COALESCE(p_description, description),
+    status = COALESCE(p_status, status), embedding_model_id = COALESCE(p_embedding_model_id, embedding_model_id)
+  WHERE id = p_id;
+  IF p_chunk_contents IS NOT NULL THEN
+    DELETE FROM document_chunks WHERE document_id = p_id;
+    FOR i IN 1..array_length(p_chunk_contents, 1) LOOP
+      INSERT INTO document_chunks (
+        document_id, chunk_index, content, domain, embedding,
+        embedding_model_id, chunk_strategy, context_summary, token_count, overlap_chars
+      )
+      VALUES (
+        p_id, i - 1, p_chunk_contents[i], v_old_domain, p_chunk_embeddings[i],
+        p_embedding_model_id, p_chunk_strategy,
+        CASE WHEN p_chunk_summaries IS NOT NULL THEN p_chunk_summaries[i] ELSE NULL END,
+        CASE WHEN p_chunk_token_counts IS NOT NULL THEN p_chunk_token_counts[i] ELSE NULL END,
+        p_chunk_overlap
+      );
+    END LOOP;
+    UPDATE documents SET chunk_count = array_length(p_chunk_contents, 1) WHERE id = p_id;
+  END IF;
+  INSERT INTO audit_log (document_id, domain, operation, agent, diff, created_at)
+  VALUES (p_id, v_old_domain, 'update', COALESCE(p_agent, 'unknown'), jsonb_build_object('content', v_old_content), now());
+END;
+$$;
+-- =============================================================================
+-- 7. Invalidation: add cache clearing to document_delete
+-- =============================================================================
+CREATE OR REPLACE FUNCTION public.document_delete(p_id bigint, p_agent text)
+RETURNS void LANGUAGE plpgsql AS $$
+DECLARE
+  v_content text;
+  v_domain  text;
+  v_fields  jsonb;
+BEGIN
+  SELECT content, domain,
+    jsonb_build_object(
+      'name', name, 'domain', domain, 'document_type', document_type,
+      'project', project, 'protection', protection,
+      'description', description, 'agent', agent, 'status', status,
+      'file_path', file_path, 'file_permissions', file_permissions,
+      'skill_ref', skill_ref, 'owner_type', owner_type, 'owner_id', owner_id,
+      'is_auto_load', is_auto_load, 'source_type', source_type,
+      'source_url', source_url, 'embedding_model_id', embedding_model_id,
+      'content_hash', content_hash, 'schema_version', schema_version,
+      'created_at', created_at
+    )
+  INTO v_content, v_domain, v_fields
+  FROM documents WHERE id = p_id AND deleted_at IS NULL;
+  IF NOT FOUND THEN RAISE EXCEPTION 'Document % not found', p_id; END IF;
+  -- Invalidate semantic cache entries that included this document
+  DELETE FROM semantic_cache WHERE source_doc_ids @> ARRAY[p_id::int];
+  INSERT INTO audit_log (document_id, domain, operation, agent, diff, created_at)
+  VALUES (p_id, v_domain, 'delete', p_agent, jsonb_build_object('content', v_content, 'fields', v_fields), now());
+  UPDATE documents SET deleted_at = now() WHERE id = p_id;
+  DELETE FROM document_chunks WHERE document_id = p_id;
+END;
+$$;

package/dist/scripts/batch-grade.js ADDED Viewed

@@ -0,0 +1,344 @@
+// batch-grade.ts
+// Phase 4.6.2 — Batch grading of top-10 search results for all golden queries.
+// Uses Charlie's corpus knowledge to assign TREC 0-3 grades.
+//
+// Run: npx tsx src/scripts/batch-grade.ts
+// Dry run (print only): npx tsx src/scripts/batch-grade.ts --dry-run
+import 'dotenv/config';
+import { createClient } from '@supabase/supabase-js';
+import OpenAI from 'openai';
+import { searchHybrid } from '../lib/search/ai-search.js';
+import { CURRENT_SEARCH_CONFIG } from '../lib/eval/eval-store.js';
+// =============================================================================
+// Setup
+// =============================================================================
+const supabaseUrl = process.env.SUPABASE_URL;
+const supabaseKey = process.env.SUPABASE_SERVICE_ROLE_KEY;
+const openaiKey = process.env.OPENAI_API_KEY;
+if (!supabaseUrl || !supabaseKey || !openaiKey) {
+    console.error('Missing SUPABASE_URL, SUPABASE_SERVICE_ROLE_KEY, or OPENAI_API_KEY');
+    process.exit(1);
+}
+const supabase = createClient(supabaseUrl, supabaseKey);
+const openai = new OpenAI({ apiKey: openaiKey });
+const dryRun = process.argv.includes('--dry-run');
+const clients = {
+    supabase,
+    openai,
+    cohereApiKey: undefined,
+};
+// =============================================================================
+// Grading logic — maps (query topic, doc identity) to a grade
+// =============================================================================
+// Topic extraction from query text
+function extractQueryTopic(query) {
+    const lowerQuery = query.toLowerCase();
+    // Detect project scope
+    let project = null;
+    if (lowerQuery.includes('ledger'))
+        project = 'ledger';
+    if (lowerQuery.includes('atelier'))
+        project = 'atelier';
+    if (lowerQuery.includes('starbrite'))
+        project = 'starbrite';
+    if (lowerQuery.includes('css-forge') || lowerQuery.includes('css forge'))
+        project = 'css-forge';
+    if (lowerQuery.includes('adrian'))
+        project = 'persona';
+    // Detect query type by pattern
+    let queryType = 'other';
+    if (lowerQuery.startsWith('how') || lowerQuery.startsWith('what') || lowerQuery.startsWith('why') || lowerQuery.startsWith('when')) {
+        queryType = 'conceptual';
+    }
+    else if (lowerQuery.includes(' and ') || lowerQuery.includes('all ')) {
+        queryType = 'multi-doc';
+    }
+    else {
+        queryType = 'simple';
+    }
+    return { project, subject: lowerQuery, queryType };
+}
+// Core grading function
+function gradeResult(query, queryTopic, docId, docName, docDomain, docProject) {
+    const lowerQuery = queryTopic.subject;
+    const lowerName = docName.toLowerCase();
+    // ==========================================================================
+    // Rule 1: Canonical match — doc name closely matches the query subject
+    // ==========================================================================
+    // "ledger architecture overview" -> "ledger-architecture" is canonical
+    // "user profile" -> "user-profile" is canonical
+    // "atelier overview" -> "atelier-overview" is canonical
+    const queryWords = lowerQuery
+        .replace(/['']/g, '')
+        .split(/\s+/)
+        .filter(word => !['the', 'a', 'an', 'in', 'of', 'for', 'how', 'does', 'do', 'is', 'what', 'are', 'to', 'my', 'i', 'should', 'can', 'when', 'where', 'which', 'about'].includes(word));
+    const nameWords = lowerName.split('-');
+    // Count how many meaningful query words appear in the doc name
+    const nameMatchCount = queryWords.filter(queryWord => nameWords.some(nameWord => nameWord.includes(queryWord) || queryWord.includes(nameWord))).length;
+    const nameMatchRatio = queryWords.length > 0 ? nameMatchCount / queryWords.length : 0;
+    // ==========================================================================
+    // Rule 2: Project scope matching
+    // ==========================================================================
+    const projectMatches = (queryTopic.project === null ||
+        queryTopic.project === 'persona' ||
+        docProject === queryTopic.project ||
+        (queryTopic.project === 'persona' && docDomain === 'persona'));
+    // ==========================================================================
+    // Rule 3: Known doc-type patterns
+    // ==========================================================================
+    const isDevlog = lowerName.includes('devlog');
+    const isErrorlog = lowerName.includes('errorlog') || lowerName.includes('error-log');
+    const isPhaseSpec = lowerName.includes('-phase-') || lowerName.includes('-v2-phase');
+    const isSessionEvent = lowerName.includes('session-');
+    const isClaudeMd = lowerName.includes('claude-md');
+    const isMemoryMd = lowerName.includes('memory-md');
+    const isFeedback = lowerName.includes('feedback-');
+    const isLintConfig = lowerName.includes('lint-');
+    const isSkillDoc = lowerName.includes('custom-skills-');
+    const isAgentSpec = lowerName.includes('atelier-agent-');
+    const isCodeCraft = lowerName.includes('code-craft-');
+    const isReference = docDomain === 'general' && lowerName.includes('reference-');
+    const isExploration = lowerName.includes('exploration-complete');
+    const isStatusDashboard = lowerName.includes('status-dashboard') || lowerName.includes('project-status');
+    // ==========================================================================
+    // Grading decision tree
+    // ==========================================================================
+    // Strong canonical match: >70% of query words match the doc name
+    if (nameMatchRatio >= 0.7 && projectMatches) {
+        return 3;
+    }
+    // Moderate match: >50% of query words match
+    if (nameMatchRatio >= 0.5 && projectMatches) {
+        // Check if this is a high-quality doc for the topic
+        if (isDevlog || isSessionEvent || isErrorlog)
+            return 1;
+        if (isClaudeMd || isMemoryMd)
+            return 0;
+        return 2;
+    }
+    // Devlogs are almost never relevant unless the query is specifically about the devlog
+    if (isDevlog && !lowerQuery.includes('devlog') && !lowerQuery.includes('development log') && !lowerQuery.includes('session history')) {
+        return 0;
+    }
+    // Claude.md and memory.md are internal config, almost never the answer
+    if (isClaudeMd && !lowerQuery.includes('claude.md') && !lowerQuery.includes('claude md') && !lowerQuery.includes('identity') && !lowerQuery.includes('orchestrator')) {
+        return 0;
+    }
+    if (isMemoryMd && !lowerQuery.includes('memory')) {
+        return 0;
+    }
+    // Feedback rules are only relevant to behavioral/feedback queries
+    if (isFeedback && !lowerQuery.includes('feedback') && !lowerQuery.includes('behavioral') && !lowerQuery.includes('rule')) {
+        return 0;
+    }
+    // Lint configs are only relevant to linting queries
+    if (isLintConfig && !lowerQuery.includes('lint') && !lowerQuery.includes('eslint') && !lowerQuery.includes('stylelint')) {
+        return 0;
+    }
+    // Phase specs: relevant only when asking about that specific phase or topic
+    if (isPhaseSpec) {
+        // Check if the query topic matches the phase subject
+        if (lowerQuery.includes('sync') && lowerName.includes('sync'))
+            return 2;
+        if (lowerQuery.includes('access') && lowerName.includes('access'))
+            return 2;
+        if (lowerQuery.includes('observability') && lowerName.includes('observability'))
+            return 2;
+        if (lowerQuery.includes('security') && lowerName.includes('access'))
+            return 1;
+        if (lowerQuery.includes('roadmap') || lowerQuery.includes('phase') || lowerQuery.includes('plan'))
+            return 1;
+        return 0;
+    }
+    // Session events: rarely relevant
+    if (isSessionEvent && !lowerQuery.includes('session')) {
+        return 0;
+    }
+    // Skill docs: relevant only to skill/eval queries
+    if (isSkillDoc) {
+        if (lowerQuery.includes('skill') || lowerQuery.includes('eval') || lowerQuery.includes('review'))
+            return 1;
+        return 0;
+    }
+    // Agent specs: relevant to agent/atelier queries
+    if (isAgentSpec) {
+        if (queryTopic.project === 'atelier' || lowerQuery.includes('agent'))
+            return 2;
+        if (lowerQuery.includes('developer') || lowerQuery.includes('design') || lowerQuery.includes('qa') || lowerQuery.includes('security')) {
+            // Specific agent might match
+            if (lowerQuery.includes('developer') && lowerName.includes('cody'))
+                return 2;
+            if (lowerQuery.includes('design') && lowerName.includes('ross'))
+                return 2;
+            if (lowerQuery.includes('qa') && lowerName.includes('stan'))
+                return 2;
+            if (lowerQuery.includes('accessibility') && lowerName.includes('ada'))
+                return 2;
+            if (lowerQuery.includes('security') && (lowerName.includes('marshall') || lowerName.includes('chase')))
+                return 2;
+            return 1;
+        }
+        return 0;
+    }
+    // Code-craft docs: relevant to coding convention/style queries
+    if (isCodeCraft) {
+        if (lowerQuery.includes('convention') || lowerQuery.includes('coding') || lowerQuery.includes('style') || lowerQuery.includes('pattern')) {
+            // Check subject match
+            if (lowerQuery.includes('css') && lowerName.includes('css'))
+                return 3;
+            if (lowerQuery.includes('react') && lowerName.includes('react'))
+                return 3;
+            if (lowerQuery.includes('clean code') && lowerName.includes('clean-code'))
+                return 3;
+            if (lowerQuery.includes('naming') && lowerName.includes('naming'))
+                return 3;
+            if (lowerQuery.includes('design system') && lowerName.includes('ds-'))
+                return 2;
+            if (lowerQuery.includes('design') && lowerName.includes('ds-'))
+                return 2;
+            return 1;
+        }
+        if (lowerQuery.includes('design system') && lowerName.includes('ds-'))
+            return 2;
+        if (lowerQuery.includes('design') && lowerName.includes('design'))
+            return 1;
+        return 0;
+    }
+    // Reference docs: potentially valuable for conceptual queries
+    if (isReference) {
+        if (lowerQuery.includes('rag') && lowerName.includes('rag'))
+            return 2;
+        if (lowerQuery.includes('database') && lowerName.includes('database'))
+            return 2;
+        if (lowerQuery.includes('eval') && lowerName.includes('eval'))
+            return 2;
+        if (lowerQuery.includes('color') && lowerName.includes('color'))
+            return 3;
+        if (lowerQuery.includes('portfolio') && lowerName.includes('portfolio'))
+            return 3;
+        return 0;
+    }
+    // System exploration: useful for broad Ledger queries
+    if (isExploration && queryTopic.project === 'ledger') {
+        return 2;
+    }
+    // Status dashboards: relevant to project status queries
+    if (isStatusDashboard) {
+        if (lowerQuery.includes('status') || lowerQuery.includes('progress') || lowerQuery.includes('dashboard'))
+            return 2;
+        return 0;
+    }
+    // ==========================================================================
+    // Weak match: some query words match, same project
+    // ==========================================================================
+    if (nameMatchRatio >= 0.3 && projectMatches) {
+        return 1;
+    }
+    // Same project but no name match: might be tangentially related
+    if (projectMatches && queryTopic.project !== null && nameMatchRatio > 0) {
+        return 1;
+    }
+    // ==========================================================================
+    // Default: not relevant
+    // ==========================================================================
+    return 0;
+}
+// =============================================================================
+// Main
+// =============================================================================
+async function main() {
+    console.log(dryRun ? '\n[DRY RUN] Grading without writing to database.\n' : '\nBatch grading starting.\n');
+    // Load all golden queries with existing judgments
+    const { data: goldenRows, error: loadError } = await supabase
+        .from('eval_golden_dataset')
+        .select('id, query, tags, judgments:eval_golden_judgments(document_id, grade)')
+        .order('id');
+    if (loadError || !goldenRows) {
+        console.error('Failed to load golden dataset:', loadError?.message ?? 'no data');
+        process.exit(1);
+    }
+    const queries = goldenRows;
+    let totalGraded = 0;
+    let totalSkipped = 0;
+    let totalErrors = 0;
+    const gradeCounts = { 0: 0, 1: 0, 2: 0, 3: 0 };
+    for (const golden of queries) {
+        const existingGrades = new Map();
+        for (const judgment of golden.judgments ?? []) {
+            existingGrades.set(judgment.document_id, judgment.grade);
+        }
+        // Skip out-of-scope queries (no grade-2+ judgments expected)
+        const hasRelevant = (golden.judgments ?? []).some(judgment => judgment.grade >= 2);
+        const isOutOfScope = !hasRelevant && existingGrades.size === 0;
+        // Run search
+        const searchResults = await searchHybrid(clients, {
+            query: golden.query,
+            limit: CURRENT_SEARCH_CONFIG.limit,
+            reranker: CURRENT_SEARCH_CONFIG.reranker,
+        });
+        const queryTopic = extractQueryTopic(golden.query);
+        const ungradedResults = searchResults
+            .slice(0, 10)
+            .filter(result => !existingGrades.has(result.id));
+        if (ungradedResults.length === 0) {
+            continue;
+        }
+        if (dryRun) {
+            console.log(`\nQuery #${golden.id}: "${golden.query}"`);
+        }
+        for (const result of ungradedResults) {
+            const grade = gradeResult(golden.query, queryTopic, result.id, result.name ?? '<unknown>', result.domain ?? 'general', result.project ?? null);
+            gradeCounts[grade]++;
+            if (dryRun) {
+                console.log(`  #${result.id} ${result.name ?? '<unknown>'} → grade ${grade}`);
+                totalGraded++;
+                continue;
+            }
+            // Write to database
+            const { error: rpcError } = await supabase.rpc('judgment_create', {
+                p_golden_id: golden.id,
+                p_document_id: result.id,
+                p_grade: grade,
+                p_judged_by: 'charlie-batch-4.6.2',
+                p_notes: null,
+            });
+            if (rpcError) {
+                const message = rpcError.message ?? '';
+                if (message.includes('duplicate') || message.includes('unique')) {
+                    totalSkipped++;
+                }
+                else {
+                    totalErrors++;
+                    console.error(`  [ERR] golden_id=${golden.id} doc_id=${result.id}: ${message}`);
+                }
+            }
+            else {
+                totalGraded++;
+            }
+        }
+    }
+    console.log('');
+    console.log('='.repeat(60));
+    console.log('Batch grading summary');
+    console.log('='.repeat(60));
+    console.log(`  Queries processed:    ${queries.length}`);
+    console.log(`  Judgments created:    ${totalGraded}`);
+    console.log(`  Skipped (duplicate):  ${totalSkipped}`);
+    console.log(`  Errors:               ${totalErrors}`);
+    console.log('');
+    console.log('  Grade distribution:');
+    console.log(`    0 (not relevant):    ${gradeCounts[0]}`);
+    console.log(`    1 (related):         ${gradeCounts[1]}`);
+    console.log(`    2 (relevant):        ${gradeCounts[2]}`);
+    console.log(`    3 (highly relevant): ${gradeCounts[3]}`);
+    console.log('');
+    if (totalErrors > 0) {
+        console.error('Completed with errors.');
+        process.exit(1);
+    }
+    console.log(dryRun ? '[DRY RUN] No writes performed.' : 'Batch grading complete.');
+}
+main().catch((error) => {
+    console.error(error);
+    process.exit(1);
+});