npm - @twelvehart/supermemory-runtime - Versions diffs - 1.0.0-next.0 - Mend

@twelvehart/supermemory-runtime 1.0.0-next.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (156) hide show

package/.env.example +57 -0
package/README.md +374 -0
package/dist/index.js +189 -0
package/dist/mcp/index.js +1132 -0
package/docker-compose.prod.yml +91 -0
package/docker-compose.yml +358 -0
package/drizzle/0000_dapper_the_professor.sql +159 -0
package/drizzle/0001_api_keys.sql +51 -0
package/drizzle/meta/0000_snapshot.json +1532 -0
package/drizzle/meta/_journal.json +13 -0
package/drizzle.config.ts +20 -0
package/package.json +114 -0
package/scripts/add-extraction-job.ts +122 -0
package/scripts/benchmark-pgvector.ts +122 -0
package/scripts/bootstrap.sh +209 -0
package/scripts/check-runtime-pack.ts +111 -0
package/scripts/claude-mcp-config.ts +336 -0
package/scripts/docker-entrypoint.sh +183 -0
package/scripts/doctor.ts +377 -0
package/scripts/init-db.sql +33 -0
package/scripts/install.sh +1110 -0
package/scripts/mcp-setup.ts +271 -0
package/scripts/migrations/001_create_pgvector_extension.sql +31 -0
package/scripts/migrations/002_create_memory_embeddings_table.sql +75 -0
package/scripts/migrations/003_create_hnsw_index.sql +94 -0
package/scripts/migrations/004_create_memory_embeddings_standalone.sql +70 -0
package/scripts/migrations/005_create_chunks_table.sql +95 -0
package/scripts/migrations/006_create_processing_queue.sql +45 -0
package/scripts/migrations/generate_test_data.sql +42 -0
package/scripts/migrations/phase1_comprehensive_test.sql +204 -0
package/scripts/migrations/run_migrations.sh +286 -0
package/scripts/migrations/test_hnsw_index.sql +255 -0
package/scripts/pre-commit-secrets +282 -0
package/scripts/run-extraction-worker.ts +46 -0
package/scripts/run-phase1-tests.sh +291 -0
package/scripts/setup.ts +222 -0
package/scripts/smoke-install.sh +12 -0
package/scripts/test-health-endpoint.sh +328 -0
package/src/api/index.ts +2 -0
package/src/api/middleware/auth.ts +80 -0
package/src/api/middleware/csrf.ts +308 -0
package/src/api/middleware/errorHandler.ts +166 -0
package/src/api/middleware/rateLimit.ts +360 -0
package/src/api/middleware/validation.ts +514 -0
package/src/api/routes/documents.ts +286 -0
package/src/api/routes/profiles.ts +237 -0
package/src/api/routes/search.ts +71 -0
package/src/api/stores/index.ts +58 -0
package/src/config/bootstrap-env.ts +3 -0
package/src/config/env.ts +71 -0
package/src/config/feature-flags.ts +25 -0
package/src/config/index.ts +140 -0
package/src/config/secrets.config.ts +291 -0
package/src/db/client.ts +92 -0
package/src/db/index.ts +73 -0
package/src/db/postgres.ts +72 -0
package/src/db/schema/chunks.schema.ts +31 -0
package/src/db/schema/containers.schema.ts +46 -0
package/src/db/schema/documents.schema.ts +49 -0
package/src/db/schema/embeddings.schema.ts +32 -0
package/src/db/schema/index.ts +11 -0
package/src/db/schema/memories.schema.ts +72 -0
package/src/db/schema/profiles.schema.ts +34 -0
package/src/db/schema/queue.schema.ts +59 -0
package/src/db/schema/relationships.schema.ts +42 -0
package/src/db/schema.ts +223 -0
package/src/db/worker-connection.ts +47 -0
package/src/index.ts +235 -0
package/src/mcp/CLAUDE.md +1 -0
package/src/mcp/index.ts +1380 -0
package/src/mcp/legacyState.ts +22 -0
package/src/mcp/rateLimit.ts +358 -0
package/src/mcp/resources.ts +309 -0
package/src/mcp/results.ts +104 -0
package/src/mcp/tools.ts +401 -0
package/src/queues/config.ts +119 -0
package/src/queues/index.ts +289 -0
package/src/sdk/client.ts +225 -0
package/src/sdk/errors.ts +266 -0
package/src/sdk/http.ts +560 -0
package/src/sdk/index.ts +244 -0
package/src/sdk/resources/base.ts +65 -0
package/src/sdk/resources/connections.ts +204 -0
package/src/sdk/resources/documents.ts +163 -0
package/src/sdk/resources/index.ts +10 -0
package/src/sdk/resources/memories.ts +150 -0
package/src/sdk/resources/search.ts +60 -0
package/src/sdk/resources/settings.ts +36 -0
package/src/sdk/types.ts +674 -0
package/src/services/chunking/index.ts +451 -0
package/src/services/chunking.service.ts +650 -0
package/src/services/csrf.service.ts +252 -0
package/src/services/documents.repository.ts +219 -0
package/src/services/documents.service.ts +191 -0
package/src/services/embedding.service.ts +404 -0
package/src/services/extraction.service.ts +300 -0
package/src/services/extractors/code.extractor.ts +451 -0
package/src/services/extractors/index.ts +9 -0
package/src/services/extractors/markdown.extractor.ts +461 -0
package/src/services/extractors/pdf.extractor.ts +315 -0
package/src/services/extractors/text.extractor.ts +118 -0
package/src/services/extractors/url.extractor.ts +243 -0
package/src/services/index.ts +235 -0
package/src/services/ingestion.service.ts +177 -0
package/src/services/llm/anthropic.ts +400 -0
package/src/services/llm/base.ts +460 -0
package/src/services/llm/contradiction-detector.service.ts +526 -0
package/src/services/llm/heuristics.ts +148 -0
package/src/services/llm/index.ts +309 -0
package/src/services/llm/memory-classifier.service.ts +383 -0
package/src/services/llm/memory-extension-detector.service.ts +523 -0
package/src/services/llm/mock.ts +470 -0
package/src/services/llm/openai.ts +398 -0
package/src/services/llm/prompts.ts +438 -0
package/src/services/llm/types.ts +373 -0
package/src/services/memory.repository.ts +1769 -0
package/src/services/memory.service.ts +1338 -0
package/src/services/memory.types.ts +234 -0
package/src/services/persistence/index.ts +295 -0
package/src/services/pipeline.service.ts +509 -0
package/src/services/profile.repository.ts +436 -0
package/src/services/profile.service.ts +560 -0
package/src/services/profile.types.ts +270 -0
package/src/services/relationships/detector.ts +1128 -0
package/src/services/relationships/index.ts +268 -0
package/src/services/relationships/memory-integration.ts +459 -0
package/src/services/relationships/strategies.ts +132 -0
package/src/services/relationships/types.ts +370 -0
package/src/services/search.service.ts +761 -0
package/src/services/search.types.ts +220 -0
package/src/services/secrets.service.ts +384 -0
package/src/services/vectorstore/base.ts +327 -0
package/src/services/vectorstore/index.ts +444 -0
package/src/services/vectorstore/memory.ts +286 -0
package/src/services/vectorstore/migration.ts +295 -0
package/src/services/vectorstore/mock.ts +403 -0
package/src/services/vectorstore/pgvector.ts +695 -0
package/src/services/vectorstore/types.ts +247 -0
package/src/startup.ts +389 -0
package/src/types/api.types.ts +193 -0
package/src/types/document.types.ts +103 -0
package/src/types/index.ts +241 -0
package/src/types/profile.base.ts +133 -0
package/src/utils/errors.ts +447 -0
package/src/utils/id.ts +15 -0
package/src/utils/index.ts +101 -0
package/src/utils/logger.ts +313 -0
package/src/utils/sanitization.ts +501 -0
package/src/utils/secret-validation.ts +273 -0
package/src/utils/synonyms.ts +188 -0
package/src/utils/validation.ts +581 -0
package/src/workers/chunking.worker.ts +242 -0
package/src/workers/embedding.worker.ts +358 -0
package/src/workers/extraction.worker.ts +346 -0
package/src/workers/indexing.worker.ts +505 -0
package/tsconfig.json +38 -0

package/src/workers/extraction.worker.ts ADDED Viewed

@@ -0,0 +1,346 @@
+/**
+ * Extraction Worker - Processes documents from queue and extracts content
+ *
+ * Flow:
+ * 1. Job Received (0%)
+ * 2. Fetch Document from database
+ * 3. Detect Content Type (text/url/file)
+ * 4. Call Appropriate Extractor (50%)
+ * 5. Save Extracted Content to database
+ * 6. Chain to Chunking Queue (90%)
+ * 7. Mark Job Complete (100%)
+ *
+ * Error Handling:
+ * - Retry with exponential backoff (max 3 attempts)
+ * - Move to dead letter queue after max retries
+ * - Update processing_queue table status
+ */
+import { Worker, Job, Queue } from 'bullmq'
+import type { ConnectionOptions } from 'bullmq'
+import {
+  TextExtractor,
+  UrlExtractor,
+  PdfExtractor,
+  MarkdownExtractor,
+  CodeExtractor,
+} from '../services/extractors/index.js'
+import type { ContentType, ExtractionResult } from '../types/document.types.js'
+import { documents, processingQueue } from '../db/schema/index.js'
+import { eq } from 'drizzle-orm'
+import { workerDb as db } from '../db/worker-connection.js'
+import { getLogger } from '../utils/logger.js'
+import { NotFoundError, ErrorCode } from '../utils/errors.js'
+const logger = getLogger('ExtractionWorker')
+// Shared queue instance for chaining (prevents connection leak)
+let sharedChunkingQueue: Queue | null = null
+// Job data interface
+export interface ExtractionJobData {
+  documentId: string
+  sourceUrl?: string
+  sourceType?: 'text' | 'url' | 'file'
+  filePath?: string
+  containerTag: string
+}
+// Job result interface
+export interface ExtractionJobResult {
+  documentId: string
+  extractedContent: string
+  contentType: ContentType
+  metadata: Record<string, unknown>
+  processingTimeMs: number
+}
+// Extractor instances (singleton pattern)
+const extractors = {
+  text: new TextExtractor(),
+  url: new UrlExtractor(),
+  pdf: new PdfExtractor(),
+  markdown: new MarkdownExtractor(),
+  code: new CodeExtractor(),
+}
+/**
+ * Convert content type to MIME type for database storage
+ */
+function contentTypeToMimeType(contentType: ContentType): string {
+  const mimeTypeMap: Record<ContentType, string> = {
+    text: 'text/plain',
+    url: 'text/html',
+    pdf: 'application/pdf',
+    markdown: 'text/markdown',
+    code: 'text/plain',
+    unknown: 'application/octet-stream',
+  }
+  return mimeTypeMap[contentType] || 'text/plain'
+}
+/**
+ * Detect content type from content string, URL, or file path
+ */
+function detectContentType(content: string, sourceType?: string, filePath?: string): ContentType {
+  // Explicit source type
+  if (sourceType === 'url' && extractors.url.canHandle(content)) {
+    return 'url'
+  }
+  // File type detection from path
+  if (sourceType === 'file' && filePath) {
+    const ext = filePath.toLowerCase().split('.').pop()
+    if (ext === 'pdf') return 'pdf'
+    if (ext === 'md' || ext === 'markdown') return 'markdown'
+    if (['js', 'ts', 'jsx', 'tsx', 'py', 'java', 'c', 'cpp', 'go', 'rs'].includes(ext ?? '')) {
+      return 'code'
+    }
+  }
+  // Content-based detection
+  if (extractors.url.canHandle(content)) {
+    return 'url'
+  }
+  // Check for markdown patterns
+  if (content.includes('```') || /^#{1,6}\s/.test(content) || content.includes('[](')) {
+    return 'markdown'
+  }
+  // Check for code patterns
+  if (
+    content.includes('function ') ||
+    content.includes('class ') ||
+    content.includes('import ') ||
+    content.includes('const ') ||
+    content.includes('def ') ||
+    content.includes('public class ')
+  ) {
+    return 'code'
+  }
+  // Default to text
+  return 'text'
+}
+/**
+ * Extract content using appropriate extractor
+ */
+async function extractContent(
+  content: string,
+  contentType: ContentType,
+  options?: Record<string, unknown>
+): Promise<ExtractionResult> {
+  switch (contentType) {
+    case 'url':
+      return extractors.url.extract(content, options)
+    case 'pdf':
+      return extractors.pdf.extract(content, options)
+    case 'markdown':
+      return extractors.markdown.extract(content, options)
+    case 'code':
+      return extractors.code.extract(content, options)
+    case 'text':
+    default:
+      return extractors.text.extract(content, options)
+  }
+}
+/**
+ * Job processor function
+ */
+export async function processExtractionJob(job: Job<ExtractionJobData>): Promise<ExtractionJobResult> {
+  const startTime = Date.now()
+  const { documentId, sourceUrl, sourceType, filePath, containerTag } = job.data
+  try {
+    // Update progress: 0% - Job received
+    await job.updateProgress(0)
+    await db
+      .update(processingQueue)
+      .set({
+        status: 'processing',
+        startedAt: new Date(),
+        workerId: job.id,
+      })
+      .where(eq(processingQueue.documentId, documentId))
+    // Fetch document from database
+    const [doc] = await db.select().from(documents).where(eq(documents.id, documentId)).limit(1)
+    if (!doc) {
+      throw new NotFoundError('Document', documentId, ErrorCode.DOCUMENT_NOT_FOUND)
+    }
+    // Detect content type
+    const contentType = detectContentType(sourceUrl || doc.content, sourceType, filePath)
+    // Update progress: 25% - Content type detected
+    await job.updateProgress(25)
+    // Extract content using appropriate extractor
+    const extractionOptions = {
+      metadata: doc.metadata || {},
+      sourceUrl,
+      filePath,
+    }
+    const extractionResult = await extractContent(sourceUrl || doc.content, contentType, extractionOptions)
+    // Update progress: 50% - Content extracted
+    await job.updateProgress(50)
+    // Save extracted content to database
+    await db
+      .update(documents)
+      .set({
+        content: extractionResult.content,
+        contentType: contentTypeToMimeType(contentType),
+        metadata: Object.assign({}, doc.metadata || {}, extractionResult.metadata),
+        status: 'processing',
+        updatedAt: new Date(),
+      })
+      .where(eq(documents.id, documentId))
+    // Update progress: 75% - Saved to database
+    await job.updateProgress(75)
+    // Chain to chunking queue (using shared instance to prevent connection leak)
+    if (!sharedChunkingQueue) {
+      // Lazy initialization for direct processExtractionJob calls (e.g., in tests)
+      const connection = {
+        host: process.env.REDIS_HOST || 'localhost',
+        port: parseInt(process.env.REDIS_PORT || '6379', 10),
+      }
+      sharedChunkingQueue = new Queue('chunking', { connection })
+    }
+    await sharedChunkingQueue.add(
+      'chunk',
+      {
+        documentId,
+        content: extractionResult.content,
+        contentType,
+        containerTag,
+      },
+      {
+        priority: job.opts.priority || 0,
+        removeOnComplete: true,
+        removeOnFail: false,
+      }
+    )
+    // Update progress: 90% - Chained to chunking
+    await job.updateProgress(90)
+    // Mark processing queue job as completed
+    await db
+      .update(processingQueue)
+      .set({
+        status: 'completed',
+        completedAt: new Date(),
+      })
+      .where(eq(processingQueue.documentId, documentId))
+    // Update progress: 100% - Complete
+    await job.updateProgress(100)
+    const processingTimeMs = Date.now() - startTime
+    return {
+      documentId,
+      extractedContent: extractionResult.content,
+      contentType,
+      metadata: extractionResult.metadata,
+      processingTimeMs,
+    }
+  } catch (error) {
+    // Update processing queue with error
+    const errorMessage = error instanceof Error ? error.message : 'Unknown error'
+    const attemptNumber = job.attemptsMade + 1
+    await db
+      .update(processingQueue)
+      .set({
+        status: attemptNumber >= 3 ? 'failed' : 'retry',
+        error: errorMessage,
+        errorCode: 'EXTRACTION_FAILED',
+        attempts: attemptNumber,
+      })
+      .where(eq(processingQueue.documentId, documentId))
+    // Update document status
+    await db
+      .update(documents)
+      .set({
+        status: 'failed',
+        updatedAt: new Date(),
+      })
+      .where(eq(documents.id, documentId))
+    throw error
+  }
+}
+/**
+ * Create and configure extraction worker
+ */
+export function createExtractionWorker(connection: ConnectionOptions): Worker<ExtractionJobData, ExtractionJobResult> {
+  // Initialize shared chunking queue to prevent connection leak
+  if (!sharedChunkingQueue) {
+    sharedChunkingQueue = new Queue('chunking', { connection })
+  }
+  const worker = new Worker<ExtractionJobData, ExtractionJobResult>('extraction', processExtractionJob, {
+    connection,
+    concurrency: parseInt(process.env.BULLMQ_CONCURRENCY_EXTRACTION || '5', 10),
+    removeOnComplete: { count: 100 },
+    removeOnFail: { count: 500 },
+    limiter: {
+      max: 10,
+      duration: 1000,
+    },
+  })
+  // Worker event handlers
+  worker.on('completed', (job: Job<ExtractionJobData, ExtractionJobResult>) => {
+    logger.info('Job completed', { jobId: job.id, documentId: job.data.documentId })
+  })
+  worker.on('failed', (job: Job<ExtractionJobData> | undefined, err: Error) => {
+    if (job) {
+      logger.error('Job failed', { jobId: job.id, documentId: job.data.documentId, error: err.message })
+    } else {
+      logger.error('Job failed', { error: err.message })
+    }
+  })
+  worker.on('error', (err: Error) => {
+    logger.error('Worker error', { error: err.message })
+  })
+  worker.on('active', (job: Job<ExtractionJobData>) => {
+    logger.info('Processing job', { jobId: job.id, documentId: job.data.documentId })
+  })
+  return worker
+}
+/**
+ * Create extraction queue for enqueueing jobs
+ */
+export function createExtractionQueue(connection: ConnectionOptions): Queue<ExtractionJobData, ExtractionJobResult> {
+  return new Queue<ExtractionJobData, ExtractionJobResult>('extraction', {
+    connection,
+    defaultJobOptions: {
+      attempts: 3,
+      backoff: {
+        type: 'exponential',
+        delay: 2000, // 2s, 4s, 8s
+      },
+      removeOnComplete: true,
+      removeOnFail: false,
+    },
+  })
+}