npm - rag-lite-ts - Versions diffs - 1.0.2 → 2.0.0 - Mend

rag-lite-ts 1.0.2 → 2.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (202) hide show

package/README.md +606 -93
package/dist/cli/indexer.js +192 -4
package/dist/cli/search.js +50 -11
package/dist/cli.js +183 -26
package/dist/core/abstract-embedder.d.ts +125 -0
package/dist/core/abstract-embedder.js +264 -0
package/dist/core/actionable-error-messages.d.ts +60 -0
package/dist/core/actionable-error-messages.js +397 -0
package/dist/core/batch-processing-optimizer.d.ts +155 -0
package/dist/core/batch-processing-optimizer.js +541 -0
package/dist/core/chunker.d.ts +2 -0
package/dist/core/cli-database-utils.d.ts +53 -0
package/dist/core/cli-database-utils.js +239 -0
package/dist/core/config.js +10 -3
package/dist/core/content-errors.d.ts +111 -0
package/dist/core/content-errors.js +362 -0
package/dist/core/content-manager.d.ts +343 -0
package/dist/core/content-manager.js +1504 -0
package/dist/core/content-performance-optimizer.d.ts +150 -0
package/dist/core/content-performance-optimizer.js +516 -0
package/dist/core/content-resolver.d.ts +104 -0
package/dist/core/content-resolver.js +285 -0
package/dist/core/cross-modal-search.d.ts +164 -0
package/dist/core/cross-modal-search.js +342 -0
package/dist/core/database-connection-manager.d.ts +109 -0
package/dist/core/database-connection-manager.js +304 -0
package/dist/core/db.d.ts +141 -2
package/dist/core/db.js +631 -89
package/dist/core/embedder-factory.d.ts +176 -0
package/dist/core/embedder-factory.js +338 -0
package/dist/core/index.d.ts +3 -1
package/dist/core/index.js +4 -1
package/dist/core/ingestion.d.ts +85 -15
package/dist/core/ingestion.js +510 -45
package/dist/core/lazy-dependency-loader.d.ts +152 -0
package/dist/core/lazy-dependency-loader.js +453 -0
package/dist/core/mode-detection-service.d.ts +150 -0
package/dist/core/mode-detection-service.js +565 -0
package/dist/core/mode-model-validator.d.ts +92 -0
package/dist/core/mode-model-validator.js +203 -0
package/dist/core/model-registry.d.ts +120 -0
package/dist/core/model-registry.js +415 -0
package/dist/core/model-validator.d.ts +217 -0
package/dist/core/model-validator.js +782 -0
package/dist/core/polymorphic-search-factory.d.ts +154 -0
package/dist/core/polymorphic-search-factory.js +344 -0
package/dist/core/raglite-paths.d.ts +121 -0
package/dist/core/raglite-paths.js +145 -0
package/dist/core/reranking-config.d.ts +42 -0
package/dist/core/reranking-config.js +156 -0
package/dist/core/reranking-factory.d.ts +92 -0
package/dist/core/reranking-factory.js +591 -0
package/dist/core/reranking-strategies.d.ts +325 -0
package/dist/core/reranking-strategies.js +720 -0
package/dist/core/resource-cleanup.d.ts +163 -0
package/dist/core/resource-cleanup.js +371 -0
package/dist/core/resource-manager.d.ts +212 -0
package/dist/core/resource-manager.js +564 -0
package/dist/core/search.d.ts +28 -1
package/dist/core/search.js +83 -5
package/dist/core/streaming-operations.d.ts +145 -0
package/dist/core/streaming-operations.js +409 -0
package/dist/core/types.d.ts +3 -0
package/dist/core/universal-embedder.d.ts +177 -0
package/dist/core/universal-embedder.js +139 -0
package/dist/core/validation-messages.d.ts +99 -0
package/dist/core/validation-messages.js +334 -0
package/dist/core/vector-index.js +7 -8
package/dist/factories/index.d.ts +1 -1
package/dist/factories/text-factory.d.ts +128 -34
package/dist/factories/text-factory.js +346 -97
package/dist/file-processor.d.ts +88 -2
package/dist/file-processor.js +720 -17
package/dist/index.d.ts +9 -0
package/dist/index.js +11 -0
package/dist/ingestion.d.ts +16 -0
package/dist/ingestion.js +21 -0
package/dist/mcp-server.d.ts +35 -3
package/dist/mcp-server.js +1107 -31
package/dist/multimodal/clip-embedder.d.ts +314 -0
package/dist/multimodal/clip-embedder.js +945 -0
package/dist/multimodal/index.d.ts +6 -0
package/dist/multimodal/index.js +6 -0
package/dist/run-error-recovery-tests.d.ts +7 -0
package/dist/run-error-recovery-tests.js +101 -0
package/dist/search.d.ts +26 -0
package/dist/search.js +54 -1
package/dist/test-utils.d.ts +8 -26
package/dist/text/chunker.d.ts +1 -0
package/dist/text/embedder.js +15 -8
package/dist/text/index.d.ts +1 -0
package/dist/text/index.js +1 -0
package/dist/text/reranker.d.ts +1 -2
package/dist/text/reranker.js +17 -47
package/dist/text/sentence-transformer-embedder.d.ts +96 -0
package/dist/text/sentence-transformer-embedder.js +340 -0
package/dist/types.d.ts +39 -0
package/dist/utils/vector-math.d.ts +31 -0
package/dist/utils/vector-math.js +70 -0
package/package.json +15 -3
package/dist/api-errors.d.ts.map +0 -1
package/dist/api-errors.js.map +0 -1
package/dist/cli/indexer.d.ts.map +0 -1
package/dist/cli/indexer.js.map +0 -1
package/dist/cli/search.d.ts.map +0 -1
package/dist/cli/search.js.map +0 -1
package/dist/cli.d.ts.map +0 -1
package/dist/cli.js.map +0 -1
package/dist/config.d.ts.map +0 -1
package/dist/config.js.map +0 -1
package/dist/core/adapters.d.ts.map +0 -1
package/dist/core/adapters.js.map +0 -1
package/dist/core/chunker.d.ts.map +0 -1
package/dist/core/chunker.js.map +0 -1
package/dist/core/config.d.ts.map +0 -1
package/dist/core/config.js.map +0 -1
package/dist/core/db.d.ts.map +0 -1
package/dist/core/db.js.map +0 -1
package/dist/core/error-handler.d.ts.map +0 -1
package/dist/core/error-handler.js.map +0 -1
package/dist/core/index.d.ts.map +0 -1
package/dist/core/index.js.map +0 -1
package/dist/core/ingestion.d.ts.map +0 -1
package/dist/core/ingestion.js.map +0 -1
package/dist/core/interfaces.d.ts.map +0 -1
package/dist/core/interfaces.js.map +0 -1
package/dist/core/path-manager.d.ts.map +0 -1
package/dist/core/path-manager.js.map +0 -1
package/dist/core/search-example.d.ts +0 -25
package/dist/core/search-example.d.ts.map +0 -1
package/dist/core/search-example.js +0 -138
package/dist/core/search-example.js.map +0 -1
package/dist/core/search-pipeline-example.d.ts +0 -21
package/dist/core/search-pipeline-example.d.ts.map +0 -1
package/dist/core/search-pipeline-example.js +0 -188
package/dist/core/search-pipeline-example.js.map +0 -1
package/dist/core/search-pipeline.d.ts.map +0 -1
package/dist/core/search-pipeline.js.map +0 -1
package/dist/core/search.d.ts.map +0 -1
package/dist/core/search.js.map +0 -1
package/dist/core/types.d.ts.map +0 -1
package/dist/core/types.js.map +0 -1
package/dist/core/vector-index.d.ts.map +0 -1
package/dist/core/vector-index.js.map +0 -1
package/dist/dom-polyfills.d.ts.map +0 -1
package/dist/dom-polyfills.js.map +0 -1
package/dist/examples/clean-api-examples.d.ts +0 -44
package/dist/examples/clean-api-examples.d.ts.map +0 -1
package/dist/examples/clean-api-examples.js +0 -206
package/dist/examples/clean-api-examples.js.map +0 -1
package/dist/factories/index.d.ts.map +0 -1
package/dist/factories/index.js.map +0 -1
package/dist/factories/text-factory.d.ts.map +0 -1
package/dist/factories/text-factory.js.map +0 -1
package/dist/file-processor.d.ts.map +0 -1
package/dist/file-processor.js.map +0 -1
package/dist/index-manager.d.ts.map +0 -1
package/dist/index-manager.js.map +0 -1
package/dist/index.d.ts.map +0 -1
package/dist/index.js.map +0 -1
package/dist/indexer.d.ts.map +0 -1
package/dist/indexer.js.map +0 -1
package/dist/ingestion.d.ts.map +0 -1
package/dist/ingestion.js.map +0 -1
package/dist/mcp-server.d.ts.map +0 -1
package/dist/mcp-server.js.map +0 -1
package/dist/preprocess.d.ts.map +0 -1
package/dist/preprocess.js.map +0 -1
package/dist/preprocessors/index.d.ts.map +0 -1
package/dist/preprocessors/index.js.map +0 -1
package/dist/preprocessors/mdx.d.ts.map +0 -1
package/dist/preprocessors/mdx.js.map +0 -1
package/dist/preprocessors/mermaid.d.ts.map +0 -1
package/dist/preprocessors/mermaid.js.map +0 -1
package/dist/preprocessors/registry.d.ts.map +0 -1
package/dist/preprocessors/registry.js.map +0 -1
package/dist/search-standalone.d.ts.map +0 -1
package/dist/search-standalone.js.map +0 -1
package/dist/search.d.ts.map +0 -1
package/dist/search.js.map +0 -1
package/dist/test-utils.d.ts.map +0 -1
package/dist/test-utils.js.map +0 -1
package/dist/text/chunker.d.ts.map +0 -1
package/dist/text/chunker.js.map +0 -1
package/dist/text/embedder.d.ts.map +0 -1
package/dist/text/embedder.js.map +0 -1
package/dist/text/index.d.ts.map +0 -1
package/dist/text/index.js.map +0 -1
package/dist/text/preprocessors/index.d.ts.map +0 -1
package/dist/text/preprocessors/index.js.map +0 -1
package/dist/text/preprocessors/mdx.d.ts.map +0 -1
package/dist/text/preprocessors/mdx.js.map +0 -1
package/dist/text/preprocessors/mermaid.d.ts.map +0 -1
package/dist/text/preprocessors/mermaid.js.map +0 -1
package/dist/text/preprocessors/registry.d.ts.map +0 -1
package/dist/text/preprocessors/registry.js.map +0 -1
package/dist/text/reranker.d.ts.map +0 -1
package/dist/text/reranker.js.map +0 -1
package/dist/text/tokenizer.d.ts.map +0 -1
package/dist/text/tokenizer.js.map +0 -1
package/dist/types.d.ts.map +0 -1
package/dist/types.js.map +0 -1

package/dist/core/ingestion.js CHANGED Viewed

@@ -8,6 +8,7 @@ import { insertChunk, upsertDocument } from './db.js';
 import { config } from './config.js';
 import { DocumentPathManager } from './path-manager.js';
 import { existsSync } from 'fs';
+import { ContentManager } from './content-manager.js';
 /**
  * Main ingestion pipeline class
  * Coordinates the entire process from file discovery to vector storage
@@ -19,8 +20,10 @@ export class IngestionPipeline {
     db;
     defaultChunkConfig;
     pathManager;
+    contentManager;
     /**
      * Creates a new IngestionPipeline with explicit dependency injection
+     * Enhanced with ContentManager integration for unified content system
      *
      * DEPENDENCY INJECTION PATTERN:
      * This constructor requires all dependencies to be explicitly provided, enabling:
@@ -28,6 +31,7 @@ export class IngestionPipeline {
      * - Support for different embedding models and content types
      * - Testability through mock injection
      * - Future extensibility for multimodal content processing
+     * - Unified content management for both filesystem and memory-based ingestion
      *
      * @param embedFn - Function to embed document chunks into vectors
      *   - Signature: (query: string, contentType?: string) => Promise<EmbeddingResult>
@@ -47,32 +51,33 @@ export class IngestionPipeline {
      *   - Supports different content types through metadata fields
      *   - Example: await openDatabase('./db.sqlite')
      *
+     * @param contentManager - Optional ContentManager for unified content system
+     *   - Handles content storage routing and deduplication
+     *   - If not provided, creates default instance with standard configuration
+     *   - Example: new ContentManager(db, { contentDir: '.raglite/content' })
+     *
      * USAGE EXAMPLES:
      * ```typescript
-     * // Text-only ingestion pipeline
+     * // Text-only ingestion pipeline with unified content system
      * const textEmbedFn = await createTextEmbedder();
      * const indexManager = new IndexManager('./index.bin');
      * const db = await openDatabase('./db.sqlite');
+     * const contentManager = new ContentManager(db);
+     * const ingestion = new IngestionPipeline(textEmbedFn, indexManager, db, undefined, contentManager);
+     *
+     * // Simple usage (ContentManager created automatically)
      * const ingestion = new IngestionPipeline(textEmbedFn, indexManager, db);
      *
-     * // Custom embedding implementation
+     * // Custom embedding implementation with memory ingestion
      * const customEmbedFn = async (text) => ({
      *   embedding_id: generateId(),
      *   vector: await myCustomModel.embed(text)
      * });
      * const ingestion = new IngestionPipeline(customEmbedFn, indexManager, db);
-     *
-     * // Multimodal ingestion (future)
-     * const multimodalEmbedFn = async (content, contentType) => {
-     *   if (contentType === 'image') {
-     *     return { embedding_id: generateId(), vector: await clipModel.embedImage(content) };
-     *   }
-     *   return { embedding_id: generateId(), vector: await clipModel.embedText(content) };
-     * };
-     * const ingestion = new IngestionPipeline(multimodalEmbedFn, indexManager, db);
+     * await ingestion.ingestFromMemory(buffer, { displayName: 'file.txt' });
      * ```
      */
-    constructor(embedFn, indexManager, db, defaultChunkConfig) {
+    constructor(embedFn, indexManager, db, defaultChunkConfig, contentManager) {
         this.embedFn = embedFn;
         this.indexManager = indexManager;
         this.db = db;
@@ -89,6 +94,8 @@ export class IngestionPipeline {
         }
         // Initialize path manager with default configuration
         this.pathManager = new DocumentPathManager(config.path_storage_strategy, process.cwd());
+        // Initialize ContentManager (create default if not provided)
+        this.contentManager = contentManager || new ContentManager(this.db);
     }
     /**
      * Ingest documents from a directory
@@ -114,15 +121,152 @@ export class IngestionPipeline {
         }
         return this.ingestPath(filePath, options);
     }
+    /**
+     * Ingest content from memory buffer
+     * Enables MCP integration and real-time content processing
+     * @param content - Buffer containing the content to ingest
+     * @param metadata - Memory content metadata including display name and content type
+     * @param options - Optional ingestion configuration
+     * @returns Promise resolving to content ID for the ingested content
+     */
+    async ingestFromMemory(content, metadata, options = {}) {
+        const startTime = Date.now();
+        console.log(`\n=== Starting memory ingestion: ${metadata.displayName} ===`);
+        try {
+            // Phase 1: Content Storage via ContentManager
+            console.log('\n--- Phase 1: Content Storage ---');
+            const contentResult = await this.contentManager.ingestFromMemory(content, metadata);
+            if (contentResult.wasDeduped) {
+                console.log(`✓ Content deduplicated: ${metadata.displayName} (ID: ${contentResult.contentId})`);
+                return contentResult.contentId;
+            }
+            console.log(`✓ Content stored: ${metadata.displayName} (ID: ${contentResult.contentId})`);
+            // Phase 2: Document Processing
+            console.log('\n--- Phase 2: Document Processing ---');
+            // Determine content type for processing
+            const detectedContentType = metadata.contentType || 'text/plain';
+            const isImageContent = detectedContentType.startsWith('image/');
+            let document;
+            if (isImageContent) {
+                // Process image content using the existing image processing pipeline
+                console.log(`Processing image content: ${metadata.displayName} (${detectedContentType})`);
+                document = await this.processImageFromMemory(content, contentResult, metadata, options);
+            }
+            else if (detectedContentType === 'application/pdf') {
+                // Process PDF content
+                console.log(`Processing PDF content: ${metadata.displayName}`);
+                document = await this.processPDFFromMemory(content, contentResult, metadata, options);
+            }
+            else if (detectedContentType === 'application/vnd.openxmlformats-officedocument.wordprocessingml.document') {
+                // Process DOCX content
+                console.log(`Processing DOCX content: ${metadata.displayName}`);
+                document = await this.processDOCXFromMemory(content, contentResult, metadata, options);
+            }
+            else {
+                // Process as text content
+                console.log(`Processing text content: ${metadata.displayName} (${detectedContentType})`);
+                document = {
+                    source: metadata.displayName,
+                    title: metadata.displayName,
+                    content: content.toString('utf8'), // Convert buffer to string for processing
+                    metadata: {
+                        contentType: detectedContentType,
+                        contentId: contentResult.contentId,
+                        storageType: contentResult.storageType,
+                        originalPath: metadata.originalPath
+                    }
+                };
+            }
+            // Phase 3: Document Chunking
+            console.log('\n--- Phase 3: Document Chunking ---');
+            const effectiveChunkConfig = options.chunkConfig || this.defaultChunkConfig || {
+                chunkSize: config.chunk_size,
+                chunkOverlap: config.chunk_overlap
+            };
+            const chunks = await chunkDocument(document, effectiveChunkConfig);
+            console.log(`✓ Created ${chunks.length} chunks from memory content`);
+            if (chunks.length === 0) {
+                console.log('No chunks created from memory content');
+                return contentResult.contentId;
+            }
+            // Phase 4: Embedding Generation
+            console.log('\n--- Phase 4: Embedding Generation ---');
+            const embeddings = [];
+            let embeddingErrors = 0;
+            for (let i = 0; i < chunks.length; i++) {
+                const chunk = chunks[i];
+                try {
+                    // Convert MIME type to simple content type for embedding function
+                    const contentTypeForEmbedding = this.getContentTypeForEmbedding(document.metadata?.contentType);
+                    const embedding = await this.embedFn(chunk.text, contentTypeForEmbedding);
+                    // Enhance embedding result with content type metadata
+                    if (!embedding.contentType) {
+                        embedding.contentType = contentTypeForEmbedding;
+                    }
+                    if (!embedding.metadata) {
+                        embedding.metadata = document.metadata;
+                    }
+                    embeddings.push(embedding);
+                }
+                catch (error) {
+                    console.warn(`Failed to embed chunk ${i + 1}:`, error instanceof Error ? error.message : String(error));
+                    embeddingErrors++;
+                }
+            }
+            console.log(`✓ Generated ${embeddings.length} embeddings for memory content`);
+            if (embeddings.length === 0) {
+                console.log('No embeddings generated from memory content');
+                return contentResult.contentId;
+            }
+            // Phase 5: Database Storage
+            console.log('\n--- Phase 5: Database Storage ---');
+            // Insert document with content_id reference
+            const documentContentType = this.getContentTypeForEmbedding(document.metadata?.contentType);
+            const documentId = await upsertDocument(this.db, document.source, document.title, documentContentType, document.metadata, contentResult.contentId);
+            // Insert chunks with embeddings
+            let chunksStored = 0;
+            for (let i = 0; i < chunks.length && i < embeddings.length; i++) {
+                const chunk = chunks[i];
+                const embedding = embeddings[i];
+                try {
+                    await insertChunk(this.db, embedding.embedding_id, documentId, chunk.text, chunk.chunkIndex, documentContentType, document.metadata);
+                    chunksStored++;
+                }
+                catch (error) {
+                    console.error(`Failed to store chunk ${i + 1}:`, error instanceof Error ? error.message : String(error));
+                }
+            }
+            console.log(`✓ Stored document and ${chunksStored} chunks in database`);
+            // Phase 6: Vector Index Updates
+            console.log('\n--- Phase 6: Vector Index Updates ---');
+            await this.updateVectorIndex(embeddings);
+            const endTime = Date.now();
+            const processingTimeMs = endTime - startTime;
+            console.log('\n=== Memory Ingestion Complete ===');
+            console.log(`Content ID: ${contentResult.contentId}`);
+            console.log(`Chunks created: ${chunks.length}`);
+            console.log(`Embeddings generated: ${embeddings.length}`);
+            console.log(`Chunks stored: ${chunksStored}`);
+            console.log(`Embedding errors: ${embeddingErrors}`);
+            console.log(`Total time: ${(processingTimeMs / 1000).toFixed(2)}s`);
+            return contentResult.contentId;
+        }
+        catch (error) {
+            console.error('\n=== Memory Ingestion Failed ===');
+            console.error(`Error: ${error instanceof Error ? error.message : 'Unknown error'}`);
+            throw new Error(`Memory ingestion failed: ${error instanceof Error ? error.message : 'Unknown error'}`);
+        }
+    }
     /**
      * Ingest documents from a path (file or directory)
      * Implements the complete pipeline: file processing → chunking → embedding → storage
+     * Enhanced to handle mixed content types (text and images) in multimodal mode
      */
     async ingestPath(path, options = {}) {
         const startTime = Date.now();
         console.log(`\n=== Starting ingestion from: ${path} ===`);
         try {
-            // Phase 1: File Discovery and Processing
+            // Phase 1: File Discovery and Processing with Content-Type Detection
             console.log('\n--- Phase 1: File Discovery and Processing ---');
             const fileResult = await discoverAndProcessFiles(path, options.fileOptions, this.pathManager);
             if (fileResult.documents.length === 0) {
@@ -133,16 +277,20 @@ export class IngestionPipeline {
                     embeddingsGenerated: 0,
                     documentErrors: fileResult.processingResult.errors.length,
                     embeddingErrors: 0,
-                    processingTimeMs: Date.now() - startTime
+                    processingTimeMs: Date.now() - startTime,
+                    contentIds: []
                 };
             }
-            // Phase 2: Document Chunking
+            // Content-type detection and routing
+            const contentTypeStats = this.analyzeContentTypes(fileResult.documents);
+            console.log(`📊 Content analysis: ${contentTypeStats.text} text, ${contentTypeStats.image} image, ${contentTypeStats.other} other files`);
+            // Phase 2: Document Chunking with Content-Type Awareness
             console.log('\n--- Phase 2: Document Chunking ---');
             const effectiveChunkConfig = options.chunkConfig || this.defaultChunkConfig || {
                 chunkSize: config.chunk_size,
                 chunkOverlap: config.chunk_overlap
             };
-            const chunkingResult = await this.chunkDocuments(fileResult.documents, effectiveChunkConfig);
+            const chunkingResult = await this.chunkDocumentsWithContentTypes(fileResult.documents, effectiveChunkConfig);
             if (chunkingResult.totalChunks === 0) {
                 console.log('No chunks created from documents');
                 return {
@@ -151,15 +299,16 @@ export class IngestionPipeline {
                     embeddingsGenerated: 0,
                     documentErrors: fileResult.processingResult.errors.length,
                     embeddingErrors: 0,
-                    processingTimeMs: Date.now() - startTime
+                    processingTimeMs: Date.now() - startTime,
+                    contentIds: []
                 };
             }
-            // Phase 3: Embedding Generation
+            // Phase 3: Embedding Generation with Content-Type Support
             console.log('\n--- Phase 3: Embedding Generation ---');
-            const embeddingResult = await this.generateEmbeddings(chunkingResult.allChunks);
-            // Phase 4: Database and Index Storage
+            const embeddingResult = await this.generateEmbeddingsWithContentTypes(chunkingResult.allChunks);
+            // Phase 4: Database and Index Storage with Content-Type Metadata
             console.log('\n--- Phase 4: Storage Operations ---');
-            await this.storeDocumentsAndChunks(chunkingResult.documentChunks, embeddingResult.embeddings);
+            const contentIds = await this.storeDocumentsAndChunksWithContentTypes(chunkingResult.documentChunks, embeddingResult.embeddings);
             // Phase 5: Vector Index Updates
             console.log('\n--- Phase 5: Vector Index Updates ---');
             await this.updateVectorIndex(embeddingResult.embeddings);
@@ -171,7 +320,8 @@ export class IngestionPipeline {
                 embeddingsGenerated: embeddingResult.embeddings.length,
                 documentErrors: fileResult.processingResult.errors.length,
                 embeddingErrors: embeddingResult.errors,
-                processingTimeMs
+                processingTimeMs,
+                contentIds
             };
             console.log('\n=== Ingestion Complete ===');
             console.log(`Documents processed: ${result.documentsProcessed}`);
@@ -189,9 +339,32 @@ export class IngestionPipeline {
         }
     }
     /**
-     * Chunk all documents and organize results
+     * Analyze content types in the document collection
+     * @private
      */
-    async chunkDocuments(documents, chunkConfig) {
+    analyzeContentTypes(documents) {
+        const stats = { text: 0, image: 0, other: 0 };
+        for (const document of documents) {
+            const contentType = document.metadata?.contentType || 'text';
+            switch (contentType) {
+                case 'text':
+                    stats.text++;
+                    break;
+                case 'image':
+                    stats.image++;
+                    break;
+                default:
+                    stats.other++;
+                    break;
+            }
+        }
+        return stats;
+    }
+    /**
+     * Chunk all documents and organize results with content-type awareness
+     * Enhanced to handle different content types appropriately
+     */
+    async chunkDocumentsWithContentTypes(documents, chunkConfig) {
         const documentChunks = [];
         const allChunks = [];
         let totalChunks = 0;
@@ -199,11 +372,36 @@ export class IngestionPipeline {
         for (let i = 0; i < documents.length; i++) {
             const document = documents[i];
             try {
-                const chunks = await chunkDocument(document, chunkConfig);
+                const contentType = document.metadata?.contentType || 'text';
+                // Handle different content types appropriately
+                let chunks;
+                if (contentType === 'image') {
+                    // For images, create a single chunk with the full content (description + metadata)
+                    chunks = [{
+                            text: document.content,
+                            chunkIndex: 0,
+                            contentType: 'image',
+                            metadata: document.metadata
+                        }];
+                }
+                else {
+                    // For text documents, use normal chunking
+                    const textChunks = await chunkDocument(document, chunkConfig);
+                    chunks = textChunks.map(chunk => ({
+                        ...chunk,
+                        contentType: 'text',
+                        metadata: document.metadata
+                    }));
+                }
                 documentChunks.push({ document, chunks });
-                // Collect all chunk texts for embedding
-                const chunkTexts = chunks.map(chunk => chunk.text);
-                allChunks.push(...chunkTexts);
+                // Collect all chunks with their content type information
+                for (const chunk of chunks) {
+                    allChunks.push({
+                        text: chunk.text,
+                        contentType: chunk.contentType,
+                        metadata: chunk.metadata
+                    });
+                }
                 totalChunks += chunks.length;
                 // Progress logging - more frequent for better user experience
                 if (documents.length <= 10 || (i + 1) % Math.max(1, Math.floor(documents.length / 10)) === 0 || i === documents.length - 1) {
@@ -221,28 +419,52 @@ export class IngestionPipeline {
         return { documentChunks, allChunks, totalChunks };
     }
     /**
-     * Generate embeddings for all chunks with error handling
+     * Chunk all documents and organize results (legacy method for backward compatibility)
+     * @deprecated Use chunkDocumentsWithContentTypes for multimodal support
      */
-    async generateEmbeddings(chunkTexts) {
-        console.log(`Generating embeddings for ${chunkTexts.length} chunk${chunkTexts.length === 1 ? '' : 's'}...`);
+    async chunkDocuments(documents, chunkConfig) {
+        const result = await this.chunkDocumentsWithContentTypes(documents, chunkConfig);
+        // Convert to legacy format for backward compatibility
+        return {
+            documentChunks: result.documentChunks,
+            allChunks: result.allChunks.map(chunk => chunk.text),
+            totalChunks: result.totalChunks
+        };
+    }
+    /**
+     * Generate embeddings for all chunks with content-type support
+     * Enhanced to handle different content types and pass metadata to embedding function
+     */
+    async generateEmbeddingsWithContentTypes(chunks) {
+        console.log(`Generating embeddings for ${chunks.length} chunk${chunks.length === 1 ? '' : 's'}...`);
         console.log('This may take a few minutes depending on the number of chunks...');
         try {
-            // Generate embeddings using injected embed function
+            // Generate embeddings using injected embed function with content type support
             const embeddings = [];
             let errors = 0;
-            for (let i = 0; i < chunkTexts.length; i++) {
+            for (let i = 0; i < chunks.length; i++) {
+                const chunk = chunks[i];
                 try {
-                    const embedding = await this.embedFn(chunkTexts[i]);
+                    // Convert MIME type to simple content type for embedding function
+                    const contentTypeForEmbedding = this.getContentTypeForEmbedding(chunk.contentType);
+                    const embedding = await this.embedFn(chunk.text, contentTypeForEmbedding);
+                    // Enhance embedding result with content type metadata if not already present
+                    if (!embedding.contentType) {
+                        embedding.contentType = contentTypeForEmbedding;
+                    }
+                    if (!embedding.metadata && chunk.metadata) {
+                        embedding.metadata = chunk.metadata;
+                    }
                     embeddings.push(embedding);
                 }
                 catch (error) {
-                    console.warn(`Failed to embed chunk ${i + 1}:`, error instanceof Error ? error.message : String(error));
+                    console.warn(`Failed to embed ${chunk.contentType} chunk ${i + 1}:`, error instanceof Error ? error.message : String(error));
                     errors++;
                 }
                 // Progress logging
-                if (chunkTexts.length > 10 && (i + 1) % Math.max(1, Math.floor(chunkTexts.length / 10)) === 0) {
-                    const percentage = Math.round(((i + 1) / chunkTexts.length) * 100);
-                    console.log(`Generated ${i + 1} of ${chunkTexts.length} embeddings (${percentage}%)`);
+                if (chunks.length > 10 && (i + 1) % Math.max(1, Math.floor(chunks.length / 10)) === 0) {
+                    const percentage = Math.round(((i + 1) / chunks.length) * 100);
+                    console.log(`Generated ${i + 1} of ${chunks.length} embeddings (${percentage}%)`);
                 }
             }
             if (errors > 0) {
@@ -257,9 +479,20 @@ export class IngestionPipeline {
         }
     }
     /**
-     * Store documents and chunks in database
+     * Generate embeddings for all chunks with error handling (legacy method for backward compatibility)
+     * @deprecated Use generateEmbeddingsWithContentTypes for multimodal support
      */
-    async storeDocumentsAndChunks(documentChunks, embeddings) {
+    async generateEmbeddings(chunkTexts) {
+        // Convert to new format for backward compatibility
+        const chunks = chunkTexts.map(text => ({ text, contentType: 'text' }));
+        return this.generateEmbeddingsWithContentTypes(chunks);
+    }
+    /**
+     * Store documents and chunks in database with content-type support
+     * Enhanced to handle content type metadata and multimodal content
+     * @returns Array of content IDs for successfully stored documents
+     */
+    async storeDocumentsAndChunksWithContentTypes(documentChunks, embeddings) {
         console.log(`Storing ${documentChunks.length} document${documentChunks.length === 1 ? '' : 's'} and chunks in database...`);
         // Create a mapping of chunk text to embedding for efficient lookup
         const embeddingMap = new Map();
@@ -275,24 +508,51 @@ export class IngestionPipeline {
         }
         let totalChunksStored = 0;
         let documentsStored = 0;
+        const contentIds = [];
         // Process each document sequentially
         for (const { document, chunks } of documentChunks) {
             try {
-                // Insert or get existing document
-                const documentId = await upsertDocument(this.db, document.source, document.title);
+                // Generate content ID for filesystem content using ContentManager
+                let contentId = document.metadata?.contentId;
+                if (!contentId) {
+                    try {
+                        // Use ContentManager to create filesystem reference and get content ID
+                        const contentResult = await this.contentManager.ingestFromFilesystem(document.source);
+                        contentId = contentResult.contentId;
+                        // Update document metadata with content ID
+                        if (!document.metadata) {
+                            document.metadata = {};
+                        }
+                        document.metadata.contentId = contentId;
+                        document.metadata.storageType = contentResult.storageType;
+                    }
+                    catch (contentError) {
+                        console.warn(`Failed to create content reference for ${document.source}:`, contentError instanceof Error ? contentError.message : String(contentError));
+                        // Continue without content ID - fallback to legacy behavior
+                    }
+                }
+                // Insert or get existing document with content type support and content_id reference
+                const documentContentType = document.metadata?.contentType || 'text';
+                const documentId = await upsertDocument(this.db, document.source, document.title, documentContentType, document.metadata, contentId);
                 documentsStored++;
-                // Insert all chunks for this document
+                // Add content ID to results if available
+                if (contentId) {
+                    contentIds.push(contentId);
+                }
+                // Insert all chunks for this document with content type support
                 let chunksStoredForDoc = 0;
                 for (const chunk of chunks) {
                     const embedding = embeddingMap.get(chunk.text);
                     if (embedding) {
                         try {
-                            await insertChunk(this.db, embedding.embedding_id, documentId, chunk.text, chunk.chunkIndex);
+                            const chunkContentType = chunk.contentType || documentContentType;
+                            const chunkMetadata = chunk.metadata || document.metadata;
+                            await insertChunk(this.db, embedding.embedding_id, documentId, chunk.text, chunk.chunkIndex, chunkContentType, chunkMetadata);
                             chunksStoredForDoc++;
                             totalChunksStored++;
                         }
                         catch (chunkError) {
-                            console.error(`Failed to store chunk ${chunk.chunkIndex} for document ${document.source}:`, chunkError instanceof Error ? chunkError.message : String(chunkError));
+                            console.error(`Failed to store ${chunk.contentType || 'text'} chunk ${chunk.chunkIndex} for document ${document.source}:`, chunkError instanceof Error ? chunkError.message : String(chunkError));
                             // Continue with other chunks
                         }
                     }
@@ -312,6 +572,14 @@ export class IngestionPipeline {
             }
         }
         console.log(`✓ Storage complete: ${documentsStored} documents, ${totalChunksStored} chunks saved to database`);
+        return contentIds;
+    }
+    /**
+     * Store documents and chunks in database (legacy method for backward compatibility)
+     * @deprecated Use storeDocumentsAndChunksWithContentTypes for multimodal support
+     */
+    async storeDocumentsAndChunks(documentChunks, embeddings) {
+        await this.storeDocumentsAndChunksWithContentTypes(documentChunks, embeddings);
     }
     /**
      * Update vector index with new embeddings
@@ -331,11 +599,208 @@ export class IngestionPipeline {
             throw error;
         }
     }
+    /**
+     * Converts MIME type to simple content type for embedding function
+     * @param mimeType - MIME type string (e.g., 'text/plain', 'image/jpeg')
+     * @returns Simple content type ('text', 'image', etc.)
+     */
+    getContentTypeForEmbedding(mimeType) {
+        if (!mimeType) {
+            return 'text';
+        }
+        // Convert MIME types to simple content types
+        if (mimeType.startsWith('text/')) {
+            return 'text';
+        }
+        else if (mimeType.startsWith('image/')) {
+            return 'image';
+        }
+        else if (mimeType === 'application/pdf') {
+            return 'text'; // PDFs are processed as text
+        }
+        else if (mimeType === 'application/vnd.openxmlformats-officedocument.wordprocessingml.document') {
+            return 'text'; // DOCX files are processed as text
+        }
+        else {
+            return 'text'; // Default to text for unknown types
+        }
+    }
+    /**
+     * Save the vector index to disk
+     */
+    async saveIndex() {
+        await this.indexManager.saveIndex();
+    }
+    /**
+     * Process image content from memory using the existing image processing pipeline
+     * @private
+     */
+    async processImageFromMemory(content, contentResult, metadata, options) {
+        try {
+            // Import image processing functions
+            const { generateImageDescriptionForFile, extractImageMetadataForFile } = await import('../file-processor.js');
+            // Use the content path from the content manager (where the image is stored)
+            const imagePath = contentResult.contentPath;
+            // Extract image metadata
+            let imageMetadata = {};
+            try {
+                imageMetadata = await extractImageMetadataForFile(imagePath);
+            }
+            catch (error) {
+                console.warn(`Failed to extract image metadata for ${metadata.displayName}:`, error instanceof Error ? error.message : String(error));
+                // Continue with empty metadata
+            }
+            // Generate text description for the image
+            let descriptionResult = { description: 'Image content', model: 'none', confidence: 0 };
+            try {
+                const imageToTextOptions = {}; // Use default options for now
+                descriptionResult = await generateImageDescriptionForFile(imagePath, imageToTextOptions);
+                console.log(`✓ Generated image description: "${descriptionResult.description}"`);
+            }
+            catch (error) {
+                console.warn(`Failed to generate image description for ${metadata.displayName}:`, error instanceof Error ? error.message : String(error));
+                // Continue with fallback description
+            }
+            // Update metadata with description information
+            imageMetadata.description = descriptionResult.description;
+            imageMetadata.descriptionModel = descriptionResult.model;
+            imageMetadata.descriptionConfidence = descriptionResult.confidence;
+            // Create document with image description as content
+            const title = metadata.displayName;
+            // Create content that includes description and key metadata
+            const contentParts = [
+                `Image: ${title}`,
+                `Description: ${descriptionResult.description}`
+            ];
+            if (imageMetadata.dimensions) {
+                contentParts.push(`Dimensions: ${imageMetadata.dimensions.width}x${imageMetadata.dimensions.height}`);
+            }
+            if (imageMetadata.format) {
+                contentParts.push(`Format: ${imageMetadata.format}`);
+            }
+            const documentContent = contentParts.join('\n');
+            return {
+                source: metadata.displayName,
+                title,
+                content: documentContent.trim(),
+                metadata: {
+                    contentType: 'image',
+                    contentId: contentResult.contentId,
+                    storageType: contentResult.storageType,
+                    originalPath: metadata.originalPath,
+                    ...imageMetadata // Spread all image metadata fields
+                }
+            };
+        }
+        catch (error) {
+            console.warn(`Failed to process image from memory, falling back to basic processing:`, error instanceof Error ? error.message : String(error));
+            // Fallback to basic document creation
+            return {
+                source: metadata.displayName,
+                title: metadata.displayName,
+                content: `Image: ${metadata.displayName}\nPath: ${contentResult.contentPath}`,
+                metadata: {
+                    contentType: 'image',
+                    contentId: contentResult.contentId,
+                    storageType: contentResult.storageType,
+                    originalPath: metadata.originalPath,
+                    processingError: error instanceof Error ? error.message : String(error)
+                }
+            };
+        }
+    }
+    /**
+     * Process PDF content from memory using the existing PDF processing pipeline
+     * @private
+     */
+    async processPDFFromMemory(content, contentResult, metadata, options) {
+        try {
+            // Import PDF processing
+            const pdfParse = require('pdf-parse');
+            // Parse PDF content directly from buffer
+            const pdfData = await pdfParse(content);
+            console.log(`✓ Extracted ${pdfData.text.length} characters from PDF`);
+            return {
+                source: metadata.displayName,
+                title: metadata.displayName,
+                content: pdfData.text.trim(),
+                metadata: {
+                    contentType: 'application/pdf',
+                    contentId: contentResult.contentId,
+                    storageType: contentResult.storageType,
+                    originalPath: metadata.originalPath,
+                    pages: pdfData.numpages,
+                    pdfInfo: pdfData.info
+                }
+            };
+        }
+        catch (error) {
+            console.warn(`Failed to process PDF from memory, falling back to basic processing:`, error instanceof Error ? error.message : String(error));
+            // Fallback to basic document creation
+            return {
+                source: metadata.displayName,
+                title: metadata.displayName,
+                content: `PDF Document: ${metadata.displayName}\nPath: ${contentResult.contentPath}`,
+                metadata: {
+                    contentType: 'application/pdf',
+                    contentId: contentResult.contentId,
+                    storageType: contentResult.storageType,
+                    originalPath: metadata.originalPath,
+                    processingError: error instanceof Error ? error.message : String(error)
+                }
+            };
+        }
+    }
+    /**
+     * Process DOCX content from memory using the existing DOCX processing pipeline
+     * @private
+     */
+    async processDOCXFromMemory(content, contentResult, metadata, options) {
+        try {
+            // Import DOCX processing
+            const mammoth = await import('mammoth');
+            // Parse DOCX content directly from buffer
+            const docxResult = await mammoth.extractRawText({ buffer: content });
+            console.log(`✓ Extracted ${docxResult.value.length} characters from DOCX`);
+            return {
+                source: metadata.displayName,
+                title: metadata.displayName,
+                content: docxResult.value.trim(),
+                metadata: {
+                    contentType: 'application/vnd.openxmlformats-officedocument.wordprocessingml.document',
+                    contentId: contentResult.contentId,
+                    storageType: contentResult.storageType,
+                    originalPath: metadata.originalPath,
+                    messages: docxResult.messages
+                }
+            };
+        }
+        catch (error) {
+            console.warn(`Failed to process DOCX from memory, falling back to basic processing:`, error instanceof Error ? error.message : String(error));
+            // Fallback to basic document creation
+            return {
+                source: metadata.displayName,
+                title: metadata.displayName,
+                content: `DOCX Document: ${metadata.displayName}\nPath: ${contentResult.contentPath}`,
+                metadata: {
+                    contentType: 'application/vnd.openxmlformats-officedocument.wordprocessingml.document',
+                    contentId: contentResult.contentId,
+                    storageType: contentResult.storageType,
+                    originalPath: metadata.originalPath,
+                    processingError: error instanceof Error ? error.message : String(error)
+                }
+            };
+        }
+    }
     /**
      * Clean up resources - explicit cleanup method
      */
     async cleanup() {
         try {
+            // Clean up ContentManager to prevent resource leaks
+            if (this.contentManager && typeof this.contentManager.cleanup === 'function') {
+                this.contentManager.cleanup();
+            }
             await this.db.close();
             await this.indexManager.close();
         }