npm - localrag - Versions diffs - 0.1.0 - Mend

localrag 0.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (86) hide show

package/README.md +178 -0
package/dist/chunking/chunking-service.d.ts +18 -0
package/dist/chunking/chunking-service.d.ts.map +1 -0
package/dist/chunking/chunking-service.js +71 -0
package/dist/chunking/chunking-service.js.map +1 -0
package/dist/cli/commands/init.d.ts +8 -0
package/dist/cli/commands/init.d.ts.map +1 -0
package/dist/cli/commands/init.js +107 -0
package/dist/cli/commands/init.js.map +1 -0
package/dist/cli/commands/open.d.ts +8 -0
package/dist/cli/commands/open.d.ts.map +1 -0
package/dist/cli/commands/open.js +105 -0
package/dist/cli/commands/open.js.map +1 -0
package/dist/cli/commands/search.d.ts +10 -0
package/dist/cli/commands/search.d.ts.map +1 -0
package/dist/cli/commands/search.js +73 -0
package/dist/cli/commands/search.js.map +1 -0
package/dist/cli/commands/start.d.ts +8 -0
package/dist/cli/commands/start.d.ts.map +1 -0
package/dist/cli/commands/start.js +122 -0
package/dist/cli/commands/start.js.map +1 -0
package/dist/cli/commands/status.d.ts +12 -0
package/dist/cli/commands/status.d.ts.map +1 -0
package/dist/cli/commands/status.js +89 -0
package/dist/cli/commands/status.js.map +1 -0
package/dist/cli/index.d.ts +3 -0
package/dist/cli/index.d.ts.map +1 -0
package/dist/cli/index.js +62 -0
package/dist/cli/index.js.map +1 -0
package/dist/config/config-service.d.ts +22 -0
package/dist/config/config-service.d.ts.map +1 -0
package/dist/config/config-service.js +108 -0
package/dist/config/config-service.js.map +1 -0
package/dist/db/lancedb-repository.d.ts +28 -0
package/dist/db/lancedb-repository.d.ts.map +1 -0
package/dist/db/lancedb-repository.js +132 -0
package/dist/db/lancedb-repository.js.map +1 -0
package/dist/embedding/embedding-service.d.ts +22 -0
package/dist/embedding/embedding-service.d.ts.map +1 -0
package/dist/embedding/embedding-service.js +99 -0
package/dist/embedding/embedding-service.js.map +1 -0
package/dist/extractors/docx-extractor.d.ts +12 -0
package/dist/extractors/docx-extractor.d.ts.map +1 -0
package/dist/extractors/docx-extractor.js +29 -0
package/dist/extractors/docx-extractor.js.map +1 -0
package/dist/extractors/extractor.interface.d.ts +14 -0
package/dist/extractors/extractor.interface.d.ts.map +1 -0
package/dist/extractors/extractor.interface.js +63 -0
package/dist/extractors/extractor.interface.js.map +1 -0
package/dist/extractors/pdf-extractor.d.ts +11 -0
package/dist/extractors/pdf-extractor.d.ts.map +1 -0
package/dist/extractors/pdf-extractor.js +89 -0
package/dist/extractors/pdf-extractor.js.map +1 -0
package/dist/extractors/pptx-extractor.d.ts +12 -0
package/dist/extractors/pptx-extractor.d.ts.map +1 -0
package/dist/extractors/pptx-extractor.js +98 -0
package/dist/extractors/pptx-extractor.js.map +1 -0
package/dist/extractors/text-extractor.d.ts +10 -0
package/dist/extractors/text-extractor.d.ts.map +1 -0
package/dist/extractors/text-extractor.js +52 -0
package/dist/extractors/text-extractor.js.map +1 -0
package/dist/extractors/xlsx-extractor.d.ts +11 -0
package/dist/extractors/xlsx-extractor.d.ts.map +1 -0
package/dist/extractors/xlsx-extractor.js +28 -0
package/dist/extractors/xlsx-extractor.js.map +1 -0
package/dist/indexer/indexer.d.ts +34 -0
package/dist/indexer/indexer.d.ts.map +1 -0
package/dist/indexer/indexer.js +100 -0
package/dist/indexer/indexer.js.map +1 -0
package/dist/metadata/metadata-service.d.ts +34 -0
package/dist/metadata/metadata-service.d.ts.map +1 -0
package/dist/metadata/metadata-service.js +147 -0
package/dist/metadata/metadata-service.js.map +1 -0
package/dist/scanner/file-scanner.d.ts +20 -0
package/dist/scanner/file-scanner.d.ts.map +1 -0
package/dist/scanner/file-scanner.js +110 -0
package/dist/scanner/file-scanner.js.map +1 -0
package/dist/search/search-service.d.ts +18 -0
package/dist/search/search-service.d.ts.map +1 -0
package/dist/search/search-service.js +98 -0
package/dist/search/search-service.js.map +1 -0
package/dist/watcher/file-watcher.d.ts +27 -0
package/dist/watcher/file-watcher.d.ts.map +1 -0
package/dist/watcher/file-watcher.js +110 -0
package/dist/watcher/file-watcher.js.map +1 -0
package/package.json +53 -0

package/dist/embedding/embedding-service.d.ts ADDED Viewed

@@ -0,0 +1,22 @@
+/**
+ * EmbeddingService
+ *
+ * Wraps @xenova/transformers (all-MiniLM-L6-v2) for local, normalized
+ * sentence embeddings. Uses a dynamic import because transformers is ESM-only
+ * while the rest of the package targets CommonJS.
+ *
+ * The model (~25 MB ONNX) is cached automatically in ~/.cache/huggingface
+ * after the first download. A progress spinner is shown on first load.
+ */
+export declare class EmbeddingService {
+    /**
+     * Generate normalized L2 embeddings for one or more texts.
+     * Returns a 2D array: one 384-dim vector per input text.
+     */
+    embed(texts: string[]): Promise<number[][]>;
+    /**
+     * Embed a single text, returning a 384-dim number[].
+     */
+    embedOne(text: string): Promise<number[]>;
+}
+//# sourceMappingURL=embedding-service.d.ts.map

package/dist/embedding/embedding-service.d.ts.map ADDED Viewed

	@@ -0,0 +1 @@
1	+ {"version":3,"file":"embedding-service.d.ts","sourceRoot":"","sources":["../../src/embedding/embedding-service.ts"],"names":[],"mappings":"AAAA;;;;;;;;;GASG;AAwCH,qBAAa,gBAAgB;IAC3B;;;OAGG;IACG,KAAK,CAAC,KAAK,EAAE,MAAM,EAAE,GAAG,OAAO,CAAC,MAAM,EAAE,EAAE,CAAC;IAajD;;OAEG;IACG,QAAQ,CAAC,IAAI,EAAE,MAAM,GAAG,OAAO,CAAC,MAAM,EAAE,CAAC;CAIhD"}

package/dist/embedding/embedding-service.js ADDED Viewed

@@ -0,0 +1,99 @@
+"use strict";
+/**
+ * EmbeddingService
+ *
+ * Wraps @xenova/transformers (all-MiniLM-L6-v2) for local, normalized
+ * sentence embeddings. Uses a dynamic import because transformers is ESM-only
+ * while the rest of the package targets CommonJS.
+ *
+ * The model (~25 MB ONNX) is cached automatically in ~/.cache/huggingface
+ * after the first download. A progress spinner is shown on first load.
+ */
+var __createBinding = (this && this.__createBinding) || (Object.create ? (function(o, m, k, k2) {
+    if (k2 === undefined) k2 = k;
+    var desc = Object.getOwnPropertyDescriptor(m, k);
+    if (!desc || ("get" in desc ? !m.__esModule : desc.writable || desc.configurable)) {
+      desc = { enumerable: true, get: function() { return m[k]; } };
+    }
+    Object.defineProperty(o, k2, desc);
+}) : (function(o, m, k, k2) {
+    if (k2 === undefined) k2 = k;
+    o[k2] = m[k];
+}));
+var __setModuleDefault = (this && this.__setModuleDefault) || (Object.create ? (function(o, v) {
+    Object.defineProperty(o, "default", { enumerable: true, value: v });
+}) : function(o, v) {
+    o["default"] = v;
+});
+var __importStar = (this && this.__importStar) || (function () {
+    var ownKeys = function(o) {
+        ownKeys = Object.getOwnPropertyNames || function (o) {
+            var ar = [];
+            for (var k in o) if (Object.prototype.hasOwnProperty.call(o, k)) ar[ar.length] = k;
+            return ar;
+        };
+        return ownKeys(o);
+    };
+    return function (mod) {
+        if (mod && mod.__esModule) return mod;
+        var result = {};
+        if (mod != null) for (var k = ownKeys(mod), i = 0; i < k.length; i++) if (k[i] !== "default") __createBinding(result, mod, k[i]);
+        __setModuleDefault(result, mod);
+        return result;
+    };
+})();
+Object.defineProperty(exports, "__esModule", { value: true });
+exports.EmbeddingService = void 0;
+// eslint-disable-next-line @typescript-eslint/no-require-imports
+const ora = require('ora');
+const VECTOR_DIM = 384;
+// eslint-disable-next-line @typescript-eslint/no-explicit-any
+let pipelineInstance = null;
+async function getPipeline() {
+    if (pipelineInstance)
+        return pipelineInstance;
+    const spinner = ora({
+        text: 'Loading embedding model (first run downloads ~25 MB — one-time only)…',
+        spinner: 'dots',
+    }).start();
+    try {
+        // Dynamic import: @xenova/transformers is ESM; works fine from CJS via import()
+        const { pipeline, env } = await Promise.resolve().then(() => __importStar(require('@xenova/transformers')));
+        // Allow downloading from HuggingFace Hub; cache locally forever
+        env.allowLocalModels = true;
+        env.useBrowserCache = false;
+        pipelineInstance = await pipeline('feature-extraction', 'Xenova/all-MiniLM-L6-v2', { quantized: true });
+        spinner.succeed('Embedding model ready');
+        return pipelineInstance;
+    }
+    catch (err) {
+        spinner.fail('Failed to load embedding model');
+        throw err;
+    }
+}
+class EmbeddingService {
+    /**
+     * Generate normalized L2 embeddings for one or more texts.
+     * Returns a 2D array: one 384-dim vector per input text.
+     */
+    async embed(texts) {
+        if (texts.length === 0)
+            return [];
+        const pipe = await getPipeline();
+        const output = await pipe(texts, { pooling: 'mean', normalize: true });
+        // Output is a Tensor with shape [texts.length, 384].
+        // .tolist() converts to nested JS arrays.
+        // eslint-disable-next-line @typescript-eslint/no-explicit-any
+        const nested = output.tolist();
+        return nested;
+    }
+    /**
+     * Embed a single text, returning a 384-dim number[].
+     */
+    async embedOne(text) {
+        const results = await this.embed([text]);
+        return results[0] ?? new Array(VECTOR_DIM).fill(0);
+    }
+}
+exports.EmbeddingService = EmbeddingService;
+//# sourceMappingURL=embedding-service.js.map

package/dist/embedding/embedding-service.js.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"embedding-service.js","sourceRoot":"","sources":["../../src/embedding/embedding-service.ts"],"names":[],"mappings":";AAAA;;;;;;;;;GASG;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;AAEH,iEAAiE;AACjE,MAAM,GAAG,GAAG,OAAO,CAAC,KAAK,CAAC,CAAC;AAE3B,MAAM,UAAU,GAAG,GAAG,CAAC;AAEvB,8DAA8D;AAC9D,IAAI,gBAAgB,GAAQ,IAAI,CAAC;AAEjC,KAAK,UAAU,WAAW;IACxB,IAAI,gBAAgB;QAAE,OAAO,gBAAgB,CAAC;IAE9C,MAAM,OAAO,GAAG,GAAG,CAAC;QAClB,IAAI,EAAE,uEAAuE;QAC7E,OAAO,EAAE,MAAM;KAChB,CAAC,CAAC,KAAK,EAAE,CAAC;IAEX,IAAI,CAAC;QACH,gFAAgF;QAChF,MAAM,EAAE,QAAQ,EAAE,GAAG,EAAE,GAAG,wDAAa,sBAAsB,GAAC,CAAC;QAE/D,gEAAgE;QAChE,GAAG,CAAC,gBAAgB,GAAG,IAAI,CAAC;QAC5B,GAAG,CAAC,eAAe,GAAG,KAAK,CAAC;QAE5B,gBAAgB,GAAG,MAAM,QAAQ,CAC/B,oBAAoB,EACpB,yBAAyB,EACzB,EAAE,SAAS,EAAE,IAAI,EAAE,CACpB,CAAC;QAEF,OAAO,CAAC,OAAO,CAAC,uBAAuB,CAAC,CAAC;QACzC,OAAO,gBAAgB,CAAC;IAC1B,CAAC;IAAC,OAAO,GAAG,EAAE,CAAC;QACb,OAAO,CAAC,IAAI,CAAC,gCAAgC,CAAC,CAAC;QAC/C,MAAM,GAAG,CAAC;IACZ,CAAC;AACH,CAAC;AAED,MAAa,gBAAgB;IAC3B;;;OAGG;IACH,KAAK,CAAC,KAAK,CAAC,KAAe;QACzB,IAAI,KAAK,CAAC,MAAM,KAAK,CAAC;YAAE,OAAO,EAAE,CAAC;QAElC,MAAM,IAAI,GAAG,MAAM,WAAW,EAAE,CAAC;QACjC,MAAM,MAAM,GAAG,MAAM,IAAI,CAAC,KAAK,EAAE,EAAE,OAAO,EAAE,MAAM,EAAE,SAAS,EAAE,IAAI,EAAE,CAAC,CAAC;QAEvE,qDAAqD;QACrD,0CAA0C;QAC1C,8DAA8D;QAC9D,MAAM,MAAM,GAAgB,MAAc,CAAC,MAAM,EAAE,CAAC;QACpD,OAAO,MAAM,CAAC;IAChB,CAAC;IAED;;OAEG;IACH,KAAK,CAAC,QAAQ,CAAC,IAAY;QACzB,MAAM,OAAO,GAAG,MAAM,IAAI,CAAC,KAAK,CAAC,CAAC,IAAI,CAAC,CAAC,CAAC;QACzC,OAAO,OAAO,CAAC,CAAC,CAAC,IAAI,IAAI,KAAK,CAAC,UAAU,CAAC,CAAC,IAAI,CAAC,CAAC,CAAC,CAAC;IACrD,CAAC;CACF;AAzBD,4CAyBC"}

package/dist/extractors/docx-extractor.d.ts ADDED Viewed

@@ -0,0 +1,12 @@
+import { Extractor, ExtractedChunk } from './extractor.interface';
+/**
+ * DOCX extractor using mammoth.
+ *
+ * mammoth.extractRawText() strips all formatting and returns clean plain text,
+ * which is ideal for embedding. Word documents don't have a reliable page-
+ * number concept in the file format, so page is left undefined.
+ */
+export declare class DocxExtractor implements Extractor {
+    extract(filePath: string): Promise<ExtractedChunk[]>;
+}
+//# sourceMappingURL=docx-extractor.d.ts.map

package/dist/extractors/docx-extractor.d.ts.map ADDED Viewed

	@@ -0,0 +1 @@
1	+ {"version":3,"file":"docx-extractor.d.ts","sourceRoot":"","sources":["../../src/extractors/docx-extractor.ts"],"names":[],"mappings":"AAAA,OAAO,EAAE,SAAS,EAAE,cAAc,EAAE,MAAM,uBAAuB,CAAC;AAElE;;;;;;GAMG;AACH,qBAAa,aAAc,YAAW,SAAS;IACvC,OAAO,CAAC,QAAQ,EAAE,MAAM,GAAG,OAAO,CAAC,cAAc,EAAE,CAAC;CAoB3D"}

package/dist/extractors/docx-extractor.js ADDED Viewed

@@ -0,0 +1,29 @@
+"use strict";
+Object.defineProperty(exports, "__esModule", { value: true });
+exports.DocxExtractor = void 0;
+/**
+ * DOCX extractor using mammoth.
+ *
+ * mammoth.extractRawText() strips all formatting and returns clean plain text,
+ * which is ideal for embedding. Word documents don't have a reliable page-
+ * number concept in the file format, so page is left undefined.
+ */
+class DocxExtractor {
+    async extract(filePath) {
+        // eslint-disable-next-line @typescript-eslint/no-require-imports
+        const mammoth = require('mammoth');
+        const result = await mammoth.extractRawText({ path: filePath });
+        if (result.messages && result.messages.length > 0) {
+            const errors = result.messages.filter((m) => m.type === 'error');
+            if (errors.length > 0) {
+                throw new Error(`DOCX extraction errors in ${filePath}: ${errors.map((e) => e.message).join(', ')}`);
+            }
+        }
+        const text = result.value.trim();
+        if (!text)
+            return [];
+        return [{ text }];
+    }
+}
+exports.DocxExtractor = DocxExtractor;
+//# sourceMappingURL=docx-extractor.js.map

package/dist/extractors/docx-extractor.js.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"docx-extractor.js","sourceRoot":"","sources":["../../src/extractors/docx-extractor.ts"],"names":[],"mappings":";;;AAEA;;;;;;GAMG;AACH,MAAa,aAAa;IACxB,KAAK,CAAC,OAAO,CAAC,QAAgB;QAC5B,iEAAiE;QACjE,MAAM,OAAO,GAAG,OAAO,CAAC,SAAS,CAAC,CAAC;QAEnC,MAAM,MAAM,GAAG,MAAM,OAAO,CAAC,cAAc,CAAC,EAAE,IAAI,EAAE,QAAQ,EAAE,CAAC,CAAC;QAEhE,IAAI,MAAM,CAAC,QAAQ,IAAI,MAAM,CAAC,QAAQ,CAAC,MAAM,GAAG,CAAC,EAAE,CAAC;YAClD,MAAM,MAAM,GAAG,MAAM,CAAC,QAAQ,CAAC,MAAM,CAAC,CAAC,CAAmB,EAAE,EAAE,CAAC,CAAC,CAAC,IAAI,KAAK,OAAO,CAAC,CAAC;YACnF,IAAI,MAAM,CAAC,MAAM,GAAG,CAAC,EAAE,CAAC;gBACtB,MAAM,IAAI,KAAK,CACb,6BAA6B,QAAQ,KAAK,MAAM,CAAC,GAAG,CAAC,CAAC,CAAsB,EAAE,EAAE,CAAC,CAAC,CAAC,OAAO,CAAC,CAAC,IAAI,CAAC,IAAI,CAAC,EAAE,CACzG,CAAC;YACJ,CAAC;QACH,CAAC;QAED,MAAM,IAAI,GAAI,MAAM,CAAC,KAAgB,CAAC,IAAI,EAAE,CAAC;QAC7C,IAAI,CAAC,IAAI;YAAE,OAAO,EAAE,CAAC;QAErB,OAAO,CAAC,EAAE,IAAI,EAAE,CAAC,CAAC;IACpB,CAAC;CACF;AArBD,sCAqBC"}

package/dist/extractors/extractor.interface.d.ts ADDED Viewed

@@ -0,0 +1,14 @@
+/** A unit of text extracted from a source document, optionally carrying a page number. */
+export interface ExtractedChunk {
+    text: string;
+    page?: number;
+}
+/** Common interface all file-type extractors must implement. */
+export interface Extractor {
+    extract(filePath: string): Promise<ExtractedChunk[]>;
+}
+export declare function isSupportedFile(filePath: string): boolean;
+export declare function getSupportedExtensions(): string[];
+/** Returns the appropriate extractor for a given file path, or null if unsupported. */
+export declare function getExtractor(filePath: string): Promise<Extractor | null>;
+//# sourceMappingURL=extractor.interface.d.ts.map

package/dist/extractors/extractor.interface.d.ts.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"extractor.interface.d.ts","sourceRoot":"","sources":["../../src/extractors/extractor.interface.ts"],"names":[],"mappings":"AAIA,0FAA0F;AAC1F,MAAM,WAAW,cAAc;IAC7B,IAAI,EAAE,MAAM,CAAC;IACb,IAAI,CAAC,EAAE,MAAM,CAAC;CACf;AAED,gEAAgE;AAChE,MAAM,WAAW,SAAS;IACxB,OAAO,CAAC,QAAQ,EAAE,MAAM,GAAG,OAAO,CAAC,cAAc,EAAE,CAAC,CAAC;CACtD;AAaD,wBAAgB,eAAe,CAAC,QAAQ,EAAE,MAAM,GAAG,OAAO,CAEzD;AAED,wBAAgB,sBAAsB,IAAI,MAAM,EAAE,CAEjD;AAED,uFAAuF;AACvF,wBAAsB,YAAY,CAAC,QAAQ,EAAE,MAAM,GAAG,OAAO,CAAC,SAAS,GAAG,IAAI,CAAC,CAK9E"}

package/dist/extractors/extractor.interface.js ADDED Viewed

@@ -0,0 +1,63 @@
+"use strict";
+var __createBinding = (this && this.__createBinding) || (Object.create ? (function(o, m, k, k2) {
+    if (k2 === undefined) k2 = k;
+    var desc = Object.getOwnPropertyDescriptor(m, k);
+    if (!desc || ("get" in desc ? !m.__esModule : desc.writable || desc.configurable)) {
+      desc = { enumerable: true, get: function() { return m[k]; } };
+    }
+    Object.defineProperty(o, k2, desc);
+}) : (function(o, m, k, k2) {
+    if (k2 === undefined) k2 = k;
+    o[k2] = m[k];
+}));
+var __setModuleDefault = (this && this.__setModuleDefault) || (Object.create ? (function(o, v) {
+    Object.defineProperty(o, "default", { enumerable: true, value: v });
+}) : function(o, v) {
+    o["default"] = v;
+});
+var __importStar = (this && this.__importStar) || (function () {
+    var ownKeys = function(o) {
+        ownKeys = Object.getOwnPropertyNames || function (o) {
+            var ar = [];
+            for (var k in o) if (Object.prototype.hasOwnProperty.call(o, k)) ar[ar.length] = k;
+            return ar;
+        };
+        return ownKeys(o);
+    };
+    return function (mod) {
+        if (mod && mod.__esModule) return mod;
+        var result = {};
+        if (mod != null) for (var k = ownKeys(mod), i = 0; i < k.length; i++) if (k[i] !== "default") __createBinding(result, mod, k[i]);
+        __setModuleDefault(result, mod);
+        return result;
+    };
+})();
+Object.defineProperty(exports, "__esModule", { value: true });
+exports.isSupportedFile = isSupportedFile;
+exports.getSupportedExtensions = getSupportedExtensions;
+exports.getExtractor = getExtractor;
+const path = __importStar(require("path"));
+// ── Supported extensions ─────────────────────────────────────────────────
+const SUPPORTED = {
+    '.txt': async () => { const { TextExtractor } = await Promise.resolve().then(() => __importStar(require('./text-extractor'))); return new TextExtractor(); },
+    '.md': async () => { const { TextExtractor } = await Promise.resolve().then(() => __importStar(require('./text-extractor'))); return new TextExtractor(); },
+    '.pdf': async () => { const { PdfExtractor } = await Promise.resolve().then(() => __importStar(require('./pdf-extractor'))); return new PdfExtractor(); },
+    '.docx': async () => { const { DocxExtractor } = await Promise.resolve().then(() => __importStar(require('./docx-extractor'))); return new DocxExtractor(); },
+    '.xlsx': async () => { const { XlsxExtractor } = await Promise.resolve().then(() => __importStar(require('./xlsx-extractor'))); return new XlsxExtractor(); },
+    '.pptx': async () => { const { PptxExtractor } = await Promise.resolve().then(() => __importStar(require('./pptx-extractor'))); return new PptxExtractor(); },
+};
+function isSupportedFile(filePath) {
+    return path.extname(filePath).toLowerCase() in SUPPORTED;
+}
+function getSupportedExtensions() {
+    return Object.keys(SUPPORTED);
+}
+/** Returns the appropriate extractor for a given file path, or null if unsupported. */
+async function getExtractor(filePath) {
+    const ext = path.extname(filePath).toLowerCase();
+    const factory = SUPPORTED[ext];
+    if (!factory)
+        return null;
+    return factory();
+}
+//# sourceMappingURL=extractor.interface.js.map

package/dist/extractors/extractor.interface.js.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"extractor.interface.js","sourceRoot":"","sources":["../../src/extractors/extractor.interface.ts"],"names":[],"mappings":";;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;AA0BA,0CAEC;AAED,wDAEC;AAGD,oCAKC;AAxCD,2CAA6B;AAe7B,4EAA4E;AAE5E,MAAM,SAAS,GAA6C;IAC1D,MAAM,EAAE,KAAK,IAAI,EAAE,GAAG,MAAM,EAAE,aAAa,EAAE,GAAG,wDAAa,kBAAkB,GAAC,CAAC,CAAC,OAAO,IAAI,aAAa,EAAE,CAAC,CAAC,CAAC;IAC/G,KAAK,EAAG,KAAK,IAAI,EAAE,GAAG,MAAM,EAAE,aAAa,EAAE,GAAG,wDAAa,kBAAkB,GAAC,CAAC,CAAC,OAAO,IAAI,aAAa,EAAE,CAAC,CAAC,CAAC;IAC/G,MAAM,EAAE,KAAK,IAAI,EAAE,GAAG,MAAM,EAAE,YAAY,EAAE,GAAI,wDAAa,iBAAiB,GAAC,CAAC,CAAE,OAAO,IAAI,YAAY,EAAE,CAAC,CAAE,CAAC;IAC/G,OAAO,EAAC,KAAK,IAAI,EAAE,GAAG,MAAM,EAAE,aAAa,EAAE,GAAG,wDAAa,kBAAkB,GAAC,CAAC,CAAC,OAAO,IAAI,aAAa,EAAE,CAAC,CAAC,CAAC;IAC/G,OAAO,EAAC,KAAK,IAAI,EAAE,GAAG,MAAM,EAAE,aAAa,EAAE,GAAG,wDAAa,kBAAkB,GAAC,CAAC,CAAC,OAAO,IAAI,aAAa,EAAE,CAAC,CAAC,CAAC;IAC/G,OAAO,EAAC,KAAK,IAAI,EAAE,GAAG,MAAM,EAAE,aAAa,EAAE,GAAG,wDAAa,kBAAkB,GAAC,CAAC,CAAC,OAAO,IAAI,aAAa,EAAE,CAAC,CAAC,CAAC;CAChH,CAAC;AAEF,SAAgB,eAAe,CAAC,QAAgB;IAC9C,OAAO,IAAI,CAAC,OAAO,CAAC,QAAQ,CAAC,CAAC,WAAW,EAAE,IAAI,SAAS,CAAC;AAC3D,CAAC;AAED,SAAgB,sBAAsB;IACpC,OAAO,MAAM,CAAC,IAAI,CAAC,SAAS,CAAC,CAAC;AAChC,CAAC;AAED,uFAAuF;AAChF,KAAK,UAAU,YAAY,CAAC,QAAgB;IACjD,MAAM,GAAG,GAAG,IAAI,CAAC,OAAO,CAAC,QAAQ,CAAC,CAAC,WAAW,EAAE,CAAC;IACjD,MAAM,OAAO,GAAG,SAAS,CAAC,GAAG,CAAC,CAAC;IAC/B,IAAI,CAAC,OAAO;QAAE,OAAO,IAAI,CAAC;IAC1B,OAAO,OAAO,EAAE,CAAC;AACnB,CAAC"}

package/dist/extractors/pdf-extractor.d.ts ADDED Viewed

@@ -0,0 +1,11 @@
+import { Extractor, ExtractedChunk } from './extractor.interface';
+/**
+ * PDF extractor using pdf-parse.
+ *
+ * Uses pdf-parse's pagerender hook to collect per-page text.
+ * Falls back to full-document text if per-page extraction fails.
+ */
+export declare class PdfExtractor implements Extractor {
+    extract(filePath: string): Promise<ExtractedChunk[]>;
+}
+//# sourceMappingURL=pdf-extractor.d.ts.map

package/dist/extractors/pdf-extractor.d.ts.map ADDED Viewed

	@@ -0,0 +1 @@
1	+ {"version":3,"file":"pdf-extractor.d.ts","sourceRoot":"","sources":["../../src/extractors/pdf-extractor.ts"],"names":[],"mappings":"AACA,OAAO,EAAE,SAAS,EAAE,cAAc,EAAE,MAAM,uBAAuB,CAAC;AAElE;;;;;GAKG;AACH,qBAAa,YAAa,YAAW,SAAS;IACtC,OAAO,CAAC,QAAQ,EAAE,MAAM,GAAG,OAAO,CAAC,cAAc,EAAE,CAAC;CA6C3D"}

package/dist/extractors/pdf-extractor.js ADDED Viewed

@@ -0,0 +1,89 @@
+"use strict";
+var __createBinding = (this && this.__createBinding) || (Object.create ? (function(o, m, k, k2) {
+    if (k2 === undefined) k2 = k;
+    var desc = Object.getOwnPropertyDescriptor(m, k);
+    if (!desc || ("get" in desc ? !m.__esModule : desc.writable || desc.configurable)) {
+      desc = { enumerable: true, get: function() { return m[k]; } };
+    }
+    Object.defineProperty(o, k2, desc);
+}) : (function(o, m, k, k2) {
+    if (k2 === undefined) k2 = k;
+    o[k2] = m[k];
+}));
+var __setModuleDefault = (this && this.__setModuleDefault) || (Object.create ? (function(o, v) {
+    Object.defineProperty(o, "default", { enumerable: true, value: v });
+}) : function(o, v) {
+    o["default"] = v;
+});
+var __importStar = (this && this.__importStar) || (function () {
+    var ownKeys = function(o) {
+        ownKeys = Object.getOwnPropertyNames || function (o) {
+            var ar = [];
+            for (var k in o) if (Object.prototype.hasOwnProperty.call(o, k)) ar[ar.length] = k;
+            return ar;
+        };
+        return ownKeys(o);
+    };
+    return function (mod) {
+        if (mod && mod.__esModule) return mod;
+        var result = {};
+        if (mod != null) for (var k = ownKeys(mod), i = 0; i < k.length; i++) if (k[i] !== "default") __createBinding(result, mod, k[i]);
+        __setModuleDefault(result, mod);
+        return result;
+    };
+})();
+Object.defineProperty(exports, "__esModule", { value: true });
+exports.PdfExtractor = void 0;
+const fs = __importStar(require("fs"));
+/**
+ * PDF extractor using pdf-parse.
+ *
+ * Uses pdf-parse's pagerender hook to collect per-page text.
+ * Falls back to full-document text if per-page extraction fails.
+ */
+class PdfExtractor {
+    async extract(filePath) {
+        // eslint-disable-next-line @typescript-eslint/no-require-imports
+        const pdfParse = require('pdf-parse');
+        const buffer = fs.readFileSync(filePath);
+        const pageTexts = [];
+        let pageIndex = 0;
+        try {
+            await pdfParse(buffer, {
+                // eslint-disable-next-line @typescript-eslint/no-explicit-any
+                pagerender: (pageData) => {
+                    const pageNum = ++pageIndex;
+                    return pageData
+                        .getTextContent()
+                        // eslint-disable-next-line @typescript-eslint/no-explicit-any
+                        .then((content) => {
+                        const text = content.items
+                            // eslint-disable-next-line @typescript-eslint/no-explicit-any
+                            .map((item) => item.str)
+                            .join(' ');
+                        pageTexts[pageNum - 1] = text;
+                        return text;
+                    })
+                        .catch(() => {
+                        pageTexts[pageNum - 1] = '';
+                        return '';
+                    });
+                },
+            });
+            const result = pageTexts
+                .map((text, idx) => ({ text: text.trim(), page: idx + 1 }))
+                .filter(c => c.text.length > 0);
+            return result.length > 0 ? result : [];
+        }
+        catch (err) {
+            const msg = err instanceof Error ? err.message : String(err);
+            // Surface common failure modes
+            if (msg.includes('encrypted') || msg.includes('password')) {
+                throw new Error(`PDF is encrypted/password-protected: ${filePath}`);
+            }
+            throw new Error(`Failed to parse PDF ${filePath}: ${msg}`);
+        }
+    }
+}
+exports.PdfExtractor = PdfExtractor;
+//# sourceMappingURL=pdf-extractor.js.map

package/dist/extractors/pdf-extractor.js.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"pdf-extractor.js","sourceRoot":"","sources":["../../src/extractors/pdf-extractor.ts"],"names":[],"mappings":";;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;AAAA,uCAAyB;AAGzB;;;;;GAKG;AACH,MAAa,YAAY;IACvB,KAAK,CAAC,OAAO,CAAC,QAAgB;QAC5B,iEAAiE;QACjE,MAAM,QAAQ,GAAG,OAAO,CAAC,WAAW,CAAC,CAAC;QAEtC,MAAM,MAAM,GAAG,EAAE,CAAC,YAAY,CAAC,QAAQ,CAAC,CAAC;QACzC,MAAM,SAAS,GAAa,EAAE,CAAC;QAC/B,IAAI,SAAS,GAAG,CAAC,CAAC;QAElB,IAAI,CAAC;YACH,MAAM,QAAQ,CAAC,MAAM,EAAE;gBACrB,8DAA8D;gBAC9D,UAAU,EAAE,CAAC,QAAa,EAAmB,EAAE;oBAC7C,MAAM,OAAO,GAAG,EAAE,SAAS,CAAC;oBAC5B,OAAO,QAAQ;yBACZ,cAAc,EAAE;wBACjB,8DAA8D;yBAC7D,IAAI,CAAC,CAAC,OAAY,EAAE,EAAE;wBACrB,MAAM,IAAI,GAAW,OAAO,CAAC,KAAK;4BAChC,8DAA8D;6BAC7D,GAAG,CAAC,CAAC,IAAS,EAAE,EAAE,CAAC,IAAI,CAAC,GAAa,CAAC;6BACtC,IAAI,CAAC,GAAG,CAAC,CAAC;wBACb,SAAS,CAAC,OAAO,GAAG,CAAC,CAAC,GAAG,IAAI,CAAC;wBAC9B,OAAO,IAAI,CAAC;oBACd,CAAC,CAAC;yBACD,KAAK,CAAC,GAAG,EAAE;wBACV,SAAS,CAAC,OAAO,GAAG,CAAC,CAAC,GAAG,EAAE,CAAC;wBAC5B,OAAO,EAAE,CAAC;oBACZ,CAAC,CAAC,CAAC;gBACP,CAAC;aACF,CAAC,CAAC;YAEH,MAAM,MAAM,GAAqB,SAAS;iBACvC,GAAG,CAAC,CAAC,IAAI,EAAE,GAAG,EAAE,EAAE,CAAC,CAAC,EAAE,IAAI,EAAE,IAAI,CAAC,IAAI,EAAE,EAAE,IAAI,EAAE,GAAG,GAAG,CAAC,EAAE,CAAC,CAAC;iBAC1D,MAAM,CAAC,CAAC,CAAC,EAAE,CAAC,CAAC,CAAC,IAAI,CAAC,MAAM,GAAG,CAAC,CAAC,CAAC;YAElC,OAAO,MAAM,CAAC,MAAM,GAAG,CAAC,CAAC,CAAC,CAAC,MAAM,CAAC,CAAC,CAAC,EAAE,CAAC;QACzC,CAAC;QAAC,OAAO,GAAY,EAAE,CAAC;YACtB,MAAM,GAAG,GAAG,GAAG,YAAY,KAAK,CAAC,CAAC,CAAC,GAAG,CAAC,OAAO,CAAC,CAAC,CAAC,MAAM,CAAC,GAAG,CAAC,CAAC;YAC7D,+BAA+B;YAC/B,IAAI,GAAG,CAAC,QAAQ,CAAC,WAAW,CAAC,IAAI,GAAG,CAAC,QAAQ,CAAC,UAAU,CAAC,EAAE,CAAC;gBAC1D,MAAM,IAAI,KAAK,CAAC,wCAAwC,QAAQ,EAAE,CAAC,CAAC;YACtE,CAAC;YACD,MAAM,IAAI,KAAK,CAAC,uBAAuB,QAAQ,KAAK,GAAG,EAAE,CAAC,CAAC;QAC7D,CAAC;IACH,CAAC;CACF;AA9CD,oCA8CC"}

package/dist/extractors/pptx-extractor.d.ts ADDED Viewed

@@ -0,0 +1,12 @@
+import { Extractor, ExtractedChunk } from './extractor.interface';
+/**
+ * PPTX extractor.
+ *
+ * PPTX files are ZIP archives whose slides live at ppt/slides/slideN.xml.
+ * We unzip the file with adm-zip and extract all <a:t> text nodes from
+ * each slide's XML using fast-xml-parser, treating each slide as a page.
+ */
+export declare class PptxExtractor implements Extractor {
+    extract(filePath: string): Promise<ExtractedChunk[]>;
+}
+//# sourceMappingURL=pptx-extractor.d.ts.map

package/dist/extractors/pptx-extractor.d.ts.map ADDED Viewed

	@@ -0,0 +1 @@
1	+ {"version":3,"file":"pptx-extractor.d.ts","sourceRoot":"","sources":["../../src/extractors/pptx-extractor.ts"],"names":[],"mappings":"AAAA,OAAO,EAAE,SAAS,EAAE,cAAc,EAAE,MAAM,uBAAuB,CAAC;AAElE;;;;;;GAMG;AACH,qBAAa,aAAc,YAAW,SAAS;IACvC,OAAO,CAAC,QAAQ,EAAE,MAAM,GAAG,OAAO,CAAC,cAAc,EAAE,CAAC;CAgD3D"}

package/dist/extractors/pptx-extractor.js ADDED Viewed

@@ -0,0 +1,98 @@
+"use strict";
+Object.defineProperty(exports, "__esModule", { value: true });
+exports.PptxExtractor = void 0;
+/**
+ * PPTX extractor.
+ *
+ * PPTX files are ZIP archives whose slides live at ppt/slides/slideN.xml.
+ * We unzip the file with adm-zip and extract all <a:t> text nodes from
+ * each slide's XML using fast-xml-parser, treating each slide as a page.
+ */
+class PptxExtractor {
+    async extract(filePath) {
+        // eslint-disable-next-line @typescript-eslint/no-require-imports
+        const AdmZip = require('adm-zip');
+        // eslint-disable-next-line @typescript-eslint/no-require-imports
+        const { XMLParser } = require('fast-xml-parser');
+        const zip = new AdmZip(filePath);
+        const parser = new XMLParser({
+            ignoreAttributes: true,
+            parseTagValue: true,
+            parseAttributeValue: false,
+            trimValues: true,
+        });
+        // Collect slide entries sorted by slide number
+        const entries = zip
+            .getEntries()
+            .filter((e) => /^ppt\/slides\/slide(\d+)\.xml$/.test(e.entryName))
+            .map((e) => {
+            const m = e.entryName.match(/slide(\d+)\.xml$/);
+            return { name: e.entryName, index: m ? parseInt(m[1], 10) : 0 };
+        })
+            .sort((a, b) => a.index - b.index);
+        const chunks = [];
+        for (const { name, index } of entries) {
+            const entry = zip.getEntry(name);
+            if (!entry)
+                continue;
+            const xml = entry.getData().toString('utf-8');
+            let parsed;
+            try {
+                parsed = parser.parse(xml);
+            }
+            catch {
+                continue; // skip malformed slides
+            }
+            const textParts = collectTag(parsed, 'a:t');
+            const text = textParts.join(' ').replace(/\s+/g, ' ').trim();
+            if (text.length > 0) {
+                chunks.push({ text, page: index });
+            }
+        }
+        return chunks;
+    }
+}
+exports.PptxExtractor = PptxExtractor;
+// ── Helpers ───────────────────────────────────────────────────────────────
+/**
+ * Recursively collect all values of a given XML tag name from a parsed object.
+ */
+function collectTag(node, tag) {
+    if (node === null || node === undefined)
+        return [];
+    if (typeof node === 'string')
+        return [];
+    if (typeof node === 'number' || typeof node === 'boolean')
+        return [];
+    if (Array.isArray(node)) {
+        return node.flatMap(item => collectTag(item, tag));
+    }
+    if (typeof node === 'object') {
+        const results = [];
+        for (const [key, value] of Object.entries(node)) {
+            if (key === tag) {
+                if (typeof value === 'string')
+                    results.push(value);
+                else if (typeof value === 'number')
+                    results.push(String(value));
+                else if (Array.isArray(value)) {
+                    for (const v of value) {
+                        if (typeof v === 'string')
+                            results.push(v);
+                        else
+                            results.push(...collectTag(v, tag));
+                    }
+                }
+                else {
+                    results.push(...collectTag(value, tag));
+                }
+            }
+            else {
+                results.push(...collectTag(value, tag));
+            }
+        }
+        return results;
+    }
+    return [];
+}
+//# sourceMappingURL=pptx-extractor.js.map

package/dist/extractors/pptx-extractor.js.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"pptx-extractor.js","sourceRoot":"","sources":["../../src/extractors/pptx-extractor.ts"],"names":[],"mappings":";;;AAEA;;;;;;GAMG;AACH,MAAa,aAAa;IACxB,KAAK,CAAC,OAAO,CAAC,QAAgB;QAC5B,iEAAiE;QACjE,MAAM,MAAM,GAAG,OAAO,CAAC,SAAS,CAAC,CAAC;QAClC,iEAAiE;QACjE,MAAM,EAAE,SAAS,EAAE,GAAG,OAAO,CAAC,iBAAiB,CAAC,CAAC;QAEjD,MAAM,GAAG,GAAG,IAAI,MAAM,CAAC,QAAQ,CAAC,CAAC;QACjC,MAAM,MAAM,GAAG,IAAI,SAAS,CAAC;YAC3B,gBAAgB,EAAE,IAAI;YACtB,aAAa,EAAE,IAAI;YACnB,mBAAmB,EAAE,KAAK;YAC1B,UAAU,EAAE,IAAI;SACjB,CAAC,CAAC;QAEH,+CAA+C;QAC/C,MAAM,OAAO,GAA2C,GAAG;aACxD,UAAU,EAAE;aACZ,MAAM,CAAC,CAAC,CAAwB,EAAE,EAAE,CAAC,gCAAgC,CAAC,IAAI,CAAC,CAAC,CAAC,SAAS,CAAC,CAAC;aACxF,GAAG,CAAC,CAAC,CAAwB,EAAE,EAAE;YAChC,MAAM,CAAC,GAAG,CAAC,CAAC,SAAS,CAAC,KAAK,CAAC,kBAAkB,CAAC,CAAC;YAChD,OAAO,EAAE,IAAI,EAAE,CAAC,CAAC,SAAS,EAAE,KAAK,EAAE,CAAC,CAAC,CAAC,CAAC,QAAQ,CAAC,CAAC,CAAC,CAAC,CAAC,EAAE,EAAE,CAAC,CAAC,CAAC,CAAC,CAAC,EAAE,CAAC;QAClE,CAAC,CAAC;aACD,IAAI,CAAC,CAAC,CAAoB,EAAE,CAAoB,EAAE,EAAE,CAAC,CAAC,CAAC,KAAK,GAAG,CAAC,CAAC,KAAK,CAAC,CAAC;QAE3E,MAAM,MAAM,GAAqB,EAAE,CAAC;QAEpC,KAAK,MAAM,EAAE,IAAI,EAAE,KAAK,EAAE,IAAI,OAAO,EAAE,CAAC;YACtC,MAAM,KAAK,GAAG,GAAG,CAAC,QAAQ,CAAC,IAAI,CAAC,CAAC;YACjC,IAAI,CAAC,KAAK;gBAAE,SAAS;YAErB,MAAM,GAAG,GAAW,KAAK,CAAC,OAAO,EAAE,CAAC,QAAQ,CAAC,OAAO,CAAC,CAAC;YACtD,IAAI,MAAe,CAAC;YACpB,IAAI,CAAC;gBACH,MAAM,GAAG,MAAM,CAAC,KAAK,CAAC,GAAG,CAAC,CAAC;YAC7B,CAAC;YAAC,MAAM,CAAC;gBACP,SAAS,CAAC,wBAAwB;YACpC,CAAC;YAED,MAAM,SAAS,GAAG,UAAU,CAAC,MAAM,EAAE,KAAK,CAAC,CAAC;YAC5C,MAAM,IAAI,GAAG,SAAS,CAAC,IAAI,CAAC,GAAG,CAAC,CAAC,OAAO,CAAC,MAAM,EAAE,GAAG,CAAC,CAAC,IAAI,EAAE,CAAC;YAE7D,IAAI,IAAI,CAAC,MAAM,GAAG,CAAC,EAAE,CAAC;gBACpB,MAAM,CAAC,IAAI,CAAC,EAAE,IAAI,EAAE,IAAI,EAAE,KAAK,EAAE,CAAC,CAAC;YACrC,CAAC;QACH,CAAC;QAED,OAAO,MAAM,CAAC;IAChB,CAAC;CACF;AAjDD,sCAiDC;AAED,6EAA6E;AAE7E;;GAEG;AACH,SAAS,UAAU,CAAC,IAAa,EAAE,GAAW;IAC5C,IAAI,IAAI,KAAK,IAAI,IAAI,IAAI,KAAK,SAAS;QAAE,OAAO,EAAE,CAAC;IACnD,IAAI,OAAO,IAAI,KAAK,QAAQ;QAAE,OAAO,EAAE,CAAC;IACxC,IAAI,OAAO,IAAI,KAAK,QAAQ,IAAI,OAAO,IAAI,KAAK,SAAS;QAAE,OAAO,EAAE,CAAC;IAErE,IAAI,KAAK,CAAC,OAAO,CAAC,IAAI,CAAC,EAAE,CAAC;QACxB,OAAO,IAAI,CAAC,OAAO,CAAC,IAAI,CAAC,EAAE,CAAC,UAAU,CAAC,IAAI,EAAE,GAAG,CAAC,CAAC,CAAC;IACrD,CAAC;IAED,IAAI,OAAO,IAAI,KAAK,QAAQ,EAAE,CAAC;QAC7B,MAAM,OAAO,GAAa,EAAE,CAAC;QAC7B,KAAK,MAAM,CAAC,GAAG,EAAE,KAAK,CAAC,IAAI,MAAM,CAAC,OAAO,CAAC,IAA+B,CAAC,EAAE,CAAC;YAC3E,IAAI,GAAG,KAAK,GAAG,EAAE,CAAC;gBAChB,IAAI,OAAO,KAAK,KAAK,QAAQ;oBAAE,OAAO,CAAC,IAAI,CAAC,KAAK,CAAC,CAAC;qBAC9C,IAAI,OAAO,KAAK,KAAK,QAAQ;oBAAE,OAAO,CAAC,IAAI,CAAC,MAAM,CAAC,KAAK,CAAC,CAAC,CAAC;qBAC3D,IAAI,KAAK,CAAC,OAAO,CAAC,KAAK,CAAC,EAAE,CAAC;oBAC9B,KAAK,MAAM,CAAC,IAAI,KAAK,EAAE,CAAC;wBACtB,IAAI,OAAO,CAAC,KAAK,QAAQ;4BAAE,OAAO,CAAC,IAAI,CAAC,CAAC,CAAC,CAAC;;4BACtC,OAAO,CAAC,IAAI,CAAC,GAAG,UAAU,CAAC,CAAC,EAAE,GAAG,CAAC,CAAC,CAAC;oBAC3C,CAAC;gBACH,CAAC;qBAAM,CAAC;oBACN,OAAO,CAAC,IAAI,CAAC,GAAG,UAAU,CAAC,KAAK,EAAE,GAAG,CAAC,CAAC,CAAC;gBAC1C,CAAC;YACH,CAAC;iBAAM,CAAC;gBACN,OAAO,CAAC,IAAI,CAAC,GAAG,UAAU,CAAC,KAAK,EAAE,GAAG,CAAC,CAAC,CAAC;YAC1C,CAAC;QACH,CAAC;QACD,OAAO,OAAO,CAAC;IACjB,CAAC;IAED,OAAO,EAAE,CAAC;AACZ,CAAC"}

package/dist/extractors/text-extractor.d.ts ADDED Viewed

@@ -0,0 +1,10 @@
+import { Extractor, ExtractedChunk } from './extractor.interface';
+/**
+ * Plain-text extractor for .txt and .md files.
+ * Returns the entire file content as a single chunk (the chunking service
+ * will split it into appropriately sized pieces).
+ */
+export declare class TextExtractor implements Extractor {
+    extract(filePath: string): Promise<ExtractedChunk[]>;
+}
+//# sourceMappingURL=text-extractor.d.ts.map

package/dist/extractors/text-extractor.d.ts.map ADDED Viewed

	@@ -0,0 +1 @@
1	+ {"version":3,"file":"text-extractor.d.ts","sourceRoot":"","sources":["../../src/extractors/text-extractor.ts"],"names":[],"mappings":"AACA,OAAO,EAAE,SAAS,EAAE,cAAc,EAAE,MAAM,uBAAuB,CAAC;AAElE;;;;GAIG;AACH,qBAAa,aAAc,YAAW,SAAS;IACvC,OAAO,CAAC,QAAQ,EAAE,MAAM,GAAG,OAAO,CAAC,cAAc,EAAE,CAAC;CAK3D"}

package/dist/extractors/text-extractor.js ADDED Viewed

@@ -0,0 +1,52 @@
+"use strict";
+var __createBinding = (this && this.__createBinding) || (Object.create ? (function(o, m, k, k2) {
+    if (k2 === undefined) k2 = k;
+    var desc = Object.getOwnPropertyDescriptor(m, k);
+    if (!desc || ("get" in desc ? !m.__esModule : desc.writable || desc.configurable)) {
+      desc = { enumerable: true, get: function() { return m[k]; } };
+    }
+    Object.defineProperty(o, k2, desc);
+}) : (function(o, m, k, k2) {
+    if (k2 === undefined) k2 = k;
+    o[k2] = m[k];
+}));
+var __setModuleDefault = (this && this.__setModuleDefault) || (Object.create ? (function(o, v) {
+    Object.defineProperty(o, "default", { enumerable: true, value: v });
+}) : function(o, v) {
+    o["default"] = v;
+});
+var __importStar = (this && this.__importStar) || (function () {
+    var ownKeys = function(o) {
+        ownKeys = Object.getOwnPropertyNames || function (o) {
+            var ar = [];
+            for (var k in o) if (Object.prototype.hasOwnProperty.call(o, k)) ar[ar.length] = k;
+            return ar;
+        };
+        return ownKeys(o);
+    };
+    return function (mod) {
+        if (mod && mod.__esModule) return mod;
+        var result = {};
+        if (mod != null) for (var k = ownKeys(mod), i = 0; i < k.length; i++) if (k[i] !== "default") __createBinding(result, mod, k[i]);
+        __setModuleDefault(result, mod);
+        return result;
+    };
+})();
+Object.defineProperty(exports, "__esModule", { value: true });
+exports.TextExtractor = void 0;
+const fs = __importStar(require("fs"));
+/**
+ * Plain-text extractor for .txt and .md files.
+ * Returns the entire file content as a single chunk (the chunking service
+ * will split it into appropriately sized pieces).
+ */
+class TextExtractor {
+    async extract(filePath) {
+        const text = fs.readFileSync(filePath, 'utf-8');
+        if (!text.trim())
+            return [];
+        return [{ text }];
+    }
+}
+exports.TextExtractor = TextExtractor;
+//# sourceMappingURL=text-extractor.js.map

package/dist/extractors/text-extractor.js.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"text-extractor.js","sourceRoot":"","sources":["../../src/extractors/text-extractor.ts"],"names":[],"mappings":";;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;AAAA,uCAAyB;AAGzB;;;;GAIG;AACH,MAAa,aAAa;IACxB,KAAK,CAAC,OAAO,CAAC,QAAgB;QAC5B,MAAM,IAAI,GAAG,EAAE,CAAC,YAAY,CAAC,QAAQ,EAAE,OAAO,CAAC,CAAC;QAChD,IAAI,CAAC,IAAI,CAAC,IAAI,EAAE;YAAE,OAAO,EAAE,CAAC;QAC5B,OAAO,CAAC,EAAE,IAAI,EAAE,CAAC,CAAC;IACpB,CAAC;CACF;AAND,sCAMC"}

package/dist/extractors/xlsx-extractor.d.ts ADDED Viewed

@@ -0,0 +1,11 @@
+import { Extractor, ExtractedChunk } from './extractor.interface';
+/**
+ * XLSX extractor using the xlsx (SheetJS) package.
+ *
+ * Each worksheet is treated as a separate "page". The sheet content is
+ * serialised to CSV which captures all cell values in a readable format.
+ */
+export declare class XlsxExtractor implements Extractor {
+    extract(filePath: string): Promise<ExtractedChunk[]>;
+}
+//# sourceMappingURL=xlsx-extractor.d.ts.map

package/dist/extractors/xlsx-extractor.d.ts.map ADDED Viewed

	@@ -0,0 +1 @@
1	+ {"version":3,"file":"xlsx-extractor.d.ts","sourceRoot":"","sources":["../../src/extractors/xlsx-extractor.ts"],"names":[],"mappings":"AAAA,OAAO,EAAE,SAAS,EAAE,cAAc,EAAE,MAAM,uBAAuB,CAAC;AAElE;;;;;GAKG;AACH,qBAAa,aAAc,YAAW,SAAS;IACvC,OAAO,CAAC,QAAQ,EAAE,MAAM,GAAG,OAAO,CAAC,cAAc,EAAE,CAAC;CAkB3D"}

package/dist/extractors/xlsx-extractor.js ADDED Viewed

@@ -0,0 +1,28 @@
+"use strict";
+Object.defineProperty(exports, "__esModule", { value: true });
+exports.XlsxExtractor = void 0;
+/**
+ * XLSX extractor using the xlsx (SheetJS) package.
+ *
+ * Each worksheet is treated as a separate "page". The sheet content is
+ * serialised to CSV which captures all cell values in a readable format.
+ */
+class XlsxExtractor {
+    async extract(filePath) {
+        // eslint-disable-next-line @typescript-eslint/no-require-imports
+        const XLSX = require('xlsx');
+        const workbook = XLSX.readFile(filePath, { type: 'file', cellText: true });
+        const chunks = [];
+        workbook.SheetNames.forEach((sheetName, idx) => {
+            const sheet = workbook.Sheets[sheetName];
+            const csv = XLSX.utils.sheet_to_csv(sheet, { strip: true });
+            const text = `Sheet: ${sheetName}\n${csv}`.trim();
+            if (text.length > 0) {
+                chunks.push({ text, page: idx + 1 });
+            }
+        });
+        return chunks;
+    }
+}
+exports.XlsxExtractor = XlsxExtractor;
+//# sourceMappingURL=xlsx-extractor.js.map

package/dist/extractors/xlsx-extractor.js.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"xlsx-extractor.js","sourceRoot":"","sources":["../../src/extractors/xlsx-extractor.ts"],"names":[],"mappings":";;;AAEA;;;;;GAKG;AACH,MAAa,aAAa;IACxB,KAAK,CAAC,OAAO,CAAC,QAAgB;QAC5B,iEAAiE;QACjE,MAAM,IAAI,GAAG,OAAO,CAAC,MAAM,CAAC,CAAC;QAE7B,MAAM,QAAQ,GAAG,IAAI,CAAC,QAAQ,CAAC,QAAQ,EAAE,EAAE,IAAI,EAAE,MAAM,EAAE,QAAQ,EAAE,IAAI,EAAE,CAAC,CAAC;QAC3E,MAAM,MAAM,GAAqB,EAAE,CAAC;QAEpC,QAAQ,CAAC,UAAU,CAAC,OAAO,CAAC,CAAC,SAAiB,EAAE,GAAW,EAAE,EAAE;YAC7D,MAAM,KAAK,GAAG,QAAQ,CAAC,MAAM,CAAC,SAAS,CAAC,CAAC;YACzC,MAAM,GAAG,GAAW,IAAI,CAAC,KAAK,CAAC,YAAY,CAAC,KAAK,EAAE,EAAE,KAAK,EAAE,IAAI,EAAE,CAAC,CAAC;YACpE,MAAM,IAAI,GAAG,UAAU,SAAS,KAAK,GAAG,EAAE,CAAC,IAAI,EAAE,CAAC;YAClD,IAAI,IAAI,CAAC,MAAM,GAAG,CAAC,EAAE,CAAC;gBACpB,MAAM,CAAC,IAAI,CAAC,EAAE,IAAI,EAAE,IAAI,EAAE,GAAG,GAAG,CAAC,EAAE,CAAC,CAAC;YACvC,CAAC;QACH,CAAC,CAAC,CAAC;QAEH,OAAO,MAAM,CAAC;IAChB,CAAC;CACF;AAnBD,sCAmBC"}