npm - @gridstorm/pdf-plugin-text - Versions diffs - 0.1.2 - Mend

@gridstorm/pdf-plugin-text 0.1.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (8) hide show

package/README.md ADDED Viewed

@@ -0,0 +1,32 @@
+# @gridstorm/pdf-plugin-text
+PDF text extraction and full-text search.
+## Install
+```bash
+npm install @gridstorm/pdf-plugin-text
+```
+## Usage
+```typescript
+import { TextPlugin } from '@gridstorm/pdf-plugin-text';
+const pdf = createPDFEngine({ plugins: [TextPlugin()] });
+```
+## Features
+- **Full text extraction**
+- **Search with highlighting**
+- **Page and document-level search**
+- **Regex support**
+## Documentation
+[Full Documentation](https://grid-data-analytics-explorer.vercel.app/) | [GitHub](https://github.com/007krcs/grid-data)
+## License
+MIT

package/dist/index.cjs ADDED Viewed

@@ -0,0 +1,407 @@
+'use strict';
+// src/text-extractor.ts
+var DEFAULT_WORD_SPACING = 3;
+var DEFAULT_LINE_SPACING = 5;
+var TextExtractor = class {
+  constructor(config = {}) {
+    this.wordSpacingThreshold = config.wordSpacingThreshold ?? DEFAULT_WORD_SPACING;
+    this.lineSpacingThreshold = config.lineSpacingThreshold ?? DEFAULT_LINE_SPACING;
+  }
+  /** Extract text content from raw text items.
+   *  In Phase 2 this will accept pdf.js TextItem[]; for now it works with PdfCharInfo[]. */
+  extract(chars, _page) {
+    if (chars.length === 0) {
+      return { chars, words: [], lines: [] };
+    }
+    const words = this.segmentWords(chars);
+    const lines = this.segmentLines(words, chars);
+    return { chars, words, lines };
+  }
+  /** Build PdfCharInfo from a simple text string (for testing/placeholder). */
+  buildCharsFromString(text, startX, startY, fontSize, fontName = "Helvetica") {
+    const chars = [];
+    let x = startX;
+    const charWidth = fontSize * 0.6;
+    for (let i = 0; i < text.length; i++) {
+      const char = text[i];
+      const rect = [x, startY, x + charWidth, startY + fontSize];
+      chars.push({
+        char,
+        rect,
+        fontName,
+        fontSize,
+        transform: [fontSize, 0, 0, fontSize, x, startY]
+      });
+      x += charWidth;
+    }
+    return chars;
+  }
+  /** Segment characters into words based on spacing. */
+  segmentWords(chars) {
+    if (chars.length === 0) return [];
+    const words = [];
+    let wordStart = 0;
+    let wordChars = [chars[0]];
+    for (let i = 1; i < chars.length; i++) {
+      const prev = chars[i - 1];
+      const curr = chars[i];
+      const gap = curr.rect[0] - prev.rect[2];
+      const isSpace = curr.char === " " || prev.char === " ";
+      const isNewLine = Math.abs(curr.rect[1] - prev.rect[1]) > this.lineSpacingThreshold;
+      const isWordBreak = gap > this.wordSpacingThreshold || isSpace || isNewLine;
+      if (isWordBreak) {
+        const text = wordChars.map((c) => c.char).join("").trim();
+        if (text.length > 0) {
+          words.push({
+            text,
+            rect: this.boundingRect(wordChars),
+            charIndices: [wordStart, wordStart + wordChars.length - 1]
+          });
+        }
+        if (curr.char !== " ") {
+          wordStart = i;
+          wordChars = [curr];
+        } else {
+          wordStart = i + 1;
+          wordChars = [];
+        }
+      } else {
+        wordChars.push(curr);
+      }
+    }
+    if (wordChars.length > 0) {
+      const text = wordChars.map((c) => c.char).join("").trim();
+      if (text.length > 0) {
+        words.push({
+          text,
+          rect: this.boundingRect(wordChars),
+          charIndices: [wordStart, wordStart + wordChars.length - 1]
+        });
+      }
+    }
+    return words;
+  }
+  /** Segment words into lines based on vertical position. */
+  segmentLines(words, _chars) {
+    if (words.length === 0) return [];
+    const lines = [];
+    let lineStart = 0;
+    let lineWords = [words[0]];
+    let lineY = words[0].rect[1];
+    for (let i = 1; i < words.length; i++) {
+      const word = words[i];
+      const yDiff = Math.abs(word.rect[1] - lineY);
+      if (yDiff > this.lineSpacingThreshold) {
+        lines.push(this.createLine(lineWords, lineStart));
+        lineStart = i;
+        lineWords = [word];
+        lineY = word.rect[1];
+      } else {
+        lineWords.push(word);
+      }
+    }
+    if (lineWords.length > 0) {
+      lines.push(this.createLine(lineWords, lineStart));
+    }
+    return lines;
+  }
+  createLine(words, startIndex) {
+    const text = words.map((w) => w.text).join(" ");
+    const rects = words.map((w) => w.rect);
+    const rect = [
+      Math.min(...rects.map((r) => r[0])),
+      Math.min(...rects.map((r) => r[1])),
+      Math.max(...rects.map((r) => r[2])),
+      Math.max(...rects.map((r) => r[3]))
+    ];
+    return {
+      text,
+      rect,
+      wordIndices: [startIndex, startIndex + words.length - 1]
+    };
+  }
+  /** Compute bounding rect for a set of characters. */
+  boundingRect(chars) {
+    let minX = Infinity, minY = Infinity, maxX = -Infinity, maxY = -Infinity;
+    for (const c of chars) {
+      if (c.rect[0] < minX) minX = c.rect[0];
+      if (c.rect[1] < minY) minY = c.rect[1];
+      if (c.rect[2] > maxX) maxX = c.rect[2];
+      if (c.rect[3] > maxY) maxY = c.rect[3];
+    }
+    return [minX, minY, maxX, maxY];
+  }
+};
+// src/search-engine.ts
+var SearchEngine = class {
+  constructor() {
+    this.textContents = /* @__PURE__ */ new Map();
+    this.lastResult = {
+      matches: [],
+      totalCount: 0,
+      activeIndex: -1
+    };
+  }
+  /** Set the text content for a page. */
+  setPageTextContent(pageIndex, textContent) {
+    this.textContents.set(pageIndex, textContent);
+  }
+  /** Clear text content for a page. */
+  clearPageTextContent(pageIndex) {
+    this.textContents.delete(pageIndex);
+  }
+  /** Clear all cached text content. */
+  clearAll() {
+    this.textContents.clear();
+    this.lastResult = { matches: [], totalCount: 0, activeIndex: -1 };
+  }
+  /** Search for a query across all loaded pages. */
+  search(query, options = {}) {
+    if (!query) {
+      this.lastResult = { matches: [], totalCount: 0, activeIndex: -1 };
+      return this.lastResult;
+    }
+    const matches = [];
+    const sortedPages = [...this.textContents.entries()].sort(
+      ([a], [b]) => a - b
+    );
+    for (const [pageIndex, textContent] of sortedPages) {
+      const pageMatches = this.searchPage(
+        pageIndex,
+        textContent,
+        query,
+        options
+      );
+      matches.push(...pageMatches);
+    }
+    this.lastResult = {
+      matches,
+      totalCount: matches.length,
+      activeIndex: matches.length > 0 ? 0 : -1
+    };
+    return this.lastResult;
+  }
+  /** Navigate to the next search match. */
+  nextMatch() {
+    if (this.lastResult.totalCount === 0) return null;
+    this.lastResult.activeIndex = (this.lastResult.activeIndex + 1) % this.lastResult.totalCount;
+    return this.lastResult.matches[this.lastResult.activeIndex] ?? null;
+  }
+  /** Navigate to the previous search match. */
+  prevMatch() {
+    if (this.lastResult.totalCount === 0) return null;
+    this.lastResult.activeIndex = (this.lastResult.activeIndex - 1 + this.lastResult.totalCount) % this.lastResult.totalCount;
+    return this.lastResult.matches[this.lastResult.activeIndex] ?? null;
+  }
+  /** Get the current active match. */
+  getActiveMatch() {
+    if (this.lastResult.activeIndex < 0 || this.lastResult.activeIndex >= this.lastResult.totalCount) {
+      return null;
+    }
+    return this.lastResult.matches[this.lastResult.activeIndex] ?? null;
+  }
+  /** Get the last search result. */
+  getLastResult() {
+    return this.lastResult;
+  }
+  searchPage(pageIndex, textContent, query, options) {
+    const matches = [];
+    const fullText = textContent.lines.map((l) => l.text).join("\n");
+    let pattern;
+    try {
+      if (options.regex) {
+        const flags = options.caseSensitive ? "g" : "gi";
+        pattern = new RegExp(query, flags);
+      } else {
+        const escaped = query.replace(/[.*+?^${}()|[\]\\]/g, "\\$&");
+        const flags = options.caseSensitive ? "g" : "gi";
+        const word = options.wholeWord ? `\\b${escaped}\\b` : escaped;
+        pattern = new RegExp(word, flags);
+      }
+    } catch {
+      return matches;
+    }
+    let match;
+    while ((match = pattern.exec(fullText)) !== null) {
+      const matchText = match[0];
+      const matchStart = match.index;
+      const matchEnd = matchStart + matchText.length;
+      const rects = this.findMatchRects(textContent, matchStart, matchEnd);
+      matches.push({
+        pageIndex,
+        charStart: matchStart,
+        charEnd: matchEnd,
+        rects,
+        text: matchText
+      });
+      if (matchText.length === 0) {
+        pattern.lastIndex++;
+      }
+    }
+    return matches;
+  }
+  /** Find bounding rects for a text range. */
+  findMatchRects(textContent, _start, _end) {
+    const rects = [];
+    let charOffset = 0;
+    for (const line of textContent.lines) {
+      const lineEnd = charOffset + line.text.length;
+      if (lineEnd > _start && charOffset < _end) {
+        for (let wi = line.wordIndices[0]; wi <= line.wordIndices[1]; wi++) {
+          const word = textContent.words[wi];
+          if (word) {
+            rects.push(word.rect);
+          }
+        }
+      }
+      charOffset = lineEnd + 1;
+    }
+    return rects.length > 0 ? rects : [[0, 0, 0, 0]];
+  }
+};
+// src/text-plugin.ts
+var INITIAL_STATE = {
+  searchQuery: "",
+  searchOptions: {},
+  searchResult: null,
+  activeMatch: null
+};
+function createTextPlugin() {
+  return {
+    id: "text",
+    name: "Text Extraction & Search",
+    version: "0.1.0",
+    install(context) {
+      const extractor = new TextExtractor();
+      const searchEngine = new SearchEngine();
+      context.registerState("text", { ...INITIAL_STATE });
+      const unsubExtract = context.commandBus.registerHandler(
+        "text:extract",
+        (payload) => {
+          const state = context.store.getState();
+          const page = state.pages[payload.pageIndex];
+          if (!page) return;
+          const chars = extractor.buildCharsFromString(
+            `Sample text for page ${payload.pageIndex + 1}`,
+            72,
+            // 1 inch margin
+            72,
+            12
+          );
+          const textContent = extractor.extract(chars, page);
+          context.store.setState((prev) => {
+            const pages = [...prev.pages];
+            const existing = pages[payload.pageIndex];
+            if (existing) {
+              pages[payload.pageIndex] = { ...existing, textContent };
+            }
+            return { ...prev, pages };
+          });
+          searchEngine.setPageTextContent(payload.pageIndex, textContent);
+          context.eventBus.emit("text:extracted", {
+            pageIndex: payload.pageIndex,
+            textContent
+          });
+        }
+      );
+      const unsubSearch = context.commandBus.registerHandler(
+        "text:search",
+        (payload) => {
+          const result = searchEngine.search(payload.query, payload.options);
+          context.setState("text", (prev) => ({
+            ...prev,
+            searchQuery: payload.query,
+            searchOptions: payload.options ?? {},
+            searchResult: result,
+            activeMatch: searchEngine.getActiveMatch()
+          }));
+          context.eventBus.emit("search:found", {
+            query: payload.query,
+            matches: result.matches,
+            total: result.totalCount
+          });
+        }
+      );
+      const unsubSearchNext = context.commandBus.registerHandler(
+        "text:searchNext",
+        () => {
+          const match = searchEngine.nextMatch();
+          context.setState("text", (prev) => ({
+            ...prev,
+            activeMatch: match,
+            searchResult: searchEngine.getLastResult()
+          }));
+          if (match) {
+            context.api.goToPage(match.pageIndex);
+          }
+        }
+      );
+      const unsubSearchPrev = context.commandBus.registerHandler(
+        "text:searchPrev",
+        () => {
+          const match = searchEngine.prevMatch();
+          context.setState("text", (prev) => ({
+            ...prev,
+            activeMatch: match,
+            searchResult: searchEngine.getLastResult()
+          }));
+          if (match) {
+            context.api.goToPage(match.pageIndex);
+          }
+        }
+      );
+      const pluginApi = {
+        extractPageText(pageIndex) {
+          context.commandBus.dispatch("text:extract", { pageIndex });
+        },
+        extractAllText() {
+          const state = context.store.getState();
+          for (let i = 0; i < state.pages.length; i++) {
+            context.commandBus.dispatch("text:extract", { pageIndex: i });
+          }
+        },
+        search(query, options) {
+          context.commandBus.dispatch("text:search", { query, options });
+          return searchEngine.getLastResult();
+        },
+        searchNext() {
+          context.commandBus.dispatch("text:searchNext", {});
+          return searchEngine.getActiveMatch();
+        },
+        searchPrev() {
+          context.commandBus.dispatch("text:searchPrev", {});
+          return searchEngine.getActiveMatch();
+        },
+        clearSearch() {
+          searchEngine.clearAll();
+          context.setState("text", () => ({
+            ...INITIAL_STATE
+          }));
+        },
+        getExtractor() {
+          return extractor;
+        },
+        getSearchEngine() {
+          return searchEngine;
+        }
+      };
+      context._pluginApi = pluginApi;
+      return () => {
+        unsubExtract();
+        unsubSearch();
+        unsubSearchNext();
+        unsubSearchPrev();
+        searchEngine.clearAll();
+      };
+    }
+  };
+}
+exports.SearchEngine = SearchEngine;
+exports.TextExtractor = TextExtractor;
+exports.createTextPlugin = createTextPlugin;
+//# sourceMappingURL=index.cjs.map
+//# sourceMappingURL=index.cjs.map

package/dist/index.cjs.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"sources":["../src/text-extractor.ts","../src/search-engine.ts","../src/text-plugin.ts"],"names":[],"mappings":";;;AAsBA,IAAM,oBAAA,GAAuB,CAAA;AAC7B,IAAM,oBAAA,GAAuB,CAAA;AAGtB,IAAM,gBAAN,MAAoB;AAAA,EAIzB,WAAA,CAAY,MAAA,GAA8B,EAAC,EAAG;AAC5C,IAAA,IAAA,CAAK,oBAAA,GAAuB,OAAO,oBAAA,IAAwB,oBAAA;AAC3D,IAAA,IAAA,CAAK,oBAAA,GAAuB,OAAO,oBAAA,IAAwB,oBAAA;AAAA,EAC7D;AAAA;AAAA;AAAA,EAIA,OAAA,CAAQ,OAAsB,KAAA,EAAqC;AACjE,IAAA,IAAI,KAAA,CAAM,WAAW,CAAA,EAAG;AACtB,MAAA,OAAO,EAAE,KAAA,EAAO,KAAA,EAAO,EAAC,EAAG,KAAA,EAAO,EAAC,EAAE;AAAA,IACvC;AAEA,IAAA,MAAM,KAAA,GAAQ,IAAA,CAAK,YAAA,CAAa,KAAK,CAAA;AACrC,IAAA,MAAM,KAAA,GAAQ,IAAA,CAAK,YAAA,CAAa,KAAA,EAAO,KAAK,CAAA;AAE5C,IAAA,OAAO,EAAE,KAAA,EAAO,KAAA,EAAO,KAAA,EAAM;AAAA,EAC/B;AAAA;AAAA,EAGA,qBACE,IAAA,EACA,MAAA,EACA,MAAA,EACA,QAAA,EACA,WAAW,WAAA,EACI;AACf,IAAA,MAAM,QAAuB,EAAC;AAC9B,IAAA,IAAI,CAAA,GAAI,MAAA;AACR,IAAA,MAAM,YAAY,QAAA,GAAW,GAAA;AAE7B,IAAA,KAAA,IAAS,CAAA,GAAI,CAAA,EAAG,CAAA,GAAI,IAAA,CAAK,QAAQ,CAAA,EAAA,EAAK;AACpC,MAAA,MAAM,IAAA,GAAO,KAAK,CAAC,CAAA;AACnB,MAAA,MAAM,OAAgB,CAAC,CAAA,EAAG,QAAQ,CAAA,GAAI,SAAA,EAAW,SAAS,QAAQ,CAAA;AAElE,MAAA,KAAA,CAAM,IAAA,CAAK;AAAA,QACT,IAAA;AAAA,QACA,IAAA;AAAA,QACA,QAAA;AAAA,QACA,QAAA;AAAA,QACA,WAAW,CAAC,QAAA,EAAU,GAAG,CAAA,EAAG,QAAA,EAAU,GAAG,MAAM;AAAA,OAChD,CAAA;AAED,MAAA,CAAA,IAAK,SAAA;AAAA,IACP;AAEA,IAAA,OAAO,KAAA;AAAA,EACT;AAAA;AAAA,EAGQ,aAAa,KAAA,EAAqC;AACxD,IAAA,IAAI,KAAA,CAAM,MAAA,KAAW,CAAA,EAAG,OAAO,EAAC;AAEhC,IAAA,MAAM,QAAuB,EAAC;AAC9B,IAAA,IAAI,SAAA,GAAY,CAAA;AAChB,IAAA,IAAI,SAAA,GAA2B,CAAC,KAAA,CAAM,CAAC,CAAE,CAAA;AAEzC,IAAA,KAAA,IAAS,CAAA,GAAI,CAAA,EAAG,CAAA,GAAI,KAAA,CAAM,QAAQ,CAAA,EAAA,EAAK;AACrC,MAAA,MAAM,IAAA,GAAO,KAAA,CAAM,CAAA,GAAI,CAAC,CAAA;AACxB,MAAA,MAAM,IAAA,GAAO,MAAM,CAAC,CAAA;AAEpB,MAAA,MAAM,MAAM,IAAA,CAAK,IAAA,CAAK,CAAC,CAAA,GAAI,IAAA,CAAK,KAAK,CAAC,CAAA;AACtC,MAAA,MAAM,OAAA,GAAU,IAAA,CAAK,IAAA,KAAS,GAAA,IAAO,KAAK,IAAA,KAAS,GAAA;AACnD,MAAA,MAAM,SAAA,GAAY,IAAA,CAAK,GAAA,CAAI,IAAA,CAAK,IAAA,CAAK,CAAC,CAAA,GAAI,IAAA,CAAK,IAAA,CAAK,CAAC,CAAC,CAAA,GAAI,IAAA,CAAK,oBAAA;AAC/D,MAAA,MAAM,WAAA,GAAc,GAAA,GAAM,IAAA,CAAK,oBAAA,IAAwB,OAAA,IAAW,SAAA;AAElE,MAAA,IAAI,WAAA,EAAa;AAEf,QAAA,MAAM,IAAA,GAAO,SAAA,CAAU,GAAA,CAAI,CAAC,CAAA,KAAM,CAAA,CAAE,IAAI,CAAA,CAAE,IAAA,CAAK,EAAE,CAAA,CAAE,IAAA,EAAK;AACxD,QAAA,IAAI,IAAA,CAAK,SAAS,CAAA,EAAG;AACnB,UAAA,KAAA,CAAM,IAAA,CAAK;AAAA,YACT,IAAA;AAAA,YACA,IAAA,EAAM,IAAA,CAAK,YAAA,CAAa,SAAS,CAAA;AAAA,YACjC,aAAa,CAAC,SAAA,EAAW,SAAA,GAAY,SAAA,CAAU,SAAS,CAAC;AAAA,WAC1D,CAAA;AAAA,QACH;AAGA,QAAA,IAAI,IAAA,CAAK,SAAS,GAAA,EAAK;AACrB,UAAA,SAAA,GAAY,CAAA;AACZ,UAAA,SAAA,GAAY,CAAC,IAAI,CAAA;AAAA,QACnB,CAAA,MAAO;AACL,UAAA,SAAA,GAAY,CAAA,GAAI,CAAA;AAChB,UAAA,SAAA,GAAY,EAAC;AAAA,QACf;AAAA,MACF,CAAA,MAAO;AACL,QAAA,SAAA,CAAU,KAAK,IAAI,CAAA;AAAA,MACrB;AAAA,IACF;AAGA,IAAA,IAAI,SAAA,CAAU,SAAS,CAAA,EAAG;AACxB,MAAA,MAAM,IAAA,GAAO,SAAA,CAAU,GAAA,CAAI,CAAC,CAAA,KAAM,CAAA,CAAE,IAAI,CAAA,CAAE,IAAA,CAAK,EAAE,CAAA,CAAE,IAAA,EAAK;AACxD,MAAA,IAAI,IAAA,CAAK,SAAS,CAAA,EAAG;AACnB,QAAA,KAAA,CAAM,IAAA,CAAK;AAAA,UACT,IAAA;AAAA,UACA,IAAA,EAAM,IAAA,CAAK,YAAA,CAAa,SAAS,CAAA;AAAA,UACjC,aAAa,CAAC,SAAA,EAAW,SAAA,GAAY,SAAA,CAAU,SAAS,CAAC;AAAA,SAC1D,CAAA;AAAA,MACH;AAAA,IACF;AAEA,IAAA,OAAO,KAAA;AAAA,EACT;AAAA;AAAA,EAGQ,YAAA,CAAa,OAAsB,MAAA,EAAsC;AAC/E,IAAA,IAAI,KAAA,CAAM,MAAA,KAAW,CAAA,EAAG,OAAO,EAAC;AAEhC,IAAA,MAAM,QAAuB,EAAC;AAC9B,IAAA,IAAI,SAAA,GAAY,CAAA;AAChB,IAAA,IAAI,SAAA,GAA2B,CAAC,KAAA,CAAM,CAAC,CAAE,CAAA;AACzC,IAAA,IAAI,KAAA,GAAQ,KAAA,CAAM,CAAC,CAAA,CAAG,KAAK,CAAC,CAAA;AAE5B,IAAA,KAAA,IAAS,CAAA,GAAI,CAAA,EAAG,CAAA,GAAI,KAAA,CAAM,QAAQ,CAAA,EAAA,EAAK;AACrC,MAAA,MAAM,IAAA,GAAO,MAAM,CAAC,CAAA;AACpB,MAAA,MAAM,QAAQ,IAAA,CAAK,GAAA,CAAI,KAAK,IAAA,CAAK,CAAC,IAAI,KAAK,CAAA;AAE3C,MAAA,IAAI,KAAA,GAAQ,KAAK,oBAAA,EAAsB;AAErC,QAAA,KAAA,CAAM,IAAA,CAAK,IAAA,CAAK,UAAA,CAAW,SAAA,EAAW,SAAS,CAAC,CAAA;AAChD,QAAA,SAAA,GAAY,CAAA;AACZ,QAAA,SAAA,GAAY,CAAC,IAAI,CAAA;AACjB,QAAA,KAAA,GAAQ,IAAA,CAAK,KAAK,CAAC,CAAA;AAAA,MACrB,CAAA,MAAO;AACL,QAAA,SAAA,CAAU,KAAK,IAAI,CAAA;AAAA,MACrB;AAAA,IACF;AAGA,IAAA,IAAI,SAAA,CAAU,SAAS,CAAA,EAAG;AACxB,MAAA,KAAA,CAAM,IAAA,CAAK,IAAA,CAAK,UAAA,CAAW,SAAA,EAAW,SAAS,CAAC,CAAA;AAAA,IAClD;AAEA,IAAA,OAAO,KAAA;AAAA,EACT;AAAA,EAEQ,UAAA,CAAW,OAAsB,UAAA,EAAiC;AACxE,IAAA,MAAM,IAAA,GAAO,MAAM,GAAA,CAAI,CAAC,MAAM,CAAA,CAAE,IAAI,CAAA,CAAE,IAAA,CAAK,GAAG,CAAA;AAC9C,IAAA,MAAM,QAAQ,KAAA,CAAM,GAAA,CAAI,CAAC,CAAA,KAAM,EAAE,IAAI,CAAA;AACrC,IAAA,MAAM,IAAA,GAAgB;AAAA,MACpB,IAAA,CAAK,GAAA,CAAI,GAAG,KAAA,CAAM,GAAA,CAAI,CAAC,CAAA,KAAM,CAAA,CAAE,CAAC,CAAC,CAAC,CAAA;AAAA,MAClC,IAAA,CAAK,GAAA,CAAI,GAAG,KAAA,CAAM,GAAA,CAAI,CAAC,CAAA,KAAM,CAAA,CAAE,CAAC,CAAC,CAAC,CAAA;AAAA,MAClC,IAAA,CAAK,GAAA,CAAI,GAAG,KAAA,CAAM,GAAA,CAAI,CAAC,CAAA,KAAM,CAAA,CAAE,CAAC,CAAC,CAAC,CAAA;AAAA,MAClC,IAAA,CAAK,GAAA,CAAI,GAAG,KAAA,CAAM,GAAA,CAAI,CAAC,CAAA,KAAM,CAAA,CAAE,CAAC,CAAC,CAAC;AAAA,KACpC;AACA,IAAA,OAAO;AAAA,MACL,IAAA;AAAA,MACA,IAAA;AAAA,MACA,aAAa,CAAC,UAAA,EAAY,UAAA,GAAa,KAAA,CAAM,SAAS,CAAC;AAAA,KACzD;AAAA,EACF;AAAA;AAAA,EAGQ,aAAa,KAAA,EAA+B;AAClD,IAAA,IAAI,OAAO,QAAA,EACT,IAAA,GAAO,QAAA,EACP,IAAA,GAAO,WACP,IAAA,GAAO,CAAA,QAAA;AAET,IAAA,KAAA,MAAW,KAAK,KAAA,EAAO;AACrB,MAAA,IAAI,CAAA,CAAE,KAAK,CAAC,CAAA,GAAI,MAAM,IAAA,GAAO,CAAA,CAAE,KAAK,CAAC,CAAA;AACrC,MAAA,IAAI,CAAA,CAAE,KAAK,CAAC,CAAA,GAAI,MAAM,IAAA,GAAO,CAAA,CAAE,KAAK,CAAC,CAAA;AACrC,MAAA,IAAI,CAAA,CAAE,KAAK,CAAC,CAAA,GAAI,MAAM,IAAA,GAAO,CAAA,CAAE,KAAK,CAAC,CAAA;AACrC,MAAA,IAAI,CAAA,CAAE,KAAK,CAAC,CAAA,GAAI,MAAM,IAAA,GAAO,CAAA,CAAE,KAAK,CAAC,CAAA;AAAA,IACvC;AAEA,IAAA,OAAO,CAAC,IAAA,EAAM,IAAA,EAAM,IAAA,EAAM,IAAI,CAAA;AAAA,EAChC;AACF;;;AC7JO,IAAM,eAAN,MAAmB;AAAA,EAAnB,WAAA,GAAA;AACL,IAAA,IAAA,CAAQ,YAAA,uBAAmB,GAAA,EAA4B;AACvD,IAAA,IAAA,CAAQ,UAAA,GAA2B;AAAA,MACjC,SAAS,EAAC;AAAA,MACV,UAAA,EAAY,CAAA;AAAA,MACZ,WAAA,EAAa;AAAA,KACf;AAAA,EAAA;AAAA;AAAA,EAGA,kBAAA,CAAmB,WAAmB,WAAA,EAAmC;AACvE,IAAA,IAAA,CAAK,YAAA,CAAa,GAAA,CAAI,SAAA,EAAW,WAAW,CAAA;AAAA,EAC9C;AAAA;AAAA,EAGA,qBAAqB,SAAA,EAAyB;AAC5C,IAAA,IAAA,CAAK,YAAA,CAAa,OAAO,SAAS,CAAA;AAAA,EACpC;AAAA;AAAA,EAGA,QAAA,GAAiB;AACf,IAAA,IAAA,CAAK,aAAa,KAAA,EAAM;AACxB,IAAA,IAAA,CAAK,UAAA,GAAa,EAAE,OAAA,EAAS,IAAI,UAAA,EAAY,CAAA,EAAG,aAAa,EAAA,EAAG;AAAA,EAClE;AAAA;AAAA,EAGA,MAAA,CAAO,KAAA,EAAe,OAAA,GAAyB,EAAC,EAAiB;AAC/D,IAAA,IAAI,CAAC,KAAA,EAAO;AACV,MAAA,IAAA,CAAK,UAAA,GAAa,EAAE,OAAA,EAAS,IAAI,UAAA,EAAY,CAAA,EAAG,aAAa,EAAA,EAAG;AAChE,MAAA,OAAO,IAAA,CAAK,UAAA;AAAA,IACd;AAEA,IAAA,MAAM,UAAyB,EAAC;AAGhC,IAAA,MAAM,cAAc,CAAC,GAAG,KAAK,YAAA,CAAa,OAAA,EAAS,CAAA,CAAE,IAAA;AAAA,MACnD,CAAC,CAAC,CAAC,GAAG,CAAC,CAAC,MAAM,CAAA,GAAI;AAAA,KACpB;AAEA,IAAA,KAAA,MAAW,CAAC,SAAA,EAAW,WAAW,CAAA,IAAK,WAAA,EAAa;AAClD,MAAA,MAAM,cAAc,IAAA,CAAK,UAAA;AAAA,QACvB,SAAA;AAAA,QACA,WAAA;AAAA,QACA,KAAA;AAAA,QACA;AAAA,OACF;AACA,MAAA,OAAA,CAAQ,IAAA,CAAK,GAAG,WAAW,CAAA;AAAA,IAC7B;AAEA,IAAA,IAAA,CAAK,UAAA,GAAa;AAAA,MAChB,OAAA;AAAA,MACA,YAAY,OAAA,CAAQ,MAAA;AAAA,MACpB,WAAA,EAAa,OAAA,CAAQ,MAAA,GAAS,CAAA,GAAI,CAAA,GAAI;AAAA,KACxC;AAEA,IAAA,OAAO,IAAA,CAAK,UAAA;AAAA,EACd;AAAA;AAAA,EAGA,SAAA,GAAgC;AAC9B,IAAA,IAAI,IAAA,CAAK,UAAA,CAAW,UAAA,KAAe,CAAA,EAAG,OAAO,IAAA;AAE7C,IAAA,IAAA,CAAK,WAAW,WAAA,GAAA,CACb,IAAA,CAAK,WAAW,WAAA,GAAc,CAAA,IAAK,KAAK,UAAA,CAAW,UAAA;AACtD,IAAA,OAAO,KAAK,UAAA,CAAW,OAAA,CAAQ,IAAA,CAAK,UAAA,CAAW,WAAW,CAAA,IAAK,IAAA;AAAA,EACjE;AAAA;AAAA,EAGA,SAAA,GAAgC;AAC9B,IAAA,IAAI,IAAA,CAAK,UAAA,CAAW,UAAA,KAAe,CAAA,EAAG,OAAO,IAAA;AAE7C,IAAA,IAAA,CAAK,UAAA,CAAW,WAAA,GAAA,CACb,IAAA,CAAK,UAAA,CAAW,WAAA,GAAc,IAAI,IAAA,CAAK,UAAA,CAAW,UAAA,IACnD,IAAA,CAAK,UAAA,CAAW,UAAA;AAClB,IAAA,OAAO,KAAK,UAAA,CAAW,OAAA,CAAQ,IAAA,CAAK,UAAA,CAAW,WAAW,CAAA,IAAK,IAAA;AAAA,EACjE;AAAA;AAAA,EAGA,cAAA,GAAqC;AACnC,IAAA,IACE,IAAA,CAAK,WAAW,WAAA,GAAc,CAAA,IAC9B,KAAK,UAAA,CAAW,WAAA,IAAe,IAAA,CAAK,UAAA,CAAW,UAAA,EAC/C;AACA,MAAA,OAAO,IAAA;AAAA,IACT;AACA,IAAA,OAAO,KAAK,UAAA,CAAW,OAAA,CAAQ,IAAA,CAAK,UAAA,CAAW,WAAW,CAAA,IAAK,IAAA;AAAA,EACjE;AAAA;AAAA,EAGA,aAAA,GAA8B;AAC5B,IAAA,OAAO,IAAA,CAAK,UAAA;AAAA,EACd;AAAA,EAEQ,UAAA,CACN,SAAA,EACA,WAAA,EACA,KAAA,EACA,OAAA,EACe;AACf,IAAA,MAAM,UAAyB,EAAC;AAGhC,IAAA,MAAM,QAAA,GAAW,WAAA,CAAY,KAAA,CAAM,GAAA,CAAI,CAAC,MAAM,CAAA,CAAE,IAAI,CAAA,CAAE,IAAA,CAAK,IAAI,CAAA;AAE/D,IAAA,IAAI,OAAA;AACJ,IAAA,IAAI;AACF,MAAA,IAAI,QAAQ,KAAA,EAAO;AACjB,QAAA,MAAM,KAAA,GAAQ,OAAA,CAAQ,aAAA,GAAgB,GAAA,GAAM,IAAA;AAC5C,QAAA,OAAA,GAAU,IAAI,MAAA,CAAO,KAAA,EAAO,KAAK,CAAA;AAAA,MACnC,CAAA,MAAO;AACL,QAAA,MAAM,OAAA,GAAU,KAAA,CAAM,OAAA,CAAQ,qBAAA,EAAuB,MAAM,CAAA;AAC3D,QAAA,MAAM,KAAA,GAAQ,OAAA,CAAQ,aAAA,GAAgB,GAAA,GAAM,IAAA;AAC5C,QAAA,MAAM,IAAA,GAAO,OAAA,CAAQ,SAAA,GAAY,CAAA,GAAA,EAAM,OAAO,CAAA,GAAA,CAAA,GAAQ,OAAA;AACtD,QAAA,OAAA,GAAU,IAAI,MAAA,CAAO,IAAA,EAAM,KAAK,CAAA;AAAA,MAClC;AAAA,IACF,CAAA,CAAA,MAAQ;AACN,MAAA,OAAO,OAAA;AAAA,IACT;AAEA,IAAA,IAAI,KAAA;AACJ,IAAA,OAAA,CAAQ,KAAA,GAAQ,OAAA,CAAQ,IAAA,CAAK,QAAQ,OAAO,IAAA,EAAM;AAChD,MAAA,MAAM,SAAA,GAAY,MAAM,CAAC,CAAA;AACzB,MAAA,MAAM,aAAa,KAAA,CAAM,KAAA;AACzB,MAAA,MAAM,QAAA,GAAW,aAAa,SAAA,CAAU,MAAA;AAGxC,MAAA,MAAM,KAAA,GAAQ,IAAA,CAAK,cAAA,CAAe,WAAA,EAAa,YAAY,QAAQ,CAAA;AAEnE,MAAA,OAAA,CAAQ,IAAA,CAAK;AAAA,QACX,SAAA;AAAA,QACA,SAAA,EAAW,UAAA;AAAA,QACX,OAAA,EAAS,QAAA;AAAA,QACT,KAAA;AAAA,QACA,IAAA,EAAM;AAAA,OACP,CAAA;AAGD,MAAA,IAAI,SAAA,CAAU,WAAW,CAAA,EAAG;AAC1B,QAAA,OAAA,CAAQ,SAAA,EAAA;AAAA,MACV;AAAA,IACF;AAEA,IAAA,OAAO,OAAA;AAAA,EACT;AAAA;AAAA,EAGQ,cAAA,CACN,WAAA,EACA,MAAA,EACA,IAAA,EACW;AAGX,IAAA,MAAM,QAAmB,EAAC;AAG1B,IAAA,IAAI,UAAA,GAAa,CAAA;AACjB,IAAA,KAAA,MAAW,IAAA,IAAQ,YAAY,KAAA,EAAO;AACpC,MAAA,MAAM,OAAA,GAAU,UAAA,GAAa,IAAA,CAAK,IAAA,CAAK,MAAA;AAEvC,MAAA,IAAI,OAAA,GAAU,MAAA,IAAU,UAAA,GAAa,IAAA,EAAM;AAEzC,QAAA,KAAA,IAAS,EAAA,GAAK,IAAA,CAAK,WAAA,CAAY,CAAC,CAAA,EAAG,MAAM,IAAA,CAAK,WAAA,CAAY,CAAC,CAAA,EAAG,EAAA,EAAA,EAAM;AAClE,UAAA,MAAM,IAAA,GAAO,WAAA,CAAY,KAAA,CAAM,EAAE,CAAA;AACjC,UAAA,IAAI,IAAA,EAAM;AACR,YAAA,KAAA,CAAM,IAAA,CAAK,KAAK,IAAI,CAAA;AAAA,UACtB;AAAA,QACF;AAAA,MACF;AAEA,MAAA,UAAA,GAAa,OAAA,GAAU,CAAA;AAAA,IACzB;AAEA,IAAA,OAAO,KAAA,CAAM,MAAA,GAAS,CAAA,GAAI,KAAA,GAAQ,CAAC,CAAC,CAAA,EAAG,CAAA,EAAG,CAAA,EAAG,CAAC,CAAC,CAAA;AAAA,EACjD;AACF;;;AC1KA,IAAM,aAAA,GAAiC;AAAA,EACrC,WAAA,EAAa,EAAA;AAAA,EACb,eAAe,EAAC;AAAA,EAChB,YAAA,EAAc,IAAA;AAAA,EACd,WAAA,EAAa;AACf,CAAA;AAGO,SAAS,gBAAA,GAA8B;AAC5C,EAAA,OAAO;AAAA,IACL,EAAA,EAAI,MAAA;AAAA,IACJ,IAAA,EAAM,0BAAA;AAAA,IACN,OAAA,EAAS,OAAA;AAAA,IAET,QAAQ,OAAA,EAA8C;AACpD,MAAA,MAAM,SAAA,GAAY,IAAI,aAAA,EAAc;AACpC,MAAA,MAAM,YAAA,GAAe,IAAI,YAAA,EAAa;AAGtC,MAAA,OAAA,CAAQ,aAAA,CAA+B,MAAA,EAAQ,EAAE,GAAG,eAAe,CAAA;AAInE,MAAA,MAAM,YAAA,GAAe,QAAQ,UAAA,CAAW,eAAA;AAAA,QACtC,cAAA;AAAA,QACA,CAAC,OAAA,KAAmC;AAClC,UAAA,MAAM,KAAA,GAAQ,OAAA,CAAQ,KAAA,CAAM,QAAA,EAAS;AACrC,UAAA,MAAM,IAAA,GAAO,KAAA,CAAM,KAAA,CAAM,OAAA,CAAQ,SAAS,CAAA;AAC1C,UAAA,IAAI,CAAC,IAAA,EAAM;AAGX,UAAA,MAAM,QAAQ,SAAA,CAAU,oBAAA;AAAA,YACtB,CAAA,qBAAA,EAAwB,OAAA,CAAQ,SAAA,GAAY,CAAC,CAAA,CAAA;AAAA,YAC7C,EAAA;AAAA;AAAA,YACA,EAAA;AAAA,YACA;AAAA,WACF;AAEA,UAAA,MAAM,WAAA,GAAc,SAAA,CAAU,OAAA,CAAQ,KAAA,EAAO,IAAI,CAAA;AAGjD,UAAA,OAAA,CAAQ,KAAA,CAAM,QAAA,CAAS,CAAC,IAAA,KAAS;AAC/B,YAAA,MAAM,KAAA,GAAQ,CAAC,GAAG,IAAA,CAAK,KAAK,CAAA;AAC5B,YAAA,MAAM,QAAA,GAAW,KAAA,CAAM,OAAA,CAAQ,SAAS,CAAA;AACxC,YAAA,IAAI,QAAA,EAAU;AACZ,cAAA,KAAA,CAAM,QAAQ,SAAS,CAAA,GAAI,EAAE,GAAG,UAAU,WAAA,EAAY;AAAA,YACxD;AACA,YAAA,OAAO,EAAE,GAAG,IAAA,EAAM,KAAA,EAAM;AAAA,UAC1B,CAAC,CAAA;AAGD,UAAA,YAAA,CAAa,kBAAA,CAAmB,OAAA,CAAQ,SAAA,EAAW,WAAW,CAAA;AAE9D,UAAA,OAAA,CAAQ,QAAA,CAAS,KAAK,gBAAA,EAAkB;AAAA,YACtC,WAAW,OAAA,CAAQ,SAAA;AAAA,YACnB;AAAA,WACD,CAAA;AAAA,QACH;AAAA,OACF;AAEA,MAAA,MAAM,WAAA,GAAc,QAAQ,UAAA,CAAW,eAAA;AAAA,QACrC,aAAA;AAAA,QACA,CAAC,OAAA,KAAwD;AACvD,UAAA,MAAM,SAAS,YAAA,CAAa,MAAA,CAAO,OAAA,CAAQ,KAAA,EAAO,QAAQ,OAAO,CAAA;AAEjE,UAAA,OAAA,CAAQ,QAAA,CAA0B,MAAA,EAAQ,CAAC,IAAA,MAAU;AAAA,YACnD,GAAG,IAAA;AAAA,YACH,aAAa,OAAA,CAAQ,KAAA;AAAA,YACrB,aAAA,EAAe,OAAA,CAAQ,OAAA,IAAW,EAAC;AAAA,YACnC,YAAA,EAAc,MAAA;AAAA,YACd,WAAA,EAAa,aAAa,cAAA;AAAe,WAC3C,CAAE,CAAA;AAEF,UAAA,OAAA,CAAQ,QAAA,CAAS,KAAK,cAAA,EAAgB;AAAA,YACpC,OAAO,OAAA,CAAQ,KAAA;AAAA,YACf,SAAS,MAAA,CAAO,OAAA;AAAA,YAChB,OAAO,MAAA,CAAO;AAAA,WACf,CAAA;AAAA,QACH;AAAA,OACF;AAEA,MAAA,MAAM,eAAA,GAAkB,QAAQ,UAAA,CAAW,eAAA;AAAA,QACzC,iBAAA;AAAA,QACA,MAAM;AACJ,UAAA,MAAM,KAAA,GAAQ,aAAa,SAAA,EAAU;AACrC,UAAA,OAAA,CAAQ,QAAA,CAA0B,MAAA,EAAQ,CAAC,IAAA,MAAU;AAAA,YACnD,GAAG,IAAA;AAAA,YACH,WAAA,EAAa,KAAA;AAAA,YACb,YAAA,EAAc,aAAa,aAAA;AAAc,WAC3C,CAAE,CAAA;AAEF,UAAA,IAAI,KAAA,EAAO;AAET,YAAA,OAAA,CAAQ,GAAA,CAAI,QAAA,CAAS,KAAA,CAAM,SAAS,CAAA;AAAA,UACtC;AAAA,QACF;AAAA,OACF;AAEA,MAAA,MAAM,eAAA,GAAkB,QAAQ,UAAA,CAAW,eAAA;AAAA,QACzC,iBAAA;AAAA,QACA,MAAM;AACJ,UAAA,MAAM,KAAA,GAAQ,aAAa,SAAA,EAAU;AACrC,UAAA,OAAA,CAAQ,QAAA,CAA0B,MAAA,EAAQ,CAAC,IAAA,MAAU;AAAA,YACnD,GAAG,IAAA;AAAA,YACH,WAAA,EAAa,KAAA;AAAA,YACb,YAAA,EAAc,aAAa,aAAA;AAAc,WAC3C,CAAE,CAAA;AAEF,UAAA,IAAI,KAAA,EAAO;AACT,YAAA,OAAA,CAAQ,GAAA,CAAI,QAAA,CAAS,KAAA,CAAM,SAAS,CAAA;AAAA,UACtC;AAAA,QACF;AAAA,OACF;AAIA,MAAA,MAAM,SAAA,GAA2B;AAAA,QAC/B,gBAAgB,SAAA,EAAmB;AACjC,UAAA,OAAA,CAAQ,UAAA,CAAW,QAAA,CAAS,cAAA,EAAgB,EAAE,WAAW,CAAA;AAAA,QAC3D,CAAA;AAAA,QACA,cAAA,GAAiB;AACf,UAAA,MAAM,KAAA,GAAQ,OAAA,CAAQ,KAAA,CAAM,QAAA,EAAS;AACrC,UAAA,KAAA,IAAS,IAAI,CAAA,EAAG,CAAA,GAAI,KAAA,CAAM,KAAA,CAAM,QAAQ,CAAA,EAAA,EAAK;AAC3C,YAAA,OAAA,CAAQ,WAAW,QAAA,CAAS,cAAA,EAAgB,EAAE,SAAA,EAAW,GAAG,CAAA;AAAA,UAC9D;AAAA,QACF,CAAA;AAAA,QACA,MAAA,CAAO,OAAe,OAAA,EAAyB;AAC7C,UAAA,OAAA,CAAQ,WAAW,QAAA,CAAS,aAAA,EAAe,EAAE,KAAA,EAAO,SAAS,CAAA;AAC7D,UAAA,OAAO,aAAa,aAAA,EAAc;AAAA,QACpC,CAAA;AAAA,QACA,UAAA,GAAa;AACX,UAAA,OAAA,CAAQ,UAAA,CAAW,QAAA,CAAS,iBAAA,EAAmB,EAAE,CAAA;AACjD,UAAA,OAAO,aAAa,cAAA,EAAe;AAAA,QACrC,CAAA;AAAA,QACA,UAAA,GAAa;AACX,UAAA,OAAA,CAAQ,UAAA,CAAW,QAAA,CAAS,iBAAA,EAAmB,EAAE,CAAA;AACjD,UAAA,OAAO,aAAa,cAAA,EAAe;AAAA,QACrC,CAAA;AAAA,QACA,WAAA,GAAc;AACZ,UAAA,YAAA,CAAa,QAAA,EAAS;AACtB,UAAA,OAAA,CAAQ,QAAA,CAA0B,QAAQ,OAAO;AAAA,YAC/C,GAAG;AAAA,WACL,CAAE,CAAA;AAAA,QACJ,CAAA;AAAA,QACA,YAAA,GAAe;AACb,UAAA,OAAO,SAAA;AAAA,QACT,CAAA;AAAA,QACA,eAAA,GAAkB;AAChB,UAAA,OAAO,YAAA;AAAA,QACT;AAAA,OACF;AAGA,MAAC,QAAgB,UAAA,GAAa,SAAA;AAE9B,MAAA,OAAO,MAAM;AACX,QAAA,YAAA,EAAa;AACb,QAAA,WAAA,EAAY;AACZ,QAAA,eAAA,EAAgB;AAChB,QAAA,eAAA,EAAgB;AAChB,QAAA,YAAA,CAAa,QAAA,EAAS;AAAA,MACxB,CAAA;AAAA,IACF;AAAA,GACF;AACF","file":"index.cjs","sourcesContent":["// ─── Text Extractor ───\n//\n// Extracts text content from PDF pages with character, word, and line bounding boxes.\n// Phase 1 implementation uses synthetic extraction; Phase 2 will integrate pdf.js getTextContent().\n\nimport type {\n PdfTextContent,\n PdfCharInfo,\n PdfWordInfo,\n PdfLineInfo,\n PdfRect,\n PdfPageState,\n} from '@gridstorm/pdf-core';\n\n/** Configuration for text extraction. */\nexport interface TextExtractorConfig {\n /** Threshold for word break detection (in PDF points). */\n wordSpacingThreshold?: number;\n /** Threshold for line break detection (in PDF points). */\n lineSpacingThreshold?: number;\n}\n\nconst DEFAULT_WORD_SPACING = 3;\nconst DEFAULT_LINE_SPACING = 5;\n\n/** Extracts structured text content from PDF text items. */\nexport class TextExtractor {\n private wordSpacingThreshold: number;\n private lineSpacingThreshold: number;\n\n constructor(config: TextExtractorConfig = {}) {\n this.wordSpacingThreshold = config.wordSpacingThreshold ?? DEFAULT_WORD_SPACING;\n this.lineSpacingThreshold = config.lineSpacingThreshold ?? DEFAULT_LINE_SPACING;\n }\n\n /** Extract text content from raw text items.\n * In Phase 2 this will accept pdf.js TextItem[]; for now it works with PdfCharInfo[]. */\n extract(chars: PdfCharInfo[], _page: PdfPageState): PdfTextContent {\n if (chars.length === 0) {\n return { chars, words: [], lines: [] };\n }\n\n const words = this.segmentWords(chars);\n const lines = this.segmentLines(words, chars);\n\n return { chars, words, lines };\n }\n\n /** Build PdfCharInfo from a simple text string (for testing/placeholder). */\n buildCharsFromString(\n text: string,\n startX: number,\n startY: number,\n fontSize: number,\n fontName = 'Helvetica',\n ): PdfCharInfo[] {\n const chars: PdfCharInfo[] = [];\n let x = startX;\n const charWidth = fontSize * 0.6; // Approximate monospace width\n\n for (let i = 0; i < text.length; i++) {\n const char = text[i]!;\n const rect: PdfRect = [x, startY, x + charWidth, startY + fontSize];\n\n chars.push({\n char,\n rect,\n fontName,\n fontSize,\n transform: [fontSize, 0, 0, fontSize, x, startY],\n });\n\n x += charWidth;\n }\n\n return chars;\n }\n\n /** Segment characters into words based on spacing. */\n private segmentWords(chars: PdfCharInfo[]): PdfWordInfo[] {\n if (chars.length === 0) return [];\n\n const words: PdfWordInfo[] = [];\n let wordStart = 0;\n let wordChars: PdfCharInfo[] = [chars[0]!];\n\n for (let i = 1; i < chars.length; i++) {\n const prev = chars[i - 1]!;\n const curr = chars[i]!;\n\n const gap = curr.rect[0] - prev.rect[2]; // x1 of current - x2 of previous\n const isSpace = curr.char === ' ' || prev.char === ' ';\n const isNewLine = Math.abs(curr.rect[1] - prev.rect[1]) > this.lineSpacingThreshold;\n const isWordBreak = gap > this.wordSpacingThreshold || isSpace || isNewLine;\n\n if (isWordBreak) {\n // Complete current word (skip if only spaces)\n const text = wordChars.map((c) => c.char).join('').trim();\n if (text.length > 0) {\n words.push({\n text,\n rect: this.boundingRect(wordChars),\n charIndices: [wordStart, wordStart + wordChars.length - 1],\n });\n }\n\n // Skip space characters\n if (curr.char !== ' ') {\n wordStart = i;\n wordChars = [curr];\n } else {\n wordStart = i + 1;\n wordChars = [];\n }\n } else {\n wordChars.push(curr);\n }\n }\n\n // Final word\n if (wordChars.length > 0) {\n const text = wordChars.map((c) => c.char).join('').trim();\n if (text.length > 0) {\n words.push({\n text,\n rect: this.boundingRect(wordChars),\n charIndices: [wordStart, wordStart + wordChars.length - 1],\n });\n }\n }\n\n return words;\n }\n\n /** Segment words into lines based on vertical position. */\n private segmentLines(words: PdfWordInfo[], _chars: PdfCharInfo[]): PdfLineInfo[] {\n if (words.length === 0) return [];\n\n const lines: PdfLineInfo[] = [];\n let lineStart = 0;\n let lineWords: PdfWordInfo[] = [words[0]!];\n let lineY = words[0]!.rect[1]; // y1 of first word\n\n for (let i = 1; i < words.length; i++) {\n const word = words[i]!;\n const yDiff = Math.abs(word.rect[1] - lineY);\n\n if (yDiff > this.lineSpacingThreshold) {\n // New line\n lines.push(this.createLine(lineWords, lineStart));\n lineStart = i;\n lineWords = [word];\n lineY = word.rect[1];\n } else {\n lineWords.push(word);\n }\n }\n\n // Final line\n if (lineWords.length > 0) {\n lines.push(this.createLine(lineWords, lineStart));\n }\n\n return lines;\n }\n\n private createLine(words: PdfWordInfo[], startIndex: number): PdfLineInfo {\n const text = words.map((w) => w.text).join(' ');\n const rects = words.map((w) => w.rect);\n const rect: PdfRect = [\n Math.min(...rects.map((r) => r[0])),\n Math.min(...rects.map((r) => r[1])),\n Math.max(...rects.map((r) => r[2])),\n Math.max(...rects.map((r) => r[3])),\n ];\n return {\n text,\n rect,\n wordIndices: [startIndex, startIndex + words.length - 1],\n };\n }\n\n /** Compute bounding rect for a set of characters. */\n private boundingRect(chars: PdfCharInfo[]): PdfRect {\n let minX = Infinity,\n minY = Infinity,\n maxX = -Infinity,\n maxY = -Infinity;\n\n for (const c of chars) {\n if (c.rect[0] < minX) minX = c.rect[0];\n if (c.rect[1] < minY) minY = c.rect[1];\n if (c.rect[2] > maxX) maxX = c.rect[2];\n if (c.rect[3] > maxY) maxY = c.rect[3];\n }\n\n return [minX, minY, maxX, maxY];\n }\n}\n","// ─── Search Engine ───\n//\n// Full-text search across PDF pages with match navigation.\n\nimport type { PdfTextContent, PdfRect } from '@gridstorm/pdf-core';\n\n/** Search options. */\nexport interface SearchOptions {\n /** Case-sensitive search. */\n caseSensitive?: boolean;\n /** Match whole words only. */\n wholeWord?: boolean;\n /** Use regex pattern. */\n regex?: boolean;\n}\n\n/** A single search match. */\nexport interface SearchMatch {\n /** Page index where the match was found. */\n pageIndex: number;\n /** Start character index within the page text. */\n charStart: number;\n /** End character index (exclusive). */\n charEnd: number;\n /** Bounding rectangles covering the match (may span multiple lines). */\n rects: PdfRect[];\n /** The matched text. */\n text: string;\n}\n\n/** Search result set. */\nexport interface SearchResult {\n /** All matches across all pages. */\n matches: SearchMatch[];\n /** Total match count. */\n totalCount: number;\n /** Currently active match index (-1 if none). */\n activeIndex: number;\n}\n\n/** Search engine for finding text in PDF pages. */\nexport class SearchEngine {\n private textContents = new Map<number, PdfTextContent>();\n private lastResult: SearchResult = {\n matches: [],\n totalCount: 0,\n activeIndex: -1,\n };\n\n /** Set the text content for a page. */\n setPageTextContent(pageIndex: number, textContent: PdfTextContent): void {\n this.textContents.set(pageIndex, textContent);\n }\n\n /** Clear text content for a page. */\n clearPageTextContent(pageIndex: number): void {\n this.textContents.delete(pageIndex);\n }\n\n /** Clear all cached text content. */\n clearAll(): void {\n this.textContents.clear();\n this.lastResult = { matches: [], totalCount: 0, activeIndex: -1 };\n }\n\n /** Search for a query across all loaded pages. */\n search(query: string, options: SearchOptions = {}): SearchResult {\n if (!query) {\n this.lastResult = { matches: [], totalCount: 0, activeIndex: -1 };\n return this.lastResult;\n }\n\n const matches: SearchMatch[] = [];\n\n // Sort pages by index for consistent ordering\n const sortedPages = [...this.textContents.entries()].sort(\n ([a], [b]) => a - b,\n );\n\n for (const [pageIndex, textContent] of sortedPages) {\n const pageMatches = this.searchPage(\n pageIndex,\n textContent,\n query,\n options,\n );\n matches.push(...pageMatches);\n }\n\n this.lastResult = {\n matches,\n totalCount: matches.length,\n activeIndex: matches.length > 0 ? 0 : -1,\n };\n\n return this.lastResult;\n }\n\n /** Navigate to the next search match. */\n nextMatch(): SearchMatch | null {\n if (this.lastResult.totalCount === 0) return null;\n\n this.lastResult.activeIndex =\n (this.lastResult.activeIndex + 1) % this.lastResult.totalCount;\n return this.lastResult.matches[this.lastResult.activeIndex] ?? null;\n }\n\n /** Navigate to the previous search match. */\n prevMatch(): SearchMatch | null {\n if (this.lastResult.totalCount === 0) return null;\n\n this.lastResult.activeIndex =\n (this.lastResult.activeIndex - 1 + this.lastResult.totalCount) %\n this.lastResult.totalCount;\n return this.lastResult.matches[this.lastResult.activeIndex] ?? null;\n }\n\n /** Get the current active match. */\n getActiveMatch(): SearchMatch | null {\n if (\n this.lastResult.activeIndex < 0 ||\n this.lastResult.activeIndex >= this.lastResult.totalCount\n ) {\n return null;\n }\n return this.lastResult.matches[this.lastResult.activeIndex] ?? null;\n }\n\n /** Get the last search result. */\n getLastResult(): SearchResult {\n return this.lastResult;\n }\n\n private searchPage(\n pageIndex: number,\n textContent: PdfTextContent,\n query: string,\n options: SearchOptions,\n ): SearchMatch[] {\n const matches: SearchMatch[] = [];\n\n // Build full page text from lines\n const fullText = textContent.lines.map((l) => l.text).join('\\n');\n\n let pattern: RegExp;\n try {\n if (options.regex) {\n const flags = options.caseSensitive ? 'g' : 'gi';\n pattern = new RegExp(query, flags);\n } else {\n const escaped = query.replace(/[.*+?^${}()|[\\]\\\\]/g, '\\\\$&');\n const flags = options.caseSensitive ? 'g' : 'gi';\n const word = options.wholeWord ? `\\\\b${escaped}\\\\b` : escaped;\n pattern = new RegExp(word, flags);\n }\n } catch {\n return matches;\n }\n\n let match: RegExpExecArray | null;\n while ((match = pattern.exec(fullText)) !== null) {\n const matchText = match[0];\n const matchStart = match.index;\n const matchEnd = matchStart + matchText.length;\n\n // Find covering word rects\n const rects = this.findMatchRects(textContent, matchStart, matchEnd);\n\n matches.push({\n pageIndex,\n charStart: matchStart,\n charEnd: matchEnd,\n rects,\n text: matchText,\n });\n\n // Avoid infinite loop for zero-length matches\n if (matchText.length === 0) {\n pattern.lastIndex++;\n }\n }\n\n return matches;\n }\n\n /** Find bounding rects for a text range. */\n private findMatchRects(\n textContent: PdfTextContent,\n _start: number,\n _end: number,\n ): PdfRect[] {\n // In Phase 1 we use word-level rects; Phase 2 will use char-level precision.\n // For now, return rects for all words that overlap the match range.\n const rects: PdfRect[] = [];\n\n // Simple approach: iterate lines and match by character offset\n let charOffset = 0;\n for (const line of textContent.lines) {\n const lineEnd = charOffset + line.text.length;\n\n if (lineEnd > _start && charOffset < _end) {\n // This line overlaps the match — use word-level rects within the line\n for (let wi = line.wordIndices[0]; wi <= line.wordIndices[1]; wi++) {\n const word = textContent.words[wi];\n if (word) {\n rects.push(word.rect);\n }\n }\n }\n\n charOffset = lineEnd + 1; // +1 for \\n\n }\n\n return rects.length > 0 ? rects : [[0, 0, 0, 0]];\n }\n}\n","// ─── Text Plugin ───\n//\n// GridStorm PDF plugin for text extraction and search.\n\nimport type {\n PdfPlugin,\n PdfPluginContext,\n PdfPluginDisposer,\n} from '@gridstorm/pdf-core';\nimport { TextExtractor } from './text-extractor';\nimport { SearchEngine } from './search-engine';\nimport type { SearchOptions, SearchResult, SearchMatch } from './search-engine';\n\n/** Plugin state for text operations. */\nexport interface TextPluginState {\n /** Current search query. */\n searchQuery: string;\n /** Search options. */\n searchOptions: SearchOptions;\n /** Last search result. */\n searchResult: SearchResult | null;\n /** Active search match. */\n activeMatch: SearchMatch | null;\n}\n\n/** Public API exposed by the text plugin. */\nexport interface TextPluginApi {\n /** Extract text from a specific page. */\n extractPageText(pageIndex: number): void;\n /** Extract text from all pages. */\n extractAllText(): void;\n /** Search for text across all pages. */\n search(query: string, options?: SearchOptions): SearchResult;\n /** Navigate to next search match. */\n searchNext(): SearchMatch | null;\n /** Navigate to previous search match. */\n searchPrev(): SearchMatch | null;\n /** Clear search results. */\n clearSearch(): void;\n /** Get the text extractor instance. */\n getExtractor(): TextExtractor;\n /** Get the search engine instance. */\n getSearchEngine(): SearchEngine;\n}\n\nconst INITIAL_STATE: TextPluginState = {\n searchQuery: '',\n searchOptions: {},\n searchResult: null,\n activeMatch: null,\n};\n\n/** Create the text extraction and search plugin. */\nexport function createTextPlugin(): PdfPlugin {\n return {\n id: 'text',\n name: 'Text Extraction & Search',\n version: '0.1.0',\n\n install(context: PdfPluginContext): PdfPluginDisposer {\n const extractor = new TextExtractor();\n const searchEngine = new SearchEngine();\n\n // Register plugin state\n context.registerState<TextPluginState>('text', { ...INITIAL_STATE });\n\n // ─── Command Handlers ───\n\n const unsubExtract = context.commandBus.registerHandler(\n 'text:extract',\n (payload: { pageIndex: number }) => {\n const state = context.store.getState();\n const page = state.pages[payload.pageIndex];\n if (!page) return;\n\n // In Phase 1, use placeholder chars; Phase 2 will use pdf.js\n const chars = extractor.buildCharsFromString(\n `Sample text for page ${payload.pageIndex + 1}`,\n 72, // 1 inch margin\n 72,\n 12,\n );\n\n const textContent = extractor.extract(chars, page);\n\n // Update page state with extracted text\n context.store.setState((prev) => {\n const pages = [...prev.pages];\n const existing = pages[payload.pageIndex];\n if (existing) {\n pages[payload.pageIndex] = { ...existing, textContent };\n }\n return { ...prev, pages };\n });\n\n // Feed text to search engine\n searchEngine.setPageTextContent(payload.pageIndex, textContent);\n\n context.eventBus.emit('text:extracted', {\n pageIndex: payload.pageIndex,\n textContent,\n });\n },\n );\n\n const unsubSearch = context.commandBus.registerHandler(\n 'text:search',\n (payload: { query: string; options?: SearchOptions }) => {\n const result = searchEngine.search(payload.query, payload.options);\n\n context.setState<TextPluginState>('text', (prev) => ({\n ...prev,\n searchQuery: payload.query,\n searchOptions: payload.options ?? {},\n searchResult: result,\n activeMatch: searchEngine.getActiveMatch(),\n }));\n\n context.eventBus.emit('search:found', {\n query: payload.query,\n matches: result.matches,\n total: result.totalCount,\n });\n },\n );\n\n const unsubSearchNext = context.commandBus.registerHandler(\n 'text:searchNext',\n () => {\n const match = searchEngine.nextMatch();\n context.setState<TextPluginState>('text', (prev) => ({\n ...prev,\n activeMatch: match,\n searchResult: searchEngine.getLastResult(),\n }));\n\n if (match) {\n // Navigate to the match page\n context.api.goToPage(match.pageIndex);\n }\n },\n );\n\n const unsubSearchPrev = context.commandBus.registerHandler(\n 'text:searchPrev',\n () => {\n const match = searchEngine.prevMatch();\n context.setState<TextPluginState>('text', (prev) => ({\n ...prev,\n activeMatch: match,\n searchResult: searchEngine.getLastResult(),\n }));\n\n if (match) {\n context.api.goToPage(match.pageIndex);\n }\n },\n );\n\n // ─── Plugin API ───\n\n const pluginApi: TextPluginApi = {\n extractPageText(pageIndex: number) {\n context.commandBus.dispatch('text:extract', { pageIndex });\n },\n extractAllText() {\n const state = context.store.getState();\n for (let i = 0; i < state.pages.length; i++) {\n context.commandBus.dispatch('text:extract', { pageIndex: i });\n }\n },\n search(query: string, options?: SearchOptions) {\n context.commandBus.dispatch('text:search', { query, options });\n return searchEngine.getLastResult();\n },\n searchNext() {\n context.commandBus.dispatch('text:searchNext', {});\n return searchEngine.getActiveMatch();\n },\n searchPrev() {\n context.commandBus.dispatch('text:searchPrev', {});\n return searchEngine.getActiveMatch();\n },\n clearSearch() {\n searchEngine.clearAll();\n context.setState<TextPluginState>('text', () => ({\n ...INITIAL_STATE,\n }));\n },\n getExtractor() {\n return extractor;\n },\n getSearchEngine() {\n return searchEngine;\n },\n };\n\n // Expose API via plugin context (can be retrieved via api.getPluginApi('text'))\n (context as any)._pluginApi = pluginApi;\n\n return () => {\n unsubExtract();\n unsubSearch();\n unsubSearchNext();\n unsubSearchPrev();\n searchEngine.clearAll();\n };\n },\n };\n}\n"]}

package/dist/index.d.cts ADDED Viewed

@@ -0,0 +1,118 @@
+import { PdfCharInfo, PdfPageState, PdfTextContent, PdfRect, PdfPlugin } from '@gridstorm/pdf-core';
+/** Configuration for text extraction. */
+interface TextExtractorConfig {
+    /** Threshold for word break detection (in PDF points). */
+    wordSpacingThreshold?: number;
+    /** Threshold for line break detection (in PDF points). */
+    lineSpacingThreshold?: number;
+}
+/** Extracts structured text content from PDF text items. */
+declare class TextExtractor {
+    private wordSpacingThreshold;
+    private lineSpacingThreshold;
+    constructor(config?: TextExtractorConfig);
+    /** Extract text content from raw text items.
+     *  In Phase 2 this will accept pdf.js TextItem[]; for now it works with PdfCharInfo[]. */
+    extract(chars: PdfCharInfo[], _page: PdfPageState): PdfTextContent;
+    /** Build PdfCharInfo from a simple text string (for testing/placeholder). */
+    buildCharsFromString(text: string, startX: number, startY: number, fontSize: number, fontName?: string): PdfCharInfo[];
+    /** Segment characters into words based on spacing. */
+    private segmentWords;
+    /** Segment words into lines based on vertical position. */
+    private segmentLines;
+    private createLine;
+    /** Compute bounding rect for a set of characters. */
+    private boundingRect;
+}
+/** Search options. */
+interface SearchOptions {
+    /** Case-sensitive search. */
+    caseSensitive?: boolean;
+    /** Match whole words only. */
+    wholeWord?: boolean;
+    /** Use regex pattern. */
+    regex?: boolean;
+}
+/** A single search match. */
+interface SearchMatch {
+    /** Page index where the match was found. */
+    pageIndex: number;
+    /** Start character index within the page text. */
+    charStart: number;
+    /** End character index (exclusive). */
+    charEnd: number;
+    /** Bounding rectangles covering the match (may span multiple lines). */
+    rects: PdfRect[];
+    /** The matched text. */
+    text: string;
+}
+/** Search result set. */
+interface SearchResult {
+    /** All matches across all pages. */
+    matches: SearchMatch[];
+    /** Total match count. */
+    totalCount: number;
+    /** Currently active match index (-1 if none). */
+    activeIndex: number;
+}
+/** Search engine for finding text in PDF pages. */
+declare class SearchEngine {
+    private textContents;
+    private lastResult;
+    /** Set the text content for a page. */
+    setPageTextContent(pageIndex: number, textContent: PdfTextContent): void;
+    /** Clear text content for a page. */
+    clearPageTextContent(pageIndex: number): void;
+    /** Clear all cached text content. */
+    clearAll(): void;
+    /** Search for a query across all loaded pages. */
+    search(query: string, options?: SearchOptions): SearchResult;
+    /** Navigate to the next search match. */
+    nextMatch(): SearchMatch | null;
+    /** Navigate to the previous search match. */
+    prevMatch(): SearchMatch | null;
+    /** Get the current active match. */
+    getActiveMatch(): SearchMatch | null;
+    /** Get the last search result. */
+    getLastResult(): SearchResult;
+    private searchPage;
+    /** Find bounding rects for a text range. */
+    private findMatchRects;
+}
+/** Plugin state for text operations. */
+interface TextPluginState {
+    /** Current search query. */
+    searchQuery: string;
+    /** Search options. */
+    searchOptions: SearchOptions;
+    /** Last search result. */
+    searchResult: SearchResult | null;
+    /** Active search match. */
+    activeMatch: SearchMatch | null;
+}
+/** Public API exposed by the text plugin. */
+interface TextPluginApi {
+    /** Extract text from a specific page. */
+    extractPageText(pageIndex: number): void;
+    /** Extract text from all pages. */
+    extractAllText(): void;
+    /** Search for text across all pages. */
+    search(query: string, options?: SearchOptions): SearchResult;
+    /** Navigate to next search match. */
+    searchNext(): SearchMatch | null;
+    /** Navigate to previous search match. */
+    searchPrev(): SearchMatch | null;
+    /** Clear search results. */
+    clearSearch(): void;
+    /** Get the text extractor instance. */
+    getExtractor(): TextExtractor;
+    /** Get the search engine instance. */
+    getSearchEngine(): SearchEngine;
+}
+/** Create the text extraction and search plugin. */
+declare function createTextPlugin(): PdfPlugin;
+export { SearchEngine, type SearchMatch, type SearchOptions, type SearchResult, TextExtractor, type TextExtractorConfig, type TextPluginApi, type TextPluginState, createTextPlugin };

package/dist/index.d.ts ADDED Viewed

@@ -0,0 +1,118 @@
+import { PdfCharInfo, PdfPageState, PdfTextContent, PdfRect, PdfPlugin } from '@gridstorm/pdf-core';
+/** Configuration for text extraction. */
+interface TextExtractorConfig {
+    /** Threshold for word break detection (in PDF points). */
+    wordSpacingThreshold?: number;
+    /** Threshold for line break detection (in PDF points). */
+    lineSpacingThreshold?: number;
+}
+/** Extracts structured text content from PDF text items. */
+declare class TextExtractor {
+    private wordSpacingThreshold;
+    private lineSpacingThreshold;
+    constructor(config?: TextExtractorConfig);
+    /** Extract text content from raw text items.
+     *  In Phase 2 this will accept pdf.js TextItem[]; for now it works with PdfCharInfo[]. */
+    extract(chars: PdfCharInfo[], _page: PdfPageState): PdfTextContent;
+    /** Build PdfCharInfo from a simple text string (for testing/placeholder). */
+    buildCharsFromString(text: string, startX: number, startY: number, fontSize: number, fontName?: string): PdfCharInfo[];
+    /** Segment characters into words based on spacing. */
+    private segmentWords;
+    /** Segment words into lines based on vertical position. */
+    private segmentLines;
+    private createLine;
+    /** Compute bounding rect for a set of characters. */
+    private boundingRect;
+}
+/** Search options. */
+interface SearchOptions {
+    /** Case-sensitive search. */
+    caseSensitive?: boolean;
+    /** Match whole words only. */
+    wholeWord?: boolean;
+    /** Use regex pattern. */
+    regex?: boolean;
+}
+/** A single search match. */
+interface SearchMatch {
+    /** Page index where the match was found. */
+    pageIndex: number;
+    /** Start character index within the page text. */
+    charStart: number;
+    /** End character index (exclusive). */
+    charEnd: number;
+    /** Bounding rectangles covering the match (may span multiple lines). */
+    rects: PdfRect[];
+    /** The matched text. */
+    text: string;
+}
+/** Search result set. */
+interface SearchResult {
+    /** All matches across all pages. */
+    matches: SearchMatch[];
+    /** Total match count. */
+    totalCount: number;
+    /** Currently active match index (-1 if none). */
+    activeIndex: number;
+}
+/** Search engine for finding text in PDF pages. */
+declare class SearchEngine {
+    private textContents;
+    private lastResult;
+    /** Set the text content for a page. */
+    setPageTextContent(pageIndex: number, textContent: PdfTextContent): void;
+    /** Clear text content for a page. */
+    clearPageTextContent(pageIndex: number): void;
+    /** Clear all cached text content. */
+    clearAll(): void;
+    /** Search for a query across all loaded pages. */
+    search(query: string, options?: SearchOptions): SearchResult;
+    /** Navigate to the next search match. */
+    nextMatch(): SearchMatch | null;
+    /** Navigate to the previous search match. */
+    prevMatch(): SearchMatch | null;
+    /** Get the current active match. */
+    getActiveMatch(): SearchMatch | null;
+    /** Get the last search result. */
+    getLastResult(): SearchResult;
+    private searchPage;
+    /** Find bounding rects for a text range. */
+    private findMatchRects;
+}
+/** Plugin state for text operations. */
+interface TextPluginState {
+    /** Current search query. */
+    searchQuery: string;
+    /** Search options. */
+    searchOptions: SearchOptions;
+    /** Last search result. */
+    searchResult: SearchResult | null;
+    /** Active search match. */
+    activeMatch: SearchMatch | null;
+}
+/** Public API exposed by the text plugin. */
+interface TextPluginApi {
+    /** Extract text from a specific page. */
+    extractPageText(pageIndex: number): void;
+    /** Extract text from all pages. */
+    extractAllText(): void;
+    /** Search for text across all pages. */
+    search(query: string, options?: SearchOptions): SearchResult;
+    /** Navigate to next search match. */
+    searchNext(): SearchMatch | null;
+    /** Navigate to previous search match. */
+    searchPrev(): SearchMatch | null;
+    /** Clear search results. */
+    clearSearch(): void;
+    /** Get the text extractor instance. */
+    getExtractor(): TextExtractor;
+    /** Get the search engine instance. */
+    getSearchEngine(): SearchEngine;
+}
+/** Create the text extraction and search plugin. */
+declare function createTextPlugin(): PdfPlugin;
+export { SearchEngine, type SearchMatch, type SearchOptions, type SearchResult, TextExtractor, type TextExtractorConfig, type TextPluginApi, type TextPluginState, createTextPlugin };

package/dist/index.js ADDED Viewed

@@ -0,0 +1,403 @@
+// src/text-extractor.ts
+var DEFAULT_WORD_SPACING = 3;
+var DEFAULT_LINE_SPACING = 5;
+var TextExtractor = class {
+  constructor(config = {}) {
+    this.wordSpacingThreshold = config.wordSpacingThreshold ?? DEFAULT_WORD_SPACING;
+    this.lineSpacingThreshold = config.lineSpacingThreshold ?? DEFAULT_LINE_SPACING;
+  }
+  /** Extract text content from raw text items.
+   *  In Phase 2 this will accept pdf.js TextItem[]; for now it works with PdfCharInfo[]. */
+  extract(chars, _page) {
+    if (chars.length === 0) {
+      return { chars, words: [], lines: [] };
+    }
+    const words = this.segmentWords(chars);
+    const lines = this.segmentLines(words, chars);
+    return { chars, words, lines };
+  }
+  /** Build PdfCharInfo from a simple text string (for testing/placeholder). */
+  buildCharsFromString(text, startX, startY, fontSize, fontName = "Helvetica") {
+    const chars = [];
+    let x = startX;
+    const charWidth = fontSize * 0.6;
+    for (let i = 0; i < text.length; i++) {
+      const char = text[i];
+      const rect = [x, startY, x + charWidth, startY + fontSize];
+      chars.push({
+        char,
+        rect,
+        fontName,
+        fontSize,
+        transform: [fontSize, 0, 0, fontSize, x, startY]
+      });
+      x += charWidth;
+    }
+    return chars;
+  }
+  /** Segment characters into words based on spacing. */
+  segmentWords(chars) {
+    if (chars.length === 0) return [];
+    const words = [];
+    let wordStart = 0;
+    let wordChars = [chars[0]];
+    for (let i = 1; i < chars.length; i++) {
+      const prev = chars[i - 1];
+      const curr = chars[i];
+      const gap = curr.rect[0] - prev.rect[2];
+      const isSpace = curr.char === " " || prev.char === " ";
+      const isNewLine = Math.abs(curr.rect[1] - prev.rect[1]) > this.lineSpacingThreshold;
+      const isWordBreak = gap > this.wordSpacingThreshold || isSpace || isNewLine;
+      if (isWordBreak) {
+        const text = wordChars.map((c) => c.char).join("").trim();
+        if (text.length > 0) {
+          words.push({
+            text,
+            rect: this.boundingRect(wordChars),
+            charIndices: [wordStart, wordStart + wordChars.length - 1]
+          });
+        }
+        if (curr.char !== " ") {
+          wordStart = i;
+          wordChars = [curr];
+        } else {
+          wordStart = i + 1;
+          wordChars = [];
+        }
+      } else {
+        wordChars.push(curr);
+      }
+    }
+    if (wordChars.length > 0) {
+      const text = wordChars.map((c) => c.char).join("").trim();
+      if (text.length > 0) {
+        words.push({
+          text,
+          rect: this.boundingRect(wordChars),
+          charIndices: [wordStart, wordStart + wordChars.length - 1]
+        });
+      }
+    }
+    return words;
+  }
+  /** Segment words into lines based on vertical position. */
+  segmentLines(words, _chars) {
+    if (words.length === 0) return [];
+    const lines = [];
+    let lineStart = 0;
+    let lineWords = [words[0]];
+    let lineY = words[0].rect[1];
+    for (let i = 1; i < words.length; i++) {
+      const word = words[i];
+      const yDiff = Math.abs(word.rect[1] - lineY);
+      if (yDiff > this.lineSpacingThreshold) {
+        lines.push(this.createLine(lineWords, lineStart));
+        lineStart = i;
+        lineWords = [word];
+        lineY = word.rect[1];
+      } else {
+        lineWords.push(word);
+      }
+    }
+    if (lineWords.length > 0) {
+      lines.push(this.createLine(lineWords, lineStart));
+    }
+    return lines;
+  }
+  createLine(words, startIndex) {
+    const text = words.map((w) => w.text).join(" ");
+    const rects = words.map((w) => w.rect);
+    const rect = [
+      Math.min(...rects.map((r) => r[0])),
+      Math.min(...rects.map((r) => r[1])),
+      Math.max(...rects.map((r) => r[2])),
+      Math.max(...rects.map((r) => r[3]))
+    ];
+    return {
+      text,
+      rect,
+      wordIndices: [startIndex, startIndex + words.length - 1]
+    };
+  }
+  /** Compute bounding rect for a set of characters. */
+  boundingRect(chars) {
+    let minX = Infinity, minY = Infinity, maxX = -Infinity, maxY = -Infinity;
+    for (const c of chars) {
+      if (c.rect[0] < minX) minX = c.rect[0];
+      if (c.rect[1] < minY) minY = c.rect[1];
+      if (c.rect[2] > maxX) maxX = c.rect[2];
+      if (c.rect[3] > maxY) maxY = c.rect[3];
+    }
+    return [minX, minY, maxX, maxY];
+  }
+};
+// src/search-engine.ts
+var SearchEngine = class {
+  constructor() {
+    this.textContents = /* @__PURE__ */ new Map();
+    this.lastResult = {
+      matches: [],
+      totalCount: 0,
+      activeIndex: -1
+    };
+  }
+  /** Set the text content for a page. */
+  setPageTextContent(pageIndex, textContent) {
+    this.textContents.set(pageIndex, textContent);
+  }
+  /** Clear text content for a page. */
+  clearPageTextContent(pageIndex) {
+    this.textContents.delete(pageIndex);
+  }
+  /** Clear all cached text content. */
+  clearAll() {
+    this.textContents.clear();
+    this.lastResult = { matches: [], totalCount: 0, activeIndex: -1 };
+  }
+  /** Search for a query across all loaded pages. */
+  search(query, options = {}) {
+    if (!query) {
+      this.lastResult = { matches: [], totalCount: 0, activeIndex: -1 };
+      return this.lastResult;
+    }
+    const matches = [];
+    const sortedPages = [...this.textContents.entries()].sort(
+      ([a], [b]) => a - b
+    );
+    for (const [pageIndex, textContent] of sortedPages) {
+      const pageMatches = this.searchPage(
+        pageIndex,
+        textContent,
+        query,
+        options
+      );
+      matches.push(...pageMatches);
+    }
+    this.lastResult = {
+      matches,
+      totalCount: matches.length,
+      activeIndex: matches.length > 0 ? 0 : -1
+    };
+    return this.lastResult;
+  }
+  /** Navigate to the next search match. */
+  nextMatch() {
+    if (this.lastResult.totalCount === 0) return null;
+    this.lastResult.activeIndex = (this.lastResult.activeIndex + 1) % this.lastResult.totalCount;
+    return this.lastResult.matches[this.lastResult.activeIndex] ?? null;
+  }
+  /** Navigate to the previous search match. */
+  prevMatch() {
+    if (this.lastResult.totalCount === 0) return null;
+    this.lastResult.activeIndex = (this.lastResult.activeIndex - 1 + this.lastResult.totalCount) % this.lastResult.totalCount;
+    return this.lastResult.matches[this.lastResult.activeIndex] ?? null;
+  }
+  /** Get the current active match. */
+  getActiveMatch() {
+    if (this.lastResult.activeIndex < 0 || this.lastResult.activeIndex >= this.lastResult.totalCount) {
+      return null;
+    }
+    return this.lastResult.matches[this.lastResult.activeIndex] ?? null;
+  }
+  /** Get the last search result. */
+  getLastResult() {
+    return this.lastResult;
+  }
+  searchPage(pageIndex, textContent, query, options) {
+    const matches = [];
+    const fullText = textContent.lines.map((l) => l.text).join("\n");
+    let pattern;
+    try {
+      if (options.regex) {
+        const flags = options.caseSensitive ? "g" : "gi";
+        pattern = new RegExp(query, flags);
+      } else {
+        const escaped = query.replace(/[.*+?^${}()|[\]\\]/g, "\\$&");
+        const flags = options.caseSensitive ? "g" : "gi";
+        const word = options.wholeWord ? `\\b${escaped}\\b` : escaped;
+        pattern = new RegExp(word, flags);
+      }
+    } catch {
+      return matches;
+    }
+    let match;
+    while ((match = pattern.exec(fullText)) !== null) {
+      const matchText = match[0];
+      const matchStart = match.index;
+      const matchEnd = matchStart + matchText.length;
+      const rects = this.findMatchRects(textContent, matchStart, matchEnd);
+      matches.push({
+        pageIndex,
+        charStart: matchStart,
+        charEnd: matchEnd,
+        rects,
+        text: matchText
+      });
+      if (matchText.length === 0) {
+        pattern.lastIndex++;
+      }
+    }
+    return matches;
+  }
+  /** Find bounding rects for a text range. */
+  findMatchRects(textContent, _start, _end) {
+    const rects = [];
+    let charOffset = 0;
+    for (const line of textContent.lines) {
+      const lineEnd = charOffset + line.text.length;
+      if (lineEnd > _start && charOffset < _end) {
+        for (let wi = line.wordIndices[0]; wi <= line.wordIndices[1]; wi++) {
+          const word = textContent.words[wi];
+          if (word) {
+            rects.push(word.rect);
+          }
+        }
+      }
+      charOffset = lineEnd + 1;
+    }
+    return rects.length > 0 ? rects : [[0, 0, 0, 0]];
+  }
+};
+// src/text-plugin.ts
+var INITIAL_STATE = {
+  searchQuery: "",
+  searchOptions: {},
+  searchResult: null,
+  activeMatch: null
+};
+function createTextPlugin() {
+  return {
+    id: "text",
+    name: "Text Extraction & Search",
+    version: "0.1.0",
+    install(context) {
+      const extractor = new TextExtractor();
+      const searchEngine = new SearchEngine();
+      context.registerState("text", { ...INITIAL_STATE });
+      const unsubExtract = context.commandBus.registerHandler(
+        "text:extract",
+        (payload) => {
+          const state = context.store.getState();
+          const page = state.pages[payload.pageIndex];
+          if (!page) return;
+          const chars = extractor.buildCharsFromString(
+            `Sample text for page ${payload.pageIndex + 1}`,
+            72,
+            // 1 inch margin
+            72,
+            12
+          );
+          const textContent = extractor.extract(chars, page);
+          context.store.setState((prev) => {
+            const pages = [...prev.pages];
+            const existing = pages[payload.pageIndex];
+            if (existing) {
+              pages[payload.pageIndex] = { ...existing, textContent };
+            }
+            return { ...prev, pages };
+          });
+          searchEngine.setPageTextContent(payload.pageIndex, textContent);
+          context.eventBus.emit("text:extracted", {
+            pageIndex: payload.pageIndex,
+            textContent
+          });
+        }
+      );
+      const unsubSearch = context.commandBus.registerHandler(
+        "text:search",
+        (payload) => {
+          const result = searchEngine.search(payload.query, payload.options);
+          context.setState("text", (prev) => ({
+            ...prev,
+            searchQuery: payload.query,
+            searchOptions: payload.options ?? {},
+            searchResult: result,
+            activeMatch: searchEngine.getActiveMatch()
+          }));
+          context.eventBus.emit("search:found", {
+            query: payload.query,
+            matches: result.matches,
+            total: result.totalCount
+          });
+        }
+      );
+      const unsubSearchNext = context.commandBus.registerHandler(
+        "text:searchNext",
+        () => {
+          const match = searchEngine.nextMatch();
+          context.setState("text", (prev) => ({
+            ...prev,
+            activeMatch: match,
+            searchResult: searchEngine.getLastResult()
+          }));
+          if (match) {
+            context.api.goToPage(match.pageIndex);
+          }
+        }
+      );
+      const unsubSearchPrev = context.commandBus.registerHandler(
+        "text:searchPrev",
+        () => {
+          const match = searchEngine.prevMatch();
+          context.setState("text", (prev) => ({
+            ...prev,
+            activeMatch: match,
+            searchResult: searchEngine.getLastResult()
+          }));
+          if (match) {
+            context.api.goToPage(match.pageIndex);
+          }
+        }
+      );
+      const pluginApi = {
+        extractPageText(pageIndex) {
+          context.commandBus.dispatch("text:extract", { pageIndex });
+        },
+        extractAllText() {
+          const state = context.store.getState();
+          for (let i = 0; i < state.pages.length; i++) {
+            context.commandBus.dispatch("text:extract", { pageIndex: i });
+          }
+        },
+        search(query, options) {
+          context.commandBus.dispatch("text:search", { query, options });
+          return searchEngine.getLastResult();
+        },
+        searchNext() {
+          context.commandBus.dispatch("text:searchNext", {});
+          return searchEngine.getActiveMatch();
+        },
+        searchPrev() {
+          context.commandBus.dispatch("text:searchPrev", {});
+          return searchEngine.getActiveMatch();
+        },
+        clearSearch() {
+          searchEngine.clearAll();
+          context.setState("text", () => ({
+            ...INITIAL_STATE
+          }));
+        },
+        getExtractor() {
+          return extractor;
+        },
+        getSearchEngine() {
+          return searchEngine;
+        }
+      };
+      context._pluginApi = pluginApi;
+      return () => {
+        unsubExtract();
+        unsubSearch();
+        unsubSearchNext();
+        unsubSearchPrev();
+        searchEngine.clearAll();
+      };
+    }
+  };
+}
+export { SearchEngine, TextExtractor, createTextPlugin };
+//# sourceMappingURL=index.js.map
+//# sourceMappingURL=index.js.map

package/dist/index.js.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"sources":["../src/text-extractor.ts","../src/search-engine.ts","../src/text-plugin.ts"],"names":[],"mappings":";AAsBA,IAAM,oBAAA,GAAuB,CAAA;AAC7B,IAAM,oBAAA,GAAuB,CAAA;AAGtB,IAAM,gBAAN,MAAoB;AAAA,EAIzB,WAAA,CAAY,MAAA,GAA8B,EAAC,EAAG;AAC5C,IAAA,IAAA,CAAK,oBAAA,GAAuB,OAAO,oBAAA,IAAwB,oBAAA;AAC3D,IAAA,IAAA,CAAK,oBAAA,GAAuB,OAAO,oBAAA,IAAwB,oBAAA;AAAA,EAC7D;AAAA;AAAA;AAAA,EAIA,OAAA,CAAQ,OAAsB,KAAA,EAAqC;AACjE,IAAA,IAAI,KAAA,CAAM,WAAW,CAAA,EAAG;AACtB,MAAA,OAAO,EAAE,KAAA,EAAO,KAAA,EAAO,EAAC,EAAG,KAAA,EAAO,EAAC,EAAE;AAAA,IACvC;AAEA,IAAA,MAAM,KAAA,GAAQ,IAAA,CAAK,YAAA,CAAa,KAAK,CAAA;AACrC,IAAA,MAAM,KAAA,GAAQ,IAAA,CAAK,YAAA,CAAa,KAAA,EAAO,KAAK,CAAA;AAE5C,IAAA,OAAO,EAAE,KAAA,EAAO,KAAA,EAAO,KAAA,EAAM;AAAA,EAC/B;AAAA;AAAA,EAGA,qBACE,IAAA,EACA,MAAA,EACA,MAAA,EACA,QAAA,EACA,WAAW,WAAA,EACI;AACf,IAAA,MAAM,QAAuB,EAAC;AAC9B,IAAA,IAAI,CAAA,GAAI,MAAA;AACR,IAAA,MAAM,YAAY,QAAA,GAAW,GAAA;AAE7B,IAAA,KAAA,IAAS,CAAA,GAAI,CAAA,EAAG,CAAA,GAAI,IAAA,CAAK,QAAQ,CAAA,EAAA,EAAK;AACpC,MAAA,MAAM,IAAA,GAAO,KAAK,CAAC,CAAA;AACnB,MAAA,MAAM,OAAgB,CAAC,CAAA,EAAG,QAAQ,CAAA,GAAI,SAAA,EAAW,SAAS,QAAQ,CAAA;AAElE,MAAA,KAAA,CAAM,IAAA,CAAK;AAAA,QACT,IAAA;AAAA,QACA,IAAA;AAAA,QACA,QAAA;AAAA,QACA,QAAA;AAAA,QACA,WAAW,CAAC,QAAA,EAAU,GAAG,CAAA,EAAG,QAAA,EAAU,GAAG,MAAM;AAAA,OAChD,CAAA;AAED,MAAA,CAAA,IAAK,SAAA;AAAA,IACP;AAEA,IAAA,OAAO,KAAA;AAAA,EACT;AAAA;AAAA,EAGQ,aAAa,KAAA,EAAqC;AACxD,IAAA,IAAI,KAAA,CAAM,MAAA,KAAW,CAAA,EAAG,OAAO,EAAC;AAEhC,IAAA,MAAM,QAAuB,EAAC;AAC9B,IAAA,IAAI,SAAA,GAAY,CAAA;AAChB,IAAA,IAAI,SAAA,GAA2B,CAAC,KAAA,CAAM,CAAC,CAAE,CAAA;AAEzC,IAAA,KAAA,IAAS,CAAA,GAAI,CAAA,EAAG,CAAA,GAAI,KAAA,CAAM,QAAQ,CAAA,EAAA,EAAK;AACrC,MAAA,MAAM,IAAA,GAAO,KAAA,CAAM,CAAA,GAAI,CAAC,CAAA;AACxB,MAAA,MAAM,IAAA,GAAO,MAAM,CAAC,CAAA;AAEpB,MAAA,MAAM,MAAM,IAAA,CAAK,IAAA,CAAK,CAAC,CAAA,GAAI,IAAA,CAAK,KAAK,CAAC,CAAA;AACtC,MAAA,MAAM,OAAA,GAAU,IAAA,CAAK,IAAA,KAAS,GAAA,IAAO,KAAK,IAAA,KAAS,GAAA;AACnD,MAAA,MAAM,SAAA,GAAY,IAAA,CAAK,GAAA,CAAI,IAAA,CAAK,IAAA,CAAK,CAAC,CAAA,GAAI,IAAA,CAAK,IAAA,CAAK,CAAC,CAAC,CAAA,GAAI,IAAA,CAAK,oBAAA;AAC/D,MAAA,MAAM,WAAA,GAAc,GAAA,GAAM,IAAA,CAAK,oBAAA,IAAwB,OAAA,IAAW,SAAA;AAElE,MAAA,IAAI,WAAA,EAAa;AAEf,QAAA,MAAM,IAAA,GAAO,SAAA,CAAU,GAAA,CAAI,CAAC,CAAA,KAAM,CAAA,CAAE,IAAI,CAAA,CAAE,IAAA,CAAK,EAAE,CAAA,CAAE,IAAA,EAAK;AACxD,QAAA,IAAI,IAAA,CAAK,SAAS,CAAA,EAAG;AACnB,UAAA,KAAA,CAAM,IAAA,CAAK;AAAA,YACT,IAAA;AAAA,YACA,IAAA,EAAM,IAAA,CAAK,YAAA,CAAa,SAAS,CAAA;AAAA,YACjC,aAAa,CAAC,SAAA,EAAW,SAAA,GAAY,SAAA,CAAU,SAAS,CAAC;AAAA,WAC1D,CAAA;AAAA,QACH;AAGA,QAAA,IAAI,IAAA,CAAK,SAAS,GAAA,EAAK;AACrB,UAAA,SAAA,GAAY,CAAA;AACZ,UAAA,SAAA,GAAY,CAAC,IAAI,CAAA;AAAA,QACnB,CAAA,MAAO;AACL,UAAA,SAAA,GAAY,CAAA,GAAI,CAAA;AAChB,UAAA,SAAA,GAAY,EAAC;AAAA,QACf;AAAA,MACF,CAAA,MAAO;AACL,QAAA,SAAA,CAAU,KAAK,IAAI,CAAA;AAAA,MACrB;AAAA,IACF;AAGA,IAAA,IAAI,SAAA,CAAU,SAAS,CAAA,EAAG;AACxB,MAAA,MAAM,IAAA,GAAO,SAAA,CAAU,GAAA,CAAI,CAAC,CAAA,KAAM,CAAA,CAAE,IAAI,CAAA,CAAE,IAAA,CAAK,EAAE,CAAA,CAAE,IAAA,EAAK;AACxD,MAAA,IAAI,IAAA,CAAK,SAAS,CAAA,EAAG;AACnB,QAAA,KAAA,CAAM,IAAA,CAAK;AAAA,UACT,IAAA;AAAA,UACA,IAAA,EAAM,IAAA,CAAK,YAAA,CAAa,SAAS,CAAA;AAAA,UACjC,aAAa,CAAC,SAAA,EAAW,SAAA,GAAY,SAAA,CAAU,SAAS,CAAC;AAAA,SAC1D,CAAA;AAAA,MACH;AAAA,IACF;AAEA,IAAA,OAAO,KAAA;AAAA,EACT;AAAA;AAAA,EAGQ,YAAA,CAAa,OAAsB,MAAA,EAAsC;AAC/E,IAAA,IAAI,KAAA,CAAM,MAAA,KAAW,CAAA,EAAG,OAAO,EAAC;AAEhC,IAAA,MAAM,QAAuB,EAAC;AAC9B,IAAA,IAAI,SAAA,GAAY,CAAA;AAChB,IAAA,IAAI,SAAA,GAA2B,CAAC,KAAA,CAAM,CAAC,CAAE,CAAA;AACzC,IAAA,IAAI,KAAA,GAAQ,KAAA,CAAM,CAAC,CAAA,CAAG,KAAK,CAAC,CAAA;AAE5B,IAAA,KAAA,IAAS,CAAA,GAAI,CAAA,EAAG,CAAA,GAAI,KAAA,CAAM,QAAQ,CAAA,EAAA,EAAK;AACrC,MAAA,MAAM,IAAA,GAAO,MAAM,CAAC,CAAA;AACpB,MAAA,MAAM,QAAQ,IAAA,CAAK,GAAA,CAAI,KAAK,IAAA,CAAK,CAAC,IAAI,KAAK,CAAA;AAE3C,MAAA,IAAI,KAAA,GAAQ,KAAK,oBAAA,EAAsB;AAErC,QAAA,KAAA,CAAM,IAAA,CAAK,IAAA,CAAK,UAAA,CAAW,SAAA,EAAW,SAAS,CAAC,CAAA;AAChD,QAAA,SAAA,GAAY,CAAA;AACZ,QAAA,SAAA,GAAY,CAAC,IAAI,CAAA;AACjB,QAAA,KAAA,GAAQ,IAAA,CAAK,KAAK,CAAC,CAAA;AAAA,MACrB,CAAA,MAAO;AACL,QAAA,SAAA,CAAU,KAAK,IAAI,CAAA;AAAA,MACrB;AAAA,IACF;AAGA,IAAA,IAAI,SAAA,CAAU,SAAS,CAAA,EAAG;AACxB,MAAA,KAAA,CAAM,IAAA,CAAK,IAAA,CAAK,UAAA,CAAW,SAAA,EAAW,SAAS,CAAC,CAAA;AAAA,IAClD;AAEA,IAAA,OAAO,KAAA;AAAA,EACT;AAAA,EAEQ,UAAA,CAAW,OAAsB,UAAA,EAAiC;AACxE,IAAA,MAAM,IAAA,GAAO,MAAM,GAAA,CAAI,CAAC,MAAM,CAAA,CAAE,IAAI,CAAA,CAAE,IAAA,CAAK,GAAG,CAAA;AAC9C,IAAA,MAAM,QAAQ,KAAA,CAAM,GAAA,CAAI,CAAC,CAAA,KAAM,EAAE,IAAI,CAAA;AACrC,IAAA,MAAM,IAAA,GAAgB;AAAA,MACpB,IAAA,CAAK,GAAA,CAAI,GAAG,KAAA,CAAM,GAAA,CAAI,CAAC,CAAA,KAAM,CAAA,CAAE,CAAC,CAAC,CAAC,CAAA;AAAA,MAClC,IAAA,CAAK,GAAA,CAAI,GAAG,KAAA,CAAM,GAAA,CAAI,CAAC,CAAA,KAAM,CAAA,CAAE,CAAC,CAAC,CAAC,CAAA;AAAA,MAClC,IAAA,CAAK,GAAA,CAAI,GAAG,KAAA,CAAM,GAAA,CAAI,CAAC,CAAA,KAAM,CAAA,CAAE,CAAC,CAAC,CAAC,CAAA;AAAA,MAClC,IAAA,CAAK,GAAA,CAAI,GAAG,KAAA,CAAM,GAAA,CAAI,CAAC,CAAA,KAAM,CAAA,CAAE,CAAC,CAAC,CAAC;AAAA,KACpC;AACA,IAAA,OAAO;AAAA,MACL,IAAA;AAAA,MACA,IAAA;AAAA,MACA,aAAa,CAAC,UAAA,EAAY,UAAA,GAAa,KAAA,CAAM,SAAS,CAAC;AAAA,KACzD;AAAA,EACF;AAAA;AAAA,EAGQ,aAAa,KAAA,EAA+B;AAClD,IAAA,IAAI,OAAO,QAAA,EACT,IAAA,GAAO,QAAA,EACP,IAAA,GAAO,WACP,IAAA,GAAO,CAAA,QAAA;AAET,IAAA,KAAA,MAAW,KAAK,KAAA,EAAO;AACrB,MAAA,IAAI,CAAA,CAAE,KAAK,CAAC,CAAA,GAAI,MAAM,IAAA,GAAO,CAAA,CAAE,KAAK,CAAC,CAAA;AACrC,MAAA,IAAI,CAAA,CAAE,KAAK,CAAC,CAAA,GAAI,MAAM,IAAA,GAAO,CAAA,CAAE,KAAK,CAAC,CAAA;AACrC,MAAA,IAAI,CAAA,CAAE,KAAK,CAAC,CAAA,GAAI,MAAM,IAAA,GAAO,CAAA,CAAE,KAAK,CAAC,CAAA;AACrC,MAAA,IAAI,CAAA,CAAE,KAAK,CAAC,CAAA,GAAI,MAAM,IAAA,GAAO,CAAA,CAAE,KAAK,CAAC,CAAA;AAAA,IACvC;AAEA,IAAA,OAAO,CAAC,IAAA,EAAM,IAAA,EAAM,IAAA,EAAM,IAAI,CAAA;AAAA,EAChC;AACF;;;AC7JO,IAAM,eAAN,MAAmB;AAAA,EAAnB,WAAA,GAAA;AACL,IAAA,IAAA,CAAQ,YAAA,uBAAmB,GAAA,EAA4B;AACvD,IAAA,IAAA,CAAQ,UAAA,GAA2B;AAAA,MACjC,SAAS,EAAC;AAAA,MACV,UAAA,EAAY,CAAA;AAAA,MACZ,WAAA,EAAa;AAAA,KACf;AAAA,EAAA;AAAA;AAAA,EAGA,kBAAA,CAAmB,WAAmB,WAAA,EAAmC;AACvE,IAAA,IAAA,CAAK,YAAA,CAAa,GAAA,CAAI,SAAA,EAAW,WAAW,CAAA;AAAA,EAC9C;AAAA;AAAA,EAGA,qBAAqB,SAAA,EAAyB;AAC5C,IAAA,IAAA,CAAK,YAAA,CAAa,OAAO,SAAS,CAAA;AAAA,EACpC;AAAA;AAAA,EAGA,QAAA,GAAiB;AACf,IAAA,IAAA,CAAK,aAAa,KAAA,EAAM;AACxB,IAAA,IAAA,CAAK,UAAA,GAAa,EAAE,OAAA,EAAS,IAAI,UAAA,EAAY,CAAA,EAAG,aAAa,EAAA,EAAG;AAAA,EAClE;AAAA;AAAA,EAGA,MAAA,CAAO,KAAA,EAAe,OAAA,GAAyB,EAAC,EAAiB;AAC/D,IAAA,IAAI,CAAC,KAAA,EAAO;AACV,MAAA,IAAA,CAAK,UAAA,GAAa,EAAE,OAAA,EAAS,IAAI,UAAA,EAAY,CAAA,EAAG,aAAa,EAAA,EAAG;AAChE,MAAA,OAAO,IAAA,CAAK,UAAA;AAAA,IACd;AAEA,IAAA,MAAM,UAAyB,EAAC;AAGhC,IAAA,MAAM,cAAc,CAAC,GAAG,KAAK,YAAA,CAAa,OAAA,EAAS,CAAA,CAAE,IAAA;AAAA,MACnD,CAAC,CAAC,CAAC,GAAG,CAAC,CAAC,MAAM,CAAA,GAAI;AAAA,KACpB;AAEA,IAAA,KAAA,MAAW,CAAC,SAAA,EAAW,WAAW,CAAA,IAAK,WAAA,EAAa;AAClD,MAAA,MAAM,cAAc,IAAA,CAAK,UAAA;AAAA,QACvB,SAAA;AAAA,QACA,WAAA;AAAA,QACA,KAAA;AAAA,QACA;AAAA,OACF;AACA,MAAA,OAAA,CAAQ,IAAA,CAAK,GAAG,WAAW,CAAA;AAAA,IAC7B;AAEA,IAAA,IAAA,CAAK,UAAA,GAAa;AAAA,MAChB,OAAA;AAAA,MACA,YAAY,OAAA,CAAQ,MAAA;AAAA,MACpB,WAAA,EAAa,OAAA,CAAQ,MAAA,GAAS,CAAA,GAAI,CAAA,GAAI;AAAA,KACxC;AAEA,IAAA,OAAO,IAAA,CAAK,UAAA;AAAA,EACd;AAAA;AAAA,EAGA,SAAA,GAAgC;AAC9B,IAAA,IAAI,IAAA,CAAK,UAAA,CAAW,UAAA,KAAe,CAAA,EAAG,OAAO,IAAA;AAE7C,IAAA,IAAA,CAAK,WAAW,WAAA,GAAA,CACb,IAAA,CAAK,WAAW,WAAA,GAAc,CAAA,IAAK,KAAK,UAAA,CAAW,UAAA;AACtD,IAAA,OAAO,KAAK,UAAA,CAAW,OAAA,CAAQ,IAAA,CAAK,UAAA,CAAW,WAAW,CAAA,IAAK,IAAA;AAAA,EACjE;AAAA;AAAA,EAGA,SAAA,GAAgC;AAC9B,IAAA,IAAI,IAAA,CAAK,UAAA,CAAW,UAAA,KAAe,CAAA,EAAG,OAAO,IAAA;AAE7C,IAAA,IAAA,CAAK,UAAA,CAAW,WAAA,GAAA,CACb,IAAA,CAAK,UAAA,CAAW,WAAA,GAAc,IAAI,IAAA,CAAK,UAAA,CAAW,UAAA,IACnD,IAAA,CAAK,UAAA,CAAW,UAAA;AAClB,IAAA,OAAO,KAAK,UAAA,CAAW,OAAA,CAAQ,IAAA,CAAK,UAAA,CAAW,WAAW,CAAA,IAAK,IAAA;AAAA,EACjE;AAAA;AAAA,EAGA,cAAA,GAAqC;AACnC,IAAA,IACE,IAAA,CAAK,WAAW,WAAA,GAAc,CAAA,IAC9B,KAAK,UAAA,CAAW,WAAA,IAAe,IAAA,CAAK,UAAA,CAAW,UAAA,EAC/C;AACA,MAAA,OAAO,IAAA;AAAA,IACT;AACA,IAAA,OAAO,KAAK,UAAA,CAAW,OAAA,CAAQ,IAAA,CAAK,UAAA,CAAW,WAAW,CAAA,IAAK,IAAA;AAAA,EACjE;AAAA;AAAA,EAGA,aAAA,GAA8B;AAC5B,IAAA,OAAO,IAAA,CAAK,UAAA;AAAA,EACd;AAAA,EAEQ,UAAA,CACN,SAAA,EACA,WAAA,EACA,KAAA,EACA,OAAA,EACe;AACf,IAAA,MAAM,UAAyB,EAAC;AAGhC,IAAA,MAAM,QAAA,GAAW,WAAA,CAAY,KAAA,CAAM,GAAA,CAAI,CAAC,MAAM,CAAA,CAAE,IAAI,CAAA,CAAE,IAAA,CAAK,IAAI,CAAA;AAE/D,IAAA,IAAI,OAAA;AACJ,IAAA,IAAI;AACF,MAAA,IAAI,QAAQ,KAAA,EAAO;AACjB,QAAA,MAAM,KAAA,GAAQ,OAAA,CAAQ,aAAA,GAAgB,GAAA,GAAM,IAAA;AAC5C,QAAA,OAAA,GAAU,IAAI,MAAA,CAAO,KAAA,EAAO,KAAK,CAAA;AAAA,MACnC,CAAA,MAAO;AACL,QAAA,MAAM,OAAA,GAAU,KAAA,CAAM,OAAA,CAAQ,qBAAA,EAAuB,MAAM,CAAA;AAC3D,QAAA,MAAM,KAAA,GAAQ,OAAA,CAAQ,aAAA,GAAgB,GAAA,GAAM,IAAA;AAC5C,QAAA,MAAM,IAAA,GAAO,OAAA,CAAQ,SAAA,GAAY,CAAA,GAAA,EAAM,OAAO,CAAA,GAAA,CAAA,GAAQ,OAAA;AACtD,QAAA,OAAA,GAAU,IAAI,MAAA,CAAO,IAAA,EAAM,KAAK,CAAA;AAAA,MAClC;AAAA,IACF,CAAA,CAAA,MAAQ;AACN,MAAA,OAAO,OAAA;AAAA,IACT;AAEA,IAAA,IAAI,KAAA;AACJ,IAAA,OAAA,CAAQ,KAAA,GAAQ,OAAA,CAAQ,IAAA,CAAK,QAAQ,OAAO,IAAA,EAAM;AAChD,MAAA,MAAM,SAAA,GAAY,MAAM,CAAC,CAAA;AACzB,MAAA,MAAM,aAAa,KAAA,CAAM,KAAA;AACzB,MAAA,MAAM,QAAA,GAAW,aAAa,SAAA,CAAU,MAAA;AAGxC,MAAA,MAAM,KAAA,GAAQ,IAAA,CAAK,cAAA,CAAe,WAAA,EAAa,YAAY,QAAQ,CAAA;AAEnE,MAAA,OAAA,CAAQ,IAAA,CAAK;AAAA,QACX,SAAA;AAAA,QACA,SAAA,EAAW,UAAA;AAAA,QACX,OAAA,EAAS,QAAA;AAAA,QACT,KAAA;AAAA,QACA,IAAA,EAAM;AAAA,OACP,CAAA;AAGD,MAAA,IAAI,SAAA,CAAU,WAAW,CAAA,EAAG;AAC1B,QAAA,OAAA,CAAQ,SAAA,EAAA;AAAA,MACV;AAAA,IACF;AAEA,IAAA,OAAO,OAAA;AAAA,EACT;AAAA;AAAA,EAGQ,cAAA,CACN,WAAA,EACA,MAAA,EACA,IAAA,EACW;AAGX,IAAA,MAAM,QAAmB,EAAC;AAG1B,IAAA,IAAI,UAAA,GAAa,CAAA;AACjB,IAAA,KAAA,MAAW,IAAA,IAAQ,YAAY,KAAA,EAAO;AACpC,MAAA,MAAM,OAAA,GAAU,UAAA,GAAa,IAAA,CAAK,IAAA,CAAK,MAAA;AAEvC,MAAA,IAAI,OAAA,GAAU,MAAA,IAAU,UAAA,GAAa,IAAA,EAAM;AAEzC,QAAA,KAAA,IAAS,EAAA,GAAK,IAAA,CAAK,WAAA,CAAY,CAAC,CAAA,EAAG,MAAM,IAAA,CAAK,WAAA,CAAY,CAAC,CAAA,EAAG,EAAA,EAAA,EAAM;AAClE,UAAA,MAAM,IAAA,GAAO,WAAA,CAAY,KAAA,CAAM,EAAE,CAAA;AACjC,UAAA,IAAI,IAAA,EAAM;AACR,YAAA,KAAA,CAAM,IAAA,CAAK,KAAK,IAAI,CAAA;AAAA,UACtB;AAAA,QACF;AAAA,MACF;AAEA,MAAA,UAAA,GAAa,OAAA,GAAU,CAAA;AAAA,IACzB;AAEA,IAAA,OAAO,KAAA,CAAM,MAAA,GAAS,CAAA,GAAI,KAAA,GAAQ,CAAC,CAAC,CAAA,EAAG,CAAA,EAAG,CAAA,EAAG,CAAC,CAAC,CAAA;AAAA,EACjD;AACF;;;AC1KA,IAAM,aAAA,GAAiC;AAAA,EACrC,WAAA,EAAa,EAAA;AAAA,EACb,eAAe,EAAC;AAAA,EAChB,YAAA,EAAc,IAAA;AAAA,EACd,WAAA,EAAa;AACf,CAAA;AAGO,SAAS,gBAAA,GAA8B;AAC5C,EAAA,OAAO;AAAA,IACL,EAAA,EAAI,MAAA;AAAA,IACJ,IAAA,EAAM,0BAAA;AAAA,IACN,OAAA,EAAS,OAAA;AAAA,IAET,QAAQ,OAAA,EAA8C;AACpD,MAAA,MAAM,SAAA,GAAY,IAAI,aAAA,EAAc;AACpC,MAAA,MAAM,YAAA,GAAe,IAAI,YAAA,EAAa;AAGtC,MAAA,OAAA,CAAQ,aAAA,CAA+B,MAAA,EAAQ,EAAE,GAAG,eAAe,CAAA;AAInE,MAAA,MAAM,YAAA,GAAe,QAAQ,UAAA,CAAW,eAAA;AAAA,QACtC,cAAA;AAAA,QACA,CAAC,OAAA,KAAmC;AAClC,UAAA,MAAM,KAAA,GAAQ,OAAA,CAAQ,KAAA,CAAM,QAAA,EAAS;AACrC,UAAA,MAAM,IAAA,GAAO,KAAA,CAAM,KAAA,CAAM,OAAA,CAAQ,SAAS,CAAA;AAC1C,UAAA,IAAI,CAAC,IAAA,EAAM;AAGX,UAAA,MAAM,QAAQ,SAAA,CAAU,oBAAA;AAAA,YACtB,CAAA,qBAAA,EAAwB,OAAA,CAAQ,SAAA,GAAY,CAAC,CAAA,CAAA;AAAA,YAC7C,EAAA;AAAA;AAAA,YACA,EAAA;AAAA,YACA;AAAA,WACF;AAEA,UAAA,MAAM,WAAA,GAAc,SAAA,CAAU,OAAA,CAAQ,KAAA,EAAO,IAAI,CAAA;AAGjD,UAAA,OAAA,CAAQ,KAAA,CAAM,QAAA,CAAS,CAAC,IAAA,KAAS;AAC/B,YAAA,MAAM,KAAA,GAAQ,CAAC,GAAG,IAAA,CAAK,KAAK,CAAA;AAC5B,YAAA,MAAM,QAAA,GAAW,KAAA,CAAM,OAAA,CAAQ,SAAS,CAAA;AACxC,YAAA,IAAI,QAAA,EAAU;AACZ,cAAA,KAAA,CAAM,QAAQ,SAAS,CAAA,GAAI,EAAE,GAAG,UAAU,WAAA,EAAY;AAAA,YACxD;AACA,YAAA,OAAO,EAAE,GAAG,IAAA,EAAM,KAAA,EAAM;AAAA,UAC1B,CAAC,CAAA;AAGD,UAAA,YAAA,CAAa,kBAAA,CAAmB,OAAA,CAAQ,SAAA,EAAW,WAAW,CAAA;AAE9D,UAAA,OAAA,CAAQ,QAAA,CAAS,KAAK,gBAAA,EAAkB;AAAA,YACtC,WAAW,OAAA,CAAQ,SAAA;AAAA,YACnB;AAAA,WACD,CAAA;AAAA,QACH;AAAA,OACF;AAEA,MAAA,MAAM,WAAA,GAAc,QAAQ,UAAA,CAAW,eAAA;AAAA,QACrC,aAAA;AAAA,QACA,CAAC,OAAA,KAAwD;AACvD,UAAA,MAAM,SAAS,YAAA,CAAa,MAAA,CAAO,OAAA,CAAQ,KAAA,EAAO,QAAQ,OAAO,CAAA;AAEjE,UAAA,OAAA,CAAQ,QAAA,CAA0B,MAAA,EAAQ,CAAC,IAAA,MAAU;AAAA,YACnD,GAAG,IAAA;AAAA,YACH,aAAa,OAAA,CAAQ,KAAA;AAAA,YACrB,aAAA,EAAe,OAAA,CAAQ,OAAA,IAAW,EAAC;AAAA,YACnC,YAAA,EAAc,MAAA;AAAA,YACd,WAAA,EAAa,aAAa,cAAA;AAAe,WAC3C,CAAE,CAAA;AAEF,UAAA,OAAA,CAAQ,QAAA,CAAS,KAAK,cAAA,EAAgB;AAAA,YACpC,OAAO,OAAA,CAAQ,KAAA;AAAA,YACf,SAAS,MAAA,CAAO,OAAA;AAAA,YAChB,OAAO,MAAA,CAAO;AAAA,WACf,CAAA;AAAA,QACH;AAAA,OACF;AAEA,MAAA,MAAM,eAAA,GAAkB,QAAQ,UAAA,CAAW,eAAA;AAAA,QACzC,iBAAA;AAAA,QACA,MAAM;AACJ,UAAA,MAAM,KAAA,GAAQ,aAAa,SAAA,EAAU;AACrC,UAAA,OAAA,CAAQ,QAAA,CAA0B,MAAA,EAAQ,CAAC,IAAA,MAAU;AAAA,YACnD,GAAG,IAAA;AAAA,YACH,WAAA,EAAa,KAAA;AAAA,YACb,YAAA,EAAc,aAAa,aAAA;AAAc,WAC3C,CAAE,CAAA;AAEF,UAAA,IAAI,KAAA,EAAO;AAET,YAAA,OAAA,CAAQ,GAAA,CAAI,QAAA,CAAS,KAAA,CAAM,SAAS,CAAA;AAAA,UACtC;AAAA,QACF;AAAA,OACF;AAEA,MAAA,MAAM,eAAA,GAAkB,QAAQ,UAAA,CAAW,eAAA;AAAA,QACzC,iBAAA;AAAA,QACA,MAAM;AACJ,UAAA,MAAM,KAAA,GAAQ,aAAa,SAAA,EAAU;AACrC,UAAA,OAAA,CAAQ,QAAA,CAA0B,MAAA,EAAQ,CAAC,IAAA,MAAU;AAAA,YACnD,GAAG,IAAA;AAAA,YACH,WAAA,EAAa,KAAA;AAAA,YACb,YAAA,EAAc,aAAa,aAAA;AAAc,WAC3C,CAAE,CAAA;AAEF,UAAA,IAAI,KAAA,EAAO;AACT,YAAA,OAAA,CAAQ,GAAA,CAAI,QAAA,CAAS,KAAA,CAAM,SAAS,CAAA;AAAA,UACtC;AAAA,QACF;AAAA,OACF;AAIA,MAAA,MAAM,SAAA,GAA2B;AAAA,QAC/B,gBAAgB,SAAA,EAAmB;AACjC,UAAA,OAAA,CAAQ,UAAA,CAAW,QAAA,CAAS,cAAA,EAAgB,EAAE,WAAW,CAAA;AAAA,QAC3D,CAAA;AAAA,QACA,cAAA,GAAiB;AACf,UAAA,MAAM,KAAA,GAAQ,OAAA,CAAQ,KAAA,CAAM,QAAA,EAAS;AACrC,UAAA,KAAA,IAAS,IAAI,CAAA,EAAG,CAAA,GAAI,KAAA,CAAM,KAAA,CAAM,QAAQ,CAAA,EAAA,EAAK;AAC3C,YAAA,OAAA,CAAQ,WAAW,QAAA,CAAS,cAAA,EAAgB,EAAE,SAAA,EAAW,GAAG,CAAA;AAAA,UAC9D;AAAA,QACF,CAAA;AAAA,QACA,MAAA,CAAO,OAAe,OAAA,EAAyB;AAC7C,UAAA,OAAA,CAAQ,WAAW,QAAA,CAAS,aAAA,EAAe,EAAE,KAAA,EAAO,SAAS,CAAA;AAC7D,UAAA,OAAO,aAAa,aAAA,EAAc;AAAA,QACpC,CAAA;AAAA,QACA,UAAA,GAAa;AACX,UAAA,OAAA,CAAQ,UAAA,CAAW,QAAA,CAAS,iBAAA,EAAmB,EAAE,CAAA;AACjD,UAAA,OAAO,aAAa,cAAA,EAAe;AAAA,QACrC,CAAA;AAAA,QACA,UAAA,GAAa;AACX,UAAA,OAAA,CAAQ,UAAA,CAAW,QAAA,CAAS,iBAAA,EAAmB,EAAE,CAAA;AACjD,UAAA,OAAO,aAAa,cAAA,EAAe;AAAA,QACrC,CAAA;AAAA,QACA,WAAA,GAAc;AACZ,UAAA,YAAA,CAAa,QAAA,EAAS;AACtB,UAAA,OAAA,CAAQ,QAAA,CAA0B,QAAQ,OAAO;AAAA,YAC/C,GAAG;AAAA,WACL,CAAE,CAAA;AAAA,QACJ,CAAA;AAAA,QACA,YAAA,GAAe;AACb,UAAA,OAAO,SAAA;AAAA,QACT,CAAA;AAAA,QACA,eAAA,GAAkB;AAChB,UAAA,OAAO,YAAA;AAAA,QACT;AAAA,OACF;AAGA,MAAC,QAAgB,UAAA,GAAa,SAAA;AAE9B,MAAA,OAAO,MAAM;AACX,QAAA,YAAA,EAAa;AACb,QAAA,WAAA,EAAY;AACZ,QAAA,eAAA,EAAgB;AAChB,QAAA,eAAA,EAAgB;AAChB,QAAA,YAAA,CAAa,QAAA,EAAS;AAAA,MACxB,CAAA;AAAA,IACF;AAAA,GACF;AACF","file":"index.js","sourcesContent":["// ─── Text Extractor ───\n//\n// Extracts text content from PDF pages with character, word, and line bounding boxes.\n// Phase 1 implementation uses synthetic extraction; Phase 2 will integrate pdf.js getTextContent().\n\nimport type {\n PdfTextContent,\n PdfCharInfo,\n PdfWordInfo,\n PdfLineInfo,\n PdfRect,\n PdfPageState,\n} from '@gridstorm/pdf-core';\n\n/** Configuration for text extraction. */\nexport interface TextExtractorConfig {\n /** Threshold for word break detection (in PDF points). */\n wordSpacingThreshold?: number;\n /** Threshold for line break detection (in PDF points). */\n lineSpacingThreshold?: number;\n}\n\nconst DEFAULT_WORD_SPACING = 3;\nconst DEFAULT_LINE_SPACING = 5;\n\n/** Extracts structured text content from PDF text items. */\nexport class TextExtractor {\n private wordSpacingThreshold: number;\n private lineSpacingThreshold: number;\n\n constructor(config: TextExtractorConfig = {}) {\n this.wordSpacingThreshold = config.wordSpacingThreshold ?? DEFAULT_WORD_SPACING;\n this.lineSpacingThreshold = config.lineSpacingThreshold ?? DEFAULT_LINE_SPACING;\n }\n\n /** Extract text content from raw text items.\n * In Phase 2 this will accept pdf.js TextItem[]; for now it works with PdfCharInfo[]. */\n extract(chars: PdfCharInfo[], _page: PdfPageState): PdfTextContent {\n if (chars.length === 0) {\n return { chars, words: [], lines: [] };\n }\n\n const words = this.segmentWords(chars);\n const lines = this.segmentLines(words, chars);\n\n return { chars, words, lines };\n }\n\n /** Build PdfCharInfo from a simple text string (for testing/placeholder). */\n buildCharsFromString(\n text: string,\n startX: number,\n startY: number,\n fontSize: number,\n fontName = 'Helvetica',\n ): PdfCharInfo[] {\n const chars: PdfCharInfo[] = [];\n let x = startX;\n const charWidth = fontSize * 0.6; // Approximate monospace width\n\n for (let i = 0; i < text.length; i++) {\n const char = text[i]!;\n const rect: PdfRect = [x, startY, x + charWidth, startY + fontSize];\n\n chars.push({\n char,\n rect,\n fontName,\n fontSize,\n transform: [fontSize, 0, 0, fontSize, x, startY],\n });\n\n x += charWidth;\n }\n\n return chars;\n }\n\n /** Segment characters into words based on spacing. */\n private segmentWords(chars: PdfCharInfo[]): PdfWordInfo[] {\n if (chars.length === 0) return [];\n\n const words: PdfWordInfo[] = [];\n let wordStart = 0;\n let wordChars: PdfCharInfo[] = [chars[0]!];\n\n for (let i = 1; i < chars.length; i++) {\n const prev = chars[i - 1]!;\n const curr = chars[i]!;\n\n const gap = curr.rect[0] - prev.rect[2]; // x1 of current - x2 of previous\n const isSpace = curr.char === ' ' || prev.char === ' ';\n const isNewLine = Math.abs(curr.rect[1] - prev.rect[1]) > this.lineSpacingThreshold;\n const isWordBreak = gap > this.wordSpacingThreshold || isSpace || isNewLine;\n\n if (isWordBreak) {\n // Complete current word (skip if only spaces)\n const text = wordChars.map((c) => c.char).join('').trim();\n if (text.length > 0) {\n words.push({\n text,\n rect: this.boundingRect(wordChars),\n charIndices: [wordStart, wordStart + wordChars.length - 1],\n });\n }\n\n // Skip space characters\n if (curr.char !== ' ') {\n wordStart = i;\n wordChars = [curr];\n } else {\n wordStart = i + 1;\n wordChars = [];\n }\n } else {\n wordChars.push(curr);\n }\n }\n\n // Final word\n if (wordChars.length > 0) {\n const text = wordChars.map((c) => c.char).join('').trim();\n if (text.length > 0) {\n words.push({\n text,\n rect: this.boundingRect(wordChars),\n charIndices: [wordStart, wordStart + wordChars.length - 1],\n });\n }\n }\n\n return words;\n }\n\n /** Segment words into lines based on vertical position. */\n private segmentLines(words: PdfWordInfo[], _chars: PdfCharInfo[]): PdfLineInfo[] {\n if (words.length === 0) return [];\n\n const lines: PdfLineInfo[] = [];\n let lineStart = 0;\n let lineWords: PdfWordInfo[] = [words[0]!];\n let lineY = words[0]!.rect[1]; // y1 of first word\n\n for (let i = 1; i < words.length; i++) {\n const word = words[i]!;\n const yDiff = Math.abs(word.rect[1] - lineY);\n\n if (yDiff > this.lineSpacingThreshold) {\n // New line\n lines.push(this.createLine(lineWords, lineStart));\n lineStart = i;\n lineWords = [word];\n lineY = word.rect[1];\n } else {\n lineWords.push(word);\n }\n }\n\n // Final line\n if (lineWords.length > 0) {\n lines.push(this.createLine(lineWords, lineStart));\n }\n\n return lines;\n }\n\n private createLine(words: PdfWordInfo[], startIndex: number): PdfLineInfo {\n const text = words.map((w) => w.text).join(' ');\n const rects = words.map((w) => w.rect);\n const rect: PdfRect = [\n Math.min(...rects.map((r) => r[0])),\n Math.min(...rects.map((r) => r[1])),\n Math.max(...rects.map((r) => r[2])),\n Math.max(...rects.map((r) => r[3])),\n ];\n return {\n text,\n rect,\n wordIndices: [startIndex, startIndex + words.length - 1],\n };\n }\n\n /** Compute bounding rect for a set of characters. */\n private boundingRect(chars: PdfCharInfo[]): PdfRect {\n let minX = Infinity,\n minY = Infinity,\n maxX = -Infinity,\n maxY = -Infinity;\n\n for (const c of chars) {\n if (c.rect[0] < minX) minX = c.rect[0];\n if (c.rect[1] < minY) minY = c.rect[1];\n if (c.rect[2] > maxX) maxX = c.rect[2];\n if (c.rect[3] > maxY) maxY = c.rect[3];\n }\n\n return [minX, minY, maxX, maxY];\n }\n}\n","// ─── Search Engine ───\n//\n// Full-text search across PDF pages with match navigation.\n\nimport type { PdfTextContent, PdfRect } from '@gridstorm/pdf-core';\n\n/** Search options. */\nexport interface SearchOptions {\n /** Case-sensitive search. */\n caseSensitive?: boolean;\n /** Match whole words only. */\n wholeWord?: boolean;\n /** Use regex pattern. */\n regex?: boolean;\n}\n\n/** A single search match. */\nexport interface SearchMatch {\n /** Page index where the match was found. */\n pageIndex: number;\n /** Start character index within the page text. */\n charStart: number;\n /** End character index (exclusive). */\n charEnd: number;\n /** Bounding rectangles covering the match (may span multiple lines). */\n rects: PdfRect[];\n /** The matched text. */\n text: string;\n}\n\n/** Search result set. */\nexport interface SearchResult {\n /** All matches across all pages. */\n matches: SearchMatch[];\n /** Total match count. */\n totalCount: number;\n /** Currently active match index (-1 if none). */\n activeIndex: number;\n}\n\n/** Search engine for finding text in PDF pages. */\nexport class SearchEngine {\n private textContents = new Map<number, PdfTextContent>();\n private lastResult: SearchResult = {\n matches: [],\n totalCount: 0,\n activeIndex: -1,\n };\n\n /** Set the text content for a page. */\n setPageTextContent(pageIndex: number, textContent: PdfTextContent): void {\n this.textContents.set(pageIndex, textContent);\n }\n\n /** Clear text content for a page. */\n clearPageTextContent(pageIndex: number): void {\n this.textContents.delete(pageIndex);\n }\n\n /** Clear all cached text content. */\n clearAll(): void {\n this.textContents.clear();\n this.lastResult = { matches: [], totalCount: 0, activeIndex: -1 };\n }\n\n /** Search for a query across all loaded pages. */\n search(query: string, options: SearchOptions = {}): SearchResult {\n if (!query) {\n this.lastResult = { matches: [], totalCount: 0, activeIndex: -1 };\n return this.lastResult;\n }\n\n const matches: SearchMatch[] = [];\n\n // Sort pages by index for consistent ordering\n const sortedPages = [...this.textContents.entries()].sort(\n ([a], [b]) => a - b,\n );\n\n for (const [pageIndex, textContent] of sortedPages) {\n const pageMatches = this.searchPage(\n pageIndex,\n textContent,\n query,\n options,\n );\n matches.push(...pageMatches);\n }\n\n this.lastResult = {\n matches,\n totalCount: matches.length,\n activeIndex: matches.length > 0 ? 0 : -1,\n };\n\n return this.lastResult;\n }\n\n /** Navigate to the next search match. */\n nextMatch(): SearchMatch | null {\n if (this.lastResult.totalCount === 0) return null;\n\n this.lastResult.activeIndex =\n (this.lastResult.activeIndex + 1) % this.lastResult.totalCount;\n return this.lastResult.matches[this.lastResult.activeIndex] ?? null;\n }\n\n /** Navigate to the previous search match. */\n prevMatch(): SearchMatch | null {\n if (this.lastResult.totalCount === 0) return null;\n\n this.lastResult.activeIndex =\n (this.lastResult.activeIndex - 1 + this.lastResult.totalCount) %\n this.lastResult.totalCount;\n return this.lastResult.matches[this.lastResult.activeIndex] ?? null;\n }\n\n /** Get the current active match. */\n getActiveMatch(): SearchMatch | null {\n if (\n this.lastResult.activeIndex < 0 ||\n this.lastResult.activeIndex >= this.lastResult.totalCount\n ) {\n return null;\n }\n return this.lastResult.matches[this.lastResult.activeIndex] ?? null;\n }\n\n /** Get the last search result. */\n getLastResult(): SearchResult {\n return this.lastResult;\n }\n\n private searchPage(\n pageIndex: number,\n textContent: PdfTextContent,\n query: string,\n options: SearchOptions,\n ): SearchMatch[] {\n const matches: SearchMatch[] = [];\n\n // Build full page text from lines\n const fullText = textContent.lines.map((l) => l.text).join('\\n');\n\n let pattern: RegExp;\n try {\n if (options.regex) {\n const flags = options.caseSensitive ? 'g' : 'gi';\n pattern = new RegExp(query, flags);\n } else {\n const escaped = query.replace(/[.*+?^${}()|[\\]\\\\]/g, '\\\\$&');\n const flags = options.caseSensitive ? 'g' : 'gi';\n const word = options.wholeWord ? `\\\\b${escaped}\\\\b` : escaped;\n pattern = new RegExp(word, flags);\n }\n } catch {\n return matches;\n }\n\n let match: RegExpExecArray | null;\n while ((match = pattern.exec(fullText)) !== null) {\n const matchText = match[0];\n const matchStart = match.index;\n const matchEnd = matchStart + matchText.length;\n\n // Find covering word rects\n const rects = this.findMatchRects(textContent, matchStart, matchEnd);\n\n matches.push({\n pageIndex,\n charStart: matchStart,\n charEnd: matchEnd,\n rects,\n text: matchText,\n });\n\n // Avoid infinite loop for zero-length matches\n if (matchText.length === 0) {\n pattern.lastIndex++;\n }\n }\n\n return matches;\n }\n\n /** Find bounding rects for a text range. */\n private findMatchRects(\n textContent: PdfTextContent,\n _start: number,\n _end: number,\n ): PdfRect[] {\n // In Phase 1 we use word-level rects; Phase 2 will use char-level precision.\n // For now, return rects for all words that overlap the match range.\n const rects: PdfRect[] = [];\n\n // Simple approach: iterate lines and match by character offset\n let charOffset = 0;\n for (const line of textContent.lines) {\n const lineEnd = charOffset + line.text.length;\n\n if (lineEnd > _start && charOffset < _end) {\n // This line overlaps the match — use word-level rects within the line\n for (let wi = line.wordIndices[0]; wi <= line.wordIndices[1]; wi++) {\n const word = textContent.words[wi];\n if (word) {\n rects.push(word.rect);\n }\n }\n }\n\n charOffset = lineEnd + 1; // +1 for \\n\n }\n\n return rects.length > 0 ? rects : [[0, 0, 0, 0]];\n }\n}\n","// ─── Text Plugin ───\n//\n// GridStorm PDF plugin for text extraction and search.\n\nimport type {\n PdfPlugin,\n PdfPluginContext,\n PdfPluginDisposer,\n} from '@gridstorm/pdf-core';\nimport { TextExtractor } from './text-extractor';\nimport { SearchEngine } from './search-engine';\nimport type { SearchOptions, SearchResult, SearchMatch } from './search-engine';\n\n/** Plugin state for text operations. */\nexport interface TextPluginState {\n /** Current search query. */\n searchQuery: string;\n /** Search options. */\n searchOptions: SearchOptions;\n /** Last search result. */\n searchResult: SearchResult | null;\n /** Active search match. */\n activeMatch: SearchMatch | null;\n}\n\n/** Public API exposed by the text plugin. */\nexport interface TextPluginApi {\n /** Extract text from a specific page. */\n extractPageText(pageIndex: number): void;\n /** Extract text from all pages. */\n extractAllText(): void;\n /** Search for text across all pages. */\n search(query: string, options?: SearchOptions): SearchResult;\n /** Navigate to next search match. */\n searchNext(): SearchMatch | null;\n /** Navigate to previous search match. */\n searchPrev(): SearchMatch | null;\n /** Clear search results. */\n clearSearch(): void;\n /** Get the text extractor instance. */\n getExtractor(): TextExtractor;\n /** Get the search engine instance. */\n getSearchEngine(): SearchEngine;\n}\n\nconst INITIAL_STATE: TextPluginState = {\n searchQuery: '',\n searchOptions: {},\n searchResult: null,\n activeMatch: null,\n};\n\n/** Create the text extraction and search plugin. */\nexport function createTextPlugin(): PdfPlugin {\n return {\n id: 'text',\n name: 'Text Extraction & Search',\n version: '0.1.0',\n\n install(context: PdfPluginContext): PdfPluginDisposer {\n const extractor = new TextExtractor();\n const searchEngine = new SearchEngine();\n\n // Register plugin state\n context.registerState<TextPluginState>('text', { ...INITIAL_STATE });\n\n // ─── Command Handlers ───\n\n const unsubExtract = context.commandBus.registerHandler(\n 'text:extract',\n (payload: { pageIndex: number }) => {\n const state = context.store.getState();\n const page = state.pages[payload.pageIndex];\n if (!page) return;\n\n // In Phase 1, use placeholder chars; Phase 2 will use pdf.js\n const chars = extractor.buildCharsFromString(\n `Sample text for page ${payload.pageIndex + 1}`,\n 72, // 1 inch margin\n 72,\n 12,\n );\n\n const textContent = extractor.extract(chars, page);\n\n // Update page state with extracted text\n context.store.setState((prev) => {\n const pages = [...prev.pages];\n const existing = pages[payload.pageIndex];\n if (existing) {\n pages[payload.pageIndex] = { ...existing, textContent };\n }\n return { ...prev, pages };\n });\n\n // Feed text to search engine\n searchEngine.setPageTextContent(payload.pageIndex, textContent);\n\n context.eventBus.emit('text:extracted', {\n pageIndex: payload.pageIndex,\n textContent,\n });\n },\n );\n\n const unsubSearch = context.commandBus.registerHandler(\n 'text:search',\n (payload: { query: string; options?: SearchOptions }) => {\n const result = searchEngine.search(payload.query, payload.options);\n\n context.setState<TextPluginState>('text', (prev) => ({\n ...prev,\n searchQuery: payload.query,\n searchOptions: payload.options ?? {},\n searchResult: result,\n activeMatch: searchEngine.getActiveMatch(),\n }));\n\n context.eventBus.emit('search:found', {\n query: payload.query,\n matches: result.matches,\n total: result.totalCount,\n });\n },\n );\n\n const unsubSearchNext = context.commandBus.registerHandler(\n 'text:searchNext',\n () => {\n const match = searchEngine.nextMatch();\n context.setState<TextPluginState>('text', (prev) => ({\n ...prev,\n activeMatch: match,\n searchResult: searchEngine.getLastResult(),\n }));\n\n if (match) {\n // Navigate to the match page\n context.api.goToPage(match.pageIndex);\n }\n },\n );\n\n const unsubSearchPrev = context.commandBus.registerHandler(\n 'text:searchPrev',\n () => {\n const match = searchEngine.prevMatch();\n context.setState<TextPluginState>('text', (prev) => ({\n ...prev,\n activeMatch: match,\n searchResult: searchEngine.getLastResult(),\n }));\n\n if (match) {\n context.api.goToPage(match.pageIndex);\n }\n },\n );\n\n // ─── Plugin API ───\n\n const pluginApi: TextPluginApi = {\n extractPageText(pageIndex: number) {\n context.commandBus.dispatch('text:extract', { pageIndex });\n },\n extractAllText() {\n const state = context.store.getState();\n for (let i = 0; i < state.pages.length; i++) {\n context.commandBus.dispatch('text:extract', { pageIndex: i });\n }\n },\n search(query: string, options?: SearchOptions) {\n context.commandBus.dispatch('text:search', { query, options });\n return searchEngine.getLastResult();\n },\n searchNext() {\n context.commandBus.dispatch('text:searchNext', {});\n return searchEngine.getActiveMatch();\n },\n searchPrev() {\n context.commandBus.dispatch('text:searchPrev', {});\n return searchEngine.getActiveMatch();\n },\n clearSearch() {\n searchEngine.clearAll();\n context.setState<TextPluginState>('text', () => ({\n ...INITIAL_STATE,\n }));\n },\n getExtractor() {\n return extractor;\n },\n getSearchEngine() {\n return searchEngine;\n },\n };\n\n // Expose API via plugin context (can be retrieved via api.getPluginApi('text'))\n (context as any)._pluginApi = pluginApi;\n\n return () => {\n unsubExtract();\n unsubSearch();\n unsubSearchNext();\n unsubSearchPrev();\n searchEngine.clearAll();\n };\n },\n };\n}\n"]}

package/package.json ADDED Viewed

@@ -0,0 +1,47 @@
+{
+  "name": "@gridstorm/pdf-plugin-text",
+  "version": "0.1.2",
+  "description": "Text extraction and search plugin for GridStorm PDF",
+  "license": "MIT",
+  "type": "module",
+  "main": "./dist/index.cjs",
+  "module": "./dist/index.js",
+  "types": "./dist/index.d.ts",
+  "exports": {
+    ".": {
+      "types": "./dist/index.d.ts",
+      "import": "./dist/index.js",
+      "require": "./dist/index.cjs"
+    }
+  },
+  "files": [
+    "dist"
+  ],
+  "scripts": {
+    "build": "tsup",
+    "dev": "tsup --watch"
+  },
+  "dependencies": {
+    "@gridstorm/pdf-core": "workspace:*"
+  },
+  "devDependencies": {
+    "tsup": "^8.0.0",
+    "typescript": "^5.5.0"
+  },
+  "publishConfig": {
+    "access": "public"
+  },
+  "repository": {
+    "type": "git",
+    "url": "https://github.com/007krcs/grid-data.git",
+    "directory": "packages/pdf-plugin-text"
+  },
+  "homepage": "https://grid-data-analytics-explorer.vercel.app/",
+  "bugs": {
+    "url": "https://github.com/007krcs/grid-data/issues"
+  },
+  "engines": {
+    "node": ">=18.0.0"
+  },
+  "sideEffects": false
+}