npm - @clazic/kordoc - Versions diffs - 2.3.1 → 2.3.3 - Mend

@clazic/kordoc 2.3.1 → 2.3.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (38) hide show

package/dist/{batch-provider-PCT4I4LK.js → batch-provider-PNDCSGQW.js} +3 -4
package/dist/batch-provider-PNDCSGQW.js.map +1 -0
package/dist/chunk-4PP34NVQ.js +121 -0
package/dist/chunk-4PP34NVQ.js.map +1 -0
package/dist/{tesseract-provider-WCVJWBUT.js → chunk-7FMKAV4P.js} +4 -4
package/dist/{tesseract-provider-WCVJWBUT.js.map → chunk-7FMKAV4P.js.map} +1 -1
package/dist/chunk-JOGAFNIL.js +153 -0
package/dist/chunk-JOGAFNIL.js.map +1 -0
package/dist/{chunk-W5KUC23B.js → chunk-NU3KFVVZ.js} +2 -2
package/dist/{chunk-ZOEUKD77.js → chunk-UDFKY7CH.js} +204 -49
package/dist/chunk-UDFKY7CH.js.map +1 -0
package/dist/cli.js +8 -5
package/dist/cli.js.map +1 -1
package/dist/index.cjs +230 -72
package/dist/index.cjs.map +1 -1
package/dist/index.d.cts +11 -6
package/dist/index.d.ts +11 -6
package/dist/index.js +230 -72
package/dist/index.js.map +1 -1
package/dist/mcp.js +5 -2
package/dist/mcp.js.map +1 -1
package/dist/{provider-WYHC4NHI.js → provider-HE727F7Z.js} +19 -131
package/dist/provider-HE727F7Z.js.map +1 -0
package/dist/resolve-UOAOPQ4H.js +111 -0
package/dist/resolve-UOAOPQ4H.js.map +1 -0
package/dist/tesseract-provider-MNMZPSGF.js +11 -0
package/dist/{utils-HSF5HI5T.js → utils-STJT6CFC.js} +2 -2
package/dist/utils-STJT6CFC.js.map +1 -0
package/dist/{watch-R2JHXDGF.js → watch-PRQGLOW3.js} +6 -3
package/dist/{watch-R2JHXDGF.js.map → watch-PRQGLOW3.js.map} +1 -1
package/package.json +8 -8
package/dist/batch-provider-PCT4I4LK.js.map +0 -1
package/dist/chunk-ZOEUKD77.js.map +0 -1
package/dist/provider-WYHC4NHI.js.map +0 -1
package/dist/resolve-4FSAQF2S.js +0 -247
package/dist/resolve-4FSAQF2S.js.map +0 -1
/package/dist/{chunk-W5KUC23B.js.map → chunk-NU3KFVVZ.js.map} +0 -0
/package/dist/{utils-HSF5HI5T.js.map → tesseract-provider-MNMZPSGF.js.map} +0 -0

package/dist/{chunk-ZOEUKD77.js → chunk-UDFKY7CH.js} RENAMED Viewed

@@ -6,10 +6,19 @@ import {
   precheckZipSize,
   sanitizeHref,
   toArrayBuffer
-} from "./chunk-W5KUC23B.js";
+} from "./chunk-NU3KFVVZ.js";
 import {
   parsePageRange
 } from "./chunk-MOL7MDBG.js";
+import {
+  createTesseractProvider
+} from "./chunk-7FMKAV4P.js";
+import {
+  createCliOcrProvider
+} from "./chunk-JOGAFNIL.js";
+import {
+  markdownToBlocks
+} from "./chunk-4PP34NVQ.js";
 import {
   __commonJS,
   __require,
@@ -1918,24 +1927,29 @@ function isPdfFile(buffer) {
   const b = magicBytes(buffer);
   return b[0] === 37 && b[1] === 80 && b[2] === 68 && b[3] === 70;
 }
+function isPngFile(buffer) {
+  const b = magicBytes(buffer);
+  return b[0] === 137 && b[1] === 80 && b[2] === 78 && b[3] === 71;
+}
 function detectFormat(buffer) {
   if (buffer.byteLength < 4) return "unknown";
   if (isZipFile(buffer)) return "hwpx";
   if (isOldHwpFile(buffer)) return "hwp";
   if (isPdfFile(buffer)) return "pdf";
+  if (isPngFile(buffer)) return "image";
   return "unknown";
 }
 async function detectZipFormat(buffer) {
   try {
     const zip = await JSZip.loadAsync(buffer);
-    if (zip.file("xl/workbook.xml")) return "xlsx";
-    if (zip.file("word/document.xml")) return "docx";
-    if (zip.file("Contents/content.hpf") || zip.file("mimetype")) return "hwpx";
+    if (zip.file("xl/workbook.xml")) return { format: "xlsx", zip };
+    if (zip.file("word/document.xml")) return { format: "docx", zip };
+    if (zip.file("Contents/content.hpf") || zip.file("mimetype")) return { format: "hwpx", zip };
     const hasSection = Object.keys(zip.files).some((f) => f.startsWith("Contents/"));
-    if (hasSection) return "hwpx";
-    return "unknown";
+    if (hasSection) return { format: "hwpx", zip };
+    return { format: "unknown", zip: null };
   } catch {
-    return "unknown";
+    return { format: "unknown", zip: null };
   }
 }
@@ -2024,12 +2038,16 @@ function buildTableDirect(rows, numRows) {
   return trimAndReturn(grid, numRows, maxCols);
 }
 function trimAndReturn(grid, numRows, maxCols) {
-  let effectiveCols = maxCols;
-  while (effectiveCols > 0) {
-    const colEmpty = grid.every((row) => !row[effectiveCols - 1]?.text?.trim());
-    if (!colEmpty) break;
-    effectiveCols--;
+  let effectiveCols = 0;
+  for (const row of grid) {
+    for (let c = row.length - 1; c >= effectiveCols; c--) {
+      if (row[c]?.text?.trim()) {
+        effectiveCols = c + 1;
+        break;
+      }
+    }
   }
+  if (effectiveCols === 0) effectiveCols = maxCols;
   if (effectiveCols < maxCols && effectiveCols > 0) {
     const trimmed = grid.map((row) => row.slice(0, effectiveCols));
     return { rows: numRows, cols: effectiveCols, cells: trimmed, hasHeader: numRows > 1 };
@@ -2289,11 +2307,11 @@ function parseStyleElements(doc, map) {
 function stripDtd(xml) {
   return xml.replace(/<!DOCTYPE\s[^[>]*(\[[\s\S]*?\])?\s*>/gi, "");
 }
-async function parseHwpxDocument(buffer, options) {
+async function parseHwpxDocument(buffer, options, existingZip) {
   precheckZipSize(buffer, MAX_DECOMPRESS_SIZE, MAX_ZIP_ENTRIES);
   let zip;
   try {
-    zip = await JSZip2.loadAsync(buffer);
+    zip = existingZip ?? await JSZip2.loadAsync(buffer);
   } catch {
     return await extractFromBrokenZip(buffer);
   }
@@ -5328,8 +5346,15 @@ import { getDocument, GlobalWorkerOptions } from "pdfjs-dist/legacy/build/pdf.mj
 GlobalWorkerOptions.workerSrc = "";
 var MAX_PAGES = 5e3;
 var MAX_TOTAL_TEXT = 500 * 1024 * 1024;
-var PDF_LOAD_TIMEOUT_MS = 3e4;
+function calcPdfTimeout(bufferSize) {
+  const base = 3e4;
+  const perMb = 500;
+  const mb = bufferSize / (1024 * 1024);
+  return Math.min(base + Math.ceil(mb * perMb), 3e5);
+}
 async function loadPdfWithTimeout(buffer) {
+  const timeoutMs = calcPdfTimeout(buffer.byteLength);
+  const timeoutSec = Math.round(timeoutMs / 1e3);
   const loadingTask = getDocument({
     data: new Uint8Array(buffer),
     useSystemFonts: true,
@@ -5343,8 +5368,8 @@ async function loadPdfWithTimeout(buffer) {
       new Promise((_, reject) => {
         timer = setTimeout(() => {
           loadingTask.destroy();
-          reject(new KordocError("PDF \uB85C\uB529 \uD0C0\uC784\uC544\uC6C3 (30\uCD08 \uCD08\uACFC)"));
-        }, PDF_LOAD_TIMEOUT_MS);
+          reject(new KordocError(`PDF \uB85C\uB529 \uD0C0\uC784\uC544\uC6C3 (${timeoutSec}\uCD08 \uCD08\uACFC)`));
+        }, timeoutMs);
       })
     ]);
   } finally {
@@ -5365,11 +5390,15 @@ async function parsePdfDocument(buffer, options) {
     const effectivePageCount = Math.min(pageCount, MAX_PAGES);
     const pageFilter = options?.pages ? parsePageRange(options.pages, effectivePageCount) : null;
     const totalTarget = pageFilter ? pageFilter.size : effectivePageCount;
-    const allFontSizes = [];
+    const fontSizeFreq = /* @__PURE__ */ new Map();
     const pageHeights = /* @__PURE__ */ new Map();
-    let parsedPages = 0;
+    const targetPageNums = [];
     for (let i = 1; i <= effectivePageCount; i++) {
       if (pageFilter && !pageFilter.has(i)) continue;
+      targetPageNums.push(i);
+    }
+    let parsedPages = 0;
+    const parseSinglePage = async (i) => {
       try {
         const page = await doc.getPage(i);
         const tc = await page.getTextContent();
@@ -5382,7 +5411,10 @@ async function parsePdfDocument(buffer, options) {
           warnings.push({ page: i, message: `${hiddenCount}\uAC1C \uC228\uACA8\uC9C4 \uD14D\uC2A4\uD2B8 \uC694\uC18C \uD544\uD130\uB9C1\uB428`, code: "HIDDEN_TEXT_FILTERED" });
         }
         for (const item of visible) {
-          if (item.fontSize > 0) allFontSizes.push(item.fontSize);
+          if (item.fontSize > 0) {
+            const rounded = Math.round(item.fontSize * 10) / 10;
+            fontSizeFreq.set(rounded, (fontSizeFreq.get(rounded) || 0) + 1);
+          }
         }
         const opList = await page.getOperatorList();
         const pageBlocks = extractPageBlocksWithLines(visible, i, opList, viewport.width, viewport.height);
@@ -5399,14 +5431,36 @@ async function parsePdfDocument(buffer, options) {
         if (pageErr instanceof KordocError) throw pageErr;
         warnings.push({ page: i, message: `\uD398\uC774\uC9C0 ${i} \uD30C\uC2F1 \uC2E4\uD328: ${pageErr instanceof Error ? pageErr.message : "\uC54C \uC218 \uC5C6\uB294 \uC624\uB958"}`, code: "PARTIAL_PARSE" });
       }
+    };
+    const SAMPLE_SIZE = Math.min(10, targetPageNums.length);
+    const sampledIndices = /* @__PURE__ */ new Set();
+    if (targetPageNums.length <= SAMPLE_SIZE) {
+      for (let i = 0; i < targetPageNums.length; i++) sampledIndices.add(i);
+    } else {
+      for (let i = 0; i < SAMPLE_SIZE; i++) {
+        const idx = Math.round(i * (targetPageNums.length - 1) / (SAMPLE_SIZE - 1));
+        sampledIndices.add(idx);
+      }
+    }
+    for (const si of sampledIndices) {
+      await parseSinglePage(targetPageNums[si]);
+    }
+    const sampleParsed = parsedPages || sampledIndices.size;
+    const isImageBased = totalChars / Math.max(sampleParsed, 1) < 10;
+    if (!isImageBased) {
+      for (let si = 0; si < targetPageNums.length; si++) {
+        if (!sampledIndices.has(si)) {
+          await parseSinglePage(targetPageNums[si]);
+        }
+      }
     }
     const parsedPageCount = parsedPages || (pageFilter ? pageFilter.size : effectivePageCount);
-    if (totalChars / Math.max(parsedPageCount, 1) < 10) {
+    if (isImageBased) {
       let ocrProvider = options?.ocr ?? null;
-      const ocrMode = options?.ocrMode;
-      if (!ocrProvider && ocrMode && ocrMode !== "off") {
+      const ocrMode = options?.ocrMode ?? "auto";
+      if (!ocrProvider && ocrMode !== "off") {
         try {
-          const { resolveOcrProvider } = await import("./resolve-4FSAQF2S.js");
+          const { resolveOcrProvider } = await import("./resolve-UOAOPQ4H.js");
           const concurrency = options?.ocrConcurrency ?? 1;
           const batchSize = options?.ocrBatchSize;
           ocrProvider = await resolveOcrProvider(ocrMode, warnings, concurrency, batchSize);
@@ -5422,7 +5476,7 @@ async function parsePdfDocument(buffer, options) {
       if (ocrProvider) {
         let ocrBlocks = [];
         try {
-          const { ocrPages } = await import("./provider-WYHC4NHI.js");
+          const { ocrPages } = await import("./provider-HE727F7Z.js");
           const concurrency = options?.ocrConcurrency ?? 1;
           ocrBlocks = await ocrPages(doc, ocrProvider, pageFilter, effectivePageCount, warnings, concurrency, options?.onProgress);
         } catch {
@@ -5456,7 +5510,7 @@ async function parsePdfDocument(buffer, options) {
         blocks.splice(removed[ri], 1);
       }
     }
-    const medianFontSize = computeMedianFontSize(allFontSizes);
+    const medianFontSize = computeMedianFromFreq(fontSizeFreq);
     if (medianFontSize > 0) {
       detectHeadings(blocks, medianFontSize);
     }
@@ -5520,11 +5574,18 @@ function filterHiddenText(items, pageWidth, pageHeight) {
   }
   return { visible, hiddenCount };
 }
-function computeMedianFontSize(sizes) {
-  if (sizes.length === 0) return 0;
-  const sorted = [...sizes].sort((a, b) => a - b);
-  const mid = Math.floor(sorted.length / 2);
-  return sorted.length % 2 === 0 ? (sorted[mid - 1] + sorted[mid]) / 2 : sorted[mid];
+function computeMedianFromFreq(freq) {
+  if (freq.size === 0) return 0;
+  const entries = [...freq.entries()].sort((a, b) => a[0] - b[0]);
+  let total = 0;
+  for (const [, count] of entries) total += count;
+  const mid = total / 2;
+  let cumulative = 0;
+  for (const [size, count] of entries) {
+    cumulative += count;
+    if (cumulative >= mid) return size;
+  }
+  return 0;
 }
 function detectHeadings(blocks, medianFontSize) {
   for (const block of blocks) {
@@ -6330,6 +6391,7 @@ var MAX_SHEETS = 100;
 var MAX_DECOMPRESS_SIZE3 = 500 * 1024 * 1024;
 var MAX_ROWS2 = 1e4;
 var MAX_COLS2 = 200;
+var MAX_TOTAL_CELLS = 2e6;
 function cleanNumericValue(raw) {
   if (!/^-?\d+\.\d+$/.test(raw)) return raw;
   const num = parseFloat(raw);
@@ -6513,9 +6575,9 @@ function sheetToBlocks(sheetName, grid, merges, maxRow, maxCol, sheetIndex) {
   }
   return blocks;
 }
-async function parseXlsxDocument(buffer, options) {
+async function parseXlsxDocument(buffer, options, existingZip) {
   precheckZipSize(buffer, MAX_DECOMPRESS_SIZE3);
-  const zip = await JSZip3.loadAsync(buffer);
+  const zip = existingZip ?? await JSZip3.loadAsync(buffer);
   const warnings = [];
   const workbookFile = zip.file("xl/workbook.xml");
   if (!workbookFile) {
@@ -6542,6 +6604,7 @@ async function parseXlsxDocument(buffer, options) {
   }
   const blocks = [];
   const processedSheets = Math.min(sheets.length, MAX_SHEETS);
+  let totalCells = 0;
   for (let i = 0; i < processedSheets; i++) {
     if (pageFilter && !pageFilter.has(i + 1)) continue;
     const sheet = sheets[i];
@@ -6568,6 +6631,11 @@ async function parseXlsxDocument(buffer, options) {
     try {
       const sheetXml = await sheetFile.async("text");
       const { grid, merges, maxRow, maxCol } = parseWorksheet(sheetXml, sharedStrings);
+      totalCells += maxRow * maxCol;
+      if (totalCells > MAX_TOTAL_CELLS) {
+        warnings.push({ message: `\uCD1D \uC140 \uC218 \uC81C\uD55C \uCD08\uACFC (${totalCells.toLocaleString()}\uC140), \uC774\uD6C4 \uC2DC\uD2B8 \uC0DD\uB7B5`, code: "PARTIAL_PARSE" });
+        break;
+      }
       const sheetBlocks = sheetToBlocks(sheet.name, grid, merges, maxRow, maxCol, i);
       blocks.push(...sheetBlocks);
     } catch (err) {
@@ -6651,10 +6719,35 @@ function getAttr(el, localName) {
 function parseXml2(text) {
   return new DOMParser3().parseFromString(text, "text/xml");
 }
+function buildElementIndex(root) {
+  const index = /* @__PURE__ */ new Map();
+  const walk = (node) => {
+    const children = node.childNodes;
+    for (let i = 0; i < children.length; i++) {
+      const child = children[i];
+      if (child.nodeType === 1) {
+        const el = child;
+        const name = el.localName ?? "";
+        if (name) {
+          let list = index.get(name);
+          if (!list) {
+            list = [];
+            index.set(name, list);
+          }
+          list.push(el);
+        }
+        walk(el);
+      }
+    }
+  };
+  walk(root);
+  return index;
+}
 function parseStyles(xml) {
   const doc = parseXml2(xml);
   const styles = /* @__PURE__ */ new Map();
-  const styleElements = findElements(doc, "style");
+  const idx = buildElementIndex(doc);
+  const styleElements = idx.get("style") ?? [];
   for (const el of styleElements) {
     const styleId = getAttr(el, "styleId");
     if (!styleId) continue;
@@ -6682,7 +6775,8 @@ function parseStyles(xml) {
 function parseNumbering(xml) {
   const doc = parseXml2(xml);
   const abstractNums = /* @__PURE__ */ new Map();
-  const abstractElements = findElements(doc, "abstractNum");
+  const idx = buildElementIndex(doc);
+  const abstractElements = idx.get("abstractNum") ?? [];
   for (const el of abstractElements) {
     const abstractNumId = getAttr(el, "abstractNumId");
     if (!abstractNumId) continue;
@@ -6697,7 +6791,7 @@ function parseNumbering(xml) {
     abstractNums.set(abstractNumId, levels);
   }
   const nums = /* @__PURE__ */ new Map();
-  const numElements = findElements(doc, "num");
+  const numElements = idx.get("num") ?? [];
   for (const el of numElements) {
     const numId = getAttr(el, "numId");
     if (!numId) continue;
@@ -6941,9 +7035,9 @@ async function extractImages(zip, rels, doc) {
   }
   return { blocks, images };
 }
-async function parseDocxDocument(buffer, options) {
+async function parseDocxDocument(buffer, options, existingZip) {
   precheckZipSize(buffer, MAX_DECOMPRESS_SIZE4);
-  const zip = await JSZip4.loadAsync(buffer);
+  const zip = existingZip ?? await JSZip4.loadAsync(buffer);
   const warnings = [];
   const docFile = zip.file("word/document.xml");
   if (!docFile) {
@@ -9378,25 +9472,86 @@ async function parse2(input, options) {
   if (!buffer || buffer.byteLength === 0) {
     return { success: false, fileType: "unknown", error: "\uBE48 \uBC84\uD37C\uC774\uAC70\uB098 \uC720\uD6A8\uD558\uC9C0 \uC54A\uC740 \uC785\uB825\uC785\uB2C8\uB2E4.", code: "EMPTY_INPUT" };
   }
+  const MAX_FILE_SIZE = 500 * 1024 * 1024;
+  if (buffer.byteLength > MAX_FILE_SIZE) {
+    return { success: false, fileType: "unknown", error: `\uD30C\uC77C \uD06C\uAE30 \uCD08\uACFC: ${(buffer.byteLength / 1024 / 1024).toFixed(1)}MB (\uCD5C\uB300 500MB)`, code: "FILE_TOO_LARGE" };
+  }
   const format = detectFormat(buffer);
   switch (format) {
     case "hwpx": {
-      const zipFormat = await detectZipFormat(buffer);
-      if (zipFormat === "xlsx") return parseXlsx(buffer, options);
-      if (zipFormat === "docx") return parseDocx(buffer, options);
-      return parseHwpx(buffer, options);
+      const { format: zipFormat, zip } = await detectZipFormat(buffer);
+      if (zipFormat === "xlsx") return parseXlsx(buffer, options, zip ?? void 0);
+      if (zipFormat === "docx") return parseDocx(buffer, options, zip ?? void 0);
+      return parseHwpx(buffer, options, zip ?? void 0);
     }
     case "hwp":
       return parseHwp(buffer, options);
     case "pdf":
       return parsePdf(buffer, options);
+    case "image":
+      return parseImage(buffer, options);
     default:
       return { success: false, fileType: "unknown", error: "\uC9C0\uC6D0\uD558\uC9C0 \uC54A\uB294 \uD30C\uC77C \uD615\uC2DD\uC785\uB2C8\uB2E4.", code: "UNSUPPORTED_FORMAT" };
   }
 }
-async function parseHwpx(buffer, options) {
+async function parseImage(buffer, options) {
+  const ocrMode = options?.ocrMode || "auto";
+  if (ocrMode === "off") {
+    return { success: false, fileType: "image", error: "OCR\uC774 \uBE44\uD65C\uC131\uD654\uB418\uC5B4 \uC774\uBBF8\uC9C0 \uD30C\uC77C\uC744 \uCC98\uB9AC\uD560 \uC218 \uC5C6\uC2B5\uB2C8\uB2E4.", code: "IMAGE_BASED_PDF" };
+  }
+  let ocrProvider;
+  let actualOcrMode = "auto";
+  try {
+    if (ocrMode === "gemini" || ocrMode === "claude" || ocrMode === "codex" || ocrMode === "ollama") {
+      ocrProvider = createCliOcrProvider(ocrMode);
+      actualOcrMode = ocrMode;
+    } else if (ocrMode === "tesseract") {
+      ocrProvider = await createTesseractProvider();
+      actualOcrMode = ocrMode;
+    } else if (ocrMode === "auto") {
+      const modesToTry = ["gemini", "claude", "codex", "ollama"];
+      for (const mode of modesToTry) {
+        try {
+          ocrProvider = createCliOcrProvider(mode);
+          actualOcrMode = mode;
+          break;
+        } catch (e) {
+          console.warn(`[kordoc] OCR auto-detection: ${mode} CLI not available or failed. Trying next.`, e);
+        }
+      }
+      if (!ocrProvider) {
+        ocrProvider = await createTesseractProvider();
+        actualOcrMode = "tesseract";
+      }
+    }
+    if (!ocrProvider) {
+      return { success: false, fileType: "image", error: "\uC0AC\uC6A9 \uAC00\uB2A5\uD55C OCR \uD504\uB85C\uBC14\uC774\uB354\uB97C \uCC3E\uC744 \uC218 \uC5C6\uC2B5\uB2C8\uB2E4.", code: "PARSE_ERROR" };
+    }
+    const imageUint8Array = new Uint8Array(buffer);
+    const ocrResult = await ocrProvider(imageUint8Array, 1, "image/png");
+    if (ocrProvider.terminate) {
+      await ocrProvider.terminate();
+    }
+    const markdown = typeof ocrResult === "string" ? ocrResult : ocrResult.markdown;
+    const blocks = markdownToBlocks(markdown, 1);
+    return {
+      success: true,
+      fileType: "image",
+      markdown,
+      blocks,
+      isImageBased: true,
+      warnings: [{ message: `OCR \uCC98\uB9AC\uB428 (${actualOcrMode})`, code: "OCR_FALLBACK" }]
+    };
+  } catch (err) {
+    if (ocrProvider && ocrProvider.terminate) {
+      await ocrProvider.terminate();
+    }
+    return { success: false, fileType: "image", error: err instanceof Error ? err.message : "\uC774\uBBF8\uC9C0 OCR \uC2E4\uD328", code: classifyError(err) };
+  }
+}
+async function parseHwpx(buffer, options, zip) {
   try {
-    const { markdown, blocks, metadata, outline, warnings, images } = await parseHwpxDocument(buffer, options);
+    const { markdown, blocks, metadata, outline, warnings, images } = await parseHwpxDocument(buffer, options, zip);
     return { success: true, fileType: "hwpx", markdown, blocks, metadata, outline, warnings, images: images?.length ? images : void 0 };
   } catch (err) {
     return { success: false, fileType: "hwpx", error: err instanceof Error ? err.message : "HWPX \uD30C\uC2F1 \uC2E4\uD328", code: classifyError(err) };
@@ -9419,17 +9574,17 @@ async function parsePdf(buffer, options) {
     return { success: false, fileType: "pdf", error: err instanceof Error ? err.message : "PDF \uD30C\uC2F1 \uC2E4\uD328", code: classifyError(err), isImageBased };
   }
 }
-async function parseXlsx(buffer, options) {
+async function parseXlsx(buffer, options, zip) {
   try {
-    const { markdown, blocks, metadata, warnings } = await parseXlsxDocument(buffer, options);
+    const { markdown, blocks, metadata, warnings } = await parseXlsxDocument(buffer, options, zip);
     return { success: true, fileType: "xlsx", markdown, blocks, metadata, warnings };
   } catch (err) {
     return { success: false, fileType: "xlsx", error: err instanceof Error ? err.message : "XLSX \uD30C\uC2F1 \uC2E4\uD328", code: classifyError(err) };
   }
 }
-async function parseDocx(buffer, options) {
+async function parseDocx(buffer, options, zip) {
   try {
-    const { markdown, blocks, metadata, outline, warnings, images } = await parseDocxDocument(buffer, options);
+    const { markdown, blocks, metadata, outline, warnings, images } = await parseDocxDocument(buffer, options, zip);
     return { success: true, fileType: "docx", markdown, blocks, metadata, outline, warnings, images: images?.length ? images : void 0 };
   } catch (err) {
     return { success: false, fileType: "docx", error: err instanceof Error ? err.message : "DOCX \uD30C\uC2F1 \uC2E4\uD328", code: classifyError(err) };
@@ -9624,4 +9779,4 @@ export {
 cfb/cfb.js:
   (*! crc32.js (C) 2014-present SheetJS -- http://sheetjs.com *)
 */
-//# sourceMappingURL=chunk-ZOEUKD77.js.map
+//# sourceMappingURL=chunk-UDFKY7CH.js.map