npm - kordoc - Versions diffs - 2.0.1 → 2.0.3 - Mend

kordoc 2.0.1 → 2.0.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (31) hide show

package/LICENSE +21 -21
package/README.md +291 -291
package/dist/{chunk-L4OFASDS.js → chunk-25TXW6EP.js} +2 -2
package/dist/chunk-25TXW6EP.js.map +1 -0
package/dist/{chunk-MOL7MDBG.js → chunk-3TBUDJDE.js} +1 -1
package/dist/chunk-3TBUDJDE.js.map +1 -0
package/dist/{chunk-JJ65GKUH.js → chunk-4UH6ABAY.js} +185 -41
package/dist/chunk-4UH6ABAY.js.map +1 -0
package/dist/cli.js +5 -5
package/dist/cli.js.map +1 -1
package/dist/index.cjs +181 -37
package/dist/index.cjs.map +1 -1
package/dist/index.js +181 -37
package/dist/index.js.map +1 -1
package/dist/mcp.js +3 -3
package/dist/mcp.js.map +1 -1
package/dist/page-range-OF5I4PQY.js +8 -0
package/dist/{provider-A4FHJSID.js → provider-EU3CG724.js} +1 -1
package/dist/provider-EU3CG724.js.map +1 -0
package/dist/{utils-4HVKHULU.js → utils-BTZ4WSYX.js} +2 -2
package/dist/{watch-RNZ3KESY.js → watch-QD3PDNXQ.js} +4 -4
package/dist/watch-QD3PDNXQ.js.map +1 -0
package/package.json +1 -1
package/dist/chunk-JJ65GKUH.js.map +0 -1
package/dist/chunk-L4OFASDS.js.map +0 -1
package/dist/chunk-MOL7MDBG.js.map +0 -1
package/dist/page-range-737B4EZW.js +0 -8
package/dist/provider-A4FHJSID.js.map +0 -1
package/dist/watch-RNZ3KESY.js.map +0 -1
/package/dist/{page-range-737B4EZW.js.map → page-range-OF5I4PQY.js.map} +0 -0
/package/dist/{utils-4HVKHULU.js.map → utils-BTZ4WSYX.js.map} +0 -0

package/dist/chunk-25TXW6EP.js.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"sources":["../src/utils.ts"],"sourcesContent":["/** kordoc 공용 유틸리티 */\r\n\r\n/** 빌드 타임에 tsup define으로 주입되는 버전 */\r\ndeclare const __KORDOC_VERSION__: string\r\nexport const VERSION: string = typeof __KORDOC_VERSION__ !== \"undefined\" ? __KORDOC_VERSION__ : \"0.0.0-dev\"\r\n\r\n/**\r\n * Node.js Buffer → ArrayBuffer 변환\r\n * pool Buffer의 공유 ArrayBuffer 문제를 안전하게 처리.\r\n * offset=0이고 전체 ArrayBuffer를 차지하면 복사 없이 직접 반환.\r\n */\r\nexport function toArrayBuffer(buf: Buffer): ArrayBuffer {\r\n if (buf.byteOffset === 0 && buf.byteLength === buf.buffer.byteLength) {\r\n return buf.buffer as ArrayBuffer\r\n }\r\n return buf.buffer.slice(buf.byteOffset, buf.byteOffset + buf.byteLength) as ArrayBuffer\r\n}\r\n\r\n/**\r\n * kordoc 내부 에러 클래스 — 사용자에게 노출해도 안전한 메시지만 포함.\r\n * MCP 에러 정제에서 instanceof로 판별하여 allowlist 패턴 매칭 없이 안전하게 통과.\r\n */\r\nexport class KordocError extends Error {\r\n constructor(message: string) {\r\n super(message)\r\n this.name = \"KordocError\"\r\n }\r\n}\r\n\r\n/**\r\n * 에러 메시지 정제 — KordocError는 그대로, 나머지는 일반 메시지로 대체.\r\n * 파일시스템 경로, 스택 트레이스 등 내부 정보 노출 방지.\r\n */\r\nexport function sanitizeError(err: unknown): string {\r\n if (err instanceof KordocError) return err.message\r\n return \"문서 처리 중 오류가 발생했습니다\"\r\n}\r\n\r\n/**\r\n * ZIP 엔트리 경로의 경로 순회 여부 판별.\r\n * 백슬래시 정규화, .., 절대경로, Windows 드라이브 문자 모두 차단.\r\n */\r\nexport function isPathTraversal(name: string): boolean {\r\n if (name.includes(\"\\x00\")) return true\r\n const normalized = name.replace(/\\\\/g, \"/\")\r\n return normalized.includes(\"..\") || normalized.startsWith(\"/\") || /^[A-Za-z]:/.test(normalized)\r\n}\r\n\r\n// ─── ZIP 안전 로딩 (ZIP bomb 방지) ────────────────────\r\n\r\n/**\r\n * ZIP bomb 사전 검사 — Central Directory에서 비압축 합계와 엔트리 수 확인.\r\n * HWPX/XLSX/DOCX 등 모든 ZIP 기반 포맷에서 공통 사용.\r\n */\r\nexport function precheckZipSize(\r\n buffer: ArrayBuffer,\r\n maxUncompressedSize = 100 * 1024 * 1024,\r\n maxEntries = 500,\r\n): { totalUncompressed: number; entryCount: number } {\r\n try {\r\n const data = new DataView(buffer)\r\n const len = buffer.byteLength\r\n // EOCD 시그니처 역방향 스캔\r\n let eocdOffset = -1\r\n for (let i = len - 22; i >= Math.max(0, len - 65557); i--) {\r\n if (data.getUint32(i, true) === 0x06054b50) { eocdOffset = i; break }\r\n }\r\n if (eocdOffset < 0) return { totalUncompressed: 0, entryCount: 0 }\r\n\r\n const entryCount = data.getUint16(eocdOffset + 10, true)\r\n if (entryCount > maxEntries) {\r\n throw new KordocError(`ZIP 엔트리 수 초과: ${entryCount} (최대 ${maxEntries})`)\r\n }\r\n\r\n const cdSize = data.getUint32(eocdOffset + 12, true)\r\n const cdOffset = data.getUint32(eocdOffset + 16, true)\r\n if (cdOffset + cdSize > len) return { totalUncompressed: 0, entryCount }\r\n\r\n let totalUncompressed = 0\r\n let pos = cdOffset\r\n for (let i = 0; i < entryCount && pos + 46 <= cdOffset + cdSize; i++) {\r\n if (data.getUint32(pos, true) !== 0x02014b50) break\r\n totalUncompressed += data.getUint32(pos + 24, true)\r\n const nameLen = data.getUint16(pos + 28, true)\r\n const extraLen = data.getUint16(pos + 30, true)\r\n const commentLen = data.getUint16(pos + 32, true)\r\n pos += 46 + nameLen + extraLen + commentLen\r\n }\r\n\r\n if (totalUncompressed > maxUncompressedSize) {\r\n throw new KordocError(`ZIP 비압축 크기 초과: ${(totalUncompressed / 1024 / 1024).toFixed(1)}MB (최대 ${maxUncompressedSize / 1024 / 1024}MB)`)\r\n }\r\n\r\n return { totalUncompressed, entryCount }\r\n } catch (err) {\r\n if (err instanceof KordocError) throw err\r\n return { totalUncompressed: 0, entryCount: 0 }\r\n }\r\n}\r\n\r\n/** 하이퍼링크 URL 살균 — javascript: 등 XSS 위험 스킴 차단 */\r\nconst SAFE_HREF_RE = /^(?:https?:|mailto:|tel:|#)/i\r\nexport function sanitizeHref(href: string): string | null {\r\n const trimmed = href.trim()\r\n if (!trimmed || !SAFE_HREF_RE.test(trimmed)) return null\r\n return trimmed\r\n}\r\n\r\n// ─── 에러 분류 ──────────────────────────────────────\r\n\r\nimport type { ErrorCode } from \"./types.js\"\r\n\r\n/** 에러를 구조화된 ErrorCode로 분류 — KordocError 메시지 패턴 매칭 */\r\nexport function classifyError(err: unknown): ErrorCode {\r\n if (!(err instanceof Error)) return \"PARSE_ERROR\"\r\n const msg = err.message\r\n if (msg.includes(\"암호화\")) return \"ENCRYPTED\"\r\n if (msg.includes(\"DRM\")) return \"DRM_PROTECTED\"\r\n if (msg.includes(\"ZIP bomb\") || msg.includes(\"ZIP 비압축 크기 초과\") || msg.includes(\"ZIP 엔트리 수 초과\")) return \"ZIP_BOMB\"\r\n if (msg.includes(\"bomb\") || msg.includes(\"크기 초과\") || msg.includes(\"압축 해제\")) return \"DECOMPRESSION_BOMB\"\r\n if (msg.includes(\"이미지 기반\")) return \"IMAGE_BASED_PDF\"\r\n if (msg.includes(\"섹션\") && (msg.includes(\"찾을 수 없\") || msg.includes(\"없음\"))) return \"NO_SECTIONS\"\r\n if (msg.includes(\"시그니처\") || msg.includes(\"복구할 수 없\")) return \"CORRUPTED\"\r\n return \"PARSE_ERROR\"\r\n}\r\n"],"mappings":";;;AAIO,IAAM,UAAkB,OAA4C,UAAqB;AAOzF,SAAS,cAAc,KAA0B;AACtD,MAAI,IAAI,eAAe,KAAK,IAAI,eAAe,IAAI,OAAO,YAAY;AACpE,WAAO,IAAI;AAAA,EACb;AACA,SAAO,IAAI,OAAO,MAAM,IAAI,YAAY,IAAI,aAAa,IAAI,UAAU;AACzE;AAMO,IAAM,cAAN,cAA0B,MAAM;AAAA,EACrC,YAAY,SAAiB;AAC3B,UAAM,OAAO;AACb,SAAK,OAAO;AAAA,EACd;AACF;AAMO,SAAS,cAAc,KAAsB;AAClD,MAAI,eAAe,YAAa,QAAO,IAAI;AAC3C,SAAO;AACT;AAMO,SAAS,gBAAgB,MAAuB;AACrD,MAAI,KAAK,SAAS,IAAM,EAAG,QAAO;AAClC,QAAM,aAAa,KAAK,QAAQ,OAAO,GAAG;AAC1C,SAAO,WAAW,SAAS,IAAI,KAAK,WAAW,WAAW,GAAG,KAAK,aAAa,KAAK,UAAU;AAChG;AAQO,SAAS,gBACd,QACA,sBAAsB,MAAM,OAAO,MACnC,aAAa,KACsC;AACnD,MAAI;AACF,UAAM,OAAO,IAAI,SAAS,MAAM;AAChC,UAAM,MAAM,OAAO;AAEnB,QAAI,aAAa;AACjB,aAAS,IAAI,MAAM,IAAI,KAAK,KAAK,IAAI,GAAG,MAAM,KAAK,GAAG,KAAK;AACzD,UAAI,KAAK,UAAU,GAAG,IAAI,MAAM,WAAY;AAAE,qBAAa;AAAG;AAAA,MAAM;AAAA,IACtE;AACA,QAAI,aAAa,EAAG,QAAO,EAAE,mBAAmB,GAAG,YAAY,EAAE;AAEjE,UAAM,aAAa,KAAK,UAAU,aAAa,IAAI,IAAI;AACvD,QAAI,aAAa,YAAY;AAC3B,YAAM,IAAI,YAAY,+CAAiB,UAAU,kBAAQ,UAAU,GAAG;AAAA,IACxE;AAEA,UAAM,SAAS,KAAK,UAAU,aAAa,IAAI,IAAI;AACnD,UAAM,WAAW,KAAK,UAAU,aAAa,IAAI,IAAI;AACrD,QAAI,WAAW,SAAS,IAAK,QAAO,EAAE,mBAAmB,GAAG,WAAW;AAEvE,QAAI,oBAAoB;AACxB,QAAI,MAAM;AACV,aAAS,IAAI,GAAG,IAAI,cAAc,MAAM,MAAM,WAAW,QAAQ,KAAK;AACpE,UAAI,KAAK,UAAU,KAAK,IAAI,MAAM,SAAY;AAC9C,2BAAqB,KAAK,UAAU,MAAM,IAAI,IAAI;AAClD,YAAM,UAAU,KAAK,UAAU,MAAM,IAAI,IAAI;AAC7C,YAAM,WAAW,KAAK,UAAU,MAAM,IAAI,IAAI;AAC9C,YAAM,aAAa,KAAK,UAAU,MAAM,IAAI,IAAI;AAChD,aAAO,KAAK,UAAU,WAAW;AAAA,IACnC;AAEA,QAAI,oBAAoB,qBAAqB;AAC3C,YAAM,IAAI,YAAY,sDAAmB,oBAAoB,OAAO,MAAM,QAAQ,CAAC,CAAC,oBAAU,sBAAsB,OAAO,IAAI,KAAK;AAAA,IACtI;AAEA,WAAO,EAAE,mBAAmB,WAAW;AAAA,EACzC,SAAS,KAAK;AACZ,QAAI,eAAe,YAAa,OAAM;AACtC,WAAO,EAAE,mBAAmB,GAAG,YAAY,EAAE;AAAA,EAC/C;AACF;AAGA,IAAM,eAAe;AACd,SAAS,aAAa,MAA6B;AACxD,QAAM,UAAU,KAAK,KAAK;AAC1B,MAAI,CAAC,WAAW,CAAC,aAAa,KAAK,OAAO,EAAG,QAAO;AACpD,SAAO;AACT;AAOO,SAAS,cAAc,KAAyB;AACrD,MAAI,EAAE,eAAe,OAAQ,QAAO;AACpC,QAAM,MAAM,IAAI;AAChB,MAAI,IAAI,SAAS,oBAAK,EAAG,QAAO;AAChC,MAAI,IAAI,SAAS,KAAK,EAAG,QAAO;AAChC,MAAI,IAAI,SAAS,UAAU,KAAK,IAAI,SAAS,kDAAe,KAAK,IAAI,SAAS,4CAAc,EAAG,QAAO;AACtG,MAAI,IAAI,SAAS,MAAM,KAAK,IAAI,SAAS,2BAAO,KAAK,IAAI,SAAS,2BAAO,EAAG,QAAO;AACnF,MAAI,IAAI,SAAS,iCAAQ,EAAG,QAAO;AACnC,MAAI,IAAI,SAAS,cAAI,MAAM,IAAI,SAAS,4BAAQ,KAAK,IAAI,SAAS,cAAI,GAAI,QAAO;AACjF,MAAI,IAAI,SAAS,0BAAM,KAAK,IAAI,SAAS,kCAAS,EAAG,QAAO;AAC5D,SAAO;AACT;","names":[]}

package/dist/{chunk-MOL7MDBG.js → chunk-3TBUDJDE.js} RENAMED Viewed

@@ -32,4 +32,4 @@ function parsePageRange(spec, maxPages) {
 export {
   parsePageRange
 };
-//# sourceMappingURL=chunk-MOL7MDBG.js.map
+//# sourceMappingURL=chunk-3TBUDJDE.js.map

package/dist/chunk-3TBUDJDE.js.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"sources":["../src/page-range.ts"],"sourcesContent":["/** 페이지/섹션 범위 파싱 유틸리티 */\r\n\r\n/**\r\n * 페이지 범위 지정을 1-based Set<number>로 변환.\r\n *\r\n * @param spec - [1,2,3] 또는 \"1-3\" 또는 \"1,3,5-7\"\r\n * @param maxPages - 최대 페이지 수 (클램핑 상한)\r\n * @returns 1-based 페이지 번호 Set\r\n */\r\nexport function parsePageRange(spec: number[] | string, maxPages: number): Set<number> {\r\n const result = new Set<number>()\r\n if (maxPages <= 0) return result\r\n\r\n if (Array.isArray(spec)) {\r\n for (const n of spec) {\r\n const page = Math.round(n)\r\n if (page >= 1 && page <= maxPages) result.add(page)\r\n }\r\n return result\r\n }\r\n\r\n if (typeof spec !== \"string\" || spec.trim() === \"\") return result\r\n\r\n const parts = spec.split(\",\")\r\n for (const part of parts) {\r\n const trimmed = part.trim()\r\n if (!trimmed) continue\r\n\r\n const rangeMatch = trimmed.match(/^(\\d+)\\s*-\\s*(\\d+)$/)\r\n if (rangeMatch) {\r\n const start = Math.max(1, parseInt(rangeMatch[1], 10))\r\n const end = Math.min(maxPages, parseInt(rangeMatch[2], 10))\r\n for (let i = start; i <= end; i++) result.add(i)\r\n } else {\r\n const page = parseInt(trimmed, 10)\r\n if (!isNaN(page) && page >= 1 && page <= maxPages) result.add(page)\r\n }\r\n }\r\n\r\n return result\r\n}\r\n"],"mappings":";;;AASO,SAAS,eAAe,MAAyB,UAA+B;AACrF,QAAM,SAAS,oBAAI,IAAY;AAC/B,MAAI,YAAY,EAAG,QAAO;AAE1B,MAAI,MAAM,QAAQ,IAAI,GAAG;AACvB,eAAW,KAAK,MAAM;AACpB,YAAM,OAAO,KAAK,MAAM,CAAC;AACzB,UAAI,QAAQ,KAAK,QAAQ,SAAU,QAAO,IAAI,IAAI;AAAA,IACpD;AACA,WAAO;AAAA,EACT;AAEA,MAAI,OAAO,SAAS,YAAY,KAAK,KAAK,MAAM,GAAI,QAAO;AAE3D,QAAM,QAAQ,KAAK,MAAM,GAAG;AAC5B,aAAW,QAAQ,OAAO;AACxB,UAAM,UAAU,KAAK,KAAK;AAC1B,QAAI,CAAC,QAAS;AAEd,UAAM,aAAa,QAAQ,MAAM,qBAAqB;AACtD,QAAI,YAAY;AACd,YAAM,QAAQ,KAAK,IAAI,GAAG,SAAS,WAAW,CAAC,GAAG,EAAE,CAAC;AACrD,YAAM,MAAM,KAAK,IAAI,UAAU,SAAS,WAAW,CAAC,GAAG,EAAE,CAAC;AAC1D,eAAS,IAAI,OAAO,KAAK,KAAK,IAAK,QAAO,IAAI,CAAC;AAAA,IACjD,OAAO;AACL,YAAM,OAAO,SAAS,SAAS,EAAE;AACjC,UAAI,CAAC,MAAM,IAAI,KAAK,QAAQ,KAAK,QAAQ,SAAU,QAAO,IAAI,IAAI;AAAA,IACpE;AAAA,EACF;AAEA,SAAO;AACT;","names":[]}

package/dist/{chunk-JJ65GKUH.js → chunk-4UH6ABAY.js} RENAMED Viewed

@@ -6,10 +6,10 @@ import {
   precheckZipSize,
   sanitizeHref,
   toArrayBuffer
-} from "./chunk-L4OFASDS.js";
+} from "./chunk-25TXW6EP.js";
 import {
   parsePageRange
-} from "./chunk-MOL7MDBG.js";
+} from "./chunk-3TBUDJDE.js";
 // src/detect.ts
 import JSZip from "jszip";
@@ -163,6 +163,47 @@ function sanitizeText(text) {
   }
   return result;
 }
+function flattenLayoutTables(blocks) {
+  const result = [];
+  for (const block of blocks) {
+    if (block.type !== "table" || !block.table) {
+      result.push(block);
+      continue;
+    }
+    const { rows: numRows, cols: numCols, cells } = block.table;
+    if (numRows === 1 && numCols === 1) {
+      result.push(block);
+      continue;
+    }
+    if (numRows <= 3) {
+      let totalNewlines = 0;
+      let totalTextLen = 0;
+      for (let r = 0; r < numRows; r++) {
+        for (let c = 0; c < numCols; c++) {
+          const t = cells[r]?.[c]?.text || "";
+          totalNewlines += (t.match(/\n/g) || []).length;
+          totalTextLen += t.length;
+        }
+      }
+      if (totalNewlines > 5 || numRows <= 2 && totalTextLen > 300) {
+        for (let r = 0; r < numRows; r++) {
+          for (let c = 0; c < numCols; c++) {
+            const cellText = cells[r]?.[c]?.text?.trim();
+            if (!cellText) continue;
+            for (const line of cellText.split("\n")) {
+              const trimmed = line.trim();
+              if (!trimmed) continue;
+              result.push({ type: "paragraph", text: trimmed, pageNumber: block.pageNumber });
+            }
+          }
+        }
+        continue;
+      }
+    }
+    result.push(block);
+  }
+  return result;
+}
 function blocksToMarkdown(blocks) {
   const lines = [];
   for (let i = 0; i < blocks.length; i++) {
@@ -224,8 +265,11 @@ function blocksToMarkdown(blocks) {
       if (lines.length > 0 && lines[lines.length - 1] !== "") {
         lines.push("");
       }
-      lines.push(tableToMarkdown(block.table));
-      lines.push("");
+      const tableMd = tableToMarkdown(block.table);
+      if (tableMd) {
+        lines.push(tableMd);
+        lines.push("");
+      }
     }
   }
   return lines.join("\n").trim();
@@ -235,6 +279,7 @@ function tableToMarkdown(table) {
   const { cells, rows: numRows, cols: numCols } = table;
   if (numRows === 1 && numCols === 1) {
     const content = sanitizeText(cells[0][0].text);
+    if (!content) return "";
     return content.split(/\n/).map((line) => {
       const trimmed = line.trim();
       if (!trimmed) return "";
@@ -271,9 +316,9 @@ function tableToMarkdown(table) {
     const row = display[r];
     const isEmptyPlaceholder = row.every((cell) => cell === "");
     if (isEmptyPlaceholder) continue;
-    const hasSkippedCols = row.some((cell, c) => cell === "" && skip.has(`${r},${c}`));
     const nonEmptyCols = row.filter((cell) => cell !== "");
-    if (!hasSkippedCols && nonEmptyCols.length === 1 && row[0] !== "" && row.slice(1).every((c) => c === "")) {
+    const hasSkipInRow = row.some((_, c) => skip.has(`${r},${c}`));
+    if (!hasSkipInRow && nonEmptyCols.length === 1 && row[0] !== "" && row.slice(1).every((c) => c === "")) {
       pendingFirstCol = row[0];
       continue;
     }
@@ -705,7 +750,8 @@ function detectHwpxHeadings(blocks, styleMap) {
       else if (ratio >= HEADING_RATIO_H2) level = 2;
       else if (ratio >= HEADING_RATIO_H3) level = 3;
     }
-    if (/^제\d+[조장절편]/.test(text) && text.length <= 50) {
+    const compactText = text.replace(/\s+/g, "");
+    if (/^제\d+[조장절편]/.test(compactText) && text.length <= 50) {
       if (level === 0) level = 3;
     }
     if (level > 0) {
@@ -757,9 +803,14 @@ function walkSection(node, blocks, tableCtx, tableStack, styleMap, warnings, sec
         if (newTable.rows.length > 0) {
           if (tableStack.length > 0) {
             const parentTable = tableStack.pop();
-            const nestedText = convertTableToText(newTable.rows);
-            if (parentTable.cell) {
-              parentTable.cell.text += (parentTable.cell.text ? "\n" : "") + nestedText;
+            const nestedCols = Math.max(...newTable.rows.map((r) => r.length));
+            if (newTable.rows.length >= 3 && nestedCols >= 2) {
+              blocks.push({ type: "table", table: buildTable(newTable.rows), pageNumber: sectionNum });
+            } else {
+              const nestedText = convertTableToText(newTable.rows);
+              if (parentTable.cell) {
+                parentTable.cell.text += (parentTable.cell.text ? "\n" : "") + nestedText;
+              }
             }
             tableCtx = parentTable;
           } else {
@@ -859,9 +910,14 @@ function walkParagraphChildren(node, blocks, tableCtx, tableStack, styleMap, war
         if (newTable.rows.length > 0) {
           if (tableStack.length > 0) {
             const parentTable = tableStack.pop();
-            const nestedText = convertTableToText(newTable.rows);
-            if (parentTable.cell) {
-              parentTable.cell.text += (parentTable.cell.text ? "\n" : "") + nestedText;
+            const nestedCols = Math.max(...newTable.rows.map((r) => r.length));
+            if (newTable.rows.length >= 3 && nestedCols >= 2) {
+              blocks.push({ type: "table", table: buildTable(newTable.rows), pageNumber: sectionNum });
+            } else {
+              const nestedText = convertTableToText(newTable.rows);
+              if (parentTable.cell) {
+                parentTable.cell.text += (parentTable.cell.text ? "\n" : "") + nestedText;
+              }
             }
             tableCtx = parentTable;
           } else {
@@ -872,13 +928,20 @@ function walkParagraphChildren(node, blocks, tableCtx, tableStack, styleMap, war
           tableCtx = tableStack.length > 0 ? tableStack.pop() : null;
         }
       } else if (localTag === "pic" || localTag === "shape" || localTag === "drawingObject") {
-        const imgRef = extractImageRef(el);
-        if (imgRef) {
-          blocks.push({ type: "image", text: imgRef, pageNumber: sectionNum });
-        } else if (warnings && sectionNum) {
-          warnings.push({ page: sectionNum, message: `\uC2A4\uD0B5\uB41C \uC694\uC18C: ${localTag}`, code: "SKIPPED_IMAGE" });
+        const drawTextChild = findDescendant(el, "drawText");
+        if (drawTextChild) {
+          extractDrawTextBlocks(drawTextChild, blocks, styleMap, sectionNum);
+        } else {
+          const imgRef = extractImageRef(el);
+          if (imgRef) {
+            blocks.push({ type: "image", text: imgRef, pageNumber: sectionNum });
+          } else if (warnings && sectionNum) {
+            warnings.push({ page: sectionNum, message: `\uC2A4\uD0B5\uB41C \uC694\uC18C: ${localTag}`, code: "SKIPPED_IMAGE" });
+          }
         }
-      } else if (localTag === "r" || localTag === "run" || localTag === "ctrl") {
+      } else if (localTag === "drawText") {
+        extractDrawTextBlocks(el, blocks, styleMap, sectionNum);
+      } else if (localTag === "r" || localTag === "run" || localTag === "ctrl" || localTag === "rect" || localTag === "ellipse" || localTag === "polygon" || localTag === "line" || localTag === "arc" || localTag === "curve" || localTag === "connectLine" || localTag === "container") {
         walkChildren(el, d + 1);
       }
     }
@@ -886,6 +949,40 @@ function walkParagraphChildren(node, blocks, tableCtx, tableStack, styleMap, war
   walkChildren(node, depth);
   return tableCtx;
 }
+function findDescendant(node, targetTag, depth = 0) {
+  if (depth > 5) return null;
+  const children = node.childNodes;
+  if (!children) return null;
+  for (let i = 0; i < children.length; i++) {
+    const child = children[i];
+    if (child.nodeType !== 1) continue;
+    const tag = (child.tagName || child.localName || "").replace(/^[^:]+:/, "");
+    if (tag === targetTag) return child;
+    const found = findDescendant(child, targetTag, depth + 1);
+    if (found) return found;
+  }
+  return null;
+}
+function extractDrawTextBlocks(drawTextNode, blocks, styleMap, sectionNum) {
+  const children = drawTextNode.childNodes;
+  if (!children) return;
+  for (let i = 0; i < children.length; i++) {
+    const child = children[i];
+    if (child.nodeType !== 1) continue;
+    const tag = (child.tagName || child.localName || "").replace(/^[^:]+:/, "");
+    if (tag === "subList" || tag === "p" || tag === "para") {
+      if (tag === "subList") {
+        extractDrawTextBlocks(child, blocks, styleMap, sectionNum);
+      } else {
+        const info = extractParagraphInfo(child, styleMap);
+        const text = info.text.trim();
+        if (text) {
+          blocks.push({ type: "paragraph", text, style: info.style ?? void 0, pageNumber: sectionNum });
+        }
+      }
+    }
+  }
+}
 function extractParagraphInfo(para, styleMap) {
   let text = "";
   let href;
@@ -904,11 +1001,18 @@ function extractParagraphInfo(para, styleMap) {
       const tag = (child.tagName || child.localName || "").replace(/^[^:]+:/, "");
       switch (tag) {
         case "t":
-          text += child.textContent || "";
+          walk(child);
           break;
-        case "tab":
-          text += "	";
+        // 자식 순회 (tab 등 하위 요소 처리)
+        case "tab": {
+          const leader = child.getAttribute("leader");
+          if (leader && leader !== "0") {
+            text += "";
+          } else {
+            text += "	";
+          }
           break;
+        }
         case "br":
           if ((child.getAttribute("type") || "line") === "line") text += "\n";
           break;
@@ -975,6 +1079,8 @@ function extractParagraphInfo(para, styleMap) {
     }
   };
   walk(para);
+  const leaderIdx = text.indexOf("");
+  if (leaderIdx >= 0) text = text.substring(0, leaderIdx);
   let cleanText = text.replace(/[ \t]+/g, " ").trim();
   if (/^그림입니다\.?\s*원본\s*그림의\s*(이름|크기)/.test(cleanText)) cleanText = "";
   cleanText = cleanText.replace(/그림입니다\.?\s*원본\s*그림의\s*(이름|크기)[^\n]*(\n[^\n]*원본\s*그림의\s*(이름|크기)[^\n]*)*/g, "").trim();
@@ -1013,8 +1119,9 @@ var TAG_CHAR_SHAPE = 68;
 var TAG_CTRL_HEADER = 71;
 var TAG_LIST_HEADER = 72;
 var TAG_TABLE = 77;
-var TAG_DOC_CHAR_SHAPE = 55;
-var TAG_DOC_STYLE = 58;
+var TAG_DOC_CHAR_SHAPE = 21;
+var TAG_DOC_PARA_SHAPE = 25;
+var TAG_DOC_STYLE = 26;
 var CHAR_LINE = 0;
 var CHAR_SECTION_BREAK = 10;
 var CHAR_PARA = 13;
@@ -1070,8 +1177,14 @@ function parseFileHeader(data) {
 }
 function parseDocInfo(records) {
   const charShapes = [];
+  const paraShapes = [];
   const styles = [];
   for (const rec of records) {
+    if (rec.tagId === TAG_DOC_PARA_SHAPE && rec.data.length >= 4) {
+      const flags = rec.data.readUInt32LE(0);
+      const outlineLevel = flags >> 25 & 7;
+      paraShapes.push({ outlineLevel });
+    }
     if (rec.tagId === TAG_DOC_CHAR_SHAPE && rec.data.length >= 18) {
       if (rec.data.length >= 50) {
         const fontSize = rec.data.readUInt32LE(42);
@@ -1111,7 +1224,7 @@ function parseDocInfo(records) {
       }
     }
   }
-  return { charShapes, styles };
+  return { charShapes, paraShapes, styles };
 }
 function extractText(data) {
   let result = "";
@@ -2121,12 +2234,13 @@ function parseHwp5Document(buffer, options) {
     }
   }
   const images = cfb ? extractHwp5Images(cfb, blocks, compressed, warnings) : extractHwp5ImagesLenient(lenientCfb, blocks, compressed, warnings);
+  const flatBlocks = flattenLayoutTables(blocks);
   if (docInfo) {
-    detectHwp5Headings(blocks, docInfo);
+    detectHwp5Headings(flatBlocks, docInfo);
   }
-  const outline = blocks.filter((b) => b.type === "heading" && b.level && b.text).map((b) => ({ level: b.level, text: b.text, pageNumber: b.pageNumber }));
-  const markdown = blocksToMarkdown(blocks);
-  return { markdown, blocks, metadata, outline: outline.length > 0 ? outline : void 0, warnings: warnings.length > 0 ? warnings : void 0, images: images.length > 0 ? images : void 0 };
+  const outline = flatBlocks.filter((b) => b.type === "heading" && b.level && b.text).map((b) => ({ level: b.level, text: b.text, pageNumber: b.pageNumber }));
+  const markdown = blocksToMarkdown(flatBlocks);
+  return { markdown, blocks: flatBlocks, metadata, outline: outline.length > 0 ? outline : void 0, warnings: warnings.length > 0 ? warnings : void 0, images: images.length > 0 ? images : void 0 };
 }
 function parseDocInfoStream(cfb, compressed) {
   try {
@@ -2177,16 +2291,21 @@ function detectHwp5Headings(blocks, docInfo) {
   }
   if (baseFontSize <= 0) return;
   for (const block of blocks) {
-    if (block.type !== "paragraph" || !block.text || !block.style?.fontSize) continue;
+    if (block.type === "heading") continue;
+    if (block.type !== "paragraph" || !block.text) continue;
     const text = block.text.trim();
     if (text.length === 0 || text.length > 200) continue;
     if (/^\d+$/.test(text)) continue;
-    const ratio = block.style.fontSize / baseFontSize;
     let level = 0;
-    if (ratio >= HEADING_RATIO_H1) level = 1;
-    else if (ratio >= HEADING_RATIO_H2) level = 2;
-    else if (ratio >= HEADING_RATIO_H3) level = 3;
-    if (/^제\d+[조장절편]/.test(text) && text.length <= 50) {
+    if (block.style?.fontSize && baseFontSize > 0) {
+      const ratio = block.style.fontSize / baseFontSize;
+      if (ratio >= HEADING_RATIO_H1) level = 1;
+      else if (ratio >= HEADING_RATIO_H2) level = 2;
+      else if (ratio >= HEADING_RATIO_H3) level = 3;
+    }
+    if (/^제\d+[장절편]\s/.test(text) && text.length <= 50) {
+      if (level === 0) level = 2;
+    } else if (/^제\d+(조의?\d*)\s*[\(（]/.test(text) && text.length <= 80) {
       if (level === 0) level = 3;
     }
     if (level > 0) {
@@ -2432,13 +2551,20 @@ function parseSection(records, docInfo, warnings, sectionNum) {
   while (i < records.length) {
     const rec = records[i];
     if (rec.tagId === TAG_PARA_HEADER && rec.level === 0) {
-      const { paragraph, tables, nextIdx, charShapeIds } = parseParagraphWithTables(records, i);
+      const { paragraph, tables, nextIdx, charShapeIds, paraShapeId } = parseParagraphWithTables(records, i);
       if (paragraph) {
         const block = { type: "paragraph", text: paragraph, pageNumber: sectionNum };
         if (docInfo && charShapeIds.length > 0) {
           const style = resolveCharStyle(charShapeIds, docInfo);
           if (style) block.style = style;
         }
+        if (docInfo && paraShapeId >= 0 && paraShapeId < docInfo.paraShapes.length) {
+          const ol = docInfo.paraShapes[paraShapeId].outlineLevel;
+          if (ol >= 1 && ol <= 6) {
+            block.type = "heading";
+            block.level = ol;
+          }
+        }
         blocks.push(block);
       }
       for (const t of tables) blocks.push({ type: "table", table: t, pageNumber: sectionNum });
@@ -2458,7 +2584,10 @@ function parseSection(records, docInfo, warnings, sectionNum) {
         if (binId >= 0) {
           blocks.push({ type: "image", text: String(binId), pageNumber: sectionNum });
         } else {
-          warnings.push({ page: sectionNum, message: `\uC2A4\uD0B5\uB41C \uC81C\uC5B4 \uC694\uC18C: ${ctrlId.trim()}`, code: "SKIPPED_IMAGE" });
+          const boxText = extractTextBoxText(records, i);
+          if (boxText) {
+            blocks.push({ type: "paragraph", text: boxText, pageNumber: sectionNum });
+          }
         }
       } else if (ctrlId === " elo" || ctrlId === "ole ") {
         warnings.push({ page: sectionNum, message: `\uC2A4\uD0B5\uB41C \uC81C\uC5B4 \uC694\uC18C: ${ctrlId.trim()}`, code: "SKIPPED_IMAGE" });
@@ -2497,6 +2626,19 @@ function extractNoteText(records, ctrlIdx) {
   }
   return texts.length > 0 ? texts.join(" ") : null;
 }
+function extractTextBoxText(records, ctrlIdx) {
+  const ctrlLevel = records[ctrlIdx].level;
+  const texts = [];
+  for (let j = ctrlIdx + 1; j < records.length && j < ctrlIdx + 200; j++) {
+    const r = records[j];
+    if (r.level <= ctrlLevel) break;
+    if (r.tagId === TAG_PARA_TEXT) {
+      const t = extractText(r.data).trim();
+      if (t) texts.push(t);
+    }
+  }
+  return texts.length > 0 ? texts.join("\n") : null;
+}
 function extractHyperlinkUrl(data) {
   try {
     const httpSig = Buffer.from("http", "utf16le");
@@ -2542,6 +2684,8 @@ function parseParagraphWithTables(records, startIdx) {
   let text = "";
   const tables = [];
   const charShapeIds = [];
+  const paraHeaderData = records[startIdx].data;
+  const paraShapeId = paraHeaderData.length >= 10 ? paraHeaderData.readUInt16LE(8) : -1;
   let i = startIdx + 1;
   while (i < records.length) {
     const rec = records[i];
@@ -2566,7 +2710,7 @@ function parseParagraphWithTables(records, startIdx) {
     i++;
   }
   const trimmed = text.trim();
-  return { paragraph: trimmed || null, tables, nextIdx: i, charShapeIds };
+  return { paragraph: trimmed || null, tables, nextIdx: i, charShapeIds, paraShapeId };
 }
 function parseTableBlock(records, startIdx) {
   const tableLevel = records[startIdx].level;
@@ -3384,7 +3528,7 @@ async function parsePdfDocument(buffer, options) {
     if (totalChars / Math.max(parsedPageCount, 1) < 10) {
       if (options?.ocr) {
         try {
-          const { ocrPages } = await import("./provider-A4FHJSID.js");
+          const { ocrPages } = await import("./provider-EU3CG724.js");
           const ocrBlocks = await ocrPages(doc, options.ocr, pageFilter, effectivePageCount);
           if (ocrBlocks.length > 0) {
             const ocrMarkdown = ocrBlocks.map((b) => b.text || "").filter(Boolean).join("\n\n");
@@ -4482,7 +4626,7 @@ async function parseXlsxDocument(buffer, options) {
   }
   let pageFilter = null;
   if (options?.pages) {
-    const { parsePageRange: parsePageRange2 } = await import("./page-range-737B4EZW.js");
+    const { parsePageRange: parsePageRange2 } = await import("./page-range-OF5I4PQY.js");
     pageFilter = parsePageRange2(options.pages, sheets.length);
   }
   const blocks = [];
@@ -5365,4 +5509,4 @@ export {
   extractFormFields,
   parse
 };
-//# sourceMappingURL=chunk-JJ65GKUH.js.map
+//# sourceMappingURL=chunk-4UH6ABAY.js.map