npm - kordoc - Versions diffs - 2.0.0 → 2.0.2 - Mend

kordoc 2.0.0 → 2.0.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (17) hide show

package/README.md +5 -5
package/dist/{chunk-UMO6QQO5.js → chunk-EVWOJ4T5.js} +2 -2
package/dist/{chunk-UUHAAZYN.js → chunk-XJYM2AUA.js} +117 -34
package/dist/chunk-XJYM2AUA.js.map +1 -0
package/dist/cli.js +4 -4
package/dist/index.cjs +116 -33
package/dist/index.cjs.map +1 -1
package/dist/index.js +116 -33
package/dist/index.js.map +1 -1
package/dist/mcp.js +2 -2
package/dist/{utils-K23YMTIM.js → utils-6JEIFBCJ.js} +2 -2
package/dist/{watch-CGG7CCHJ.js → watch-BCPDLGOE.js} +3 -3
package/package.json +1 -1
package/dist/chunk-UUHAAZYN.js.map +0 -1
/package/dist/{chunk-UMO6QQO5.js.map → chunk-EVWOJ4T5.js.map} +0 -0
/package/dist/{utils-K23YMTIM.js.map → utils-6JEIFBCJ.js.map} +0 -0
/package/dist/{watch-CGG7CCHJ.js.map → watch-BCPDLGOE.js.map} +0 -0

package/README.md CHANGED Viewed

@@ -2,7 +2,7 @@
 **모두 파싱해버리겠다.**
-[![npm version](https://img.shields.io/badge/npm-v2.0.0-cb3837.svg)](https://www.npmjs.com/package/kordoc)
+[![npm version](https://img.shields.io/badge/npm-v2.0.1-cb3837.svg)](https://www.npmjs.com/package/kordoc)
 [![license](https://img.shields.io/npm/l/kordoc.svg)](https://github.com/chrisryugj/kordoc/blob/main/LICENSE)
 > *대한민국에서 둘째가라면 서러울 문서지옥. 거기서 7년 버틴 공무원이 만들었습니다.*
@@ -27,10 +27,10 @@ HWP, HWPX, PDF, XLSX, DOCX — 관공서에서 쏟아지는 모든 문서를 파
 ---
-## v2.0.0 변경사항
+## v2.0 변경사항
-- **HWP5 배포용 문서 복호화** — 열람 제한 HWP 파일을 AES-128 ECB로 복호화. 순수 JS 구현, 네이티브 의존성 없음. [rhwp](https://github.com/pjc0247/rhwp)(MIT) 알고리즘 포팅.
-- **손상된 HWP 파일 복구** — 표준 CFB 모듈이 거부하는 파일을 직접 FAT/디렉토리 파싱으로 복구. rhwp의 LenientCfbReader 포팅.
+- **🔓 배포용(열람 제한) HWP 파싱 지원** — 관공서에서 배포용으로 잠근 HWP 파일도 이제 파싱됩니다. AES-128 ECB 복호화, 순수 JS 구현. [rhwp](https://github.com/edwardkim/rhwp)(MIT) 알고리즘 포팅.
+- **손상된 HWP 파일 복구** — 표준 CFB 모듈이 거부하는 파일을 직접 FAT/디렉토리 파싱으로 복구. rhwp LenientCfbReader 포팅.
 - **HWP5 각주/미주/하이퍼링크 추출** — 각주 본문 텍스트 연결, 하이퍼링크 URL 추출 및 XSS 살균.
 - **HWPX 표 병합 밀림 수정** — colspan/rowspan 그리드 계산 버그 수정.
 - **보안 강화** — CFB 섹터 크기 검증, sanitizeHref 3중 경로 일관 적용.
@@ -282,7 +282,7 @@ import type {
 [MIT](./LICENSE)
 이 프로젝트는 아래 오픈소스를 포함합니다:
-- **rhwp** (MIT, pjc0247) — HWP5 배포용 복호화 및 lenient CFB 파싱 알고리즘
+- **rhwp** (MIT, edwardkim) — HWP5 배포용 복호화 및 lenient CFB 파싱 알고리즘
 - **OpenDataLoader PDF** (Apache 2.0, Hancom Inc.) — PDF 테이블 감지 알고리즘
 - **cfb** (Apache 2.0, SheetJS) — HWP5 OLE2 컨테이너 파싱
 - **pdfjs-dist** (Apache 2.0, Mozilla) — PDF 텍스트 추출

package/dist/{chunk-UMO6QQO5.js → chunk-EVWOJ4T5.js} RENAMED Viewed

@@ -1,7 +1,7 @@
 #!/usr/bin/env node
 // src/utils.ts
-var VERSION = true ? "2.0.0" : "0.0.0-dev";
+var VERSION = true ? "2.0.2" : "0.0.0-dev";
 function toArrayBuffer(buf) {
   if (buf.byteOffset === 0 && buf.byteLength === buf.buffer.byteLength) {
     return buf.buffer;
@@ -90,4 +90,4 @@ export {
   sanitizeHref,
   classifyError
 };
-//# sourceMappingURL=chunk-UMO6QQO5.js.map
+//# sourceMappingURL=chunk-EVWOJ4T5.js.map

package/dist/{chunk-UUHAAZYN.js → chunk-XJYM2AUA.js} RENAMED Viewed

@@ -6,7 +6,7 @@ import {
   precheckZipSize,
   sanitizeHref,
   toArrayBuffer
-} from "./chunk-UMO6QQO5.js";
+} from "./chunk-EVWOJ4T5.js";
 import {
   parsePageRange
 } from "./chunk-MOL7MDBG.js";
@@ -224,8 +224,11 @@ function blocksToMarkdown(blocks) {
       if (lines.length > 0 && lines[lines.length - 1] !== "") {
         lines.push("");
       }
-      lines.push(tableToMarkdown(block.table));
-      lines.push("");
+      const tableMd = tableToMarkdown(block.table);
+      if (tableMd) {
+        lines.push(tableMd);
+        lines.push("");
+      }
     }
   }
   return lines.join("\n").trim();
@@ -235,6 +238,7 @@ function tableToMarkdown(table) {
   const { cells, rows: numRows, cols: numCols } = table;
   if (numRows === 1 && numCols === 1) {
     const content = sanitizeText(cells[0][0].text);
+    if (!content) return "";
     return content.split(/\n/).map((line) => {
       const trimmed = line.trim();
       if (!trimmed) return "";
@@ -271,9 +275,9 @@ function tableToMarkdown(table) {
     const row = display[r];
     const isEmptyPlaceholder = row.every((cell) => cell === "");
     if (isEmptyPlaceholder) continue;
-    const hasSkippedCols = row.some((cell, c) => cell === "" && skip.has(`${r},${c}`));
     const nonEmptyCols = row.filter((cell) => cell !== "");
-    if (!hasSkippedCols && nonEmptyCols.length === 1 && row[0] !== "" && row.slice(1).every((c) => c === "")) {
+    const hasSkipInRow = row.some((_, c) => skip.has(`${r},${c}`));
+    if (!hasSkipInRow && nonEmptyCols.length === 1 && row[0] !== "" && row.slice(1).every((c) => c === "")) {
       pendingFirstCol = row[0];
       continue;
     }
@@ -705,7 +709,8 @@ function detectHwpxHeadings(blocks, styleMap) {
       else if (ratio >= HEADING_RATIO_H2) level = 2;
       else if (ratio >= HEADING_RATIO_H3) level = 3;
     }
-    if (/^제\d+[조장절편]/.test(text) && text.length <= 50) {
+    const compactText = text.replace(/\s+/g, "");
+    if (/^제\d+[조장절편]/.test(compactText) && text.length <= 50) {
       if (level === 0) level = 3;
     }
     if (level > 0) {
@@ -757,9 +762,14 @@ function walkSection(node, blocks, tableCtx, tableStack, styleMap, warnings, sec
         if (newTable.rows.length > 0) {
           if (tableStack.length > 0) {
             const parentTable = tableStack.pop();
-            const nestedText = convertTableToText(newTable.rows);
-            if (parentTable.cell) {
-              parentTable.cell.text += (parentTable.cell.text ? "\n" : "") + nestedText;
+            const nestedCols = Math.max(...newTable.rows.map((r) => r.length));
+            if (newTable.rows.length >= 3 && nestedCols >= 2) {
+              blocks.push({ type: "table", table: buildTable(newTable.rows), pageNumber: sectionNum });
+            } else {
+              const nestedText = convertTableToText(newTable.rows);
+              if (parentTable.cell) {
+                parentTable.cell.text += (parentTable.cell.text ? "\n" : "") + nestedText;
+              }
             }
             tableCtx = parentTable;
           } else {
@@ -859,9 +869,14 @@ function walkParagraphChildren(node, blocks, tableCtx, tableStack, styleMap, war
         if (newTable.rows.length > 0) {
           if (tableStack.length > 0) {
             const parentTable = tableStack.pop();
-            const nestedText = convertTableToText(newTable.rows);
-            if (parentTable.cell) {
-              parentTable.cell.text += (parentTable.cell.text ? "\n" : "") + nestedText;
+            const nestedCols = Math.max(...newTable.rows.map((r) => r.length));
+            if (newTable.rows.length >= 3 && nestedCols >= 2) {
+              blocks.push({ type: "table", table: buildTable(newTable.rows), pageNumber: sectionNum });
+            } else {
+              const nestedText = convertTableToText(newTable.rows);
+              if (parentTable.cell) {
+                parentTable.cell.text += (parentTable.cell.text ? "\n" : "") + nestedText;
+              }
             }
             tableCtx = parentTable;
           } else {
@@ -872,13 +887,20 @@ function walkParagraphChildren(node, blocks, tableCtx, tableStack, styleMap, war
           tableCtx = tableStack.length > 0 ? tableStack.pop() : null;
         }
       } else if (localTag === "pic" || localTag === "shape" || localTag === "drawingObject") {
-        const imgRef = extractImageRef(el);
-        if (imgRef) {
-          blocks.push({ type: "image", text: imgRef, pageNumber: sectionNum });
-        } else if (warnings && sectionNum) {
-          warnings.push({ page: sectionNum, message: `\uC2A4\uD0B5\uB41C \uC694\uC18C: ${localTag}`, code: "SKIPPED_IMAGE" });
+        const drawTextChild = findDescendant(el, "drawText");
+        if (drawTextChild) {
+          extractDrawTextBlocks(drawTextChild, blocks, styleMap, sectionNum);
+        } else {
+          const imgRef = extractImageRef(el);
+          if (imgRef) {
+            blocks.push({ type: "image", text: imgRef, pageNumber: sectionNum });
+          } else if (warnings && sectionNum) {
+            warnings.push({ page: sectionNum, message: `\uC2A4\uD0B5\uB41C \uC694\uC18C: ${localTag}`, code: "SKIPPED_IMAGE" });
+          }
         }
-      } else if (localTag === "r" || localTag === "run" || localTag === "ctrl") {
+      } else if (localTag === "drawText") {
+        extractDrawTextBlocks(el, blocks, styleMap, sectionNum);
+      } else if (localTag === "r" || localTag === "run" || localTag === "ctrl" || localTag === "rect" || localTag === "ellipse" || localTag === "polygon" || localTag === "line" || localTag === "arc" || localTag === "curve" || localTag === "connectLine" || localTag === "container") {
         walkChildren(el, d + 1);
       }
     }
@@ -886,6 +908,40 @@ function walkParagraphChildren(node, blocks, tableCtx, tableStack, styleMap, war
   walkChildren(node, depth);
   return tableCtx;
 }
+function findDescendant(node, targetTag, depth = 0) {
+  if (depth > 5) return null;
+  const children = node.childNodes;
+  if (!children) return null;
+  for (let i = 0; i < children.length; i++) {
+    const child = children[i];
+    if (child.nodeType !== 1) continue;
+    const tag = (child.tagName || child.localName || "").replace(/^[^:]+:/, "");
+    if (tag === targetTag) return child;
+    const found = findDescendant(child, targetTag, depth + 1);
+    if (found) return found;
+  }
+  return null;
+}
+function extractDrawTextBlocks(drawTextNode, blocks, styleMap, sectionNum) {
+  const children = drawTextNode.childNodes;
+  if (!children) return;
+  for (let i = 0; i < children.length; i++) {
+    const child = children[i];
+    if (child.nodeType !== 1) continue;
+    const tag = (child.tagName || child.localName || "").replace(/^[^:]+:/, "");
+    if (tag === "subList" || tag === "p" || tag === "para") {
+      if (tag === "subList") {
+        extractDrawTextBlocks(child, blocks, styleMap, sectionNum);
+      } else {
+        const info = extractParagraphInfo(child, styleMap);
+        const text = info.text.trim();
+        if (text) {
+          blocks.push({ type: "paragraph", text, style: info.style ?? void 0, pageNumber: sectionNum });
+        }
+      }
+    }
+  }
+}
 function extractParagraphInfo(para, styleMap) {
   let text = "";
   let href;
@@ -904,11 +960,18 @@ function extractParagraphInfo(para, styleMap) {
       const tag = (child.tagName || child.localName || "").replace(/^[^:]+:/, "");
       switch (tag) {
         case "t":
-          text += child.textContent || "";
+          walk(child);
           break;
-        case "tab":
-          text += "	";
+        // 자식 순회 (tab 등 하위 요소 처리)
+        case "tab": {
+          const leader = child.getAttribute("leader");
+          if (leader && leader !== "0") {
+            text += "";
+          } else {
+            text += "	";
+          }
           break;
+        }
         case "br":
           if ((child.getAttribute("type") || "line") === "line") text += "\n";
           break;
@@ -975,6 +1038,8 @@ function extractParagraphInfo(para, styleMap) {
     }
   };
   walk(para);
+  const leaderIdx = text.indexOf("");
+  if (leaderIdx >= 0) text = text.substring(0, leaderIdx);
   let cleanText = text.replace(/[ \t]+/g, " ").trim();
   if (/^그림입니다\.?\s*원본\s*그림의\s*(이름|크기)/.test(cleanText)) cleanText = "";
   cleanText = cleanText.replace(/그림입니다\.?\s*원본\s*그림의\s*(이름|크기)[^\n]*(\n[^\n]*원본\s*그림의\s*(이름|크기)[^\n]*)*/g, "").trim();
@@ -1803,18 +1868,20 @@ function decryptDistributePayload(payload) {
   if (payload.length < 256) throw new Error("\uBC30\uD3EC\uC6A9 payload\uAC00 256\uBC14\uC774\uD2B8 \uBBF8\uB9CC\uC785\uB2C8\uB2E4");
   const seed = (payload[0] | payload[1] << 8 | payload[2] << 16 | payload[3] << 24) >>> 0;
   const lcg = new MsvcLcg(seed);
-  const result = new Uint8Array(256);
-  result[0] = payload[0];
-  result[1] = payload[1];
-  result[2] = payload[2];
-  result[3] = payload[3];
-  let i = 4;
+  const result = new Uint8Array(payload.subarray(0, 256));
+  let i = 0;
+  let n = 0;
+  let key = 0;
   while (i < 256) {
-    const keyByte = lcg.rand() & 255;
-    const n = (lcg.rand() & 15) + 1;
-    for (let j = 0; j < n && i < 256; j++, i++) {
-      result[i] = payload[i] ^ keyByte;
+    if (n === 0) {
+      key = lcg.rand() & 255;
+      n = (lcg.rand() & 15) + 1;
+    }
+    if (i >= 4) {
+      result[i] ^= key;
     }
+    i++;
+    n--;
   }
   return result;
 }
@@ -1838,7 +1905,7 @@ function parseRecordHeader(data, offset) {
   }
   return { tagId, size, headerSize };
 }
-var TAG_DISTRIBUTE_DOC_DATA = 16 + 28;
+var TAG_DISTRIBUTE_DOC_DATA = 16 + 12;
 function decryptViewText(viewTextRaw, compressed) {
   const data = new Uint8Array(viewTextRaw);
   const rec = parseRecordHeader(data, 0);
@@ -2456,7 +2523,10 @@ function parseSection(records, docInfo, warnings, sectionNum) {
         if (binId >= 0) {
           blocks.push({ type: "image", text: String(binId), pageNumber: sectionNum });
         } else {
-          warnings.push({ page: sectionNum, message: `\uC2A4\uD0B5\uB41C \uC81C\uC5B4 \uC694\uC18C: ${ctrlId.trim()}`, code: "SKIPPED_IMAGE" });
+          const boxText = extractTextBoxText(records, i);
+          if (boxText) {
+            blocks.push({ type: "paragraph", text: boxText, pageNumber: sectionNum });
+          }
         }
       } else if (ctrlId === " elo" || ctrlId === "ole ") {
         warnings.push({ page: sectionNum, message: `\uC2A4\uD0B5\uB41C \uC81C\uC5B4 \uC694\uC18C: ${ctrlId.trim()}`, code: "SKIPPED_IMAGE" });
@@ -2495,6 +2565,19 @@ function extractNoteText(records, ctrlIdx) {
   }
   return texts.length > 0 ? texts.join(" ") : null;
 }
+function extractTextBoxText(records, ctrlIdx) {
+  const ctrlLevel = records[ctrlIdx].level;
+  const texts = [];
+  for (let j = ctrlIdx + 1; j < records.length && j < ctrlIdx + 200; j++) {
+    const r = records[j];
+    if (r.level <= ctrlLevel) break;
+    if (r.tagId === TAG_PARA_TEXT) {
+      const t = extractText(r.data).trim();
+      if (t) texts.push(t);
+    }
+  }
+  return texts.length > 0 ? texts.join("\n") : null;
+}
 function extractHyperlinkUrl(data) {
   try {
     const httpSig = Buffer.from("http", "utf16le");
@@ -5363,4 +5446,4 @@ export {
   extractFormFields,
   parse
 };
-//# sourceMappingURL=chunk-UUHAAZYN.js.map
+//# sourceMappingURL=chunk-XJYM2AUA.js.map