kordoc 1.7.2 → 1.8.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
package/README.md CHANGED
@@ -2,12 +2,12 @@
2
2
 
3
3
  **모두 파싱해버리겠다.**
4
4
 
5
- [![npm version](https://img.shields.io/badge/npm-v1.7.1-cb3837.svg)](https://www.npmjs.com/package/kordoc)
5
+ [![npm version](https://img.shields.io/badge/npm-v1.8.0-cb3837.svg)](https://www.npmjs.com/package/kordoc)
6
6
  [![license](https://img.shields.io/npm/l/kordoc.svg)](https://github.com/chrisryugj/kordoc/blob/main/LICENSE)
7
7
 
8
8
  > *대한민국에서 둘째가라면 서러울 문서지옥. 거기서 7년 버틴 공무원이 만들었습니다.*
9
9
 
10
- HWP, HWPX, PDF — 관공서에서 쏟아지는 모든 문서를 파싱하고, 비교하고, 분석하고, 생성합니다.
10
+ HWP, HWPX, PDF, XLSX, DOCX — 관공서에서 쏟아지는 모든 문서를 파싱하고, 비교하고, 분석하고, 생성합니다.
11
11
 
12
12
  [English](./README-EN.md)
13
13
 
@@ -19,7 +19,7 @@ HWP, HWPX, PDF — 관공서에서 쏟아지는 모든 문서를 파싱하고,
19
19
 
20
20
  단순한 텍스트 추출을 넘어, **공문서 처리를 위한 모든 과정**을 자동화합니다.
21
21
 
22
- * **📄 어떤 문서든 마크다운으로**: `HWP`, `HWPX`, `PDF` 파일을 즉시 `Markdown`으로 변환합니다. AI(LLM)가 문서를 읽고 분석하기 가장 좋은 상태로 만들어줍니다.
22
+ * **📄 어떤 문서든 마크다운으로**: `HWP`, `HWPX`, `PDF`, `XLSX`, `DOCX` 파일을 즉시 `Markdown`으로 변환합니다. AI(LLM)가 문서를 읽고 분석하기 가장 좋은 상태로 만들어줍니다.
23
23
  * **📊 복잡한 표(Table) 완벽 재현**: 선이 없는 PDF나 복잡하게 병합된 HWP 표도 구조를 분석하여 정확한 마크다운 테이블로 복원합니다.
24
24
  * **🔍 신구대조표 자동 생성**: 두 문서의 차이점을 분석하여 무엇이 바뀌었는지 한눈에 보여줍니다. (HWP와 HWPX 간의 비교도 가능!)
25
25
  * **📝 마크다운을 다시 HWPX로**: AI가 작성한 내용을 다시 보고서 양식(`HWPX`)으로 되돌려줍니다. 이제 복사-붙여넣기 노가다에서 해방되세요.
@@ -27,16 +27,25 @@ HWP, HWPX, PDF — 관공서에서 쏟아지는 모든 문서를 파싱하고,
27
27
 
28
28
  ---
29
29
 
30
- ## v1.7.1 변경사항
30
+ ## v1.8.0 변경사항
31
31
 
32
- - **이미지 추출 (HWP/HWPX)**ZIP 엔트리와 HWP5 BinData 스트림에서 바이너리 이미지 추출. 마크다운 `![image](...)` 형태로 출력.
33
- - **부분 파싱 (Graceful Degradation)** 개별 페이지 실패가 전체 파싱을 중단하지 않음. 실패 페이지는 `PARTIAL_PARSE` 경고 기록 계속 진행.
34
- - **진행률 콜백** `ParseOptions`에 `onProgress` 콜백 추가. CLI에서 `[3/15 pages]` 형태 표시. 배치 모드는 `[2/10 files]`.
35
- - **파일 경로 직접 입력** — `parse("path/to/file.hwp")` 문자열 오버로드. 파일 읽기 + 포맷 감지 자동.
36
- - **PDF 머리글/바닥글 필터링** — `removeHeaderFooter: true` 옵션으로 페이지 상하단 반복 텍스트 제거. 제거 항목은 `ParseWarning` 기록.
37
- - **보안 강화** — ZIP bomb 누적크기 추적 전체 파일 타입 적용, Webhook SSRF 방지, 하이퍼링크 XSS 방어(javascript: URL 제거), 널바이트 경로 탐색 감지, Levenshtein 길이 가드, PDF 30초 로딩 타임아웃.
38
- - **버그 수정** — HWPX generator separator 로직, XML 재귀 깊이 제한(MAX_XML_DEPTH=200), PDF 테이블 행 병합 보호, CLI `--format` 검증, PDF 변수 섀도잉.
39
- - **UX 개선** — KV 테이블 오탐 개선(시간/URL/숫자 패턴 제외), MCP `parse_metadata` 50MB 제한 + 헤더만 포맷 감지, Watch 디바운스 1000ms + 파일 크기 안정성 체크.
32
+ - **XLSX 파서 추가**Excel 스프레드시트 파싱. 공유 문자열, 병합 셀, 다중 시트 지원. 시트별 heading + table 블록 생성.
33
+ - **DOCX 파서 추가**Word 문서 파싱. 스타일 기반 heading, 번호 매기기(리스트), 각주, 하이퍼링크, 이미지 추출, vMerge/gridSpan 테이블 병합.
34
+ - **파싱 품질 대폭 개선** PDF/HWPX/HWP5/XLSX 포맷 품질 점수 73→93점.
35
+ - **프로덕션 리뷰 17건 수정**CLI `--no-header-footer` 플래그 반전 버그, MCP XLSX/DOCX 확장자 허용, ZIP bomb 보호 공유 유틸화, href XSS 살균 강화, PDF timeout 타이머 정리, HWP5 BinData O(n) 최적화, cluster indexOf O(n²)→O(n), SSRF IPv6 차단 등.
36
+
37
+ <details>
38
+ <summary>v1.7.x 변경사항</summary>
39
+
40
+ - **이미지 추출 (HWP/HWPX)** — ZIP 엔트리와 HWP5 BinData 스트림에서 바이너리 이미지 추출.
41
+ - **부분 파싱 (Graceful Degradation)** — 개별 페이지 실패가 전체 파싱을 중단하지 않음.
42
+ - **진행률 콜백** — `onProgress` 콜백. CLI에서 `[3/15 pages]` 형태 표시.
43
+ - **파일 경로 직접 입력** — `parse("path/to/file.hwp")` 문자열 오버로드.
44
+ - **PDF 머리글/바닥글 필터링** — `removeHeaderFooter` 옵션.
45
+ - **보안 강화** — ZIP bomb 추적, SSRF 방지, XSS 방어, 널바이트 감지, PDF 타임아웃.
46
+ - **pdfjs-dist v5 호환** — constructPath 연산자 형식 변경 대응.
47
+
48
+ </details>
40
49
 
41
50
  <details>
42
51
  <summary>v1.6.1 수정사항</summary>
@@ -194,7 +203,7 @@ npx kordoc watch ./문서 --webhook https://api/hook # 웹훅 알림
194
203
 
195
204
  | 도구 | 설명 |
196
205
  |------|------|
197
- | `parse_document` | HWP/HWPX/PDF → 마크다운 (메타데이터 포함) |
206
+ | `parse_document` | HWP/HWPX/PDF/XLSX/DOCX → 마크다운 (메타데이터 포함) |
198
207
  | `detect_format` | 매직 바이트로 포맷 감지 |
199
208
  | `parse_metadata` | 메타데이터만 빠르게 추출 |
200
209
  | `parse_pages` | 특정 페이지 범위만 파싱 |
@@ -212,7 +221,9 @@ npx kordoc watch ./문서 --webhook https://api/hook # 웹훅 알림
212
221
  | `parseHwpx(buffer, options?)` | HWPX 전용 |
213
222
  | `parseHwp(buffer, options?)` | HWP 5.x 전용 |
214
223
  | `parsePdf(buffer, options?)` | PDF 전용 |
215
- | `detectFormat(buffer)` | `"hwpx" \| "hwp" \| "pdf" \| "unknown"` |
224
+ | `parseXlsx(buffer, options?)` | XLSX 전용 |
225
+ | `parseDocx(buffer, options?)` | DOCX 전용 |
226
+ | `detectFormat(buffer)` | `"hwpx" \| "hwp" \| "pdf" \| "xlsx" \| "docx" \| "unknown"` |
216
227
 
217
228
  ### 고급 함수
218
229
 
@@ -242,7 +253,9 @@ import type {
242
253
  |------|------|------|
243
254
  | **HWPX** (한컴 2020+) | ZIP + XML DOM | 매니페스트, 중첩 테이블, 병합 셀, 손상 ZIP 복구 |
244
255
  | **HWP 5.x** (한컴 레거시) | OLE2 + CFB | 21종 제어문자, zlib 압축 해제, DRM 감지, colAddr 기반 셀 배치 |
245
- | **PDF** | pdfjs-dist | 라인 그룹핑, 테이블 감지, 이미지 PDF + OCR |
256
+ | **PDF** | pdfjs-dist | 기반 테이블, XY-Cut 읽기 순서, 헤딩 감지, OCR |
257
+ | **XLSX** (Excel) | ZIP + XML DOM | 공유 문자열, 병합 셀, 다중 시트, 수식 표시 |
258
+ | **DOCX** (Word) | ZIP + XML DOM | 스타일 heading, 번호 매기기, 각주, 이미지 추출 |
246
259
 
247
260
  ## 보안
248
261
 
@@ -256,3 +269,11 @@ import type {
256
269
  ## 라이선스
257
270
 
258
271
  [MIT](./LICENSE)
272
+
273
+ 이 프로젝트는 아래 오픈소스를 포함합니다:
274
+ - **OpenDataLoader PDF** (Apache 2.0, Hancom Inc.) — PDF 테이블 감지 알고리즘
275
+ - **cfb** (Apache 2.0, SheetJS) — HWP5 OLE2 컨테이너 파싱
276
+ - **pdfjs-dist** (Apache 2.0, Mozilla) — PDF 텍스트 추출
277
+ - **JSZip** (MIT, Stuart Knightley 외) — ZIP 기반 포맷 파싱
278
+
279
+ 자세한 내용은 [NOTICE](./NOTICE) 파일을 참조하세요.
@@ -0,0 +1,35 @@
1
+ #!/usr/bin/env node
2
+
3
+ // src/page-range.ts
4
+ function parsePageRange(spec, maxPages) {
5
+ const result = /* @__PURE__ */ new Set();
6
+ if (maxPages <= 0) return result;
7
+ if (Array.isArray(spec)) {
8
+ for (const n of spec) {
9
+ const page = Math.round(n);
10
+ if (page >= 1 && page <= maxPages) result.add(page);
11
+ }
12
+ return result;
13
+ }
14
+ if (typeof spec !== "string" || spec.trim() === "") return result;
15
+ const parts = spec.split(",");
16
+ for (const part of parts) {
17
+ const trimmed = part.trim();
18
+ if (!trimmed) continue;
19
+ const rangeMatch = trimmed.match(/^(\d+)\s*-\s*(\d+)$/);
20
+ if (rangeMatch) {
21
+ const start = Math.max(1, parseInt(rangeMatch[1], 10));
22
+ const end = Math.min(maxPages, parseInt(rangeMatch[2], 10));
23
+ for (let i = start; i <= end; i++) result.add(i);
24
+ } else {
25
+ const page = parseInt(trimmed, 10);
26
+ if (!isNaN(page) && page >= 1 && page <= maxPages) result.add(page);
27
+ }
28
+ }
29
+ return result;
30
+ }
31
+
32
+ export {
33
+ parsePageRange
34
+ };
35
+ //# sourceMappingURL=chunk-MOL7MDBG.js.map
@@ -0,0 +1 @@
1
+ {"version":3,"sources":["../src/page-range.ts"],"sourcesContent":["/** 페이지/섹션 범위 파싱 유틸리티 */\n\n/**\n * 페이지 범위 지정을 1-based Set<number>로 변환.\n *\n * @param spec - [1,2,3] 또는 \"1-3\" 또는 \"1,3,5-7\"\n * @param maxPages - 최대 페이지 수 (클램핑 상한)\n * @returns 1-based 페이지 번호 Set\n */\nexport function parsePageRange(spec: number[] | string, maxPages: number): Set<number> {\n const result = new Set<number>()\n if (maxPages <= 0) return result\n\n if (Array.isArray(spec)) {\n for (const n of spec) {\n const page = Math.round(n)\n if (page >= 1 && page <= maxPages) result.add(page)\n }\n return result\n }\n\n if (typeof spec !== \"string\" || spec.trim() === \"\") return result\n\n const parts = spec.split(\",\")\n for (const part of parts) {\n const trimmed = part.trim()\n if (!trimmed) continue\n\n const rangeMatch = trimmed.match(/^(\\d+)\\s*-\\s*(\\d+)$/)\n if (rangeMatch) {\n const start = Math.max(1, parseInt(rangeMatch[1], 10))\n const end = Math.min(maxPages, parseInt(rangeMatch[2], 10))\n for (let i = start; i <= end; i++) result.add(i)\n } else {\n const page = parseInt(trimmed, 10)\n if (!isNaN(page) && page >= 1 && page <= maxPages) result.add(page)\n }\n }\n\n return result\n}\n"],"mappings":";;;AASO,SAAS,eAAe,MAAyB,UAA+B;AACrF,QAAM,SAAS,oBAAI,IAAY;AAC/B,MAAI,YAAY,EAAG,QAAO;AAE1B,MAAI,MAAM,QAAQ,IAAI,GAAG;AACvB,eAAW,KAAK,MAAM;AACpB,YAAM,OAAO,KAAK,MAAM,CAAC;AACzB,UAAI,QAAQ,KAAK,QAAQ,SAAU,QAAO,IAAI,IAAI;AAAA,IACpD;AACA,WAAO;AAAA,EACT;AAEA,MAAI,OAAO,SAAS,YAAY,KAAK,KAAK,MAAM,GAAI,QAAO;AAE3D,QAAM,QAAQ,KAAK,MAAM,GAAG;AAC5B,aAAW,QAAQ,OAAO;AACxB,UAAM,UAAU,KAAK,KAAK;AAC1B,QAAI,CAAC,QAAS;AAEd,UAAM,aAAa,QAAQ,MAAM,qBAAqB;AACtD,QAAI,YAAY;AACd,YAAM,QAAQ,KAAK,IAAI,GAAG,SAAS,WAAW,CAAC,GAAG,EAAE,CAAC;AACrD,YAAM,MAAM,KAAK,IAAI,UAAU,SAAS,WAAW,CAAC,GAAG,EAAE,CAAC;AAC1D,eAAS,IAAI,OAAO,KAAK,KAAK,IAAK,QAAO,IAAI,CAAC;AAAA,IACjD,OAAO;AACL,YAAM,OAAO,SAAS,SAAS,EAAE;AACjC,UAAI,CAAC,MAAM,IAAI,KAAK,QAAQ,KAAK,QAAQ,SAAU,QAAO,IAAI,IAAI;AAAA,IACpE;AAAA,EACF;AAEA,SAAO;AACT;","names":[]}