pdfprep 0.1.0__tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
pdfprep-0.1.0/PKG-INFO ADDED
@@ -0,0 +1,249 @@
1
+ Metadata-Version: 2.4
2
+ Name: pdfprep
3
+ Version: 0.1.0
4
+ Summary: PDF 전처리 통합 도구 — 메타데이터, 텍스트 파싱, OCR, 표 추출
5
+ Author-email: uwpark <uwpark@simplatform.com>
6
+ License: MIT
7
+ Project-URL: Homepage, https://pypi.org/project/pdfprep/
8
+ Keywords: pdf,ocr,table-extraction,preprocessing,parsing,metadata
9
+ Classifier: Programming Language :: Python :: 3
10
+ Classifier: Programming Language :: Python :: 3.12
11
+ Classifier: License :: OSI Approved :: MIT License
12
+ Classifier: Operating System :: POSIX :: Linux
13
+ Classifier: Topic :: Text Processing
14
+ Classifier: Topic :: Scientific/Engineering :: Image Recognition
15
+ Classifier: Natural Language :: Korean
16
+ Requires-Python: >=3.12
17
+ Description-Content-Type: text/markdown
18
+ Requires-Dist: pypdf<6.0,>=4.0
19
+ Requires-Dist: pdfplumber>=0.11.0
20
+ Requires-Dist: pymupdf>=1.27.0
21
+ Requires-Dist: pillow>=10.0
22
+ Requires-Dist: numpy<2
23
+ Requires-Dist: setuptools>=65
24
+ Provides-Extra: ocr
25
+ Requires-Dist: pytesseract>=0.3.13; extra == "ocr"
26
+ Requires-Dist: paddleocr==2.7.3; extra == "ocr"
27
+ Requires-Dist: paddlepaddle==2.6.2; extra == "ocr"
28
+ Provides-Extra: table
29
+ Requires-Dist: camelot-py[base]==1.0.9; extra == "table"
30
+ Requires-Dist: tabula-py>=2.10; extra == "table"
31
+ Requires-Dist: jpype1>=1.5; extra == "table"
32
+ Requires-Dist: layoutparser>=0.3.4; extra == "table"
33
+ Provides-Extra: all
34
+ Requires-Dist: pytesseract>=0.3.13; extra == "all"
35
+ Requires-Dist: paddleocr==2.7.3; extra == "all"
36
+ Requires-Dist: paddlepaddle==2.6.2; extra == "all"
37
+ Requires-Dist: camelot-py[base]==1.0.9; extra == "all"
38
+ Requires-Dist: tabula-py>=2.10; extra == "all"
39
+ Requires-Dist: jpype1>=1.5; extra == "all"
40
+ Requires-Dist: layoutparser>=0.3.4; extra == "all"
41
+
42
+ # PDF 메타데이터 / 파싱 / OCR / 표 추출 도구
43
+
44
+ PDF 파일의 메타데이터를 확인하고, 3가지 라이브러리(`pypdf` / `pdfplumber` / `pymupdf`)로 텍스트를 파싱하며, 2가지 OCR 엔진(`tesseract` / `paddleocr`)으로 이미지 기반 텍스트를 추출하고, 3가지 표 추출 라이브러리(`camelot` / `tabula` / `layoutparser`)로 표를 검출·추출하는 Python 스크립트 모음입니다.
45
+
46
+ ## 구성
47
+
48
+ | 파일 | 설명 |
49
+ | --- | --- |
50
+ | `pdf_metadata.py` | PDF 메타데이터 추출/출력 모듈. CLI로 직접 실행 가능 |
51
+ | `test_pdf_metadata.py` | `pdf_metadata`를 불러와 동작을 검증하는 테스트 스크립트 |
52
+ | `parsing_pdf.py` | 3종 라이브러리로 PDF 텍스트를 파싱하는 통합 모듈 |
53
+ | `test_parsing_pdf.py` | 각 파싱 엔진별 결과를 비교·검증하는 테스트 스크립트 |
54
+ | `ocr_pdf.py` | 2종 OCR 엔진(tesseract / paddleocr)으로 PDF를 OCR하는 통합 모듈 |
55
+ | `test_ocr_pdf.py` | OCR 엔진별 결과(텍스트, 신뢰도, 박스 수 등)를 비교 검증 |
56
+ | `table_pdf.py` | 3종 라이브러리(camelot / tabula / layoutparser)로 표 추출하는 통합 모듈 |
57
+ | `test_table_pdf.py` | 표 추출 엔진별 결과(표 개수, 행/열, 정확도 등)를 비교 검증 |
58
+ | `requirements.txt` | 의존성 목록 |
59
+ | `data/` | 테스트용 PDF 파일을 두는 폴더 |
60
+
61
+ ## 설치
62
+
63
+ ```bash
64
+ pip install -r requirements.txt
65
+ ```
66
+
67
+ PEP 668 환경(Ubuntu 등 시스템 Python)에서는 가상환경 사용을 권장합니다.
68
+
69
+ ```bash
70
+ python3 -m venv .venv
71
+ source .venv/bin/activate
72
+ pip install -r requirements.txt
73
+ ```
74
+
75
+ ### Tesseract 시스템 패키지
76
+
77
+ `pytesseract`는 시스템에 설치된 `tesseract` 바이너리를 호출하므로 별도 설치가 필요합니다.
78
+
79
+ ```bash
80
+ # Ubuntu/Debian — 한국어 + 영어 traineddata 포함
81
+ sudo apt install tesseract-ocr tesseract-ocr-kor tesseract-ocr-eng
82
+
83
+ # 설치 확인
84
+ tesseract --version
85
+ tesseract --list-langs # kor, eng 출력되어야 함
86
+ ```
87
+
88
+ ### PaddleOCR 버전 주의
89
+
90
+ `paddleocr 2.7.3` + `paddlepaddle 2.6.2` + `numpy<2` 조합으로 고정되어 있습니다. PaddleOCR 3.x / paddlepaddle 3.x 조합에서는 CPU 환경에서 PIR + oneDNN 호환 문제가 발생할 수 있어 LTS 조합을 사용합니다. 최초 실행 시 모델 파일이 자동으로 다운로드됩니다(~수십 MB).
91
+
92
+ > **Python 3.12+ 사용자**: `paddlepaddle 2.6.2`는 표준 라이브러리에서 제거된 `distutils`를 호출하므로 `setuptools`가 반드시 설치돼 있어야 합니다(requirements.txt에 포함). 누락 시 `No module named 'setuptools'`가 발생하면 `pip install setuptools`로 해결하세요.
93
+
94
+ ### 표 추출 시스템 패키지
95
+
96
+ - **camelot** → `ghostscript` 필요 (`sudo apt install ghostscript`)
97
+ - **tabula** → JRE 필요 (`sudo apt install default-jre`)
98
+ - **layoutparser** → PaddleDetection 백엔드 + **TableBank** 모델 사용 (표 전용 학습)
99
+ - OCR 섹션에서 설치한 `paddlepaddle` 만으로 동작
100
+ - 최초 실행 시 모델(약 221MB) 자동 다운로드 (Baidu CDN)
101
+ - 별도 `paddledet` 또는 `detectron2` 설치 불필요
102
+
103
+ ## 사용법
104
+
105
+ ### 1. PDF 메타데이터 출력 (`pdf_metadata.py`)
106
+
107
+ ```bash
108
+ python3 pdf_metadata.py data/pdf_sample.pdf
109
+ python3 pdf_metadata.py a.pdf b.pdf c.pdf
110
+ ```
111
+
112
+ 출력 항목
113
+ - 파일 크기, 페이지 수, PDF 버전, 암호화 여부
114
+ - Document Info: Title, Author, Subject, Keywords, Creator, Producer
115
+ - 생성일/수정일 (`D:YYYYMMDDHHMMSS` → `YYYY-MM-DD HH:MM:SS` 변환)
116
+ - 기타 메타데이터 키(`/Trapped` 등)
117
+
118
+ ### 2. 메타데이터 테스트 (`test_pdf_metadata.py`)
119
+
120
+ ```bash
121
+ python3 test_pdf_metadata.py # 기본 data/ 폴더
122
+ python3 test_pdf_metadata.py data/pdf_sample.pdf # 단일 파일
123
+ python3 test_pdf_metadata.py a.pdf b.pdf data/ # 혼합 지정
124
+ ```
125
+
126
+ ### 3. PDF 텍스트 파싱 (`parsing_pdf.py`)
127
+
128
+ ```bash
129
+ # 전체 엔진으로 한 번에 비교
130
+ python3 parsing_pdf.py data/parsing_sample.pdf
131
+
132
+ # 특정 엔진만 사용
133
+ python3 parsing_pdf.py data/parsing_sample.pdf pypdf
134
+ python3 parsing_pdf.py data/parsing_sample.pdf pdfplumber
135
+ python3 parsing_pdf.py data/parsing_sample.pdf pymupdf
136
+ ```
137
+
138
+ 엔진별 특징
139
+ - **pypdf** — 가벼움. 목차/폼/주석 등 문서 구조 메타에 강점
140
+ - **pdfplumber** — 표(테이블) 추출, 단어/문자 단위 bbox에 강점
141
+ - **pymupdf** (`fitz`) — 빠르고 강력. 블록·이미지·폰트·색상 등 풍부한 메타
142
+
143
+ ### 4. 파싱 테스트 (`test_parsing_pdf.py`)
144
+
145
+ ```bash
146
+ python3 test_parsing_pdf.py # 기본 data/ 폴더
147
+ python3 test_parsing_pdf.py data/pdf_sample.pdf # 단일 파일
148
+ python3 test_parsing_pdf.py /다른/경로/ # 다른 폴더
149
+ ```
150
+
151
+ 출력
152
+ - 엔진 × 파일 시간/페이지/텍스트길이 매트릭스
153
+ - 엔진별 특화 지표 (예: pdfplumber → 표 개수, pymupdf → 블록·이미지·폰트 수)
154
+
155
+ ### 5. OCR 실행 (`ocr_pdf.py`)
156
+
157
+ ```bash
158
+ # 전체 엔진으로 비교 (tesseract → paddleocr 순)
159
+ python3 ocr_pdf.py data/pdf_sample.pdf
160
+
161
+ # 특정 엔진만 사용
162
+ python3 ocr_pdf.py data/pdf_sample.pdf tesseract
163
+ python3 ocr_pdf.py data/pdf_sample.pdf paddleocr
164
+ ```
165
+
166
+ 처리 흐름
167
+ 1. `pymupdf`로 PDF 각 페이지를 PNG로 렌더링(기본 200 DPI)
168
+ 2. 이미지를 OCR 엔진에 전달
169
+ 3. 텍스트 + 신뢰도 + 박스/단어 통계 반환
170
+
171
+ 엔진별 특징
172
+ - **tesseract** — 가벼움/빠름. `kor+eng` 등 다국어 동시 인식. 단어 단위 신뢰도 제공
173
+ - **paddleocr** — 딥러닝 기반. 검출(detection) + 인식(recognition) 2단계로 라인별 박스 + 신뢰도 반환
174
+
175
+ ### 6. OCR 테스트 (`test_ocr_pdf.py`)
176
+
177
+ ```bash
178
+ python3 test_ocr_pdf.py # 기본 파일 + 전체 엔진
179
+ python3 test_ocr_pdf.py data/pdf_sample.pdf # 지정 파일 + 전체 엔진
180
+ python3 test_ocr_pdf.py /다른/경로/ # 지정 폴더 + 전체 엔진
181
+
182
+ # 엔진 단독 실행 (마지막 인자가 엔진 이름이면 그것만 실행)
183
+ python3 test_ocr_pdf.py data/pdf_sample.pdf tesseract
184
+ python3 test_ocr_pdf.py data/pdf_sample.pdf paddleocr
185
+ python3 test_ocr_pdf.py paddleocr # 엔진만 지정 → 기본 파일 사용
186
+ ```
187
+
188
+ 출력
189
+ - 엔진 × 파일 시간/페이지/텍스트길이 매트릭스
190
+ - 엔진별 특화 지표
191
+ - **tesseract**: 인식 단어 수, 평균 신뢰도(%), 사용 언어
192
+ - **paddleocr**: 검출 텍스트 박스 수, 평균 신뢰도, 사용 언어
193
+
194
+ 라이브러리 미설치 시 해당 엔진은 자동으로 `SKIP` 처리됩니다.
195
+
196
+ ### 7. 표 추출 (`table_pdf.py`)
197
+
198
+ ```bash
199
+ # 전체 엔진으로 비교
200
+ python3 table_pdf.py data/table_sample.pdf
201
+
202
+ # 특정 엔진만 사용
203
+ python3 table_pdf.py data/table_sample.pdf camelot
204
+ python3 table_pdf.py data/table_sample.pdf tabula
205
+ python3 table_pdf.py data/table_sample.pdf layoutparser
206
+ ```
207
+
208
+ 엔진별 특징
209
+ - **camelot** — PDF 표 추출 전용. `lattice`(선 기반) / `stream`(좌표 기반) 두 모드. 정확도(accuracy)·여백률(whitespace) 등 품질 지표 제공. Ghostscript 필요
210
+ - **tabula** — `tabula-java` 래퍼. pandas DataFrame 리스트 반환. JRE 필요
211
+ - **layoutparser** — 페이지를 이미지로 렌더링 후 'Table' 영역의 bbox를 탐지하는 레이아웃 검출기. 셀 내용 추출이 아닌 '표 위치' 검출용. PaddleDetection 백엔드 + TableBank 모델 (영문 PubLayNet 대신 표 전용 학습)
212
+
213
+ ### 8. 표 추출 테스트 (`test_table_pdf.py`)
214
+
215
+ ```bash
216
+ python3 test_table_pdf.py # 기본 파일 + 전체 엔진
217
+ python3 test_table_pdf.py data/table_sample.pdf # 지정 파일 + 전체 엔진
218
+ python3 test_table_pdf.py /다른/경로/ # 지정 폴더 + 전체 엔진
219
+
220
+ # 엔진 단독 실행
221
+ python3 test_table_pdf.py data/table_sample.pdf camelot
222
+ python3 test_table_pdf.py data/table_sample.pdf tabula
223
+ python3 test_table_pdf.py data/table_sample.pdf layoutparser
224
+ python3 test_table_pdf.py camelot # 엔진만 지정 → 기본 파일 사용
225
+ ```
226
+
227
+ 기본 파일은 `data/table_sample.pdf`입니다. 출력에는 표 개수, 각 표의 행/열 크기, 첫 표 미리보기, 엔진별 특화 지표(camelot 정확도, tabula 헤더, layoutparser bbox)가 포함됩니다.
228
+
229
+ ## 폴더 구조
230
+
231
+ ```
232
+ code/
233
+ ├── README.md
234
+ ├── requirements.txt
235
+ ├── pdf_metadata.py
236
+ ├── test_pdf_metadata.py
237
+ ├── parsing_pdf.py
238
+ ├── test_parsing_pdf.py
239
+ ├── ocr_pdf.py
240
+ ├── test_ocr_pdf.py
241
+ ├── table_pdf.py
242
+ ├── test_table_pdf.py
243
+ └── data/
244
+ ├── pdf_sample.pdf
245
+ ├── parsing_sample.pdf
246
+ └── table_sample.pdf
247
+ ```
248
+
249
+ `data/`에 PDF를 추가하면 인자 없이 테스트를 실행해도 자동으로 같이 검증됩니다.
@@ -0,0 +1,208 @@
1
+ # PDF 메타데이터 / 파싱 / OCR / 표 추출 도구
2
+
3
+ PDF 파일의 메타데이터를 확인하고, 3가지 라이브러리(`pypdf` / `pdfplumber` / `pymupdf`)로 텍스트를 파싱하며, 2가지 OCR 엔진(`tesseract` / `paddleocr`)으로 이미지 기반 텍스트를 추출하고, 3가지 표 추출 라이브러리(`camelot` / `tabula` / `layoutparser`)로 표를 검출·추출하는 Python 스크립트 모음입니다.
4
+
5
+ ## 구성
6
+
7
+ | 파일 | 설명 |
8
+ | --- | --- |
9
+ | `pdf_metadata.py` | PDF 메타데이터 추출/출력 모듈. CLI로 직접 실행 가능 |
10
+ | `test_pdf_metadata.py` | `pdf_metadata`를 불러와 동작을 검증하는 테스트 스크립트 |
11
+ | `parsing_pdf.py` | 3종 라이브러리로 PDF 텍스트를 파싱하는 통합 모듈 |
12
+ | `test_parsing_pdf.py` | 각 파싱 엔진별 결과를 비교·검증하는 테스트 스크립트 |
13
+ | `ocr_pdf.py` | 2종 OCR 엔진(tesseract / paddleocr)으로 PDF를 OCR하는 통합 모듈 |
14
+ | `test_ocr_pdf.py` | OCR 엔진별 결과(텍스트, 신뢰도, 박스 수 등)를 비교 검증 |
15
+ | `table_pdf.py` | 3종 라이브러리(camelot / tabula / layoutparser)로 표 추출하는 통합 모듈 |
16
+ | `test_table_pdf.py` | 표 추출 엔진별 결과(표 개수, 행/열, 정확도 등)를 비교 검증 |
17
+ | `requirements.txt` | 의존성 목록 |
18
+ | `data/` | 테스트용 PDF 파일을 두는 폴더 |
19
+
20
+ ## 설치
21
+
22
+ ```bash
23
+ pip install -r requirements.txt
24
+ ```
25
+
26
+ PEP 668 환경(Ubuntu 등 시스템 Python)에서는 가상환경 사용을 권장합니다.
27
+
28
+ ```bash
29
+ python3 -m venv .venv
30
+ source .venv/bin/activate
31
+ pip install -r requirements.txt
32
+ ```
33
+
34
+ ### Tesseract 시스템 패키지
35
+
36
+ `pytesseract`는 시스템에 설치된 `tesseract` 바이너리를 호출하므로 별도 설치가 필요합니다.
37
+
38
+ ```bash
39
+ # Ubuntu/Debian — 한국어 + 영어 traineddata 포함
40
+ sudo apt install tesseract-ocr tesseract-ocr-kor tesseract-ocr-eng
41
+
42
+ # 설치 확인
43
+ tesseract --version
44
+ tesseract --list-langs # kor, eng 출력되어야 함
45
+ ```
46
+
47
+ ### PaddleOCR 버전 주의
48
+
49
+ `paddleocr 2.7.3` + `paddlepaddle 2.6.2` + `numpy<2` 조합으로 고정되어 있습니다. PaddleOCR 3.x / paddlepaddle 3.x 조합에서는 CPU 환경에서 PIR + oneDNN 호환 문제가 발생할 수 있어 LTS 조합을 사용합니다. 최초 실행 시 모델 파일이 자동으로 다운로드됩니다(~수십 MB).
50
+
51
+ > **Python 3.12+ 사용자**: `paddlepaddle 2.6.2`는 표준 라이브러리에서 제거된 `distutils`를 호출하므로 `setuptools`가 반드시 설치돼 있어야 합니다(requirements.txt에 포함). 누락 시 `No module named 'setuptools'`가 발생하면 `pip install setuptools`로 해결하세요.
52
+
53
+ ### 표 추출 시스템 패키지
54
+
55
+ - **camelot** → `ghostscript` 필요 (`sudo apt install ghostscript`)
56
+ - **tabula** → JRE 필요 (`sudo apt install default-jre`)
57
+ - **layoutparser** → PaddleDetection 백엔드 + **TableBank** 모델 사용 (표 전용 학습)
58
+ - OCR 섹션에서 설치한 `paddlepaddle` 만으로 동작
59
+ - 최초 실행 시 모델(약 221MB) 자동 다운로드 (Baidu CDN)
60
+ - 별도 `paddledet` 또는 `detectron2` 설치 불필요
61
+
62
+ ## 사용법
63
+
64
+ ### 1. PDF 메타데이터 출력 (`pdf_metadata.py`)
65
+
66
+ ```bash
67
+ python3 pdf_metadata.py data/pdf_sample.pdf
68
+ python3 pdf_metadata.py a.pdf b.pdf c.pdf
69
+ ```
70
+
71
+ 출력 항목
72
+ - 파일 크기, 페이지 수, PDF 버전, 암호화 여부
73
+ - Document Info: Title, Author, Subject, Keywords, Creator, Producer
74
+ - 생성일/수정일 (`D:YYYYMMDDHHMMSS` → `YYYY-MM-DD HH:MM:SS` 변환)
75
+ - 기타 메타데이터 키(`/Trapped` 등)
76
+
77
+ ### 2. 메타데이터 테스트 (`test_pdf_metadata.py`)
78
+
79
+ ```bash
80
+ python3 test_pdf_metadata.py # 기본 data/ 폴더
81
+ python3 test_pdf_metadata.py data/pdf_sample.pdf # 단일 파일
82
+ python3 test_pdf_metadata.py a.pdf b.pdf data/ # 혼합 지정
83
+ ```
84
+
85
+ ### 3. PDF 텍스트 파싱 (`parsing_pdf.py`)
86
+
87
+ ```bash
88
+ # 전체 엔진으로 한 번에 비교
89
+ python3 parsing_pdf.py data/parsing_sample.pdf
90
+
91
+ # 특정 엔진만 사용
92
+ python3 parsing_pdf.py data/parsing_sample.pdf pypdf
93
+ python3 parsing_pdf.py data/parsing_sample.pdf pdfplumber
94
+ python3 parsing_pdf.py data/parsing_sample.pdf pymupdf
95
+ ```
96
+
97
+ 엔진별 특징
98
+ - **pypdf** — 가벼움. 목차/폼/주석 등 문서 구조 메타에 강점
99
+ - **pdfplumber** — 표(테이블) 추출, 단어/문자 단위 bbox에 강점
100
+ - **pymupdf** (`fitz`) — 빠르고 강력. 블록·이미지·폰트·색상 등 풍부한 메타
101
+
102
+ ### 4. 파싱 테스트 (`test_parsing_pdf.py`)
103
+
104
+ ```bash
105
+ python3 test_parsing_pdf.py # 기본 data/ 폴더
106
+ python3 test_parsing_pdf.py data/pdf_sample.pdf # 단일 파일
107
+ python3 test_parsing_pdf.py /다른/경로/ # 다른 폴더
108
+ ```
109
+
110
+ 출력
111
+ - 엔진 × 파일 시간/페이지/텍스트길이 매트릭스
112
+ - 엔진별 특화 지표 (예: pdfplumber → 표 개수, pymupdf → 블록·이미지·폰트 수)
113
+
114
+ ### 5. OCR 실행 (`ocr_pdf.py`)
115
+
116
+ ```bash
117
+ # 전체 엔진으로 비교 (tesseract → paddleocr 순)
118
+ python3 ocr_pdf.py data/pdf_sample.pdf
119
+
120
+ # 특정 엔진만 사용
121
+ python3 ocr_pdf.py data/pdf_sample.pdf tesseract
122
+ python3 ocr_pdf.py data/pdf_sample.pdf paddleocr
123
+ ```
124
+
125
+ 처리 흐름
126
+ 1. `pymupdf`로 PDF 각 페이지를 PNG로 렌더링(기본 200 DPI)
127
+ 2. 이미지를 OCR 엔진에 전달
128
+ 3. 텍스트 + 신뢰도 + 박스/단어 통계 반환
129
+
130
+ 엔진별 특징
131
+ - **tesseract** — 가벼움/빠름. `kor+eng` 등 다국어 동시 인식. 단어 단위 신뢰도 제공
132
+ - **paddleocr** — 딥러닝 기반. 검출(detection) + 인식(recognition) 2단계로 라인별 박스 + 신뢰도 반환
133
+
134
+ ### 6. OCR 테스트 (`test_ocr_pdf.py`)
135
+
136
+ ```bash
137
+ python3 test_ocr_pdf.py # 기본 파일 + 전체 엔진
138
+ python3 test_ocr_pdf.py data/pdf_sample.pdf # 지정 파일 + 전체 엔진
139
+ python3 test_ocr_pdf.py /다른/경로/ # 지정 폴더 + 전체 엔진
140
+
141
+ # 엔진 단독 실행 (마지막 인자가 엔진 이름이면 그것만 실행)
142
+ python3 test_ocr_pdf.py data/pdf_sample.pdf tesseract
143
+ python3 test_ocr_pdf.py data/pdf_sample.pdf paddleocr
144
+ python3 test_ocr_pdf.py paddleocr # 엔진만 지정 → 기본 파일 사용
145
+ ```
146
+
147
+ 출력
148
+ - 엔진 × 파일 시간/페이지/텍스트길이 매트릭스
149
+ - 엔진별 특화 지표
150
+ - **tesseract**: 인식 단어 수, 평균 신뢰도(%), 사용 언어
151
+ - **paddleocr**: 검출 텍스트 박스 수, 평균 신뢰도, 사용 언어
152
+
153
+ 라이브러리 미설치 시 해당 엔진은 자동으로 `SKIP` 처리됩니다.
154
+
155
+ ### 7. 표 추출 (`table_pdf.py`)
156
+
157
+ ```bash
158
+ # 전체 엔진으로 비교
159
+ python3 table_pdf.py data/table_sample.pdf
160
+
161
+ # 특정 엔진만 사용
162
+ python3 table_pdf.py data/table_sample.pdf camelot
163
+ python3 table_pdf.py data/table_sample.pdf tabula
164
+ python3 table_pdf.py data/table_sample.pdf layoutparser
165
+ ```
166
+
167
+ 엔진별 특징
168
+ - **camelot** — PDF 표 추출 전용. `lattice`(선 기반) / `stream`(좌표 기반) 두 모드. 정확도(accuracy)·여백률(whitespace) 등 품질 지표 제공. Ghostscript 필요
169
+ - **tabula** — `tabula-java` 래퍼. pandas DataFrame 리스트 반환. JRE 필요
170
+ - **layoutparser** — 페이지를 이미지로 렌더링 후 'Table' 영역의 bbox를 탐지하는 레이아웃 검출기. 셀 내용 추출이 아닌 '표 위치' 검출용. PaddleDetection 백엔드 + TableBank 모델 (영문 PubLayNet 대신 표 전용 학습)
171
+
172
+ ### 8. 표 추출 테스트 (`test_table_pdf.py`)
173
+
174
+ ```bash
175
+ python3 test_table_pdf.py # 기본 파일 + 전체 엔진
176
+ python3 test_table_pdf.py data/table_sample.pdf # 지정 파일 + 전체 엔진
177
+ python3 test_table_pdf.py /다른/경로/ # 지정 폴더 + 전체 엔진
178
+
179
+ # 엔진 단독 실행
180
+ python3 test_table_pdf.py data/table_sample.pdf camelot
181
+ python3 test_table_pdf.py data/table_sample.pdf tabula
182
+ python3 test_table_pdf.py data/table_sample.pdf layoutparser
183
+ python3 test_table_pdf.py camelot # 엔진만 지정 → 기본 파일 사용
184
+ ```
185
+
186
+ 기본 파일은 `data/table_sample.pdf`입니다. 출력에는 표 개수, 각 표의 행/열 크기, 첫 표 미리보기, 엔진별 특화 지표(camelot 정확도, tabula 헤더, layoutparser bbox)가 포함됩니다.
187
+
188
+ ## 폴더 구조
189
+
190
+ ```
191
+ code/
192
+ ├── README.md
193
+ ├── requirements.txt
194
+ ├── pdf_metadata.py
195
+ ├── test_pdf_metadata.py
196
+ ├── parsing_pdf.py
197
+ ├── test_parsing_pdf.py
198
+ ├── ocr_pdf.py
199
+ ├── test_ocr_pdf.py
200
+ ├── table_pdf.py
201
+ ├── test_table_pdf.py
202
+ └── data/
203
+ ├── pdf_sample.pdf
204
+ ├── parsing_sample.pdf
205
+ └── table_sample.pdf
206
+ ```
207
+
208
+ `data/`에 PDF를 추가하면 인자 없이 테스트를 실행해도 자동으로 같이 검증됩니다.
@@ -0,0 +1,65 @@
1
+ [build-system]
2
+ requires = ["setuptools>=65", "wheel"]
3
+ build-backend = "setuptools.build_meta"
4
+
5
+ [project]
6
+ name = "pdfprep"
7
+ version = "0.1.0"
8
+ description = "PDF 전처리 통합 도구 — 메타데이터, 텍스트 파싱, OCR, 표 추출"
9
+ readme = "README.md"
10
+ requires-python = ">=3.12"
11
+ license = { text = "MIT" }
12
+ authors = [{ name = "uwpark", email = "uwpark@simplatform.com" }]
13
+ keywords = ["pdf", "ocr", "table-extraction", "preprocessing", "parsing", "metadata"]
14
+ classifiers = [
15
+ "Programming Language :: Python :: 3",
16
+ "Programming Language :: Python :: 3.12",
17
+ "License :: OSI Approved :: MIT License",
18
+ "Operating System :: POSIX :: Linux",
19
+ "Topic :: Text Processing",
20
+ "Topic :: Scientific/Engineering :: Image Recognition",
21
+ "Natural Language :: Korean",
22
+ ]
23
+
24
+ dependencies = [
25
+ "pypdf>=4.0,<6.0",
26
+ "pdfplumber>=0.11.0",
27
+ "pymupdf>=1.27.0",
28
+ "pillow>=10.0",
29
+ "numpy<2",
30
+ "setuptools>=65",
31
+ ]
32
+
33
+ [project.optional-dependencies]
34
+ ocr = [
35
+ "pytesseract>=0.3.13",
36
+ "paddleocr==2.7.3",
37
+ "paddlepaddle==2.6.2",
38
+ ]
39
+ table = [
40
+ "camelot-py[base]==1.0.9",
41
+ "tabula-py>=2.10",
42
+ "jpype1>=1.5",
43
+ "layoutparser>=0.3.4",
44
+ ]
45
+ all = [
46
+ "pytesseract>=0.3.13",
47
+ "paddleocr==2.7.3",
48
+ "paddlepaddle==2.6.2",
49
+ "camelot-py[base]==1.0.9",
50
+ "tabula-py>=2.10",
51
+ "jpype1>=1.5",
52
+ "layoutparser>=0.3.4",
53
+ ]
54
+
55
+ [project.urls]
56
+ Homepage = "https://pypi.org/project/pdfprep/"
57
+
58
+ [project.scripts]
59
+ pdfprep-metadata = "pdfprep.metadata:main"
60
+ pdfprep-parse = "pdfprep.parsing:main"
61
+ pdfprep-ocr = "pdfprep.ocr:main"
62
+ pdfprep-table = "pdfprep.table:main"
63
+
64
+ [tool.setuptools.packages.find]
65
+ where = ["src"]
@@ -0,0 +1,4 @@
1
+ [egg_info]
2
+ tag_build =
3
+ tag_date = 0
4
+
@@ -0,0 +1,15 @@
1
+ """
2
+ pdfprep — PDF 전처리 도구 모음
3
+
4
+ 서브모듈:
5
+ metadata : PDF 메타데이터 추출
6
+ parsing : 3종 라이브러리(pypdf / pdfplumber / pymupdf)로 텍스트 파싱
7
+ ocr : 2종 OCR 엔진(tesseract / paddleocr)으로 이미지 텍스트 추출
8
+ table : 3종 라이브러리(camelot / tabula / layoutparser)로 표 추출
9
+ """
10
+
11
+ __version__ = "0.1.0"
12
+
13
+ from . import metadata, parsing, ocr, table
14
+
15
+ __all__ = ["metadata", "parsing", "ocr", "table", "__version__"]
@@ -0,0 +1,64 @@
1
+ import sys
2
+ from pypdf import PdfReader
3
+ from pathlib import Path
4
+ from datetime import datetime
5
+
6
+
7
+ def parse_pdf_date(date_str):
8
+ if not date_str:
9
+ return None
10
+ s = str(date_str)
11
+ if s.startswith("D:"):
12
+ s = s[2:]
13
+ try:
14
+ return datetime.strptime(s[:14], "%Y%m%d%H%M%S").strftime("%Y-%m-%d %H:%M:%S")
15
+ except ValueError:
16
+ return str(date_str)
17
+
18
+
19
+ def show_pdf_metadata(pdf_path):
20
+ path = Path(pdf_path)
21
+ if not path.exists():
22
+ print(f"파일을 찾을 수 없습니다: {pdf_path}")
23
+ return
24
+
25
+ reader = PdfReader(str(path))
26
+ meta = reader.metadata or {}
27
+
28
+ print(f"=== PDF 메타데이터: {path.name} ===")
29
+ print(f"파일 크기 : {path.stat().st_size:,} bytes")
30
+ print(f"페이지 수 : {len(reader.pages)}")
31
+ print(f"PDF 버전 : {reader.pdf_header}")
32
+ print(f"암호화 여부 : {reader.is_encrypted}")
33
+ print()
34
+ print("--- Document Info ---")
35
+ print(f"제목(Title) : {meta.get('/Title', '')}")
36
+ print(f"작성자(Author) : {meta.get('/Author', '')}")
37
+ print(f"주제(Subject) : {meta.get('/Subject', '')}")
38
+ print(f"키워드(Keywords): {meta.get('/Keywords', '')}")
39
+ print(f"생성 도구 : {meta.get('/Creator', '')}")
40
+ print(f"생성기(Producer): {meta.get('/Producer', '')}")
41
+ print(f"생성일 : {parse_pdf_date(meta.get('/CreationDate'))}")
42
+ print(f"수정일 : {parse_pdf_date(meta.get('/ModDate'))}")
43
+
44
+ extras = {k: v for k, v in meta.items() if k not in {
45
+ "/Title", "/Author", "/Subject", "/Keywords",
46
+ "/Creator", "/Producer", "/CreationDate", "/ModDate",
47
+ }}
48
+ if extras:
49
+ print()
50
+ print("--- 기타 항목 ---")
51
+ for k, v in extras.items():
52
+ print(f"{k}: {v}")
53
+
54
+
55
+ if __name__ == "__main__":
56
+ if len(sys.argv) < 2:
57
+ print("사용법: python3 pdf_metadata.py <PDF 파일 경로> [추가 파일 ...]")
58
+ print("예시 : python3 pdf_metadata.py pdf_sample.pdf")
59
+ sys.exit(1)
60
+
61
+ for i, pdf_path in enumerate(sys.argv[1:]):
62
+ if i > 0:
63
+ print()
64
+ show_pdf_metadata(pdf_path)