pdfprep 0.1.0__tar.gz
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- pdfprep-0.1.0/PKG-INFO +249 -0
- pdfprep-0.1.0/README.md +208 -0
- pdfprep-0.1.0/pyproject.toml +65 -0
- pdfprep-0.1.0/setup.cfg +4 -0
- pdfprep-0.1.0/src/pdfprep/__init__.py +15 -0
- pdfprep-0.1.0/src/pdfprep/metadata.py +64 -0
- pdfprep-0.1.0/src/pdfprep/ocr.py +196 -0
- pdfprep-0.1.0/src/pdfprep/parsing.py +254 -0
- pdfprep-0.1.0/src/pdfprep/table.py +289 -0
- pdfprep-0.1.0/src/pdfprep.egg-info/PKG-INFO +249 -0
- pdfprep-0.1.0/src/pdfprep.egg-info/SOURCES.txt +13 -0
- pdfprep-0.1.0/src/pdfprep.egg-info/dependency_links.txt +1 -0
- pdfprep-0.1.0/src/pdfprep.egg-info/entry_points.txt +5 -0
- pdfprep-0.1.0/src/pdfprep.egg-info/requires.txt +26 -0
- pdfprep-0.1.0/src/pdfprep.egg-info/top_level.txt +1 -0
pdfprep-0.1.0/PKG-INFO
ADDED
|
@@ -0,0 +1,249 @@
|
|
|
1
|
+
Metadata-Version: 2.4
|
|
2
|
+
Name: pdfprep
|
|
3
|
+
Version: 0.1.0
|
|
4
|
+
Summary: PDF 전처리 통합 도구 — 메타데이터, 텍스트 파싱, OCR, 표 추출
|
|
5
|
+
Author-email: uwpark <uwpark@simplatform.com>
|
|
6
|
+
License: MIT
|
|
7
|
+
Project-URL: Homepage, https://pypi.org/project/pdfprep/
|
|
8
|
+
Keywords: pdf,ocr,table-extraction,preprocessing,parsing,metadata
|
|
9
|
+
Classifier: Programming Language :: Python :: 3
|
|
10
|
+
Classifier: Programming Language :: Python :: 3.12
|
|
11
|
+
Classifier: License :: OSI Approved :: MIT License
|
|
12
|
+
Classifier: Operating System :: POSIX :: Linux
|
|
13
|
+
Classifier: Topic :: Text Processing
|
|
14
|
+
Classifier: Topic :: Scientific/Engineering :: Image Recognition
|
|
15
|
+
Classifier: Natural Language :: Korean
|
|
16
|
+
Requires-Python: >=3.12
|
|
17
|
+
Description-Content-Type: text/markdown
|
|
18
|
+
Requires-Dist: pypdf<6.0,>=4.0
|
|
19
|
+
Requires-Dist: pdfplumber>=0.11.0
|
|
20
|
+
Requires-Dist: pymupdf>=1.27.0
|
|
21
|
+
Requires-Dist: pillow>=10.0
|
|
22
|
+
Requires-Dist: numpy<2
|
|
23
|
+
Requires-Dist: setuptools>=65
|
|
24
|
+
Provides-Extra: ocr
|
|
25
|
+
Requires-Dist: pytesseract>=0.3.13; extra == "ocr"
|
|
26
|
+
Requires-Dist: paddleocr==2.7.3; extra == "ocr"
|
|
27
|
+
Requires-Dist: paddlepaddle==2.6.2; extra == "ocr"
|
|
28
|
+
Provides-Extra: table
|
|
29
|
+
Requires-Dist: camelot-py[base]==1.0.9; extra == "table"
|
|
30
|
+
Requires-Dist: tabula-py>=2.10; extra == "table"
|
|
31
|
+
Requires-Dist: jpype1>=1.5; extra == "table"
|
|
32
|
+
Requires-Dist: layoutparser>=0.3.4; extra == "table"
|
|
33
|
+
Provides-Extra: all
|
|
34
|
+
Requires-Dist: pytesseract>=0.3.13; extra == "all"
|
|
35
|
+
Requires-Dist: paddleocr==2.7.3; extra == "all"
|
|
36
|
+
Requires-Dist: paddlepaddle==2.6.2; extra == "all"
|
|
37
|
+
Requires-Dist: camelot-py[base]==1.0.9; extra == "all"
|
|
38
|
+
Requires-Dist: tabula-py>=2.10; extra == "all"
|
|
39
|
+
Requires-Dist: jpype1>=1.5; extra == "all"
|
|
40
|
+
Requires-Dist: layoutparser>=0.3.4; extra == "all"
|
|
41
|
+
|
|
42
|
+
# PDF 메타데이터 / 파싱 / OCR / 표 추출 도구
|
|
43
|
+
|
|
44
|
+
PDF 파일의 메타데이터를 확인하고, 3가지 라이브러리(`pypdf` / `pdfplumber` / `pymupdf`)로 텍스트를 파싱하며, 2가지 OCR 엔진(`tesseract` / `paddleocr`)으로 이미지 기반 텍스트를 추출하고, 3가지 표 추출 라이브러리(`camelot` / `tabula` / `layoutparser`)로 표를 검출·추출하는 Python 스크립트 모음입니다.
|
|
45
|
+
|
|
46
|
+
## 구성
|
|
47
|
+
|
|
48
|
+
| 파일 | 설명 |
|
|
49
|
+
| --- | --- |
|
|
50
|
+
| `pdf_metadata.py` | PDF 메타데이터 추출/출력 모듈. CLI로 직접 실행 가능 |
|
|
51
|
+
| `test_pdf_metadata.py` | `pdf_metadata`를 불러와 동작을 검증하는 테스트 스크립트 |
|
|
52
|
+
| `parsing_pdf.py` | 3종 라이브러리로 PDF 텍스트를 파싱하는 통합 모듈 |
|
|
53
|
+
| `test_parsing_pdf.py` | 각 파싱 엔진별 결과를 비교·검증하는 테스트 스크립트 |
|
|
54
|
+
| `ocr_pdf.py` | 2종 OCR 엔진(tesseract / paddleocr)으로 PDF를 OCR하는 통합 모듈 |
|
|
55
|
+
| `test_ocr_pdf.py` | OCR 엔진별 결과(텍스트, 신뢰도, 박스 수 등)를 비교 검증 |
|
|
56
|
+
| `table_pdf.py` | 3종 라이브러리(camelot / tabula / layoutparser)로 표 추출하는 통합 모듈 |
|
|
57
|
+
| `test_table_pdf.py` | 표 추출 엔진별 결과(표 개수, 행/열, 정확도 등)를 비교 검증 |
|
|
58
|
+
| `requirements.txt` | 의존성 목록 |
|
|
59
|
+
| `data/` | 테스트용 PDF 파일을 두는 폴더 |
|
|
60
|
+
|
|
61
|
+
## 설치
|
|
62
|
+
|
|
63
|
+
```bash
|
|
64
|
+
pip install -r requirements.txt
|
|
65
|
+
```
|
|
66
|
+
|
|
67
|
+
PEP 668 환경(Ubuntu 등 시스템 Python)에서는 가상환경 사용을 권장합니다.
|
|
68
|
+
|
|
69
|
+
```bash
|
|
70
|
+
python3 -m venv .venv
|
|
71
|
+
source .venv/bin/activate
|
|
72
|
+
pip install -r requirements.txt
|
|
73
|
+
```
|
|
74
|
+
|
|
75
|
+
### Tesseract 시스템 패키지
|
|
76
|
+
|
|
77
|
+
`pytesseract`는 시스템에 설치된 `tesseract` 바이너리를 호출하므로 별도 설치가 필요합니다.
|
|
78
|
+
|
|
79
|
+
```bash
|
|
80
|
+
# Ubuntu/Debian — 한국어 + 영어 traineddata 포함
|
|
81
|
+
sudo apt install tesseract-ocr tesseract-ocr-kor tesseract-ocr-eng
|
|
82
|
+
|
|
83
|
+
# 설치 확인
|
|
84
|
+
tesseract --version
|
|
85
|
+
tesseract --list-langs # kor, eng 출력되어야 함
|
|
86
|
+
```
|
|
87
|
+
|
|
88
|
+
### PaddleOCR 버전 주의
|
|
89
|
+
|
|
90
|
+
`paddleocr 2.7.3` + `paddlepaddle 2.6.2` + `numpy<2` 조합으로 고정되어 있습니다. PaddleOCR 3.x / paddlepaddle 3.x 조합에서는 CPU 환경에서 PIR + oneDNN 호환 문제가 발생할 수 있어 LTS 조합을 사용합니다. 최초 실행 시 모델 파일이 자동으로 다운로드됩니다(~수십 MB).
|
|
91
|
+
|
|
92
|
+
> **Python 3.12+ 사용자**: `paddlepaddle 2.6.2`는 표준 라이브러리에서 제거된 `distutils`를 호출하므로 `setuptools`가 반드시 설치돼 있어야 합니다(requirements.txt에 포함). 누락 시 `No module named 'setuptools'`가 발생하면 `pip install setuptools`로 해결하세요.
|
|
93
|
+
|
|
94
|
+
### 표 추출 시스템 패키지
|
|
95
|
+
|
|
96
|
+
- **camelot** → `ghostscript` 필요 (`sudo apt install ghostscript`)
|
|
97
|
+
- **tabula** → JRE 필요 (`sudo apt install default-jre`)
|
|
98
|
+
- **layoutparser** → PaddleDetection 백엔드 + **TableBank** 모델 사용 (표 전용 학습)
|
|
99
|
+
- OCR 섹션에서 설치한 `paddlepaddle` 만으로 동작
|
|
100
|
+
- 최초 실행 시 모델(약 221MB) 자동 다운로드 (Baidu CDN)
|
|
101
|
+
- 별도 `paddledet` 또는 `detectron2` 설치 불필요
|
|
102
|
+
|
|
103
|
+
## 사용법
|
|
104
|
+
|
|
105
|
+
### 1. PDF 메타데이터 출력 (`pdf_metadata.py`)
|
|
106
|
+
|
|
107
|
+
```bash
|
|
108
|
+
python3 pdf_metadata.py data/pdf_sample.pdf
|
|
109
|
+
python3 pdf_metadata.py a.pdf b.pdf c.pdf
|
|
110
|
+
```
|
|
111
|
+
|
|
112
|
+
출력 항목
|
|
113
|
+
- 파일 크기, 페이지 수, PDF 버전, 암호화 여부
|
|
114
|
+
- Document Info: Title, Author, Subject, Keywords, Creator, Producer
|
|
115
|
+
- 생성일/수정일 (`D:YYYYMMDDHHMMSS` → `YYYY-MM-DD HH:MM:SS` 변환)
|
|
116
|
+
- 기타 메타데이터 키(`/Trapped` 등)
|
|
117
|
+
|
|
118
|
+
### 2. 메타데이터 테스트 (`test_pdf_metadata.py`)
|
|
119
|
+
|
|
120
|
+
```bash
|
|
121
|
+
python3 test_pdf_metadata.py # 기본 data/ 폴더
|
|
122
|
+
python3 test_pdf_metadata.py data/pdf_sample.pdf # 단일 파일
|
|
123
|
+
python3 test_pdf_metadata.py a.pdf b.pdf data/ # 혼합 지정
|
|
124
|
+
```
|
|
125
|
+
|
|
126
|
+
### 3. PDF 텍스트 파싱 (`parsing_pdf.py`)
|
|
127
|
+
|
|
128
|
+
```bash
|
|
129
|
+
# 전체 엔진으로 한 번에 비교
|
|
130
|
+
python3 parsing_pdf.py data/parsing_sample.pdf
|
|
131
|
+
|
|
132
|
+
# 특정 엔진만 사용
|
|
133
|
+
python3 parsing_pdf.py data/parsing_sample.pdf pypdf
|
|
134
|
+
python3 parsing_pdf.py data/parsing_sample.pdf pdfplumber
|
|
135
|
+
python3 parsing_pdf.py data/parsing_sample.pdf pymupdf
|
|
136
|
+
```
|
|
137
|
+
|
|
138
|
+
엔진별 특징
|
|
139
|
+
- **pypdf** — 가벼움. 목차/폼/주석 등 문서 구조 메타에 강점
|
|
140
|
+
- **pdfplumber** — 표(테이블) 추출, 단어/문자 단위 bbox에 강점
|
|
141
|
+
- **pymupdf** (`fitz`) — 빠르고 강력. 블록·이미지·폰트·색상 등 풍부한 메타
|
|
142
|
+
|
|
143
|
+
### 4. 파싱 테스트 (`test_parsing_pdf.py`)
|
|
144
|
+
|
|
145
|
+
```bash
|
|
146
|
+
python3 test_parsing_pdf.py # 기본 data/ 폴더
|
|
147
|
+
python3 test_parsing_pdf.py data/pdf_sample.pdf # 단일 파일
|
|
148
|
+
python3 test_parsing_pdf.py /다른/경로/ # 다른 폴더
|
|
149
|
+
```
|
|
150
|
+
|
|
151
|
+
출력
|
|
152
|
+
- 엔진 × 파일 시간/페이지/텍스트길이 매트릭스
|
|
153
|
+
- 엔진별 특화 지표 (예: pdfplumber → 표 개수, pymupdf → 블록·이미지·폰트 수)
|
|
154
|
+
|
|
155
|
+
### 5. OCR 실행 (`ocr_pdf.py`)
|
|
156
|
+
|
|
157
|
+
```bash
|
|
158
|
+
# 전체 엔진으로 비교 (tesseract → paddleocr 순)
|
|
159
|
+
python3 ocr_pdf.py data/pdf_sample.pdf
|
|
160
|
+
|
|
161
|
+
# 특정 엔진만 사용
|
|
162
|
+
python3 ocr_pdf.py data/pdf_sample.pdf tesseract
|
|
163
|
+
python3 ocr_pdf.py data/pdf_sample.pdf paddleocr
|
|
164
|
+
```
|
|
165
|
+
|
|
166
|
+
처리 흐름
|
|
167
|
+
1. `pymupdf`로 PDF 각 페이지를 PNG로 렌더링(기본 200 DPI)
|
|
168
|
+
2. 이미지를 OCR 엔진에 전달
|
|
169
|
+
3. 텍스트 + 신뢰도 + 박스/단어 통계 반환
|
|
170
|
+
|
|
171
|
+
엔진별 특징
|
|
172
|
+
- **tesseract** — 가벼움/빠름. `kor+eng` 등 다국어 동시 인식. 단어 단위 신뢰도 제공
|
|
173
|
+
- **paddleocr** — 딥러닝 기반. 검출(detection) + 인식(recognition) 2단계로 라인별 박스 + 신뢰도 반환
|
|
174
|
+
|
|
175
|
+
### 6. OCR 테스트 (`test_ocr_pdf.py`)
|
|
176
|
+
|
|
177
|
+
```bash
|
|
178
|
+
python3 test_ocr_pdf.py # 기본 파일 + 전체 엔진
|
|
179
|
+
python3 test_ocr_pdf.py data/pdf_sample.pdf # 지정 파일 + 전체 엔진
|
|
180
|
+
python3 test_ocr_pdf.py /다른/경로/ # 지정 폴더 + 전체 엔진
|
|
181
|
+
|
|
182
|
+
# 엔진 단독 실행 (마지막 인자가 엔진 이름이면 그것만 실행)
|
|
183
|
+
python3 test_ocr_pdf.py data/pdf_sample.pdf tesseract
|
|
184
|
+
python3 test_ocr_pdf.py data/pdf_sample.pdf paddleocr
|
|
185
|
+
python3 test_ocr_pdf.py paddleocr # 엔진만 지정 → 기본 파일 사용
|
|
186
|
+
```
|
|
187
|
+
|
|
188
|
+
출력
|
|
189
|
+
- 엔진 × 파일 시간/페이지/텍스트길이 매트릭스
|
|
190
|
+
- 엔진별 특화 지표
|
|
191
|
+
- **tesseract**: 인식 단어 수, 평균 신뢰도(%), 사용 언어
|
|
192
|
+
- **paddleocr**: 검출 텍스트 박스 수, 평균 신뢰도, 사용 언어
|
|
193
|
+
|
|
194
|
+
라이브러리 미설치 시 해당 엔진은 자동으로 `SKIP` 처리됩니다.
|
|
195
|
+
|
|
196
|
+
### 7. 표 추출 (`table_pdf.py`)
|
|
197
|
+
|
|
198
|
+
```bash
|
|
199
|
+
# 전체 엔진으로 비교
|
|
200
|
+
python3 table_pdf.py data/table_sample.pdf
|
|
201
|
+
|
|
202
|
+
# 특정 엔진만 사용
|
|
203
|
+
python3 table_pdf.py data/table_sample.pdf camelot
|
|
204
|
+
python3 table_pdf.py data/table_sample.pdf tabula
|
|
205
|
+
python3 table_pdf.py data/table_sample.pdf layoutparser
|
|
206
|
+
```
|
|
207
|
+
|
|
208
|
+
엔진별 특징
|
|
209
|
+
- **camelot** — PDF 표 추출 전용. `lattice`(선 기반) / `stream`(좌표 기반) 두 모드. 정확도(accuracy)·여백률(whitespace) 등 품질 지표 제공. Ghostscript 필요
|
|
210
|
+
- **tabula** — `tabula-java` 래퍼. pandas DataFrame 리스트 반환. JRE 필요
|
|
211
|
+
- **layoutparser** — 페이지를 이미지로 렌더링 후 'Table' 영역의 bbox를 탐지하는 레이아웃 검출기. 셀 내용 추출이 아닌 '표 위치' 검출용. PaddleDetection 백엔드 + TableBank 모델 (영문 PubLayNet 대신 표 전용 학습)
|
|
212
|
+
|
|
213
|
+
### 8. 표 추출 테스트 (`test_table_pdf.py`)
|
|
214
|
+
|
|
215
|
+
```bash
|
|
216
|
+
python3 test_table_pdf.py # 기본 파일 + 전체 엔진
|
|
217
|
+
python3 test_table_pdf.py data/table_sample.pdf # 지정 파일 + 전체 엔진
|
|
218
|
+
python3 test_table_pdf.py /다른/경로/ # 지정 폴더 + 전체 엔진
|
|
219
|
+
|
|
220
|
+
# 엔진 단독 실행
|
|
221
|
+
python3 test_table_pdf.py data/table_sample.pdf camelot
|
|
222
|
+
python3 test_table_pdf.py data/table_sample.pdf tabula
|
|
223
|
+
python3 test_table_pdf.py data/table_sample.pdf layoutparser
|
|
224
|
+
python3 test_table_pdf.py camelot # 엔진만 지정 → 기본 파일 사용
|
|
225
|
+
```
|
|
226
|
+
|
|
227
|
+
기본 파일은 `data/table_sample.pdf`입니다. 출력에는 표 개수, 각 표의 행/열 크기, 첫 표 미리보기, 엔진별 특화 지표(camelot 정확도, tabula 헤더, layoutparser bbox)가 포함됩니다.
|
|
228
|
+
|
|
229
|
+
## 폴더 구조
|
|
230
|
+
|
|
231
|
+
```
|
|
232
|
+
code/
|
|
233
|
+
├── README.md
|
|
234
|
+
├── requirements.txt
|
|
235
|
+
├── pdf_metadata.py
|
|
236
|
+
├── test_pdf_metadata.py
|
|
237
|
+
├── parsing_pdf.py
|
|
238
|
+
├── test_parsing_pdf.py
|
|
239
|
+
├── ocr_pdf.py
|
|
240
|
+
├── test_ocr_pdf.py
|
|
241
|
+
├── table_pdf.py
|
|
242
|
+
├── test_table_pdf.py
|
|
243
|
+
└── data/
|
|
244
|
+
├── pdf_sample.pdf
|
|
245
|
+
├── parsing_sample.pdf
|
|
246
|
+
└── table_sample.pdf
|
|
247
|
+
```
|
|
248
|
+
|
|
249
|
+
`data/`에 PDF를 추가하면 인자 없이 테스트를 실행해도 자동으로 같이 검증됩니다.
|
pdfprep-0.1.0/README.md
ADDED
|
@@ -0,0 +1,208 @@
|
|
|
1
|
+
# PDF 메타데이터 / 파싱 / OCR / 표 추출 도구
|
|
2
|
+
|
|
3
|
+
PDF 파일의 메타데이터를 확인하고, 3가지 라이브러리(`pypdf` / `pdfplumber` / `pymupdf`)로 텍스트를 파싱하며, 2가지 OCR 엔진(`tesseract` / `paddleocr`)으로 이미지 기반 텍스트를 추출하고, 3가지 표 추출 라이브러리(`camelot` / `tabula` / `layoutparser`)로 표를 검출·추출하는 Python 스크립트 모음입니다.
|
|
4
|
+
|
|
5
|
+
## 구성
|
|
6
|
+
|
|
7
|
+
| 파일 | 설명 |
|
|
8
|
+
| --- | --- |
|
|
9
|
+
| `pdf_metadata.py` | PDF 메타데이터 추출/출력 모듈. CLI로 직접 실행 가능 |
|
|
10
|
+
| `test_pdf_metadata.py` | `pdf_metadata`를 불러와 동작을 검증하는 테스트 스크립트 |
|
|
11
|
+
| `parsing_pdf.py` | 3종 라이브러리로 PDF 텍스트를 파싱하는 통합 모듈 |
|
|
12
|
+
| `test_parsing_pdf.py` | 각 파싱 엔진별 결과를 비교·검증하는 테스트 스크립트 |
|
|
13
|
+
| `ocr_pdf.py` | 2종 OCR 엔진(tesseract / paddleocr)으로 PDF를 OCR하는 통합 모듈 |
|
|
14
|
+
| `test_ocr_pdf.py` | OCR 엔진별 결과(텍스트, 신뢰도, 박스 수 등)를 비교 검증 |
|
|
15
|
+
| `table_pdf.py` | 3종 라이브러리(camelot / tabula / layoutparser)로 표 추출하는 통합 모듈 |
|
|
16
|
+
| `test_table_pdf.py` | 표 추출 엔진별 결과(표 개수, 행/열, 정확도 등)를 비교 검증 |
|
|
17
|
+
| `requirements.txt` | 의존성 목록 |
|
|
18
|
+
| `data/` | 테스트용 PDF 파일을 두는 폴더 |
|
|
19
|
+
|
|
20
|
+
## 설치
|
|
21
|
+
|
|
22
|
+
```bash
|
|
23
|
+
pip install -r requirements.txt
|
|
24
|
+
```
|
|
25
|
+
|
|
26
|
+
PEP 668 환경(Ubuntu 등 시스템 Python)에서는 가상환경 사용을 권장합니다.
|
|
27
|
+
|
|
28
|
+
```bash
|
|
29
|
+
python3 -m venv .venv
|
|
30
|
+
source .venv/bin/activate
|
|
31
|
+
pip install -r requirements.txt
|
|
32
|
+
```
|
|
33
|
+
|
|
34
|
+
### Tesseract 시스템 패키지
|
|
35
|
+
|
|
36
|
+
`pytesseract`는 시스템에 설치된 `tesseract` 바이너리를 호출하므로 별도 설치가 필요합니다.
|
|
37
|
+
|
|
38
|
+
```bash
|
|
39
|
+
# Ubuntu/Debian — 한국어 + 영어 traineddata 포함
|
|
40
|
+
sudo apt install tesseract-ocr tesseract-ocr-kor tesseract-ocr-eng
|
|
41
|
+
|
|
42
|
+
# 설치 확인
|
|
43
|
+
tesseract --version
|
|
44
|
+
tesseract --list-langs # kor, eng 출력되어야 함
|
|
45
|
+
```
|
|
46
|
+
|
|
47
|
+
### PaddleOCR 버전 주의
|
|
48
|
+
|
|
49
|
+
`paddleocr 2.7.3` + `paddlepaddle 2.6.2` + `numpy<2` 조합으로 고정되어 있습니다. PaddleOCR 3.x / paddlepaddle 3.x 조합에서는 CPU 환경에서 PIR + oneDNN 호환 문제가 발생할 수 있어 LTS 조합을 사용합니다. 최초 실행 시 모델 파일이 자동으로 다운로드됩니다(~수십 MB).
|
|
50
|
+
|
|
51
|
+
> **Python 3.12+ 사용자**: `paddlepaddle 2.6.2`는 표준 라이브러리에서 제거된 `distutils`를 호출하므로 `setuptools`가 반드시 설치돼 있어야 합니다(requirements.txt에 포함). 누락 시 `No module named 'setuptools'`가 발생하면 `pip install setuptools`로 해결하세요.
|
|
52
|
+
|
|
53
|
+
### 표 추출 시스템 패키지
|
|
54
|
+
|
|
55
|
+
- **camelot** → `ghostscript` 필요 (`sudo apt install ghostscript`)
|
|
56
|
+
- **tabula** → JRE 필요 (`sudo apt install default-jre`)
|
|
57
|
+
- **layoutparser** → PaddleDetection 백엔드 + **TableBank** 모델 사용 (표 전용 학습)
|
|
58
|
+
- OCR 섹션에서 설치한 `paddlepaddle` 만으로 동작
|
|
59
|
+
- 최초 실행 시 모델(약 221MB) 자동 다운로드 (Baidu CDN)
|
|
60
|
+
- 별도 `paddledet` 또는 `detectron2` 설치 불필요
|
|
61
|
+
|
|
62
|
+
## 사용법
|
|
63
|
+
|
|
64
|
+
### 1. PDF 메타데이터 출력 (`pdf_metadata.py`)
|
|
65
|
+
|
|
66
|
+
```bash
|
|
67
|
+
python3 pdf_metadata.py data/pdf_sample.pdf
|
|
68
|
+
python3 pdf_metadata.py a.pdf b.pdf c.pdf
|
|
69
|
+
```
|
|
70
|
+
|
|
71
|
+
출력 항목
|
|
72
|
+
- 파일 크기, 페이지 수, PDF 버전, 암호화 여부
|
|
73
|
+
- Document Info: Title, Author, Subject, Keywords, Creator, Producer
|
|
74
|
+
- 생성일/수정일 (`D:YYYYMMDDHHMMSS` → `YYYY-MM-DD HH:MM:SS` 변환)
|
|
75
|
+
- 기타 메타데이터 키(`/Trapped` 등)
|
|
76
|
+
|
|
77
|
+
### 2. 메타데이터 테스트 (`test_pdf_metadata.py`)
|
|
78
|
+
|
|
79
|
+
```bash
|
|
80
|
+
python3 test_pdf_metadata.py # 기본 data/ 폴더
|
|
81
|
+
python3 test_pdf_metadata.py data/pdf_sample.pdf # 단일 파일
|
|
82
|
+
python3 test_pdf_metadata.py a.pdf b.pdf data/ # 혼합 지정
|
|
83
|
+
```
|
|
84
|
+
|
|
85
|
+
### 3. PDF 텍스트 파싱 (`parsing_pdf.py`)
|
|
86
|
+
|
|
87
|
+
```bash
|
|
88
|
+
# 전체 엔진으로 한 번에 비교
|
|
89
|
+
python3 parsing_pdf.py data/parsing_sample.pdf
|
|
90
|
+
|
|
91
|
+
# 특정 엔진만 사용
|
|
92
|
+
python3 parsing_pdf.py data/parsing_sample.pdf pypdf
|
|
93
|
+
python3 parsing_pdf.py data/parsing_sample.pdf pdfplumber
|
|
94
|
+
python3 parsing_pdf.py data/parsing_sample.pdf pymupdf
|
|
95
|
+
```
|
|
96
|
+
|
|
97
|
+
엔진별 특징
|
|
98
|
+
- **pypdf** — 가벼움. 목차/폼/주석 등 문서 구조 메타에 강점
|
|
99
|
+
- **pdfplumber** — 표(테이블) 추출, 단어/문자 단위 bbox에 강점
|
|
100
|
+
- **pymupdf** (`fitz`) — 빠르고 강력. 블록·이미지·폰트·색상 등 풍부한 메타
|
|
101
|
+
|
|
102
|
+
### 4. 파싱 테스트 (`test_parsing_pdf.py`)
|
|
103
|
+
|
|
104
|
+
```bash
|
|
105
|
+
python3 test_parsing_pdf.py # 기본 data/ 폴더
|
|
106
|
+
python3 test_parsing_pdf.py data/pdf_sample.pdf # 단일 파일
|
|
107
|
+
python3 test_parsing_pdf.py /다른/경로/ # 다른 폴더
|
|
108
|
+
```
|
|
109
|
+
|
|
110
|
+
출력
|
|
111
|
+
- 엔진 × 파일 시간/페이지/텍스트길이 매트릭스
|
|
112
|
+
- 엔진별 특화 지표 (예: pdfplumber → 표 개수, pymupdf → 블록·이미지·폰트 수)
|
|
113
|
+
|
|
114
|
+
### 5. OCR 실행 (`ocr_pdf.py`)
|
|
115
|
+
|
|
116
|
+
```bash
|
|
117
|
+
# 전체 엔진으로 비교 (tesseract → paddleocr 순)
|
|
118
|
+
python3 ocr_pdf.py data/pdf_sample.pdf
|
|
119
|
+
|
|
120
|
+
# 특정 엔진만 사용
|
|
121
|
+
python3 ocr_pdf.py data/pdf_sample.pdf tesseract
|
|
122
|
+
python3 ocr_pdf.py data/pdf_sample.pdf paddleocr
|
|
123
|
+
```
|
|
124
|
+
|
|
125
|
+
처리 흐름
|
|
126
|
+
1. `pymupdf`로 PDF 각 페이지를 PNG로 렌더링(기본 200 DPI)
|
|
127
|
+
2. 이미지를 OCR 엔진에 전달
|
|
128
|
+
3. 텍스트 + 신뢰도 + 박스/단어 통계 반환
|
|
129
|
+
|
|
130
|
+
엔진별 특징
|
|
131
|
+
- **tesseract** — 가벼움/빠름. `kor+eng` 등 다국어 동시 인식. 단어 단위 신뢰도 제공
|
|
132
|
+
- **paddleocr** — 딥러닝 기반. 검출(detection) + 인식(recognition) 2단계로 라인별 박스 + 신뢰도 반환
|
|
133
|
+
|
|
134
|
+
### 6. OCR 테스트 (`test_ocr_pdf.py`)
|
|
135
|
+
|
|
136
|
+
```bash
|
|
137
|
+
python3 test_ocr_pdf.py # 기본 파일 + 전체 엔진
|
|
138
|
+
python3 test_ocr_pdf.py data/pdf_sample.pdf # 지정 파일 + 전체 엔진
|
|
139
|
+
python3 test_ocr_pdf.py /다른/경로/ # 지정 폴더 + 전체 엔진
|
|
140
|
+
|
|
141
|
+
# 엔진 단독 실행 (마지막 인자가 엔진 이름이면 그것만 실행)
|
|
142
|
+
python3 test_ocr_pdf.py data/pdf_sample.pdf tesseract
|
|
143
|
+
python3 test_ocr_pdf.py data/pdf_sample.pdf paddleocr
|
|
144
|
+
python3 test_ocr_pdf.py paddleocr # 엔진만 지정 → 기본 파일 사용
|
|
145
|
+
```
|
|
146
|
+
|
|
147
|
+
출력
|
|
148
|
+
- 엔진 × 파일 시간/페이지/텍스트길이 매트릭스
|
|
149
|
+
- 엔진별 특화 지표
|
|
150
|
+
- **tesseract**: 인식 단어 수, 평균 신뢰도(%), 사용 언어
|
|
151
|
+
- **paddleocr**: 검출 텍스트 박스 수, 평균 신뢰도, 사용 언어
|
|
152
|
+
|
|
153
|
+
라이브러리 미설치 시 해당 엔진은 자동으로 `SKIP` 처리됩니다.
|
|
154
|
+
|
|
155
|
+
### 7. 표 추출 (`table_pdf.py`)
|
|
156
|
+
|
|
157
|
+
```bash
|
|
158
|
+
# 전체 엔진으로 비교
|
|
159
|
+
python3 table_pdf.py data/table_sample.pdf
|
|
160
|
+
|
|
161
|
+
# 특정 엔진만 사용
|
|
162
|
+
python3 table_pdf.py data/table_sample.pdf camelot
|
|
163
|
+
python3 table_pdf.py data/table_sample.pdf tabula
|
|
164
|
+
python3 table_pdf.py data/table_sample.pdf layoutparser
|
|
165
|
+
```
|
|
166
|
+
|
|
167
|
+
엔진별 특징
|
|
168
|
+
- **camelot** — PDF 표 추출 전용. `lattice`(선 기반) / `stream`(좌표 기반) 두 모드. 정확도(accuracy)·여백률(whitespace) 등 품질 지표 제공. Ghostscript 필요
|
|
169
|
+
- **tabula** — `tabula-java` 래퍼. pandas DataFrame 리스트 반환. JRE 필요
|
|
170
|
+
- **layoutparser** — 페이지를 이미지로 렌더링 후 'Table' 영역의 bbox를 탐지하는 레이아웃 검출기. 셀 내용 추출이 아닌 '표 위치' 검출용. PaddleDetection 백엔드 + TableBank 모델 (영문 PubLayNet 대신 표 전용 학습)
|
|
171
|
+
|
|
172
|
+
### 8. 표 추출 테스트 (`test_table_pdf.py`)
|
|
173
|
+
|
|
174
|
+
```bash
|
|
175
|
+
python3 test_table_pdf.py # 기본 파일 + 전체 엔진
|
|
176
|
+
python3 test_table_pdf.py data/table_sample.pdf # 지정 파일 + 전체 엔진
|
|
177
|
+
python3 test_table_pdf.py /다른/경로/ # 지정 폴더 + 전체 엔진
|
|
178
|
+
|
|
179
|
+
# 엔진 단독 실행
|
|
180
|
+
python3 test_table_pdf.py data/table_sample.pdf camelot
|
|
181
|
+
python3 test_table_pdf.py data/table_sample.pdf tabula
|
|
182
|
+
python3 test_table_pdf.py data/table_sample.pdf layoutparser
|
|
183
|
+
python3 test_table_pdf.py camelot # 엔진만 지정 → 기본 파일 사용
|
|
184
|
+
```
|
|
185
|
+
|
|
186
|
+
기본 파일은 `data/table_sample.pdf`입니다. 출력에는 표 개수, 각 표의 행/열 크기, 첫 표 미리보기, 엔진별 특화 지표(camelot 정확도, tabula 헤더, layoutparser bbox)가 포함됩니다.
|
|
187
|
+
|
|
188
|
+
## 폴더 구조
|
|
189
|
+
|
|
190
|
+
```
|
|
191
|
+
code/
|
|
192
|
+
├── README.md
|
|
193
|
+
├── requirements.txt
|
|
194
|
+
├── pdf_metadata.py
|
|
195
|
+
├── test_pdf_metadata.py
|
|
196
|
+
├── parsing_pdf.py
|
|
197
|
+
├── test_parsing_pdf.py
|
|
198
|
+
├── ocr_pdf.py
|
|
199
|
+
├── test_ocr_pdf.py
|
|
200
|
+
├── table_pdf.py
|
|
201
|
+
├── test_table_pdf.py
|
|
202
|
+
└── data/
|
|
203
|
+
├── pdf_sample.pdf
|
|
204
|
+
├── parsing_sample.pdf
|
|
205
|
+
└── table_sample.pdf
|
|
206
|
+
```
|
|
207
|
+
|
|
208
|
+
`data/`에 PDF를 추가하면 인자 없이 테스트를 실행해도 자동으로 같이 검증됩니다.
|
|
@@ -0,0 +1,65 @@
|
|
|
1
|
+
[build-system]
|
|
2
|
+
requires = ["setuptools>=65", "wheel"]
|
|
3
|
+
build-backend = "setuptools.build_meta"
|
|
4
|
+
|
|
5
|
+
[project]
|
|
6
|
+
name = "pdfprep"
|
|
7
|
+
version = "0.1.0"
|
|
8
|
+
description = "PDF 전처리 통합 도구 — 메타데이터, 텍스트 파싱, OCR, 표 추출"
|
|
9
|
+
readme = "README.md"
|
|
10
|
+
requires-python = ">=3.12"
|
|
11
|
+
license = { text = "MIT" }
|
|
12
|
+
authors = [{ name = "uwpark", email = "uwpark@simplatform.com" }]
|
|
13
|
+
keywords = ["pdf", "ocr", "table-extraction", "preprocessing", "parsing", "metadata"]
|
|
14
|
+
classifiers = [
|
|
15
|
+
"Programming Language :: Python :: 3",
|
|
16
|
+
"Programming Language :: Python :: 3.12",
|
|
17
|
+
"License :: OSI Approved :: MIT License",
|
|
18
|
+
"Operating System :: POSIX :: Linux",
|
|
19
|
+
"Topic :: Text Processing",
|
|
20
|
+
"Topic :: Scientific/Engineering :: Image Recognition",
|
|
21
|
+
"Natural Language :: Korean",
|
|
22
|
+
]
|
|
23
|
+
|
|
24
|
+
dependencies = [
|
|
25
|
+
"pypdf>=4.0,<6.0",
|
|
26
|
+
"pdfplumber>=0.11.0",
|
|
27
|
+
"pymupdf>=1.27.0",
|
|
28
|
+
"pillow>=10.0",
|
|
29
|
+
"numpy<2",
|
|
30
|
+
"setuptools>=65",
|
|
31
|
+
]
|
|
32
|
+
|
|
33
|
+
[project.optional-dependencies]
|
|
34
|
+
ocr = [
|
|
35
|
+
"pytesseract>=0.3.13",
|
|
36
|
+
"paddleocr==2.7.3",
|
|
37
|
+
"paddlepaddle==2.6.2",
|
|
38
|
+
]
|
|
39
|
+
table = [
|
|
40
|
+
"camelot-py[base]==1.0.9",
|
|
41
|
+
"tabula-py>=2.10",
|
|
42
|
+
"jpype1>=1.5",
|
|
43
|
+
"layoutparser>=0.3.4",
|
|
44
|
+
]
|
|
45
|
+
all = [
|
|
46
|
+
"pytesseract>=0.3.13",
|
|
47
|
+
"paddleocr==2.7.3",
|
|
48
|
+
"paddlepaddle==2.6.2",
|
|
49
|
+
"camelot-py[base]==1.0.9",
|
|
50
|
+
"tabula-py>=2.10",
|
|
51
|
+
"jpype1>=1.5",
|
|
52
|
+
"layoutparser>=0.3.4",
|
|
53
|
+
]
|
|
54
|
+
|
|
55
|
+
[project.urls]
|
|
56
|
+
Homepage = "https://pypi.org/project/pdfprep/"
|
|
57
|
+
|
|
58
|
+
[project.scripts]
|
|
59
|
+
pdfprep-metadata = "pdfprep.metadata:main"
|
|
60
|
+
pdfprep-parse = "pdfprep.parsing:main"
|
|
61
|
+
pdfprep-ocr = "pdfprep.ocr:main"
|
|
62
|
+
pdfprep-table = "pdfprep.table:main"
|
|
63
|
+
|
|
64
|
+
[tool.setuptools.packages.find]
|
|
65
|
+
where = ["src"]
|
pdfprep-0.1.0/setup.cfg
ADDED
|
@@ -0,0 +1,15 @@
|
|
|
1
|
+
"""
|
|
2
|
+
pdfprep — PDF 전처리 도구 모음
|
|
3
|
+
|
|
4
|
+
서브모듈:
|
|
5
|
+
metadata : PDF 메타데이터 추출
|
|
6
|
+
parsing : 3종 라이브러리(pypdf / pdfplumber / pymupdf)로 텍스트 파싱
|
|
7
|
+
ocr : 2종 OCR 엔진(tesseract / paddleocr)으로 이미지 텍스트 추출
|
|
8
|
+
table : 3종 라이브러리(camelot / tabula / layoutparser)로 표 추출
|
|
9
|
+
"""
|
|
10
|
+
|
|
11
|
+
__version__ = "0.1.0"
|
|
12
|
+
|
|
13
|
+
from . import metadata, parsing, ocr, table
|
|
14
|
+
|
|
15
|
+
__all__ = ["metadata", "parsing", "ocr", "table", "__version__"]
|
|
@@ -0,0 +1,64 @@
|
|
|
1
|
+
import sys
|
|
2
|
+
from pypdf import PdfReader
|
|
3
|
+
from pathlib import Path
|
|
4
|
+
from datetime import datetime
|
|
5
|
+
|
|
6
|
+
|
|
7
|
+
def parse_pdf_date(date_str):
|
|
8
|
+
if not date_str:
|
|
9
|
+
return None
|
|
10
|
+
s = str(date_str)
|
|
11
|
+
if s.startswith("D:"):
|
|
12
|
+
s = s[2:]
|
|
13
|
+
try:
|
|
14
|
+
return datetime.strptime(s[:14], "%Y%m%d%H%M%S").strftime("%Y-%m-%d %H:%M:%S")
|
|
15
|
+
except ValueError:
|
|
16
|
+
return str(date_str)
|
|
17
|
+
|
|
18
|
+
|
|
19
|
+
def show_pdf_metadata(pdf_path):
|
|
20
|
+
path = Path(pdf_path)
|
|
21
|
+
if not path.exists():
|
|
22
|
+
print(f"파일을 찾을 수 없습니다: {pdf_path}")
|
|
23
|
+
return
|
|
24
|
+
|
|
25
|
+
reader = PdfReader(str(path))
|
|
26
|
+
meta = reader.metadata or {}
|
|
27
|
+
|
|
28
|
+
print(f"=== PDF 메타데이터: {path.name} ===")
|
|
29
|
+
print(f"파일 크기 : {path.stat().st_size:,} bytes")
|
|
30
|
+
print(f"페이지 수 : {len(reader.pages)}")
|
|
31
|
+
print(f"PDF 버전 : {reader.pdf_header}")
|
|
32
|
+
print(f"암호화 여부 : {reader.is_encrypted}")
|
|
33
|
+
print()
|
|
34
|
+
print("--- Document Info ---")
|
|
35
|
+
print(f"제목(Title) : {meta.get('/Title', '')}")
|
|
36
|
+
print(f"작성자(Author) : {meta.get('/Author', '')}")
|
|
37
|
+
print(f"주제(Subject) : {meta.get('/Subject', '')}")
|
|
38
|
+
print(f"키워드(Keywords): {meta.get('/Keywords', '')}")
|
|
39
|
+
print(f"생성 도구 : {meta.get('/Creator', '')}")
|
|
40
|
+
print(f"생성기(Producer): {meta.get('/Producer', '')}")
|
|
41
|
+
print(f"생성일 : {parse_pdf_date(meta.get('/CreationDate'))}")
|
|
42
|
+
print(f"수정일 : {parse_pdf_date(meta.get('/ModDate'))}")
|
|
43
|
+
|
|
44
|
+
extras = {k: v for k, v in meta.items() if k not in {
|
|
45
|
+
"/Title", "/Author", "/Subject", "/Keywords",
|
|
46
|
+
"/Creator", "/Producer", "/CreationDate", "/ModDate",
|
|
47
|
+
}}
|
|
48
|
+
if extras:
|
|
49
|
+
print()
|
|
50
|
+
print("--- 기타 항목 ---")
|
|
51
|
+
for k, v in extras.items():
|
|
52
|
+
print(f"{k}: {v}")
|
|
53
|
+
|
|
54
|
+
|
|
55
|
+
if __name__ == "__main__":
|
|
56
|
+
if len(sys.argv) < 2:
|
|
57
|
+
print("사용법: python3 pdf_metadata.py <PDF 파일 경로> [추가 파일 ...]")
|
|
58
|
+
print("예시 : python3 pdf_metadata.py pdf_sample.pdf")
|
|
59
|
+
sys.exit(1)
|
|
60
|
+
|
|
61
|
+
for i, pdf_path in enumerate(sys.argv[1:]):
|
|
62
|
+
if i > 0:
|
|
63
|
+
print()
|
|
64
|
+
show_pdf_metadata(pdf_path)
|