fei-pdf2md 0.1.0__tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
@@ -0,0 +1,11 @@
1
+ {
2
+ "permissions": {
3
+ "allow": [
4
+ "Bash(uv run:*)",
5
+ "Bash(git add:*)",
6
+ "Bash(git commit:*)",
7
+ "Bash(git push:*)",
8
+ "Bash(rm:*)"
9
+ ]
10
+ }
11
+ }
@@ -0,0 +1,13 @@
1
+ # Ollama配置
2
+ OLLAMA_HOST=http://localhost:11434
3
+ OLLAMA_MODEL=qwen3-vl:8b
4
+
5
+ # 路径配置
6
+ SOURCE_DIR=../
7
+ OUTPUT_DIR=./output
8
+
9
+ # PDF处理配置
10
+ IMAGE_DPI=150
11
+
12
+ # 并发配置
13
+ MAX_WORKERS=3
@@ -0,0 +1,31 @@
1
+ # Python-generated files
2
+ __pycache__/
3
+ *.py[oc]
4
+ build/
5
+ dist/
6
+ wheels/
7
+ *.egg-info
8
+ *.egg
9
+
10
+ # Virtual environments
11
+ .venv
12
+ .env
13
+ output/
14
+
15
+ # IDE
16
+ .vscode/
17
+ .idea/
18
+ *.swp
19
+ *.swo
20
+
21
+ # OS
22
+ .DS_Store
23
+ Thumbs.db
24
+
25
+ # Test
26
+ .pytest_cache/
27
+ .coverage
28
+ htmlcov/
29
+
30
+ # uv
31
+ .uv/
@@ -0,0 +1 @@
1
+ 3.13
@@ -0,0 +1,21 @@
1
+ MIT License
2
+
3
+ Copyright (c) 2025
4
+
5
+ Permission is hereby granted, free of charge, to any person obtaining a copy
6
+ of this software and associated documentation files (the "Software"), to deal
7
+ in the Software without restriction, including without limitation the rights
8
+ to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
9
+ copies of the Software, and to permit persons to whom the Software is
10
+ furnished to do so, subject to the following conditions:
11
+
12
+ The above copyright notice and this permission notice shall be included in all
13
+ copies or substantial portions of the Software.
14
+
15
+ THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
16
+ IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
17
+ FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
18
+ AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
19
+ LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
20
+ OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
21
+ SOFTWARE.
@@ -0,0 +1,253 @@
1
+ Metadata-Version: 2.4
2
+ Name: fei-pdf2md
3
+ Version: 0.1.0
4
+ Summary: PDF教程文档转Markdown自动化工具,使用Ollama多模态模型进行OCR识别
5
+ Project-URL: Homepage, https://github.com/FeiXie-Liam/pdf-image-to-markdown
6
+ Project-URL: Repository, https://github.com/FeiXie-Liam/pdf-image-to-markdown
7
+ Project-URL: Issues, https://github.com/FeiXie-Liam/pdf-image-to-markdown/issues
8
+ Author-email: FeiXie-Liam <xiefei0887@gmail.com>
9
+ License: MIT
10
+ License-File: LICENSE
11
+ Keywords: conversion,markdown,ocr,ollama,pdf
12
+ Classifier: Development Status :: 4 - Beta
13
+ Classifier: Environment :: Console
14
+ Classifier: Intended Audience :: Developers
15
+ Classifier: License :: OSI Approved :: MIT License
16
+ Classifier: Operating System :: OS Independent
17
+ Classifier: Programming Language :: Python :: 3
18
+ Classifier: Programming Language :: Python :: 3.10
19
+ Classifier: Programming Language :: Python :: 3.11
20
+ Classifier: Programming Language :: Python :: 3.12
21
+ Classifier: Programming Language :: Python :: 3.13
22
+ Classifier: Topic :: Scientific/Engineering :: Image Processing
23
+ Classifier: Topic :: Text Processing :: Markup :: Markdown
24
+ Requires-Python: >=3.10
25
+ Requires-Dist: ollama>=0.4.0
26
+ Requires-Dist: pillow>=10.0.0
27
+ Requires-Dist: pydantic-settings>=2.0.0
28
+ Requires-Dist: pydantic>=2.0.0
29
+ Requires-Dist: pymupdf>=1.24.0
30
+ Requires-Dist: rich>=13.0.0
31
+ Requires-Dist: typer>=0.9.0
32
+ Description-Content-Type: text/markdown
33
+
34
+ # PDF教程文档转Markdown自动化工具
35
+
36
+ 将PDF教程文档(图片格式)自动转换为结构化的Markdown文件,保持原有目录结构。
37
+
38
+ ## 功能特性
39
+
40
+ - 自动扫描目录结构,识别所有PDF文件
41
+ - 使用Ollama多模态模型(qwen3-vl)直接理解图片内容
42
+ - 保持原有目录结构输出Markdown文件
43
+ - 支持断点续传,中断后可继续处理
44
+ - 并发处理,提升转换效率
45
+ - 自动生成索引文件和统计报告
46
+
47
+ ## 环境要求
48
+
49
+ - Python 3.13+
50
+ - Ollama服务(需提前安装并拉取多模态模型)
51
+
52
+ ## 快速开始
53
+
54
+ ### 1. 安装依赖
55
+
56
+ ```bash
57
+ cd codes
58
+ uv sync
59
+ ```
60
+
61
+ ### 2. 配置Ollama
62
+
63
+ ```bash
64
+ # 拉取多模态模型(推荐,中文效果好)
65
+ ollama pull qwen3-vl:8b
66
+
67
+ # 或使用其他模型
68
+ ollama pull llava:13b
69
+
70
+ # 启动Ollama服务
71
+ ollama serve
72
+ ```
73
+
74
+ ### 3. 配置环境变量(可选)
75
+
76
+ ```bash
77
+ # 复制示例配置
78
+ cp .env.example .env
79
+
80
+ # 编辑配置(如使用远程Ollama服务)
81
+ # OLLAMA_HOST=http://192.168.1.100:11434
82
+ ```
83
+
84
+ ## 使用方法
85
+
86
+ ### 扫描目录结构
87
+
88
+ ```bash
89
+ uv run python main.py scan
90
+ ```
91
+
92
+ 输出示例:
93
+ ```
94
+ 哥飞教程
95
+ ├── adsense
96
+ │ └── FireShot Capture 005 - xxx.pdf
97
+ ├── 新手入门
98
+ │ └── FireShot Capture 051 - xxx.pdf
99
+ └── ...
100
+
101
+ 统计: 10 个目录, 120 个PDF文件
102
+ ```
103
+
104
+ ### 转换单个PDF
105
+
106
+ ```bash
107
+ uv run python main.py convert "新手入门/FireShot Capture 051 - xxx.pdf"
108
+ ```
109
+
110
+ ### 批量转换所有PDF
111
+
112
+ ```bash
113
+ # 默认使用3个并发
114
+ uv run python main.py convert-all
115
+
116
+ # 指定并发数
117
+ uv run python main.py convert-all --workers 5
118
+
119
+ # 禁用断点续传(重新处理所有文件)
120
+ uv run python main.py convert-all --no-resume
121
+ ```
122
+
123
+ ### 生成索引文件
124
+
125
+ ```bash
126
+ uv run python main.py index
127
+ ```
128
+
129
+ ### 检查Ollama服务状态
130
+
131
+ ```bash
132
+ uv run python main.py check
133
+ ```
134
+
135
+ ### 查看统计信息
136
+
137
+ ```bash
138
+ uv run python main.py stats
139
+ ```
140
+
141
+ 输出示例:
142
+ ```
143
+ 项目统计
144
+ ┏━━━━━━━━━━━━━┳━━━━┓
145
+ ┃ 项目 ┃ 数量 ┃
146
+ ┡━━━━━━━━━━━━━╇━━━━┩
147
+ │ 分类目录 │ 10 │
148
+ │ PDF文件总数 │ 120 │
149
+ │ 已处理 │ 85 │
150
+ │ 待处理 │ 35 │
151
+ │ 完成进度 │ 70.8% │
152
+ └─────────────┴──────┘
153
+ ```
154
+
155
+ ## 配置说明
156
+
157
+ 环境变量配置(`.env` 文件):
158
+
159
+ | 变量 | 说明 | 默认值 |
160
+ |------|------|--------|
161
+ | `OLLAMA_HOST` | Ollama服务地址 | `http://localhost:11434` |
162
+ | `OLLAMA_MODEL` | 多模态模型名称 | `qwen3-vl:8b` |
163
+ | `SOURCE_DIR` | PDF源目录 | `../` |
164
+ | `OUTPUT_DIR` | Markdown输出目录 | `./output` |
165
+ | `IMAGE_DPI` | PDF提取图片DPI | `150` |
166
+ | `MAX_WORKERS` | 并发处理数 | `3` |
167
+
168
+ ## 输出格式
169
+
170
+ 转换后的Markdown文件格式:
171
+
172
+ ```markdown
173
+ # 文档标题
174
+
175
+ > **元信息**
176
+ > - 来源: FireShot Capture 051
177
+ > - 分类: 新手入门
178
+ > - 转换时间: 2026-02-27 10:30:00
179
+
180
+ ---
181
+
182
+ [转换后的正文内容]
183
+
184
+ ---
185
+
186
+ *本文档由自动化脚本生成*
187
+ ```
188
+
189
+ ## 目录结构
190
+
191
+ ```
192
+ codes/
193
+ ├── config/ # 配置模块
194
+ │ ├── __init__.py
195
+ │ └── settings.py
196
+ ├── src/ # 核心模块
197
+ │ ├── __init__.py
198
+ │ ├── scanner.py # 目录扫描
199
+ │ ├── converter.py # PDF转换
200
+ │ └── output.py # 输出管理
201
+ ├── docs/ # 文档
202
+ │ └── design.md
203
+ ├── output/ # 输出目录
204
+ │ ├── adsense/ # 按原目录结构输出
205
+ │ ├── 新手入门/
206
+ │ ├── structure.json # 目录结构
207
+ │ └── README.md # 索引文件
208
+ ├── main.py # CLI入口
209
+ ├── pyproject.toml
210
+ └── .env.example
211
+ ```
212
+
213
+ ## 常见问题
214
+
215
+ ### Q: Ollama连接失败?
216
+
217
+ 确保Ollama服务正在运行:
218
+ ```bash
219
+ ollama serve
220
+ ```
221
+
222
+ 如果使用远程服务,检查 `OLLAMA_HOST` 配置是否正确。
223
+
224
+ ### Q: 模型未找到?
225
+
226
+ 先拉取模型:
227
+ ```bash
228
+ ollama pull qwen3-vl:8b
229
+ ```
230
+
231
+ ### Q: 转换速度慢?
232
+
233
+ - 增加并发数:`uv run python main.py convert-all --workers 5`
234
+ - 使用GPU加速的Ollama服务
235
+ - 使用更快的模型(如较小参数量的模型)
236
+
237
+ ### Q: 如何跳过已处理的文件?
238
+
239
+ 默认启用断点续传,直接运行:
240
+ ```bash
241
+ uv run python main.py convert-all
242
+ ```
243
+
244
+ ## 依赖
245
+
246
+ - [pymupdf](https://pymupdf.readthedocs.io/) - PDF处理
247
+ - [ollama](https://github.com/ollama/ollama-python) - Ollama Python SDK
248
+ - [rich](https://github.com/Textualize/rich) - 终端美化
249
+ - [typer](https://typer.tiangolo.com/) - CLI框架
250
+
251
+ ## License
252
+
253
+ MIT
@@ -0,0 +1,220 @@
1
+ # PDF教程文档转Markdown自动化工具
2
+
3
+ 将PDF教程文档(图片格式)自动转换为结构化的Markdown文件,保持原有目录结构。
4
+
5
+ ## 功能特性
6
+
7
+ - 自动扫描目录结构,识别所有PDF文件
8
+ - 使用Ollama多模态模型(qwen3-vl)直接理解图片内容
9
+ - 保持原有目录结构输出Markdown文件
10
+ - 支持断点续传,中断后可继续处理
11
+ - 并发处理,提升转换效率
12
+ - 自动生成索引文件和统计报告
13
+
14
+ ## 环境要求
15
+
16
+ - Python 3.13+
17
+ - Ollama服务(需提前安装并拉取多模态模型)
18
+
19
+ ## 快速开始
20
+
21
+ ### 1. 安装依赖
22
+
23
+ ```bash
24
+ cd codes
25
+ uv sync
26
+ ```
27
+
28
+ ### 2. 配置Ollama
29
+
30
+ ```bash
31
+ # 拉取多模态模型(推荐,中文效果好)
32
+ ollama pull qwen3-vl:8b
33
+
34
+ # 或使用其他模型
35
+ ollama pull llava:13b
36
+
37
+ # 启动Ollama服务
38
+ ollama serve
39
+ ```
40
+
41
+ ### 3. 配置环境变量(可选)
42
+
43
+ ```bash
44
+ # 复制示例配置
45
+ cp .env.example .env
46
+
47
+ # 编辑配置(如使用远程Ollama服务)
48
+ # OLLAMA_HOST=http://192.168.1.100:11434
49
+ ```
50
+
51
+ ## 使用方法
52
+
53
+ ### 扫描目录结构
54
+
55
+ ```bash
56
+ uv run python main.py scan
57
+ ```
58
+
59
+ 输出示例:
60
+ ```
61
+ 哥飞教程
62
+ ├── adsense
63
+ │ └── FireShot Capture 005 - xxx.pdf
64
+ ├── 新手入门
65
+ │ └── FireShot Capture 051 - xxx.pdf
66
+ └── ...
67
+
68
+ 统计: 10 个目录, 120 个PDF文件
69
+ ```
70
+
71
+ ### 转换单个PDF
72
+
73
+ ```bash
74
+ uv run python main.py convert "新手入门/FireShot Capture 051 - xxx.pdf"
75
+ ```
76
+
77
+ ### 批量转换所有PDF
78
+
79
+ ```bash
80
+ # 默认使用3个并发
81
+ uv run python main.py convert-all
82
+
83
+ # 指定并发数
84
+ uv run python main.py convert-all --workers 5
85
+
86
+ # 禁用断点续传(重新处理所有文件)
87
+ uv run python main.py convert-all --no-resume
88
+ ```
89
+
90
+ ### 生成索引文件
91
+
92
+ ```bash
93
+ uv run python main.py index
94
+ ```
95
+
96
+ ### 检查Ollama服务状态
97
+
98
+ ```bash
99
+ uv run python main.py check
100
+ ```
101
+
102
+ ### 查看统计信息
103
+
104
+ ```bash
105
+ uv run python main.py stats
106
+ ```
107
+
108
+ 输出示例:
109
+ ```
110
+ 项目统计
111
+ ┏━━━━━━━━━━━━━┳━━━━┓
112
+ ┃ 项目 ┃ 数量 ┃
113
+ ┡━━━━━━━━━━━━━╇━━━━┩
114
+ │ 分类目录 │ 10 │
115
+ │ PDF文件总数 │ 120 │
116
+ │ 已处理 │ 85 │
117
+ │ 待处理 │ 35 │
118
+ │ 完成进度 │ 70.8% │
119
+ └─────────────┴──────┘
120
+ ```
121
+
122
+ ## 配置说明
123
+
124
+ 环境变量配置(`.env` 文件):
125
+
126
+ | 变量 | 说明 | 默认值 |
127
+ |------|------|--------|
128
+ | `OLLAMA_HOST` | Ollama服务地址 | `http://localhost:11434` |
129
+ | `OLLAMA_MODEL` | 多模态模型名称 | `qwen3-vl:8b` |
130
+ | `SOURCE_DIR` | PDF源目录 | `../` |
131
+ | `OUTPUT_DIR` | Markdown输出目录 | `./output` |
132
+ | `IMAGE_DPI` | PDF提取图片DPI | `150` |
133
+ | `MAX_WORKERS` | 并发处理数 | `3` |
134
+
135
+ ## 输出格式
136
+
137
+ 转换后的Markdown文件格式:
138
+
139
+ ```markdown
140
+ # 文档标题
141
+
142
+ > **元信息**
143
+ > - 来源: FireShot Capture 051
144
+ > - 分类: 新手入门
145
+ > - 转换时间: 2026-02-27 10:30:00
146
+
147
+ ---
148
+
149
+ [转换后的正文内容]
150
+
151
+ ---
152
+
153
+ *本文档由自动化脚本生成*
154
+ ```
155
+
156
+ ## 目录结构
157
+
158
+ ```
159
+ codes/
160
+ ├── config/ # 配置模块
161
+ │ ├── __init__.py
162
+ │ └── settings.py
163
+ ├── src/ # 核心模块
164
+ │ ├── __init__.py
165
+ │ ├── scanner.py # 目录扫描
166
+ │ ├── converter.py # PDF转换
167
+ │ └── output.py # 输出管理
168
+ ├── docs/ # 文档
169
+ │ └── design.md
170
+ ├── output/ # 输出目录
171
+ │ ├── adsense/ # 按原目录结构输出
172
+ │ ├── 新手入门/
173
+ │ ├── structure.json # 目录结构
174
+ │ └── README.md # 索引文件
175
+ ├── main.py # CLI入口
176
+ ├── pyproject.toml
177
+ └── .env.example
178
+ ```
179
+
180
+ ## 常见问题
181
+
182
+ ### Q: Ollama连接失败?
183
+
184
+ 确保Ollama服务正在运行:
185
+ ```bash
186
+ ollama serve
187
+ ```
188
+
189
+ 如果使用远程服务,检查 `OLLAMA_HOST` 配置是否正确。
190
+
191
+ ### Q: 模型未找到?
192
+
193
+ 先拉取模型:
194
+ ```bash
195
+ ollama pull qwen3-vl:8b
196
+ ```
197
+
198
+ ### Q: 转换速度慢?
199
+
200
+ - 增加并发数:`uv run python main.py convert-all --workers 5`
201
+ - 使用GPU加速的Ollama服务
202
+ - 使用更快的模型(如较小参数量的模型)
203
+
204
+ ### Q: 如何跳过已处理的文件?
205
+
206
+ 默认启用断点续传,直接运行:
207
+ ```bash
208
+ uv run python main.py convert-all
209
+ ```
210
+
211
+ ## 依赖
212
+
213
+ - [pymupdf](https://pymupdf.readthedocs.io/) - PDF处理
214
+ - [ollama](https://github.com/ollama/ollama-python) - Ollama Python SDK
215
+ - [rich](https://github.com/Textualize/rich) - 终端美化
216
+ - [typer](https://typer.tiangolo.com/) - CLI框架
217
+
218
+ ## License
219
+
220
+ MIT