PyPI - magic-pdf - Versions diffs - 0.7.1__py3-none-any.whl → 0.8.1__py3-none-any.whl - Mend

magic-pdf 0.7.1py3-none-any.whl → 0.8.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (34) hide show

magic_pdf/dict2md/ocr_mkcontent.py +130 -76
magic_pdf/integrations/__init__.py +0 -0
magic_pdf/integrations/rag/__init__.py +0 -0
magic_pdf/integrations/rag/api.py +82 -0
magic_pdf/integrations/rag/type.py +82 -0
magic_pdf/integrations/rag/utils.py +285 -0
magic_pdf/layout/layout_sort.py +472 -283
magic_pdf/libs/boxbase.py +188 -149
magic_pdf/libs/draw_bbox.py +113 -87
magic_pdf/libs/ocr_content_type.py +21 -18
magic_pdf/libs/version.py +1 -1
magic_pdf/model/doc_analyze_by_custom_model.py +14 -2
magic_pdf/model/magic_model.py +283 -166
magic_pdf/model/model_list.py +8 -0
magic_pdf/model/pdf_extract_kit.py +105 -15
magic_pdf/model/pek_sub_modules/self_modify.py +84 -0
magic_pdf/para/para_split_v2.py +26 -27
magic_pdf/pdf_parse_union_core.py +34 -6
magic_pdf/pipe/AbsPipe.py +4 -1
magic_pdf/pipe/OCRPipe.py +7 -4
magic_pdf/pipe/TXTPipe.py +7 -4
magic_pdf/pipe/UNIPipe.py +11 -6
magic_pdf/pre_proc/ocr_detect_all_bboxes.py +12 -3
magic_pdf/pre_proc/ocr_dict_merge.py +60 -59
magic_pdf/tools/cli.py +56 -29
magic_pdf/tools/cli_dev.py +61 -64
magic_pdf/tools/common.py +57 -37
magic_pdf/user_api.py +17 -9
{magic_pdf-0.7.1.dist-info → magic_pdf-0.8.1.dist-info}/METADATA +72 -27
{magic_pdf-0.7.1.dist-info → magic_pdf-0.8.1.dist-info}/RECORD +34 -29
{magic_pdf-0.7.1.dist-info → magic_pdf-0.8.1.dist-info}/LICENSE.md +0 -0
{magic_pdf-0.7.1.dist-info → magic_pdf-0.8.1.dist-info}/WHEEL +0 -0
{magic_pdf-0.7.1.dist-info → magic_pdf-0.8.1.dist-info}/entry_points.txt +0 -0
{magic_pdf-0.7.1.dist-info → magic_pdf-0.8.1.dist-info}/top_level.txt +0 -0

magic_pdf/pre_proc/ocr_detect_all_bboxes.py CHANGED Viewed

@@ -133,6 +133,7 @@ def remove_need_drop_blocks(all_bboxes, discarded_blocks):
 def remove_overlaps_min_blocks(all_bboxes):
+    #  重叠block，小的不能直接删除，需要和大的那个合并成一个更大的。
     #  删除重叠blocks中较小的那些
     need_remove = []
     for block1 in all_bboxes:
@@ -142,9 +143,17 @@ def remove_overlaps_min_blocks(all_bboxes):
                 block2_bbox = block2[:4]
                 overlap_box = get_minbox_if_overlap_by_ratio(block1_bbox, block2_bbox, 0.8)
                 if overlap_box is not None:
-                    bbox_to_remove = next((block for block in all_bboxes if block[:4] == overlap_box), None)
-                    if bbox_to_remove is not None and bbox_to_remove not in need_remove:
-                        need_remove.append(bbox_to_remove)
+                    block_to_remove = next((block for block in all_bboxes if block[:4] == overlap_box), None)
+                    if block_to_remove is not None and block_to_remove not in need_remove:
+                        large_block = block1 if block1 != block_to_remove else block2
+                        x1, y1, x2, y2 = large_block[:4]
+                        sx1, sy1, sx2, sy2 = block_to_remove[:4]
+                        x1 = min(x1, sx1)
+                        y1 = min(y1, sy1)
+                        x2 = max(x2, sx2)
+                        y2 = max(y2, sy2)
+                        large_block[:4] = [x1, y1, x2, y2]
+                        need_remove.append(block_to_remove)
     if len(need_remove) > 0:
         for block in need_remove:

magic_pdf/pre_proc/ocr_dict_merge.py CHANGED Viewed

@@ -1,18 +1,15 @@
-from loguru import logger
-from magic_pdf.libs.boxbase import __is_overlaps_y_exceeds_threshold, get_minbox_if_overlap_by_ratio, \
-    calculate_overlap_area_in_bbox1_area_ratio, _is_in_or_part_overlap_with_area_ratio
+from magic_pdf.libs.boxbase import (__is_overlaps_y_exceeds_threshold,
+                                    _is_in_or_part_overlap_with_area_ratio,
+                                    calculate_overlap_area_in_bbox1_area_ratio)
 from magic_pdf.libs.drop_tag import DropTag
-from magic_pdf.libs.ocr_content_type import ContentType, BlockType
-from magic_pdf.pre_proc.ocr_span_list_modify import modify_y_axis, modify_inline_equation
-from magic_pdf.pre_proc.remove_bbox_overlap import remove_overlap_between_bbox_for_span
+from magic_pdf.libs.ocr_content_type import BlockType, ContentType
 # 将每一个line中的span从左到右排序
 def line_sort_spans_by_left_to_right(lines):
     line_objects = []
     for line in lines:
-        # 按照x0坐标排序
+        #  按照x0坐标排序
         line.sort(key=lambda span: span['bbox'][0])
         line_bbox = [
             min(span['bbox'][0] for span in line),  # x0
@@ -21,8 +18,8 @@ def line_sort_spans_by_left_to_right(lines):
             max(span['bbox'][3] for span in line),  # y1
         ]
         line_objects.append({
-            "bbox": line_bbox,
-            "spans": line,
+            'bbox': line_bbox,
+            'spans': line,
         })
     return line_objects
@@ -39,16 +36,21 @@ def merge_spans_to_line(spans):
         for span in spans[1:]:
             # 如果当前的span类型为"interline_equation" 或者 当前行中已经有"interline_equation"
             # image和table类型，同上
-            if span['type'] in [ContentType.InterlineEquation, ContentType.Image, ContentType.Table] or any(
-                    s['type'] in [ContentType.InterlineEquation, ContentType.Image, ContentType.Table] for s in
-                    current_line):
+            if span['type'] in [
+                    ContentType.InterlineEquation, ContentType.Image,
+                    ContentType.Table
+            ] or any(s['type'] in [
+                    ContentType.InterlineEquation, ContentType.Image,
+                    ContentType.Table
+            ] for s in current_line):
                 # 则开始新行
                 lines.append(current_line)
                 current_line = [span]
                 continue
             # 如果当前的span与当前行的最后一个span在y轴上重叠，则添加到当前行
-            if __is_overlaps_y_exceeds_threshold(span['bbox'], current_line[-1]['bbox']):
+            if __is_overlaps_y_exceeds_threshold(span['bbox'],
+                                                 current_line[-1]['bbox']):
                 current_line.append(span)
             else:
                 # 否则，开始新行
@@ -71,7 +73,8 @@ def merge_spans_to_line_by_layout(spans, layout_bboxes):
         # 遍历spans,将每个span放入对应的layout中
         layout_sapns = []
         for span in spans:
-            if calculate_overlap_area_in_bbox1_area_ratio(span['bbox'], layout_bbox) > 0.6:
+            if calculate_overlap_area_in_bbox1_area_ratio(
+                    span['bbox'], layout_bbox) > 0.6:
                 layout_sapns.append(span)
         # 如果layout_sapns不为空，则放入new_spans中
         if len(layout_sapns) > 0:
@@ -99,12 +102,10 @@ def merge_lines_to_block(lines):
     # 目前不做block拼接,先做个结构,每个block中只有一个line,block的bbox就是line的bbox
     blocks = []
     for line in lines:
-        blocks.append(
-            {
-                "bbox": line["bbox"],
-                "lines": [line],
-            }
-        )
+        blocks.append({
+            'bbox': line['bbox'],
+            'lines': [line],
+        })
     return blocks
@@ -121,7 +122,8 @@ def sort_blocks_by_layout(all_bboxes, layout_bboxes):
             if block[7] == BlockType.Footnote:
                 continue
             block_bbox = block[:4]
-            if calculate_overlap_area_in_bbox1_area_ratio(block_bbox, layout_bbox) > 0.8:
+            if calculate_overlap_area_in_bbox1_area_ratio(
+                    block_bbox, layout_bbox) > 0.8:
                 layout_blocks.append(block)
         # 如果layout_blocks不为空，则放入new_blocks中
@@ -134,7 +136,8 @@ def sort_blocks_by_layout(all_bboxes, layout_bboxes):
     # 如果new_blocks不为空，则对new_blocks中每个block进行排序
     if len(new_blocks) > 0:
         for bboxes_in_layout_block in new_blocks:
-            bboxes_in_layout_block.sort(key=lambda x: x[1])  # 一个layout内部的box，按照y0自上而下排序
+            bboxes_in_layout_block.sort(
+                key=lambda x: x[1])  # 一个layout内部的box，按照y0自上而下排序
             sort_blocks.extend(bboxes_in_layout_block)
     # sort_blocks中已经包含了当前页面所有最终留下的block，且已经排好了顺序
@@ -142,9 +145,7 @@ def sort_blocks_by_layout(all_bboxes, layout_bboxes):
 def fill_spans_in_blocks(blocks, spans, radio):
-    '''
-    将allspans中的span按位置关系，放入blocks中
-    '''
+    """将allspans中的span按位置关系，放入blocks中."""
     block_with_spans = []
     for block in blocks:
         block_type = block[7]
@@ -156,17 +157,15 @@ def fill_spans_in_blocks(blocks, spans, radio):
         block_spans = []
         for span in spans:
             span_bbox = span['bbox']
-            if calculate_overlap_area_in_bbox1_area_ratio(span_bbox, block_bbox) > radio:
+            if calculate_overlap_area_in_bbox1_area_ratio(
+                    span_bbox, block_bbox) > radio:
                 block_spans.append(span)
         '''行内公式调整, 高度调整至与同行文字高度一致(优先左侧, 其次右侧)'''
         # displayed_list = []
         # text_inline_lines = []
         # modify_y_axis(block_spans, displayed_list, text_inline_lines)
         '''模型识别错误的行间公式, type类型转换成行内公式'''
         # block_spans = modify_inline_equation(block_spans, displayed_list, text_inline_lines)
         '''bbox去除粘连'''  # 去粘连会影响span的bbox，导致后续fill的时候出错
         # block_spans = remove_overlap_between_bbox_for_span(block_spans)
@@ -182,12 +181,9 @@ def fill_spans_in_blocks(blocks, spans, radio):
 def fix_block_spans(block_with_spans, img_blocks, table_blocks):
-    '''
-    1、img_block和table_block因为包含caption和footnote的关系，存在block的嵌套关系
-        需要将caption和footnote的text_span放入相应img_block和table_block内的
-        caption_block和footnote_block中
-    2、同时需要删除block中的spans字段
-    '''
+    """1、img_block和table_block因为包含caption和footnote的关系，存在block的嵌套关系
+    需要将caption和footnote的text_span放入相应img_block和table_block内的
+    caption_block和footnote_block中 2、同时需要删除block中的spans字段."""
     fix_blocks = []
     for block in block_with_spans:
         block_type = block['type']
@@ -218,16 +214,13 @@ def merge_spans_to_block(spans: list, block_bbox: list, block_type: str):
     block_spans = []
     # 如果有img_caption，则将img_block中的text_spans放入img_caption_block中
     for span in spans:
-        if calculate_overlap_area_in_bbox1_area_ratio(span['bbox'], block_bbox) > 0.6:
+        if calculate_overlap_area_in_bbox1_area_ratio(span['bbox'],
+                                                      block_bbox) > 0.6:
             block_spans.append(span)
     block_lines = merge_spans_to_line(block_spans)
     # 对line中的span进行排序
     sort_block_lines = line_sort_spans_by_left_to_right(block_lines)
-    block = {
-        'bbox': block_bbox,
-        'type': block_type,
-        'lines': sort_block_lines
-    }
+    block = {'bbox': block_bbox, 'type': block_type, 'lines': sort_block_lines}
     return block, block_spans
@@ -237,11 +230,7 @@ def make_body_block(span: dict, block_bbox: list, block_type: str):
         'bbox': block_bbox,
         'spans': [span],
     }
-    body_block = {
-        'bbox': block_bbox,
-        'type': block_type,
-        'lines': [body_line]
-    }
+    body_block = {'bbox': block_bbox, 'type': block_type, 'lines': [body_line]}
     return body_block
@@ -249,13 +238,16 @@ def fix_image_block(block, img_blocks):
     block['blocks'] = []
     # 遍历img_blocks,找到与当前block匹配的img_block
     for img_block in img_blocks:
-        if _is_in_or_part_overlap_with_area_ratio(block['bbox'], img_block['bbox'], 0.95):
+        if _is_in_or_part_overlap_with_area_ratio(block['bbox'],
+                                                  img_block['bbox'], 0.95):
             # 创建img_body_block
             for span in block['spans']:
-                if span['type'] == ContentType.Image and img_block['img_body_bbox'] == span['bbox']:
+                if span['type'] == ContentType.Image and img_block[
+                        'img_body_bbox'] == span['bbox']:
                     # 创建img_body_block
-                    img_body_block = make_body_block(span, img_block['img_body_bbox'], BlockType.ImageBody)
+                    img_body_block = make_body_block(
+                        span, img_block['img_body_bbox'], BlockType.ImageBody)
                     block['blocks'].append(img_body_block)
                     # 从spans中移除img_body_block中已经放入的span
@@ -265,10 +257,15 @@ def fix_image_block(block, img_blocks):
             # 根据list长度，判断img_block中是否有img_caption
             if img_block['img_caption_bbox'] is not None:
                 img_caption_block, img_caption_spans = merge_spans_to_block(
-                    block['spans'], img_block['img_caption_bbox'], BlockType.ImageCaption
-                )
+                    block['spans'], img_block['img_caption_bbox'],
+                    BlockType.ImageCaption)
                 block['blocks'].append(img_caption_block)
+            if img_block['img_footnote_bbox'] is not None:
+                img_footnote_block, img_footnote_spans = merge_spans_to_block(
+                    block['spans'], img_block['img_footnote_bbox'],
+                    BlockType.ImageFootnote)
+                block['blocks'].append(img_footnote_block)
             break
     del block['spans']
     return block
@@ -278,13 +275,17 @@ def fix_table_block(block, table_blocks):
     block['blocks'] = []
     # 遍历table_blocks,找到与当前block匹配的table_block
     for table_block in table_blocks:
-        if _is_in_or_part_overlap_with_area_ratio(block['bbox'], table_block['bbox'], 0.95):
+        if _is_in_or_part_overlap_with_area_ratio(block['bbox'],
+                                                  table_block['bbox'], 0.95):
             # 创建table_body_block
             for span in block['spans']:
-                if span['type'] == ContentType.Table and table_block['table_body_bbox'] == span['bbox']:
+                if span['type'] == ContentType.Table and table_block[
+                        'table_body_bbox'] == span['bbox']:
                     # 创建table_body_block
-                    table_body_block = make_body_block(span, table_block['table_body_bbox'], BlockType.TableBody)
+                    table_body_block = make_body_block(
+                        span, table_block['table_body_bbox'],
+                        BlockType.TableBody)
                     block['blocks'].append(table_body_block)
                     # 从spans中移除img_body_block中已经放入的span
@@ -294,8 +295,8 @@ def fix_table_block(block, table_blocks):
             # 根据list长度，判断table_block中是否有caption
             if table_block['table_caption_bbox'] is not None:
                 table_caption_block, table_caption_spans = merge_spans_to_block(
-                    block['spans'], table_block['table_caption_bbox'], BlockType.TableCaption
-                )
+                    block['spans'], table_block['table_caption_bbox'],
+                    BlockType.TableCaption)
                 block['blocks'].append(table_caption_block)
                 # 如果table_caption_block_spans不为空
@@ -307,8 +308,8 @@ def fix_table_block(block, table_blocks):
             # 根据list长度，判断table_block中是否有table_note
             if table_block['table_footnote_bbox'] is not None:
                 table_footnote_block, table_footnote_spans = merge_spans_to_block(
-                    block['spans'], table_block['table_footnote_bbox'], BlockType.TableFootnote
-                )
+                    block['spans'], table_block['table_footnote_bbox'],
+                    BlockType.TableFootnote)
                 block['blocks'].append(table_footnote_block)
             break

magic_pdf/tools/cli.py CHANGED Viewed

@@ -1,53 +1,77 @@
 import os
+from pathlib import Path
 import click
 from loguru import logger
-from pathlib import Path
-from magic_pdf.rw.DiskReaderWriter import DiskReaderWriter
-from magic_pdf.rw.AbsReaderWriter import AbsReaderWriter
 import magic_pdf.model as model_config
-from magic_pdf.tools.common import parse_pdf_methods, do_parse
 from magic_pdf.libs.version import __version__
+from magic_pdf.rw.AbsReaderWriter import AbsReaderWriter
+from magic_pdf.rw.DiskReaderWriter import DiskReaderWriter
+from magic_pdf.tools.common import do_parse, parse_pdf_methods
 @click.command()
-@click.version_option(__version__, "--version", "-v", help="display the version and exit")
+@click.version_option(__version__,
+                      '--version',
+                      '-v',
+                      help='display the version and exit')
 @click.option(
-    "-p",
-    "--path",
-    "path",
+    '-p',
+    '--path',
+    'path',
     type=click.Path(exists=True),
     required=True,
-    help="local pdf filepath or directory",
+    help='local pdf filepath or directory',
 )
 @click.option(
-    "-o",
-    "--output-dir",
-    "output_dir",
-    type=str,
-    help="output local directory",
-    default="",
+    '-o',
+    '--output-dir',
+    'output_dir',
+    type=click.Path(),
+    required=True,
+    help='output local directory',
 )
 @click.option(
-    "-m",
-    "--method",
-    "method",
+    '-m',
+    '--method',
+    'method',
     type=parse_pdf_methods,
-    help="""the method for parsing pdf.
+    help="""the method for parsing pdf.
 ocr: using ocr technique to extract information from pdf.
 txt: suitable for the text-based pdf only and outperform ocr.
 auto: automatically choose the best method for parsing pdf from ocr and txt.
 without method specified, auto will be used by default.""",
-    default="auto",
+    default='auto',
+)
+@click.option(
+    '-d',
+    '--debug',
+    'debug_able',
+    type=bool,
+    help='Enables detailed debugging information during the execution of the CLI commands.',
+    default=False,
+)
+@click.option(
+    '-s',
+    '--start',
+    'start_page_id',
+    type=int,
+    help='The starting page for PDF parsing, beginning from 0.',
+    default=0,
+)
+@click.option(
+    '-e',
+    '--end',
+    'end_page_id',
+    type=int,
+    help='The ending page for PDF parsing, beginning from 0.',
+    default=None,
 )
-def cli(path, output_dir, method):
+def cli(path, output_dir, method, debug_able, start_page_id, end_page_id):
     model_config.__use_inside_model__ = True
-    model_config.__model_mode__ = "full"
-    if output_dir == "":
-        if os.path.isdir(path):
-            output_dir = os.path.join(path, "output")
-        else:
-            output_dir = os.path.join(os.path.dirname(path), "output")
+    model_config.__model_mode__ = 'full'
+    os.makedirs(output_dir, exist_ok=True)
     def read_fn(path):
         disk_rw = DiskReaderWriter(os.path.dirname(path))
@@ -63,17 +87,20 @@ def cli(path, output_dir, method):
                 pdf_data,
                 [],
                 method,
+                debug_able,
+                start_page_id=start_page_id,
+                end_page_id=end_page_id,
             )
         except Exception as e:
             logger.exception(e)
     if os.path.isdir(path):
-        for doc_path in Path(path).glob("*.pdf"):
+        for doc_path in Path(path).glob('*.pdf'):
             parse_doc(doc_path)
     else:
         parse_doc(path)
-if __name__ == "__main__":
+if __name__ == '__main__':
     cli()

magic_pdf/tools/cli_dev.py CHANGED Viewed

@@ -1,35 +1,32 @@
-import os
 import json as json_parse
-import click
+import os
 from pathlib import Path
-from magic_pdf.libs.path_utils import (
-    parse_s3path,
-    parse_s3_range_params,
-    remove_non_official_s3_args,
-)
-from magic_pdf.libs.config_reader import (
-    get_s3_config,
-)
-from magic_pdf.rw.S3ReaderWriter import S3ReaderWriter
-from magic_pdf.rw.DiskReaderWriter import DiskReaderWriter
-from magic_pdf.rw.AbsReaderWriter import AbsReaderWriter
+import click
 import magic_pdf.model as model_config
-from magic_pdf.tools.common import parse_pdf_methods, do_parse
+from magic_pdf.libs.config_reader import get_s3_config
+from magic_pdf.libs.path_utils import (parse_s3_range_params, parse_s3path,
+                                       remove_non_official_s3_args)
 from magic_pdf.libs.version import __version__
+from magic_pdf.rw.AbsReaderWriter import AbsReaderWriter
+from magic_pdf.rw.DiskReaderWriter import DiskReaderWriter
+from magic_pdf.rw.S3ReaderWriter import S3ReaderWriter
+from magic_pdf.tools.common import do_parse, parse_pdf_methods
 def read_s3_path(s3path):
     bucket, key = parse_s3path(s3path)
     s3_ak, s3_sk, s3_endpoint = get_s3_config(bucket)
-    s3_rw = S3ReaderWriter(
-        s3_ak, s3_sk, s3_endpoint, "auto", remove_non_official_s3_args(s3path)
-    )
+    s3_rw = S3ReaderWriter(s3_ak, s3_sk, s3_endpoint, 'auto',
+                           remove_non_official_s3_args(s3path))
     may_range_params = parse_s3_range_params(s3path)
     if may_range_params is None or 2 != len(may_range_params):
         byte_start, byte_end = 0, None
     else:
-        byte_start, byte_end = int(may_range_params[0]), int(may_range_params[1])
+        byte_start, byte_end = int(may_range_params[0]), int(
+            may_range_params[1])
     return s3_rw.read_offset(
         remove_non_official_s3_args(s3path),
         byte_start,
@@ -38,51 +35,47 @@ def read_s3_path(s3path):
 @click.group()
-@click.version_option(__version__, "--version", "-v", help="显示版本信息")
+@click.version_option(__version__, '--version', '-v', help='显示版本信息')
 def cli():
     pass
 @cli.command()
 @click.option(
-    "-j",
-    "--jsonl",
-    "jsonl",
+    '-j',
+    '--jsonl',
+    'jsonl',
     type=str,
-    help="输入 jsonl 路径，本地或者 s3 上的文件",
+    help='输入 jsonl 路径，本地或者 s3 上的文件',
     required=True,
 )
 @click.option(
-    "-m",
-    "--method",
-    "method",
+    '-m',
+    '--method',
+    'method',
     type=parse_pdf_methods,
-    help="指定解析方法。txt: 文本型 pdf 解析方法， ocr: 光学识别解析 pdf, auto: 程序智能选择解析方法",
-    default="auto",
+    help='指定解析方法。txt: 文本型 pdf 解析方法， ocr: 光学识别解析 pdf, auto: 程序智能选择解析方法',
+    default='auto',
 )
 @click.option(
-    "-o",
-    "--output-dir",
-    "output_dir",
-    type=str,
-    help="输出到本地目录",
-    default="",
+    '-o',
+    '--output-dir',
+    'output_dir',
+    type=click.Path(),
+    required=True,
+    help='输出到本地目录',
 )
 def jsonl(jsonl, method, output_dir):
     model_config.__use_inside_model__ = False
-    if jsonl.startswith("s3://"):
-        jso = json_parse.loads(read_s3_path(jsonl).decode("utf-8"))
-        full_jsonl_path = "."
+    if jsonl.startswith('s3://'):
+        jso = json_parse.loads(read_s3_path(jsonl).decode('utf-8'))
     else:
-        full_jsonl_path = os.path.realpath(jsonl)
         with open(jsonl) as f:
             jso = json_parse.loads(f.readline())
-    if output_dir == "":
-        output_dir = os.path.join(os.path.dirname(full_jsonl_path), "output")
-    s3_file_path = jso.get("file_location")
+    os.makedirs(output_dir, exist_ok=True)
+    s3_file_path = jso.get('file_location')
     if s3_file_path is None:
-        s3_file_path = jso.get("path")
+        s3_file_path = jso.get('path')
     pdf_file_name = Path(s3_file_path).stem
     pdf_data = read_s3_path(s3_file_path)
@@ -91,8 +84,9 @@ def jsonl(jsonl, method, output_dir):
         output_dir,
         pdf_file_name,
         pdf_data,
-        jso["doc_layout_result"],
+        jso['doc_layout_result'],
         method,
+        False,
         f_dump_content_list=True,
         f_draw_model_bbox=True,
     )
@@ -100,43 +94,45 @@ def jsonl(jsonl, method, output_dir):
 @cli.command()
 @click.option(
-    "-p",
-    "--pdf",
-    "pdf",
+    '-p',
+    '--pdf',
+    'pdf',
     type=click.Path(exists=True),
     required=True,
-    help="本地 PDF 文件",
+    help='本地 PDF 文件',
 )
 @click.option(
-    "-j",
-    "--json",
-    "json_data",
+    '-j',
+    '--json',
+    'json_data',
     type=click.Path(exists=True),
     required=True,
-    help="本地模型推理出的 json 数据",
-)
-@click.option(
-    "-o", "--output-dir", "output_dir", type=str, help="本地输出目录", default=""
+    help='本地模型推理出的 json 数据',
 )
+@click.option('-o',
+              '--output-dir',
+              'output_dir',
+              type=click.Path(),
+              required=True,
+              help='本地输出目录')
 @click.option(
-    "-m",
-    "--method",
-    "method",
+    '-m',
+    '--method',
+    'method',
     type=parse_pdf_methods,
-    help="指定解析方法。txt: 文本型 pdf 解析方法， ocr: 光学识别解析 pdf, auto: 程序智能选择解析方法",
-    default="auto",
+    help='指定解析方法。txt: 文本型 pdf 解析方法， ocr: 光学识别解析 pdf, auto: 程序智能选择解析方法',
+    default='auto',
 )
 def pdf(pdf, json_data, output_dir, method):
     model_config.__use_inside_model__ = False
     full_pdf_path = os.path.realpath(pdf)
-    if output_dir == "":
-        output_dir = os.path.join(os.path.dirname(full_pdf_path), "output")
+    os.makedirs(output_dir, exist_ok=True)
     def read_fn(path):
         disk_rw = DiskReaderWriter(os.path.dirname(path))
         return disk_rw.read(os.path.basename(path), AbsReaderWriter.MODE_BIN)
-    model_json_list = json_parse.loads(read_fn(json_data).decode("utf-8"))
+    model_json_list = json_parse.loads(read_fn(json_data).decode('utf-8'))
     file_name = str(Path(full_pdf_path).stem)
     pdf_data = read_fn(full_pdf_path)
@@ -146,10 +142,11 @@ def pdf(pdf, json_data, output_dir, method):
         pdf_data,
         model_json_list,
         method,
+        False,
         f_dump_content_list=True,
         f_draw_model_bbox=True,
     )
-if __name__ == "__main__":
+if __name__ == '__main__':
     cli()

magic-pdf 0.7.1__py3-none-any.whl → 0.8.1__py3-none-any.whl

magic-pdf 0.7.1py3-none-any.whl → 0.8.1py3-none-any.whl