PyPI - pyxllib - Versions diffs - 0.3.96__py3-none-any.whl → 0.3.200__py3-none-any.whl - Mend

pyxllib 0.3.96py3-none-any.whl → 0.3.200py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (358) hide show

pyxllib/__init__.py +21 -21
pyxllib/algo/__init__.py +8 -8
pyxllib/algo/disjoint.py +54 -54
pyxllib/algo/geo.py +541 -529
pyxllib/algo/intervals.py +964 -964
pyxllib/algo/matcher.py +389 -311
pyxllib/algo/newbie.py +166 -166
pyxllib/algo/pupil.py +629 -461
pyxllib/algo/shapelylib.py +67 -67
pyxllib/algo/specialist.py +241 -240
pyxllib/algo/stat.py +494 -458
pyxllib/algo/treelib.py +149 -149
pyxllib/algo/unitlib.py +66 -66
{pyxlpr → pyxllib/autogui}/__init__.py +5 -5
pyxllib/autogui/activewin.py +246 -0
pyxllib/autogui/all.py +9 -0
pyxllib/{ext/autogui → autogui}/autogui.py +852 -823
pyxllib/autogui/uiautolib.py +362 -0
pyxllib/{ext/autogui → autogui}/virtualkey.py +102 -102
pyxllib/autogui/wechat.py +827 -0
pyxllib/autogui/wechat_msg.py +421 -0
pyxllib/autogui/wxautolib.py +84 -0
pyxllib/cv/__init__.py +5 -5
pyxllib/cv/expert.py +267 -267
pyxllib/cv/imfile.py +159 -159
pyxllib/cv/imhash.py +39 -39
pyxllib/cv/pupil.py +9 -9
pyxllib/cv/rgbfmt.py +1525 -1525
pyxllib/cv/slidercaptcha.py +137 -0
pyxllib/cv/trackbartools.py +251 -251
pyxllib/cv/xlcvlib.py +1040 -1040
pyxllib/cv/xlpillib.py +423 -423
pyxllib/data/echarts.py +240 -129
pyxllib/data/jsonlib.py +89 -0
pyxllib/data/oss.py +72 -72
pyxllib/data/pglib.py +1127 -643
pyxllib/data/sqlite.py +568 -341
pyxllib/data/sqllib.py +297 -297
pyxllib/ext/JLineViewer.py +505 -492
pyxllib/ext/__init__.py +6 -6
pyxllib/ext/demolib.py +246 -246
pyxllib/ext/drissionlib.py +277 -0
pyxllib/ext/kq5034lib.py +12 -1606
pyxllib/ext/old.py +663 -663
pyxllib/ext/qt.py +449 -449
pyxllib/ext/robustprocfile.py +497 -0
pyxllib/ext/seleniumlib.py +76 -76
pyxllib/ext/tk.py +173 -173
pyxllib/ext/unixlib.py +827 -826
pyxllib/ext/utools.py +351 -338
pyxllib/ext/webhook.py +124 -101
pyxllib/ext/win32lib.py +40 -40
pyxllib/ext/wjxlib.py +88 -0
pyxllib/ext/wpsapi.py +124 -0
pyxllib/ext/xlwork.py +9 -0
pyxllib/ext/yuquelib.py +1105 -173
pyxllib/file/__init__.py +17 -17
pyxllib/file/docxlib.py +761 -761
pyxllib/file/gitlib.py +309 -309
pyxllib/file/libreoffice.py +165 -0
pyxllib/file/movielib.py +148 -139
pyxllib/file/newbie.py +10 -10
pyxllib/file/onenotelib.py +1469 -1469
pyxllib/file/packlib/__init__.py +330 -293
pyxllib/file/packlib/zipfile.py +2441 -2441
pyxllib/file/pdflib.py +426 -426
pyxllib/file/pupil.py +185 -185
pyxllib/file/specialist/__init__.py +685 -685
pyxllib/file/specialist/dirlib.py +799 -799
pyxllib/file/specialist/download.py +193 -186
pyxllib/file/specialist/filelib.py +2829 -2618
pyxllib/file/xlsxlib.py +3131 -2976
pyxllib/file/xlsyncfile.py +341 -0
pyxllib/prog/__init__.py +5 -5
pyxllib/prog/cachetools.py +64 -0
pyxllib/prog/deprecatedlib.py +233 -233
pyxllib/prog/filelock.py +42 -0
pyxllib/prog/ipyexec.py +253 -253
pyxllib/prog/multiprogs.py +940 -0
pyxllib/prog/newbie.py +451 -444
pyxllib/prog/pupil.py +1197 -1128
pyxllib/prog/sitepackages.py +33 -33
pyxllib/prog/specialist/__init__.py +391 -217
pyxllib/prog/specialist/bc.py +203 -200
pyxllib/prog/specialist/browser.py +497 -488
pyxllib/prog/specialist/common.py +347 -347
pyxllib/prog/specialist/datetime.py +199 -131
pyxllib/prog/specialist/tictoc.py +240 -241
pyxllib/prog/specialist/xllog.py +180 -180
pyxllib/prog/xlosenv.py +108 -101
pyxllib/stdlib/__init__.py +17 -17
pyxllib/stdlib/tablepyxl/__init__.py +10 -10
pyxllib/stdlib/tablepyxl/style.py +303 -303
pyxllib/stdlib/tablepyxl/tablepyxl.py +130 -130
pyxllib/text/__init__.py +8 -8
pyxllib/text/ahocorasick.py +39 -39
pyxllib/text/airscript.js +744 -0
pyxllib/text/charclasslib.py +121 -109
pyxllib/text/jiebalib.py +267 -264
pyxllib/text/jinjalib.py +32 -0
pyxllib/text/jsa_ai_prompt.md +271 -0
pyxllib/text/jscode.py +922 -767
pyxllib/text/latex/__init__.py +158 -158
pyxllib/text/levenshtein.py +303 -303
pyxllib/text/nestenv.py +1215 -1215
pyxllib/text/newbie.py +300 -288
pyxllib/text/pupil/__init__.py +8 -8
pyxllib/text/pupil/common.py +1121 -1095
pyxllib/text/pupil/xlalign.py +326 -326
pyxllib/text/pycode.py +47 -47
pyxllib/text/specialist/__init__.py +8 -8
pyxllib/text/specialist/common.py +112 -112
pyxllib/text/specialist/ptag.py +186 -186
pyxllib/text/spellchecker.py +172 -172
pyxllib/text/templates/echart_base.html +11 -0
pyxllib/text/templates/highlight_code.html +17 -0
pyxllib/text/templates/latex_editor.html +103 -0
pyxllib/text/vbacode.py +17 -17
pyxllib/text/xmllib.py +747 -685
pyxllib/xl.py +42 -38
pyxllib/xlcv.py +17 -17
pyxllib-0.3.200.dist-info/METADATA +48 -0
pyxllib-0.3.200.dist-info/RECORD +126 -0
{pyxllib-0.3.96.dist-info → pyxllib-0.3.200.dist-info}/WHEEL +1 -2
{pyxllib-0.3.96.dist-info → pyxllib-0.3.200.dist-info/licenses}/LICENSE +190 -190
pyxllib/ext/autogui/__init__.py +0 -8
pyxllib-0.3.96.dist-info/METADATA +0 -51
pyxllib-0.3.96.dist-info/RECORD +0 -333
pyxllib-0.3.96.dist-info/top_level.txt +0 -2
pyxlpr/ai/__init__.py +0 -5
pyxlpr/ai/clientlib.py +0 -1281
pyxlpr/ai/specialist.py +0 -286
pyxlpr/ai/torch_app.py +0 -172
pyxlpr/ai/xlpaddle.py +0 -655
pyxlpr/ai/xltorch.py +0 -705
pyxlpr/data/__init__.py +0 -11
pyxlpr/data/coco.py +0 -1325
pyxlpr/data/datacls.py +0 -365
pyxlpr/data/datasets.py +0 -200
pyxlpr/data/gptlib.py +0 -1291
pyxlpr/data/icdar/__init__.py +0 -96
pyxlpr/data/icdar/deteval.py +0 -377
pyxlpr/data/icdar/icdar2013.py +0 -341
pyxlpr/data/icdar/iou.py +0 -340
pyxlpr/data/icdar/rrc_evaluation_funcs_1_1.py +0 -463
pyxlpr/data/imtextline.py +0 -473
pyxlpr/data/labelme.py +0 -866
pyxlpr/data/removeline.py +0 -179
pyxlpr/data/specialist.py +0 -57
pyxlpr/eval/__init__.py +0 -85
pyxlpr/paddleocr.py +0 -776
pyxlpr/ppocr/__init__.py +0 -15
pyxlpr/ppocr/configs/rec/multi_language/generate_multi_language_configs.py +0 -226
pyxlpr/ppocr/data/__init__.py +0 -135
pyxlpr/ppocr/data/imaug/ColorJitter.py +0 -26
pyxlpr/ppocr/data/imaug/__init__.py +0 -67
pyxlpr/ppocr/data/imaug/copy_paste.py +0 -170
pyxlpr/ppocr/data/imaug/east_process.py +0 -437
pyxlpr/ppocr/data/imaug/gen_table_mask.py +0 -244
pyxlpr/ppocr/data/imaug/iaa_augment.py +0 -114
pyxlpr/ppocr/data/imaug/label_ops.py +0 -789
pyxlpr/ppocr/data/imaug/make_border_map.py +0 -184
pyxlpr/ppocr/data/imaug/make_pse_gt.py +0 -106
pyxlpr/ppocr/data/imaug/make_shrink_map.py +0 -126
pyxlpr/ppocr/data/imaug/operators.py +0 -433
pyxlpr/ppocr/data/imaug/pg_process.py +0 -906
pyxlpr/ppocr/data/imaug/randaugment.py +0 -143
pyxlpr/ppocr/data/imaug/random_crop_data.py +0 -239
pyxlpr/ppocr/data/imaug/rec_img_aug.py +0 -533
pyxlpr/ppocr/data/imaug/sast_process.py +0 -777
pyxlpr/ppocr/data/imaug/text_image_aug/__init__.py +0 -17
pyxlpr/ppocr/data/imaug/text_image_aug/augment.py +0 -120
pyxlpr/ppocr/data/imaug/text_image_aug/warp_mls.py +0 -168
pyxlpr/ppocr/data/lmdb_dataset.py +0 -115
pyxlpr/ppocr/data/pgnet_dataset.py +0 -104
pyxlpr/ppocr/data/pubtab_dataset.py +0 -107
pyxlpr/ppocr/data/simple_dataset.py +0 -372
pyxlpr/ppocr/losses/__init__.py +0 -61
pyxlpr/ppocr/losses/ace_loss.py +0 -52
pyxlpr/ppocr/losses/basic_loss.py +0 -135
pyxlpr/ppocr/losses/center_loss.py +0 -88
pyxlpr/ppocr/losses/cls_loss.py +0 -30
pyxlpr/ppocr/losses/combined_loss.py +0 -67
pyxlpr/ppocr/losses/det_basic_loss.py +0 -208
pyxlpr/ppocr/losses/det_db_loss.py +0 -80
pyxlpr/ppocr/losses/det_east_loss.py +0 -63
pyxlpr/ppocr/losses/det_pse_loss.py +0 -149
pyxlpr/ppocr/losses/det_sast_loss.py +0 -121
pyxlpr/ppocr/losses/distillation_loss.py +0 -272
pyxlpr/ppocr/losses/e2e_pg_loss.py +0 -140
pyxlpr/ppocr/losses/kie_sdmgr_loss.py +0 -113
pyxlpr/ppocr/losses/rec_aster_loss.py +0 -99
pyxlpr/ppocr/losses/rec_att_loss.py +0 -39
pyxlpr/ppocr/losses/rec_ctc_loss.py +0 -44
pyxlpr/ppocr/losses/rec_enhanced_ctc_loss.py +0 -70
pyxlpr/ppocr/losses/rec_nrtr_loss.py +0 -30
pyxlpr/ppocr/losses/rec_sar_loss.py +0 -28
pyxlpr/ppocr/losses/rec_srn_loss.py +0 -47
pyxlpr/ppocr/losses/table_att_loss.py +0 -109
pyxlpr/ppocr/metrics/__init__.py +0 -44
pyxlpr/ppocr/metrics/cls_metric.py +0 -45
pyxlpr/ppocr/metrics/det_metric.py +0 -82
pyxlpr/ppocr/metrics/distillation_metric.py +0 -73
pyxlpr/ppocr/metrics/e2e_metric.py +0 -86
pyxlpr/ppocr/metrics/eval_det_iou.py +0 -274
pyxlpr/ppocr/metrics/kie_metric.py +0 -70
pyxlpr/ppocr/metrics/rec_metric.py +0 -75
pyxlpr/ppocr/metrics/table_metric.py +0 -50
pyxlpr/ppocr/modeling/architectures/__init__.py +0 -32
pyxlpr/ppocr/modeling/architectures/base_model.py +0 -88
pyxlpr/ppocr/modeling/architectures/distillation_model.py +0 -60
pyxlpr/ppocr/modeling/backbones/__init__.py +0 -54
pyxlpr/ppocr/modeling/backbones/det_mobilenet_v3.py +0 -268
pyxlpr/ppocr/modeling/backbones/det_resnet_vd.py +0 -246
pyxlpr/ppocr/modeling/backbones/det_resnet_vd_sast.py +0 -285
pyxlpr/ppocr/modeling/backbones/e2e_resnet_vd_pg.py +0 -265
pyxlpr/ppocr/modeling/backbones/kie_unet_sdmgr.py +0 -186
pyxlpr/ppocr/modeling/backbones/rec_mobilenet_v3.py +0 -138
pyxlpr/ppocr/modeling/backbones/rec_mv1_enhance.py +0 -258
pyxlpr/ppocr/modeling/backbones/rec_nrtr_mtb.py +0 -48
pyxlpr/ppocr/modeling/backbones/rec_resnet_31.py +0 -210
pyxlpr/ppocr/modeling/backbones/rec_resnet_aster.py +0 -143
pyxlpr/ppocr/modeling/backbones/rec_resnet_fpn.py +0 -307
pyxlpr/ppocr/modeling/backbones/rec_resnet_vd.py +0 -286
pyxlpr/ppocr/modeling/heads/__init__.py +0 -54
pyxlpr/ppocr/modeling/heads/cls_head.py +0 -52
pyxlpr/ppocr/modeling/heads/det_db_head.py +0 -118
pyxlpr/ppocr/modeling/heads/det_east_head.py +0 -121
pyxlpr/ppocr/modeling/heads/det_pse_head.py +0 -37
pyxlpr/ppocr/modeling/heads/det_sast_head.py +0 -128
pyxlpr/ppocr/modeling/heads/e2e_pg_head.py +0 -253
pyxlpr/ppocr/modeling/heads/kie_sdmgr_head.py +0 -206
pyxlpr/ppocr/modeling/heads/multiheadAttention.py +0 -163
pyxlpr/ppocr/modeling/heads/rec_aster_head.py +0 -393
pyxlpr/ppocr/modeling/heads/rec_att_head.py +0 -202
pyxlpr/ppocr/modeling/heads/rec_ctc_head.py +0 -88
pyxlpr/ppocr/modeling/heads/rec_nrtr_head.py +0 -826
pyxlpr/ppocr/modeling/heads/rec_sar_head.py +0 -402
pyxlpr/ppocr/modeling/heads/rec_srn_head.py +0 -280
pyxlpr/ppocr/modeling/heads/self_attention.py +0 -406
pyxlpr/ppocr/modeling/heads/table_att_head.py +0 -246
pyxlpr/ppocr/modeling/necks/__init__.py +0 -32
pyxlpr/ppocr/modeling/necks/db_fpn.py +0 -111
pyxlpr/ppocr/modeling/necks/east_fpn.py +0 -188
pyxlpr/ppocr/modeling/necks/fpn.py +0 -138
pyxlpr/ppocr/modeling/necks/pg_fpn.py +0 -314
pyxlpr/ppocr/modeling/necks/rnn.py +0 -92
pyxlpr/ppocr/modeling/necks/sast_fpn.py +0 -284
pyxlpr/ppocr/modeling/necks/table_fpn.py +0 -110
pyxlpr/ppocr/modeling/transforms/__init__.py +0 -28
pyxlpr/ppocr/modeling/transforms/stn.py +0 -135
pyxlpr/ppocr/modeling/transforms/tps.py +0 -308
pyxlpr/ppocr/modeling/transforms/tps_spatial_transformer.py +0 -156
pyxlpr/ppocr/optimizer/__init__.py +0 -61
pyxlpr/ppocr/optimizer/learning_rate.py +0 -228
pyxlpr/ppocr/optimizer/lr_scheduler.py +0 -49
pyxlpr/ppocr/optimizer/optimizer.py +0 -160
pyxlpr/ppocr/optimizer/regularizer.py +0 -52
pyxlpr/ppocr/postprocess/__init__.py +0 -55
pyxlpr/ppocr/postprocess/cls_postprocess.py +0 -33
pyxlpr/ppocr/postprocess/db_postprocess.py +0 -234
pyxlpr/ppocr/postprocess/east_postprocess.py +0 -143
pyxlpr/ppocr/postprocess/locality_aware_nms.py +0 -200
pyxlpr/ppocr/postprocess/pg_postprocess.py +0 -52
pyxlpr/ppocr/postprocess/pse_postprocess/__init__.py +0 -15
pyxlpr/ppocr/postprocess/pse_postprocess/pse/__init__.py +0 -29
pyxlpr/ppocr/postprocess/pse_postprocess/pse/setup.py +0 -14
pyxlpr/ppocr/postprocess/pse_postprocess/pse_postprocess.py +0 -118
pyxlpr/ppocr/postprocess/rec_postprocess.py +0 -654
pyxlpr/ppocr/postprocess/sast_postprocess.py +0 -355
pyxlpr/ppocr/tools/__init__.py +0 -14
pyxlpr/ppocr/tools/eval.py +0 -83
pyxlpr/ppocr/tools/export_center.py +0 -77
pyxlpr/ppocr/tools/export_model.py +0 -129
pyxlpr/ppocr/tools/infer/predict_cls.py +0 -151
pyxlpr/ppocr/tools/infer/predict_det.py +0 -300
pyxlpr/ppocr/tools/infer/predict_e2e.py +0 -169
pyxlpr/ppocr/tools/infer/predict_rec.py +0 -414
pyxlpr/ppocr/tools/infer/predict_system.py +0 -204
pyxlpr/ppocr/tools/infer/utility.py +0 -629
pyxlpr/ppocr/tools/infer_cls.py +0 -83
pyxlpr/ppocr/tools/infer_det.py +0 -134
pyxlpr/ppocr/tools/infer_e2e.py +0 -122
pyxlpr/ppocr/tools/infer_kie.py +0 -153
pyxlpr/ppocr/tools/infer_rec.py +0 -146
pyxlpr/ppocr/tools/infer_table.py +0 -107
pyxlpr/ppocr/tools/program.py +0 -596
pyxlpr/ppocr/tools/test_hubserving.py +0 -117
pyxlpr/ppocr/tools/train.py +0 -163
pyxlpr/ppocr/tools/xlprog.py +0 -748
pyxlpr/ppocr/utils/EN_symbol_dict.txt +0 -94
pyxlpr/ppocr/utils/__init__.py +0 -24
pyxlpr/ppocr/utils/dict/ar_dict.txt +0 -117
pyxlpr/ppocr/utils/dict/arabic_dict.txt +0 -162
pyxlpr/ppocr/utils/dict/be_dict.txt +0 -145
pyxlpr/ppocr/utils/dict/bg_dict.txt +0 -140
pyxlpr/ppocr/utils/dict/chinese_cht_dict.txt +0 -8421
pyxlpr/ppocr/utils/dict/cyrillic_dict.txt +0 -163
pyxlpr/ppocr/utils/dict/devanagari_dict.txt +0 -167
pyxlpr/ppocr/utils/dict/en_dict.txt +0 -63
pyxlpr/ppocr/utils/dict/fa_dict.txt +0 -136
pyxlpr/ppocr/utils/dict/french_dict.txt +0 -136
pyxlpr/ppocr/utils/dict/german_dict.txt +0 -143
pyxlpr/ppocr/utils/dict/hi_dict.txt +0 -162
pyxlpr/ppocr/utils/dict/it_dict.txt +0 -118
pyxlpr/ppocr/utils/dict/japan_dict.txt +0 -4399
pyxlpr/ppocr/utils/dict/ka_dict.txt +0 -153
pyxlpr/ppocr/utils/dict/korean_dict.txt +0 -3688
pyxlpr/ppocr/utils/dict/latin_dict.txt +0 -185
pyxlpr/ppocr/utils/dict/mr_dict.txt +0 -153
pyxlpr/ppocr/utils/dict/ne_dict.txt +0 -153
pyxlpr/ppocr/utils/dict/oc_dict.txt +0 -96
pyxlpr/ppocr/utils/dict/pu_dict.txt +0 -130
pyxlpr/ppocr/utils/dict/rs_dict.txt +0 -91
pyxlpr/ppocr/utils/dict/rsc_dict.txt +0 -134
pyxlpr/ppocr/utils/dict/ru_dict.txt +0 -125
pyxlpr/ppocr/utils/dict/ta_dict.txt +0 -128
pyxlpr/ppocr/utils/dict/table_dict.txt +0 -277
pyxlpr/ppocr/utils/dict/table_structure_dict.txt +0 -2759
pyxlpr/ppocr/utils/dict/te_dict.txt +0 -151
pyxlpr/ppocr/utils/dict/ug_dict.txt +0 -114
pyxlpr/ppocr/utils/dict/uk_dict.txt +0 -142
pyxlpr/ppocr/utils/dict/ur_dict.txt +0 -137
pyxlpr/ppocr/utils/dict/xi_dict.txt +0 -110
pyxlpr/ppocr/utils/dict90.txt +0 -90
pyxlpr/ppocr/utils/e2e_metric/Deteval.py +0 -574
pyxlpr/ppocr/utils/e2e_metric/polygon_fast.py +0 -83
pyxlpr/ppocr/utils/e2e_utils/extract_batchsize.py +0 -87
pyxlpr/ppocr/utils/e2e_utils/extract_textpoint_fast.py +0 -457
pyxlpr/ppocr/utils/e2e_utils/extract_textpoint_slow.py +0 -592
pyxlpr/ppocr/utils/e2e_utils/pgnet_pp_utils.py +0 -162
pyxlpr/ppocr/utils/e2e_utils/visual.py +0 -162
pyxlpr/ppocr/utils/en_dict.txt +0 -95
pyxlpr/ppocr/utils/gen_label.py +0 -81
pyxlpr/ppocr/utils/ic15_dict.txt +0 -36
pyxlpr/ppocr/utils/iou.py +0 -54
pyxlpr/ppocr/utils/logging.py +0 -69
pyxlpr/ppocr/utils/network.py +0 -84
pyxlpr/ppocr/utils/ppocr_keys_v1.txt +0 -6623
pyxlpr/ppocr/utils/profiler.py +0 -110
pyxlpr/ppocr/utils/save_load.py +0 -150
pyxlpr/ppocr/utils/stats.py +0 -72
pyxlpr/ppocr/utils/utility.py +0 -80
pyxlpr/ppstructure/__init__.py +0 -13
pyxlpr/ppstructure/predict_system.py +0 -187
pyxlpr/ppstructure/table/__init__.py +0 -13
pyxlpr/ppstructure/table/eval_table.py +0 -72
pyxlpr/ppstructure/table/matcher.py +0 -192
pyxlpr/ppstructure/table/predict_structure.py +0 -136
pyxlpr/ppstructure/table/predict_table.py +0 -221
pyxlpr/ppstructure/table/table_metric/__init__.py +0 -16
pyxlpr/ppstructure/table/table_metric/parallel.py +0 -51
pyxlpr/ppstructure/table/table_metric/table_metric.py +0 -247
pyxlpr/ppstructure/table/tablepyxl/__init__.py +0 -13
pyxlpr/ppstructure/table/tablepyxl/style.py +0 -283
pyxlpr/ppstructure/table/tablepyxl/tablepyxl.py +0 -118
pyxlpr/ppstructure/utility.py +0 -71
pyxlpr/xlai.py +0 -10

pyxllib/file/pdflib.py CHANGED Viewed

@@ -1,426 +1,426 @@
-#!/usr/bin/env python3
-# -*- coding: utf-8 -*-
-# @Author : 陈坤泽
-# @Email  : 877362867@qq.com
-# @Date   : 2020/06/02 16:06
-from pyxllib.prog.pupil import check_install_package
-check_install_package('fitz', 'PyMuPdf>=1.18.17')
-import json
-import os
-import pprint
-import re
-import fitz
-from pyxllib.prog.newbie import round_int, decode_bitflags
-from pyxllib.prog.pupil import DictTool, inject_members, dprint
-from pyxllib.prog.specialist import browser
-from pyxllib.algo.newbie import round_unit
-from pyxllib.algo.pupil import get_number_width
-from pyxllib.file.specialist import XlPath, writefile, get_etag
-from pyxllib.cv.expert import xlcv, xlpil
-from pyxlpr.data.labelme import LabelmeDict
-def __fitz():
-    print(fitz.__doc__)
-class FitzDoc:
-    """ 原名叫FitzPdf，但不一定是处理pdf，也可能是其他文档，所以改名 FitzDoc
-    """
-    def __init__(self, file):
-        self.src_file = XlPath(file)
-        self.doc = fitz.open(str(file))
-    def to_images(self, dst_dir=None, file_fmt='{filestem}_{number}.jpg', num_width=None, *,
-                  scale=1, start=1, fmt_onepage=False):
-        """ 将pdf转为若干页图片
-        :param dst_dir: 目标目录
-            默认情况下，只有一页pdf则存储到对应的pdf目录，多页则存储到同名子目录下
-            如果不想这样被智能控制，只要指定明确的dst即可
-        :param file_fmt: 后缀格式，包括修改导出的图片类型，注意要用 {} 占位符表示页码编号
-        :param num_width: 生成的每一页文件编号，使用的数字前导0域宽
-            默认根据pdf总页数来设置对应所用域宽
-            0表示不设域宽
-        :param scale: 对每页图片进行缩放，一般推荐都要设成2，导出的图片才清晰
-        :param start: 起始页码，一般建议从1开始比较符合常识直觉
-        :param fmt_onepage: 当pdf就只有一页的时候，是否还对导出的图片编号
-            默认只有一页的时候，进行优化，不增设后缀格式
-        :return: 返回转换完的图片名称清单
-        注：如果要导出单张图，可以用 FitzPdfPage.get_cv_image
-        """
-        # 1 基本参数计算
-        srcfile, doc = self.src_file, self.doc
-        filestem, n_page = srcfile.stem, doc.page_count
-        # 自动推导目标目录
-        if dst_dir is None:
-            dst_dir = XlPath.init(srcfile.stem, srcfile.parent) if n_page > 1 else XlPath(srcfile.parent)
-        os.makedirs(dst_dir, exist_ok=True)
-        # 域宽
-        num_width = num_width or get_number_width(n_page)  # 根据总页数计算需要的对齐域宽
-        # 2 导出图片
-        if fmt_onepage or n_page != 1:  # 多页的处理规则
-            res = []
-            for i in range(n_page):
-                im = self.load_page(i).get_cv_image(scale)
-                number = ('{:0' + str(num_width) + 'd}').format(i + start)  # 前面的括号不要删，这样才是完整的一个字符串来使用format
-                f = xlcv.write(im, XlPath.init(file_fmt.format(filestem=filestem, number=number), dst_dir))
-                res.append(f)
-            return res
-        else:
-            im = self.load_page(0).get_cv_image(scale)
-            return [xlcv.write(im, XlPath.init(srcfile.stem + os.path.splitext(file_fmt)[1], dst_dir))]
-    def to_labelmes(self, imfiles, opt='dict', *, views=(0, 0, 1, 0), scale=1, indent=None):
-        """ 生成图片对应的标注，常跟to_images配合使用 """
-        for i, imfile in enumerate(imfiles):
-            page = self.load_page(i)
-            lmdict = LabelmeDict.gen_data(imfile)
-            lmdict['shapes'] = page.get_labelme_shapes(opt, views=views, scale=scale)
-            imfile.with_suffix('.json').write(lmdict, indent=indent)
-    def to_docx(self, docx_file=None):
-        """ pdf转docx """
-        check_install_package('pdf2docx')
-        from pdf2docx import parse
-        pdf_file = self.src_file
-        if docx_file is None:
-            docx_file = pdf_file.with_suffix('.docx')
-        # 注意这里是日志显示进度，不是printf输出.
-        parse(str(pdf_file), str(docx_file))
-    def browser(self, opt='pdf'):
-        if opt == 'pdf':
-            f = self.src_file
-            browser(self.src_file)
-        elif opt == 'html':
-            ls = []
-            for i in range(self.page_count):
-                page = self.load_page(i)
-                ls.append(page.get_text('html'))
-            data = '\n'.join(ls)
-            etag = get_etag(data)
-            f = XlPath.init(etag, XlPath.tempdir(), suffix='.html')
-            f.write(data)
-            browser(f)
-        else:
-            raise ValueError(f'{opt}')
-        return f
-    def __getattr__(self, item):
-        return getattr(self.doc, item)
-class XlFitzPage(fitz.fitz.Page):
-    """ 对fitz.fitz.Page的扩展成员方法 """
-    def get_svg_image2(self, scale=1):
-        # svg 是一段表述性文本
-        if scale != 1:
-            txt = self.get_svg_image(matrix=fitz.Matrix(scale, scale))
-        else:
-            txt = self.get_svg_image()
-        return txt
-    def _get_png_data(self, scale=1):
-        # TODO 增加透明通道？
-        if scale != 1:
-            pix = self.get_pixmap(matrix=fitz.Matrix(scale, scale))  # 长宽放大到scale倍
-        else:
-            pix = self.get_pixmap()
-        return pix.tobytes()
-    def get_cv_image(self, scale=1):
-        return xlcv.read_from_buffer(self._get_png_data(scale), flags=1)
-    def get_pil_image(self, scale=1):
-        # TODO 可以优化，直接从内存数据转pil，不用这样先转cv再转pil
-        return xlpil.read_from_buffer(self._get_png_data(scale), flags=1)
-    def to_image(self, outfile, *, scale=1, if_exists=None):
-        """ 转成为文件 """
-        f = XlPath(outfile)
-        suffix = f.suffix.lower()
-        if suffix == '.svg':
-            content = self.get_svg_image()
-            f.write(content, if_exists=if_exists)
-        else:
-            im = self.get_cv_image(scale)
-            xlcv.write(im, if_exists=if_exists)
-    def get_labelme_shapes(self, opt='dict', *, views=1, scale=1):
-        """ 得到labelme版本的shapes标注信息
-        :param opt: get_text的参数，默认使用无字符集标注的精简的dict
-            也可以使用rawdict，带有字符集标注的数据
-        :param views: 若非list或者长度不足4，会补足
-            各位标记依次代表是否显示对应细粒度的标注：blocks、lines、spans、chars
-            默认只显示blocks
-            例如 (0, 0, 1, 0)，表示只显示spans的标注
-        :param scale: 是否需要对坐标按比例放大 （pdf经常放大两倍提取图片，则这里标注也要对应放大两倍）
-        【字典属性解释】
-        blocks:
-            number: int, 区块编号
-            type: 0表示文本行，1表示图片
-        lines:
-            wmode: 好像都是0，不知道啥东西
-            dir: [1, 0]，可能是文本方向吧
-        spans:
-            size: 字号
-            flags: 格式标记
-                1，superscript，上标
-                2，italic，斜体
-                4，serifed，有衬线。如果没开，对立面就是"sans"，无衬线。
-                8，monospaced，等距。对立面proportional，均衡。
-                16，bold，加粗
-            font：字体名称（直接用字符串赋值）
-            color：颜色
-            ascender：？
-            descender：？
-            origin：所在方格右上角坐标
-            text/chars: dict模式有text内容，rawdict有chars详细信息。我扩展的版本，rawdict也会有text属性。
-        char:
-            origin: 差不多是其所在方格的右上角坐标，同一行文本，其top位置是会对齐的
-            c: 字符内容
-        """
-        from pyxlpr.data.labelme import LabelmeDict
-        # 1 参数配置
-        if isinstance(views, int):
-            views = [views]
-        if len(views) < 4:
-            views += [0] * (4 - len(views))
-        shapes = []
-        page_dict = self.get_text(opt)
-        # 2 辅助函数
-        def add_shape(name, refdict, add_keys, drop_keys=('bbox',)):
-            """ 生成一个标注框 """
-            msgdict = {'category_name': name}
-            msgdict.update(add_keys)
-            DictTool.ior(msgdict, refdict)
-            DictTool.isub(msgdict, drop_keys)
-            bbox = [round_int(v * scale) for v in refdict['bbox']]
-            if 'size' in msgdict:
-                x = round_unit(msgdict['size'], 0.5)
-                msgdict['size'] = round_int(x) if (x * 10) % 10 < 1 else x  # 没有小数的时候，优先展示为11，而不是11.0
-            if 'color' in msgdict:
-                # 把color映射为直观的(r, g, b)
-                # 这个pdf解析器获取的color，不一定精确等于原值，可能会有偏差，小一个像素
-                v = msgdict['color']
-                msgdict['color'] = (v // 256 // 256, (v // 256) % 256, v % 256)
-            if 'origin' in msgdict:
-                msgdict['origin'] = [round_int(v) for v in msgdict['origin']]
-            sp = LabelmeDict.gen_shape(json.dumps(msgdict), bbox)
-            shapes.append(sp)
-        # 3 遍历获取标注数据
-        for block in page_dict['blocks']:
-            if block['type'] == 0:  # 普通的文本行
-                if views[0]:
-                    add_shape('text_block', block, {'n_lines': len(block['lines'])}, ['bbox', 'lines'])
-                for line in block['lines']:
-                    if views[1]:
-                        add_shape('line', line, {'n_spans': len(line['spans'])}, ['bbox', 'spans'])
-                    for span in line['spans']:
-                        if 'text' not in span and 'chars' in span:
-                            span['text'] = ''.join([x['c'] for x in span['chars']])
-                        if views[2]:
-                            add_shape('span', span, {'n_chars': len(span.get('text', ''))}, ['bbox', 'chars'])
-                        if views[3] and 'chars' in span:  # 最后层算法不太一样，这样写可以加速
-                            for char in span['chars']:
-                                add_shape('char', char, {}, ['bbox'])
-            elif block['type'] == 1:  # 应该是图片
-                add_shape('image', block, {'image_filesize': len(block['image'])}, ['bbox', 'image'])
-            else:
-                raise ValueError
-        return shapes
-    @classmethod
-    def parse_flags(cls, n):
-        """ 解析spans的flags参数明文含义 """
-        flags = decode_bitflags(n, ('superscript', 'italic', 'serifed', 'monospaced', 'bold'))
-        flags['sans'] = not flags['serifed']
-        flags['proportional'] = not flags['monospaced']
-        return flags
-    def browser(self, opt='html'):
-        if opt == 'html':
-            data = self.get_text('html')  # html、xhtml 可以转网页，虽然排版相对来说还是会乱一点
-            data = ''.join(data)
-            etag = get_etag(data)
-            f = XlPath.init(etag, XlPath.tempdir(), suffix='.html')
-            f.write(data)
-            browser(f)
-        else:
-            raise ValueError
-inject_members(XlFitzPage, fitz.fitz.Page)
-class DemoFitz:
-    """
-    安装： pip install PyMuPdf
-    使用： import fitz
-    官方文档： https://pymupdf.readthedocs.io/en/latest/intro/
-        demo： https://github.com/rk700/PyMuPDF/tree/master/demo
-        examples： https://github.com/rk700/PyMuPDF/tree/master/examples
-    """
-    def __init__(self, file):
-        self.doc = fitz.open(file)
-    def message(self):
-        """查看pdf文档一些基础信息"""
-        dprint(fitz.version)  # fitz模块的版本
-        dprint(self.doc.pageCount)  # pdf页数
-        dprint(self.doc._getXrefLength())  # 文档的对象总数
-    def getToC(self):
-        """获得书签目录"""
-        toc = self.doc.getToC()
-        browser(toc)
-    def setToC(self):
-        """设置书签目录
-        可以调层级、改名称、修改指向页码
-        """
-        toc = self.doc.getToC()
-        toc[1][1] = '改标题名称'
-        self.doc.setToC(toc)
-        file = XlPath('a.pdf', XlPath.tempdir()).to_str()
-        self.doc.save(file, garbage=4)
-        browser(file)
-    def setToC2(self):
-        """修改人教版教材的标签名"""
-        toc = self.doc.getToC()
-        newtoc = []
-        for i in range(len(toc)):
-            name = toc[i][1]
-            if '.' in name: continue
-            # m = re.search(r'\d+', name)
-            # if m: name = name.replace(m.group(), digits2chinese(int(m.group())))
-            m = re.search(r'([一二三四五六]年级).*?([上下])', name)
-            if i < len(toc) - 1:
-                pages = toc[i + 1][2] - toc[i][2] + 1
-            else:
-                pages = self.doc.pageCount - toc[i][2] + 1
-            toc[i][1] = m.group(1) + m.group(2) + '，' + str(pages)
-            newtoc.append(toc[i])
-        self.doc.setToC(newtoc)
-        file = writefile(b'', 'a.pdf', if_exists='replace')
-        self.doc.save(file, garbage=4)
-    def rearrange_pages(self):
-        """重新布局页面"""
-        self.doc.select([0, 0, 1])  # 第1页展示两次后，再跟第2页
-        file = writefile(b'', 'a.pdf', root=XlPath.tempdir(), if_exists='replace')
-        self.doc.save(file, garbage=4)  # 注意要设置garbage，否则文档并没有实际删除内容压缩文件大小
-        browser(file)
-    def page2png(self, page=0):
-        """ 查看单页渲染图片 """
-        page = self.doc.loadPage(page)  # 索引第i页，下标规律同py，支持-1索引最后页
-        # dprint(page.bound())  # 页面边界，x,y轴同图像处理中的常识定义，返回Rect(x0, y0, x1, y1)
-        pix = page.getPixmap(fitz.Matrix(2, 2))  # 获得页面的RGBA图像，Pixmap类型；还可以用page.getSVGimage()获得矢量图
-        # pix.writePNG('page-0.png')  # 将Pixmal
-        pngdata = pix.tobytes()  # 获png文件的bytes字节码
-        # print(len(pngdata))
-        # browser(pngdata, 'a.png')  # 用我的工具函数打开图片
-        return pngdata
-    def pagetext(self):
-        """单页上的文本"""
-        page = self.doc[0]
-        # 获得页面上的所有文本，还支持参数： html，dict，xml，xhtml，json
-        text = page.getText('text')
-        dprint(text)
-        # 获得页面上的所有文本（返回字典对象）
-        textdict = page.getText('dict')
-        textdict['blocks'] = textdict['blocks'][:-1]
-        browser(pprint.pformat(textdict))
-    def text(self):
-        """获得整份pdf的所有文本"""
-        return '\n'.join([page.getText('text') for page in self.doc])
-    def xrefstr(self):
-        """查看pdf文档的所有对象"""
-        xrefstr = []
-        n = self.doc._getXrefLength()
-        for i in range(1, n):  # 注意下标实际要从1卡开始
-            # 可以边遍历边删除，不影响下标位置，因为其本质只是去除关联引用而已
-            xrefstr.append(self.doc._getXrefString(i))
-        browser('\n'.join(xrefstr))
-    def page_add_ele(self):
-        """往页面添加元素
-        添加元素前后xrefstr的区别： https://paste.ubuntu.com/p/Dxhnzp4XJ2/
-        """
-        self.doc.select([0])
-        page = self.doc.loadPage(0)
-        # page.insertText(fitz.Point(100, 200), 'test\ntest')
-        file = str(XlPath.tempdir() / 'a.pdf')
-        dprint(file)
-        self.doc.save(file, garbage=4)
-        browser(file)
-def __pdfminer():
-    """ pdfminer的实验代码也先放这里
-    !pip install pdfminer.six
-    """
-    import pdfminer
-    print(pdfminer.__version__)
-    # 20201018
-class PdfMiner:
-    @classmethod
-    def to_html(cls, pdf_file):
-        """ 相比fitz，pdfminer能正常提取出下划线
-        文本重叠比fitz更严重，整体来说其实更不好用~~
-        """
-        from io import StringIO
-        from pdfminer.high_level import extract_text_to_fp
-        from pdfminer.layout import LAParams
-        output_string = StringIO()
-        with open(str(pdf_file)) as fin:
-            extract_text_to_fp(fin, output_string, laparams=LAParams(),
-                               output_type='html', codec=None)
-        # 打开浏览器查看重建的html效果
-        f = pdf_file.with_suffix('.html')
-        f.write(output_string.getvalue())
-        browser(f)
+#!/usr/bin/env python3
+# -*- coding: utf-8 -*-
+# @Author : 陈坤泽
+# @Email  : 877362867@qq.com
+# @Date   : 2020/06/02 16:06
+from pyxllib.prog.pupil import check_install_package
+check_install_package('fitz', 'PyMuPdf>=1.18.17')
+import json
+import os
+import pprint
+import re
+import fitz
+from pyxllib.prog.newbie import round_int, decode_bitflags
+from pyxllib.prog.pupil import DictTool, inject_members, dprint
+from pyxllib.prog.specialist import browser
+from pyxllib.algo.newbie import round_unit
+from pyxllib.prog.pupil import get_number_width
+from pyxllib.file.specialist import XlPath, writefile, get_etag
+from pyxllib.cv.expert import xlcv, xlpil
+from pyxlpr.data.labelme import LabelmeDict
+def __fitz():
+    print(fitz.__doc__)
+class FitzDoc:
+    """ 原名叫FitzPdf，但不一定是处理pdf，也可能是其他文档，所以改名 FitzDoc
+    """
+    def __init__(self, file):
+        self.src_file = XlPath(file)
+        self.doc = fitz.open(str(file))
+    def to_images(self, dst_dir=None, file_fmt='{filestem}_{number}.jpg', num_width=None, *,
+                  scale=1, start=1, fmt_onepage=False):
+        """ 将pdf转为若干页图片
+        :param dst_dir: 目标目录
+            默认情况下，只有一页pdf则存储到对应的pdf目录，多页则存储到同名子目录下
+            如果不想这样被智能控制，只要指定明确的dst即可
+        :param file_fmt: 后缀格式，包括修改导出的图片类型，注意要用 {} 占位符表示页码编号
+        :param num_width: 生成的每一页文件编号，使用的数字前导0域宽
+            默认根据pdf总页数来设置对应所用域宽
+            0表示不设域宽
+        :param scale: 对每页图片进行缩放，一般推荐都要设成2，导出的图片才清晰
+        :param start: 起始页码，一般建议从1开始比较符合常识直觉
+        :param fmt_onepage: 当pdf就只有一页的时候，是否还对导出的图片编号
+            默认只有一页的时候，进行优化，不增设后缀格式
+        :return: 返回转换完的图片名称清单
+        注：如果要导出单张图，可以用 FitzPdfPage.get_cv_image
+        """
+        # 1 基本参数计算
+        srcfile, doc = self.src_file, self.doc
+        filestem, n_page = srcfile.stem, doc.page_count
+        # 自动推导目标目录
+        if dst_dir is None:
+            dst_dir = XlPath.init(srcfile.stem, srcfile.parent) if n_page > 1 else XlPath(srcfile.parent)
+        os.makedirs(dst_dir, exist_ok=True)
+        # 域宽
+        num_width = num_width or get_number_width(n_page)  # 根据总页数计算需要的对齐域宽
+        # 2 导出图片
+        if fmt_onepage or n_page != 1:  # 多页的处理规则
+            res = []
+            for i in range(n_page):
+                im = self.load_page(i).get_cv_image(scale)
+                number = ('{:0' + str(num_width) + 'd}').format(i + start)  # 前面的括号不要删，这样才是完整的一个字符串来使用format
+                f = xlcv.write(im, XlPath.init(file_fmt.format(filestem=filestem, number=number), dst_dir))
+                res.append(f)
+            return res
+        else:
+            im = self.load_page(0).get_cv_image(scale)
+            return [xlcv.write(im, XlPath.init(srcfile.stem + os.path.splitext(file_fmt)[1], dst_dir))]
+    def to_labelmes(self, imfiles, opt='dict', *, views=(0, 0, 1, 0), scale=1, indent=None):
+        """ 生成图片对应的标注，常跟to_images配合使用 """
+        for i, imfile in enumerate(imfiles):
+            page = self.load_page(i)
+            lmdict = LabelmeDict.gen_data(imfile)
+            lmdict['shapes'] = page.get_labelme_shapes(opt, views=views, scale=scale)
+            imfile.with_suffix('.json').write(lmdict, indent=indent)
+    def to_docx(self, docx_file=None):
+        """ pdf转docx """
+        check_install_package('pdf2docx')
+        from pdf2docx import parse
+        pdf_file = self.src_file
+        if docx_file is None:
+            docx_file = pdf_file.with_suffix('.docx')
+        # 注意这里是日志显示进度，不是printf输出.
+        parse(str(pdf_file), str(docx_file))
+    def browser(self, opt='pdf'):
+        if opt == 'pdf':
+            f = self.src_file
+            browser(self.src_file)
+        elif opt == 'html':
+            ls = []
+            for i in range(self.page_count):
+                page = self.load_page(i)
+                ls.append(page.get_text('html'))
+            data = '\n'.join(ls)
+            etag = get_etag(data)
+            f = XlPath.init(etag, XlPath.tempdir(), suffix='.html')
+            f.write(data)
+            browser(f)
+        else:
+            raise ValueError(f'{opt}')
+        return f
+    def __getattr__(self, item):
+        return getattr(self.doc, item)
+class XlFitzPage(fitz.fitz.Page):
+    """ 对fitz.fitz.Page的扩展成员方法 """
+    def get_svg_image2(self, scale=1):
+        # svg 是一段表述性文本
+        if scale != 1:
+            txt = self.get_svg_image(matrix=fitz.Matrix(scale, scale))
+        else:
+            txt = self.get_svg_image()
+        return txt
+    def _get_png_data(self, scale=1):
+        # TODO 增加透明通道？
+        if scale != 1:
+            pix = self.get_pixmap(matrix=fitz.Matrix(scale, scale))  # 长宽放大到scale倍
+        else:
+            pix = self.get_pixmap()
+        return pix.tobytes()
+    def get_cv_image(self, scale=1):
+        return xlcv.read_from_buffer(self._get_png_data(scale), flags=1)
+    def get_pil_image(self, scale=1):
+        # TODO 可以优化，直接从内存数据转pil，不用这样先转cv再转pil
+        return xlpil.read_from_buffer(self._get_png_data(scale), flags=1)
+    def to_image(self, outfile, *, scale=1, if_exists=None):
+        """ 转成为文件 """
+        f = XlPath(outfile)
+        suffix = f.suffix.lower()
+        if suffix == '.svg':
+            content = self.get_svg_image()
+            f.write(content, if_exists=if_exists)
+        else:
+            im = self.get_cv_image(scale)
+            xlcv.write(im, if_exists=if_exists)
+    def get_labelme_shapes(self, opt='dict', *, views=1, scale=1):
+        """ 得到labelme版本的shapes标注信息
+        :param opt: get_text的参数，默认使用无字符集标注的精简的dict
+            也可以使用rawdict，带有字符集标注的数据
+        :param views: 若非list或者长度不足4，会补足
+            各位标记依次代表是否显示对应细粒度的标注：blocks、lines、spans、chars
+            默认只显示blocks
+            例如 (0, 0, 1, 0)，表示只显示spans的标注
+        :param scale: 是否需要对坐标按比例放大 （pdf经常放大两倍提取图片，则这里标注也要对应放大两倍）
+        【字典属性解释】
+        blocks:
+            number: int, 区块编号
+            type: 0表示文本行，1表示图片
+        lines:
+            wmode: 好像都是0，不知道啥东西
+            dir: [1, 0]，可能是文本方向吧
+        spans:
+            size: 字号
+            flags: 格式标记
+                1，superscript，上标
+                2，italic，斜体
+                4，serifed，有衬线。如果没开，对立面就是"sans"，无衬线。
+                8，monospaced，等距。对立面proportional，均衡。
+                16，bold，加粗
+            font：字体名称（直接用字符串赋值）
+            color：颜色
+            ascender：？
+            descender：？
+            origin：所在方格右上角坐标
+            text/chars: dict模式有text内容，rawdict有chars详细信息。我扩展的版本，rawdict也会有text属性。
+        char:
+            origin: 差不多是其所在方格的右上角坐标，同一行文本，其top位置是会对齐的
+            c: 字符内容
+        """
+        from pyxlpr.data.labelme import LabelmeDict
+        # 1 参数配置
+        if isinstance(views, int):
+            views = [views]
+        if len(views) < 4:
+            views += [0] * (4 - len(views))
+        shapes = []
+        page_dict = self.get_text(opt)
+        # 2 辅助函数
+        def add_shape(name, refdict, add_keys, drop_keys=('bbox',)):
+            """ 生成一个标注框 """
+            msgdict = {'category_name': name}
+            msgdict.update(add_keys)
+            DictTool.ior(msgdict, refdict)
+            DictTool.isub(msgdict, drop_keys)
+            bbox = [round_int(v * scale) for v in refdict['bbox']]
+            if 'size' in msgdict:
+                x = round_unit(msgdict['size'], 0.5)
+                msgdict['size'] = round_int(x) if (x * 10) % 10 < 1 else x  # 没有小数的时候，优先展示为11，而不是11.0
+            if 'color' in msgdict:
+                # 把color映射为直观的(r, g, b)
+                # 这个pdf解析器获取的color，不一定精确等于原值，可能会有偏差，小一个像素
+                v = msgdict['color']
+                msgdict['color'] = (v // 256 // 256, (v // 256) % 256, v % 256)
+            if 'origin' in msgdict:
+                msgdict['origin'] = [round_int(v) for v in msgdict['origin']]
+            sp = LabelmeDict.gen_shape(json.dumps(msgdict), bbox)
+            shapes.append(sp)
+        # 3 遍历获取标注数据
+        for block in page_dict['blocks']:
+            if block['type'] == 0:  # 普通的文本行
+                if views[0]:
+                    add_shape('text_block', block, {'n_lines': len(block['lines'])}, ['bbox', 'lines'])
+                for line in block['lines']:
+                    if views[1]:
+                        add_shape('line', line, {'n_spans': len(line['spans'])}, ['bbox', 'spans'])
+                    for span in line['spans']:
+                        if 'text' not in span and 'chars' in span:
+                            span['text'] = ''.join([x['c'] for x in span['chars']])
+                        if views[2]:
+                            add_shape('span', span, {'n_chars': len(span.get('text', ''))}, ['bbox', 'chars'])
+                        if views[3] and 'chars' in span:  # 最后层算法不太一样，这样写可以加速
+                            for char in span['chars']:
+                                add_shape('char', char, {}, ['bbox'])
+            elif block['type'] == 1:  # 应该是图片
+                add_shape('image', block, {'image_filesize': len(block['image'])}, ['bbox', 'image'])
+            else:
+                raise ValueError
+        return shapes
+    @classmethod
+    def parse_flags(cls, n):
+        """ 解析spans的flags参数明文含义 """
+        flags = decode_bitflags(n, ('superscript', 'italic', 'serifed', 'monospaced', 'bold'))
+        flags['sans'] = not flags['serifed']
+        flags['proportional'] = not flags['monospaced']
+        return flags
+    def browser(self, opt='html'):
+        if opt == 'html':
+            data = self.get_text('html')  # html、xhtml 可以转网页，虽然排版相对来说还是会乱一点
+            data = ''.join(data)
+            etag = get_etag(data)
+            f = XlPath.init(etag, XlPath.tempdir(), suffix='.html')
+            f.write(data)
+            browser(f)
+        else:
+            raise ValueError
+inject_members(XlFitzPage, fitz.fitz.Page)
+class DemoFitz:
+    """
+    安装： pip install PyMuPdf
+    使用： import fitz
+    官方文档： https://pymupdf.readthedocs.io/en/latest/intro/
+        demo： https://github.com/rk700/PyMuPDF/tree/master/demo
+        examples： https://github.com/rk700/PyMuPDF/tree/master/examples
+    """
+    def __init__(self, file):
+        self.doc = fitz.open(file)
+    def message(self):
+        """查看pdf文档一些基础信息"""
+        dprint(fitz.version)  # fitz模块的版本
+        dprint(self.doc.pageCount)  # pdf页数
+        dprint(self.doc._getXrefLength())  # 文档的对象总数
+    def getToC(self):
+        """获得书签目录"""
+        toc = self.doc.getToC()
+        browser(toc)
+    def setToC(self):
+        """设置书签目录
+        可以调层级、改名称、修改指向页码
+        """
+        toc = self.doc.getToC()
+        toc[1][1] = '改标题名称'
+        self.doc.setToC(toc)
+        file = XlPath('a.pdf', XlPath.tempdir()).to_str()
+        self.doc.save(file, garbage=4)
+        browser(file)
+    def setToC2(self):
+        """修改人教版教材的标签名"""
+        toc = self.doc.getToC()
+        newtoc = []
+        for i in range(len(toc)):
+            name = toc[i][1]
+            if '.' in name: continue
+            # m = re.search(r'\d+', name)
+            # if m: name = name.replace(m.group(), digits2chinese(int(m.group())))
+            m = re.search(r'([一二三四五六]年级).*?([上下])', name)
+            if i < len(toc) - 1:
+                pages = toc[i + 1][2] - toc[i][2] + 1
+            else:
+                pages = self.doc.pageCount - toc[i][2] + 1
+            toc[i][1] = m.group(1) + m.group(2) + '，' + str(pages)
+            newtoc.append(toc[i])
+        self.doc.setToC(newtoc)
+        file = writefile(b'', 'a.pdf', if_exists='replace')
+        self.doc.save(file, garbage=4)
+    def rearrange_pages(self):
+        """重新布局页面"""
+        self.doc.select([0, 0, 1])  # 第1页展示两次后，再跟第2页
+        file = writefile(b'', 'a.pdf', root=XlPath.tempdir(), if_exists='replace')
+        self.doc.save(file, garbage=4)  # 注意要设置garbage，否则文档并没有实际删除内容压缩文件大小
+        browser(file)
+    def page2png(self, page=0):
+        """ 查看单页渲染图片 """
+        page = self.doc.loadPage(page)  # 索引第i页，下标规律同py，支持-1索引最后页
+        # dprint(page.bound())  # 页面边界，x,y轴同图像处理中的常识定义，返回Rect(x0, y0, x1, y1)
+        pix = page.getPixmap(fitz.Matrix(2, 2))  # 获得页面的RGBA图像，Pixmap类型；还可以用page.getSVGimage()获得矢量图
+        # pix.writePNG('page-0.png')  # 将Pixmal
+        pngdata = pix.tobytes()  # 获png文件的bytes字节码
+        # print(len(pngdata))
+        # browser(pngdata, 'a.png')  # 用我的工具函数打开图片
+        return pngdata
+    def pagetext(self):
+        """单页上的文本"""
+        page = self.doc[0]
+        # 获得页面上的所有文本，还支持参数： html，dict，xml，xhtml，json
+        text = page.getText('text')
+        dprint(text)
+        # 获得页面上的所有文本（返回字典对象）
+        textdict = page.getText('dict')
+        textdict['blocks'] = textdict['blocks'][:-1]
+        browser(pprint.pformat(textdict))
+    def text(self):
+        """获得整份pdf的所有文本"""
+        return '\n'.join([page.getText('text') for page in self.doc])
+    def xrefstr(self):
+        """查看pdf文档的所有对象"""
+        xrefstr = []
+        n = self.doc._getXrefLength()
+        for i in range(1, n):  # 注意下标实际要从1卡开始
+            # 可以边遍历边删除，不影响下标位置，因为其本质只是去除关联引用而已
+            xrefstr.append(self.doc._getXrefString(i))
+        browser('\n'.join(xrefstr))
+    def page_add_ele(self):
+        """往页面添加元素
+        添加元素前后xrefstr的区别： https://paste.ubuntu.com/p/Dxhnzp4XJ2/
+        """
+        self.doc.select([0])
+        page = self.doc.loadPage(0)
+        # page.insertText(fitz.Point(100, 200), 'test\ntest')
+        file = str(XlPath.tempdir() / 'a.pdf')
+        dprint(file)
+        self.doc.save(file, garbage=4)
+        browser(file)
+def __pdfminer():
+    """ pdfminer的实验代码也先放这里
+    !pip install pdfminer.six
+    """
+    import pdfminer
+    print(pdfminer.__version__)
+    # 20201018
+class PdfMiner:
+    @classmethod
+    def to_html(cls, pdf_file):
+        """ 相比fitz，pdfminer能正常提取出下划线
+        文本重叠比fitz更严重，整体来说其实更不好用~~
+        """
+        from io import StringIO
+        from pdfminer.high_level import extract_text_to_fp
+        from pdfminer.layout import LAParams
+        output_string = StringIO()
+        with open(str(pdf_file)) as fin:
+            extract_text_to_fp(fin, output_string, laparams=LAParams(),
+                               output_type='html', codec=None)
+        # 打开浏览器查看重建的html效果
+        f = pdf_file.with_suffix('.html')
+        f.write(output_string.getvalue())
+        browser(f)

pyxllib 0.3.96__py3-none-any.whl → 0.3.200__py3-none-any.whl

pyxllib 0.3.96py3-none-any.whl → 0.3.200py3-none-any.whl