PyPI - pyxllib - Versions diffs - 0.3.96__py3-none-any.whl → 0.3.197__py3-none-any.whl - Mend

pyxllib 0.3.96py3-none-any.whl → 0.3.197py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (306) hide show

pyxllib/algo/geo.py +12 -0
pyxllib/algo/intervals.py +1 -1
pyxllib/algo/matcher.py +78 -0
pyxllib/algo/pupil.py +187 -19
pyxllib/algo/specialist.py +2 -1
pyxllib/algo/stat.py +38 -2
{pyxlpr → pyxllib/autogui}/__init__.py +1 -1
pyxllib/autogui/activewin.py +246 -0
pyxllib/autogui/all.py +9 -0
pyxllib/{ext/autogui → autogui}/autogui.py +40 -11
pyxllib/autogui/uiautolib.py +362 -0
pyxllib/autogui/wechat.py +827 -0
pyxllib/autogui/wechat_msg.py +421 -0
pyxllib/autogui/wxautolib.py +84 -0
pyxllib/cv/slidercaptcha.py +137 -0
pyxllib/data/echarts.py +123 -12
pyxllib/data/jsonlib.py +89 -0
pyxllib/data/pglib.py +514 -30
pyxllib/data/sqlite.py +231 -4
pyxllib/ext/JLineViewer.py +14 -1
pyxllib/ext/drissionlib.py +277 -0
pyxllib/ext/kq5034lib.py +0 -1594
pyxllib/ext/robustprocfile.py +497 -0
pyxllib/ext/unixlib.py +6 -5
pyxllib/ext/utools.py +108 -95
pyxllib/ext/webhook.py +32 -14
pyxllib/ext/wjxlib.py +88 -0
pyxllib/ext/wpsapi.py +124 -0
pyxllib/ext/xlwork.py +9 -0
pyxllib/ext/yuquelib.py +1003 -71
pyxllib/file/docxlib.py +1 -1
pyxllib/file/libreoffice.py +165 -0
pyxllib/file/movielib.py +9 -0
pyxllib/file/packlib/__init__.py +112 -75
pyxllib/file/pdflib.py +1 -1
pyxllib/file/pupil.py +1 -1
pyxllib/file/specialist/dirlib.py +1 -1
pyxllib/file/specialist/download.py +10 -3
pyxllib/file/specialist/filelib.py +266 -55
pyxllib/file/xlsxlib.py +205 -50
pyxllib/file/xlsyncfile.py +341 -0
pyxllib/prog/cachetools.py +64 -0
pyxllib/prog/filelock.py +42 -0
pyxllib/prog/multiprogs.py +940 -0
pyxllib/prog/newbie.py +9 -2
pyxllib/prog/pupil.py +129 -60
pyxllib/prog/specialist/__init__.py +176 -2
pyxllib/prog/specialist/bc.py +5 -2
pyxllib/prog/specialist/browser.py +11 -2
pyxllib/prog/specialist/datetime.py +68 -0
pyxllib/prog/specialist/tictoc.py +12 -13
pyxllib/prog/specialist/xllog.py +5 -5
pyxllib/prog/xlosenv.py +7 -0
pyxllib/text/airscript.js +744 -0
pyxllib/text/charclasslib.py +17 -5
pyxllib/text/jiebalib.py +6 -3
pyxllib/text/jinjalib.py +32 -0
pyxllib/text/jsa_ai_prompt.md +271 -0
pyxllib/text/jscode.py +159 -4
pyxllib/text/nestenv.py +1 -1
pyxllib/text/newbie.py +12 -0
pyxllib/text/pupil/common.py +26 -0
pyxllib/text/specialist/ptag.py +2 -2
pyxllib/text/templates/echart_base.html +11 -0
pyxllib/text/templates/highlight_code.html +17 -0
pyxllib/text/templates/latex_editor.html +103 -0
pyxllib/text/xmllib.py +76 -14
pyxllib/xl.py +2 -1
pyxllib-0.3.197.dist-info/METADATA +48 -0
pyxllib-0.3.197.dist-info/RECORD +126 -0
{pyxllib-0.3.96.dist-info → pyxllib-0.3.197.dist-info}/WHEEL +1 -2
pyxllib/ext/autogui/__init__.py +0 -8
pyxllib-0.3.96.dist-info/METADATA +0 -51
pyxllib-0.3.96.dist-info/RECORD +0 -333
pyxllib-0.3.96.dist-info/top_level.txt +0 -2
pyxlpr/ai/__init__.py +0 -5
pyxlpr/ai/clientlib.py +0 -1281
pyxlpr/ai/specialist.py +0 -286
pyxlpr/ai/torch_app.py +0 -172
pyxlpr/ai/xlpaddle.py +0 -655
pyxlpr/ai/xltorch.py +0 -705
pyxlpr/data/__init__.py +0 -11
pyxlpr/data/coco.py +0 -1325
pyxlpr/data/datacls.py +0 -365
pyxlpr/data/datasets.py +0 -200
pyxlpr/data/gptlib.py +0 -1291
pyxlpr/data/icdar/__init__.py +0 -96
pyxlpr/data/icdar/deteval.py +0 -377
pyxlpr/data/icdar/icdar2013.py +0 -341
pyxlpr/data/icdar/iou.py +0 -340
pyxlpr/data/icdar/rrc_evaluation_funcs_1_1.py +0 -463
pyxlpr/data/imtextline.py +0 -473
pyxlpr/data/labelme.py +0 -866
pyxlpr/data/removeline.py +0 -179
pyxlpr/data/specialist.py +0 -57
pyxlpr/eval/__init__.py +0 -85
pyxlpr/paddleocr.py +0 -776
pyxlpr/ppocr/__init__.py +0 -15
pyxlpr/ppocr/configs/rec/multi_language/generate_multi_language_configs.py +0 -226
pyxlpr/ppocr/data/__init__.py +0 -135
pyxlpr/ppocr/data/imaug/ColorJitter.py +0 -26
pyxlpr/ppocr/data/imaug/__init__.py +0 -67
pyxlpr/ppocr/data/imaug/copy_paste.py +0 -170
pyxlpr/ppocr/data/imaug/east_process.py +0 -437
pyxlpr/ppocr/data/imaug/gen_table_mask.py +0 -244
pyxlpr/ppocr/data/imaug/iaa_augment.py +0 -114
pyxlpr/ppocr/data/imaug/label_ops.py +0 -789
pyxlpr/ppocr/data/imaug/make_border_map.py +0 -184
pyxlpr/ppocr/data/imaug/make_pse_gt.py +0 -106
pyxlpr/ppocr/data/imaug/make_shrink_map.py +0 -126
pyxlpr/ppocr/data/imaug/operators.py +0 -433
pyxlpr/ppocr/data/imaug/pg_process.py +0 -906
pyxlpr/ppocr/data/imaug/randaugment.py +0 -143
pyxlpr/ppocr/data/imaug/random_crop_data.py +0 -239
pyxlpr/ppocr/data/imaug/rec_img_aug.py +0 -533
pyxlpr/ppocr/data/imaug/sast_process.py +0 -777
pyxlpr/ppocr/data/imaug/text_image_aug/__init__.py +0 -17
pyxlpr/ppocr/data/imaug/text_image_aug/augment.py +0 -120
pyxlpr/ppocr/data/imaug/text_image_aug/warp_mls.py +0 -168
pyxlpr/ppocr/data/lmdb_dataset.py +0 -115
pyxlpr/ppocr/data/pgnet_dataset.py +0 -104
pyxlpr/ppocr/data/pubtab_dataset.py +0 -107
pyxlpr/ppocr/data/simple_dataset.py +0 -372
pyxlpr/ppocr/losses/__init__.py +0 -61
pyxlpr/ppocr/losses/ace_loss.py +0 -52
pyxlpr/ppocr/losses/basic_loss.py +0 -135
pyxlpr/ppocr/losses/center_loss.py +0 -88
pyxlpr/ppocr/losses/cls_loss.py +0 -30
pyxlpr/ppocr/losses/combined_loss.py +0 -67
pyxlpr/ppocr/losses/det_basic_loss.py +0 -208
pyxlpr/ppocr/losses/det_db_loss.py +0 -80
pyxlpr/ppocr/losses/det_east_loss.py +0 -63
pyxlpr/ppocr/losses/det_pse_loss.py +0 -149
pyxlpr/ppocr/losses/det_sast_loss.py +0 -121
pyxlpr/ppocr/losses/distillation_loss.py +0 -272
pyxlpr/ppocr/losses/e2e_pg_loss.py +0 -140
pyxlpr/ppocr/losses/kie_sdmgr_loss.py +0 -113
pyxlpr/ppocr/losses/rec_aster_loss.py +0 -99
pyxlpr/ppocr/losses/rec_att_loss.py +0 -39
pyxlpr/ppocr/losses/rec_ctc_loss.py +0 -44
pyxlpr/ppocr/losses/rec_enhanced_ctc_loss.py +0 -70
pyxlpr/ppocr/losses/rec_nrtr_loss.py +0 -30
pyxlpr/ppocr/losses/rec_sar_loss.py +0 -28
pyxlpr/ppocr/losses/rec_srn_loss.py +0 -47
pyxlpr/ppocr/losses/table_att_loss.py +0 -109
pyxlpr/ppocr/metrics/__init__.py +0 -44
pyxlpr/ppocr/metrics/cls_metric.py +0 -45
pyxlpr/ppocr/metrics/det_metric.py +0 -82
pyxlpr/ppocr/metrics/distillation_metric.py +0 -73
pyxlpr/ppocr/metrics/e2e_metric.py +0 -86
pyxlpr/ppocr/metrics/eval_det_iou.py +0 -274
pyxlpr/ppocr/metrics/kie_metric.py +0 -70
pyxlpr/ppocr/metrics/rec_metric.py +0 -75
pyxlpr/ppocr/metrics/table_metric.py +0 -50
pyxlpr/ppocr/modeling/architectures/__init__.py +0 -32
pyxlpr/ppocr/modeling/architectures/base_model.py +0 -88
pyxlpr/ppocr/modeling/architectures/distillation_model.py +0 -60
pyxlpr/ppocr/modeling/backbones/__init__.py +0 -54
pyxlpr/ppocr/modeling/backbones/det_mobilenet_v3.py +0 -268
pyxlpr/ppocr/modeling/backbones/det_resnet_vd.py +0 -246
pyxlpr/ppocr/modeling/backbones/det_resnet_vd_sast.py +0 -285
pyxlpr/ppocr/modeling/backbones/e2e_resnet_vd_pg.py +0 -265
pyxlpr/ppocr/modeling/backbones/kie_unet_sdmgr.py +0 -186
pyxlpr/ppocr/modeling/backbones/rec_mobilenet_v3.py +0 -138
pyxlpr/ppocr/modeling/backbones/rec_mv1_enhance.py +0 -258
pyxlpr/ppocr/modeling/backbones/rec_nrtr_mtb.py +0 -48
pyxlpr/ppocr/modeling/backbones/rec_resnet_31.py +0 -210
pyxlpr/ppocr/modeling/backbones/rec_resnet_aster.py +0 -143
pyxlpr/ppocr/modeling/backbones/rec_resnet_fpn.py +0 -307
pyxlpr/ppocr/modeling/backbones/rec_resnet_vd.py +0 -286
pyxlpr/ppocr/modeling/heads/__init__.py +0 -54
pyxlpr/ppocr/modeling/heads/cls_head.py +0 -52
pyxlpr/ppocr/modeling/heads/det_db_head.py +0 -118
pyxlpr/ppocr/modeling/heads/det_east_head.py +0 -121
pyxlpr/ppocr/modeling/heads/det_pse_head.py +0 -37
pyxlpr/ppocr/modeling/heads/det_sast_head.py +0 -128
pyxlpr/ppocr/modeling/heads/e2e_pg_head.py +0 -253
pyxlpr/ppocr/modeling/heads/kie_sdmgr_head.py +0 -206
pyxlpr/ppocr/modeling/heads/multiheadAttention.py +0 -163
pyxlpr/ppocr/modeling/heads/rec_aster_head.py +0 -393
pyxlpr/ppocr/modeling/heads/rec_att_head.py +0 -202
pyxlpr/ppocr/modeling/heads/rec_ctc_head.py +0 -88
pyxlpr/ppocr/modeling/heads/rec_nrtr_head.py +0 -826
pyxlpr/ppocr/modeling/heads/rec_sar_head.py +0 -402
pyxlpr/ppocr/modeling/heads/rec_srn_head.py +0 -280
pyxlpr/ppocr/modeling/heads/self_attention.py +0 -406
pyxlpr/ppocr/modeling/heads/table_att_head.py +0 -246
pyxlpr/ppocr/modeling/necks/__init__.py +0 -32
pyxlpr/ppocr/modeling/necks/db_fpn.py +0 -111
pyxlpr/ppocr/modeling/necks/east_fpn.py +0 -188
pyxlpr/ppocr/modeling/necks/fpn.py +0 -138
pyxlpr/ppocr/modeling/necks/pg_fpn.py +0 -314
pyxlpr/ppocr/modeling/necks/rnn.py +0 -92
pyxlpr/ppocr/modeling/necks/sast_fpn.py +0 -284
pyxlpr/ppocr/modeling/necks/table_fpn.py +0 -110
pyxlpr/ppocr/modeling/transforms/__init__.py +0 -28
pyxlpr/ppocr/modeling/transforms/stn.py +0 -135
pyxlpr/ppocr/modeling/transforms/tps.py +0 -308
pyxlpr/ppocr/modeling/transforms/tps_spatial_transformer.py +0 -156
pyxlpr/ppocr/optimizer/__init__.py +0 -61
pyxlpr/ppocr/optimizer/learning_rate.py +0 -228
pyxlpr/ppocr/optimizer/lr_scheduler.py +0 -49
pyxlpr/ppocr/optimizer/optimizer.py +0 -160
pyxlpr/ppocr/optimizer/regularizer.py +0 -52
pyxlpr/ppocr/postprocess/__init__.py +0 -55
pyxlpr/ppocr/postprocess/cls_postprocess.py +0 -33
pyxlpr/ppocr/postprocess/db_postprocess.py +0 -234
pyxlpr/ppocr/postprocess/east_postprocess.py +0 -143
pyxlpr/ppocr/postprocess/locality_aware_nms.py +0 -200
pyxlpr/ppocr/postprocess/pg_postprocess.py +0 -52
pyxlpr/ppocr/postprocess/pse_postprocess/__init__.py +0 -15
pyxlpr/ppocr/postprocess/pse_postprocess/pse/__init__.py +0 -29
pyxlpr/ppocr/postprocess/pse_postprocess/pse/setup.py +0 -14
pyxlpr/ppocr/postprocess/pse_postprocess/pse_postprocess.py +0 -118
pyxlpr/ppocr/postprocess/rec_postprocess.py +0 -654
pyxlpr/ppocr/postprocess/sast_postprocess.py +0 -355
pyxlpr/ppocr/tools/__init__.py +0 -14
pyxlpr/ppocr/tools/eval.py +0 -83
pyxlpr/ppocr/tools/export_center.py +0 -77
pyxlpr/ppocr/tools/export_model.py +0 -129
pyxlpr/ppocr/tools/infer/predict_cls.py +0 -151
pyxlpr/ppocr/tools/infer/predict_det.py +0 -300
pyxlpr/ppocr/tools/infer/predict_e2e.py +0 -169
pyxlpr/ppocr/tools/infer/predict_rec.py +0 -414
pyxlpr/ppocr/tools/infer/predict_system.py +0 -204
pyxlpr/ppocr/tools/infer/utility.py +0 -629
pyxlpr/ppocr/tools/infer_cls.py +0 -83
pyxlpr/ppocr/tools/infer_det.py +0 -134
pyxlpr/ppocr/tools/infer_e2e.py +0 -122
pyxlpr/ppocr/tools/infer_kie.py +0 -153
pyxlpr/ppocr/tools/infer_rec.py +0 -146
pyxlpr/ppocr/tools/infer_table.py +0 -107
pyxlpr/ppocr/tools/program.py +0 -596
pyxlpr/ppocr/tools/test_hubserving.py +0 -117
pyxlpr/ppocr/tools/train.py +0 -163
pyxlpr/ppocr/tools/xlprog.py +0 -748
pyxlpr/ppocr/utils/EN_symbol_dict.txt +0 -94
pyxlpr/ppocr/utils/__init__.py +0 -24
pyxlpr/ppocr/utils/dict/ar_dict.txt +0 -117
pyxlpr/ppocr/utils/dict/arabic_dict.txt +0 -162
pyxlpr/ppocr/utils/dict/be_dict.txt +0 -145
pyxlpr/ppocr/utils/dict/bg_dict.txt +0 -140
pyxlpr/ppocr/utils/dict/chinese_cht_dict.txt +0 -8421
pyxlpr/ppocr/utils/dict/cyrillic_dict.txt +0 -163
pyxlpr/ppocr/utils/dict/devanagari_dict.txt +0 -167
pyxlpr/ppocr/utils/dict/en_dict.txt +0 -63
pyxlpr/ppocr/utils/dict/fa_dict.txt +0 -136
pyxlpr/ppocr/utils/dict/french_dict.txt +0 -136
pyxlpr/ppocr/utils/dict/german_dict.txt +0 -143
pyxlpr/ppocr/utils/dict/hi_dict.txt +0 -162
pyxlpr/ppocr/utils/dict/it_dict.txt +0 -118
pyxlpr/ppocr/utils/dict/japan_dict.txt +0 -4399
pyxlpr/ppocr/utils/dict/ka_dict.txt +0 -153
pyxlpr/ppocr/utils/dict/korean_dict.txt +0 -3688
pyxlpr/ppocr/utils/dict/latin_dict.txt +0 -185
pyxlpr/ppocr/utils/dict/mr_dict.txt +0 -153
pyxlpr/ppocr/utils/dict/ne_dict.txt +0 -153
pyxlpr/ppocr/utils/dict/oc_dict.txt +0 -96
pyxlpr/ppocr/utils/dict/pu_dict.txt +0 -130
pyxlpr/ppocr/utils/dict/rs_dict.txt +0 -91
pyxlpr/ppocr/utils/dict/rsc_dict.txt +0 -134
pyxlpr/ppocr/utils/dict/ru_dict.txt +0 -125
pyxlpr/ppocr/utils/dict/ta_dict.txt +0 -128
pyxlpr/ppocr/utils/dict/table_dict.txt +0 -277
pyxlpr/ppocr/utils/dict/table_structure_dict.txt +0 -2759
pyxlpr/ppocr/utils/dict/te_dict.txt +0 -151
pyxlpr/ppocr/utils/dict/ug_dict.txt +0 -114
pyxlpr/ppocr/utils/dict/uk_dict.txt +0 -142
pyxlpr/ppocr/utils/dict/ur_dict.txt +0 -137
pyxlpr/ppocr/utils/dict/xi_dict.txt +0 -110
pyxlpr/ppocr/utils/dict90.txt +0 -90
pyxlpr/ppocr/utils/e2e_metric/Deteval.py +0 -574
pyxlpr/ppocr/utils/e2e_metric/polygon_fast.py +0 -83
pyxlpr/ppocr/utils/e2e_utils/extract_batchsize.py +0 -87
pyxlpr/ppocr/utils/e2e_utils/extract_textpoint_fast.py +0 -457
pyxlpr/ppocr/utils/e2e_utils/extract_textpoint_slow.py +0 -592
pyxlpr/ppocr/utils/e2e_utils/pgnet_pp_utils.py +0 -162
pyxlpr/ppocr/utils/e2e_utils/visual.py +0 -162
pyxlpr/ppocr/utils/en_dict.txt +0 -95
pyxlpr/ppocr/utils/gen_label.py +0 -81
pyxlpr/ppocr/utils/ic15_dict.txt +0 -36
pyxlpr/ppocr/utils/iou.py +0 -54
pyxlpr/ppocr/utils/logging.py +0 -69
pyxlpr/ppocr/utils/network.py +0 -84
pyxlpr/ppocr/utils/ppocr_keys_v1.txt +0 -6623
pyxlpr/ppocr/utils/profiler.py +0 -110
pyxlpr/ppocr/utils/save_load.py +0 -150
pyxlpr/ppocr/utils/stats.py +0 -72
pyxlpr/ppocr/utils/utility.py +0 -80
pyxlpr/ppstructure/__init__.py +0 -13
pyxlpr/ppstructure/predict_system.py +0 -187
pyxlpr/ppstructure/table/__init__.py +0 -13
pyxlpr/ppstructure/table/eval_table.py +0 -72
pyxlpr/ppstructure/table/matcher.py +0 -192
pyxlpr/ppstructure/table/predict_structure.py +0 -136
pyxlpr/ppstructure/table/predict_table.py +0 -221
pyxlpr/ppstructure/table/table_metric/__init__.py +0 -16
pyxlpr/ppstructure/table/table_metric/parallel.py +0 -51
pyxlpr/ppstructure/table/table_metric/table_metric.py +0 -247
pyxlpr/ppstructure/table/tablepyxl/__init__.py +0 -13
pyxlpr/ppstructure/table/tablepyxl/style.py +0 -283
pyxlpr/ppstructure/table/tablepyxl/tablepyxl.py +0 -118
pyxlpr/ppstructure/utility.py +0 -71
pyxlpr/xlai.py +0 -10
/pyxllib/{ext/autogui → autogui}/virtualkey.py +0 -0
{pyxllib-0.3.96.dist-info → pyxllib-0.3.197.dist-info/licenses}/LICENSE +0 -0

pyxllib/file/xlsxlib.py CHANGED Viewed

@@ -7,12 +7,14 @@
 """
 扩展了些自己的openpyxl工具
 """
+import copy
 import time
 from pyxllib.prog.pupil import check_install_package, run_once
 check_install_package('openpyxl')
-check_install_package('premailer')
+# check_install_package('premailer')
 # check_install_package('xlrd2')
 check_install_package('yattag')
 check_install_package('jsonpickle')
@@ -30,11 +32,13 @@ import io
 import xlrd
+import filetype
 import openpyxl
 from openpyxl import Workbook
 from openpyxl.cell.cell import MergedCell
 from openpyxl.styles import Font, Alignment
 from openpyxl.utils.cell import get_column_letter, column_index_from_string
+import openpyxl.worksheet.formula
 import pandas as pd
 try:
@@ -117,7 +121,7 @@ def is_valid_excel_address(address):
         return is_valid_excel_cell(address)
-@run_once('str', debug=True)
+@run_once('str')
 def xlfmt2pyfmt_date(xl_fmt):
     """ 日期的渲染操作
@@ -233,6 +237,8 @@ def xl_render_value(x, xl_fmt):
     注意，遇到公式是很难计算处理的，大概率只能保持原公式显示
     因为日期用的比较多，需要时常获得真实的渲染效果，所以这里封装一个接口
+    对于JSA等场景，直接使用Cell.Text获取渲染值就行，不需要这里这么复杂的实现
     >>> xl_render_value(datetime.datetime(2020, 1, 1), 'yyyy-mm-dd')
     '2020-01-01'
     """
@@ -351,19 +357,73 @@ def convert_xls_to_xlsx(xls_file):
 def load_as_xlsx_file(file_path, keep_links=False, keep_vba=False):
+    """ 这个不能全信文件给的扩展名，需要智能判断 """
+    # 0 工具函数
+    @run_once()
+    def read_xlsx():
+        file = file_path
+        # 如果文件原本的后缀不是xlsx，openpyxl是读不了的，要绕个弯
+        if file.suffix[1:] not in ('xlsx', 'xlsm'):
+            with open(file_path, 'rb') as f2:
+                data = f2.read()
+            file = io.BytesIO(data)
+        try:
+            return openpyxl.load_workbook(file,
+                                          keep_links=keep_links,
+                                          keep_vba=keep_vba), ''
+        except Exception as e:
+            if isinstance(e, TimeoutError):  # 这里触发的是总的超时设定
+                raise e
+            return None, format_exception(e, 2)
+    @run_once()
+    def read_xls():
+        try:
+            return convert_xls_to_xlsx(file_path), ''
+        except Exception as e:
+            return None, format_exception(e, 2)
+    @run_once()
+    def read_csv():
+        try:
+            return convert_csv_to_xlsx(file_path), ''
+        except Exception as e:
+            return None, format_exception(e, 2)
+    def read_test(suffix):
+        if suffix in ('xlsx', 'xlsm', 'zip'):
+            wb, error = read_xlsx()
+        elif suffix == 'xls':
+            wb, error = read_xls()
+        elif suffix == 'csv':
+            wb, error = read_csv()
+        else:
+            wb, error = None, f'不支持的文件类型：{suffix}'
+        return wb, error
+    # 1 优先相信用户输入的文件名类型
     file_path = Path(file_path)
-    suffix = file_path.suffix.lower()
-    if suffix in ('.xlsx', '.xlsm'):
-        wb = openpyxl.load_workbook(file_path,
-                                    keep_links=keep_links,
-                                    keep_vba=keep_vba)
-    elif suffix == '.xls':
-        wb = convert_xls_to_xlsx(file_path)
-    elif suffix == '.csv':
-        wb = convert_csv_to_xlsx(file_path)
-    else:
-        return None
-    return wb
+    suffix = file_path.suffix.lower()[1:]
+    wb, error = read_test(suffix)
+    if wb is not None:
+        return wb, suffix
+    # 2 如果处理不了，则尝试用filetype判断的类型
+    suffix2 = filetype.guess(file_path)
+    suffix2 = suffix2.extension if suffix2 else ''
+    wb, _ = read_test(suffix2)
+    if wb is not None:
+        return wb, suffix2
+    # 3 如果还处理不了，再把其他可能的情况试一遍
+    for suffix in ('xlsx', 'xls', 'csv'):
+        wb, _ = read_test(suffix)
+        if wb is not None:
+            return wb, suffix
+    # 4 确实是处理不了的类型，返回报错信息
+    return None, error
 def parse_range_address(address):
@@ -466,7 +526,7 @@ def is_string_type(value):
     try:
         pd.to_datetime(value, errors='raise')
         return False
-    except (ValueError, TypeError, OverflowError):
+    except (ValueError, TypeError, OverflowError, AttributeError):
         pass
     # 检查是否为浮点数类型
@@ -521,10 +581,18 @@ class XlCell(openpyxl.cell.cell.Cell):  # 适用于 openpyxl.cell.cell.MergedCel
         TODO 这个函数还是可以看看能不能有更好的实现、提速
         """
+        def try_offset(x, y):
+            try:
+                return isinstance(self.offset(x, y), MergedCell)
+            except ValueError:
+                # 有可能会越界：ValueError: Row numbers must be between 1 and 1048576
+                return False
         _type, status = 0, {}
         if isinstance(self, MergedCell):
             _type = 1
-        elif isinstance(self.offset(1, 0), MergedCell) or isinstance(self.offset(0, 1), MergedCell):
+        elif try_offset(1, 0) or try_offset(0, 1):
             # 这里只能判断可能是合并单元格，具体是不是合并单元格，还要
             rng = self.in_range()
             status['rng'] = rng
@@ -698,7 +766,7 @@ class XlCell(openpyxl.cell.cell.Cell):  # 适用于 openpyxl.cell.cell.MergedCel
         # openpyxl的机制，如果没有配置日期格式，读取到的是默认的'mm-dd-yy'，其实在中文场景，默认格式应该是后者
         if fmt == 'mm-dd-yy':
             return 'yyyy/m/d'  # 中文的默认日期格式
-        elif fmt == 'yyyy\-mm\-dd':  # 不知道为什么会有提取到这种\的情况，先暴力替换了
+        elif fmt == r'yyyy\-mm\-dd':  # 不知道为什么会有提取到这种\的情况，先暴力替换了
             fmt = 'yyyy-mm-dd'
         return fmt
@@ -709,7 +777,10 @@ class XlCell(openpyxl.cell.cell.Cell):  # 适用于 openpyxl.cell.cell.MergedCel
         注意，遇到公式是很难计算处理的，大概率只能保持原公式显示
         因为日期用的比较多，需要时常获得真实的渲染效果，所以这里封装一个接口
         """
         x = self.value
+        if isinstance(x, openpyxl.worksheet.formula.ArrayFormula):  # 数组公式要特别渲染
+            return x.text
         xl_fmt = self.get_number_format()
         return xl_render_value(x, xl_fmt)
@@ -1136,7 +1207,7 @@ class XlWorksheet(openpyxl.worksheet.worksheet.Worksheet):
         return df
-    def copy_range(self, src_addr, dst_cell, *, temp_sheet=False, return_mid_result=False):
+    def copy_range(self, src_addr, dst_cell, *, temp_sheet=False, return_mode=False):
         """ 将自身cell_range区间的内容、格式，拷贝到目标dst_cell里
         :param str src_addr: 自身的一片单元格范围
@@ -1158,7 +1229,7 @@ class XlWorksheet(openpyxl.worksheet.worksheet.Worksheet):
         mid_result = {}
         if temp_sheet:
             ws3 = self.parent.create_sheet('__copy_range')
-            mid_result = self.copy_range(src_addr, ws3['A1'], return_mid_result=True)
+            mid_result = self.copy_range(src_addr, ws3['A1'], return_mode=True)
             ws1 = ws3
             src_addr = f'A1:{excel_addr(mid_result["n"], mid_result["m"])}'
         else:
@@ -1193,7 +1264,7 @@ class XlWorksheet(openpyxl.worksheet.worksheet.Worksheet):
         if temp_sheet:
             self.parent.remove(ws1)
-        if return_mid_result:
+        if return_mode:
             return mid_result
     def reindex_columns(self, orders):
@@ -1964,7 +2035,7 @@ class XlWorkbook(openpyxl.Workbook):
                         'cells': extract_cells_content(ws)
                     })
-                    if not summary['cells']:  # 如果没有数据，则大概率是数据透视表，是计算出来的，读取不到~
+                    if not summary['cells']:  # 如果没有数据，则大概率是数据透视表，是计算出来的，读取不到~ 但是JSA等场景应该有办法获得
                         summary['sheetType'] = 'PivotTable'
                         del summary['cells']
                 else:
@@ -2399,7 +2470,7 @@ def extract_workbook_summary2(file_path, *,
     """
     :param keep_links: 是否保留外部表格链接数据。如果保留，打开好像会有点问题。
     :param mode:
-        0，最原始的summary3摘要
+        0，最原始的summary2摘要
         1，添加当前工作表、单元格位置的信息
     :param kwargs: 捕捉其他参数，主要是向下兼容，其实现在并没有用
@@ -2411,7 +2482,12 @@ def extract_workbook_summary2(file_path, *,
     res = {}
     res['fileName'] = file_path.name
     start_time = time.time()
-    wb = load_as_xlsx_file(file_path, keep_links=keep_links, keep_vba=keep_vba)
+    wb, suffix = load_as_xlsx_file(file_path, keep_links=keep_links, keep_vba=keep_vba)
+    if wb is None:
+        res['error'] = f'Load file error。{suffix}'
+    else:
+        res['fileType'] = suffix
     load_time = time.time() - start_time
     if wb is None:  # 不支持的文件类型，不报错，只是返回最基本的文件名信息
         if return_mode == 1:
@@ -2459,7 +2535,7 @@ def update_raw_summary2(data):
     # 3 判断键值顺序
     keys = list(data.keys())
-    ref_keys = ['fileName', 'chineseContentRatio', 'nonEmptyCellRatio', 'sheetNames', 'sheets']
+    ref_keys = ['fileName', 'fileType', 'chineseContentRatio', 'nonEmptyCellRatio', 'sheetNames', 'sheets']
     if keys != ref_keys:
         data = {k: data[k] for k in ref_keys if k in data}
@@ -2597,30 +2673,39 @@ class WorkbookSummary3:
                     for addr, _ in row:
                         new_cells[addr] = cells[addr]
-            new_cells = {}
-            for rows in rows_groups:
+            total_new_cells = []
+            for rows in reversed(rows_groups):
+                new_cells = {}
                 if len(rows) < 10:
                     extract_cells_from_rows(rows)
                 else:  # 压缩中间的数据
                     # 如果评估到最终摘要可能太小，要收敛下删除的范围
                     n, m = len(rows), len(rows[0])
                     target_n = int(target_reduce_cells_num / m + 0.5)  # 本来应该删除多少行才行
-                    cur_n = n - 4 if target_n > n - 4 else target_n  # 实际删除多少行
-                    left_n = n - cur_n  # 剩余多少行
-                    b = left_n // 2
-                    a = left_n - b
-                    extract_cells_from_rows(rows[:a])
-                    addr = combine_addresses(rows[a][0][0], rows[-b - 1][-1][0])
-                    # new_cells[addr] = '这块区域的内容跟前面几行、后面几行的内容结构是一致的，省略显示'
-                    new_cells[addr] = '...'
-                    extract_cells_from_rows(rows[-b:])
-                    target_reduce_cells_num -= cur_n * m
-                    if target_reduce_cells_num <= 0:
-                        break
-            sheet['cells'] = new_cells
+                    if target_n <= 0:  # 如果删除的行数太少，那么就不压缩了
+                        extract_cells_from_rows(rows)
+                    else:
+                        cur_n = n - 4 if target_n > n - 4 else target_n  # 实际删除多少行
+                        left_n = n - cur_n  # 剩余多少行
+                        b = left_n // 2
+                        a = left_n - b
+                        extract_cells_from_rows(rows[:a])
+                        addr = combine_addresses(rows[a][0][0], rows[-b - 1][-1][0])
+                        # new_cells[addr] = '这块区域的内容跟前面几行、后面几行的内容结构是一致的，省略显示'
+                        new_cells[addr] = '...'
+                        extract_cells_from_rows(rows[-b:])
+                        target_reduce_cells_num -= cur_n * m
+                        # 240429周一21:57，这两行不能开，否则会过渡精简。如果压缩够了，那么后面的单元格需要全量补上。
+                        # if target_reduce_cells_num <= 0:  # 满足以后不是直接break，而是要把后续的内容都保留
+                        #     break
+                total_new_cells.append(new_cells)
+            new_cells2 = {}
+            for rows in reversed(total_new_cells):
+                new_cells2.update(rows)
+            sheet['cells'] = new_cells2
     @classmethod
     def reduce4_truncate_cells(cls, y, summary_limit_len, *, cur_summary_len=None):
@@ -2752,6 +2837,7 @@ class WorkbookSummary3:
         if cur_summary_len is None:
             cur_summary_len = cls.count_length(y)
+        cur_summary_len0 = cur_summary_len
         active_sheet = y['ActiveSheet']
         # 1 预计要删除单元格数
@@ -2783,7 +2869,8 @@ class WorkbookSummary3:
             return cls.count_length(y)
         # 4 否则每张表按照比例删单元格，只保留前面部分的单元格
-        left_rate = 1 - r  # 原始保留比例
+        # todo 这里应该有更好的筛选机制，后续可以思考思考
+        left_rate = min((summary_limit_len + cur_summary_len) / (2 * cur_summary_len), 0.9)  # 首轮减小一点调整幅度
         while True:
             for i, st in enumerate(y['sheets']):
                 if i == active_sheet_index:
@@ -2795,10 +2882,10 @@ class WorkbookSummary3:
             cur_summary_len = cls.count_length(y)
             if cur_summary_len <= summary_limit_len:
                 return cur_summary_len
-            if left_rate * total_cells_num < 1:
+            if left_rate * total_cells_num < 1:  # 都没有单元格，别删了
                 break
-            else:
-                left_rate *= 0.8  # 缩小保留比例，再试
+            else:  # 更新保留比率，再试
+                left_rate *= min(summary_limit_len / cur_summary_len, 0.9)
         return cur_summary_len
@@ -2881,8 +2968,12 @@ class WorkbookSummary3:
             return y
         x = summary2
+        if 'error' in x:
+            return x
         y = {
             'fileName': x['fileName'],
+            'fileType': x['fileType'],
             'sheetNames': x['sheetNames'],
             'sheets': x['sheets'],
             'mode': 'Complete information',
@@ -2927,33 +3018,90 @@ def extract_workbook_summary3(file_path, summary_limit_len=4000, **kwargs):
     return data
+def summary2_add_enums(summary2, enum_values):
+    # 1 预备
+    if enum_values is True:
+        enum_values = (20, 10)
+    max_len, max_num = enum_values
+    # 2 枚举值
+    for sheet in summary2['sheets']:
+        # 2.1 遍历计数
+        cols = defaultdict(Counter)
+        for addr, val in sheet['cells'].items():
+            n = len(str(val))
+            if not n or n > max_len:
+                continue
+            col = re.match(r'[A-Z]+', addr).group()
+            cols[col][val] += 1
+        # 2.2 添加枚举值列
+        enums = {}
+        keys = sorted(cols.keys(), key=column_index_from_string)
+        for k in keys:
+            ct = cols[k]
+            if len(ct) > max_num:
+                continue
+            vals = ct.most_common()
+            if vals[0][1] == 1:  # 都只出现了一次，也不认为是枚举值，跳过。或者是小数据表，一般也能全量展示。
+                continue
+            enums[k] = [v for v, _ in vals]
+        # 2.3 保存
+        if enums:
+            sheet['enums'] = enums
+            # enums2 = json.dumps(enums, ensure_ascii=False, default=str)
+            # sheet['enums'] = json.loads(enums2)
+    return summary2
 def extract_workbook_summary3b(file_path,
                                summary_limit_len=4000,
                                timeout_seconds=10,
                                return_mode=0,
                                debug=False,
                                len_mode=0,
+                               enum_values=False,
                                **kwargs):
     """
     :param summary_limit_len: 摘要长度限制
     :param timeout_seconds: 超时限制
-    :param return_mode: 返回模式，0表示只返回摘要，1表示返回摘要和耗时
+    :param return_mode: 返回模式
+        0，表示只返回摘要
+        1，表示返回摘要和耗时
+        2, 再增加返回summary2
     :param len_mode:
         0, 使用len作为token长度评估
         1, 使用模型评估实际token长度
+    :param enum_values: 是否展示每列枚举值
+        False, 默认不展示
+        True, 展示，并且默认参数 (20, 10) 表示长度超过20的丢弃，只保留枚举类型不超过10种值的列
     :param kwargs: 其他是summary2读取文件的时候的参数，其实都不太关键，一般不用特地设置
     """
     res = {}
     res['fileName'] = Path(file_path).name
     load_time = summary2_time = summary3_time = -1
+    summary2_res = {}
+    def reduce_summary(summary):
+        """ 如果转json后的summary超过4K，去掉可能的sheets字段 """
+        s = json.dumps(summary, ensure_ascii=False)
+        if len(s) < 4000:
+            if 'sheets' in summary:
+                del summary['sheets']
     try:
         with Timeout(timeout_seconds):
             start_time = time.time()
             res, load_time = extract_workbook_summary2(file_path, mode=1, return_mode=1, **kwargs)
             # res = convert_to_json_compatible(res)
+            summary2_res = copy.deepcopy(res)
+            if enum_values:
+                res = summary2_add_enums(res, enum_values)
             summary2_time = time.time() - start_time - load_time
             start_time = time.time()
             if len_mode == 1:
                 res = WorkbookSummary3plus.summary2_to_summary3b(res, summary_limit_len)
@@ -2964,13 +3112,20 @@ def extract_workbook_summary3b(file_path,
         if debug:
             raise e
         res['error'] = f'超时，未完成摘要提取：{timeout_seconds}秒'
+        reduce_summary(res)
     except Exception as e:
         if debug:
             raise e
         res['error'] = f'提取摘要时发生错误：{format_exception(e, 2)}'
+        reduce_summary(res)
+    time_dict = {'load_time': human_readable_number(load_time),
+                 'summary2_time': human_readable_number(summary2_time),
+                 'summary3_time': human_readable_number(summary3_time)}
     if return_mode == 1:
-        return res, {'load_time': human_readable_number(load_time),
-                     'summary2_time': human_readable_number(summary2_time),
-                     'summary3_time': human_readable_number(summary3_time)}
+        return res, time_dict
+    elif return_mode == 2:
+        return res, time_dict, summary2_res
     return res

pyxllib 0.3.96__py3-none-any.whl → 0.3.197__py3-none-any.whl

pyxllib 0.3.96py3-none-any.whl → 0.3.197py3-none-any.whl