PyPI - pyxllib - Versions diffs - 0.3.96__py3-none-any.whl → 0.3.200__py3-none-any.whl - Mend

pyxllib 0.3.96py3-none-any.whl → 0.3.200py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (358) hide show

pyxllib/__init__.py +21 -21
pyxllib/algo/__init__.py +8 -8
pyxllib/algo/disjoint.py +54 -54
pyxllib/algo/geo.py +541 -529
pyxllib/algo/intervals.py +964 -964
pyxllib/algo/matcher.py +389 -311
pyxllib/algo/newbie.py +166 -166
pyxllib/algo/pupil.py +629 -461
pyxllib/algo/shapelylib.py +67 -67
pyxllib/algo/specialist.py +241 -240
pyxllib/algo/stat.py +494 -458
pyxllib/algo/treelib.py +149 -149
pyxllib/algo/unitlib.py +66 -66
{pyxlpr → pyxllib/autogui}/__init__.py +5 -5
pyxllib/autogui/activewin.py +246 -0
pyxllib/autogui/all.py +9 -0
pyxllib/{ext/autogui → autogui}/autogui.py +852 -823
pyxllib/autogui/uiautolib.py +362 -0
pyxllib/{ext/autogui → autogui}/virtualkey.py +102 -102
pyxllib/autogui/wechat.py +827 -0
pyxllib/autogui/wechat_msg.py +421 -0
pyxllib/autogui/wxautolib.py +84 -0
pyxllib/cv/__init__.py +5 -5
pyxllib/cv/expert.py +267 -267
pyxllib/cv/imfile.py +159 -159
pyxllib/cv/imhash.py +39 -39
pyxllib/cv/pupil.py +9 -9
pyxllib/cv/rgbfmt.py +1525 -1525
pyxllib/cv/slidercaptcha.py +137 -0
pyxllib/cv/trackbartools.py +251 -251
pyxllib/cv/xlcvlib.py +1040 -1040
pyxllib/cv/xlpillib.py +423 -423
pyxllib/data/echarts.py +240 -129
pyxllib/data/jsonlib.py +89 -0
pyxllib/data/oss.py +72 -72
pyxllib/data/pglib.py +1127 -643
pyxllib/data/sqlite.py +568 -341
pyxllib/data/sqllib.py +297 -297
pyxllib/ext/JLineViewer.py +505 -492
pyxllib/ext/__init__.py +6 -6
pyxllib/ext/demolib.py +246 -246
pyxllib/ext/drissionlib.py +277 -0
pyxllib/ext/kq5034lib.py +12 -1606
pyxllib/ext/old.py +663 -663
pyxllib/ext/qt.py +449 -449
pyxllib/ext/robustprocfile.py +497 -0
pyxllib/ext/seleniumlib.py +76 -76
pyxllib/ext/tk.py +173 -173
pyxllib/ext/unixlib.py +827 -826
pyxllib/ext/utools.py +351 -338
pyxllib/ext/webhook.py +124 -101
pyxllib/ext/win32lib.py +40 -40
pyxllib/ext/wjxlib.py +88 -0
pyxllib/ext/wpsapi.py +124 -0
pyxllib/ext/xlwork.py +9 -0
pyxllib/ext/yuquelib.py +1105 -173
pyxllib/file/__init__.py +17 -17
pyxllib/file/docxlib.py +761 -761
pyxllib/file/gitlib.py +309 -309
pyxllib/file/libreoffice.py +165 -0
pyxllib/file/movielib.py +148 -139
pyxllib/file/newbie.py +10 -10
pyxllib/file/onenotelib.py +1469 -1469
pyxllib/file/packlib/__init__.py +330 -293
pyxllib/file/packlib/zipfile.py +2441 -2441
pyxllib/file/pdflib.py +426 -426
pyxllib/file/pupil.py +185 -185
pyxllib/file/specialist/__init__.py +685 -685
pyxllib/file/specialist/dirlib.py +799 -799
pyxllib/file/specialist/download.py +193 -186
pyxllib/file/specialist/filelib.py +2829 -2618
pyxllib/file/xlsxlib.py +3131 -2976
pyxllib/file/xlsyncfile.py +341 -0
pyxllib/prog/__init__.py +5 -5
pyxllib/prog/cachetools.py +64 -0
pyxllib/prog/deprecatedlib.py +233 -233
pyxllib/prog/filelock.py +42 -0
pyxllib/prog/ipyexec.py +253 -253
pyxllib/prog/multiprogs.py +940 -0
pyxllib/prog/newbie.py +451 -444
pyxllib/prog/pupil.py +1197 -1128
pyxllib/prog/sitepackages.py +33 -33
pyxllib/prog/specialist/__init__.py +391 -217
pyxllib/prog/specialist/bc.py +203 -200
pyxllib/prog/specialist/browser.py +497 -488
pyxllib/prog/specialist/common.py +347 -347
pyxllib/prog/specialist/datetime.py +199 -131
pyxllib/prog/specialist/tictoc.py +240 -241
pyxllib/prog/specialist/xllog.py +180 -180
pyxllib/prog/xlosenv.py +108 -101
pyxllib/stdlib/__init__.py +17 -17
pyxllib/stdlib/tablepyxl/__init__.py +10 -10
pyxllib/stdlib/tablepyxl/style.py +303 -303
pyxllib/stdlib/tablepyxl/tablepyxl.py +130 -130
pyxllib/text/__init__.py +8 -8
pyxllib/text/ahocorasick.py +39 -39
pyxllib/text/airscript.js +744 -0
pyxllib/text/charclasslib.py +121 -109
pyxllib/text/jiebalib.py +267 -264
pyxllib/text/jinjalib.py +32 -0
pyxllib/text/jsa_ai_prompt.md +271 -0
pyxllib/text/jscode.py +922 -767
pyxllib/text/latex/__init__.py +158 -158
pyxllib/text/levenshtein.py +303 -303
pyxllib/text/nestenv.py +1215 -1215
pyxllib/text/newbie.py +300 -288
pyxllib/text/pupil/__init__.py +8 -8
pyxllib/text/pupil/common.py +1121 -1095
pyxllib/text/pupil/xlalign.py +326 -326
pyxllib/text/pycode.py +47 -47
pyxllib/text/specialist/__init__.py +8 -8
pyxllib/text/specialist/common.py +112 -112
pyxllib/text/specialist/ptag.py +186 -186
pyxllib/text/spellchecker.py +172 -172
pyxllib/text/templates/echart_base.html +11 -0
pyxllib/text/templates/highlight_code.html +17 -0
pyxllib/text/templates/latex_editor.html +103 -0
pyxllib/text/vbacode.py +17 -17
pyxllib/text/xmllib.py +747 -685
pyxllib/xl.py +42 -38
pyxllib/xlcv.py +17 -17
pyxllib-0.3.200.dist-info/METADATA +48 -0
pyxllib-0.3.200.dist-info/RECORD +126 -0
{pyxllib-0.3.96.dist-info → pyxllib-0.3.200.dist-info}/WHEEL +1 -2
{pyxllib-0.3.96.dist-info → pyxllib-0.3.200.dist-info/licenses}/LICENSE +190 -190
pyxllib/ext/autogui/__init__.py +0 -8
pyxllib-0.3.96.dist-info/METADATA +0 -51
pyxllib-0.3.96.dist-info/RECORD +0 -333
pyxllib-0.3.96.dist-info/top_level.txt +0 -2
pyxlpr/ai/__init__.py +0 -5
pyxlpr/ai/clientlib.py +0 -1281
pyxlpr/ai/specialist.py +0 -286
pyxlpr/ai/torch_app.py +0 -172
pyxlpr/ai/xlpaddle.py +0 -655
pyxlpr/ai/xltorch.py +0 -705
pyxlpr/data/__init__.py +0 -11
pyxlpr/data/coco.py +0 -1325
pyxlpr/data/datacls.py +0 -365
pyxlpr/data/datasets.py +0 -200
pyxlpr/data/gptlib.py +0 -1291
pyxlpr/data/icdar/__init__.py +0 -96
pyxlpr/data/icdar/deteval.py +0 -377
pyxlpr/data/icdar/icdar2013.py +0 -341
pyxlpr/data/icdar/iou.py +0 -340
pyxlpr/data/icdar/rrc_evaluation_funcs_1_1.py +0 -463
pyxlpr/data/imtextline.py +0 -473
pyxlpr/data/labelme.py +0 -866
pyxlpr/data/removeline.py +0 -179
pyxlpr/data/specialist.py +0 -57
pyxlpr/eval/__init__.py +0 -85
pyxlpr/paddleocr.py +0 -776
pyxlpr/ppocr/__init__.py +0 -15
pyxlpr/ppocr/configs/rec/multi_language/generate_multi_language_configs.py +0 -226
pyxlpr/ppocr/data/__init__.py +0 -135
pyxlpr/ppocr/data/imaug/ColorJitter.py +0 -26
pyxlpr/ppocr/data/imaug/__init__.py +0 -67
pyxlpr/ppocr/data/imaug/copy_paste.py +0 -170
pyxlpr/ppocr/data/imaug/east_process.py +0 -437
pyxlpr/ppocr/data/imaug/gen_table_mask.py +0 -244
pyxlpr/ppocr/data/imaug/iaa_augment.py +0 -114
pyxlpr/ppocr/data/imaug/label_ops.py +0 -789
pyxlpr/ppocr/data/imaug/make_border_map.py +0 -184
pyxlpr/ppocr/data/imaug/make_pse_gt.py +0 -106
pyxlpr/ppocr/data/imaug/make_shrink_map.py +0 -126
pyxlpr/ppocr/data/imaug/operators.py +0 -433
pyxlpr/ppocr/data/imaug/pg_process.py +0 -906
pyxlpr/ppocr/data/imaug/randaugment.py +0 -143
pyxlpr/ppocr/data/imaug/random_crop_data.py +0 -239
pyxlpr/ppocr/data/imaug/rec_img_aug.py +0 -533
pyxlpr/ppocr/data/imaug/sast_process.py +0 -777
pyxlpr/ppocr/data/imaug/text_image_aug/__init__.py +0 -17
pyxlpr/ppocr/data/imaug/text_image_aug/augment.py +0 -120
pyxlpr/ppocr/data/imaug/text_image_aug/warp_mls.py +0 -168
pyxlpr/ppocr/data/lmdb_dataset.py +0 -115
pyxlpr/ppocr/data/pgnet_dataset.py +0 -104
pyxlpr/ppocr/data/pubtab_dataset.py +0 -107
pyxlpr/ppocr/data/simple_dataset.py +0 -372
pyxlpr/ppocr/losses/__init__.py +0 -61
pyxlpr/ppocr/losses/ace_loss.py +0 -52
pyxlpr/ppocr/losses/basic_loss.py +0 -135
pyxlpr/ppocr/losses/center_loss.py +0 -88
pyxlpr/ppocr/losses/cls_loss.py +0 -30
pyxlpr/ppocr/losses/combined_loss.py +0 -67
pyxlpr/ppocr/losses/det_basic_loss.py +0 -208
pyxlpr/ppocr/losses/det_db_loss.py +0 -80
pyxlpr/ppocr/losses/det_east_loss.py +0 -63
pyxlpr/ppocr/losses/det_pse_loss.py +0 -149
pyxlpr/ppocr/losses/det_sast_loss.py +0 -121
pyxlpr/ppocr/losses/distillation_loss.py +0 -272
pyxlpr/ppocr/losses/e2e_pg_loss.py +0 -140
pyxlpr/ppocr/losses/kie_sdmgr_loss.py +0 -113
pyxlpr/ppocr/losses/rec_aster_loss.py +0 -99
pyxlpr/ppocr/losses/rec_att_loss.py +0 -39
pyxlpr/ppocr/losses/rec_ctc_loss.py +0 -44
pyxlpr/ppocr/losses/rec_enhanced_ctc_loss.py +0 -70
pyxlpr/ppocr/losses/rec_nrtr_loss.py +0 -30
pyxlpr/ppocr/losses/rec_sar_loss.py +0 -28
pyxlpr/ppocr/losses/rec_srn_loss.py +0 -47
pyxlpr/ppocr/losses/table_att_loss.py +0 -109
pyxlpr/ppocr/metrics/__init__.py +0 -44
pyxlpr/ppocr/metrics/cls_metric.py +0 -45
pyxlpr/ppocr/metrics/det_metric.py +0 -82
pyxlpr/ppocr/metrics/distillation_metric.py +0 -73
pyxlpr/ppocr/metrics/e2e_metric.py +0 -86
pyxlpr/ppocr/metrics/eval_det_iou.py +0 -274
pyxlpr/ppocr/metrics/kie_metric.py +0 -70
pyxlpr/ppocr/metrics/rec_metric.py +0 -75
pyxlpr/ppocr/metrics/table_metric.py +0 -50
pyxlpr/ppocr/modeling/architectures/__init__.py +0 -32
pyxlpr/ppocr/modeling/architectures/base_model.py +0 -88
pyxlpr/ppocr/modeling/architectures/distillation_model.py +0 -60
pyxlpr/ppocr/modeling/backbones/__init__.py +0 -54
pyxlpr/ppocr/modeling/backbones/det_mobilenet_v3.py +0 -268
pyxlpr/ppocr/modeling/backbones/det_resnet_vd.py +0 -246
pyxlpr/ppocr/modeling/backbones/det_resnet_vd_sast.py +0 -285
pyxlpr/ppocr/modeling/backbones/e2e_resnet_vd_pg.py +0 -265
pyxlpr/ppocr/modeling/backbones/kie_unet_sdmgr.py +0 -186
pyxlpr/ppocr/modeling/backbones/rec_mobilenet_v3.py +0 -138
pyxlpr/ppocr/modeling/backbones/rec_mv1_enhance.py +0 -258
pyxlpr/ppocr/modeling/backbones/rec_nrtr_mtb.py +0 -48
pyxlpr/ppocr/modeling/backbones/rec_resnet_31.py +0 -210
pyxlpr/ppocr/modeling/backbones/rec_resnet_aster.py +0 -143
pyxlpr/ppocr/modeling/backbones/rec_resnet_fpn.py +0 -307
pyxlpr/ppocr/modeling/backbones/rec_resnet_vd.py +0 -286
pyxlpr/ppocr/modeling/heads/__init__.py +0 -54
pyxlpr/ppocr/modeling/heads/cls_head.py +0 -52
pyxlpr/ppocr/modeling/heads/det_db_head.py +0 -118
pyxlpr/ppocr/modeling/heads/det_east_head.py +0 -121
pyxlpr/ppocr/modeling/heads/det_pse_head.py +0 -37
pyxlpr/ppocr/modeling/heads/det_sast_head.py +0 -128
pyxlpr/ppocr/modeling/heads/e2e_pg_head.py +0 -253
pyxlpr/ppocr/modeling/heads/kie_sdmgr_head.py +0 -206
pyxlpr/ppocr/modeling/heads/multiheadAttention.py +0 -163
pyxlpr/ppocr/modeling/heads/rec_aster_head.py +0 -393
pyxlpr/ppocr/modeling/heads/rec_att_head.py +0 -202
pyxlpr/ppocr/modeling/heads/rec_ctc_head.py +0 -88
pyxlpr/ppocr/modeling/heads/rec_nrtr_head.py +0 -826
pyxlpr/ppocr/modeling/heads/rec_sar_head.py +0 -402
pyxlpr/ppocr/modeling/heads/rec_srn_head.py +0 -280
pyxlpr/ppocr/modeling/heads/self_attention.py +0 -406
pyxlpr/ppocr/modeling/heads/table_att_head.py +0 -246
pyxlpr/ppocr/modeling/necks/__init__.py +0 -32
pyxlpr/ppocr/modeling/necks/db_fpn.py +0 -111
pyxlpr/ppocr/modeling/necks/east_fpn.py +0 -188
pyxlpr/ppocr/modeling/necks/fpn.py +0 -138
pyxlpr/ppocr/modeling/necks/pg_fpn.py +0 -314
pyxlpr/ppocr/modeling/necks/rnn.py +0 -92
pyxlpr/ppocr/modeling/necks/sast_fpn.py +0 -284
pyxlpr/ppocr/modeling/necks/table_fpn.py +0 -110
pyxlpr/ppocr/modeling/transforms/__init__.py +0 -28
pyxlpr/ppocr/modeling/transforms/stn.py +0 -135
pyxlpr/ppocr/modeling/transforms/tps.py +0 -308
pyxlpr/ppocr/modeling/transforms/tps_spatial_transformer.py +0 -156
pyxlpr/ppocr/optimizer/__init__.py +0 -61
pyxlpr/ppocr/optimizer/learning_rate.py +0 -228
pyxlpr/ppocr/optimizer/lr_scheduler.py +0 -49
pyxlpr/ppocr/optimizer/optimizer.py +0 -160
pyxlpr/ppocr/optimizer/regularizer.py +0 -52
pyxlpr/ppocr/postprocess/__init__.py +0 -55
pyxlpr/ppocr/postprocess/cls_postprocess.py +0 -33
pyxlpr/ppocr/postprocess/db_postprocess.py +0 -234
pyxlpr/ppocr/postprocess/east_postprocess.py +0 -143
pyxlpr/ppocr/postprocess/locality_aware_nms.py +0 -200
pyxlpr/ppocr/postprocess/pg_postprocess.py +0 -52
pyxlpr/ppocr/postprocess/pse_postprocess/__init__.py +0 -15
pyxlpr/ppocr/postprocess/pse_postprocess/pse/__init__.py +0 -29
pyxlpr/ppocr/postprocess/pse_postprocess/pse/setup.py +0 -14
pyxlpr/ppocr/postprocess/pse_postprocess/pse_postprocess.py +0 -118
pyxlpr/ppocr/postprocess/rec_postprocess.py +0 -654
pyxlpr/ppocr/postprocess/sast_postprocess.py +0 -355
pyxlpr/ppocr/tools/__init__.py +0 -14
pyxlpr/ppocr/tools/eval.py +0 -83
pyxlpr/ppocr/tools/export_center.py +0 -77
pyxlpr/ppocr/tools/export_model.py +0 -129
pyxlpr/ppocr/tools/infer/predict_cls.py +0 -151
pyxlpr/ppocr/tools/infer/predict_det.py +0 -300
pyxlpr/ppocr/tools/infer/predict_e2e.py +0 -169
pyxlpr/ppocr/tools/infer/predict_rec.py +0 -414
pyxlpr/ppocr/tools/infer/predict_system.py +0 -204
pyxlpr/ppocr/tools/infer/utility.py +0 -629
pyxlpr/ppocr/tools/infer_cls.py +0 -83
pyxlpr/ppocr/tools/infer_det.py +0 -134
pyxlpr/ppocr/tools/infer_e2e.py +0 -122
pyxlpr/ppocr/tools/infer_kie.py +0 -153
pyxlpr/ppocr/tools/infer_rec.py +0 -146
pyxlpr/ppocr/tools/infer_table.py +0 -107
pyxlpr/ppocr/tools/program.py +0 -596
pyxlpr/ppocr/tools/test_hubserving.py +0 -117
pyxlpr/ppocr/tools/train.py +0 -163
pyxlpr/ppocr/tools/xlprog.py +0 -748
pyxlpr/ppocr/utils/EN_symbol_dict.txt +0 -94
pyxlpr/ppocr/utils/__init__.py +0 -24
pyxlpr/ppocr/utils/dict/ar_dict.txt +0 -117
pyxlpr/ppocr/utils/dict/arabic_dict.txt +0 -162
pyxlpr/ppocr/utils/dict/be_dict.txt +0 -145
pyxlpr/ppocr/utils/dict/bg_dict.txt +0 -140
pyxlpr/ppocr/utils/dict/chinese_cht_dict.txt +0 -8421
pyxlpr/ppocr/utils/dict/cyrillic_dict.txt +0 -163
pyxlpr/ppocr/utils/dict/devanagari_dict.txt +0 -167
pyxlpr/ppocr/utils/dict/en_dict.txt +0 -63
pyxlpr/ppocr/utils/dict/fa_dict.txt +0 -136
pyxlpr/ppocr/utils/dict/french_dict.txt +0 -136
pyxlpr/ppocr/utils/dict/german_dict.txt +0 -143
pyxlpr/ppocr/utils/dict/hi_dict.txt +0 -162
pyxlpr/ppocr/utils/dict/it_dict.txt +0 -118
pyxlpr/ppocr/utils/dict/japan_dict.txt +0 -4399
pyxlpr/ppocr/utils/dict/ka_dict.txt +0 -153
pyxlpr/ppocr/utils/dict/korean_dict.txt +0 -3688
pyxlpr/ppocr/utils/dict/latin_dict.txt +0 -185
pyxlpr/ppocr/utils/dict/mr_dict.txt +0 -153
pyxlpr/ppocr/utils/dict/ne_dict.txt +0 -153
pyxlpr/ppocr/utils/dict/oc_dict.txt +0 -96
pyxlpr/ppocr/utils/dict/pu_dict.txt +0 -130
pyxlpr/ppocr/utils/dict/rs_dict.txt +0 -91
pyxlpr/ppocr/utils/dict/rsc_dict.txt +0 -134
pyxlpr/ppocr/utils/dict/ru_dict.txt +0 -125
pyxlpr/ppocr/utils/dict/ta_dict.txt +0 -128
pyxlpr/ppocr/utils/dict/table_dict.txt +0 -277
pyxlpr/ppocr/utils/dict/table_structure_dict.txt +0 -2759
pyxlpr/ppocr/utils/dict/te_dict.txt +0 -151
pyxlpr/ppocr/utils/dict/ug_dict.txt +0 -114
pyxlpr/ppocr/utils/dict/uk_dict.txt +0 -142
pyxlpr/ppocr/utils/dict/ur_dict.txt +0 -137
pyxlpr/ppocr/utils/dict/xi_dict.txt +0 -110
pyxlpr/ppocr/utils/dict90.txt +0 -90
pyxlpr/ppocr/utils/e2e_metric/Deteval.py +0 -574
pyxlpr/ppocr/utils/e2e_metric/polygon_fast.py +0 -83
pyxlpr/ppocr/utils/e2e_utils/extract_batchsize.py +0 -87
pyxlpr/ppocr/utils/e2e_utils/extract_textpoint_fast.py +0 -457
pyxlpr/ppocr/utils/e2e_utils/extract_textpoint_slow.py +0 -592
pyxlpr/ppocr/utils/e2e_utils/pgnet_pp_utils.py +0 -162
pyxlpr/ppocr/utils/e2e_utils/visual.py +0 -162
pyxlpr/ppocr/utils/en_dict.txt +0 -95
pyxlpr/ppocr/utils/gen_label.py +0 -81
pyxlpr/ppocr/utils/ic15_dict.txt +0 -36
pyxlpr/ppocr/utils/iou.py +0 -54
pyxlpr/ppocr/utils/logging.py +0 -69
pyxlpr/ppocr/utils/network.py +0 -84
pyxlpr/ppocr/utils/ppocr_keys_v1.txt +0 -6623
pyxlpr/ppocr/utils/profiler.py +0 -110
pyxlpr/ppocr/utils/save_load.py +0 -150
pyxlpr/ppocr/utils/stats.py +0 -72
pyxlpr/ppocr/utils/utility.py +0 -80
pyxlpr/ppstructure/__init__.py +0 -13
pyxlpr/ppstructure/predict_system.py +0 -187
pyxlpr/ppstructure/table/__init__.py +0 -13
pyxlpr/ppstructure/table/eval_table.py +0 -72
pyxlpr/ppstructure/table/matcher.py +0 -192
pyxlpr/ppstructure/table/predict_structure.py +0 -136
pyxlpr/ppstructure/table/predict_table.py +0 -221
pyxlpr/ppstructure/table/table_metric/__init__.py +0 -16
pyxlpr/ppstructure/table/table_metric/parallel.py +0 -51
pyxlpr/ppstructure/table/table_metric/table_metric.py +0 -247
pyxlpr/ppstructure/table/tablepyxl/__init__.py +0 -13
pyxlpr/ppstructure/table/tablepyxl/style.py +0 -283
pyxlpr/ppstructure/table/tablepyxl/tablepyxl.py +0 -118
pyxlpr/ppstructure/utility.py +0 -71
pyxlpr/xlai.py +0 -10

pyxllib/text/jiebalib.py CHANGED Viewed

@@ -1,264 +1,267 @@
-#!/usr/bin/env python3
-# -*- coding: utf-8 -*-
-# @Author : 陈坤泽
-# @Email  : 877362867@qq.com
-# @Date   : 2023/11/05
-""" 基于jieba库的一些文本处理功能 """
-from collections import Counter
-import re
-from tqdm import tqdm
-import pandas as pd
-import jieba
-import jieba.posseg as pseg
-from pyxllib.prog.pupil import DictTool, run_once
-from pyxllib.file.specialist import XlPath
-from pyxllib.algo.stat import update_dataframes_to_excel
-def jieba_add_words(words):
-    for w in words:
-        jieba.add_word(w)
-def jieba_del_words(words):
-    for w in words:
-        jieba.del_word(w)
-@run_once('str')
-def jieba_cut(text):
-    return tuple(jieba.cut(text))
-@run_once('str')
-def pseg_cut(text):
-    return tuple(pseg.cut(text))
-def _count_word_frequency(texts, function_word=True):
-    """ 统计关键词出现频数 (主要是协助计算tf-idf)
-    :param texts: 输入字符串列表
-    :param function_word: 是否要统计虚词
-    :return: 一个dict
-        key: 分词名称
-        values: [x, y]，x是出现总频数，y是这个词在多少篇文章中出现过
-    >>> _count_word_frequency(['正正正正', '正反正', '反反反反'])
-    {'正正': [1, 1], '反反': [2, 1]}
-    原没有过滤词性的结果：{'正正': [2, 1], '正': [1, 1], '反正': [1, 1], '反反': [2, 1]}
-    """
-    d = dict()
-    for text in tqdm(texts, '词频统计'):
-        wordflags = list(pseg.cut(text))
-        words = set()
-        for word, flag in wordflags:
-            # 虚词不做记录
-            if (not function_word) and flag in ('uj', 'd', 'p', 'c', 'u', 'xc'):
-                continue
-            words.add(word)
-            if word not in d:
-                d[word] = [0, 0]
-            d[word][0] += 1
-        for word in words:
-            d[word][1] += 1
-    return d
-def analyse_tf_idf(texts, outfile=None, sheet_name='tf-idf', *, function_word=True):
-    """ 分析tf-idf值
-    :param list[str] texts: 多份文件的文本内容
-    :return: 一个DataFrame数据
-    这个算法jieba可能有些自带库可以搞，但是自己写一下也不难啦
-    注意我这里返回的tf-idf中，是放大了总频数倍的，这样显示的数值大一点，看起来舒服~
-    """
-    from math import log10
-    frequency = _count_word_frequency(texts, function_word)
-    DictTool.isub(frequency, [' ', '\t', '\n'])
-    n = len(texts)
-    sum_frequency = sum([v[0] for v in frequency.values()])
-    li = []
-    for k, v in frequency.items():
-        idf = log10(n / v[1])
-        # idf = 1
-        li.append([k, v[0], v[0] / sum_frequency, v[1], idf, v[0] * idf])
-    df = pd.DataFrame.from_records(li, columns=('词汇', '频数', '频率', '出现该词文章数', 'idf', 'tf-idf'))
-    df.sort_values(by='tf-idf', ascending=False, inplace=True)
-    if outfile:
-        update_dataframes_to_excel(outfile, {sheet_name: df})
-    return df
-class TextClassifier:
-    def __init__(self, texts=None):
-        """ 文本分类器
-        :param list[str] texts: 文本内容
-        """
-        self.texts = []
-        self.tfidf = {}
-        self.vecs = []  # 每份文本对应的向量化表达
-        self.default_tfidf = 1  # 如果没有计算tf-idf，可以全部默认用权重1
-        if texts:
-            for text in texts:
-                self.texts.append(text)
-    def get_text_tf(self, text, *,
-                    function_word_weight=0.2,
-                    normalize=True,
-                    ingore_words=(' ', '\t', '\n'),
-                    add_flag=False):
-        """ 这里可以定制提取text关键词的算法
-        :param function_word_weight: 这里可以自定义功能性词汇权重，一般是设一个小数降低权重
-        一般是定制一些过滤规则，比如过滤掉一些词性，或者过滤掉一些词
-        """
-        ct = Counter()
-        # 1 初步的分词，以及是否要过滤虚词
-        wordflags = list(pseg_cut(text))
-        for word, flag in wordflags:
-            if flag in ('uj', 'd', 'p', 'c', 'u', 'xc', 'x'):
-                if add_flag:
-                    ct[word + ',' + flag] += function_word_weight
-                else:
-                    ct[word] += function_word_weight
-            else:
-                if add_flag:
-                    ct[word + ',' + flag] += 1
-                else:
-                    ct[word] += 1
-        # 2 归一化一些词
-        if normalize:
-            ct2 = Counter()
-            for k, v in ct.items():
-                # 如果需要对一些词汇做归一化，也可以这里设置
-                k = re.sub(r'\d', '0', k)  # 把数字都换成0
-                ct2[k] += v
-            ct = ct2
-        # 3 过滤掉一些词
-        if ingore_words:
-            for k in ingore_words:
-                if k in ct:
-                    del ct[k]
-        return ct
-    def compute_tfidf(self, outfile=None, sheet_name='tf-idf', normalize=False, function_word_weight=0.2, add_flag=False):
-        """ 重算tfidf表 """
-        from math import log10
-        # 1 统计频数和出现该词的文章数
-        d = dict()
-        for text in tqdm(self.texts, '词频统计'):
-            ct = self.get_text_tf(text, normalize=normalize, function_word_weight=function_word_weight, add_flag=add_flag)
-            for k, v in ct.items():
-                if k not in d:
-                    d[k] = [0, 0]
-                d[k] = [d[k][0] + v, d[k][1] + 1]
-        # 2 计算tfidf
-        n = len(self.texts)
-        sum_tf = sum([v[0] for v in d.values()])
-        ls = []
-        for k, v in d.items():
-            idf = log10(n / v[1])
-            # idf = 1
-            ls.append([k, v[0], v[0] / sum_tf, v[1], idf, v[0] * idf])
-        df = pd.DataFrame.from_records(ls, columns=('词汇', '频数', '频率', '出现该词文章数', 'idf', 'tf-idf'))
-        df.sort_values(by='tf-idf', ascending=False, inplace=True)
-        # 3 保存到文件
-        if outfile:
-            update_dataframes_to_excel(outfile, {sheet_name: df})
-        self.tfidf = {row['词汇']: row['tf-idf'] for idx, row in df.iterrows()}
-        self.default_tfidf = df.loc[len(df) - 1]['tf-idf']  # 最后条的权重作为其他未见词的默认权重
-        return df
-    def normalization(self, d):
-        """ 向量归一化
-        输入一个类字典结构表示的向量，对向量做归一化处理
-        """
-        length = sum([v * v for v in d.values()]) ** 0.5  # 向量长度
-        return {k: v / length for k, v in d.items()}
-    def get_text_vec(self, text):
-        """ 获取文本的向量化表达
-        :param str text: 文本内容
-        """
-        ct = self.get_text_tf(text)
-        vec = {k: v * self.tfidf.get(k, self.default_tfidf) for k, v in ct.items()}
-        vec = self.normalization(vec)
-        return vec
-    def compute_vecs(self):
-        """ 重置向量化表达 """
-        vecs = []
-        for text in tqdm(self.texts, desc='query向量化'):
-            vecs.append(self.get_text_vec(text))
-        self.vecs = vecs
-        return vecs
-    def cosine_similar(self, x, y):
-        """ 两个向量的余弦相似度，值越大越相似
-        这里是简化的，只算两个向量的点积，请确保输入的都是单位长度的向量
-        注意这里x和y都是稀疏矩阵的存储形式，传入的是dict结构
-        """
-        keys = x.keys() & y.keys()  # 求出x和y共有的键值
-        return sum([x[k] * y[k] for k in keys])
-    def find_similar_vec(self, x, maxn=10):
-        """ 找与x最相近的向量，返回下标和相似度
-        :pamra x: 待查找的对象
-        :param maxn: 返回最相近的前maxn个对象
-        """
-        if isinstance(x, str):
-            x = self.get_text_vec(x)
-        # todo 使用并行计算？或者其实也可以向量化，但向量化是稀疏矩阵，挺占空间的
-        sims = [(i, self.cosine_similar(x, v)) for i, v in enumerate(self.vecs)]
-        sims.sort(key=lambda x: x[1], reverse=True)
-        return sims[:maxn]
-    def refine_vecs(self):
-        """ 优化向量数据 """
-        # 1 计算每个向量的长度
-        vecs = []
-        for vec in tqdm(self.vecs, '优化向量'):
-            vec = [(k, v) for k, v in vec.items()]
-            vec.sort(key=lambda x: x[1], reverse=True)
-            vec2 = {}
-            for k, v in vec:
-                if v < 0.0001:
-                    break
-                vec2[k] = round(v, 4)
-            vecs.append(vec2)
-        self.vecs = vecs
-        return self.vecs
+#!/usr/bin/env python3
+# -*- coding: utf-8 -*-
+# @Author : 陈坤泽
+# @Email  : 877362867@qq.com
+# @Date   : 2023/11/05
+""" 基于jieba库的一些文本处理功能 """
+from collections import Counter
+import re
+from tqdm import tqdm
+import pandas as pd
+import jieba
+import jieba.posseg as pseg
+from simhash import Simhash
+from pyxllib.prog.pupil import DictTool, run_once
+from pyxllib.file.specialist import XlPath
+from pyxllib.algo.stat import update_dataframes_to_excel
+def jieba_add_words(words):
+    for w in words:
+        jieba.add_word(w)
+def jieba_del_words(words):
+    for w in words:
+        jieba.del_word(w)
+@run_once('str')
+def jieba_cut(text):
+    return tuple(jieba.cut(text))
+@run_once('str')
+def pseg_cut(text):
+    return tuple(pseg.cut(text))
+def _count_word_frequency(texts, function_word=True):
+    """ 统计关键词出现频数 (主要是协助计算tf-idf)
+    :param texts: 输入字符串列表
+    :param function_word: 是否要统计虚词
+    :return: 一个dict
+        key: 分词名称
+        values: [x, y]，x是出现总频数，y是这个词在多少篇文章中出现过
+    >>> _count_word_frequency(['正正正正', '正反正', '反反反反'])
+    {'正正': [1, 1], '反反': [2, 1]}
+    原没有过滤词性的结果：{'正正': [2, 1], '正': [1, 1], '反正': [1, 1], '反反': [2, 1]}
+    """
+    d = dict()
+    for text in tqdm(texts, '词频统计'):
+        wordflags = list(pseg.cut(text))
+        words = set()
+        for word, flag in wordflags:
+            # 虚词不做记录
+            if (not function_word) and flag in ('uj', 'd', 'p', 'c', 'u', 'xc'):
+                continue
+            words.add(word)
+            if word not in d:
+                d[word] = [0, 0]
+            d[word][0] += 1
+        for word in words:
+            d[word][1] += 1
+    return d
+def analyse_tf_idf(texts, outfile=None, sheet_name='tf-idf', *, function_word=True):
+    """ 分析tf-idf值
+    :param list[str] texts: 多份文件的文本内容
+    :return: 一个DataFrame数据
+    这个算法jieba可能有些自带库可以搞，但是自己写一下也不难啦
+    注意我这里返回的tf-idf中，是放大了总频数倍的，这样显示的数值大一点，看起来舒服~
+    """
+    from math import log10
+    frequency = _count_word_frequency(texts, function_word)
+    DictTool.isub(frequency, [' ', '\t', '\n'])
+    n = len(texts)
+    sum_frequency = sum([v[0] for v in frequency.values()])
+    li = []
+    for k, v in frequency.items():
+        idf = log10(n / v[1])
+        # idf = 1
+        li.append([k, v[0], v[0] / sum_frequency, v[1], idf, v[0] * idf])
+    df = pd.DataFrame.from_records(li, columns=('词汇', '频数', '频率', '出现该词文章数', 'idf', 'tf-idf'))
+    df.sort_values(by='tf-idf', ascending=False, inplace=True)
+    if outfile:
+        update_dataframes_to_excel(outfile, {sheet_name: df})
+    return df
+class TextClassifier:
+    def __init__(self, texts=None):
+        """ 文本分类器
+        :param list[str] texts: 文本内容
+        """
+        self.texts = []
+        self.tfidf = {}
+        self.vecs = []  # 每份文本对应的向量化表达
+        self.default_tfidf = 1  # 如果没有计算tf-idf，可以全部默认用权重1
+        if texts:
+            for text in texts:
+                self.texts.append(text)
+    def get_text_tf(self, text, *,
+                    function_word_weight=0.2,
+                    normalize=True,
+                    ingore_words=(' ', '\t', '\n'),
+                    add_flag=False):
+        """ 这里可以定制提取text关键词的算法
+        :param function_word_weight: 这里可以自定义功能性词汇权重，一般是设一个小数降低权重
+        一般是定制一些过滤规则，比如过滤掉一些词性，或者过滤掉一些词
+        """
+        ct = Counter()
+        # 1 初步的分词，以及是否要过滤虚词
+        wordflags = list(pseg_cut(text))
+        for word, flag in wordflags:
+            if flag in ('uj', 'd', 'p', 'c', 'u', 'xc', 'x'):
+                if add_flag:
+                    ct[word + ',' + flag] += function_word_weight
+                else:
+                    ct[word] += function_word_weight
+            else:
+                if add_flag:
+                    ct[word + ',' + flag] += 1
+                else:
+                    ct[word] += 1
+        # 2 归一化一些词
+        if normalize:
+            ct2 = Counter()
+            for k, v in ct.items():
+                # 如果需要对一些词汇做归一化，也可以这里设置
+                k = re.sub(r'\d', '0', k)  # 把数字都换成0
+                ct2[k] += v
+            ct = ct2
+        # 3 过滤掉一些词
+        if ingore_words:
+            for k in ingore_words:
+                if k in ct:
+                    del ct[k]
+        return ct
+    def compute_tfidf(self, outfile=None, sheet_name='tf-idf', normalize=False, function_word_weight=0.2,
+                      add_flag=False):
+        """ 重算tfidf表 """
+        from math import log10
+        # 1 统计频数和出现该词的文章数
+        d = dict()
+        for text in tqdm(self.texts, '词频统计'):
+            ct = self.get_text_tf(text, normalize=normalize, function_word_weight=function_word_weight,
+                                  add_flag=add_flag)
+            for k, v in ct.items():
+                if k not in d:
+                    d[k] = [0, 0]
+                d[k] = [d[k][0] + v, d[k][1] + 1]
+        # 2 计算tfidf
+        n = len(self.texts)
+        sum_tf = sum([v[0] for v in d.values()])
+        ls = []
+        for k, v in d.items():
+            idf = log10(n / v[1])
+            # idf = 1
+            ls.append([k, v[0], v[0] / sum_tf, v[1], idf, v[0] * idf])
+        df = pd.DataFrame.from_records(ls, columns=('词汇', '频数', '频率', '出现该词文章数', 'idf', 'tf-idf'))
+        df.sort_values(by='tf-idf', ascending=False, inplace=True)
+        # 3 保存到文件
+        if outfile:
+            update_dataframes_to_excel(outfile, {sheet_name: df})
+        self.tfidf = {row['词汇']: row['tf-idf'] for idx, row in df.iterrows()}
+        self.default_tfidf = df.loc[len(df) - 1]['tf-idf']  # 最后条的权重作为其他未见词的默认权重
+        return df
+    def normalization(self, d):
+        """ 向量归一化
+        输入一个类字典结构表示的向量，对向量做归一化处理
+        """
+        length = sum([v * v for v in d.values()]) ** 0.5  # 向量长度
+        return {k: v / length for k, v in d.items()}
+    def get_text_vec(self, text):
+        """ 获取文本的向量化表达
+        :param str text: 文本内容
+        """
+        ct = self.get_text_tf(text)
+        vec = {k: v * self.tfidf.get(k, self.default_tfidf) for k, v in ct.items()}
+        vec = self.normalization(vec)
+        return vec
+    def compute_vecs(self):
+        """ 重置向量化表达 """
+        vecs = []
+        for text in tqdm(self.texts, desc='query向量化'):
+            vecs.append(self.get_text_vec(text))
+        self.vecs = vecs
+        return vecs
+    def cosine_similar(self, x, y):
+        """ 两个向量的余弦相似度，值越大越相似
+        这里是简化的，只算两个向量的点积，请确保输入的都是单位长度的向量
+        注意这里x和y都是稀疏矩阵的存储形式，传入的是dict结构
+        """
+        keys = x.keys() & y.keys()  # 求出x和y共有的键值
+        return sum([x[k] * y[k] for k in keys])
+    def find_similar_vec(self, x, maxn=10):
+        """ 找与x最相近的向量，返回下标和相似度
+        :pamra x: 待查找的对象
+        :param maxn: 返回最相近的前maxn个对象
+        """
+        if isinstance(x, str):
+            x = self.get_text_vec(x)
+        # todo 使用并行计算？或者其实也可以向量化，但向量化是稀疏矩阵，挺占空间的
+        sims = [(i, self.cosine_similar(x, v)) for i, v in enumerate(self.vecs)]
+        sims.sort(key=lambda x: x[1], reverse=True)
+        return sims[:maxn]
+    def refine_vecs(self):
+        """ 优化向量数据，去掉权重小余0.0001的维度 """
+        # 1 计算每个向量的长度
+        vecs = []
+        for vec in tqdm(self.vecs, '优化向量'):
+            vec = [(k, v) for k, v in vec.items()]
+            vec.sort(key=lambda x: x[1], reverse=True)
+            vec2 = {}
+            for k, v in vec:
+                if v < 0.0001:
+                    break
+                vec2[k] = round(v, 4)
+            vecs.append(vec2)
+        self.vecs = vecs
+        return self.vecs

pyxllib/text/jinjalib.py ADDED Viewed

@@ -0,0 +1,32 @@
+#!/usr/bin/env python3
+# -*- coding: utf-8 -*-
+# @Author : 陈坤泽
+# @Email  : 877362867@qq.com
+# @Date   : 2024/05/26
+from pyxllib.prog.pupil import check_install_package
+# 一个xpath解析库
+check_install_package('jinja2')
+import jinja2
+from jinja2 import Template, Environment
+from pyxllib.file.specialist import XlPath
+def set_template(s, *args, **kwargs):
+    """ todo 这个名字会不会太容易冲突了？ """
+    return Template(s.strip(), *args, **kwargs)
+def set_meta_template(s, meta_start='[[', meta_end=']]', **kwargs):
+    """ 支持预先用某些格式渲染后，再返回标准渲染模板 """
+    t = Template(s.strip(), variable_start_string=meta_start,
+                 variable_end_string=meta_end).render(**kwargs)
+    return Template(t)
+def get_jinja_template(name, **kwargs):
+    template = Environment(**kwargs).from_string((XlPath(__file__).parent / f'templates/{name}').read_text())
+    return template

pyxllib 0.3.96__py3-none-any.whl → 0.3.200__py3-none-any.whl

pyxllib 0.3.96py3-none-any.whl → 0.3.200py3-none-any.whl