PyPI - pyxllib - Versions diffs - 0.3.96__py3-none-any.whl → 0.3.197__py3-none-any.whl - Mend

pyxllib 0.3.96py3-none-any.whl → 0.3.197py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (306) hide show

pyxllib/algo/geo.py +12 -0
pyxllib/algo/intervals.py +1 -1
pyxllib/algo/matcher.py +78 -0
pyxllib/algo/pupil.py +187 -19
pyxllib/algo/specialist.py +2 -1
pyxllib/algo/stat.py +38 -2
{pyxlpr → pyxllib/autogui}/__init__.py +1 -1
pyxllib/autogui/activewin.py +246 -0
pyxllib/autogui/all.py +9 -0
pyxllib/{ext/autogui → autogui}/autogui.py +40 -11
pyxllib/autogui/uiautolib.py +362 -0
pyxllib/autogui/wechat.py +827 -0
pyxllib/autogui/wechat_msg.py +421 -0
pyxllib/autogui/wxautolib.py +84 -0
pyxllib/cv/slidercaptcha.py +137 -0
pyxllib/data/echarts.py +123 -12
pyxllib/data/jsonlib.py +89 -0
pyxllib/data/pglib.py +514 -30
pyxllib/data/sqlite.py +231 -4
pyxllib/ext/JLineViewer.py +14 -1
pyxllib/ext/drissionlib.py +277 -0
pyxllib/ext/kq5034lib.py +0 -1594
pyxllib/ext/robustprocfile.py +497 -0
pyxllib/ext/unixlib.py +6 -5
pyxllib/ext/utools.py +108 -95
pyxllib/ext/webhook.py +32 -14
pyxllib/ext/wjxlib.py +88 -0
pyxllib/ext/wpsapi.py +124 -0
pyxllib/ext/xlwork.py +9 -0
pyxllib/ext/yuquelib.py +1003 -71
pyxllib/file/docxlib.py +1 -1
pyxllib/file/libreoffice.py +165 -0
pyxllib/file/movielib.py +9 -0
pyxllib/file/packlib/__init__.py +112 -75
pyxllib/file/pdflib.py +1 -1
pyxllib/file/pupil.py +1 -1
pyxllib/file/specialist/dirlib.py +1 -1
pyxllib/file/specialist/download.py +10 -3
pyxllib/file/specialist/filelib.py +266 -55
pyxllib/file/xlsxlib.py +205 -50
pyxllib/file/xlsyncfile.py +341 -0
pyxllib/prog/cachetools.py +64 -0
pyxllib/prog/filelock.py +42 -0
pyxllib/prog/multiprogs.py +940 -0
pyxllib/prog/newbie.py +9 -2
pyxllib/prog/pupil.py +129 -60
pyxllib/prog/specialist/__init__.py +176 -2
pyxllib/prog/specialist/bc.py +5 -2
pyxllib/prog/specialist/browser.py +11 -2
pyxllib/prog/specialist/datetime.py +68 -0
pyxllib/prog/specialist/tictoc.py +12 -13
pyxllib/prog/specialist/xllog.py +5 -5
pyxllib/prog/xlosenv.py +7 -0
pyxllib/text/airscript.js +744 -0
pyxllib/text/charclasslib.py +17 -5
pyxllib/text/jiebalib.py +6 -3
pyxllib/text/jinjalib.py +32 -0
pyxllib/text/jsa_ai_prompt.md +271 -0
pyxllib/text/jscode.py +159 -4
pyxllib/text/nestenv.py +1 -1
pyxllib/text/newbie.py +12 -0
pyxllib/text/pupil/common.py +26 -0
pyxllib/text/specialist/ptag.py +2 -2
pyxllib/text/templates/echart_base.html +11 -0
pyxllib/text/templates/highlight_code.html +17 -0
pyxllib/text/templates/latex_editor.html +103 -0
pyxllib/text/xmllib.py +76 -14
pyxllib/xl.py +2 -1
pyxllib-0.3.197.dist-info/METADATA +48 -0
pyxllib-0.3.197.dist-info/RECORD +126 -0
{pyxllib-0.3.96.dist-info → pyxllib-0.3.197.dist-info}/WHEEL +1 -2
pyxllib/ext/autogui/__init__.py +0 -8
pyxllib-0.3.96.dist-info/METADATA +0 -51
pyxllib-0.3.96.dist-info/RECORD +0 -333
pyxllib-0.3.96.dist-info/top_level.txt +0 -2
pyxlpr/ai/__init__.py +0 -5
pyxlpr/ai/clientlib.py +0 -1281
pyxlpr/ai/specialist.py +0 -286
pyxlpr/ai/torch_app.py +0 -172
pyxlpr/ai/xlpaddle.py +0 -655
pyxlpr/ai/xltorch.py +0 -705
pyxlpr/data/__init__.py +0 -11
pyxlpr/data/coco.py +0 -1325
pyxlpr/data/datacls.py +0 -365
pyxlpr/data/datasets.py +0 -200
pyxlpr/data/gptlib.py +0 -1291
pyxlpr/data/icdar/__init__.py +0 -96
pyxlpr/data/icdar/deteval.py +0 -377
pyxlpr/data/icdar/icdar2013.py +0 -341
pyxlpr/data/icdar/iou.py +0 -340
pyxlpr/data/icdar/rrc_evaluation_funcs_1_1.py +0 -463
pyxlpr/data/imtextline.py +0 -473
pyxlpr/data/labelme.py +0 -866
pyxlpr/data/removeline.py +0 -179
pyxlpr/data/specialist.py +0 -57
pyxlpr/eval/__init__.py +0 -85
pyxlpr/paddleocr.py +0 -776
pyxlpr/ppocr/__init__.py +0 -15
pyxlpr/ppocr/configs/rec/multi_language/generate_multi_language_configs.py +0 -226
pyxlpr/ppocr/data/__init__.py +0 -135
pyxlpr/ppocr/data/imaug/ColorJitter.py +0 -26
pyxlpr/ppocr/data/imaug/__init__.py +0 -67
pyxlpr/ppocr/data/imaug/copy_paste.py +0 -170
pyxlpr/ppocr/data/imaug/east_process.py +0 -437
pyxlpr/ppocr/data/imaug/gen_table_mask.py +0 -244
pyxlpr/ppocr/data/imaug/iaa_augment.py +0 -114
pyxlpr/ppocr/data/imaug/label_ops.py +0 -789
pyxlpr/ppocr/data/imaug/make_border_map.py +0 -184
pyxlpr/ppocr/data/imaug/make_pse_gt.py +0 -106
pyxlpr/ppocr/data/imaug/make_shrink_map.py +0 -126
pyxlpr/ppocr/data/imaug/operators.py +0 -433
pyxlpr/ppocr/data/imaug/pg_process.py +0 -906
pyxlpr/ppocr/data/imaug/randaugment.py +0 -143
pyxlpr/ppocr/data/imaug/random_crop_data.py +0 -239
pyxlpr/ppocr/data/imaug/rec_img_aug.py +0 -533
pyxlpr/ppocr/data/imaug/sast_process.py +0 -777
pyxlpr/ppocr/data/imaug/text_image_aug/__init__.py +0 -17
pyxlpr/ppocr/data/imaug/text_image_aug/augment.py +0 -120
pyxlpr/ppocr/data/imaug/text_image_aug/warp_mls.py +0 -168
pyxlpr/ppocr/data/lmdb_dataset.py +0 -115
pyxlpr/ppocr/data/pgnet_dataset.py +0 -104
pyxlpr/ppocr/data/pubtab_dataset.py +0 -107
pyxlpr/ppocr/data/simple_dataset.py +0 -372
pyxlpr/ppocr/losses/__init__.py +0 -61
pyxlpr/ppocr/losses/ace_loss.py +0 -52
pyxlpr/ppocr/losses/basic_loss.py +0 -135
pyxlpr/ppocr/losses/center_loss.py +0 -88
pyxlpr/ppocr/losses/cls_loss.py +0 -30
pyxlpr/ppocr/losses/combined_loss.py +0 -67
pyxlpr/ppocr/losses/det_basic_loss.py +0 -208
pyxlpr/ppocr/losses/det_db_loss.py +0 -80
pyxlpr/ppocr/losses/det_east_loss.py +0 -63
pyxlpr/ppocr/losses/det_pse_loss.py +0 -149
pyxlpr/ppocr/losses/det_sast_loss.py +0 -121
pyxlpr/ppocr/losses/distillation_loss.py +0 -272
pyxlpr/ppocr/losses/e2e_pg_loss.py +0 -140
pyxlpr/ppocr/losses/kie_sdmgr_loss.py +0 -113
pyxlpr/ppocr/losses/rec_aster_loss.py +0 -99
pyxlpr/ppocr/losses/rec_att_loss.py +0 -39
pyxlpr/ppocr/losses/rec_ctc_loss.py +0 -44
pyxlpr/ppocr/losses/rec_enhanced_ctc_loss.py +0 -70
pyxlpr/ppocr/losses/rec_nrtr_loss.py +0 -30
pyxlpr/ppocr/losses/rec_sar_loss.py +0 -28
pyxlpr/ppocr/losses/rec_srn_loss.py +0 -47
pyxlpr/ppocr/losses/table_att_loss.py +0 -109
pyxlpr/ppocr/metrics/__init__.py +0 -44
pyxlpr/ppocr/metrics/cls_metric.py +0 -45
pyxlpr/ppocr/metrics/det_metric.py +0 -82
pyxlpr/ppocr/metrics/distillation_metric.py +0 -73
pyxlpr/ppocr/metrics/e2e_metric.py +0 -86
pyxlpr/ppocr/metrics/eval_det_iou.py +0 -274
pyxlpr/ppocr/metrics/kie_metric.py +0 -70
pyxlpr/ppocr/metrics/rec_metric.py +0 -75
pyxlpr/ppocr/metrics/table_metric.py +0 -50
pyxlpr/ppocr/modeling/architectures/__init__.py +0 -32
pyxlpr/ppocr/modeling/architectures/base_model.py +0 -88
pyxlpr/ppocr/modeling/architectures/distillation_model.py +0 -60
pyxlpr/ppocr/modeling/backbones/__init__.py +0 -54
pyxlpr/ppocr/modeling/backbones/det_mobilenet_v3.py +0 -268
pyxlpr/ppocr/modeling/backbones/det_resnet_vd.py +0 -246
pyxlpr/ppocr/modeling/backbones/det_resnet_vd_sast.py +0 -285
pyxlpr/ppocr/modeling/backbones/e2e_resnet_vd_pg.py +0 -265
pyxlpr/ppocr/modeling/backbones/kie_unet_sdmgr.py +0 -186
pyxlpr/ppocr/modeling/backbones/rec_mobilenet_v3.py +0 -138
pyxlpr/ppocr/modeling/backbones/rec_mv1_enhance.py +0 -258
pyxlpr/ppocr/modeling/backbones/rec_nrtr_mtb.py +0 -48
pyxlpr/ppocr/modeling/backbones/rec_resnet_31.py +0 -210
pyxlpr/ppocr/modeling/backbones/rec_resnet_aster.py +0 -143
pyxlpr/ppocr/modeling/backbones/rec_resnet_fpn.py +0 -307
pyxlpr/ppocr/modeling/backbones/rec_resnet_vd.py +0 -286
pyxlpr/ppocr/modeling/heads/__init__.py +0 -54
pyxlpr/ppocr/modeling/heads/cls_head.py +0 -52
pyxlpr/ppocr/modeling/heads/det_db_head.py +0 -118
pyxlpr/ppocr/modeling/heads/det_east_head.py +0 -121
pyxlpr/ppocr/modeling/heads/det_pse_head.py +0 -37
pyxlpr/ppocr/modeling/heads/det_sast_head.py +0 -128
pyxlpr/ppocr/modeling/heads/e2e_pg_head.py +0 -253
pyxlpr/ppocr/modeling/heads/kie_sdmgr_head.py +0 -206
pyxlpr/ppocr/modeling/heads/multiheadAttention.py +0 -163
pyxlpr/ppocr/modeling/heads/rec_aster_head.py +0 -393
pyxlpr/ppocr/modeling/heads/rec_att_head.py +0 -202
pyxlpr/ppocr/modeling/heads/rec_ctc_head.py +0 -88
pyxlpr/ppocr/modeling/heads/rec_nrtr_head.py +0 -826
pyxlpr/ppocr/modeling/heads/rec_sar_head.py +0 -402
pyxlpr/ppocr/modeling/heads/rec_srn_head.py +0 -280
pyxlpr/ppocr/modeling/heads/self_attention.py +0 -406
pyxlpr/ppocr/modeling/heads/table_att_head.py +0 -246
pyxlpr/ppocr/modeling/necks/__init__.py +0 -32
pyxlpr/ppocr/modeling/necks/db_fpn.py +0 -111
pyxlpr/ppocr/modeling/necks/east_fpn.py +0 -188
pyxlpr/ppocr/modeling/necks/fpn.py +0 -138
pyxlpr/ppocr/modeling/necks/pg_fpn.py +0 -314
pyxlpr/ppocr/modeling/necks/rnn.py +0 -92
pyxlpr/ppocr/modeling/necks/sast_fpn.py +0 -284
pyxlpr/ppocr/modeling/necks/table_fpn.py +0 -110
pyxlpr/ppocr/modeling/transforms/__init__.py +0 -28
pyxlpr/ppocr/modeling/transforms/stn.py +0 -135
pyxlpr/ppocr/modeling/transforms/tps.py +0 -308
pyxlpr/ppocr/modeling/transforms/tps_spatial_transformer.py +0 -156
pyxlpr/ppocr/optimizer/__init__.py +0 -61
pyxlpr/ppocr/optimizer/learning_rate.py +0 -228
pyxlpr/ppocr/optimizer/lr_scheduler.py +0 -49
pyxlpr/ppocr/optimizer/optimizer.py +0 -160
pyxlpr/ppocr/optimizer/regularizer.py +0 -52
pyxlpr/ppocr/postprocess/__init__.py +0 -55
pyxlpr/ppocr/postprocess/cls_postprocess.py +0 -33
pyxlpr/ppocr/postprocess/db_postprocess.py +0 -234
pyxlpr/ppocr/postprocess/east_postprocess.py +0 -143
pyxlpr/ppocr/postprocess/locality_aware_nms.py +0 -200
pyxlpr/ppocr/postprocess/pg_postprocess.py +0 -52
pyxlpr/ppocr/postprocess/pse_postprocess/__init__.py +0 -15
pyxlpr/ppocr/postprocess/pse_postprocess/pse/__init__.py +0 -29
pyxlpr/ppocr/postprocess/pse_postprocess/pse/setup.py +0 -14
pyxlpr/ppocr/postprocess/pse_postprocess/pse_postprocess.py +0 -118
pyxlpr/ppocr/postprocess/rec_postprocess.py +0 -654
pyxlpr/ppocr/postprocess/sast_postprocess.py +0 -355
pyxlpr/ppocr/tools/__init__.py +0 -14
pyxlpr/ppocr/tools/eval.py +0 -83
pyxlpr/ppocr/tools/export_center.py +0 -77
pyxlpr/ppocr/tools/export_model.py +0 -129
pyxlpr/ppocr/tools/infer/predict_cls.py +0 -151
pyxlpr/ppocr/tools/infer/predict_det.py +0 -300
pyxlpr/ppocr/tools/infer/predict_e2e.py +0 -169
pyxlpr/ppocr/tools/infer/predict_rec.py +0 -414
pyxlpr/ppocr/tools/infer/predict_system.py +0 -204
pyxlpr/ppocr/tools/infer/utility.py +0 -629
pyxlpr/ppocr/tools/infer_cls.py +0 -83
pyxlpr/ppocr/tools/infer_det.py +0 -134
pyxlpr/ppocr/tools/infer_e2e.py +0 -122
pyxlpr/ppocr/tools/infer_kie.py +0 -153
pyxlpr/ppocr/tools/infer_rec.py +0 -146
pyxlpr/ppocr/tools/infer_table.py +0 -107
pyxlpr/ppocr/tools/program.py +0 -596
pyxlpr/ppocr/tools/test_hubserving.py +0 -117
pyxlpr/ppocr/tools/train.py +0 -163
pyxlpr/ppocr/tools/xlprog.py +0 -748
pyxlpr/ppocr/utils/EN_symbol_dict.txt +0 -94
pyxlpr/ppocr/utils/__init__.py +0 -24
pyxlpr/ppocr/utils/dict/ar_dict.txt +0 -117
pyxlpr/ppocr/utils/dict/arabic_dict.txt +0 -162
pyxlpr/ppocr/utils/dict/be_dict.txt +0 -145
pyxlpr/ppocr/utils/dict/bg_dict.txt +0 -140
pyxlpr/ppocr/utils/dict/chinese_cht_dict.txt +0 -8421
pyxlpr/ppocr/utils/dict/cyrillic_dict.txt +0 -163
pyxlpr/ppocr/utils/dict/devanagari_dict.txt +0 -167
pyxlpr/ppocr/utils/dict/en_dict.txt +0 -63
pyxlpr/ppocr/utils/dict/fa_dict.txt +0 -136
pyxlpr/ppocr/utils/dict/french_dict.txt +0 -136
pyxlpr/ppocr/utils/dict/german_dict.txt +0 -143
pyxlpr/ppocr/utils/dict/hi_dict.txt +0 -162
pyxlpr/ppocr/utils/dict/it_dict.txt +0 -118
pyxlpr/ppocr/utils/dict/japan_dict.txt +0 -4399
pyxlpr/ppocr/utils/dict/ka_dict.txt +0 -153
pyxlpr/ppocr/utils/dict/korean_dict.txt +0 -3688
pyxlpr/ppocr/utils/dict/latin_dict.txt +0 -185
pyxlpr/ppocr/utils/dict/mr_dict.txt +0 -153
pyxlpr/ppocr/utils/dict/ne_dict.txt +0 -153
pyxlpr/ppocr/utils/dict/oc_dict.txt +0 -96
pyxlpr/ppocr/utils/dict/pu_dict.txt +0 -130
pyxlpr/ppocr/utils/dict/rs_dict.txt +0 -91
pyxlpr/ppocr/utils/dict/rsc_dict.txt +0 -134
pyxlpr/ppocr/utils/dict/ru_dict.txt +0 -125
pyxlpr/ppocr/utils/dict/ta_dict.txt +0 -128
pyxlpr/ppocr/utils/dict/table_dict.txt +0 -277
pyxlpr/ppocr/utils/dict/table_structure_dict.txt +0 -2759
pyxlpr/ppocr/utils/dict/te_dict.txt +0 -151
pyxlpr/ppocr/utils/dict/ug_dict.txt +0 -114
pyxlpr/ppocr/utils/dict/uk_dict.txt +0 -142
pyxlpr/ppocr/utils/dict/ur_dict.txt +0 -137
pyxlpr/ppocr/utils/dict/xi_dict.txt +0 -110
pyxlpr/ppocr/utils/dict90.txt +0 -90
pyxlpr/ppocr/utils/e2e_metric/Deteval.py +0 -574
pyxlpr/ppocr/utils/e2e_metric/polygon_fast.py +0 -83
pyxlpr/ppocr/utils/e2e_utils/extract_batchsize.py +0 -87
pyxlpr/ppocr/utils/e2e_utils/extract_textpoint_fast.py +0 -457
pyxlpr/ppocr/utils/e2e_utils/extract_textpoint_slow.py +0 -592
pyxlpr/ppocr/utils/e2e_utils/pgnet_pp_utils.py +0 -162
pyxlpr/ppocr/utils/e2e_utils/visual.py +0 -162
pyxlpr/ppocr/utils/en_dict.txt +0 -95
pyxlpr/ppocr/utils/gen_label.py +0 -81
pyxlpr/ppocr/utils/ic15_dict.txt +0 -36
pyxlpr/ppocr/utils/iou.py +0 -54
pyxlpr/ppocr/utils/logging.py +0 -69
pyxlpr/ppocr/utils/network.py +0 -84
pyxlpr/ppocr/utils/ppocr_keys_v1.txt +0 -6623
pyxlpr/ppocr/utils/profiler.py +0 -110
pyxlpr/ppocr/utils/save_load.py +0 -150
pyxlpr/ppocr/utils/stats.py +0 -72
pyxlpr/ppocr/utils/utility.py +0 -80
pyxlpr/ppstructure/__init__.py +0 -13
pyxlpr/ppstructure/predict_system.py +0 -187
pyxlpr/ppstructure/table/__init__.py +0 -13
pyxlpr/ppstructure/table/eval_table.py +0 -72
pyxlpr/ppstructure/table/matcher.py +0 -192
pyxlpr/ppstructure/table/predict_structure.py +0 -136
pyxlpr/ppstructure/table/predict_table.py +0 -221
pyxlpr/ppstructure/table/table_metric/__init__.py +0 -16
pyxlpr/ppstructure/table/table_metric/parallel.py +0 -51
pyxlpr/ppstructure/table/table_metric/table_metric.py +0 -247
pyxlpr/ppstructure/table/tablepyxl/__init__.py +0 -13
pyxlpr/ppstructure/table/tablepyxl/style.py +0 -283
pyxlpr/ppstructure/table/tablepyxl/tablepyxl.py +0 -118
pyxlpr/ppstructure/utility.py +0 -71
pyxlpr/xlai.py +0 -10
/pyxllib/{ext/autogui → autogui}/virtualkey.py +0 -0
{pyxllib-0.3.96.dist-info → pyxllib-0.3.197.dist-info/licenses}/LICENSE +0 -0

pyxlpr/data/imtextline.py DELETED Viewed

@@ -1,473 +0,0 @@
-#!/usr/bin/env python3
-# -*- coding: utf-8 -*-
-# @Author : 陈坤泽
-# @Email  : 877362867@qq.com
-# @Date   : 2020/11/17
-""" 图片文本行标注相关处理
-"""
-from pyxllib.xlcv import *
-from functools import reduce
-from shapely.geometry import MultiPolygon
-from pyxllib.algo.geo import split_vector_interval
-from pyxllib.algo.disjoint import disjoint_set
-from pyxllib.algo.shapelylib import ShapelyPolygon
-class TextlineShape:
-    """ 一个文本行标注对象
-    这里的基础功能主要是几何关系计算，可以继承类后扩展其他功能
-    """
-    def __init__(self, box, *, shrink_bound=False):
-        """
-        :param box: 可以转成Polygon的数据类型
-        :param shrink_bound: 倾斜度过大的文本框，需要特殊处理，把外接矩形缩小会更准确些。
-            使用这个参数后，斜的框可以当成矩形框理解、处理
-        详细文档：https://www.yuque.com/xlpr/pyxllib/textlineshape
-        """
-        self.polygon = ShapelyPolygon.gen(box)
-        self.bounds = self.polygon.bounds
-        if shrink_bound:
-            b = self.bounds
-            total_area = (b[2] - b[0]) * (b[3] - b[1])
-            # 缩放比例
-            self.bounds = bound_scale(self.bounds, self.polygon.area / total_area)
-            # self.bounds = bound_scale(self.bounds, 0.5)
-        self.minx, self.maxx = self.bounds[0], self.bounds[2]
-        self.width = self.maxx - self.minx
-        self.miny, self.maxy = self.bounds[1], self.bounds[3]
-        self.height = self.maxy - self.miny
-        self.centroid = self.polygon.centroid
-    def in_the_same_line(self, other):
-        """ 两个框在同一个文本行（一般特指在同一水平行的文本） """
-        if other.miny < self.centroid.y < other.maxy:
-            return True
-        elif self.miny < other.centroid.y < self.maxy:
-            return True
-        else:
-            return False
-    def in_the_same_column(self, other):
-        if other.minx < self.centroid.x < other.maxx:
-            return True
-        elif self.minx < other.centroid.x < self.maxx:
-            return True
-        else:
-            return False
-    def is_lr_intersect(self, other, gap=5):
-        """ 左右相交
-        """
-        if other.minx - gap <= self.minx <= other.maxx + gap:
-            return True
-        elif other.minx - gap <= self.maxx <= other.maxx + gap:
-            return True
-        else:
-            return False
-    def is_tb_intersect(self, other, gap=5):
-        """ 上下相交
-        """
-        # 这个 gap 规则是不动产的，不能放在通用规则里
-        # gap = min(50, self.height / 2, other.height / 2)  # 允许的最大间距，默认按照最小的高，但还要再设置一个50的上限
-        if other.miny - gap <= self.miny <= other.maxy + gap:
-            return True
-        elif other.miny - gap <= self.maxy <= other.maxy + gap:
-            return True
-        else:
-            return False
-    def is_intersect(self, other):
-        return self.polygon.intersects(other)
-    def __add__(self, other):
-        """ 合并两个文本行 """
-        box = rect2polygon(MultiPolygon([self.polygon, other.polygon]).bounds)
-        return TextlineShape(box)
-    def __lt__(self, other):
-        """ 框的排序准则 """
-        if self.in_the_same_line(other):
-            return self.centroid.x < other.centroid.x
-        else:
-            return self.centroid.y < other.centroid.y
-    @classmethod
-    def merge(cls, shapes):
-        """ 将同张图片里的多个shape进行合并 """
-        # 1 对文本框分组
-        shape_groups = disjoint_set(shapes, lambda x, y: x.is_intersect(y))
-        # 2 合并文本内容
-        new_shapes = []
-        for group in shape_groups:
-            shape = reduce(lambda x, y: x + y, sorted(group))
-            new_shapes.append(shape)
-        return new_shapes
-def im_textline_split(im, maxsplit=None, minwidth=3):
-    """ 这是最基础版本的示例：比较干净，白底黑字，没有太大倾斜的处理情况
-    一般各种特殊任务的数据，需要根据具体任务定制、修改该函数
-    """
-    img = xlcv.read(im, 0)
-    m = np.mean(img)
-    # 比较干净的图可以这样，直接做二值化，并且对二值化中的图要求比较高，基本不能出现一个文字的像素
-    bi = img < m
-    vec = bi.sum(axis=0)
-    return split_vector_interval(vec, maxsplit=maxsplit, minwidth=minwidth)
-def merge_labels_by_widths(labels, widths, sep=' '):
-    """ 一组数量不少于len(widths)的labels，参照widths给的每一部分权重，合并文本内容
-    算是和图片分割配套的相关功能，往往文本内容要跟着图片的切割情况进行拆分
-    这个算法其实也可以用来做拆分，比如要把'abcdefg'拆成[20, 30]的两段，
-        可以用list先把前者变成单字符的list就行了 ['a', 'b', 'c', 'd', 'e', 'f', 'g']
-    :param labels: 一组字符串
-    :param widths: 一组参考宽度
-    :param sep: 拼接的时候使用的间隔符
-    :return: 尽可能拼接出符合参考宽度的一组字符串
-    >>> merge_labels_by_widths(['aa', 'bbb', 'c', 'ccc'], [10,10,20])
-    ['aa', 'bbb', 'c ccc']
-    >>> merge_labels_by_widths(['a', 'a', 'b', 'b'], [13, 10, 10])
-    ['a a', 'b', 'b']
-    >>> merge_labels_by_widths(['a', 'a', 'b', 'b'], [10, 10, 10])
-    ['a', 'a', 'b b']
-    >>> merge_labels_by_widths(['a', 'b', 'c'], [11, 12, 13])
-    ['a', 'b', 'c']
-    >>> merge_labels_by_widths(['a'], [10, 12])  # labels比widths少时，后面的统一用''填充
-    ['a', '']
-    >>> merge_labels_by_widths([''], [10, 12])
-    ['', '']
-    TODO 感觉实现的代码还有点凌乱，可能还有改进空间
-    """
-    # 1 统一量纲
-    if len(labels) < len(widths):
-        labels += [''] * (len(widths) - len(labels))
-    label_widths = [strwidth(x) for x in labels]
-    n_label = len(labels)
-    assert sum(widths), 'widths必须要有权重值'
-    r = sum(label_widths) / sum(widths)
-    widths = [r * w for w in widths]
-    # 2 用贪心算法合并
-    need_merge = n_label - len(widths)
-    i, k, new_labels = 0, 0, []
-    for w in widths:
-        if k < need_merge:
-            label_width = label_widths[i]
-            j = i + 1
-            while j < n_label and k < need_merge and abs(label_width + label_widths[j] - w) < abs(label_width - w):
-                label_width += label_widths[j]
-                j += 1
-                k += 1
-            new_labels.append(sep.join(labels[i:j]))
-            i = j
-        elif k == need_merge:
-            new_labels += labels[i:]
-            i = n_label
-            break
-    # 还有未匹配使用的，全部拼接到末尾
-    if i + 1 <= n_label:
-        new_labels[-1] = ' '.join([new_labels[-1]] + labels[i:])
-    return new_labels
-class TextlineAnnotation(TextlineShape):
-    """ coco格式的标注 """
-    def __init__(self, anno):
-        super().__init__(xywh2ltrb(anno['bbox']))
-        self.anno = anno
-    def __add__(self, other):
-        """ 两个coco标注的合并 """
-        # 以 self 框的属性为基准
-        anno, anno2 = self.anno.copy(), other.anno
-        # 合并后的 bbox
-        anno['bbox'] = ltrb2xywh(MultiPolygon([self.polygon, other.polygon]).bounds)
-        # 合并分割属性
-        if anno2['segmentation']:
-            anno['segmentation'] += anno2['segmentation']
-        # 合并 label
-        if 'label' in anno or 'label' in anno2:
-            text = anno2.get('label', '')
-            if text: text = ' ' + text
-            anno['label'] = anno.get('label', '') + text
-        return TextlineAnnotation(anno)
-    @classmethod
-    def merge(cls, annotations):
-        """ 合并同一文本行上相近、相交的文本标注 """
-        # 1 转 shape 格式
-        shapes = [cls(x) for x in annotations]
-        # 2 对文本框分组
-        shape_groups = disjoint_set(shapes, lambda x, y: x.in_the_same_line(y) and x.is_lr_intersect(y))
-        # 3 合并文本内容
-        new_shapes = []
-        for group in shape_groups:
-            shape = reduce(lambda x, y: x + y, sorted(group))
-            new_shapes.append(shape)
-        # 4 转回 annotations 格式
-        return [x.anno for x in new_shapes]
-    @classmethod
-    def split(cls, im, annotations, split_func=im_textline_split):
-        """ coco标注格式的处理，将图片im对应的文本行标注结果 annos，按照空白背景切分开
-        :param im: 图片数据
-        :param annotations: coco 格式的 annotations
-        :param split_func: 分析图片数据时所用投影分析函数，需要返回带有文本内容的列区间
-        如果有label文本，会跟着一起切割处理
-        :return:
-            新的annotations数组
-            注意，有的图片处理起来会有问题，此时会返回 []，建议丢弃这些图片
-        """
-        new_annos = []
-        for anno in annotations:
-            # 仅测试某个特定的 anno
-            # if anno['id'] != 2345:
-            #     continue
-            x, y, w, h = anno['bbox']
-            _, t, _, b = xywh2ltrb(anno['bbox'])
-            subim = xlcv.get_sub(im, xywh2ltrb(anno['bbox']))
-            spans = split_func(subim)
-            # print(anno['label'], spans)
-            # 左右放宽一些，并且计算基于全图的绝对坐标
-            spans = [[x + max(span[0] - 3, 0), x + min(span[1] + 3, w)] for span in spans]
-            if len(spans) == 0:
-                # 一些特殊情况，很可能是框标的位置偏了，质量不行
-                return []  # 整张图的标注都不要了，直接返回空值
-            elif len(spans) == 1:
-                l, r = spans[0]
-                a = copy.copy(anno)
-                a['bbox'] = ltrb2xywh([l, t, r, b])
-                new_annos.append(a)
-            else:  # 拆分出了多段
-                # 这里 label 最好也要拆一下
-                labels = anno['label'].split()
-                if len(labels) > len(spans):
-                    labels = merge_labels_by_widths(labels, [(span[1] - span[0]) for span in spans])
-                elif len(labels) < len(spans):
-                    # imwrite(subim, 'subim.jpg')
-                    # print(x, y, w, h)
-                    # 要检查出现这些情况的所有数据：labels的少于spans
-                    get_xllog().warning(DPrint.format({'$异常': 'len(labels)<len(spans)',
-                                                       'labels': labels, 'spans': spans}))
-                    # 这种情况先保留原始框
-                    new_annos.append(anno)
-                    continue
-                for span, label in zip(spans, labels):
-                    l, r = span
-                    a = copy.copy(anno)
-                    a['bbox'] = ltrb2xywh([l, t, r, b])
-                    a['label'] = label
-                    new_annos.append(a)
-        return new_annos
-class TextlineSpliter:
-    """
-    TextString2016、Casia 基本都可以直接用
-    """
-    @classmethod
-    def spliter(cls, im, maxsplit=None, minwidth=3):
-        """ （核心处理接口功能）比较干净，白底黑字，没有太大倾斜的处理情况
-        如果有其他特殊情况，记得要重置这个处理方式，见EnglishWord
-        :param im: 输入图片路径，或者np.ndarray矩阵
-        :param maxsplit: 最大切分数量，即最多得到几个子区间
-            没设置的时候，会对所有满足条件的情况进行切割
-        :param minwidth: 每个切分位置最小具有的宽度
-        :return: [(l, r), (l, r), ...]  每一段文本的左右区间
-        详细文档：https://www.yuque.com/xlpr/data/cx6xm5
-        """
-        img = xlcv.read(im, 0)
-        m = np.mean(img)
-        # 比较干净的图可以这样，直接做二值化，并且对二值化中的图要求比较高，基本不能出现一个文字的像素
-        bi = img < m
-        vec = bi.sum(axis=0) - 2
-        return split_vector_interval(vec, maxsplit=maxsplit, minwidth=minwidth)
-    @classmethod
-    def split_img(cls, file, maxsplit=None, minwidth=3):
-        """
-        :param file: 输入np.ndarray图片，或者pil图片，或者图片路径
-        :param maxsplit:
-        :param minwidth:
-        :return: 返回切分后的np.ndarray格式的图片清单
-        """
-        img = xlcv.read(file)
-        vec = cls.spliter(img, maxsplit, minwidth)
-        imgs = [img[:, l:r + 1] for l, r in vec]
-        return imgs
-    @classmethod
-    def spliter_img(cls, file, maxsplit=None, minwidth=3):
-        """ 可视化，测试一张图的切分效果
-        如果不是测试self.root里的图片，可以直接输入一个绝对路径的图片file
-        """
-        im = xlcv.read(file, 0)
-        cols = cls.spliter(im, maxsplit=maxsplit, minwidth=minwidth)
-        lines = [[c, 0, c, im.shape[0] - 1] for c in np.array(cols, dtype=int).reshape(-1)]
-        # 偶数区间划为为红色
-        im2 = xlcv.lines(im, lines[::4], [0, 0, 255])
-        im2 = xlcv.lines(im2, lines[1::4], [0, 0, 255])
-        # 奇数区间划分为蓝色
-        im2 = xlcv.lines(im2, lines[2::4], [255, 0, 0])
-        im2 = xlcv.lines(im2, lines[3::4], [255, 0, 0])
-        return im2
-    @classmethod
-    def show_spliter_imgs(cls, dir_state, *, save=None, show=True):
-        ImagesDir.debug_func(dir_state,  # 随机抽取10张图片
-                             lambda img_file: cls.spliter_img(img_file, maxsplit=None, minwidth=3),  # 执行功能
-                             save=save,  # 结果保存位置
-                             show=show)  # 是否imshow结果图
-    @classmethod
-    def relabel_labelfile(cls, p, maxsplit=None, minwidth=3, imgdir='images'):
-        """ 对一份文件里标注的所有图片，批量进行转换，并加入一列新的坐标数据 """
-        lines = p.read().splitlines()
-        res = []
-        for line in lines:
-            line = line.split(maxsplit=1)
-            im = xlcv.read(p.parent / f'{imgdir}/{line[0]}', 0)
-            cols = cls.spliter(im, maxsplit, minwidth)
-            line.append(' '.join(map(str, np.array(cols, dtype=int).reshape(-1))))
-            res.append('\t'.join(line))
-        content = '\n'.join(res)
-        p.with_stem(p.stem + f'+text_interval-minw={minwidth}').write(content, if_exists='replace')
-    @classmethod
-    def relabel_labelfiles(cls, root, maxsplit=None, minwidth=3, imgdir='images'):
-        """ 切分所有的文件
-        :param root: 根目录
-        :param imgdir: 图片所在子目录名称
-        :return:
-        """
-        root = Dir(root)
-        cls.relabel_labelfile(root / 'val.txt', maxsplit, minwidth, imgdir)
-        cls.relabel_labelfile(root / 'test.txt', maxsplit, minwidth, imgdir)
-        cls.relabel_labelfile(root / 'train.txt', maxsplit, minwidth, imgdir)
-    @classmethod
-    def split_labelfiles(cls, src, dst, minwidth=3, imgdir='images'):
-        def func(name):
-            """ 对一份文件里标注的所有图片，批量进行转换，并加入一列新的坐标数据
-            p  原来的.txt标注文件路径
-            p_im  原来的图片路径
-            q   切割后的.txt标注文件路径
-            q_im  切割后的图片路径
-            """
-            p, q = File(name, src), File(name, dst)
-            if not p: return
-            lines = p.read().splitlines()
-            res = []
-            for line in lines:
-                # 获得图片文件，切分的单词
-                line = line.split(maxsplit=1)
-                if len(line) < 2: continue
-                p_im = File(p.parent / f'{imgdir}/{line[0]}')
-                # print(p_im)
-                words = line[1].split()
-                if len(words) < 2:
-                    q_im = File(f'{imgdir}/{p_im.name}', dst)
-                    p_im.copy(q_im)
-                    res.append(f'{q_im.name}\t{words[0]}')
-                else:
-                    # 切分图片
-                    imgs = cls.split_img(p_im, len(words), minwidth)
-                    # 重新生成标注
-                    for k, im in enumerate(imgs):
-                        q_im = File(f'{imgdir}/{p_im.stem}_{k}', dst, suffix=p_im.suffix)
-                        xlcv.write(im, q_im, if_exists='replace')
-                        res.append(f'{q_im.name}\t{words[k]}')
-            content = '\n'.join(res)
-            q.write(content, if_exists='replace')
-        src, dst = Dir(src), Dir(dst)
-        for name in ['val.txt', 'test.txt', 'train.txt']:
-            # for name in ['append.txt']:
-            # for name in ['val.txt']:
-            func(name)
-class EnglishWordTLS(TextlineSpliter):
-    @classmethod
-    def spliter(cls, img, maxsplit=None, minwidth=3):
-        """ 同 TextLineSpliter.spliter
-            这个功能针对处理 带噪声干扰的白底黑字图片
-        """
-        img = xlcv.read(img, 0)
-        h, w = img.shape
-        vec = img[int(h / 3):int(2 * h / 3)].mean(axis=0)  # 只用上下中间的三分之一
-        vec = vec.mean() - vec + 5  # 文字变正，背景变负；因为背景有很多黑点噪声，还要多减一
-        return split_vector_interval(vec, maxsplit=maxsplit, minwidth=minwidth)
-class TLSMain:
-    def textstring2016(self):
-        # d = TextLineSpliter('/home/datasets/textGroup/TextString2016/')
-        d = r'D:\datasets\TextString2016'
-        # ob.test('images/T0000-03.jpg', minwidth=3)
-        TextlineSpliter.relabel_labelfiles(d, minwidth=3)
-    def casia(self):
-        os.chdir('/home/datasets/textGroup/casia/offlinehw/CASIA-HWDB2.x_pngImg_line')
-        TextlineSpliter.relabel_labelfiles('CASIA-HWDB2.0_savePTTSImg_line', minwidth=3)
-        TextlineSpliter.relabel_labelfiles('CASIA-HWDB2.1_savePTTSImg_line', minwidth=3)
-        TextlineSpliter.relabel_labelfiles('CASIA-HWDB2.2_savePTTSImg_line', minwidth=3)
-    def english_word(self):
-        # ob.test('total/1.jpg', 4, 3)
-        EnglishWordTLS.relabel_labelfiles(r'D:\datasets\english-word', minwidth=10, imgdir='total')
-    def sroie(self):
-        path = Dir('SROIE2019/task1train_626p_repo/task1train_626p_patch/')
-        root = Dir(path, '/home/datasets/textGroup')
-        TextlineSpliter.show_spliter_imgs(root.select('images/*.png').sample(10),
-                                          save=File(path / 'temp', '/home/datasets/textGroup'),
-                                          show=False)
-if __name__ == '__main__':
-    with TicToc(__name__):
-        pass

pyxllib 0.3.96__py3-none-any.whl → 0.3.197__py3-none-any.whl

pyxllib 0.3.96py3-none-any.whl → 0.3.197py3-none-any.whl