PyPI - openocr-python - Versions diffs - 0.0.2__py3-none-any.whl - Mend

openocr-python 0.0.2__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (323) hide show

openocr/__init__.py +11 -0
openocr/configs/det/dbnet/repvit_db.yml +173 -0
openocr/configs/rec/abinet/resnet45_trans_abinet_lang.yml +94 -0
openocr/configs/rec/abinet/resnet45_trans_abinet_wo_lang.yml +93 -0
openocr/configs/rec/abinet/svtrv2_abinet_lang.yml +130 -0
openocr/configs/rec/abinet/svtrv2_abinet_wo_lang.yml +128 -0
openocr/configs/rec/aster/resnet31_lstm_aster_tps_on.yml +93 -0
openocr/configs/rec/aster/svtrv2_aster.yml +127 -0
openocr/configs/rec/aster/svtrv2_aster_tps_on.yml +102 -0
openocr/configs/rec/autostr/autostr_lstm_aster_tps_on.yml +95 -0
openocr/configs/rec/busnet/svtrv2_busnet.yml +135 -0
openocr/configs/rec/busnet/svtrv2_busnet_pretraining.yml +134 -0
openocr/configs/rec/busnet/vit_busnet.yml +104 -0
openocr/configs/rec/busnet/vit_busnet_pretraining.yml +104 -0
openocr/configs/rec/cam/convnextv2_cam_tps_on.yml +118 -0
openocr/configs/rec/cam/convnextv2_tiny_cam_tps_on.yml +118 -0
openocr/configs/rec/cam/svtrv2_cam_tps_on.yml +123 -0
openocr/configs/rec/cdistnet/resnet45_trans_cdistnet.yml +93 -0
openocr/configs/rec/cdistnet/svtrv2_cdistnet.yml +139 -0
openocr/configs/rec/cppd/svtr_base_cppd.yml +123 -0
openocr/configs/rec/cppd/svtr_base_cppd_ch.yml +126 -0
openocr/configs/rec/cppd/svtr_base_cppd_h8.yml +123 -0
openocr/configs/rec/cppd/svtr_base_cppd_syn.yml +124 -0
openocr/configs/rec/cppd/svtrv2_cppd.yml +150 -0
openocr/configs/rec/dan/resnet45_fpn_dan.yml +98 -0
openocr/configs/rec/dan/svtrv2_dan.yml +130 -0
openocr/configs/rec/focalsvtr/focalsvtr_ctc.yml +137 -0
openocr/configs/rec/gtc/svtrv2_lnconv_nrtr_gtc.yml +168 -0
openocr/configs/rec/gtc/svtrv2_lnconv_smtr_gtc_long_infer.yml +151 -0
openocr/configs/rec/gtc/svtrv2_lnconv_smtr_gtc_smtr_long.yml +150 -0
openocr/configs/rec/gtc/svtrv2_lnconv_smtr_gtc_stream.yml +152 -0
openocr/configs/rec/igtr/svtr_base_ds_igtr.yml +157 -0
openocr/configs/rec/lister/focalsvtr_lister_wo_fem_maxratio12.yml +133 -0
openocr/configs/rec/lister/svtrv2_lister_wo_fem_maxratio12.yml +138 -0
openocr/configs/rec/lpv/svtr_base_lpv.yml +124 -0
openocr/configs/rec/lpv/svtr_base_lpv_wo_glrm.yml +123 -0
openocr/configs/rec/lpv/svtrv2_lpv.yml +147 -0
openocr/configs/rec/lpv/svtrv2_lpv_wo_glrm.yml +146 -0
openocr/configs/rec/maerec/vit_nrtr.yml +116 -0
openocr/configs/rec/matrn/resnet45_trans_matrn.yml +95 -0
openocr/configs/rec/matrn/svtrv2_matrn.yml +130 -0
openocr/configs/rec/mgpstr/svtrv2_mgpstr_only_char.yml +140 -0
openocr/configs/rec/mgpstr/vit_base_mgpstr_only_char.yml +111 -0
openocr/configs/rec/mgpstr/vit_large_mgpstr_only_char.yml +110 -0
openocr/configs/rec/mgpstr/vit_mgpstr.yml +110 -0
openocr/configs/rec/mgpstr/vit_mgpstr_only_char.yml +110 -0
openocr/configs/rec/moran/resnet31_lstm_moran.yml +92 -0
openocr/configs/rec/nrtr/focalsvtr_nrtr_maxraio12.yml +145 -0
openocr/configs/rec/nrtr/nrtr.yml +107 -0
openocr/configs/rec/nrtr/svtr_base_nrtr.yml +118 -0
openocr/configs/rec/nrtr/svtr_base_nrtr_syn.yml +119 -0
openocr/configs/rec/nrtr/svtrv2_nrtr.yml +146 -0
openocr/configs/rec/ote/svtr_base_h8_ote.yml +117 -0
openocr/configs/rec/ote/svtr_base_ote.yml +116 -0
openocr/configs/rec/parseq/focalsvtr_parseq_maxratio12.yml +140 -0
openocr/configs/rec/parseq/svrtv2_parseq.yml +136 -0
openocr/configs/rec/parseq/vit_parseq.yml +100 -0
openocr/configs/rec/robustscanner/resnet31_robustscanner.yml +102 -0
openocr/configs/rec/robustscanner/svtrv2_robustscanner.yml +134 -0
openocr/configs/rec/sar/resnet31_lstm_sar.yml +94 -0
openocr/configs/rec/sar/svtrv2_sar.yml +128 -0
openocr/configs/rec/seed/resnet31_lstm_seed_tps_on.yml +96 -0
openocr/configs/rec/smtr/focalsvtr_smtr.yml +150 -0
openocr/configs/rec/smtr/focalsvtr_smtr_long.yml +133 -0
openocr/configs/rec/smtr/svtrv2_smtr.yml +150 -0
openocr/configs/rec/smtr/svtrv2_smtr_bi.yml +136 -0
openocr/configs/rec/srn/resnet50_fpn_srn.yml +97 -0
openocr/configs/rec/srn/svtrv2_srn.yml +131 -0
openocr/configs/rec/svtrs/convnextv2_ctc.yml +105 -0
openocr/configs/rec/svtrs/convnextv2_h8_ctc.yml +105 -0
openocr/configs/rec/svtrs/convnextv2_h8_rctc.yml +106 -0
openocr/configs/rec/svtrs/convnextv2_rctc.yml +106 -0
openocr/configs/rec/svtrs/convnextv2_tiny_h8_ctc.yml +105 -0
openocr/configs/rec/svtrs/convnextv2_tiny_h8_rctc.yml +106 -0
openocr/configs/rec/svtrs/crnn_ctc.yml +99 -0
openocr/configs/rec/svtrs/crnn_ctc_long.yml +116 -0
openocr/configs/rec/svtrs/focalnet_base_ctc.yml +108 -0
openocr/configs/rec/svtrs/focalnet_base_rctc.yml +109 -0
openocr/configs/rec/svtrs/focalsvtr_ctc.yml +106 -0
openocr/configs/rec/svtrs/focalsvtr_rctc.yml +107 -0
openocr/configs/rec/svtrs/resnet45_trans_ctc.yml +103 -0
openocr/configs/rec/svtrs/resnet45_trans_rctc.yml +104 -0
openocr/configs/rec/svtrs/svtr_base_ctc.yml +110 -0
openocr/configs/rec/svtrs/svtr_base_rctc.yml +111 -0
openocr/configs/rec/svtrs/svtrnet_ctc_syn.yml +111 -0
openocr/configs/rec/svtrs/vit_ctc.yml +103 -0
openocr/configs/rec/svtrs/vit_rctc.yml +103 -0
openocr/configs/rec/svtrv2/repsvtr_ch.yml +121 -0
openocr/configs/rec/svtrv2/svtrv2_ch.yml +133 -0
openocr/configs/rec/svtrv2/svtrv2_ctc.yml +136 -0
openocr/configs/rec/svtrv2/svtrv2_rctc.yml +135 -0
openocr/configs/rec/svtrv2/svtrv2_small_rctc.yml +135 -0
openocr/configs/rec/svtrv2/svtrv2_smtr_gtc_rctc.yml +162 -0
openocr/configs/rec/svtrv2/svtrv2_smtr_gtc_rctc_ch.yml +153 -0
openocr/configs/rec/svtrv2/svtrv2_tiny_rctc.yml +135 -0
openocr/configs/rec/visionlan/resnet45_trans_visionlan_LA.yml +103 -0
openocr/configs/rec/visionlan/resnet45_trans_visionlan_LF_1.yml +102 -0
openocr/configs/rec/visionlan/resnet45_trans_visionlan_LF_2.yml +103 -0
openocr/configs/rec/visionlan/svtrv2_visionlan_LA.yml +112 -0
openocr/configs/rec/visionlan/svtrv2_visionlan_LF_1.yml +111 -0
openocr/configs/rec/visionlan/svtrv2_visionlan_LF_2.yml +112 -0
openocr/demo_gradio.py +128 -0
openocr/opendet/modeling/__init__.py +11 -0
openocr/opendet/modeling/backbones/__init__.py +14 -0
openocr/opendet/modeling/backbones/repvit.py +340 -0
openocr/opendet/modeling/base_detector.py +69 -0
openocr/opendet/modeling/heads/__init__.py +14 -0
openocr/opendet/modeling/heads/db_head.py +73 -0
openocr/opendet/modeling/necks/__init__.py +14 -0
openocr/opendet/modeling/necks/db_fpn.py +609 -0
openocr/opendet/postprocess/__init__.py +18 -0
openocr/opendet/postprocess/db_postprocess.py +273 -0
openocr/opendet/preprocess/__init__.py +154 -0
openocr/opendet/preprocess/crop_resize.py +121 -0
openocr/opendet/preprocess/db_resize_for_test.py +135 -0
openocr/openrec/losses/__init__.py +62 -0
openocr/openrec/losses/abinet_loss.py +42 -0
openocr/openrec/losses/ar_loss.py +23 -0
openocr/openrec/losses/cam_loss.py +48 -0
openocr/openrec/losses/cdistnet_loss.py +34 -0
openocr/openrec/losses/ce_loss.py +68 -0
openocr/openrec/losses/cppd_loss.py +77 -0
openocr/openrec/losses/ctc_loss.py +33 -0
openocr/openrec/losses/igtr_loss.py +12 -0
openocr/openrec/losses/lister_loss.py +14 -0
openocr/openrec/losses/lpv_loss.py +30 -0
openocr/openrec/losses/mgp_loss.py +34 -0
openocr/openrec/losses/parseq_loss.py +12 -0
openocr/openrec/losses/robustscanner_loss.py +20 -0
openocr/openrec/losses/seed_loss.py +46 -0
openocr/openrec/losses/smtr_loss.py +12 -0
openocr/openrec/losses/srn_loss.py +40 -0
openocr/openrec/losses/visionlan_loss.py +58 -0
openocr/openrec/metrics/__init__.py +19 -0
openocr/openrec/metrics/rec_metric.py +270 -0
openocr/openrec/metrics/rec_metric_gtc.py +58 -0
openocr/openrec/metrics/rec_metric_long.py +142 -0
openocr/openrec/metrics/rec_metric_mgp.py +93 -0
openocr/openrec/modeling/__init__.py +11 -0
openocr/openrec/modeling/base_recognizer.py +69 -0
openocr/openrec/modeling/common.py +238 -0
openocr/openrec/modeling/decoders/__init__.py +109 -0
openocr/openrec/modeling/decoders/abinet_decoder.py +283 -0
openocr/openrec/modeling/decoders/aster_decoder.py +170 -0
openocr/openrec/modeling/decoders/bus_decoder.py +133 -0
openocr/openrec/modeling/decoders/cam_decoder.py +43 -0
openocr/openrec/modeling/decoders/cdistnet_decoder.py +334 -0
openocr/openrec/modeling/decoders/cppd_decoder.py +393 -0
openocr/openrec/modeling/decoders/ctc_decoder.py +203 -0
openocr/openrec/modeling/decoders/dan_decoder.py +203 -0
openocr/openrec/modeling/decoders/igtr_decoder.py +815 -0
openocr/openrec/modeling/decoders/lister_decoder.py +535 -0
openocr/openrec/modeling/decoders/lpv_decoder.py +119 -0
openocr/openrec/modeling/decoders/matrn_decoder.py +236 -0
openocr/openrec/modeling/decoders/mgp_decoder.py +99 -0
openocr/openrec/modeling/decoders/nrtr_decoder.py +439 -0
openocr/openrec/modeling/decoders/ote_decoder.py +205 -0
openocr/openrec/modeling/decoders/parseq_decoder.py +504 -0
openocr/openrec/modeling/decoders/rctc_decoder.py +70 -0
openocr/openrec/modeling/decoders/robustscanner_decoder.py +749 -0
openocr/openrec/modeling/decoders/sar_decoder.py +236 -0
openocr/openrec/modeling/decoders/smtr_decoder.py +621 -0
openocr/openrec/modeling/decoders/smtr_decoder_nattn.py +521 -0
openocr/openrec/modeling/decoders/srn_decoder.py +283 -0
openocr/openrec/modeling/decoders/visionlan_decoder.py +321 -0
openocr/openrec/modeling/encoders/__init__.py +39 -0
openocr/openrec/modeling/encoders/autostr_encoder.py +327 -0
openocr/openrec/modeling/encoders/cam_encoder.py +760 -0
openocr/openrec/modeling/encoders/convnextv2.py +213 -0
openocr/openrec/modeling/encoders/focalsvtr.py +631 -0
openocr/openrec/modeling/encoders/nrtr_encoder.py +28 -0
openocr/openrec/modeling/encoders/rec_hgnet.py +346 -0
openocr/openrec/modeling/encoders/rec_lcnetv3.py +488 -0
openocr/openrec/modeling/encoders/rec_mobilenet_v3.py +132 -0
openocr/openrec/modeling/encoders/rec_mv1_enhance.py +254 -0
openocr/openrec/modeling/encoders/rec_nrtr_mtb.py +37 -0
openocr/openrec/modeling/encoders/rec_resnet_31.py +213 -0
openocr/openrec/modeling/encoders/rec_resnet_45.py +183 -0
openocr/openrec/modeling/encoders/rec_resnet_fpn.py +216 -0
openocr/openrec/modeling/encoders/rec_resnet_vd.py +252 -0
openocr/openrec/modeling/encoders/repvit.py +338 -0
openocr/openrec/modeling/encoders/resnet31_rnn.py +123 -0
openocr/openrec/modeling/encoders/svtrnet.py +574 -0
openocr/openrec/modeling/encoders/svtrnet2dpos.py +616 -0
openocr/openrec/modeling/encoders/svtrv2.py +470 -0
openocr/openrec/modeling/encoders/svtrv2_lnconv.py +503 -0
openocr/openrec/modeling/encoders/svtrv2_lnconv_two33.py +517 -0
openocr/openrec/modeling/encoders/vit.py +120 -0
openocr/openrec/modeling/transforms/__init__.py +15 -0
openocr/openrec/modeling/transforms/aster_tps.py +262 -0
openocr/openrec/modeling/transforms/moran.py +136 -0
openocr/openrec/modeling/transforms/tps.py +246 -0
openocr/openrec/optimizer/__init__.py +73 -0
openocr/openrec/optimizer/lr.py +227 -0
openocr/openrec/postprocess/__init__.py +72 -0
openocr/openrec/postprocess/abinet_postprocess.py +37 -0
openocr/openrec/postprocess/ar_postprocess.py +63 -0
openocr/openrec/postprocess/ce_postprocess.py +43 -0
openocr/openrec/postprocess/char_postprocess.py +108 -0
openocr/openrec/postprocess/cppd_postprocess.py +42 -0
openocr/openrec/postprocess/ctc_postprocess.py +119 -0
openocr/openrec/postprocess/igtr_postprocess.py +100 -0
openocr/openrec/postprocess/lister_postprocess.py +59 -0
openocr/openrec/postprocess/mgp_postprocess.py +143 -0
openocr/openrec/postprocess/nrtr_postprocess.py +75 -0
openocr/openrec/postprocess/smtr_postprocess.py +73 -0
openocr/openrec/postprocess/srn_postprocess.py +80 -0
openocr/openrec/postprocess/visionlan_postprocess.py +81 -0
openocr/openrec/preprocess/__init__.py +173 -0
openocr/openrec/preprocess/abinet_aug.py +473 -0
openocr/openrec/preprocess/abinet_label_encode.py +36 -0
openocr/openrec/preprocess/ar_label_encode.py +36 -0
openocr/openrec/preprocess/auto_augment.py +1012 -0
openocr/openrec/preprocess/cam_label_encode.py +141 -0
openocr/openrec/preprocess/ce_label_encode.py +116 -0
openocr/openrec/preprocess/char_label_encode.py +36 -0
openocr/openrec/preprocess/cppd_label_encode.py +173 -0
openocr/openrec/preprocess/ctc_label_encode.py +124 -0
openocr/openrec/preprocess/ep_label_encode.py +38 -0
openocr/openrec/preprocess/igtr_label_encode.py +360 -0
openocr/openrec/preprocess/mgp_label_encode.py +95 -0
openocr/openrec/preprocess/parseq_aug.py +150 -0
openocr/openrec/preprocess/rec_aug.py +211 -0
openocr/openrec/preprocess/resize.py +534 -0
openocr/openrec/preprocess/smtr_label_encode.py +125 -0
openocr/openrec/preprocess/srn_label_encode.py +37 -0
openocr/openrec/preprocess/visionlan_label_encode.py +67 -0
openocr/tools/create_lmdb_dataset.py +118 -0
openocr/tools/data/__init__.py +94 -0
openocr/tools/data/collate_fn.py +100 -0
openocr/tools/data/lmdb_dataset.py +142 -0
openocr/tools/data/lmdb_dataset_test.py +166 -0
openocr/tools/data/multi_scale_sampler.py +177 -0
openocr/tools/data/ratio_dataset.py +217 -0
openocr/tools/data/ratio_dataset_test.py +273 -0
openocr/tools/data/ratio_dataset_tvresize.py +213 -0
openocr/tools/data/ratio_dataset_tvresize_test.py +276 -0
openocr/tools/data/ratio_sampler.py +190 -0
openocr/tools/data/simple_dataset.py +263 -0
openocr/tools/data/strlmdb_dataset.py +143 -0
openocr/tools/engine/__init__.py +5 -0
openocr/tools/engine/config.py +158 -0
openocr/tools/engine/trainer.py +621 -0
openocr/tools/eval_rec.py +41 -0
openocr/tools/eval_rec_all_ch.py +184 -0
openocr/tools/eval_rec_all_en.py +206 -0
openocr/tools/eval_rec_all_long.py +119 -0
openocr/tools/eval_rec_all_long_simple.py +122 -0
openocr/tools/export_rec.py +118 -0
openocr/tools/infer/onnx_engine.py +65 -0
openocr/tools/infer/predict_rec.py +140 -0
openocr/tools/infer/utility.py +234 -0
openocr/tools/infer_det.py +449 -0
openocr/tools/infer_e2e.py +462 -0
openocr/tools/infer_e2e_parallel.py +184 -0
openocr/tools/infer_rec.py +371 -0
openocr/tools/train_rec.py +37 -0
openocr/tools/utility.py +45 -0
openocr/tools/utils/EN_symbol_dict.txt +94 -0
openocr/tools/utils/__init__.py +0 -0
openocr/tools/utils/ckpt.py +87 -0
openocr/tools/utils/dict/ar_dict.txt +117 -0
openocr/tools/utils/dict/arabic_dict.txt +161 -0
openocr/tools/utils/dict/be_dict.txt +145 -0
openocr/tools/utils/dict/bg_dict.txt +140 -0
openocr/tools/utils/dict/chinese_cht_dict.txt +8421 -0
openocr/tools/utils/dict/cyrillic_dict.txt +163 -0
openocr/tools/utils/dict/devanagari_dict.txt +167 -0
openocr/tools/utils/dict/en_dict.txt +63 -0
openocr/tools/utils/dict/fa_dict.txt +136 -0
openocr/tools/utils/dict/french_dict.txt +136 -0
openocr/tools/utils/dict/german_dict.txt +143 -0
openocr/tools/utils/dict/hi_dict.txt +162 -0
openocr/tools/utils/dict/it_dict.txt +118 -0
openocr/tools/utils/dict/japan_dict.txt +4399 -0
openocr/tools/utils/dict/ka_dict.txt +153 -0
openocr/tools/utils/dict/kie_dict/xfund_class_list.txt +4 -0
openocr/tools/utils/dict/korean_dict.txt +3688 -0
openocr/tools/utils/dict/latex_symbol_dict.txt +111 -0
openocr/tools/utils/dict/latin_dict.txt +185 -0
openocr/tools/utils/dict/layout_dict/layout_cdla_dict.txt +10 -0
openocr/tools/utils/dict/layout_dict/layout_publaynet_dict.txt +5 -0
openocr/tools/utils/dict/layout_dict/layout_table_dict.txt +1 -0
openocr/tools/utils/dict/mr_dict.txt +153 -0
openocr/tools/utils/dict/ne_dict.txt +153 -0
openocr/tools/utils/dict/oc_dict.txt +96 -0
openocr/tools/utils/dict/pu_dict.txt +130 -0
openocr/tools/utils/dict/rs_dict.txt +91 -0
openocr/tools/utils/dict/rsc_dict.txt +134 -0
openocr/tools/utils/dict/ru_dict.txt +125 -0
openocr/tools/utils/dict/spin_dict.txt +68 -0
openocr/tools/utils/dict/ta_dict.txt +128 -0
openocr/tools/utils/dict/table_dict.txt +277 -0
openocr/tools/utils/dict/table_master_structure_dict.txt +39 -0
openocr/tools/utils/dict/table_structure_dict.txt +28 -0
openocr/tools/utils/dict/table_structure_dict_ch.txt +48 -0
openocr/tools/utils/dict/te_dict.txt +151 -0
openocr/tools/utils/dict/ug_dict.txt +114 -0
openocr/tools/utils/dict/uk_dict.txt +142 -0
openocr/tools/utils/dict/ur_dict.txt +137 -0
openocr/tools/utils/dict/xi_dict.txt +110 -0
openocr/tools/utils/dict90.txt +90 -0
openocr/tools/utils/e2e_metric/Deteval.py +802 -0
openocr/tools/utils/e2e_metric/polygon_fast.py +70 -0
openocr/tools/utils/e2e_utils/extract_batchsize.py +86 -0
openocr/tools/utils/e2e_utils/extract_textpoint_fast.py +479 -0
openocr/tools/utils/e2e_utils/extract_textpoint_slow.py +582 -0
openocr/tools/utils/e2e_utils/pgnet_pp_utils.py +159 -0
openocr/tools/utils/e2e_utils/visual.py +152 -0
openocr/tools/utils/en_dict.txt +95 -0
openocr/tools/utils/gen_label.py +68 -0
openocr/tools/utils/ic15_dict.txt +36 -0
openocr/tools/utils/logging.py +56 -0
openocr/tools/utils/poly_nms.py +132 -0
openocr/tools/utils/ppocr_keys_v1.txt +6623 -0
openocr/tools/utils/stats.py +58 -0
openocr/tools/utils/utility.py +165 -0
openocr/tools/utils/visual.py +117 -0
openocr_python-0.0.2.dist-info/LICENCE +201 -0
openocr_python-0.0.2.dist-info/METADATA +98 -0
openocr_python-0.0.2.dist-info/RECORD +323 -0
openocr_python-0.0.2.dist-info/WHEEL +5 -0
openocr_python-0.0.2.dist-info/top_level.txt +1 -0

openocr/openrec/preprocess/visionlan_label_encode.py ADDED Viewed

@@ -0,0 +1,67 @@
+from random import sample
+import numpy as np
+from .ctc_label_encode import BaseRecLabelEncode
+class VisionLANLabelEncode(BaseRecLabelEncode):
+    """Convert between text-label and text-index."""
+    def __init__(self,
+                 max_text_length,
+                 character_dict_path=None,
+                 use_space_char=False,
+                 **kwargs):
+        super(VisionLANLabelEncode,
+              self).__init__(max_text_length, character_dict_path,
+                             use_space_char)
+        self.dict = {}
+        for i, char in enumerate(self.character):
+            self.dict[char] = i
+    def __call__(self, data):
+        text = data['label']  # original string
+        # generate occluded text
+        len_str = len(text)
+        if len_str <= 0:
+            return None
+        change_num = 1
+        order = list(range(len_str))
+        change_id = sample(order, change_num)[0]
+        label_sub = text[change_id]
+        if change_id == (len_str - 1):
+            label_res = text[:change_id]
+        elif change_id == 0:
+            label_res = text[1:]
+        else:
+            label_res = text[:change_id] + text[change_id + 1:]
+        data['label_res'] = label_res  # remaining string
+        data['label_sub'] = label_sub  # occluded character
+        data['label_id'] = change_id  # character index
+        # encode label
+        text = self.encode(text)
+        if text is None:
+            return None
+        text = [i + 1 for i in text]
+        data['length'] = np.array(len(text))
+        text = text + [0] * (self.max_text_len + 1 - len(text))
+        data['label'] = np.array(text)
+        label_res = self.encode(label_res)
+        label_sub = self.encode(label_sub)
+        if label_res is None:
+            label_res = []
+        else:
+            label_res = [i + 1 for i in label_res]
+        if label_sub is None:
+            label_sub = []
+        else:
+            label_sub = [i + 1 for i in label_sub]
+        data['length_res'] = np.array(len(label_res))
+        data['length_sub'] = np.array(len(label_sub))
+        label_res = label_res + [0] * (self.max_text_len - len(label_res))
+        label_sub = label_sub + [0] * (self.max_text_len - len(label_sub))
+        data['label_res'] = np.array(label_res)
+        data['label_sub'] = np.array(label_sub)
+        return data

openocr/tools/create_lmdb_dataset.py ADDED Viewed

@@ -0,0 +1,118 @@
+import os
+import lmdb
+import cv2
+from tqdm import tqdm
+import numpy as np
+import io
+from PIL import Image
+""" a modified version of CRNN torch repository https://github.com/bgshih/crnn/blob/master/tool/create_dataset.py """
+def get_datalist(data_dir, data_path, max_len):
+    """
+    获取训练和验证的数据list
+    :param data_dir: 数据集根目录
+    :param data_path: 训练的dataset文件列表，每个文件内以如下格式存储 ‘path/to/img\tlabel’
+    :return:
+    """
+    train_data = []
+    if isinstance(data_path, list):
+        for p in data_path:
+            train_data.extend(get_datalist(data_dir, p, max_len))
+    else:
+        with open(data_path, 'r', encoding='utf-8') as f:
+            for line in tqdm(f.readlines(),
+                             desc=f'load data from {data_path}'):
+                line = (line.strip('\n').replace('.jpg ', '.jpg\t').replace(
+                    '.png ', '.png\t').split('\t'))
+                if len(line) > 1:
+                    img_path = os.path.join(data_dir, line[0].strip(' '))
+                    label = line[1]
+                    if len(label) > max_len:
+                        continue
+                    if os.path.exists(
+                            img_path) and os.path.getsize(img_path) > 0:
+                        train_data.append([str(img_path), label])
+    return train_data
+def checkImageIsValid(imageBin):
+    if imageBin is None:
+        return False
+    imageBuf = np.frombuffer(imageBin, dtype=np.uint8)
+    img = cv2.imdecode(imageBuf, cv2.IMREAD_GRAYSCALE)
+    imgH, imgW = img.shape[0], img.shape[1]
+    if imgH * imgW == 0:
+        return False
+    return True
+def writeCache(env, cache):
+    with env.begin(write=True) as txn:
+        for k, v in cache.items():
+            txn.put(k, v)
+def createDataset(data_list, outputPath, checkValid=True):
+    """
+    Create LMDB dataset for training and evaluation.
+    ARGS:
+        inputPath  : input folder path where starts imagePath
+        outputPath : LMDB output path
+        gtFile     : list of image path and label
+        checkValid : if true, check the validity of every image
+    """
+    os.makedirs(outputPath, exist_ok=True)
+    env = lmdb.open(outputPath, map_size=1099511627776)
+    cache = {}
+    cnt = 1
+    for imagePath, label in tqdm(data_list,
+                                 desc=f'make dataset, save to {outputPath}'):
+        with open(imagePath, 'rb') as f:
+            imageBin = f.read()
+            buf = io.BytesIO(imageBin)
+            w, h = Image.open(buf).size
+        if checkValid:
+            try:
+                if not checkImageIsValid(imageBin):
+                    print('%s is not a valid image' % imagePath)
+                    continue
+            except:
+                continue
+        imageKey = 'image-%09d'.encode() % cnt
+        labelKey = 'label-%09d'.encode() % cnt
+        whKey = 'wh-%09d'.encode() % cnt
+        cache[imageKey] = imageBin
+        cache[labelKey] = label.encode()
+        cache[whKey] = (str(w) + '_' + str(h)).encode()
+        if cnt % 1000 == 0:
+            writeCache(env, cache)
+            cache = {}
+        cnt += 1
+    nSamples = cnt - 1
+    cache['num-samples'.encode()] = str(nSamples).encode()
+    writeCache(env, cache)
+    print('Created dataset with %d samples' % nSamples)
+if __name__ == '__main__':
+    data_dir = './Union14M-L/'
+    label_file_list = [
+        './Union14M-L/train_annos/filter_jsonl_mmocr0.x/filter_train_challenging.jsonl.txt',
+        './Union14M-L/train_annos/filter_jsonl_mmocr0.x/filter_train_easy.jsonl.txt',
+        './Union14M-L/train_annos/filter_jsonl_mmocr0.x/filter_train_hard.jsonl.txt',
+        './Union14M-L/train_annos/filter_jsonl_mmocr0.x/filter_train_medium.jsonl.txt',
+        './Union14M-L/train_annos/filter_jsonl_mmocr0.x/filter_train_normal.jsonl.txt'
+    ]
+    save_path_root = './Union14M-L-LMDB-Filtered/'
+    for data_list in label_file_list:
+        save_path = save_path_root + data_list.split('/')[-1].split(
+            '.')[0] + '/'
+        os.makedirs(save_path, exist_ok=True)
+        print(save_path)
+        train_data_list = get_datalist(data_dir, data_list, 800)
+        createDataset(train_data_list, save_path)

openocr/tools/data/__init__.py ADDED Viewed

@@ -0,0 +1,94 @@
+import os
+import sys
+__dir__ = os.path.dirname(os.path.abspath(__file__))
+sys.path.append(os.path.abspath(os.path.join(__dir__, '../..')))
+import copy
+from torch.utils.data import DataLoader, DistributedSampler
+from tools.data.lmdb_dataset import LMDBDataSet
+from tools.data.lmdb_dataset_test import LMDBDataSetTest
+from tools.data.multi_scale_sampler import MultiScaleSampler
+from tools.data.ratio_dataset import RatioDataSet
+from tools.data.ratio_dataset_test import RatioDataSetTest
+from tools.data.ratio_dataset_tvresize_test import RatioDataSetTVResizeTest
+from tools.data.ratio_dataset_tvresize import RatioDataSetTVResize
+from tools.data.ratio_sampler import RatioSampler
+from tools.data.simple_dataset import MultiScaleDataSet, SimpleDataSet
+from tools.data.strlmdb_dataset import STRLMDBDataSet
+__all__ = [
+    'build_dataloader',
+    'transform',
+    'create_operators',
+]
+def build_dataloader(config, mode, logger, seed=None, epoch=3):
+    config = copy.deepcopy(config)
+    support_dict = [
+        'SimpleDataSet', 'LMDBDataSet', 'MultiScaleDataSet', 'STRLMDBDataSet',
+        'LMDBDataSetTest', 'RatioDataSet', 'RatioDataSetTest',
+        'RatioDataSetTVResize', 'RatioDataSetTVResizeTest'
+    ]
+    module_name = config[mode]['dataset']['name']
+    assert module_name in support_dict, Exception(
+        'DataSet only support {}/{}'.format(support_dict, module_name))
+    assert mode in ['Train', 'Eval',
+                    'Test'], 'Mode should be Train, Eval or Test.'
+    dataset = eval(module_name)(config, mode, logger, seed, epoch=epoch)
+    loader_config = config[mode]['loader']
+    batch_size = loader_config['batch_size_per_card']
+    drop_last = loader_config['drop_last']
+    shuffle = loader_config['shuffle']
+    num_workers = loader_config['num_workers']
+    if 'pin_memory' in loader_config.keys():
+        pin_memory = loader_config['use_shared_memory']
+    else:
+        pin_memory = False
+    sampler = None
+    batch_sampler = None
+    if 'sampler' in config[mode]:
+        config_sampler = config[mode]['sampler']
+        sampler_name = config_sampler.pop('name')
+        batch_sampler = eval(sampler_name)(dataset, **config_sampler)
+    elif config['Global']['distributed'] and mode == 'Train':
+        sampler = DistributedSampler(dataset=dataset, shuffle=shuffle)
+    if 'collate_fn' in loader_config:
+        from . import collate_fn
+        collate_fn = getattr(collate_fn, loader_config['collate_fn'])()
+    else:
+        collate_fn = None
+    if batch_sampler is None:
+        data_loader = DataLoader(
+            dataset=dataset,
+            sampler=sampler,
+            num_workers=num_workers,
+            pin_memory=pin_memory,
+            collate_fn=collate_fn,
+            batch_size=batch_size,
+            drop_last=drop_last,
+        )
+    else:
+        data_loader = DataLoader(
+            dataset=dataset,
+            batch_sampler=batch_sampler,
+            num_workers=num_workers,
+            pin_memory=pin_memory,
+            collate_fn=collate_fn,
+        )
+    if len(data_loader) == 0:
+        logger.error(
+            f'No Images in {mode.lower()} dataloader, please ensure\n'
+            '\t1. The images num in the train label_file_list should be larger than or equal with batch size.\n'
+            '\t2. The annotation file and path in the configuration file are provided normally.\n'
+            '\t3. The BatchSize is large than images.')
+        sys.exit()
+    return data_loader

openocr/tools/data/collate_fn.py ADDED Viewed

@@ -0,0 +1,100 @@
+import numbers
+from collections import defaultdict
+import numpy as np
+import torch
+class DictCollator(object):
+    """data batch."""
+    def __call__(self, batch):
+        data_dict = defaultdict(list)
+        to_tensor_keys = []
+        for sample in batch:
+            for k, v in sample.items():
+                if isinstance(v, (np.ndarray, torch.Tensor, numbers.Number)):
+                    if k not in to_tensor_keys:
+                        to_tensor_keys.append(k)
+                data_dict[k].append(v)
+        for k in to_tensor_keys:
+            data_dict[k] = torch.from_numpy(data_dict[k])
+        return data_dict
+class ListCollator(object):
+    """data batch."""
+    def __call__(self, batch):
+        data_dict = defaultdict(list)
+        to_tensor_idxs = []
+        for sample in batch:
+            for idx, v in enumerate(sample):
+                if isinstance(v, (np.ndarray, torch.Tensor, numbers.Number)):
+                    if idx not in to_tensor_idxs:
+                        to_tensor_idxs.append(idx)
+                data_dict[idx].append(v)
+        for idx in to_tensor_idxs:
+            data_dict[idx] = torch.from_numpy(data_dict[idx])
+        return list(data_dict.values())
+class SSLRotateCollate(object):
+    """
+    bach: [
+        [(4*3xH*W), (4,)]
+        [(4*3xH*W), (4,)]
+        ...
+    ]
+    """
+    def __call__(self, batch):
+        output = [np.concatenate(d, axis=0) for d in zip(*batch)]
+        return output
+class DyMaskCollator(object):
+    """
+    batch: [
+        image [batch_size, channel, maxHinbatch, maxWinbatch]
+        image_mask [batch_size, channel, maxHinbatch, maxWinbatch]
+        label [batch_size, maxLabelLen]
+        label_mask [batch_size, maxLabelLen]
+        ...
+    ]
+    """
+    def __call__(self, batch):
+        max_width, max_height, max_length = 0, 0, 0
+        bs, channel = len(batch), batch[0][0].shape[0]
+        proper_items = []
+        for item in batch:
+            if item[0].shape[1] * max_width > 1600 * 320 or item[0].shape[
+                    2] * max_height > 1600 * 320:
+                continue
+            max_height = item[0].shape[
+                1] if item[0].shape[1] > max_height else max_height
+            max_width = item[0].shape[
+                2] if item[0].shape[2] > max_width else max_width
+            max_length = len(
+                item[1]) if len(item[1]) > max_length else max_length
+            proper_items.append(item)
+        images, image_masks = np.zeros(
+            (len(proper_items), channel, max_height, max_width),
+            dtype='float32'), np.zeros(
+                (len(proper_items), 1, max_height, max_width), dtype='float32')
+        labels, label_masks = np.zeros((len(proper_items), max_length),
+                                       dtype='int64'), np.zeros(
+                                           (len(proper_items), max_length),
+                                           dtype='int64')
+        for i in range(len(proper_items)):
+            _, h, w = proper_items[i][0].shape
+            images[i][:, :h, :w] = proper_items[i][0]
+            image_masks[i][:, :h, :w] = 1
+            l = len(proper_items[i][1])
+            labels[i][:l] = proper_items[i][1]
+            label_masks[i][:l] = 1
+        return images, image_masks, labels, label_masks

openocr/tools/data/lmdb_dataset.py ADDED Viewed

@@ -0,0 +1,142 @@
+import os
+import cv2
+import lmdb
+import numpy as np
+from torch.utils.data import Dataset
+from openrec.preprocess import create_operators, transform
+class LMDBDataSet(Dataset):
+    def __init__(self, config, mode, logger, seed=None, epoch=1):
+        super(LMDBDataSet, self).__init__()
+        global_config = config['Global']
+        dataset_config = config[mode]['dataset']
+        loader_config = config[mode]['loader']
+        loader_config['batch_size_per_card']
+        data_dir = dataset_config['data_dir']
+        self.do_shuffle = loader_config['shuffle']
+        self.lmdb_sets = self.load_hierarchical_lmdb_dataset(data_dir)
+        logger.info(f'Initialize indexs of datasets: {data_dir}')
+        self.data_idx_order_list = self.dataset_traversal()
+        if self.do_shuffle:
+            np.random.shuffle(self.data_idx_order_list)
+        self.ops = create_operators(dataset_config['transforms'],
+                                    global_config)
+        self.ext_op_transform_idx = dataset_config.get('ext_op_transform_idx',
+                                                       1)
+        ratio_list = dataset_config.get('ratio_list', [1.0])
+        self.need_reset = True in [x < 1 for x in ratio_list]
+    def load_hierarchical_lmdb_dataset(self, data_dir):
+        lmdb_sets = {}
+        dataset_idx = 0
+        for dirpath, dirnames, filenames in os.walk(data_dir + '/'):
+            if not dirnames:
+                env = lmdb.open(
+                    dirpath,
+                    max_readers=32,
+                    readonly=True,
+                    lock=False,
+                    readahead=False,
+                    meminit=False,
+                )
+                txn = env.begin(write=False)
+                num_samples = int(txn.get('num-samples'.encode()))
+                lmdb_sets[dataset_idx] = {
+                    'dirpath': dirpath,
+                    'env': env,
+                    'txn': txn,
+                    'num_samples': num_samples,
+                }
+                dataset_idx += 1
+        return lmdb_sets
+    def dataset_traversal(self):
+        lmdb_num = len(self.lmdb_sets)
+        total_sample_num = 0
+        for lno in range(lmdb_num):
+            total_sample_num += self.lmdb_sets[lno]['num_samples']
+        data_idx_order_list = np.zeros((total_sample_num, 2))
+        beg_idx = 0
+        for lno in range(lmdb_num):
+            tmp_sample_num = self.lmdb_sets[lno]['num_samples']
+            end_idx = beg_idx + tmp_sample_num
+            data_idx_order_list[beg_idx:end_idx, 0] = lno
+            data_idx_order_list[beg_idx:end_idx,
+                                1] = list(range(tmp_sample_num))
+            data_idx_order_list[beg_idx:end_idx, 1] += 1
+            beg_idx = beg_idx + tmp_sample_num
+        return data_idx_order_list
+    def get_img_data(self, value):
+        """get_img_data."""
+        if not value:
+            return None
+        imgdata = np.frombuffer(value, dtype='uint8')
+        if imgdata is None:
+            return None
+        imgori = cv2.imdecode(imgdata, 1)
+        if imgori is None:
+            return None
+        return imgori
+    def get_ext_data(self):
+        ext_data_num = 0
+        for op in self.ops:
+            if hasattr(op, 'ext_data_num'):
+                ext_data_num = getattr(op, 'ext_data_num')
+                break
+        load_data_ops = self.ops[:self.ext_op_transform_idx]
+        ext_data = []
+        while len(ext_data) < ext_data_num:
+            lmdb_idx, file_idx = self.data_idx_order_list[np.random.randint(
+                len(self))]
+            lmdb_idx = int(lmdb_idx)
+            file_idx = int(file_idx)
+            sample_info = self.get_lmdb_sample_info(
+                self.lmdb_sets[lmdb_idx]['txn'], file_idx)
+            if sample_info is None:
+                continue
+            img, label = sample_info
+            data = {'image': img, 'label': label}
+            data = transform(data, load_data_ops)
+            if data is None:
+                continue
+            ext_data.append(data)
+        return ext_data
+    def get_lmdb_sample_info(self, txn, index):
+        label_key = 'label-%09d'.encode() % index
+        label = txn.get(label_key)
+        if label is None:
+            return None
+        label = label.decode('utf-8')
+        img_key = 'image-%09d'.encode() % index
+        imgbuf = txn.get(img_key)
+        return imgbuf, label
+    def __getitem__(self, idx):
+        lmdb_idx, file_idx = self.data_idx_order_list[idx]
+        lmdb_idx = int(lmdb_idx)
+        file_idx = int(file_idx)
+        sample_info = self.get_lmdb_sample_info(
+            self.lmdb_sets[lmdb_idx]['txn'], file_idx)
+        if sample_info is None:
+            return self.__getitem__(np.random.randint(self.__len__()))
+        img, label = sample_info
+        data = {'image': img, 'label': label}
+        data['ext_data'] = self.get_ext_data()
+        outs = transform(data, self.ops)
+        if outs is None:
+            return self.__getitem__(np.random.randint(self.__len__()))
+        return outs
+    def __len__(self):
+        return self.data_idx_order_list.shape[0]

openocr/tools/data/lmdb_dataset_test.py ADDED Viewed

@@ -0,0 +1,166 @@
+import io
+import re
+import unicodedata
+import lmdb
+from PIL import Image
+from torch.utils.data import Dataset
+from openrec.preprocess import create_operators, transform
+class CharsetAdapter:
+    """Transforms labels according to the target charset."""
+    def __init__(self, target_charset) -> None:
+        super().__init__()
+        self.lowercase_only = target_charset == target_charset.lower()
+        self.uppercase_only = target_charset == target_charset.upper()
+        self.unsupported = re.compile(f'[^{re.escape(target_charset)}]')
+    def __call__(self, label):
+        if self.lowercase_only:
+            label = label.lower()
+        elif self.uppercase_only:
+            label = label.upper()
+        # Remove unsupported characters
+        label = self.unsupported.sub('', label)
+        return label
+class LMDBDataSetTest(Dataset):
+    """Dataset interface to an LMDB database.
+    It supports both labelled and unlabelled datasets. For unlabelled datasets,
+    the image index itself is returned as the label. Unicode characters are
+    normalized by default. Case-sensitivity is inferred from the charset.
+    Labels are transformed according to the charset.
+    """
+    def __init__(self,
+                 config,
+                 mode,
+                 logger,
+                 seed=None,
+                 epoch=1,
+                 gpu_i=0,
+                 max_label_len: int = 25,
+                 min_image_dim: int = 0,
+                 remove_whitespace: bool = True,
+                 normalize_unicode: bool = True,
+                 unlabelled: bool = False,
+                 transform=None):
+        dataset_config = config[mode]['dataset']
+        global_config = config['Global']
+        max_label_len = global_config['max_text_length']
+        self.root = dataset_config['data_dir']
+        self._env = None
+        self.unlabelled = unlabelled
+        self.transform = transform
+        self.labels = []
+        self.filtered_index_list = []
+        self.min_image_dim = min_image_dim
+        self.filter_label = dataset_config.get('filter_label',
+                                               True)  #'data_dir']filter_label
+        character_dict_path = global_config.get('character_dict_path', None)
+        use_space_char = global_config.get('use_space_char', False)
+        if character_dict_path is None:
+            char_test = '0123456789abcdefghijklmnopqrstuvwxyz'
+        else:
+            char_test = ''
+            with open(character_dict_path, 'rb') as fin:
+                lines = fin.readlines()
+                for line in lines:
+                    line = line.decode('utf-8').strip('\n').strip('\r\n')
+                    char_test += line
+            if use_space_char:
+                char_test += ' '
+        self.ops = create_operators(dataset_config['transforms'],
+                                    global_config)
+        self.num_samples = self._preprocess_labels(char_test,
+                                                   remove_whitespace,
+                                                   normalize_unicode,
+                                                   max_label_len,
+                                                   min_image_dim)
+    def __del__(self):
+        if self._env is not None:
+            self._env.close()
+            self._env = None
+    def _create_env(self):
+        return lmdb.open(self.root,
+                         max_readers=1,
+                         readonly=True,
+                         create=False,
+                         readahead=False,
+                         meminit=False,
+                         lock=False)
+    @property
+    def env(self):
+        if self._env is None:
+            self._env = self._create_env()
+        return self._env
+    def _preprocess_labels(self, charset, remove_whitespace, normalize_unicode,
+                           max_label_len, min_image_dim):
+        charset_adapter = CharsetAdapter(charset)
+        with self._create_env() as env, env.begin() as txn:
+            num_samples = int(txn.get('num-samples'.encode()))
+            if self.unlabelled:
+                return num_samples
+            for index in range(num_samples):
+                index += 1  # lmdb starts with 1
+                label_key = f'label-{index:09d}'.encode()
+                label = txn.get(label_key).decode()
+                # Normally, whitespace is removed from the labels.
+                if remove_whitespace:
+                    label = ''.join(label.split())
+                # Normalize unicode composites (if any) and convert to compatible ASCII characters
+                if self.filter_label:
+                    # if normalize_unicode:
+                    label = unicodedata.normalize('NFKD', label).encode(
+                        'ascii', 'ignore').decode()
+                # Filter by length before removing unsupported characters. The original label might be too long.
+                if len(label) > max_label_len:
+                    continue
+                if self.filter_label:
+                    label = charset_adapter(label)
+                # We filter out samples which don't contain any supported characters
+                if not label:
+                    continue
+                # Filter images that are too small.
+                if min_image_dim > 0:
+                    img_key = f'image-{index:09d}'.encode()
+                    img = txn.get(img_key)
+                    data = {'image': img, 'label': label}
+                    outs = transform(data, self.ops)
+                    if outs is None:
+                        continue
+                    buf = io.BytesIO(img)
+                    w, h = Image.open(buf).size
+                    if w < self.min_image_dim or h < self.min_image_dim:
+                        continue
+                self.labels.append(label)
+                self.filtered_index_list.append(index)
+        return len(self.labels)
+    def __len__(self):
+        return self.num_samples
+    def __getitem__(self, index):
+        if self.unlabelled:
+            label = index
+        else:
+            label = self.labels[index]
+            index = self.filtered_index_list[index]
+        img_key = f'image-{index:09d}'.encode()
+        with self.env.begin() as txn:
+            img = txn.get(img_key)
+        data = {'image': img, 'label': label}
+        outs = transform(data, self.ops)
+        return outs