PyPI - openocr-python - Versions diffs - 0.0.2__py3-none-any.whl - Mend

openocr-python 0.0.2__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (323) hide show

openocr/__init__.py +11 -0
openocr/configs/det/dbnet/repvit_db.yml +173 -0
openocr/configs/rec/abinet/resnet45_trans_abinet_lang.yml +94 -0
openocr/configs/rec/abinet/resnet45_trans_abinet_wo_lang.yml +93 -0
openocr/configs/rec/abinet/svtrv2_abinet_lang.yml +130 -0
openocr/configs/rec/abinet/svtrv2_abinet_wo_lang.yml +128 -0
openocr/configs/rec/aster/resnet31_lstm_aster_tps_on.yml +93 -0
openocr/configs/rec/aster/svtrv2_aster.yml +127 -0
openocr/configs/rec/aster/svtrv2_aster_tps_on.yml +102 -0
openocr/configs/rec/autostr/autostr_lstm_aster_tps_on.yml +95 -0
openocr/configs/rec/busnet/svtrv2_busnet.yml +135 -0
openocr/configs/rec/busnet/svtrv2_busnet_pretraining.yml +134 -0
openocr/configs/rec/busnet/vit_busnet.yml +104 -0
openocr/configs/rec/busnet/vit_busnet_pretraining.yml +104 -0
openocr/configs/rec/cam/convnextv2_cam_tps_on.yml +118 -0
openocr/configs/rec/cam/convnextv2_tiny_cam_tps_on.yml +118 -0
openocr/configs/rec/cam/svtrv2_cam_tps_on.yml +123 -0
openocr/configs/rec/cdistnet/resnet45_trans_cdistnet.yml +93 -0
openocr/configs/rec/cdistnet/svtrv2_cdistnet.yml +139 -0
openocr/configs/rec/cppd/svtr_base_cppd.yml +123 -0
openocr/configs/rec/cppd/svtr_base_cppd_ch.yml +126 -0
openocr/configs/rec/cppd/svtr_base_cppd_h8.yml +123 -0
openocr/configs/rec/cppd/svtr_base_cppd_syn.yml +124 -0
openocr/configs/rec/cppd/svtrv2_cppd.yml +150 -0
openocr/configs/rec/dan/resnet45_fpn_dan.yml +98 -0
openocr/configs/rec/dan/svtrv2_dan.yml +130 -0
openocr/configs/rec/focalsvtr/focalsvtr_ctc.yml +137 -0
openocr/configs/rec/gtc/svtrv2_lnconv_nrtr_gtc.yml +168 -0
openocr/configs/rec/gtc/svtrv2_lnconv_smtr_gtc_long_infer.yml +151 -0
openocr/configs/rec/gtc/svtrv2_lnconv_smtr_gtc_smtr_long.yml +150 -0
openocr/configs/rec/gtc/svtrv2_lnconv_smtr_gtc_stream.yml +152 -0
openocr/configs/rec/igtr/svtr_base_ds_igtr.yml +157 -0
openocr/configs/rec/lister/focalsvtr_lister_wo_fem_maxratio12.yml +133 -0
openocr/configs/rec/lister/svtrv2_lister_wo_fem_maxratio12.yml +138 -0
openocr/configs/rec/lpv/svtr_base_lpv.yml +124 -0
openocr/configs/rec/lpv/svtr_base_lpv_wo_glrm.yml +123 -0
openocr/configs/rec/lpv/svtrv2_lpv.yml +147 -0
openocr/configs/rec/lpv/svtrv2_lpv_wo_glrm.yml +146 -0
openocr/configs/rec/maerec/vit_nrtr.yml +116 -0
openocr/configs/rec/matrn/resnet45_trans_matrn.yml +95 -0
openocr/configs/rec/matrn/svtrv2_matrn.yml +130 -0
openocr/configs/rec/mgpstr/svtrv2_mgpstr_only_char.yml +140 -0
openocr/configs/rec/mgpstr/vit_base_mgpstr_only_char.yml +111 -0
openocr/configs/rec/mgpstr/vit_large_mgpstr_only_char.yml +110 -0
openocr/configs/rec/mgpstr/vit_mgpstr.yml +110 -0
openocr/configs/rec/mgpstr/vit_mgpstr_only_char.yml +110 -0
openocr/configs/rec/moran/resnet31_lstm_moran.yml +92 -0
openocr/configs/rec/nrtr/focalsvtr_nrtr_maxraio12.yml +145 -0
openocr/configs/rec/nrtr/nrtr.yml +107 -0
openocr/configs/rec/nrtr/svtr_base_nrtr.yml +118 -0
openocr/configs/rec/nrtr/svtr_base_nrtr_syn.yml +119 -0
openocr/configs/rec/nrtr/svtrv2_nrtr.yml +146 -0
openocr/configs/rec/ote/svtr_base_h8_ote.yml +117 -0
openocr/configs/rec/ote/svtr_base_ote.yml +116 -0
openocr/configs/rec/parseq/focalsvtr_parseq_maxratio12.yml +140 -0
openocr/configs/rec/parseq/svrtv2_parseq.yml +136 -0
openocr/configs/rec/parseq/vit_parseq.yml +100 -0
openocr/configs/rec/robustscanner/resnet31_robustscanner.yml +102 -0
openocr/configs/rec/robustscanner/svtrv2_robustscanner.yml +134 -0
openocr/configs/rec/sar/resnet31_lstm_sar.yml +94 -0
openocr/configs/rec/sar/svtrv2_sar.yml +128 -0
openocr/configs/rec/seed/resnet31_lstm_seed_tps_on.yml +96 -0
openocr/configs/rec/smtr/focalsvtr_smtr.yml +150 -0
openocr/configs/rec/smtr/focalsvtr_smtr_long.yml +133 -0
openocr/configs/rec/smtr/svtrv2_smtr.yml +150 -0
openocr/configs/rec/smtr/svtrv2_smtr_bi.yml +136 -0
openocr/configs/rec/srn/resnet50_fpn_srn.yml +97 -0
openocr/configs/rec/srn/svtrv2_srn.yml +131 -0
openocr/configs/rec/svtrs/convnextv2_ctc.yml +105 -0
openocr/configs/rec/svtrs/convnextv2_h8_ctc.yml +105 -0
openocr/configs/rec/svtrs/convnextv2_h8_rctc.yml +106 -0
openocr/configs/rec/svtrs/convnextv2_rctc.yml +106 -0
openocr/configs/rec/svtrs/convnextv2_tiny_h8_ctc.yml +105 -0
openocr/configs/rec/svtrs/convnextv2_tiny_h8_rctc.yml +106 -0
openocr/configs/rec/svtrs/crnn_ctc.yml +99 -0
openocr/configs/rec/svtrs/crnn_ctc_long.yml +116 -0
openocr/configs/rec/svtrs/focalnet_base_ctc.yml +108 -0
openocr/configs/rec/svtrs/focalnet_base_rctc.yml +109 -0
openocr/configs/rec/svtrs/focalsvtr_ctc.yml +106 -0
openocr/configs/rec/svtrs/focalsvtr_rctc.yml +107 -0
openocr/configs/rec/svtrs/resnet45_trans_ctc.yml +103 -0
openocr/configs/rec/svtrs/resnet45_trans_rctc.yml +104 -0
openocr/configs/rec/svtrs/svtr_base_ctc.yml +110 -0
openocr/configs/rec/svtrs/svtr_base_rctc.yml +111 -0
openocr/configs/rec/svtrs/svtrnet_ctc_syn.yml +111 -0
openocr/configs/rec/svtrs/vit_ctc.yml +103 -0
openocr/configs/rec/svtrs/vit_rctc.yml +103 -0
openocr/configs/rec/svtrv2/repsvtr_ch.yml +121 -0
openocr/configs/rec/svtrv2/svtrv2_ch.yml +133 -0
openocr/configs/rec/svtrv2/svtrv2_ctc.yml +136 -0
openocr/configs/rec/svtrv2/svtrv2_rctc.yml +135 -0
openocr/configs/rec/svtrv2/svtrv2_small_rctc.yml +135 -0
openocr/configs/rec/svtrv2/svtrv2_smtr_gtc_rctc.yml +162 -0
openocr/configs/rec/svtrv2/svtrv2_smtr_gtc_rctc_ch.yml +153 -0
openocr/configs/rec/svtrv2/svtrv2_tiny_rctc.yml +135 -0
openocr/configs/rec/visionlan/resnet45_trans_visionlan_LA.yml +103 -0
openocr/configs/rec/visionlan/resnet45_trans_visionlan_LF_1.yml +102 -0
openocr/configs/rec/visionlan/resnet45_trans_visionlan_LF_2.yml +103 -0
openocr/configs/rec/visionlan/svtrv2_visionlan_LA.yml +112 -0
openocr/configs/rec/visionlan/svtrv2_visionlan_LF_1.yml +111 -0
openocr/configs/rec/visionlan/svtrv2_visionlan_LF_2.yml +112 -0
openocr/demo_gradio.py +128 -0
openocr/opendet/modeling/__init__.py +11 -0
openocr/opendet/modeling/backbones/__init__.py +14 -0
openocr/opendet/modeling/backbones/repvit.py +340 -0
openocr/opendet/modeling/base_detector.py +69 -0
openocr/opendet/modeling/heads/__init__.py +14 -0
openocr/opendet/modeling/heads/db_head.py +73 -0
openocr/opendet/modeling/necks/__init__.py +14 -0
openocr/opendet/modeling/necks/db_fpn.py +609 -0
openocr/opendet/postprocess/__init__.py +18 -0
openocr/opendet/postprocess/db_postprocess.py +273 -0
openocr/opendet/preprocess/__init__.py +154 -0
openocr/opendet/preprocess/crop_resize.py +121 -0
openocr/opendet/preprocess/db_resize_for_test.py +135 -0
openocr/openrec/losses/__init__.py +62 -0
openocr/openrec/losses/abinet_loss.py +42 -0
openocr/openrec/losses/ar_loss.py +23 -0
openocr/openrec/losses/cam_loss.py +48 -0
openocr/openrec/losses/cdistnet_loss.py +34 -0
openocr/openrec/losses/ce_loss.py +68 -0
openocr/openrec/losses/cppd_loss.py +77 -0
openocr/openrec/losses/ctc_loss.py +33 -0
openocr/openrec/losses/igtr_loss.py +12 -0
openocr/openrec/losses/lister_loss.py +14 -0
openocr/openrec/losses/lpv_loss.py +30 -0
openocr/openrec/losses/mgp_loss.py +34 -0
openocr/openrec/losses/parseq_loss.py +12 -0
openocr/openrec/losses/robustscanner_loss.py +20 -0
openocr/openrec/losses/seed_loss.py +46 -0
openocr/openrec/losses/smtr_loss.py +12 -0
openocr/openrec/losses/srn_loss.py +40 -0
openocr/openrec/losses/visionlan_loss.py +58 -0
openocr/openrec/metrics/__init__.py +19 -0
openocr/openrec/metrics/rec_metric.py +270 -0
openocr/openrec/metrics/rec_metric_gtc.py +58 -0
openocr/openrec/metrics/rec_metric_long.py +142 -0
openocr/openrec/metrics/rec_metric_mgp.py +93 -0
openocr/openrec/modeling/__init__.py +11 -0
openocr/openrec/modeling/base_recognizer.py +69 -0
openocr/openrec/modeling/common.py +238 -0
openocr/openrec/modeling/decoders/__init__.py +109 -0
openocr/openrec/modeling/decoders/abinet_decoder.py +283 -0
openocr/openrec/modeling/decoders/aster_decoder.py +170 -0
openocr/openrec/modeling/decoders/bus_decoder.py +133 -0
openocr/openrec/modeling/decoders/cam_decoder.py +43 -0
openocr/openrec/modeling/decoders/cdistnet_decoder.py +334 -0
openocr/openrec/modeling/decoders/cppd_decoder.py +393 -0
openocr/openrec/modeling/decoders/ctc_decoder.py +203 -0
openocr/openrec/modeling/decoders/dan_decoder.py +203 -0
openocr/openrec/modeling/decoders/igtr_decoder.py +815 -0
openocr/openrec/modeling/decoders/lister_decoder.py +535 -0
openocr/openrec/modeling/decoders/lpv_decoder.py +119 -0
openocr/openrec/modeling/decoders/matrn_decoder.py +236 -0
openocr/openrec/modeling/decoders/mgp_decoder.py +99 -0
openocr/openrec/modeling/decoders/nrtr_decoder.py +439 -0
openocr/openrec/modeling/decoders/ote_decoder.py +205 -0
openocr/openrec/modeling/decoders/parseq_decoder.py +504 -0
openocr/openrec/modeling/decoders/rctc_decoder.py +70 -0
openocr/openrec/modeling/decoders/robustscanner_decoder.py +749 -0
openocr/openrec/modeling/decoders/sar_decoder.py +236 -0
openocr/openrec/modeling/decoders/smtr_decoder.py +621 -0
openocr/openrec/modeling/decoders/smtr_decoder_nattn.py +521 -0
openocr/openrec/modeling/decoders/srn_decoder.py +283 -0
openocr/openrec/modeling/decoders/visionlan_decoder.py +321 -0
openocr/openrec/modeling/encoders/__init__.py +39 -0
openocr/openrec/modeling/encoders/autostr_encoder.py +327 -0
openocr/openrec/modeling/encoders/cam_encoder.py +760 -0
openocr/openrec/modeling/encoders/convnextv2.py +213 -0
openocr/openrec/modeling/encoders/focalsvtr.py +631 -0
openocr/openrec/modeling/encoders/nrtr_encoder.py +28 -0
openocr/openrec/modeling/encoders/rec_hgnet.py +346 -0
openocr/openrec/modeling/encoders/rec_lcnetv3.py +488 -0
openocr/openrec/modeling/encoders/rec_mobilenet_v3.py +132 -0
openocr/openrec/modeling/encoders/rec_mv1_enhance.py +254 -0
openocr/openrec/modeling/encoders/rec_nrtr_mtb.py +37 -0
openocr/openrec/modeling/encoders/rec_resnet_31.py +213 -0
openocr/openrec/modeling/encoders/rec_resnet_45.py +183 -0
openocr/openrec/modeling/encoders/rec_resnet_fpn.py +216 -0
openocr/openrec/modeling/encoders/rec_resnet_vd.py +252 -0
openocr/openrec/modeling/encoders/repvit.py +338 -0
openocr/openrec/modeling/encoders/resnet31_rnn.py +123 -0
openocr/openrec/modeling/encoders/svtrnet.py +574 -0
openocr/openrec/modeling/encoders/svtrnet2dpos.py +616 -0
openocr/openrec/modeling/encoders/svtrv2.py +470 -0
openocr/openrec/modeling/encoders/svtrv2_lnconv.py +503 -0
openocr/openrec/modeling/encoders/svtrv2_lnconv_two33.py +517 -0
openocr/openrec/modeling/encoders/vit.py +120 -0
openocr/openrec/modeling/transforms/__init__.py +15 -0
openocr/openrec/modeling/transforms/aster_tps.py +262 -0
openocr/openrec/modeling/transforms/moran.py +136 -0
openocr/openrec/modeling/transforms/tps.py +246 -0
openocr/openrec/optimizer/__init__.py +73 -0
openocr/openrec/optimizer/lr.py +227 -0
openocr/openrec/postprocess/__init__.py +72 -0
openocr/openrec/postprocess/abinet_postprocess.py +37 -0
openocr/openrec/postprocess/ar_postprocess.py +63 -0
openocr/openrec/postprocess/ce_postprocess.py +43 -0
openocr/openrec/postprocess/char_postprocess.py +108 -0
openocr/openrec/postprocess/cppd_postprocess.py +42 -0
openocr/openrec/postprocess/ctc_postprocess.py +119 -0
openocr/openrec/postprocess/igtr_postprocess.py +100 -0
openocr/openrec/postprocess/lister_postprocess.py +59 -0
openocr/openrec/postprocess/mgp_postprocess.py +143 -0
openocr/openrec/postprocess/nrtr_postprocess.py +75 -0
openocr/openrec/postprocess/smtr_postprocess.py +73 -0
openocr/openrec/postprocess/srn_postprocess.py +80 -0
openocr/openrec/postprocess/visionlan_postprocess.py +81 -0
openocr/openrec/preprocess/__init__.py +173 -0
openocr/openrec/preprocess/abinet_aug.py +473 -0
openocr/openrec/preprocess/abinet_label_encode.py +36 -0
openocr/openrec/preprocess/ar_label_encode.py +36 -0
openocr/openrec/preprocess/auto_augment.py +1012 -0
openocr/openrec/preprocess/cam_label_encode.py +141 -0
openocr/openrec/preprocess/ce_label_encode.py +116 -0
openocr/openrec/preprocess/char_label_encode.py +36 -0
openocr/openrec/preprocess/cppd_label_encode.py +173 -0
openocr/openrec/preprocess/ctc_label_encode.py +124 -0
openocr/openrec/preprocess/ep_label_encode.py +38 -0
openocr/openrec/preprocess/igtr_label_encode.py +360 -0
openocr/openrec/preprocess/mgp_label_encode.py +95 -0
openocr/openrec/preprocess/parseq_aug.py +150 -0
openocr/openrec/preprocess/rec_aug.py +211 -0
openocr/openrec/preprocess/resize.py +534 -0
openocr/openrec/preprocess/smtr_label_encode.py +125 -0
openocr/openrec/preprocess/srn_label_encode.py +37 -0
openocr/openrec/preprocess/visionlan_label_encode.py +67 -0
openocr/tools/create_lmdb_dataset.py +118 -0
openocr/tools/data/__init__.py +94 -0
openocr/tools/data/collate_fn.py +100 -0
openocr/tools/data/lmdb_dataset.py +142 -0
openocr/tools/data/lmdb_dataset_test.py +166 -0
openocr/tools/data/multi_scale_sampler.py +177 -0
openocr/tools/data/ratio_dataset.py +217 -0
openocr/tools/data/ratio_dataset_test.py +273 -0
openocr/tools/data/ratio_dataset_tvresize.py +213 -0
openocr/tools/data/ratio_dataset_tvresize_test.py +276 -0
openocr/tools/data/ratio_sampler.py +190 -0
openocr/tools/data/simple_dataset.py +263 -0
openocr/tools/data/strlmdb_dataset.py +143 -0
openocr/tools/engine/__init__.py +5 -0
openocr/tools/engine/config.py +158 -0
openocr/tools/engine/trainer.py +621 -0
openocr/tools/eval_rec.py +41 -0
openocr/tools/eval_rec_all_ch.py +184 -0
openocr/tools/eval_rec_all_en.py +206 -0
openocr/tools/eval_rec_all_long.py +119 -0
openocr/tools/eval_rec_all_long_simple.py +122 -0
openocr/tools/export_rec.py +118 -0
openocr/tools/infer/onnx_engine.py +65 -0
openocr/tools/infer/predict_rec.py +140 -0
openocr/tools/infer/utility.py +234 -0
openocr/tools/infer_det.py +449 -0
openocr/tools/infer_e2e.py +462 -0
openocr/tools/infer_e2e_parallel.py +184 -0
openocr/tools/infer_rec.py +371 -0
openocr/tools/train_rec.py +37 -0
openocr/tools/utility.py +45 -0
openocr/tools/utils/EN_symbol_dict.txt +94 -0
openocr/tools/utils/__init__.py +0 -0
openocr/tools/utils/ckpt.py +87 -0
openocr/tools/utils/dict/ar_dict.txt +117 -0
openocr/tools/utils/dict/arabic_dict.txt +161 -0
openocr/tools/utils/dict/be_dict.txt +145 -0
openocr/tools/utils/dict/bg_dict.txt +140 -0
openocr/tools/utils/dict/chinese_cht_dict.txt +8421 -0
openocr/tools/utils/dict/cyrillic_dict.txt +163 -0
openocr/tools/utils/dict/devanagari_dict.txt +167 -0
openocr/tools/utils/dict/en_dict.txt +63 -0
openocr/tools/utils/dict/fa_dict.txt +136 -0
openocr/tools/utils/dict/french_dict.txt +136 -0
openocr/tools/utils/dict/german_dict.txt +143 -0
openocr/tools/utils/dict/hi_dict.txt +162 -0
openocr/tools/utils/dict/it_dict.txt +118 -0
openocr/tools/utils/dict/japan_dict.txt +4399 -0
openocr/tools/utils/dict/ka_dict.txt +153 -0
openocr/tools/utils/dict/kie_dict/xfund_class_list.txt +4 -0
openocr/tools/utils/dict/korean_dict.txt +3688 -0
openocr/tools/utils/dict/latex_symbol_dict.txt +111 -0
openocr/tools/utils/dict/latin_dict.txt +185 -0
openocr/tools/utils/dict/layout_dict/layout_cdla_dict.txt +10 -0
openocr/tools/utils/dict/layout_dict/layout_publaynet_dict.txt +5 -0
openocr/tools/utils/dict/layout_dict/layout_table_dict.txt +1 -0
openocr/tools/utils/dict/mr_dict.txt +153 -0
openocr/tools/utils/dict/ne_dict.txt +153 -0
openocr/tools/utils/dict/oc_dict.txt +96 -0
openocr/tools/utils/dict/pu_dict.txt +130 -0
openocr/tools/utils/dict/rs_dict.txt +91 -0
openocr/tools/utils/dict/rsc_dict.txt +134 -0
openocr/tools/utils/dict/ru_dict.txt +125 -0
openocr/tools/utils/dict/spin_dict.txt +68 -0
openocr/tools/utils/dict/ta_dict.txt +128 -0
openocr/tools/utils/dict/table_dict.txt +277 -0
openocr/tools/utils/dict/table_master_structure_dict.txt +39 -0
openocr/tools/utils/dict/table_structure_dict.txt +28 -0
openocr/tools/utils/dict/table_structure_dict_ch.txt +48 -0
openocr/tools/utils/dict/te_dict.txt +151 -0
openocr/tools/utils/dict/ug_dict.txt +114 -0
openocr/tools/utils/dict/uk_dict.txt +142 -0
openocr/tools/utils/dict/ur_dict.txt +137 -0
openocr/tools/utils/dict/xi_dict.txt +110 -0
openocr/tools/utils/dict90.txt +90 -0
openocr/tools/utils/e2e_metric/Deteval.py +802 -0
openocr/tools/utils/e2e_metric/polygon_fast.py +70 -0
openocr/tools/utils/e2e_utils/extract_batchsize.py +86 -0
openocr/tools/utils/e2e_utils/extract_textpoint_fast.py +479 -0
openocr/tools/utils/e2e_utils/extract_textpoint_slow.py +582 -0
openocr/tools/utils/e2e_utils/pgnet_pp_utils.py +159 -0
openocr/tools/utils/e2e_utils/visual.py +152 -0
openocr/tools/utils/en_dict.txt +95 -0
openocr/tools/utils/gen_label.py +68 -0
openocr/tools/utils/ic15_dict.txt +36 -0
openocr/tools/utils/logging.py +56 -0
openocr/tools/utils/poly_nms.py +132 -0
openocr/tools/utils/ppocr_keys_v1.txt +6623 -0
openocr/tools/utils/stats.py +58 -0
openocr/tools/utils/utility.py +165 -0
openocr/tools/utils/visual.py +117 -0
openocr_python-0.0.2.dist-info/LICENCE +201 -0
openocr_python-0.0.2.dist-info/METADATA +98 -0
openocr_python-0.0.2.dist-info/RECORD +323 -0
openocr_python-0.0.2.dist-info/WHEEL +5 -0
openocr_python-0.0.2.dist-info/top_level.txt +1 -0

openocr/openrec/modeling/decoders/nrtr_decoder.py ADDED Viewed

@@ -0,0 +1,439 @@
+import math
+import numpy as np
+import torch
+import torch.nn.functional as F
+from torch import nn
+from openrec.modeling.common import Mlp
+class NRTRDecoder(nn.Module):
+    """A transformer model. User is able to modify the attributes as needed.
+    The architechture is based on the paper "Attention Is All You Need". Ashish
+    Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N
+    Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you
+    need. In Advances in Neural Information Processing Systems, pages
+    6000-6010.
+    Args:
+        d_model: the number of expected features in the encoder/decoder inputs (default=512).
+        nhead: the number of heads in the multiheadattention models (default=8).
+        num_encoder_layers: the number of sub-encoder-layers in the encoder (default=6).
+        num_decoder_layers: the number of sub-decoder-layers in the decoder (default=6).
+        dim_feedforward: the dimension of the feedforward network model (default=2048).
+        dropout: the dropout value (default=0.1).
+        custom_encoder: custom encoder (default=None).
+        custom_decoder: custom decoder (default=None).
+    """
+    def __init__(
+        self,
+        in_channels,
+        out_channels,
+        nhead=None,
+        num_encoder_layers=6,
+        beam_size=0,
+        num_decoder_layers=6,
+        max_len=25,
+        attention_dropout_rate=0.0,
+        residual_dropout_rate=0.1,
+        scale_embedding=True,
+    ):
+        super(NRTRDecoder, self).__init__()
+        self.out_channels = out_channels
+        self.ignore_index = out_channels - 1
+        self.bos = out_channels - 2
+        self.eos = 0
+        self.max_len = max_len
+        d_model = in_channels
+        dim_feedforward = d_model * 4
+        nhead = nhead if nhead is not None else d_model // 32
+        self.embedding = Embeddings(
+            d_model=d_model,
+            vocab=self.out_channels,
+            padding_idx=0,
+            scale_embedding=scale_embedding,
+        )
+        self.positional_encoding = PositionalEncoding(
+            dropout=residual_dropout_rate, dim=d_model)
+        if num_encoder_layers > 0:
+            self.encoder = nn.ModuleList([
+                TransformerBlock(
+                    d_model,
+                    nhead,
+                    dim_feedforward,
+                    attention_dropout_rate,
+                    residual_dropout_rate,
+                    with_self_attn=True,
+                    with_cross_attn=False,
+                ) for i in range(num_encoder_layers)
+            ])
+        else:
+            self.encoder = None
+        self.decoder = nn.ModuleList([
+            TransformerBlock(
+                d_model,
+                nhead,
+                dim_feedforward,
+                attention_dropout_rate,
+                residual_dropout_rate,
+                with_self_attn=True,
+                with_cross_attn=True,
+            ) for i in range(num_decoder_layers)
+        ])
+        self.beam_size = beam_size
+        self.d_model = d_model
+        self.nhead = nhead
+        self.tgt_word_prj = nn.Linear(d_model,
+                                      self.out_channels - 2,
+                                      bias=False)
+        w0 = np.random.normal(0.0, d_model**-0.5,
+                              (d_model, self.out_channels - 2)).astype(
+                                  np.float32)
+        self.tgt_word_prj.weight.data = torch.from_numpy(w0.transpose())
+        self.apply(self._init_weights)
+    def _init_weights(self, m):
+        if isinstance(m, nn.Linear):
+            nn.init.xavier_normal_(m.weight)
+            if m.bias is not None:
+                nn.init.zeros_(m.bias)
+    def forward_train(self, src, tgt):
+        tgt = tgt[:, :-1]
+        tgt = self.embedding(tgt)
+        tgt = self.positional_encoding(tgt)
+        tgt_mask = self.generate_square_subsequent_mask(
+            tgt.shape[1], device=src.get_device())
+        if self.encoder is not None:
+            src = self.positional_encoding(src)
+            for encoder_layer in self.encoder:
+                src = encoder_layer(src)
+            memory = src  # B N C
+        else:
+            memory = src  # B N C
+        for decoder_layer in self.decoder:
+            tgt = decoder_layer(tgt, memory, self_mask=tgt_mask)
+        output = tgt
+        logit = self.tgt_word_prj(output)
+        return logit
+    def forward(self, src, data=None):
+        """Take in and process masked source/target sequences.
+        Args:
+            src: the sequence to the encoder (required).
+            tgt: the sequence to the decoder (required).
+        Shape:
+            - src: :math:`(B, sN, C)`.
+            - tgt: :math:`(B, tN, C)`.
+        Examples:
+            >>> output = transformer_model(src, tgt)
+        """
+        if self.training:
+            max_len = data[1].max()
+            tgt = data[0][:, :2 + max_len]
+            res = self.forward_train(src, tgt)
+        else:
+            res = self.forward_test(src)
+        return res
+    def forward_test(self, src):
+        bs = src.shape[0]
+        if self.encoder is not None:
+            src = self.positional_encoding(src)
+            for encoder_layer in self.encoder:
+                src = encoder_layer(src)
+            memory = src  # B N C
+        else:
+            memory = src
+        dec_seq = torch.full((bs, self.max_len + 1),
+                             self.ignore_index,
+                             dtype=torch.int64,
+                             device=src.get_device())
+        dec_seq[:, 0] = self.bos
+        logits = []
+        self.attn_maps = []
+        for len_dec_seq in range(0, self.max_len):
+            dec_seq_embed = self.embedding(
+                dec_seq[:, :len_dec_seq + 1])  # N dim 26+10 # </s>  012 a
+            dec_seq_embed = self.positional_encoding(dec_seq_embed)
+            tgt_mask = self.generate_square_subsequent_mask(
+                dec_seq_embed.shape[1], src.get_device())
+            tgt = dec_seq_embed  # bs, 3, dim #bos, a, b, c, ... eos
+            for decoder_layer in self.decoder:
+                tgt = decoder_layer(tgt, memory, self_mask=tgt_mask)
+            self.attn_maps.append(
+                self.decoder[-1].cross_attn.attn_map[0][:, -1:, :])
+            dec_output = tgt
+            dec_output = dec_output[:, -1:, :]
+            word_prob = F.softmax(self.tgt_word_prj(dec_output), dim=-1)
+            logits.append(word_prob)
+            if len_dec_seq < self.max_len:
+                # greedy decode. add the next token index to the target input
+                dec_seq[:, len_dec_seq + 1] = word_prob.squeeze().argmax(-1)
+                # Efficient batch decoding: If all output words have at least one EOS token, end decoding.
+                if (dec_seq == self.eos).any(dim=-1).all():
+                    break
+        logits = torch.cat(logits, dim=1)
+        return logits
+    def generate_square_subsequent_mask(self, sz, device):
+        """Generate a square mask for the sequence.
+        The masked positions are filled with float('-inf'). Unmasked positions
+        are filled with float(0.0).
+        """
+        mask = torch.zeros([sz, sz], dtype=torch.float32)
+        mask_inf = torch.triu(
+            torch.full((sz, sz), dtype=torch.float32, fill_value=-torch.inf),
+            diagonal=1,
+        )
+        mask = mask + mask_inf
+        return mask.unsqueeze(0).unsqueeze(0).to(device)
+class MultiheadAttention(nn.Module):
+    def __init__(self, embed_dim, num_heads, dropout=0.0, self_attn=False):
+        super(MultiheadAttention, self).__init__()
+        self.embed_dim = embed_dim
+        self.num_heads = num_heads
+        self.head_dim = embed_dim // num_heads
+        assert (self.head_dim * num_heads == self.embed_dim
+                ), 'embed_dim must be divisible by num_heads'
+        self.scale = self.head_dim**-0.5
+        self.self_attn = self_attn
+        if self_attn:
+            self.qkv = nn.Linear(embed_dim, embed_dim * 3)
+        else:
+            self.q = nn.Linear(embed_dim, embed_dim)
+            self.kv = nn.Linear(embed_dim, embed_dim * 2)
+        self.attn_drop = nn.Dropout(dropout)
+        self.out_proj = nn.Linear(embed_dim, embed_dim)
+    def forward(self, query, key=None, attn_mask=None):
+        B, qN = query.shape[:2]
+        if self.self_attn:
+            qkv = self.qkv(query)
+            qkv = qkv.reshape(B, qN, 3, self.num_heads,
+                              self.head_dim).permute(2, 0, 3, 1, 4)
+            q, k, v = qkv.unbind(0)
+        else:
+            kN = key.shape[1]
+            q = self.q(query)
+            q = q.reshape(B, qN, self.num_heads, self.head_dim).transpose(1, 2)
+            kv = self.kv(key)
+            kv = kv.reshape(B, kN, 2, self.num_heads,
+                            self.head_dim).permute(2, 0, 3, 1, 4)
+            k, v = kv.unbind(0)
+        attn = (q.matmul(k.transpose(2, 3))) * self.scale
+        if attn_mask is not None:
+            attn += attn_mask
+        attn = F.softmax(attn, dim=-1)
+        if not self.training:
+            self.attn_map = attn
+        attn = self.attn_drop(attn)
+        x = (attn.matmul(v)).transpose(1, 2)
+        x = x.reshape(B, qN, self.embed_dim)
+        x = self.out_proj(x)
+        return x
+class TransformerBlock(nn.Module):
+    def __init__(
+        self,
+        d_model,
+        nhead,
+        dim_feedforward=2048,
+        attention_dropout_rate=0.0,
+        residual_dropout_rate=0.1,
+        with_self_attn=True,
+        with_cross_attn=False,
+        epsilon=1e-5,
+    ):
+        super(TransformerBlock, self).__init__()
+        self.with_self_attn = with_self_attn
+        if with_self_attn:
+            self.self_attn = MultiheadAttention(d_model,
+                                                nhead,
+                                                dropout=attention_dropout_rate,
+                                                self_attn=with_self_attn)
+            self.norm1 = nn.LayerNorm(d_model, eps=epsilon)
+            self.dropout1 = nn.Dropout(residual_dropout_rate)
+        self.with_cross_attn = with_cross_attn
+        if with_cross_attn:
+            self.cross_attn = MultiheadAttention(
+                d_model, nhead, dropout=attention_dropout_rate
+            )  # for self_attn of encoder or cross_attn of decoder
+            self.norm2 = nn.LayerNorm(d_model, eps=epsilon)
+            self.dropout2 = nn.Dropout(residual_dropout_rate)
+        self.mlp = Mlp(
+            in_features=d_model,
+            hidden_features=dim_feedforward,
+            act_layer=nn.ReLU,
+            drop=residual_dropout_rate,
+        )
+        self.norm3 = nn.LayerNorm(d_model, eps=epsilon)
+        self.dropout3 = nn.Dropout(residual_dropout_rate)
+    def forward(self, tgt, memory=None, self_mask=None, cross_mask=None):
+        if self.with_self_attn:
+            tgt1 = self.self_attn(tgt, attn_mask=self_mask)
+            tgt = self.norm1(tgt + self.dropout1(tgt1))
+        if self.with_cross_attn:
+            tgt2 = self.cross_attn(tgt, key=memory, attn_mask=cross_mask)
+            tgt = self.norm2(tgt + self.dropout2(tgt2))
+        tgt = self.norm3(tgt + self.dropout3(self.mlp(tgt)))
+        return tgt
+class PositionalEncoding(nn.Module):
+    """Inject some information about the relative or absolute position of the
+    tokens in the sequence. The positional encodings have the same dimension as
+    the embeddings, so that the two can be summed. Here, we use sine and cosine
+    functions of different frequencies.
+    .. math::
+        \text{PosEncoder}(pos, 2i) = sin(pos/10000^(2i/d_model))
+        \text{PosEncoder}(pos, 2i+1) = cos(pos/10000^(2i/d_model))
+        \text{where pos is the word position and i is the embed idx)
+    Args:
+        d_model: the embed dim (required).
+        dropout: the dropout value (default=0.1).
+        max_len: the max. length of the incoming sequence (default=5000).
+    Examples:
+        >>> pos_encoder = PositionalEncoding(d_model)
+    """
+    def __init__(self, dropout, dim, max_len=5000):
+        super(PositionalEncoding, self).__init__()
+        self.dropout = nn.Dropout(p=dropout)
+        pe = torch.zeros([max_len, dim])
+        position = torch.arange(0, max_len, dtype=torch.float32).unsqueeze(1)
+        div_term = torch.exp(
+            torch.arange(0, dim, 2).float() * (-math.log(10000.0) / dim))
+        pe[:, 0::2] = torch.sin(position * div_term)
+        pe[:, 1::2] = torch.cos(position * div_term)
+        pe = torch.unsqueeze(pe, 0)
+        # pe = torch.permute(pe, [1, 0, 2])
+        self.register_buffer('pe', pe)
+    def forward(self, x):
+        """Inputs of forward function
+        Args:
+            x: the sequence fed to the positional encoder model (required).
+        Shape:
+            x: [sequence length, batch size, embed dim]
+            output: [sequence length, batch size, embed dim]
+        Examples:
+            >>> output = pos_encoder(x)
+        """
+        # x = x.permute([1, 0, 2])
+        # x = x + self.pe[:x.shape[0], :]
+        x = x + self.pe[:, :x.shape[1], :]
+        return self.dropout(x)  # .permute([1, 0, 2])
+class PositionalEncoding_2d(nn.Module):
+    """Inject some information about the relative or absolute position of the
+    tokens in the sequence. The positional encodings have the same dimension as
+    the embeddings, so that the two can be summed. Here, we use sine and cosine
+    functions of different frequencies.
+    .. math::
+        \text{PosEncoder}(pos, 2i) = sin(pos/10000^(2i/d_model))
+        \text{PosEncoder}(pos, 2i+1) = cos(pos/10000^(2i/d_model))
+        \text{where pos is the word position and i is the embed idx)
+    Args:
+        d_model: the embed dim (required).
+        dropout: the dropout value (default=0.1).
+        max_len: the max. length of the incoming sequence (default=5000).
+    Examples:
+        >>> pos_encoder = PositionalEncoding(d_model)
+    """
+    def __init__(self, dropout, dim, max_len=5000):
+        super(PositionalEncoding_2d, self).__init__()
+        self.dropout = nn.Dropout(p=dropout)
+        pe = torch.zeros([max_len, dim])
+        position = torch.arange(0, max_len, dtype=torch.float32).unsqueeze(1)
+        div_term = torch.exp(
+            torch.arange(0, dim, 2).float() * (-math.log(10000.0) / dim))
+        pe[:, 0::2] = torch.sin(position * div_term)
+        pe[:, 1::2] = torch.cos(position * div_term)
+        pe = torch.permute(torch.unsqueeze(pe, 0), [1, 0, 2])
+        self.register_buffer('pe', pe)
+        self.avg_pool_1 = nn.AdaptiveAvgPool2d((1, 1))
+        self.linear1 = nn.Linear(dim, dim)
+        self.linear1.weight.data.fill_(1.0)
+        self.avg_pool_2 = nn.AdaptiveAvgPool2d((1, 1))
+        self.linear2 = nn.Linear(dim, dim)
+        self.linear2.weight.data.fill_(1.0)
+    def forward(self, x):
+        """Inputs of forward function
+        Args:
+            x: the sequence fed to the positional encoder model (required).
+        Shape:
+            x: [sequence length, batch size, embed dim]
+            output: [sequence length, batch size, embed dim]
+        Examples:
+            >>> output = pos_encoder(x)
+        """
+        w_pe = self.pe[:x.shape[-1], :]
+        w1 = self.linear1(self.avg_pool_1(x).squeeze()).unsqueeze(0)
+        w_pe = w_pe * w1
+        w_pe = torch.permute(w_pe, [1, 2, 0])
+        w_pe = torch.unsqueeze(w_pe, 2)
+        h_pe = self.pe[:x.shape[-2], :]
+        w2 = self.linear2(self.avg_pool_2(x).squeeze()).unsqueeze(0)
+        h_pe = h_pe * w2
+        h_pe = torch.permute(h_pe, [1, 2, 0])
+        h_pe = torch.unsqueeze(h_pe, 3)
+        x = x + w_pe + h_pe
+        x = torch.permute(
+            torch.reshape(x,
+                          [x.shape[0], x.shape[1], x.shape[2] * x.shape[3]]),
+            [2, 0, 1],
+        )
+        return self.dropout(x)
+class Embeddings(nn.Module):
+    def __init__(self, d_model, vocab, padding_idx=None, scale_embedding=True):
+        super(Embeddings, self).__init__()
+        self.embedding = nn.Embedding(vocab, d_model, padding_idx=padding_idx)
+        self.embedding.weight.data.normal_(mean=0.0, std=d_model**-0.5)
+        self.d_model = d_model
+        self.scale_embedding = scale_embedding
+    def forward(self, x):
+        if self.scale_embedding:
+            x = self.embedding(x)
+            return x * math.sqrt(self.d_model)
+        return self.embedding(x)

openocr/openrec/modeling/decoders/ote_decoder.py ADDED Viewed

@@ -0,0 +1,205 @@
+import torch
+from torch import nn
+from torch.nn import functional as F
+from torch.nn.init import ones_, trunc_normal_, zeros_
+from .nrtr_decoder import TransformerBlock, Embeddings
+class CPA(nn.Module):
+    def __init__(self, dim, max_len=25):
+        super(CPA, self).__init__()
+        self.fc1 = nn.Linear(dim, dim)
+        self.fc2 = nn.Linear(dim, dim)
+        self.fc3 = nn.Linear(dim, dim)
+        self.pos_embed = nn.Parameter(torch.zeros([1, max_len + 1, dim],
+                                                  dtype=torch.float32),
+                                      requires_grad=True)
+        trunc_normal_(self.pos_embed, std=0.02)
+    def forward(self, feat):
+        # feat: B, L, Dim
+        feat = feat.mean(1).unsqueeze(1)  # B, 1, Dim
+        x = self.fc1(feat) + self.pos_embed  # B max_len dim
+        x = F.softmax(self.fc2(F.tanh(x)), -1)  # B max_len dim
+        x = self.fc3(feat * x)  # B max_len dim
+        return x
+class ARDecoder(nn.Module):
+    def __init__(
+        self,
+        in_channels,
+        out_channels,
+        nhead=None,
+        num_decoder_layers=6,
+        max_len=25,
+        attention_dropout_rate=0.0,
+        residual_dropout_rate=0.1,
+        scale_embedding=True,
+    ):
+        super(ARDecoder, self).__init__()
+        self.out_channels = out_channels
+        self.ignore_index = out_channels - 1
+        self.bos = out_channels - 2
+        self.eos = 0
+        self.max_len = max_len
+        d_model = in_channels
+        dim_feedforward = d_model * 4
+        nhead = nhead if nhead is not None else d_model // 32
+        self.embedding = Embeddings(
+            d_model=d_model,
+            vocab=self.out_channels,
+            padding_idx=0,
+            scale_embedding=scale_embedding,
+        )
+        self.pos_embed = nn.Parameter(torch.zeros([1, max_len + 1, d_model],
+                                                  dtype=torch.float32),
+                                      requires_grad=True)
+        trunc_normal_(self.pos_embed, std=0.02)
+        self.decoder = nn.ModuleList([
+            TransformerBlock(
+                d_model,
+                nhead,
+                dim_feedforward,
+                attention_dropout_rate,
+                residual_dropout_rate,
+                with_self_attn=True,
+                with_cross_attn=False,
+            ) for i in range(num_decoder_layers)
+        ])
+        self.tgt_word_prj = nn.Linear(d_model,
+                                      self.out_channels - 2,
+                                      bias=False)
+        self.apply(self._init_weights)
+    def _init_weights(self, m):
+        if isinstance(m, nn.Linear):
+            nn.init.xavier_normal_(m.weight)
+            if m.bias is not None:
+                nn.init.zeros_(m.bias)
+    def forward_train(self, src, tgt):
+        tgt = tgt[:, :-1]
+        tgt = self.embedding(
+            tgt) + src[:, :tgt.shape[1]] + self.pos_embed[:, :tgt.shape[1]]
+        tgt_mask = self.generate_square_subsequent_mask(
+            tgt.shape[1], device=src.get_device())
+        for decoder_layer in self.decoder:
+            tgt = decoder_layer(tgt, self_mask=tgt_mask)
+        output = tgt
+        logit = self.tgt_word_prj(output)
+        return logit
+    def forward(self, src, data=None):
+        if self.training:
+            max_len = data[1].max()
+            tgt = data[0][:, :2 + max_len]
+            res = self.forward_train(src, tgt)
+        else:
+            res = self.forward_test(src)
+        return res
+    def forward_test(self, src):
+        bs = src.shape[0]
+        src = src + self.pos_embed
+        dec_seq = torch.full((bs, self.max_len + 1),
+                             self.ignore_index,
+                             dtype=torch.int64,
+                             device=src.get_device())
+        dec_seq[:, 0] = self.bos
+        logits = []
+        for len_dec_seq in range(0, self.max_len):
+            dec_seq_embed = self.embedding(
+                dec_seq[:, :len_dec_seq + 1])  # N dim 26+10 # </s>  012 a
+            dec_seq_embed = dec_seq_embed + src[:, :len_dec_seq + 1]
+            tgt_mask = self.generate_square_subsequent_mask(
+                dec_seq_embed.shape[1], src.get_device())
+            tgt = dec_seq_embed  # bs, 3, dim #bos, a, b, c, ... eos
+            for decoder_layer in self.decoder:
+                tgt = decoder_layer(tgt, self_mask=tgt_mask)
+            dec_output = tgt
+            dec_output = dec_output[:, -1:, :]
+            word_prob = F.softmax(self.tgt_word_prj(dec_output), dim=-1)
+            logits.append(word_prob)
+            if len_dec_seq < self.max_len:
+                # greedy decode. add the next token index to the target input
+                dec_seq[:, len_dec_seq + 1] = word_prob.squeeze(1).argmax(-1)
+                # Efficient batch decoding: If all output words have at least one EOS token, end decoding.
+                if (dec_seq == self.eos).any(dim=-1).all():
+                    break
+        logits = torch.cat(logits, dim=1)
+        return logits
+    def generate_square_subsequent_mask(self, sz, device):
+        """Generate a square mask for the sequence.
+        The masked positions are filled with float('-inf'). Unmasked positions
+        are filled with float(0.0).
+        """
+        mask = torch.zeros([sz, sz], dtype=torch.float32)
+        mask_inf = torch.triu(
+            torch.full((sz, sz), dtype=torch.float32, fill_value=-torch.inf),
+            diagonal=1,
+        )
+        mask = mask + mask_inf
+        return mask.unsqueeze(0).unsqueeze(0).to(device)
+class OTEDecoder(nn.Module):
+    def __init__(self,
+                 in_channels,
+                 out_channels,
+                 max_len=25,
+                 num_heads=None,
+                 ar=False,
+                 num_decoder_layers=1,
+                 **kwargs):
+        super(OTEDecoder, self).__init__()
+        self.out_channels = out_channels - 2  # none + 26 + 10
+        dim = in_channels
+        self.dim = dim
+        self.max_len = max_len + 1  # max_len + eos
+        self.cpa = CPA(dim=dim, max_len=max_len)
+        self.ar = ar
+        if ar:
+            self.ar_decoder = ARDecoder(in_channels=dim,
+                                        out_channels=out_channels,
+                                        nhead=num_heads,
+                                        num_decoder_layers=num_decoder_layers,
+                                        max_len=max_len)
+        else:
+            self.fc = nn.Linear(dim, self.out_channels)
+        self.apply(self._init_weights)
+    def _init_weights(self, m):
+        if isinstance(m, nn.Linear):
+            trunc_normal_(m.weight, std=0.02)
+            if isinstance(m, nn.Linear) and m.bias is not None:
+                zeros_(m.bias)
+        elif isinstance(m, nn.LayerNorm):
+            zeros_(m.bias)
+            ones_(m.weight)
+    @torch.jit.ignore
+    def no_weight_decay(self):
+        return {'pos_embed'}
+    def forward(self, x, data=None):
+        x = self.cpa(x)
+        if self.ar:
+            return self.ar_decoder(x, data=data)
+        logits = self.fc(x)  # B, 26, 37
+        if self.training:
+            logits = logits[:, :data[1].max() + 1]
+        return logits