PyPI - openocr-python - Versions diffs - 0.0.9__py3-none-any.whl → 0.1.0.dev0__py3-none-any.whl - Mend

openocr-python 0.0.9py3-none-any.whl → 0.1.0.dev0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (90) hide show

openocr/__init__.py +35 -1
openocr/configs/dataset/rec/evaluation.yaml +41 -0
openocr/configs/dataset/rec/ltb.yaml +9 -0
openocr/configs/dataset/rec/mjsynth.yaml +11 -0
openocr/configs/dataset/rec/openvino.yaml +25 -0
openocr/configs/dataset/rec/ost.yaml +17 -0
openocr/configs/dataset/rec/synthtext.yaml +7 -0
openocr/configs/dataset/rec/test.yaml +77 -0
openocr/configs/dataset/rec/textocr.yaml +13 -0
openocr/configs/dataset/rec/textocr_horizontal.yaml +13 -0
openocr/configs/dataset/rec/union14m_b.yaml +47 -0
openocr/configs/dataset/rec/union14m_l_filtered.yaml +35 -0
openocr/configs/rec/cmer/cmer.yml +127 -0
openocr/configs/rec/mdiff4str/svtrv2_mdiffdecoder_base.yml +152 -0
openocr/configs/rec/mdiff4str/svtrv2_mdiffdecoder_small.yml +152 -0
openocr/configs/rec/unirec/focalsvtr_ardecoder_unirec.yml +114 -0
openocr/configs/rec/unirec/opendoc_pipeline.yml +105 -0
openocr/demo_gradio.py +28 -8
openocr/demo_opendoc.py +572 -0
openocr/demo_unirec.py +392 -0
openocr/opendet/losses/__init__.py +5 -7
openocr/opendet/preprocess/crop_resize.py +2 -1
openocr/openocr.py +685 -0
openocr/openrec/losses/__init__.py +8 -3
openocr/openrec/losses/cmer_loss.py +12 -0
openocr/openrec/losses/mdiff_loss.py +11 -0
openocr/openrec/losses/unirec_loss.py +12 -0
openocr/openrec/metrics/__init__.py +4 -1
openocr/openrec/metrics/rec_metric_cmer.py +328 -0
openocr/openrec/modeling/cmer_modeling/modeling_cmer.py +643 -0
openocr/openrec/modeling/decoders/__init__.py +1 -0
openocr/openrec/modeling/decoders/ctc_decoder.py +1 -1
openocr/openrec/modeling/decoders/dan_decoder.py +4 -4
openocr/openrec/modeling/decoders/dptr_parseq_clip_b_decoder.py +1563 -1398
openocr/openrec/modeling/decoders/mdiff_decoder.py +587 -0
openocr/openrec/modeling/decoders/smtr_decoder.py +99 -48
openocr/openrec/modeling/unirec_modeling/configuration_unirec.py +166 -0
openocr/openrec/modeling/unirec_modeling/modeling_unirec.py +433 -0
openocr/openrec/optimizer/__init__.py +4 -3
openocr/openrec/optimizer/lr.py +49 -0
openocr/openrec/postprocess/__init__.py +2 -0
openocr/openrec/postprocess/abinet_postprocess.py +1 -1
openocr/openrec/postprocess/ar_postprocess.py +1 -1
openocr/openrec/postprocess/cmer_postprocess.py +86 -0
openocr/openrec/postprocess/cppd_postprocess.py +1 -1
openocr/openrec/postprocess/igtr_postprocess.py +1 -1
openocr/openrec/postprocess/lister_postprocess.py +1 -1
openocr/openrec/postprocess/mgp_postprocess.py +1 -1
openocr/openrec/postprocess/nrtr_postprocess.py +2 -2
openocr/openrec/postprocess/smtr_postprocess.py +1 -1
openocr/openrec/postprocess/srn_postprocess.py +1 -1
openocr/openrec/postprocess/unirec_postprocess.py +58 -0
openocr/openrec/postprocess/visionlan_postprocess.py +1 -1
openocr/openrec/preprocess/__init__.py +5 -0
openocr/openrec/preprocess/ce_label_encode.py +1 -1
openocr/openrec/preprocess/cmer_label_encode.py +1025 -0
openocr/openrec/preprocess/ctc_label_encode.py +1 -1
openocr/openrec/preprocess/dptr_label_encode.py +177 -157
openocr/openrec/preprocess/igtr_label_encode.py +4 -2
openocr/openrec/preprocess/mdiff_label_encode.py +312 -0
openocr/openrec/preprocess/rec_aug.py +128 -2
openocr/openrec/preprocess/resize.py +57 -0
openocr/openrec/preprocess/unirec_label_encode.py +62 -0
openocr/tools/data/__init__.py +78 -55
openocr/tools/data/cmer_web_dataset.py +310 -0
openocr/tools/data/native_size_dataset.py +753 -0
openocr/tools/data/native_size_sampler.py +158 -0
openocr/tools/data/ratio_dataset_tvresize.py +2 -0
openocr/tools/data/ratio_sampler.py +2 -1
openocr/tools/download/download_dataset.py +38 -0
openocr/tools/download/utils.py +28 -0
openocr/tools/download_example_images.py +236 -0
openocr/tools/engine/trainer.py +155 -39
openocr/tools/eval_rec_all_ch.py +2 -2
openocr/tools/infer_det.py +20 -2
openocr/tools/infer_doc.py +898 -0
openocr/tools/infer_doc_onnx.py +1172 -0
openocr/tools/infer_e2e.py +27 -10
openocr/tools/infer_rec.py +64 -15
openocr/tools/infer_unirec_onnx.py +730 -0
openocr/tools/to_markdown.py +468 -0
openocr/tools/utils/ckpt.py +17 -5
openocr/tools/utils/opendoc_onnx_utils/utils.py +1052 -0
openocr_python-0.1.0.dev0.dist-info/METADATA +324 -0
{openocr_python-0.0.9.dist-info → openocr_python-0.1.0.dev0.dist-info}/RECORD +89 -45
{openocr_python-0.0.9.dist-info → openocr_python-0.1.0.dev0.dist-info}/WHEEL +1 -1
openocr_python-0.1.0.dev0.dist-info/entry_points.txt +2 -0
openocr_python-0.0.9.dist-info/METADATA +0 -149
/openocr_python-0.0.9.dist-info/LICENCE → /openocr_python-0.1.0.dev0.dist-info/licenses/LICENSE +0 -0
{openocr_python-0.0.9.dist-info → openocr_python-0.1.0.dev0.dist-info}/top_level.txt +0 -0

openocr/tools/infer_e2e.py CHANGED Viewed

@@ -75,7 +75,7 @@ def sorted_boxes(dt_boxes):
     return _boxes
-class OpenOCR(object):
+class OpenOCRE2E(object):
     def __init__(self,
                  mode='mobile',
@@ -84,7 +84,7 @@ class OpenOCR(object):
                  onnx_rec_model_path=None,
                  drop_score=0.5,
                  det_box_type='quad',
-                 device='gpu'):
+                 use_gpu='auto'):
         """
         初始化函数，用于初始化OCR引擎的相关配置和组件。
@@ -92,11 +92,26 @@ class OpenOCR(object):
             mode (str, optional): 运行模式，可选值为'mobile'或'server'。默认为'mobile'。
             drop_score (float, optional): 检测框的置信度阈值，低于该阈值的检测框将被丢弃。默认为0.5。
             det_box_type (str, optional): 检测框的类型，可选值为'quad' and 'poly'。默认为'quad'。
+            use_gpu (str, optional): GPU使用策略，可选值为'auto'/'true'/'false'。默认为'auto'。
         Returns:
             无返回值。
         """
+        # Parse use_gpu parameter
+        if use_gpu == 'auto':
+            try:
+                import torch
+                device = 'gpu' if torch.cuda.is_available() else 'cpu'
+            except:
+                device = 'cpu'
+        elif use_gpu == 'true':
+            device = 'gpu'
+        elif use_gpu == 'false':
+            device = 'cpu'
+        else:
+            raise ValueError(f"use_gpu must be 'auto', 'true', or 'false', got '{use_gpu}'")
         cfg_det = Config(DEFAULT_CFG_PATH_DET).cfg  # mobile model
         cfg_det['Global']['device'] = device
         if mode == 'server':
@@ -108,9 +123,10 @@ class OpenOCR(object):
         self.text_detector = OpenDetector(cfg_det,
                                           backend=backend,
-                                          onnx_model_path=onnx_det_model_path)
+                                          onnx_model_path=onnx_det_model_path,
+                                          use_gpu=use_gpu)
         self.text_recognizer = OpenRecognizer(
-            cfg_rec, backend=backend, onnx_model_path=onnx_rec_model_path)
+            cfg_rec, backend=backend, onnx_model_path=onnx_rec_model_path, use_gpu=use_gpu)
         self.det_box_type = det_box_type
         self.drop_score = drop_score
@@ -415,10 +431,11 @@ def main():
                         type=float,
                         default=0.5,
                         help='Score threshold for text recognition.')
-    parser.add_argument('--device',
+    parser.add_argument('--use_gpu',
                         type=str,
-                        default='gpu',
-                        help='Device to use for inference.')
+                        default='auto',
+                        choices=['auto', 'true', 'false'],
+                        help='GPU usage strategy: auto (detect automatically), true (force GPU), false (force CPU)')
     args = parser.parse_args()
     img_path = args.img_path
@@ -429,15 +446,15 @@ def main():
     save_dir = args.save_dir
     is_visualize = args.is_vis
     drop_score = args.drop_score
-    device = args.device
+    use_gpu = args.use_gpu
-    text_sys = OpenOCR(mode=mode,
+    text_sys = OpenOCRE2E(mode=mode,
                        backend=backend,
                        onnx_det_model_path=onnx_det_model_path,
                        onnx_rec_model_path=onnx_rec_model_path,
                        drop_score=drop_score,
                        det_box_type='quad',
-                       device=device)  # det_box_type: 'quad' or 'poly'
+                       use_gpu=use_gpu)  # det_box_type: 'quad' or 'poly'
     text_sys(img_path=img_path, save_dir=save_dir, is_visualize=is_visualize)

openocr/tools/infer_rec.py CHANGED Viewed

@@ -127,7 +127,7 @@ def build_rec_process(cfg):
     ratio_resize_flag = True
     for op in cfg['Eval']['dataset']['transforms']:
         op_name = list(op)[0]
-        if 'Resize' in op_name:
+        if 'Resize' in op_name or 'Processor' in op_name:
             ratio_resize_flag = False
         if 'Label' in op_name:
             continue
@@ -149,6 +149,8 @@ def set_device(device, numId=0):
     import torch
     if device == 'gpu' and torch.cuda.is_available():
         device = torch.device(f'cuda:{numId}')
+    elif device == 'mps' and torch.backends.mps.is_available():
+        device = torch.device('mps')
     else:
         logger.info('GPU is not available, using CPU.')
         device = torch.device('cpu')
@@ -162,6 +164,7 @@ class OpenRecognizer:
                  mode='mobile',
                  backend='torch',
                  onnx_model_path=None,
+                 use_gpu='auto',
                  numId=0):
         """
         Args:
@@ -169,12 +172,30 @@ class OpenRecognizer:
             mode (str, optional): 模式，'server' 或 'mobile'。默认为'mobile'。
             backend (str): 'torch' 或 'onnx'
             onnx_model_path (str): ONNX模型路径（仅当backend='onnx'时需要）
+            use_gpu (str, optional): GPU使用策略，可选值为'auto'/'true'/'false'。默认为'auto'。
             numId (int, optional): 设备编号。默认为0。
         """
         if config is None:
             config_file = DEFAULT_CFG_PATH_REC_SERVER if mode == 'server' else DEFAULT_CFG_PATH_REC
             config = Config(config_file).cfg
+        # Parse use_gpu parameter
+        if use_gpu == 'auto':
+            try:
+                import torch
+                device = 'gpu' if torch.cuda.is_available() else 'cpu'
+            except:
+                device = 'cpu'
+        elif use_gpu == 'true':
+            device = 'gpu'
+        elif use_gpu == 'false':
+            device = 'cpu'
+        else:
+            raise ValueError(f"use_gpu must be 'auto', 'true', or 'false', got '{use_gpu}'")
+        config['Global']['device'] = device
         self.cfg = config
         # 公共初始化
         self._init_common()
@@ -197,7 +218,7 @@ class OpenRecognizer:
                 else:
                     raise ValueError('ONNX模式需要指定onnx_model_path参数')
             self.onnx_rec_engine = ONNXEngine(
-                onnx_model_path, use_gpu=config['Global']['device'] == 'gpu')
+                onnx_model_path, use_gpu=(device == 'gpu'))
         else:
             raise ValueError("backend参数必须是'torch'或'onnx'")
@@ -222,26 +243,43 @@ class OpenRecognizer:
     def _init_torch_model(self, numId):
         from tools.utils.ckpt import load_ckpt
-        from tools.infer_det import replace_batchnorm
-        # PyTorch专用初始化
         algorithm_name = self.cfg['Architecture']['algorithm']
-        if algorithm_name in ['SVTRv2_mobile', 'SVTRv2_server']:
-            if not os.path.exists(self.cfg['Global']['pretrained_model']):
-                pretrained_model = check_and_download_model(
-                    MODEL_NAME_REC, DOWNLOAD_URL_REC
-                ) if algorithm_name == 'SVTRv2_mobile' else check_and_download_model(
-                    MODEL_NAME_REC_SERVER, DOWNLOAD_URL_REC_SERVER)
-                self.cfg['Global']['pretrained_model'] = pretrained_model
-        from openrec.modeling import build_model as build_rec_model
+        if self.cfg['Global'].get('use_transformers', False):
+            if algorithm_name == 'UniRec':
+                from openrec.modeling.unirec_modeling.modeling_unirec import UniRecForConditionalGenerationNew
+                from openrec.modeling.unirec_modeling.configuration_unirec import UniRecConfig
+                cfg_model = UniRecConfig.from_pretrained(
+                    self.cfg['Global']['vlm_ocr_config'])
+                # cfg_model._attn_implementation = "flash_attention_2"
+                cfg_model._attn_implementation = 'eager'
+                self.model = UniRecForConditionalGenerationNew(
+                    config=cfg_model)
+            elif algorithm_name == 'CMER':
+                from openrec.modeling.cmer_modeling.modeling_cmer import CMER, CMERConfig
+                cfg_model = CMERConfig(
+                    self.cfg['Architecture']['vision_config'],
+                    self.cfg['Architecture']['decoder_config'])
+                self.model = CMER(config=cfg_model)
+        else:
+            # PyTorch专用初始化
+            if algorithm_name in ['SVTRv2_mobile', 'SVTRv2_server']:
+                if not os.path.exists(self.cfg['Global']['pretrained_model']):
+                    pretrained_model = check_and_download_model(
+                        MODEL_NAME_REC, DOWNLOAD_URL_REC
+                    ) if algorithm_name == 'SVTRv2_mobile' else check_and_download_model(
+                        MODEL_NAME_REC_SERVER, DOWNLOAD_URL_REC_SERVER)
+                    self.cfg['Global']['pretrained_model'] = pretrained_model
+            from openrec.modeling import build_model as build_rec_model
+            self.model = build_rec_model(self.cfg['Architecture'])
-        self.model = build_rec_model(self.cfg['Architecture'])
         load_ckpt(self.model, self.cfg)
         self.device = set_device(self.cfg['Global']['device'], numId)
         self.model.to(self.device)
         self.model.eval()
         if algorithm_name == 'SVTRv2_mobile':
+            from tools.infer_det import replace_batchnorm
             replace_batchnorm(self.model.encoder)
     def _inference_onnx(self, images):
@@ -329,7 +367,18 @@ class OpenRecognizer:
                 images = self.torch.from_numpy(padded_batch).to(
                     device=self.device)
                 with self.torch.no_grad():
-                    preds = self.model(images, others)  # bs, len, num_classes
+                    if self.cfg['Global'].get('use_transformers', False):
+                        # transformers模型推理
+                        inputs = {
+                            'pixel_values': images,
+                            'input_ids': None,
+                            'attention_mask': None
+                        }
+                        preds = self.model.generate(**inputs)
+                    else:
+                        # PyTorch模型推理
+                        preds = self.model(images,
+                                           others)  # bs, len, num_classes
                 torch_tensor = True
             elif self.backend == 'onnx':
                 # ONNX推理

openocr-python 0.0.9__py3-none-any.whl → 0.1.0.dev0__py3-none-any.whl

openocr-python 0.0.9py3-none-any.whl → 0.1.0.dev0py3-none-any.whl