PyPI - cnocr - Versions diffs - 2.3.2.2__tar.gz → 2.3.3__tar.gz - Mend

cnocr 2.3.2.2tar.gz → 2.3.3tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (62) hide show

{cnocr-2.3.2.2 → cnocr-2.3.3}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: cnocr
-Version: 2.3.2.2
+Version: 2.3.3
 Summary: Python3 package for Chinese/English OCR, with small pretrained models
 Home-page: https://github.com/breezedeus/cnocr
 Author: breezedeus
@@ -16,11 +16,11 @@ Classifier: License :: OSI Approved :: Apache Software License
 Classifier: Programming Language :: Python
 Classifier: Programming Language :: Python :: Implementation
 Classifier: Programming Language :: Python :: 3
-Classifier: Programming Language :: Python :: 3.7
 Classifier: Programming Language :: Python :: 3.8
 Classifier: Programming Language :: Python :: 3.9
 Classifier: Programming Language :: Python :: 3.10
 Classifier: Topic :: Scientific/Engineering :: Artificial Intelligence
+Requires-Python: >=3.8
 Description-Content-Type: text/markdown
 Provides-Extra: ort-cpu
 Provides-Extra: ort-gpu
@@ -69,6 +69,17 @@ License-File: LICENSE
 ---
 </div>
+### Update 2026.07.04：发布 V2.3.3
+主要变更：
+* 基于 RapidOCR 支持 PP-OCRv6 多语种 OCR 模型
+  * 新增支持 PP-OCRv6 识别模型：`multi_PP-OCRv6_tiny`、`multi_PP-OCRv6`、`multi_PP-OCRv6_small` 和 `multi_PP-OCRv6_medium`
+  * 通过 CnSTD 新增支持 PP-OCRv6 检测模型：`multi_PP-OCRv6_det_tiny`、`multi_PP-OCRv6_det_small` 和 `multi_PP-OCRv6_det_medium`
+  * `CnOcr` 新增 `rec_lang_type` 参数，可为 RapidOCR v6 识别模型指定语言类型
+  * CLI 新增 `--rec-lang-type` 和 `--det-lang-type`，可为 RapidOCR v6 模型指定语言类型
 ### Update 2025.06.26：发布 V2.3.2
 主要变更：
@@ -192,13 +203,13 @@ print(out)
 ### 竖排文字识别
-采用来自 [**PaddleOCR**](https://github.com/PaddlePaddle/PaddleOCR)（之后简称 **ppocr**）的中文识别模型 `rec_model_name='ch_PP-OCRv3'` 进行识别。
+采用来自 [**PaddleOCR**](https://github.com/PaddlePaddle/PaddleOCR)（之后简称 **ppocr**）的 PP-OCRv6 多语种识别模型 `rec_model_name='multi_PP-OCRv6'` 进行识别。
 ```python
 from cnocr import CnOcr
 img_fp = './docs/examples/shupai.png'
-ocr = CnOcr(rec_model_name='ch_PP-OCRv3')
+ocr = CnOcr(rec_model_name='multi_PP-OCRv6')
 out = ocr.ocr(img_fp)
 print(out)
@@ -233,31 +244,27 @@ print(out)
 ### 繁体中文识别
-采用来自ppocr的繁体识别模型 `rec_model_name='chinese_cht_PP-OCRv3'` 进行识别。
+采用来自 ppocr 的 PP-OCRv6 多语种识别模型，并通过 `rec_lang_type='chinese_cht'` 指定繁体中文进行识别。
 ```python
 from cnocr import CnOcr
 img_fp = './docs/examples/fanti.jpg'
-ocr = CnOcr(rec_model_name='chinese_cht_PP-OCRv3')  # 识别模型使用繁体识别模型
+ocr = CnOcr(rec_model_name='multi_PP-OCRv6', rec_lang_type='chinese_cht')
 out = ocr.ocr(img_fp)
 print(out)
 ```
-使用此模型时请注意以下问题：
-* 识别精度一般，不是很好；
-* 除了繁体字，对标点、英文、数字的识别都不好；
-* 此模型不支持竖排文字的识别。
+`multi_PP-OCRv6` 是 `multi_PP-OCRv6_small` 的别名；`chinese_cht` 是繁体中文对应的 `lang_type`。
 识别结果：
 <div align="center">
   <img src="./docs/predict-outputs/fanti.jpg-result.jpg" alt="繁体中文识别" width="700px"/>
 </div>
+注：上图中的识别结果来自 V3 模型；V6 模型的识别效果已经有显著增强。
 ### 单行文字的图片识别
@@ -331,7 +338,7 @@ $ pip install cnocr[ort-cpu] -i https://mirrors.aliyun.com/pypi/simple
 > **Note**
 >
-> 请使用 **Python3**（3.7.\*~3.10.\*之间的版本应该都行），没测过Python2下是否ok。
+> 请使用 **Python 3.8 或更高版本**。
 更多说明可见 [安装文档](https://cnocr.readthedocs.io/zh-cn/stable/install/)。
@@ -428,13 +435,18 @@ print(ocr_out)
 | db_mobilenet_v3_small                                        | √            | X         | cnocr        | 7.9 M        | 简体中文、繁体中文、英文、数字 | √                    |
 | db_resnet34                                                  | √            | X         | cnocr        | 86 M         | 简体中文、繁体中文、英文、数字 | √                    |
 | db_resnet18                                                  | √            | X         | cnocr        | 47 M         | 简体中文、繁体中文、英文、数字 | √                    |
+| multi_PP-OCRv6_det_tiny                                      | X            | √         | ppocr        | 1.7 M        | 多语种（不含日文）             | √                    |
+| multi_PP-OCRv6_det_small                                     | X            | √         | ppocr        | 9.5 M        | 多语种                         | √                    |
+| multi_PP-OCRv6_det_medium                                    | X            | √         | ppocr        | 59 M         | 多语种                         | √                    |
 | ch_PP-OCRv5_det                                              | X            | √         | ppocr        | 4.6 M        | 简体中文、繁体中文、英文、数字 | √                    |
-| ch_PP-OCRv5_det_server                                       | X            | √         | ppocr        | 84 M        | 简体中文、繁体中文、英文、数字 | √                    |
+| ch_PP-OCRv5_det_server                                       | X            | √         | ppocr        | 84 M         | 简体中文、繁体中文、英文、数字 | √                    |
 | ch_PP-OCRv4_det                                              | X            | √         | ppocr        | 4.5 M        | 简体中文、繁体中文、英文、数字 | √                    |
 | ch_PP-OCRv4_det_server                                       | X            | √         | ppocr        | 108 M        | 简体中文、繁体中文、英文、数字 | √                    |
 | ch_PP-OCRv3_det                                              | X            | √         | ppocr        | 2.3 M        | 简体中文、繁体中文、英文、数字 | √                    |
 | **en_PP-OCRv3_det**                                          | X            | √         | ppocr        | 2.3 M        | **英文**、数字                 | √                    |
+PP-OCRv6 的 `multi_PP-OCRv6_det_small` 和 `multi_PP-OCRv6_det_medium` 支持的 `lang_type` 包括：`ch`, `chinese_cht`, `en`, `japan`, `af`, `az`, `bs`, `ca`, `cs`, `cy`, `da`, `de`, `es`, `et`, `eu`, `fi`, `fr`, `ga`, `gl`, `hr`, `hu`, `id`, `is`, `it`, `ku`, `la`, `lb`, `lt`, `lv`, `mi`, `ms`, `mt`, `nl`, `no`, `oc`, `pl`, `pt`, `qu`, `rm`, `ro`, `rs_latin`, `sk`, `sl`, `sq`, `sv`, `sw`, `tl`, `tr`, `uz`, `vi`, `french`, `german`；`multi_PP-OCRv6_det_tiny` 不支持 `japan`。`multi` 是模型族名称，不是可传入的 `lang_type`。
 ### 可使用的识别模型
@@ -469,6 +481,9 @@ print(ocr_out)
 | **number-densenet_lite_136-fc** 🆕                            | √            | √         | cnocr        | 2.7 M        | **纯数字**（仅包含 `0~9` 十个数字） | X                    |
 | **number-densenet_lite_136-gru**  🆕 <br /> ([星球会员](https://t.zsxq.com/FEYZRJQ)专享) | √            | √         | cnocr        | 5.5 M        | **纯数字**（仅包含 `0~9` 十个数字） | X                    |
 | **number-densenet_lite_666-gru_large** 🆕 <br />（购买链接：[B站](https://mall.bilibili.com/neul-next/detailuniversal/detail.html?isMerchant=1&page=detailuniversal_detail&saleType=10&itemsId=11884155&loadingShow=1&noTitleBar=1&msource=merchant_share)、[Lemon Squeezy](https://ocr.lemonsqueezy.com/)） | √            | √         | cnocr        | 55 M         | **纯数字**（仅包含 `0~9` 十个数字） | X                    |
+| multi_PP-OCRv6_tiny                                          | X            | √         | ppocr        | 4.3 M        | 多语种（不含日文）                  | √                    |
+| multi_PP-OCRv6 / multi_PP-OCRv6_small                        | X            | √         | ppocr        | 20 M         | 多语种                              | √                    |
+| multi_PP-OCRv6_medium                                        | X            | √         | ppocr        | 73 M         | 多语种                              | √                    |
 | ch_PP-OCRv5                                                  | X            | √         | ppocr        | 16 M         | 简体中文、英文、数字                | √                    |
 | ch_PP-OCRv5_server                                           | X            | √         | ppocr        | 81 M         | 简体中文、英文、数字                | √                    |
 | ch_PP-OCRv4                                                  | X            | √         | ppocr        | 10 M         | 简体中文、英文、数字                | √                    |
@@ -484,6 +499,8 @@ print(ocr_out)
 | latin_PP-OCRv3                                               | X            | √         | ppocr        | 8.6 M         | **拉丁文**、英文、数字              | √                    |
 | arabic_PP-OCRv3                                              | X            | √         | ppocr        | 8.6 M         | **阿拉伯文**、英文、数字            | √                    |
+PP-OCRv6 的 `multi_PP-OCRv6_small`、`multi_PP-OCRv6_medium` 支持的 `lang_type` 包括：`ch`, `chinese_cht`, `en`, `japan`, `af`, `az`, `bs`, `ca`, `cs`, `cy`, `da`, `de`, `es`, `et`, `eu`, `fi`, `fr`, `ga`, `gl`, `hr`, `hu`, `id`, `is`, `it`, `ku`, `la`, `lb`, `lt`, `lv`, `mi`, `ms`, `mt`, `nl`, `no`, `oc`, `pl`, `pt`, `qu`, `rm`, `ro`, `rs_latin`, `sk`, `sl`, `sq`, `sv`, `sw`, `tl`, `tr`, `uz`, `vi`, `french`, `german`；`multi_PP-OCRv6_tiny` 不支持 `japan`。`multi_PP-OCRv6` 是 `multi_PP-OCRv6_small` 的别名；`multi` 是模型族名称，不是可传入的 `lang_type`。
 ## 未来工作

{cnocr-2.3.2.2 → cnocr-2.3.3}/README.md RENAMED Viewed

@@ -39,6 +39,17 @@
 ---
 </div>
+### Update 2026.07.04：发布 V2.3.3
+主要变更：
+* 基于 RapidOCR 支持 PP-OCRv6 多语种 OCR 模型
+  * 新增支持 PP-OCRv6 识别模型：`multi_PP-OCRv6_tiny`、`multi_PP-OCRv6`、`multi_PP-OCRv6_small` 和 `multi_PP-OCRv6_medium`
+  * 通过 CnSTD 新增支持 PP-OCRv6 检测模型：`multi_PP-OCRv6_det_tiny`、`multi_PP-OCRv6_det_small` 和 `multi_PP-OCRv6_det_medium`
+  * `CnOcr` 新增 `rec_lang_type` 参数，可为 RapidOCR v6 识别模型指定语言类型
+  * CLI 新增 `--rec-lang-type` 和 `--det-lang-type`，可为 RapidOCR v6 模型指定语言类型
 ### Update 2025.06.26：发布 V2.3.2
 主要变更：
@@ -162,13 +173,13 @@ print(out)
 ### 竖排文字识别
-采用来自 [**PaddleOCR**](https://github.com/PaddlePaddle/PaddleOCR)（之后简称 **ppocr**）的中文识别模型 `rec_model_name='ch_PP-OCRv3'` 进行识别。
+采用来自 [**PaddleOCR**](https://github.com/PaddlePaddle/PaddleOCR)（之后简称 **ppocr**）的 PP-OCRv6 多语种识别模型 `rec_model_name='multi_PP-OCRv6'` 进行识别。
 ```python
 from cnocr import CnOcr
 img_fp = './docs/examples/shupai.png'
-ocr = CnOcr(rec_model_name='ch_PP-OCRv3')
+ocr = CnOcr(rec_model_name='multi_PP-OCRv6')
 out = ocr.ocr(img_fp)
 print(out)
@@ -203,31 +214,27 @@ print(out)
 ### 繁体中文识别
-采用来自ppocr的繁体识别模型 `rec_model_name='chinese_cht_PP-OCRv3'` 进行识别。
+采用来自 ppocr 的 PP-OCRv6 多语种识别模型，并通过 `rec_lang_type='chinese_cht'` 指定繁体中文进行识别。
 ```python
 from cnocr import CnOcr
 img_fp = './docs/examples/fanti.jpg'
-ocr = CnOcr(rec_model_name='chinese_cht_PP-OCRv3')  # 识别模型使用繁体识别模型
+ocr = CnOcr(rec_model_name='multi_PP-OCRv6', rec_lang_type='chinese_cht')
 out = ocr.ocr(img_fp)
 print(out)
 ```
-使用此模型时请注意以下问题：
-* 识别精度一般，不是很好；
-* 除了繁体字，对标点、英文、数字的识别都不好；
-* 此模型不支持竖排文字的识别。
+`multi_PP-OCRv6` 是 `multi_PP-OCRv6_small` 的别名；`chinese_cht` 是繁体中文对应的 `lang_type`。
 识别结果：
 <div align="center">
   <img src="./docs/predict-outputs/fanti.jpg-result.jpg" alt="繁体中文识别" width="700px"/>
 </div>
+注：上图中的识别结果来自 V3 模型；V6 模型的识别效果已经有显著增强。
 ### 单行文字的图片识别
@@ -301,7 +308,7 @@ $ pip install cnocr[ort-cpu] -i https://mirrors.aliyun.com/pypi/simple
 > **Note**
 >
-> 请使用 **Python3**（3.7.\*~3.10.\*之间的版本应该都行），没测过Python2下是否ok。
+> 请使用 **Python 3.8 或更高版本**。
 更多说明可见 [安装文档](https://cnocr.readthedocs.io/zh-cn/stable/install/)。
@@ -398,13 +405,18 @@ print(ocr_out)
 | db_mobilenet_v3_small                                        | √            | X         | cnocr        | 7.9 M        | 简体中文、繁体中文、英文、数字 | √                    |
 | db_resnet34                                                  | √            | X         | cnocr        | 86 M         | 简体中文、繁体中文、英文、数字 | √                    |
 | db_resnet18                                                  | √            | X         | cnocr        | 47 M         | 简体中文、繁体中文、英文、数字 | √                    |
+| multi_PP-OCRv6_det_tiny                                      | X            | √         | ppocr        | 1.7 M        | 多语种（不含日文）             | √                    |
+| multi_PP-OCRv6_det_small                                     | X            | √         | ppocr        | 9.5 M        | 多语种                         | √                    |
+| multi_PP-OCRv6_det_medium                                    | X            | √         | ppocr        | 59 M         | 多语种                         | √                    |
 | ch_PP-OCRv5_det                                              | X            | √         | ppocr        | 4.6 M        | 简体中文、繁体中文、英文、数字 | √                    |
-| ch_PP-OCRv5_det_server                                       | X            | √         | ppocr        | 84 M        | 简体中文、繁体中文、英文、数字 | √                    |
+| ch_PP-OCRv5_det_server                                       | X            | √         | ppocr        | 84 M         | 简体中文、繁体中文、英文、数字 | √                    |
 | ch_PP-OCRv4_det                                              | X            | √         | ppocr        | 4.5 M        | 简体中文、繁体中文、英文、数字 | √                    |
 | ch_PP-OCRv4_det_server                                       | X            | √         | ppocr        | 108 M        | 简体中文、繁体中文、英文、数字 | √                    |
 | ch_PP-OCRv3_det                                              | X            | √         | ppocr        | 2.3 M        | 简体中文、繁体中文、英文、数字 | √                    |
 | **en_PP-OCRv3_det**                                          | X            | √         | ppocr        | 2.3 M        | **英文**、数字                 | √                    |
+PP-OCRv6 的 `multi_PP-OCRv6_det_small` 和 `multi_PP-OCRv6_det_medium` 支持的 `lang_type` 包括：`ch`, `chinese_cht`, `en`, `japan`, `af`, `az`, `bs`, `ca`, `cs`, `cy`, `da`, `de`, `es`, `et`, `eu`, `fi`, `fr`, `ga`, `gl`, `hr`, `hu`, `id`, `is`, `it`, `ku`, `la`, `lb`, `lt`, `lv`, `mi`, `ms`, `mt`, `nl`, `no`, `oc`, `pl`, `pt`, `qu`, `rm`, `ro`, `rs_latin`, `sk`, `sl`, `sq`, `sv`, `sw`, `tl`, `tr`, `uz`, `vi`, `french`, `german`；`multi_PP-OCRv6_det_tiny` 不支持 `japan`。`multi` 是模型族名称，不是可传入的 `lang_type`。
 ### 可使用的识别模型
@@ -439,6 +451,9 @@ print(ocr_out)
 | **number-densenet_lite_136-fc** 🆕                            | √            | √         | cnocr        | 2.7 M        | **纯数字**（仅包含 `0~9` 十个数字） | X                    |
 | **number-densenet_lite_136-gru**  🆕 <br /> ([星球会员](https://t.zsxq.com/FEYZRJQ)专享) | √            | √         | cnocr        | 5.5 M        | **纯数字**（仅包含 `0~9` 十个数字） | X                    |
 | **number-densenet_lite_666-gru_large** 🆕 <br />（购买链接：[B站](https://mall.bilibili.com/neul-next/detailuniversal/detail.html?isMerchant=1&page=detailuniversal_detail&saleType=10&itemsId=11884155&loadingShow=1&noTitleBar=1&msource=merchant_share)、[Lemon Squeezy](https://ocr.lemonsqueezy.com/)） | √            | √         | cnocr        | 55 M         | **纯数字**（仅包含 `0~9` 十个数字） | X                    |
+| multi_PP-OCRv6_tiny                                          | X            | √         | ppocr        | 4.3 M        | 多语种（不含日文）                  | √                    |
+| multi_PP-OCRv6 / multi_PP-OCRv6_small                        | X            | √         | ppocr        | 20 M         | 多语种                              | √                    |
+| multi_PP-OCRv6_medium                                        | X            | √         | ppocr        | 73 M         | 多语种                              | √                    |
 | ch_PP-OCRv5                                                  | X            | √         | ppocr        | 16 M         | 简体中文、英文、数字                | √                    |
 | ch_PP-OCRv5_server                                           | X            | √         | ppocr        | 81 M         | 简体中文、英文、数字                | √                    |
 | ch_PP-OCRv4                                                  | X            | √         | ppocr        | 10 M         | 简体中文、英文、数字                | √                    |
@@ -454,6 +469,8 @@ print(ocr_out)
 | latin_PP-OCRv3                                               | X            | √         | ppocr        | 8.6 M         | **拉丁文**、英文、数字              | √                    |
 | arabic_PP-OCRv3                                              | X            | √         | ppocr        | 8.6 M         | **阿拉伯文**、英文、数字            | √                    |
+PP-OCRv6 的 `multi_PP-OCRv6_small`、`multi_PP-OCRv6_medium` 支持的 `lang_type` 包括：`ch`, `chinese_cht`, `en`, `japan`, `af`, `az`, `bs`, `ca`, `cs`, `cy`, `da`, `de`, `es`, `et`, `eu`, `fi`, `fr`, `ga`, `gl`, `hr`, `hu`, `id`, `is`, `it`, `ku`, `la`, `lb`, `lt`, `lv`, `mi`, `ms`, `mt`, `nl`, `no`, `oc`, `pl`, `pt`, `qu`, `rm`, `ro`, `rs_latin`, `sk`, `sl`, `sq`, `sv`, `sw`, `tl`, `tr`, `uz`, `vi`, `french`, `german`；`multi_PP-OCRv6_tiny` 不支持 `japan`。`multi_PP-OCRv6` 是 `multi_PP-OCRv6_small` 的别名；`multi` 是模型族名称，不是可传入的 `lang_type`。
 ## 未来工作

{cnocr-2.3.2.2 → cnocr-2.3.3}/cnocr/__init__.py RENAMED Viewed

@@ -17,6 +17,10 @@
 # specific language governing permissions and limitations
 # under the License.
+import logging
+logging.getLogger(__name__).addHandler(logging.NullHandler())
 from cnstd.consts import AVAILABLE_MODELS as DET_AVAILABLE_MODELS
 from cnstd.utils import pil_to_numpy

{cnocr-2.3.2.2 → cnocr-2.3.3}/cnocr/__version__.py RENAMED Viewed

@@ -1,5 +1,5 @@
 # coding: utf-8
-# Copyright (C) 2021-2023, [Breezedeus](https://github.com/breezedeus).
+# Copyright (C) 2021-2026, [Breezedeus](https://github.com/breezedeus).
 # Licensed to the Apache Software Foundation (ASF) under one
 # or more contributor license agreements.  See the NOTICE file
 # distributed with this work for additional information
@@ -17,4 +17,4 @@
 # specific language governing permissions and limitations
 # under the License.
-__version__ = '2.3.2.2'
+__version__ = '2.3.3'

{cnocr-2.3.2.2 → cnocr-2.3.3}/cnocr/cli.py RENAMED Viewed

@@ -54,6 +54,7 @@ _CONTEXT_SETTINGS = {"help_option_names": ['-h', '--help']}
 logger = set_logger(log_level=logging.INFO)
 DEFAULT_MODEL_NAME = 'densenet_lite_136-gru'
+DEFAULT_DET_MODEL_NAME = 'multi_PP-OCRv6_det_small'
 LEGAL_MODEL_NAMES = {
     enc_name + '-' + dec_name
     for enc_name in ENCODER_CONFIGS.keys()
@@ -211,12 +212,18 @@ def visualize_example(example, fp_prefix):
     default=None,
     help='识别模型使用的词表。默认取值为 `None` 表示使用系统设定的词表',
 )
+@click.option(
+    '--rec-lang-type',
+    type=str,
+    default=None,
+    help='RapidOCR识别模型的语言类型；PP-OCRv6支持如 ch、en、japan、french、german 等。默认值为 `None`',
+)
 @click.option(
     '-d',
     '--det-model-name',
     type=str,
-    default='ch_PP-OCRv5_det',
-    help='检测模型名称。默认值为 ch_PP-OCRv5_det',
+    default=DEFAULT_DET_MODEL_NAME,
+    help='检测模型名称。默认值为 %s' % DEFAULT_DET_MODEL_NAME,
 )
 @click.option(
     '--det-model-backend',
@@ -224,6 +231,12 @@ def visualize_example(example, fp_prefix):
     default='onnx',
     help='检测模型类型。默认值为 `onnx`',
 )
+@click.option(
+    '--det-lang-type',
+    type=str,
+    default=None,
+    help='RapidOCR检测模型的语言类型；PP-OCRv6支持如 ch、en、japan、french、german 等。默认值为 `None`',
+)
 @click.option(
     '--det-resized-shape', type=int, default=768, help='检测模型输入图像尺寸。默认值为 768',
 )
@@ -264,8 +277,10 @@ def predict(
     rec_model_name,
     rec_model_backend,
     rec_vocab_fp,
+    rec_lang_type,
     det_model_name,
     det_model_backend,
+    det_lang_type,
     det_resized_shape,
     pretrained_model_fp,
     context,
@@ -295,6 +310,10 @@ def predict(
     if len(fp_list) == 0:
         raise ValueError(f'No image is found from "{img_file_or_dir}".')
+    det_more_configs = {}
+    if det_lang_type is not None:
+        det_more_configs['lang_type'] = det_lang_type
     ocr = CnOcr(
         rec_model_name=rec_model_name,
         rec_model_backend=rec_model_backend,
@@ -302,8 +321,9 @@ def predict(
         det_model_name=det_model_name,
         det_model_backend=det_model_backend,
         rec_model_fp=pretrained_model_fp,
+        rec_lang_type=rec_lang_type,
+        det_more_configs=det_more_configs,
         context=context,
-        # det_more_configs={'rotated_bbox': False},
     )
     ocr_func = ocr.ocr_for_single_line if single_line else ocr.ocr
     ocr_kwargs = {}

{cnocr-2.3.2.2 → cnocr-2.3.3}/cnocr/cn_ocr.py RENAMED Viewed

@@ -27,12 +27,16 @@ from pathlib import Path
 import numpy as np
 import torch
 from PIL import Image
+from rapidocr import LangRec
 from cnstd.consts import AVAILABLE_MODELS as DET_AVAILABLE_MODELS
 from cnstd import CnStd
 from cnstd.utils import data_dir as det_data_dir
 from .consts import AVAILABLE_MODELS as REC_AVAILABLE_MODELS
-from .utils import data_dir, read_img
+from .utils import (
+    data_dir,
+    read_img,
+)
 from .line_split import line_split
 from .recognizer import Recognizer
 from .ppocr import PPRecognizer, RapidRecognizer, PP_SPACE
@@ -64,12 +68,13 @@ class CnOcr(object):
         self,
         rec_model_name: str = 'densenet_lite_136-gru',
         *,
-        det_model_name: str = 'ch_PP-OCRv5_det',
+        det_model_name: str = 'multi_PP-OCRv6_det_small',
         cand_alphabet: Optional[Union[Collection, str]] = None,
         context: str = 'cpu',  # ['cpu', 'gpu', 'cuda']
         rec_model_fp: Optional[str] = None,
         rec_model_backend: str = 'onnx',  # ['pytorch', 'onnx']
         rec_vocab_fp: Optional[Union[str, Path]] = None,
+        rec_lang_type: Optional[Union[str, LangRec]] = None,
         rec_more_configs: Optional[Dict[str, Any]] = None,
         rec_root: Union[str, Path] = data_dir(),
         det_model_fp: Optional[str] = None,
@@ -83,7 +88,7 @@ class CnOcr(object):
         Args:
             rec_model_name (str): 识别模型名称。默认为 `densenet_lite_136-gru`
-            det_model_name (str): 检测模型名称。默认为 `ch_PP-OCRv5_det`
+            det_model_name (str): 检测模型名称。默认为 `multi_PP-OCRv6_det_small`
             cand_alphabet (Optional[Union[Collection, str]]): 待识别字符所在的候选集合。默认为 `None`，表示不限定识别字符范围
             context (str): 'cpu', or 'gpu'。表明预测时是使用CPU还是GPU。默认为 `cpu`。
                 此参数仅在 `model_backend=='pytorch'` 时有效。
@@ -92,6 +97,8 @@ class CnOcr(object):
                 同样的模型，ONNX 版本的预测速度一般是 PyTorch 版本的2倍左右。默认为 'onnx'。
             rec_vocab_fp (Optional[Union[str, Path]]): 识别字符集合的文件路径，即 `label_cn.txt` 文件路径。取值为 `None` 表示使用系统设定的词表。
                 若训练的自有模型更改了字符集，看通过此参数传入新的字符集文件路径。
+            rec_lang_type (Optional[Union[str, LangRec]]): RapidOCR识别模型语言类型。PP-OCRv6
+                需传入具体语言，如 `ch`、`en`、`japan`、`french` 等；默认为中文。
             rec_more_configs (Optional[Dict[str, Any]]): 识别模型初始化时传入的其他参数。
             rec_root (Union[str, Path]): 识别模型文件所在的根目录。
                 Linux/Mac下默认值为 `~/.cnocr`，表示模型文件所处文件夹类似 `~/.cnocr/2.3/densenet_lite_136-gru`。
@@ -101,7 +108,7 @@ class CnOcr(object):
                 同样的模型，ONNX 版本的预测速度一般是 PyTorch 版本的2倍左右。默认为 'onnx'。
             det_more_configs (Optional[Dict[str, Any]]): 识别模型初始化时传入的其他参数。
             det_root: 检测模型文件所在的根目录。
-                Linux/Mac下默认值为 `~/.cnstd`，表示模型文件所处文件夹类似 `~/.cnstd/1.2/db_resnet18`
+                Linux/Mac下默认值为 `~/.cnstd`，表示模型文件所处文件夹类似 `~/.cnstd/1.2/ppocr/multi_PP-OCRv6_det_small`
                 Windows下默认值为 `C:/Users/<username>/AppData/Roaming/cnstd`。
             **kwargs: 目前未被使用。
@@ -152,7 +159,14 @@ class CnOcr(object):
                 '%s is not supported currently' % ((rec_model_name, rec_model_backend),)
             )
-        rec_more_configs = rec_more_configs or dict()
+        rec_more_configs = dict(rec_more_configs or {})
+        if rec_lang_type is not None:
+            if 'lang_type' in rec_more_configs:
+                logger.warning(
+                    'both `rec_lang_type` and `rec_more_configs["lang_type"]` are set; '
+                    '`rec_lang_type` will be used'
+                )
+            rec_more_configs['lang_type'] = rec_lang_type
         self.rec_model = rec_cls(
             model_name=rec_model_name,
             model_backend=rec_model_backend,
@@ -163,6 +177,18 @@ class CnOcr(object):
             vocab_fp=rec_vocab_fp,
             **rec_more_configs,
         )
+        rec_effective_lang_type = getattr(self.rec_model, '_lang_type', None)
+        rec_effective_lang_type = getattr(
+            rec_effective_lang_type, 'value', rec_effective_lang_type
+        )
+        logger.info(
+            'use rec model: name=%s, backend=%s, lang_type=%s, fp=%s',
+            rec_model_name,
+            rec_model_backend,
+            rec_effective_lang_type,
+            getattr(self.rec_model, '_model_fp', rec_model_fp),
+            extra={'log_color': 'green'},
+        )
         self.det_model = None
         if det_model_name in DET_MODLE_NAMES:

{cnocr-2.3.2.2 → cnocr-2.3.3}/cnocr/ppocr/consts.py RENAMED Viewed

@@ -81,6 +81,22 @@ MODEL_LABELS_FILE_DICT = {
         "recognizer": "RapidRecognizer",
         "repo": "breezedeus/cnocr-ppocr-ch_PP-OCRv5_server",
     },
+    ("multi_PP-OCRv6_tiny", "onnx"): {
+        "recognizer": "RapidRecognizer",
+        "repo": "breezedeus/cnocr-ppocr-multi_PP-OCRv6_tiny",
+    },
+    ("multi_PP-OCRv6", "onnx"): {
+        "recognizer": "RapidRecognizer",
+        "repo": "breezedeus/cnocr-ppocr-multi_PP-OCRv6",
+    },
+    ("multi_PP-OCRv6_small", "onnx"): {
+        "recognizer": "RapidRecognizer",
+        "repo": "breezedeus/cnocr-ppocr-multi_PP-OCRv6_small",
+    },
+    ("multi_PP-OCRv6_medium", "onnx"): {
+        "recognizer": "RapidRecognizer",
+        "repo": "breezedeus/cnocr-ppocr-multi_PP-OCRv6_medium",
+    },
 }
 PP_SPACE = "ppocr"

{cnocr-2.3.2.2 → cnocr-2.3.3}/cnocr/ppocr/rapid_recognizer.py RENAMED Viewed

@@ -7,10 +7,12 @@ import os
 import logging
 from typing import Union, Optional, List, Tuple
 from pathlib import Path
+from copy import deepcopy
 import numpy as np
 from rapidocr import EngineType, LangRec, ModelType, OCRVersion
 from rapidocr.utils.typings import TaskType
+from rapidocr.utils.model_resolver import resolve_model_key
 from rapidocr.ch_ppocr_rec import TextRecognizer, TextRecInput
 from cnstd.utils import prepare_model_files
@@ -32,6 +34,8 @@ class Config(dict):
         "task_type": TaskType.REC,
         "model_path": None,
         "model_dir": None,
+        "model_root_dir": None,
+        "font_path": None,
         "rec_keys_path": None,
         "rec_img_shape": [3, 48, 320],
         "rec_batch_num": 6,
@@ -88,6 +92,7 @@ class RapidRecognizer(Recognizer):
         root: Union[str, Path] = data_dir(),
         context: str = "cpu",  # ['cpu', 'gpu']
         rec_image_shape: str = "3, 48, 320",
+        lang_type: Optional[Union[str, LangRec]] = None,
         **kwargs
     ):
         """
@@ -99,16 +104,24 @@ class RapidRecognizer(Recognizer):
             root (Union[str, Path]): 模型文件所在的根目录
             context (str): 使用的设备。默认为 `cpu`，可选 `gpu`
             rec_image_shape (str): 输入图片尺寸，无需更改使用默认值即可。默认值：`"3, 48, 320"`
+            lang_type (Optional[Union[str, LangRec]]): RapidOCR识别模型语言类型。PP-OCRv6
+                需传入具体语言，如 `ch`、`en`、`japan`、`french` 等；默认为中文。
             **kwargs: 其他参数
         """
         self.rec_image_shape = [int(v) for v in rec_image_shape.split(",")]
         self._model_name = model_name
         self._model_backend = "onnx"
         use_gpu = context.lower() not in ("cpu", "mps")
+        model_type = self._get_model_type(model_name)
+        ocr_version = self._get_ocr_version(model_name)
+        lang_type = self._get_lang_type(model_name, model_type, lang_type)
+        self._model_type = model_type
+        self._ocr_version = ocr_version
+        self._lang_type = lang_type
         self._assert_and_prepare_model_files(model_fp, root)
-        config = Config.DEFAULT_CFG
+        config = deepcopy(Config.DEFAULT_CFG)
         ## add custom font path
         if 'font_path' in kwargs:
             config['font_path'] = kwargs['font_path']
@@ -117,24 +130,111 @@ class RapidRecognizer(Recognizer):
             config["engine_cfg"].update(kwargs["engine_cfg"])
         config["rec_img_shape"] = self.rec_image_shape
         config["model_path"] = self._model_fp
+        config["model_root_dir"] = self._model_dir
         # 从 model_name 中获取 model_type 和 ocr_version
-        config["model_type"] = ModelType.SERVER if "server" in model_name else ModelType.MOBILE
-        config["ocr_version"] = OCRVersion.PPOCRV5 if "v5" in model_name else OCRVersion.PPOCRV4
+        config["model_type"] = model_type
+        config["ocr_version"] = ocr_version
+        config["lang_type"] = lang_type
         config = Config(config)
         self.recognizer = TextRecognizer(config)
+    @staticmethod
+    def _get_ocr_version(model_name: str):
+        if "v6" in model_name:
+            if not hasattr(OCRVersion, "PPOCRV6"):
+                raise RuntimeError(
+                    "PP-OCRv6 models require rapidocr>=3.9.0. "
+                    "Please upgrade rapidocr to use this model."
+                )
+            return OCRVersion.PPOCRV6
+        if "v5" in model_name:
+            return OCRVersion.PPOCRV5
+        return OCRVersion.PPOCRV4
+    @staticmethod
+    def _get_model_type(model_name: str):
+        if "server" in model_name:
+            return ModelType.SERVER
+        for model_type in ("tiny", "small", "medium"):
+            if model_type in model_name:
+                if not hasattr(ModelType, model_type.upper()):
+                    raise RuntimeError(
+                        "PP-OCRv6 models require rapidocr>=3.9.0. "
+                        "Please upgrade rapidocr to use this model."
+                    )
+                return getattr(ModelType, model_type.upper())
+        if "v6" in model_name:
+            if not hasattr(ModelType, "SMALL"):
+                raise RuntimeError(
+                    "PP-OCRv6 models require rapidocr>=3.9.0. "
+                    "Please upgrade rapidocr to use this model."
+                )
+            return ModelType.SMALL
+        return ModelType.MOBILE
+    @classmethod
+    def _get_model_file_name(cls, model_name: str):
+        if "v6" in model_name:
+            model_type = cls._get_model_type(model_name).value
+            return f"PP-OCRv6_rec_{model_type}.onnx"
+        return "%s_rec_infer.onnx" % model_name
+    @staticmethod
+    def _get_lang_type(model_name: str, model_type: ModelType, lang_type=None):
+        # RapidOCR's PP-OCRv6 model files are named "multi_*", but its
+        # resolver expects a concrete language and maps it to the multi model.
+        if lang_type is None:
+            return LangRec.CH
+        normalized = lang_type.value if hasattr(lang_type, "value") else str(lang_type)
+        normalized = normalized.strip().lower()
+        if "v6" in model_name and normalized == "multi":
+            raise ValueError(
+                "PP-OCRv6 requires a concrete lang_type such as 'ch' or 'en'; "
+                "'multi' is the model family name, not a valid v6 lang_type."
+            )
+        if "v6" in model_name:
+            resolve_model_key(
+                TaskType.REC, OCRVersion.PPOCRV6, lang_type, model_type
+            )
+        return lang_type
     def _assert_and_prepare_model_files(self, model_fp, root):
         if model_fp is not None and not os.path.isfile(model_fp):
             raise FileNotFoundError("can not find model file %s" % model_fp)
+        root = os.path.join(root, MODEL_VERSION)
+        self._model_dir = os.path.join(root, PP_SPACE, self._model_name)
         if model_fp is not None:
             self._model_fp = model_fp
             return
-        root = os.path.join(root, MODEL_VERSION)
-        self._model_dir = os.path.join(root, PP_SPACE, self._model_name)
-        model_fp = os.path.join(self._model_dir, "%s_rec_infer.onnx" % self._model_name)
+        if "v6" in self._model_name:
+            if (self._model_name, self._model_backend) not in AVAILABLE_MODELS:
+                raise NotImplementedError(
+                    "%s is not a downloadable model"
+                    % ((self._model_name, self._model_backend),)
+                )
+            remote_repo = AVAILABLE_MODELS.get_value(
+                self._model_name, self._model_backend, "repo"
+            )
+            if remote_repo is None:
+                raise RuntimeError(
+                    "no remote repo is configured for model %s"
+                    % ((self._model_name, self._model_backend),)
+                )
+            model_fp = os.path.join(
+                self._model_dir, self._get_model_file_name(self._model_name)
+            )
+            self._model_fp = str(prepare_model_files(model_fp, remote_repo))
+            logger.info("use model: %s" % self._model_fp)
+            return
+        model_fp = os.path.join(
+            self._model_dir, self._get_model_file_name(self._model_name)
+        )
         if not os.path.isfile(model_fp):
             logger.warning("can not find model file %s" % model_fp)
             if (self._model_name, self._model_backend) not in AVAILABLE_MODELS:

{cnocr-2.3.2.2 → cnocr-2.3.3}/cnocr/utils.py RENAMED Viewed

@@ -1,5 +1,5 @@
 # coding: utf-8
-# Copyright (C) 2021-2023, [Breezedeus](https://github.com/breezedeus).
+# Copyright (C) 2021-2026, [Breezedeus](https://github.com/breezedeus).
 # Licensed to the Apache Software Foundation (ASF) under one
 # or more contributor license agreements.  See the NOTICE file
 # distributed with this work for additional information
@@ -39,14 +39,54 @@ import torchvision.transforms.functional as F
 from .consts import (
     ENCODER_CONFIGS,
     DECODER_CONFIGS,
-    AVAILABLE_MODELS,
     IMG_STANDARD_HEIGHT,
 )
-fmt = '[%(levelname)s %(asctime)s %(funcName)s:%(lineno)d] %(' 'message)s '
-logging.basicConfig(format=fmt)
-logging.captureWarnings(True)
-logger = logging.getLogger()
+LOG_FMT = '[%(levelname)s] %(asctime)s [%(package_name)s] %(filename)s:%(lineno)d: %(message)s'
+GREEN = '\033[32m'
+RESET = '\033[0m'
+def _package_label(logger_name):
+    if logger_name.startswith('cnocr'):
+        return 'CnOCR'
+    if logger_name.startswith('cnstd'):
+        return 'CnSTD'
+    if logger_name.startswith('RapidOCR'):
+        return 'RapidOCR'
+    return logger_name.split('.', maxsplit=1)[0]
+class PackageFormatter(logging.Formatter):
+    def format(self, record):
+        record.package_name = _package_label(record.name)
+        return super().format(record)
+class ColoredFormatter(PackageFormatter):
+    def format(self, record):
+        msg = super().format(record)
+        if getattr(record, 'log_color', None) == 'green':
+            return GREEN + msg + RESET
+        return msg
+logger = logging.getLogger(__name__)
+def set_rapidocr_logger_level(log_level=logging.WARNING):
+    logging.getLogger('RapidOCR').setLevel(log_level)
+def _console_handler():
+    console_handler = logging.StreamHandler()
+    console_handler.setFormatter(ColoredFormatter(LOG_FMT))
+    return console_handler
+def get_logger(name=__name__, log_level=logging.INFO):
+    logger = logging.getLogger(name)
+    logger.setLevel(log_level)
+    return logger
 def set_logger(log_file=None, log_level=logging.INFO, log_file_level=logging.NOTSET):
@@ -55,11 +95,19 @@ def set_logger(log_file=None, log_level=logging.INFO, log_file_level=logging.NOT
         >>> set_logger(log_file)
         >>> logger.info("abc'")
     """
-    log_format = logging.Formatter(fmt)
-    logger.setLevel(log_level)
-    console_handler = logging.StreamHandler()
-    console_handler.setFormatter(log_format)
-    logger.handlers = [console_handler]
+    global logger
+    log_format = PackageFormatter(LOG_FMT)
+    logging.captureWarnings(True)
+    set_rapidocr_logger_level()
+    root_logger = logging.getLogger()
+    root_logger.setLevel(log_level)
+    root_logger.handlers = [_console_handler()]
+    for package_name in ('cnocr', 'cnstd'):
+        package_logger = logging.getLogger(package_name)
+        package_logger.setLevel(logging.NOTSET)
+        package_logger.propagate = True
     if log_file and log_file != '':
         if not Path(log_file).parent.exists():
             os.makedirs(Path(log_file).parent)
@@ -68,7 +116,9 @@ def set_logger(log_file=None, log_level=logging.INFO, log_file_level=logging.NOT
         file_handler = logging.FileHandler(log_file)
         file_handler.setLevel(log_file_level)
         file_handler.setFormatter(log_format)
-        logger.addHandler(file_handler)
+        root_logger.addHandler(file_handler)
+    logger = logging.getLogger(__name__)
+    logger.setLevel(log_level)
     return logger

{cnocr-2.3.2.2 → cnocr-2.3.3}/cnocr.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: cnocr
-Version: 2.3.2.2
+Version: 2.3.3
 Summary: Python3 package for Chinese/English OCR, with small pretrained models
 Home-page: https://github.com/breezedeus/cnocr
 Author: breezedeus
@@ -16,11 +16,11 @@ Classifier: License :: OSI Approved :: Apache Software License
 Classifier: Programming Language :: Python
 Classifier: Programming Language :: Python :: Implementation
 Classifier: Programming Language :: Python :: 3
-Classifier: Programming Language :: Python :: 3.7
 Classifier: Programming Language :: Python :: 3.8
 Classifier: Programming Language :: Python :: 3.9
 Classifier: Programming Language :: Python :: 3.10
 Classifier: Topic :: Scientific/Engineering :: Artificial Intelligence
+Requires-Python: >=3.8
 Description-Content-Type: text/markdown
 Provides-Extra: ort-cpu
 Provides-Extra: ort-gpu
@@ -69,6 +69,17 @@ License-File: LICENSE
 ---
 </div>
+### Update 2026.07.04：发布 V2.3.3
+主要变更：
+* 基于 RapidOCR 支持 PP-OCRv6 多语种 OCR 模型
+  * 新增支持 PP-OCRv6 识别模型：`multi_PP-OCRv6_tiny`、`multi_PP-OCRv6`、`multi_PP-OCRv6_small` 和 `multi_PP-OCRv6_medium`
+  * 通过 CnSTD 新增支持 PP-OCRv6 检测模型：`multi_PP-OCRv6_det_tiny`、`multi_PP-OCRv6_det_small` 和 `multi_PP-OCRv6_det_medium`
+  * `CnOcr` 新增 `rec_lang_type` 参数，可为 RapidOCR v6 识别模型指定语言类型
+  * CLI 新增 `--rec-lang-type` 和 `--det-lang-type`，可为 RapidOCR v6 模型指定语言类型
 ### Update 2025.06.26：发布 V2.3.2
 主要变更：
@@ -192,13 +203,13 @@ print(out)
 ### 竖排文字识别
-采用来自 [**PaddleOCR**](https://github.com/PaddlePaddle/PaddleOCR)（之后简称 **ppocr**）的中文识别模型 `rec_model_name='ch_PP-OCRv3'` 进行识别。
+采用来自 [**PaddleOCR**](https://github.com/PaddlePaddle/PaddleOCR)（之后简称 **ppocr**）的 PP-OCRv6 多语种识别模型 `rec_model_name='multi_PP-OCRv6'` 进行识别。
 ```python
 from cnocr import CnOcr
 img_fp = './docs/examples/shupai.png'
-ocr = CnOcr(rec_model_name='ch_PP-OCRv3')
+ocr = CnOcr(rec_model_name='multi_PP-OCRv6')
 out = ocr.ocr(img_fp)
 print(out)
@@ -233,31 +244,27 @@ print(out)
 ### 繁体中文识别
-采用来自ppocr的繁体识别模型 `rec_model_name='chinese_cht_PP-OCRv3'` 进行识别。
+采用来自 ppocr 的 PP-OCRv6 多语种识别模型，并通过 `rec_lang_type='chinese_cht'` 指定繁体中文进行识别。
 ```python
 from cnocr import CnOcr
 img_fp = './docs/examples/fanti.jpg'
-ocr = CnOcr(rec_model_name='chinese_cht_PP-OCRv3')  # 识别模型使用繁体识别模型
+ocr = CnOcr(rec_model_name='multi_PP-OCRv6', rec_lang_type='chinese_cht')
 out = ocr.ocr(img_fp)
 print(out)
 ```
-使用此模型时请注意以下问题：
-* 识别精度一般，不是很好；
-* 除了繁体字，对标点、英文、数字的识别都不好；
-* 此模型不支持竖排文字的识别。
+`multi_PP-OCRv6` 是 `multi_PP-OCRv6_small` 的别名；`chinese_cht` 是繁体中文对应的 `lang_type`。
 识别结果：
 <div align="center">
   <img src="./docs/predict-outputs/fanti.jpg-result.jpg" alt="繁体中文识别" width="700px"/>
 </div>
+注：上图中的识别结果来自 V3 模型；V6 模型的识别效果已经有显著增强。
 ### 单行文字的图片识别
@@ -331,7 +338,7 @@ $ pip install cnocr[ort-cpu] -i https://mirrors.aliyun.com/pypi/simple
 > **Note**
 >
-> 请使用 **Python3**（3.7.\*~3.10.\*之间的版本应该都行），没测过Python2下是否ok。
+> 请使用 **Python 3.8 或更高版本**。
 更多说明可见 [安装文档](https://cnocr.readthedocs.io/zh-cn/stable/install/)。
@@ -428,13 +435,18 @@ print(ocr_out)
 | db_mobilenet_v3_small                                        | √            | X         | cnocr        | 7.9 M        | 简体中文、繁体中文、英文、数字 | √                    |
 | db_resnet34                                                  | √            | X         | cnocr        | 86 M         | 简体中文、繁体中文、英文、数字 | √                    |
 | db_resnet18                                                  | √            | X         | cnocr        | 47 M         | 简体中文、繁体中文、英文、数字 | √                    |
+| multi_PP-OCRv6_det_tiny                                      | X            | √         | ppocr        | 1.7 M        | 多语种（不含日文）             | √                    |
+| multi_PP-OCRv6_det_small                                     | X            | √         | ppocr        | 9.5 M        | 多语种                         | √                    |
+| multi_PP-OCRv6_det_medium                                    | X            | √         | ppocr        | 59 M         | 多语种                         | √                    |
 | ch_PP-OCRv5_det                                              | X            | √         | ppocr        | 4.6 M        | 简体中文、繁体中文、英文、数字 | √                    |
-| ch_PP-OCRv5_det_server                                       | X            | √         | ppocr        | 84 M        | 简体中文、繁体中文、英文、数字 | √                    |
+| ch_PP-OCRv5_det_server                                       | X            | √         | ppocr        | 84 M         | 简体中文、繁体中文、英文、数字 | √                    |
 | ch_PP-OCRv4_det                                              | X            | √         | ppocr        | 4.5 M        | 简体中文、繁体中文、英文、数字 | √                    |
 | ch_PP-OCRv4_det_server                                       | X            | √         | ppocr        | 108 M        | 简体中文、繁体中文、英文、数字 | √                    |
 | ch_PP-OCRv3_det                                              | X            | √         | ppocr        | 2.3 M        | 简体中文、繁体中文、英文、数字 | √                    |
 | **en_PP-OCRv3_det**                                          | X            | √         | ppocr        | 2.3 M        | **英文**、数字                 | √                    |
+PP-OCRv6 的 `multi_PP-OCRv6_det_small` 和 `multi_PP-OCRv6_det_medium` 支持的 `lang_type` 包括：`ch`, `chinese_cht`, `en`, `japan`, `af`, `az`, `bs`, `ca`, `cs`, `cy`, `da`, `de`, `es`, `et`, `eu`, `fi`, `fr`, `ga`, `gl`, `hr`, `hu`, `id`, `is`, `it`, `ku`, `la`, `lb`, `lt`, `lv`, `mi`, `ms`, `mt`, `nl`, `no`, `oc`, `pl`, `pt`, `qu`, `rm`, `ro`, `rs_latin`, `sk`, `sl`, `sq`, `sv`, `sw`, `tl`, `tr`, `uz`, `vi`, `french`, `german`；`multi_PP-OCRv6_det_tiny` 不支持 `japan`。`multi` 是模型族名称，不是可传入的 `lang_type`。
 ### 可使用的识别模型
@@ -469,6 +481,9 @@ print(ocr_out)
 | **number-densenet_lite_136-fc** 🆕                            | √            | √         | cnocr        | 2.7 M        | **纯数字**（仅包含 `0~9` 十个数字） | X                    |
 | **number-densenet_lite_136-gru**  🆕 <br /> ([星球会员](https://t.zsxq.com/FEYZRJQ)专享) | √            | √         | cnocr        | 5.5 M        | **纯数字**（仅包含 `0~9` 十个数字） | X                    |
 | **number-densenet_lite_666-gru_large** 🆕 <br />（购买链接：[B站](https://mall.bilibili.com/neul-next/detailuniversal/detail.html?isMerchant=1&page=detailuniversal_detail&saleType=10&itemsId=11884155&loadingShow=1&noTitleBar=1&msource=merchant_share)、[Lemon Squeezy](https://ocr.lemonsqueezy.com/)） | √            | √         | cnocr        | 55 M         | **纯数字**（仅包含 `0~9` 十个数字） | X                    |
+| multi_PP-OCRv6_tiny                                          | X            | √         | ppocr        | 4.3 M        | 多语种（不含日文）                  | √                    |
+| multi_PP-OCRv6 / multi_PP-OCRv6_small                        | X            | √         | ppocr        | 20 M         | 多语种                              | √                    |
+| multi_PP-OCRv6_medium                                        | X            | √         | ppocr        | 73 M         | 多语种                              | √                    |
 | ch_PP-OCRv5                                                  | X            | √         | ppocr        | 16 M         | 简体中文、英文、数字                | √                    |
 | ch_PP-OCRv5_server                                           | X            | √         | ppocr        | 81 M         | 简体中文、英文、数字                | √                    |
 | ch_PP-OCRv4                                                  | X            | √         | ppocr        | 10 M         | 简体中文、英文、数字                | √                    |
@@ -484,6 +499,8 @@ print(ocr_out)
 | latin_PP-OCRv3                                               | X            | √         | ppocr        | 8.6 M         | **拉丁文**、英文、数字              | √                    |
 | arabic_PP-OCRv3                                              | X            | √         | ppocr        | 8.6 M         | **阿拉伯文**、英文、数字            | √                    |
+PP-OCRv6 的 `multi_PP-OCRv6_small`、`multi_PP-OCRv6_medium` 支持的 `lang_type` 包括：`ch`, `chinese_cht`, `en`, `japan`, `af`, `az`, `bs`, `ca`, `cs`, `cy`, `da`, `de`, `es`, `et`, `eu`, `fi`, `fr`, `ga`, `gl`, `hr`, `hu`, `id`, `is`, `it`, `ku`, `la`, `lb`, `lt`, `lv`, `mi`, `ms`, `mt`, `nl`, `no`, `oc`, `pl`, `pt`, `qu`, `rm`, `ro`, `rs_latin`, `sk`, `sl`, `sq`, `sv`, `sw`, `tl`, `tr`, `uz`, `vi`, `french`, `german`；`multi_PP-OCRv6_tiny` 不支持 `japan`。`multi_PP-OCRv6` 是 `multi_PP-OCRv6_small` 的别名；`multi` 是模型族名称，不是可传入的 `lang_type`。
 ## 未来工作

{cnocr-2.3.2.2 → cnocr-2.3.3}/cnocr.egg-info/requires.txt RENAMED Viewed

@@ -8,8 +8,8 @@ wandb
 torchmetrics
 pillow>=5.3.0
 onnx
-cnstd>=1.2.6
-rapidocr>=3.0
+cnstd>=1.2.8
+rapidocr>=3.9.1
 [dev]
 albumentations

{cnocr-2.3.2.2 → cnocr-2.3.3}/setup.py RENAMED Viewed

@@ -47,8 +47,8 @@ required = [
     "torchmetrics",
     "pillow>=5.3.0",
     "onnx",
-    "cnstd>=1.2.6",
-    "rapidocr>=3.0",
+    "cnstd>=1.2.8",
+    "rapidocr>=3.9.1",
 ]
 extras_require = {
     "ort-cpu": ["onnxruntime"],
@@ -91,6 +91,7 @@ setup(
     entry_points=entry_points,
     install_requires=required,
     extras_require=extras_require,
+    python_requires='>=3.8',
     zip_safe=False,
     classifiers=[
         'Development Status :: 4 - Beta',
@@ -100,7 +101,6 @@ setup(
         'Programming Language :: Python',
         'Programming Language :: Python :: Implementation',
         'Programming Language :: Python :: 3',
-        'Programming Language :: Python :: 3.7',
         'Programming Language :: Python :: 3.8',
         'Programming Language :: Python :: 3.9',
         'Programming Language :: Python :: 3.10',