yomitoku 0.7.0__tar.gz → 0.7.2__tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (170) hide show
  1. {yomitoku-0.7.0 → yomitoku-0.7.2}/PKG-INFO +5 -9
  2. {yomitoku-0.7.0 → yomitoku-0.7.2}/README.md +4 -6
  3. {yomitoku-0.7.0 → yomitoku-0.7.2}/README_EN.md +9 -11
  4. yomitoku-0.7.0/configs/layout_parser_rtdetrv2.yaml → yomitoku-0.7.2/configs/yomitoku-layout-parser-rtdtrv2-open-beta.yaml +35 -28
  5. yomitoku-0.7.0/configs/text_detector.yaml → yomitoku-0.7.2/configs/yomitoku-text-detector-dbnet-open-beta.yaml +8 -8
  6. yomitoku-0.7.0/configs/text_recognizer.yaml → yomitoku-0.7.2/configs/yomitoku-text-recognizer-parseq-open-beta.yaml +1 -1
  7. yomitoku-0.7.2/configs/yomitoku-text-recognizer-parseq-small-open-beta.yaml +32 -0
  8. yomitoku-0.7.2/docs/cli.en.md +110 -0
  9. yomitoku-0.7.2/docs/cli.ja.md +107 -0
  10. yomitoku-0.7.2/docs/configuration.en.md +94 -0
  11. yomitoku-0.7.2/docs/configuration.ja.md +96 -0
  12. {yomitoku-0.7.0 → yomitoku-0.7.2}/docs/installation.en.md +0 -6
  13. {yomitoku-0.7.0 → yomitoku-0.7.2}/docs/installation.ja.md +0 -5
  14. yomitoku-0.7.0/docs/usage.en.md → yomitoku-0.7.2/docs/module.en.md +22 -37
  15. yomitoku-0.7.0/docs/usage.ja.md → yomitoku-0.7.2/docs/module.ja.md +21 -37
  16. {yomitoku-0.7.0 → yomitoku-0.7.2}/mkdocs.yml +2 -1
  17. {yomitoku-0.7.0 → yomitoku-0.7.2}/pyproject.toml +0 -5
  18. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/base.py +1 -1
  19. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/cli/main.py +117 -8
  20. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/document_analyzer.py +26 -21
  21. yomitoku-0.7.2/src/yomitoku/export/__init__.py +15 -0
  22. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/export/export_csv.py +7 -1
  23. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/export/export_html.py +9 -5
  24. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/export/export_json.py +8 -2
  25. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/export/export_markdown.py +8 -1
  26. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/test_cli.py +1 -0
  27. yomitoku-0.7.2/tests/test_document_analyzer.py +596 -0
  28. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/test_export.py +51 -46
  29. {yomitoku-0.7.0 → yomitoku-0.7.2}/uv.lock +1 -41
  30. yomitoku-0.7.0/src/yomitoku/export/__init__.py +0 -6
  31. yomitoku-0.7.0/tests/test_document_analyzer.py +0 -88
  32. {yomitoku-0.7.0 → yomitoku-0.7.2}/.github/release-drafter.yml +0 -0
  33. {yomitoku-0.7.0 → yomitoku-0.7.2}/.github/workflows/build-and-publish-docs.yaml +0 -0
  34. {yomitoku-0.7.0 → yomitoku-0.7.2}/.github/workflows/build-and-publish.yml +0 -0
  35. {yomitoku-0.7.0 → yomitoku-0.7.2}/.github/workflows/create-release.yml +0 -0
  36. {yomitoku-0.7.0 → yomitoku-0.7.2}/.github/workflows/lint-and-test.yml +0 -0
  37. {yomitoku-0.7.0 → yomitoku-0.7.2}/.gitignore +0 -0
  38. {yomitoku-0.7.0 → yomitoku-0.7.2}/.pre-commit-config.yaml +0 -0
  39. {yomitoku-0.7.0 → yomitoku-0.7.2}/.python-version +0 -0
  40. /yomitoku-0.7.0/configs/table_structure_recognitizer.yaml → /yomitoku-0.7.2/configs/yomitoku-table-structure-recognizer-rtdtrv2-open-beta.yaml +0 -0
  41. {yomitoku-0.7.0 → yomitoku-0.7.2}/demo/sample.pdf +0 -0
  42. {yomitoku-0.7.0 → yomitoku-0.7.2}/demo/setting_document_anaysis.py +0 -0
  43. {yomitoku-0.7.0 → yomitoku-0.7.2}/demo/simple_document_analysis.py +0 -0
  44. {yomitoku-0.7.0 → yomitoku-0.7.2}/demo/simple_layout.py +0 -0
  45. {yomitoku-0.7.0 → yomitoku-0.7.2}/demo/simple_ocr.py +0 -0
  46. {yomitoku-0.7.0 → yomitoku-0.7.2}/demo/text_detector.yaml +0 -0
  47. {yomitoku-0.7.0 → yomitoku-0.7.2}/dockerfile +0 -0
  48. {yomitoku-0.7.0 → yomitoku-0.7.2}/docs/assets/logo.svg +0 -0
  49. {yomitoku-0.7.0 → yomitoku-0.7.2}/docs/index.en.md +0 -0
  50. {yomitoku-0.7.0 → yomitoku-0.7.2}/docs/index.ja.md +0 -0
  51. {yomitoku-0.7.0 → yomitoku-0.7.2}/gallery.md +0 -0
  52. {yomitoku-0.7.0 → yomitoku-0.7.2}/pytest.ini +0 -0
  53. {yomitoku-0.7.0 → yomitoku-0.7.2}/scripts/register_hugging_face_hub.py +0 -0
  54. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/__init__.py +0 -0
  55. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/cli/__init__.py +0 -0
  56. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/configs/__init__.py +0 -0
  57. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/configs/cfg_layout_parser_rtdtrv2.py +0 -0
  58. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/configs/cfg_table_structure_recognizer_rtdtrv2.py +0 -0
  59. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/configs/cfg_text_detector_dbnet.py +0 -0
  60. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/configs/cfg_text_recognizer_parseq.py +0 -0
  61. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/configs/cfg_text_recognizer_parseq_small.py +0 -0
  62. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/constants.py +0 -0
  63. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/data/__init__.py +0 -0
  64. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/data/dataset.py +0 -0
  65. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/data/functions.py +0 -0
  66. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/layout_analyzer.py +0 -0
  67. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/layout_parser.py +0 -0
  68. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/models/__init__.py +0 -0
  69. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/models/dbnet_plus.py +0 -0
  70. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/models/layers/__init__.py +0 -0
  71. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/models/layers/activate.py +0 -0
  72. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/models/layers/dbnet_feature_attention.py +0 -0
  73. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/models/layers/parseq_transformer.py +0 -0
  74. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/models/layers/rtdetr_backbone.py +0 -0
  75. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/models/layers/rtdetr_hybrid_encoder.py +0 -0
  76. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/models/layers/rtdetrv2_decoder.py +0 -0
  77. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/models/parseq.py +0 -0
  78. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/models/rtdetr.py +0 -0
  79. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/ocr.py +0 -0
  80. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/onnx/.gitkeep +0 -0
  81. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/postprocessor/__init__.py +0 -0
  82. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/postprocessor/dbnet_postporcessor.py +0 -0
  83. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/postprocessor/parseq_tokenizer.py +0 -0
  84. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/postprocessor/rtdetr_postprocessor.py +0 -0
  85. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/reading_order.py +0 -0
  86. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/resource/MPLUS1p-Medium.ttf +0 -0
  87. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/resource/charset.txt +0 -0
  88. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/table_structure_recognizer.py +0 -0
  89. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/text_detector.py +0 -0
  90. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/text_recognizer.py +0 -0
  91. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/utils/__init__.py +0 -0
  92. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/utils/graph.py +0 -0
  93. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/utils/logger.py +0 -0
  94. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/utils/misc.py +0 -0
  95. {yomitoku-0.7.0 → yomitoku-0.7.2}/src/yomitoku/utils/visualizer.py +0 -0
  96. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/in/demo.jpg +0 -0
  97. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/in/gallery1.jpg +0 -0
  98. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/in/gallery2.jpg +0 -0
  99. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/in/gallery3.jpg +0 -0
  100. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/in/gallery4.jpg +0 -0
  101. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/in/gallery5.jpg +0 -0
  102. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/in/gallery6.jpg +0 -0
  103. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/logo/horizontal.png +0 -0
  104. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/demo_html.png +0 -0
  105. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/figures/in_demo_p1_figure_0.png +0 -0
  106. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/figures/in_gallery1_p1_figure_0.png +0 -0
  107. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/figures/in_gallery1_p1_figure_1.png +0 -0
  108. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/figures/in_gallery1_p1_figure_10.png +0 -0
  109. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/figures/in_gallery1_p1_figure_2.png +0 -0
  110. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/figures/in_gallery1_p1_figure_3.png +0 -0
  111. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/figures/in_gallery1_p1_figure_4.png +0 -0
  112. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/figures/in_gallery1_p1_figure_5.png +0 -0
  113. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/figures/in_gallery1_p1_figure_6.png +0 -0
  114. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/figures/in_gallery1_p1_figure_7.png +0 -0
  115. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/figures/in_gallery1_p1_figure_8.png +0 -0
  116. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/figures/in_gallery1_p1_figure_9.png +0 -0
  117. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/figures/in_gallery3_p1_figure_0.png +0 -0
  118. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/figures/in_gallery3_p1_figure_1.png +0 -0
  119. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/figures/in_gallery5_p1_figure_0.png +0 -0
  120. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/figures/in_gallery5_p1_figure_1.png +0 -0
  121. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/figures/in_gallery6_p1_figure_0.png +0 -0
  122. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/figures/in_gallery6_p1_figure_1.png +0 -0
  123. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_demo_p1.html +0 -0
  124. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_demo_p1.md +0 -0
  125. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_demo_p1_layout.jpg +0 -0
  126. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_demo_p1_ocr.jpg +0 -0
  127. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery1_p1.html +0 -0
  128. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery1_p1.md +0 -0
  129. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery1_p1_layout.jpg +0 -0
  130. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery1_p1_ocr.jpg +0 -0
  131. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery2_p1.html +0 -0
  132. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery2_p1.md +0 -0
  133. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery2_p1_layout.jpg +0 -0
  134. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery2_p1_ocr.jpg +0 -0
  135. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery3_p1.html +0 -0
  136. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery3_p1.md +0 -0
  137. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery3_p1_layout.jpg +0 -0
  138. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery3_p1_ocr.jpg +0 -0
  139. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery4_p1.html +0 -0
  140. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery4_p1.md +0 -0
  141. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery4_p1_layout.jpg +0 -0
  142. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery4_p1_ocr.jpg +0 -0
  143. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery5_p1.html +0 -0
  144. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery5_p1.md +0 -0
  145. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery5_p1_layout.jpg +0 -0
  146. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery5_p1_ocr.jpg +0 -0
  147. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery6_p1.html +0 -0
  148. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery6_p1.md +0 -0
  149. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery6_p1_layout.jpg +0 -0
  150. {yomitoku-0.7.0 → yomitoku-0.7.2}/static/out/in_gallery6_p1_ocr.jpg +0 -0
  151. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/data/invalid.jpg +0 -0
  152. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/data/invalid.pdf +0 -0
  153. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/data/rgba.png +0 -0
  154. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/data/small.jpg +0 -0
  155. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/data/subdir/test.jpg +0 -0
  156. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/data/test.bmp +0 -0
  157. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/data/test.jpg +0 -0
  158. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/data/test.pdf +0 -0
  159. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/data/test.png +0 -0
  160. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/data/test.tiff +0 -0
  161. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/data/test.txt +0 -0
  162. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/data/test_gray.jpg +0 -0
  163. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/test_base.py +0 -0
  164. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/test_data.py +0 -0
  165. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/test_layout_analyzer.py +0 -0
  166. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/test_ocr.py +0 -0
  167. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/yaml/layout_parser.yaml +0 -0
  168. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/yaml/table_structure_recognizer.yaml +0 -0
  169. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/yaml/text_detector.yaml +0 -0
  170. {yomitoku-0.7.0 → yomitoku-0.7.2}/tests/yaml/text_recognizer.yaml +0 -0
@@ -1,6 +1,6 @@
1
1
  Metadata-Version: 2.4
2
2
  Name: yomitoku
3
- Version: 0.7.0
3
+ Version: 0.7.2
4
4
  Summary: Yomitoku is an AI-powered document image analysis package designed specifically for the Japanese language.
5
5
  Author-email: Kotaro Kinoshita <kotaro.kinoshita@mlism.com>
6
6
  License: CC BY-NC-SA 4.0
@@ -19,8 +19,6 @@ Requires-Dist: shapely>=2.0.6
19
19
  Requires-Dist: timm>=1.0.11
20
20
  Requires-Dist: torch>=2.5.0
21
21
  Requires-Dist: torchvision>=0.20.0
22
- Provides-Extra: gpu
23
- Requires-Dist: onnxruntime-gpu>=1.20.1; extra == 'gpu'
24
22
  Description-Content-Type: text/markdown
25
23
 
26
24
  日本語版 | [English](README_EN.md)
@@ -32,6 +30,7 @@ Description-Content-Type: text/markdown
32
30
  ![CUDA](https://img.shields.io/badge/CUDA->=11.8-76B900.svg?logo=NVIDIA&style=fla)
33
31
  ![OS](https://img.shields.io/badge/OS-Linux|Mac|Win-1793D1.svg?&style=fla)
34
32
  [![Document](https://img.shields.io/badge/docs-live-brightgreen)](https://kotaro-kinoshita.github.io/yomitoku/)
33
+ [![PyPI Downloads](https://static.pepy.tech/badge/yomitoku)](https://pepy.tech/projects/yomitoku)
35
34
 
36
35
  ## 🌟 概要
37
36
 
@@ -73,18 +72,13 @@ Markdown でエクスポートした結果は関してはリポジトリ内の[s
73
72
  pip install yomitoku
74
73
  ```
75
74
 
76
- onnxruntimeの実行にGPUを使用する場合
77
- ```
78
- pip install yomitoku[gpu]
79
- ```
80
-
81
75
  - pytorch はご自身の CUDA のバージョンにあったものをインストールしてください。デフォルトでは CUDA12.4 以上に対応したものがインストールされます。
82
76
  - pytorch は 2.5 以上のバージョンに対応しています。その関係で CUDA11.8 以上のバージョンが必要になります。対応できない場合は、リポジトリ内の Dockerfile を利用してください。
83
77
 
84
78
  ## 🚀 実行方法
85
79
 
86
80
  ```
87
- yomitoku ${path_data} -f md -o results -v --figure --lite
81
+ yomitoku ${path_data} -f md -o results -v --figure --lite
88
82
  ```
89
83
 
90
84
  - `${path_data}` 解析対象の画像が含まれたディレクトリか画像ファイルのパスを直接して指定してください。ディレクトリを対象とした場合はディレクトリのサブディレクトリ内の画像も含めて処理を実行します。
@@ -97,6 +91,8 @@ yomitoku ${path_data} -f md -o results -v --figure --lite
97
91
  - `--figure_letter` 検出した図表に含まれる文字も出力ファイルにエクスポートします。
98
92
  - `--figure` 検出した図、画像を出力ファイルにエクスポートします。
99
93
  - `--encoding` エクスポートする出力ファイルの文字エンコーディングを指定します。サポートされていない文字コードが含まれる場合は、その文字を無視します。(utf-8, utf-8-sig, shift-jis, enc-jp, cp932)
94
+ - `--combine` PDFを入力に与えたときに、複数ページが含まれる場合に、それらの予測結果を一つのファイルに統合してエクスポートします。
95
+ - `--ignore_meta` 文章のheater, fotterなどの文字情報を出力ファイルに含めません。
100
96
 
101
97
  その他のオプションに関しては、ヘルプを参照
102
98
 
@@ -7,6 +7,7 @@
7
7
  ![CUDA](https://img.shields.io/badge/CUDA->=11.8-76B900.svg?logo=NVIDIA&style=fla)
8
8
  ![OS](https://img.shields.io/badge/OS-Linux|Mac|Win-1793D1.svg?&style=fla)
9
9
  [![Document](https://img.shields.io/badge/docs-live-brightgreen)](https://kotaro-kinoshita.github.io/yomitoku/)
10
+ [![PyPI Downloads](https://static.pepy.tech/badge/yomitoku)](https://pepy.tech/projects/yomitoku)
10
11
 
11
12
  ## 🌟 概要
12
13
 
@@ -48,18 +49,13 @@ Markdown でエクスポートした結果は関してはリポジトリ内の[s
48
49
  pip install yomitoku
49
50
  ```
50
51
 
51
- onnxruntimeの実行にGPUを使用する場合
52
- ```
53
- pip install yomitoku[gpu]
54
- ```
55
-
56
52
  - pytorch はご自身の CUDA のバージョンにあったものをインストールしてください。デフォルトでは CUDA12.4 以上に対応したものがインストールされます。
57
53
  - pytorch は 2.5 以上のバージョンに対応しています。その関係で CUDA11.8 以上のバージョンが必要になります。対応できない場合は、リポジトリ内の Dockerfile を利用してください。
58
54
 
59
55
  ## 🚀 実行方法
60
56
 
61
57
  ```
62
- yomitoku ${path_data} -f md -o results -v --figure --lite
58
+ yomitoku ${path_data} -f md -o results -v --figure --lite
63
59
  ```
64
60
 
65
61
  - `${path_data}` 解析対象の画像が含まれたディレクトリか画像ファイルのパスを直接して指定してください。ディレクトリを対象とした場合はディレクトリのサブディレクトリ内の画像も含めて処理を実行します。
@@ -72,6 +68,8 @@ yomitoku ${path_data} -f md -o results -v --figure --lite
72
68
  - `--figure_letter` 検出した図表に含まれる文字も出力ファイルにエクスポートします。
73
69
  - `--figure` 検出した図、画像を出力ファイルにエクスポートします。
74
70
  - `--encoding` エクスポートする出力ファイルの文字エンコーディングを指定します。サポートされていない文字コードが含まれる場合は、その文字を無視します。(utf-8, utf-8-sig, shift-jis, enc-jp, cp932)
71
+ - `--combine` PDFを入力に与えたときに、複数ページが含まれる場合に、それらの予測結果を一つのファイルに統合してエクスポートします。
72
+ - `--ignore_meta` 文章のheater, fotterなどの文字情報を出力ファイルに含めません。
75
73
 
76
74
  その他のオプションに関しては、ヘルプを参照
77
75
 
@@ -7,6 +7,7 @@
7
7
  ![CUDA](https://img.shields.io/badge/CUDA->=11.8-76B900.svg?logo=NVIDIA&style=fla)
8
8
  ![OS](https://img.shields.io/badge/OS-Linux|Mac|Win-1793D1.svg?&style=fla)
9
9
  [![Document](https://img.shields.io/badge/docs-live-brightgreen)](https://kotaro-kinoshita.github.io/yomitoku-dev/)
10
+ [![PyPI Downloads](https://static.pepy.tech/badge/yomitoku)](https://pepy.tech/projects/yomitoku)
10
11
 
11
12
  ## 🌟 Introduction
12
13
 
@@ -22,13 +23,12 @@ YomiToku is a Document AI engine specialized in Japanese document image analysis
22
23
 
23
24
  The verification results for various types of images are also included in [gallery.md](gallery.md)
24
25
 
25
- | Input | Results of OCR |
26
+ | Input | Results of OCR |
26
27
  | :--------------------------------------------------------: | :-----------------------------------------------------: |
27
28
  | <img src="static/in/demo.jpg" width="400px"> | <img src="static/out/in_demo_p1_ocr.jpg" width="400px"> |
28
- | Results of Layout Analysis | Results of HTML Export |
29
+ | Results of Layout Analysis | Results of HTML Export |
29
30
  | <img src="static/out/in_demo_p1_layout.jpg" width="400px"> | <img src="static/out/demo_html.png" width="400px"> |
30
31
 
31
-
32
32
  For the results exported in Markdown, please refer to [static/out/in_demo_p1.md](static/out/in_demo_p1.md) in the repository.
33
33
 
34
34
  - `Red Frame`: Positions of figures and images
@@ -49,18 +49,13 @@ Source of the image: Created by processing content from “Reiwa 6 Edition Infor
49
49
  pip install yomitoku
50
50
  ```
51
51
 
52
- Using GPU with onnxruntime
53
- ```
54
- pip install yomitoku[gpu]
55
- ```
56
-
57
52
  - Please install the version of PyTorch that matches your CUDA version. By default, a version compatible with CUDA 12.4 or higher will be installed.
58
53
  - PyTorch versions 2.5 and above are supported. As a result, CUDA version 11.8 or higher is required. If this is not feasible, please use the Dockerfile provided in the repository.
59
54
 
60
55
  ## 🚀 Usage
61
56
 
62
57
  ```
63
- yomitoku ${path_data} -f md -o results -v --figure
58
+ yomitoku ${path_data} -f md -o results -v --figure --lite
64
59
  ```
65
60
 
66
61
  - `${path_data}`: Specify the path to a directory containing images to be analyzed or directly provide the path to an image file. If a directory is specified, images in its subdirectories will also be processed.
@@ -71,16 +66,19 @@ yomitoku ${path_data} -f md -o results -v --figure
71
66
  - `-d`, `--device`: Specify the device for running the model. If a GPU is unavailable, inference will be executed on the CPU. (Default: cuda)
72
67
  - `--ignore_line_break`: Ignores line breaks in the image and concatenates sentences within a paragraph. (Default: respects line breaks as they appear in the image.)
73
68
  - `--figure_letter`: Exports characters contained within detected figures and tables to the output file.
74
- - `--figure`: Exports detected figures and images to the output file
69
+ - `--figure`: Exports detected figures and images to the output file
75
70
  - `--encoding` Specifies the character encoding for the output file to be exported. If unsupported characters are included, they will be ignored. (utf-8, utf-8-sig, shift-jis, enc-jp, cp932)
76
-
71
+ - `--combine` When a PDF is provided as input and contains multiple pages, this option combines their prediction results into a single file for export.
72
+ - `--ignore_meta` Excludes text information such as headers and footers from the output file.
77
73
 
78
74
  For other options, please refer to the help documentation.
75
+
79
76
  ```
80
77
  yomitoku --help
81
78
  ```
82
79
 
83
80
  **NOTE**
81
+
84
82
  - It is recommended to run on a GPU. The system is not optimized for inference on CPUs, which may result in significantly longer processing times.
85
83
  - Only printed text recognition is supported. While it may occasionally read handwritten text, official support is not provided.
86
84
  - YomiToku is optimized for document OCR and is not designed for scene OCR (e.g., text printed on non-paper surfaces like signs).
@@ -1,31 +1,31 @@
1
1
  hf_hub_repo: KotaroKinoshita/yomitoku-layout-parser-rtdtrv2-open-beta
2
- thresh_score: 0.45
2
+ thresh_score: 0.5
3
3
  data:
4
4
  img_size:
5
- - 640
6
- - 640
5
+ - 640
6
+ - 640
7
7
  PResNet:
8
8
  depth: 50
9
9
  variant: d
10
10
  freeze_at: 0
11
11
  return_idx:
12
- - 1
13
- - 2
14
- - 3
12
+ - 1
13
+ - 2
14
+ - 3
15
15
  num_stages: 4
16
16
  freeze_norm: true
17
17
  HybridEncoder:
18
18
  in_channels:
19
- - 512
20
- - 1024
21
- - 2048
19
+ - 512
20
+ - 1024
21
+ - 2048
22
22
  feat_strides:
23
- - 8
24
- - 16
25
- - 32
23
+ - 8
24
+ - 16
25
+ - 32
26
26
  hidden_dim: 256
27
27
  use_encoder_idx:
28
- - 2
28
+ - 2
29
29
  num_encoder_layers: 1
30
30
  nhead: 8
31
31
  dim_feedforward: 1024
@@ -35,15 +35,15 @@ HybridEncoder:
35
35
  depth_mult: 1
36
36
  act: silu
37
37
  RTDETRTransformerv2:
38
- num_classes: 3
38
+ num_classes: 6
39
39
  feat_channels:
40
- - 256
41
- - 256
42
- - 256
40
+ - 256
41
+ - 256
42
+ - 256
43
43
  feat_strides:
44
- - 8
45
- - 16
46
- - 32
44
+ - 8
45
+ - 16
46
+ - 32
47
47
  hidden_dim: 256
48
48
  num_levels: 3
49
49
  num_layers: 6
@@ -52,16 +52,23 @@ RTDETRTransformerv2:
52
52
  label_noise_ratio: 0.5
53
53
  box_noise_scale: 1.0
54
54
  eval_spatial_size:
55
- - 640
56
- - 640
55
+ - 640
56
+ - 640
57
57
  eval_idx: -1
58
58
  num_points:
59
- - 4
60
- - 4
61
- - 4
59
+ - 4
60
+ - 4
61
+ - 4
62
62
  cross_attn_method: default
63
63
  query_select_method: default
64
64
  category:
65
- - paragraph
66
- - figure
67
- - table
65
+ - tables
66
+ - figures
67
+ - paragraphs
68
+ - section_headings
69
+ - page_header
70
+ - page_footer
71
+ role:
72
+ - section_headings
73
+ - page_header
74
+ - page_footer
@@ -4,10 +4,10 @@ backbone:
4
4
  dilation: true
5
5
  decoder:
6
6
  in_channels:
7
- - 256
8
- - 512
9
- - 1024
10
- - 2048
7
+ - 256
8
+ - 512
9
+ - 1024
10
+ - 2048
11
11
  hidden_dim: 256
12
12
  adaptive: true
13
13
  serial: true
@@ -21,10 +21,10 @@ post_process:
21
21
  thresh: 0.2
22
22
  box_thresh: 0.5
23
23
  max_candidates: 1500
24
- unclip_ratio: 2.0
24
+ unclip_ratio: 7.0
25
25
  visualize:
26
26
  color:
27
- - 0
28
- - 255
29
- - 0
27
+ - 0
28
+ - 255
29
+ - 0
30
30
  heatmap: false
@@ -24,7 +24,7 @@ decoder:
24
24
  mlp_ratio: 4
25
25
  depth: 1
26
26
  visualize:
27
- font: /home/kinoshita/Projects/know-how/yomitoku/src/yomitoku/resource/MPLUS1p-Medium.ttf
27
+ font: src/yomitoku/resource/MPLUS1p-Medium.ttf
28
28
  color:
29
29
  - 0
30
30
  - 0
@@ -0,0 +1,32 @@
1
+ hf_hub_repo: KotaroKinoshita/yomitoku-text-recognizer-parseq-small-open-beta
2
+ charset: /home/kinoshita/Projects/know-how/yomitoku/src/yomitoku/resource/charset.txt
3
+ num_tokens: 7312
4
+ max_label_length: 100
5
+ decode_ar: 1
6
+ refine_iters: 1
7
+ data:
8
+ num_workers: 4
9
+ batch_size: 128
10
+ img_size:
11
+ - 32
12
+ - 800
13
+ encoder:
14
+ patch_size:
15
+ - 16
16
+ - 16
17
+ num_heads: 8
18
+ embed_dim: 384
19
+ mlp_ratio: 4
20
+ depth: 9
21
+ decoder:
22
+ embed_dim: 384
23
+ num_heads: 8
24
+ mlp_ratio: 4
25
+ depth: 1
26
+ visualize:
27
+ font: src/yomitoku/resource/MPLUS1p-Medium.ttf
28
+ color:
29
+ - 0
30
+ - 0
31
+ - 255
32
+ font_size: 18
@@ -0,0 +1,110 @@
1
+ # CLI Usage
2
+
3
+ The model weight files are downloaded from Hugging Face Hub only during the first execution.
4
+
5
+ ```
6
+ yomitoku ${path_data} -v -o results
7
+ ```
8
+
9
+ - `${path_data}`: Specify the path to a directory containing images to be analyzed or directly provide the path to an image file. If a directory is specified, images in its subdirectories will also be processed.
10
+ - `-f`, `--format`: Specify the output file format. Supported formats are json, csv, html, and md.
11
+ - `-o`, `--outdir`: Specify the name of the output directory. If it does not exist, it will be created.
12
+ - `-v`, `--vis`: If specified, outputs visualized images of the analysis results.
13
+
14
+ **NOTE**
15
+
16
+ - Only printed text recognition is supported. While it may occasionally read handwritten text, official support is not provided.
17
+ - YomiToku is optimized for document OCR and is not designed for scene OCR (e.g., text printed on non-paper surfaces like signs).
18
+ - The resolution of input images is critical for improving the accuracy of AI-OCR recognition. Low-resolution images may lead to reduced recognition accuracy. It is recommended to use images with a minimum short side resolution of 720px for inference.
19
+
20
+ ## Reference for Help
21
+
22
+ Displays the options available for the CLI using  `--help`, `-h`
23
+
24
+ ```
25
+ yomitoku -h
26
+ ```
27
+
28
+ ## Running in Lightweight Mode
29
+
30
+ By using the --lite option, it is possible to perform inference with a lightweight model. This enables faster analysis compared to the standard mode. However, the accuracy of character recognition may decrease.
31
+
32
+ ```
33
+ yomitoku ${path_data} --lite -v
34
+ ```
35
+
36
+ ## Specifying Output Format
37
+
38
+ You can specify the output format of the analysis results using the --format or -f option. Supported output formats include JSON, CSV, HTML, and MD (Markdown).
39
+
40
+ ```
41
+ yomitoku ${path_data} -f md
42
+ ```
43
+
44
+ ## Specifying the Output Device
45
+
46
+ You can specify the device for running the model using the -d or --device option. Supported options are cuda, cpu, and mps. If a GPU is not available, inference will be performed on the CPU. (Default: cuda)
47
+
48
+ ```
49
+ yomitoku ${path_data} -d cpu
50
+ ```
51
+
52
+ ## Ignoring Line Breaks
53
+
54
+ In the normal mode, line breaks are applied based on the information described in the image. By using the --ignore_line_break option, you can ignore the line break positions in the image and return the same sentence within a paragraph as a single connected output.
55
+
56
+ ```
57
+ yomitoku ${path_data} --ignore_line_break
58
+ ```
59
+
60
+ ## Outputting Figures and Graph Images
61
+
62
+ In the normal mode, information about figures or images contained in document images is not output. By using the --figure option, you can extract figures and images included in the document image, save them as separate image files, and include links to the detected individual images in the output file.
63
+
64
+ ```
65
+ yomitoku ${path_data} --figure
66
+ ```
67
+
68
+ ## Outputting Text Contained in Figures and Images
69
+
70
+ In normal mode, text information contained within figures or images is not included in the output file. By using the --figure_letter option, text information within figures and images will also be included in the output file.
71
+
72
+ ```
73
+ yomitoku ${path_data} --figure_letter
74
+ ```
75
+
76
+ ## Specifying the Character Encoding of the Output File
77
+
78
+ You can specify the character encoding of the output file using the --encoding option. Supported encodings include `utf-8`, `utf-8-sig`, `shift-jis`, `enc-jp`, and `cp932`. If unsupported characters are encountered, they will be ignored and not included in the output.
79
+
80
+ ```
81
+ yomitoku ${path_data} --encoding utf-8-sig
82
+ ```
83
+
84
+ ## Specifying the Path to Config Files
85
+
86
+ Specify the path to the config files for each module as follows:
87
+
88
+ - `--td_cfg`: Path to the YAML file containing the config for the Text Detector
89
+ - `--tr_cfg`: Path to the YAML file containing the config for the Text Recognizer
90
+ - `--lp_cfg`: Path to the YAML file containing the config for the Layout Parser
91
+ - `--tsr_cfg`: Path to the YAML file containing the config for the Table Structure Recognizer
92
+
93
+ ```
94
+ yomitoku ${path_data} --td_cfg ${path_yaml}
95
+ ```
96
+
97
+ ## Do not include metadata in the output file
98
+
99
+ You can exclude metadata such as headers and footers from the output file.
100
+ ```
101
+ yomitoku ${path_data} --ignore_meta
102
+ ```
103
+
104
+ ## Combine multiple pages
105
+
106
+ If the PDF contains multiple pages, you can export them as a single file.
107
+
108
+ ```
109
+ yomitoku ${path_data} -f md --combine
110
+ ```
@@ -0,0 +1,107 @@
1
+ # CLI Usage
2
+
3
+ 初回の実行時のみ, HuggingFaseHub からモデルの重みファイルをダウンロードします。
4
+ 以下のコマンドにて、文書画像の解析を実行します。
5
+
6
+ ```
7
+ yomitoku ${path_data} -v -o results
8
+ ```
9
+
10
+ - `${path_data}` 解析対象の画像が含まれたディレクトリか画像ファイルのパスを直接して指定してください。ディレクトリを対象とした場合はディレクトリのサブディレクトリ内の画像も含めて処理を実行します。ファイル形式は pdf, jpeg, png, bmp, tiff をサポートしています。
11
+ - `-o`, `--outdir` 出力先のディレクトリ名を指定します。存在しない場合は新規で作成されます。
12
+ - `-v`, `--vis` を指定すると解析結果を可視化した画像を出力します。
13
+
14
+ **Note**:
15
+
16
+ - 活字のみの識別をサポートしております。手書き文字に関しては、読み取れる場合もありますが、公式にはサポートしておりません。
17
+ - OCR は文書 OCR と情景 OCR(看板など紙以外にプリントされた文字)に大別されますが、Yomitoku は文書 OCR 向けに最適化されています。
18
+ - AI-OCR の識別精度を高めるために、入力画像の解像度が重要です。低解像度画像では識別精度が低下します。画像の短辺を 1000px 以上の画像で推論することをお勧めします。
19
+
20
+ ## ヘルプの参照
21
+
22
+ `--help`, `-h`にて CLI に指定可能なオプションを表示します。
23
+
24
+ ## 軽量モードでの実行
25
+
26
+ `--lite`オプションを付与することで、軽量モデルを使用して、推論することが可能です。通常モードより高速に解析が実行可能です。ただし、文字の認識精度が低下する可能性があります。
27
+
28
+ ```
29
+ yomitoku ${path_data} --lite -v
30
+ ```
31
+
32
+ ## 出力フォーマットの指定
33
+
34
+ `--format`, `-f` オプションを使用することで解析結果の出力形式のフォーマットを指定できます。出力フォーマットの種類は json, csv, html, md(markdown)をサポートしています。
35
+
36
+ ```
37
+ yomitoku ${path_data} -f md
38
+ ```
39
+
40
+ ## 出力デバイスの指定
41
+
42
+ - `-d`, `--device` オプションを使用することで、モデルを実行するためのデバイスを指定します。(cuda | cpu | mps)。gpu が利用できない場合は cpu で推論が実行されます。(デフォルト: cuda)
43
+
44
+ ```
45
+ yomitoku ${path_data} -d cpu
46
+ ```
47
+
48
+ ## 改行の無視
49
+
50
+ 通常モードでは、画像内で記述された情報に従い、改行を行います。 `--ignore_line_break` オプションを使用することで、画像の改行位置を無視して、段落内の同一文章を連結して返すことが可能です。
51
+
52
+ ```
53
+ yomitoku ${path_data} --ignore_line_break
54
+ ```
55
+
56
+ ## 図やグラフ画像の出力
57
+
58
+ 通常モードでは、文書画像内の含まれる図や画像の情報を出力しません。`--figure`オプションを使用することで、文書画像に含まれる、図や画像を切り出し、個別の画像として保存、また、出力ファイル内に検出した個別の画像に対するリンクを出力します。
59
+
60
+ ```
61
+ yomitoku ${path_data} --figure
62
+ ```
63
+
64
+ ## 図や画像内に含まれる文字の出力
65
+
66
+ 通常モードでは、図や画像内に含まれる文字情報は出力ファイルに出力しません。 `--figure_letter` オプションを使用することで、画像や図に含まれる文字情報も出力ファイルに出力します。
67
+
68
+ ```
69
+ yomitoku ${path_data} --figure_letter
70
+ ```
71
+
72
+ ## 出力ファイルの文字コードの指定
73
+
74
+ 出力ファイルの文字コードを`--encoding`オプションにて指定できます。(utf-8, utf-8-sig, shift-jis, enc-jp, cp932)。サポートされていない文字コードが含まれる場合は、その文字を無視し、出力しません。
75
+
76
+ ```
77
+ yomitoku ${path_data} --encoding utf-8-sig
78
+ ```
79
+
80
+ ## コンフィグのパスの指定
81
+
82
+ 各モジュールに対する config ファイルのパスを指定します。
83
+
84
+ - `--td_cfg`: Text Detector に対する config が記述された yaml ファイルに対するパス
85
+ - `--tr_cfg`: Text Recognizer に対する config が記述された yaml ファイルに対するパス
86
+ - `--lp_cfg`: Layout Parser に対する config が記述された yaml ファイルに対するパス
87
+ - `--tsr_cfg`: Table Structure Recognizer に対する config が記述された yaml ファイルに対するパス
88
+
89
+ ```
90
+ yomitoku ${path_data} --td_cfg ${path_yaml}
91
+ ```
92
+
93
+ ## メタ情報を出力ファイルに加えない
94
+
95
+ ヘッダーやフッター等のメタデータを出力ファイルに加えないようにすることができます。
96
+
97
+ ```
98
+ yomitoku ${path_data} --ignore_meta
99
+ ```
100
+
101
+ ## 複数ページを統合する
102
+
103
+ PDFに複数ページが含まれる場合に複数ページを一つのファイルにまとめてエクスポートできます。
104
+
105
+ ```
106
+ yomitoku ${path_data} -f md --combine
107
+ ```
@@ -0,0 +1,94 @@
1
+ # Configuration
2
+
3
+ The configurable parameters for each module are explained.
4
+
5
+ ## Text Detector
6
+
7
+ ### input data
8
+
9
+ ```yaml
10
+ data:
11
+ # If the number of pixels on the shorter side of the image falls below the specified value, the image will be enlarged to ensure that it meets or exceeds the pixel count set here.
12
+ shortest_size: int
13
+
14
+ # If the number of pixels on the longer side of the image exceeds the specified value, the image will be resized to ensure that it is equal to or less than the pixel count set here.
15
+ limit_size: int
16
+ ```
17
+
18
+ ### post process
19
+
20
+ ```yaml
21
+ post_process:
22
+ #If the size of the larger side of the detected area falls below the specified value, the area will be removed.
23
+ min_size: int
24
+
25
+ # This is the threshold for the model's prediction score. Pixels with prediction scores below the specified threshold will be treated as background regions.
26
+ thresh: float
27
+
28
+ # The threshold for the model's prediction score is used to treat pixels with prediction scores below the specified threshold as background regions.
29
+ box_thresh: float
30
+
31
+ # The maximum number of detectable text regions.
32
+ max_candidates: int
33
+
34
+ # A parameter to set the size of the margin area for text regions. Larger values increase the margin around text regions, allowing for detection with more whitespace, while smaller values result in tighter detection.
35
+ unclip_ratio: int
36
+
37
+ ### Visualization
38
+
39
+ ```yaml
40
+ visualize:
41
+ # The color of the bounding box for the detected regions.
42
+ color: [B, G, R]
43
+
44
+ # Whether to visualize and render the model's prediction heatmap.
45
+ heatmap: boolean
46
+ ```
47
+
48
+ ## Text Recognizer
49
+
50
+ ### maximum text length
51
+ ```yaml
52
+ # The maximum string length that can be predicted.
53
+ max_label_length: int
54
+ ```
55
+
56
+ ### input data
57
+
58
+ ```yaml
59
+ data:
60
+ # The number of images used for batch processing.
61
+ batch_size: int
62
+ ```
63
+
64
+ ### visualization
65
+
66
+ ```yaml
67
+ visualize:
68
+ # The path to the font used for visualizing the predicted result strings.
69
+ font: str
70
+
71
+ # The color of the font used for visualizing the predicted result strings.
72
+ color: [BGR]
73
+
74
+ # The font size of the predicted result strings.
75
+ font_size: int
76
+ ```
77
+
78
+ ## Layout_parser
79
+
80
+ ### threshold of prediction score
81
+
82
+ ```yaml
83
+ # Regions with prediction scores below the specified threshold will be excluded based on the threshold for the model's prediction score.
84
+ thresh_score: float
85
+ ```
86
+
87
+ ## Table Structure Recognizer
88
+
89
+ ### threshold of prediction score
90
+
91
+ ```yaml
92
+ # Regions with prediction scores below the specified threshold will be excluded based on the threshold for the model's prediction score.
93
+ thresh_score: float
94
+ ```